このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200608となっている論文です。

PDF登録状況(公開日: 20200608)

TitleAuthorsAbstract論文公表日・翻訳日
# 軽量残響結合型畳み込みニューラルネットワーク

Lightweight Residual Densely Connected Convolutional Neural Network ( http://arxiv.org/abs/2001.00526v2 )

ライセンス: Link先を確認
Fahimeh Fooladgar and Shohreh Kasaei(参考訳) 非常に効率的な畳み込みニューラルネットワークアーキテクチャは、限られたリソースデバイス(組み込みデバイスやモバイルデバイスなど)にとって最も重要な要件の1つです。 コンピューティングパワーとメモリサイズは、これらのデバイスの2つの重要な制約である。 近年、特定のハードウェア・ソフトウェア機器を考慮し、これらの制限を克服するアーキテクチャが提案されている。 本稿では,畳み込みニューラルネットワークの深い監視,効率的な勾配流,特徴的再利用能力を実現するため,軽量な残留密結合ブロックを提案する。 提案手法は,パラメータや計算操作の数を削減しつつ,実現可能な精度を実現し,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。 大規模な実験結果から,提案アーキテクチャはモデルサイズ,要求パラメータ,さらには精度の観点から,AlexNetやVGGNetよりも効率的であることが示された。 提案モデルはImageNet, MNIST, Fashion MNIST, SVHN, CIFAR-10, CIFAR-100で評価されている。 Fashion MNISTデータセットの最先端結果と、他のデータに対する妥当な結果を達成する。 その結果,提案手法がSqueezNetなどの効率的なモデルに優れていることを示す。 また、CondenseNetやShuffleNetのような最先端の効率的なモデルに匹敵する。

Extremely efficient convolutional neural network architectures are one of the most important requirements for limited-resource devices (such as embedded and mobile devices). The computing power and memory size are two important constraints of these devices. Recently, some architectures have been proposed to overcome these limitations by considering specific hardware-software equipment. In this paper, the lightweight residual densely connected blocks are proposed to guaranty the deep supervision, efficient gradient flow, and feature reuse abilities of convolutional neural network. The proposed method decreases the cost of training and inference processes without using any special hardware-software equipment by just reducing the number of parameters and computational operations while achieving a feasible accuracy. Extensive experimental results demonstrate that the proposed architecture is more efficient than the AlexNet and VGGNet in terms of model size, required parameters, and even accuracy. The proposed model has been evaluated on the ImageNet, MNIST, Fashion MNIST, SVHN, CIFAR-10, and CIFAR-100. It achieves state-of-the-art results on Fashion MNIST dataset and reasonable results on the others. The obtained results show the superiority of the proposed method to efficient models such as the SqueezNet. It is also comparable with state-of-the-art efficient models such as CondenseNet and ShuffleNet.
翻訳日:2023-01-16 03:53:01 公開日:2020-06-08
# 多孔質材料のビッグデータ科学:材料ゲノムと機械学習

Big-Data Science in Porous Materials: Materials Genomics and Machine Learning ( http://arxiv.org/abs/2001.06728v3 )

ライセンス: Link先を確認
Kevin Maik Jablonka, Daniele Ongari, Seyed Mohamad Moosavi, Berend Smit(参考訳) 金属ノードと有機リンカーを組み合わせることで、数百万の金属有機フレームワーク(MOF)を合成することができる。 現在、1万以上の合成材料と数百万のインシリコ予測材料からなる図書館がある。 これほど多くの材料があるという事実は、特定の用途に最適な材料を仕立てるために多くのエキサイティングな道を開く。 しかし、実験的かつ計算的な観点からは、単にブルートフォース技術を使ってスクリーンに映す材料が多すぎるだけである。 本総説では,大量の材料を持つことで,これらの材料の研究や複雑な相関関係の発見にビッグデータ手法を活用できることを示す。 レビューの最初のパートでは、ビッグデータ科学の原則を紹介している。 我々は、データ収集の重要性、小さなデータセットの強化方法、適切なトレーニングセットの選択方法について強調する。 このレビューの重要な部分は、これらの材料を特徴空間で表現するために使用される異なるアプローチである。 このレビューには、さまざまなMLテクニックの概観も含まれているが、多孔質材料におけるほとんどのアプリケーションは、教師付きMLを使用するため、我々のレビューは、教師付きMLの異なるアプローチに焦点を当てている。 特に、MLプロセスを最適化する異なる手法と、異なる手法の性能を定量化する方法についてレビューする。 第2部では,多孔質材料にMLの異なるアプローチを適用した方法について述べる。 特に, ガス貯蔵・分離分野, 材料安定性, 電子特性, 合成分野への応用について論じる。 トピックの範囲は、ビッグデータ科学で研究可能な、さまざまなトピックを示しています。 mlにおける科学コミュニティの関心が高まる中、このリストは今後数年で急速に拡大すると予想しています。

By combining metal nodes with organic linkers we can potentially synthesize millions of possible metal organic frameworks (MOFs). At present, we have libraries of over ten thousand synthesized materials and millions of in-silico predicted materials. The fact that we have so many materials opens many exciting avenues to tailor make a material that is optimal for a given application. However, from an experimental and computational point of view we simply have too many materials to screen using brute-force techniques. In this review, we show that having so many materials allows us to use big-data methods as a powerful technique to study these materials and to discover complex correlations. The first part of the review gives an introduction to the principles of big-data science. We emphasize the importance of data collection, methods to augment small data sets, how to select appropriate training sets. An important part of this review are the different approaches that are used to represent these materials in feature space. The review also includes a general overview of the different ML techniques, but as most applications in porous materials use supervised ML our review is focused on the different approaches for supervised ML. In particular, we review the different method to optimize the ML process and how to quantify the performance of the different methods. In the second part, we review how the different approaches of ML have been applied to porous materials. In particular, we discuss applications in the field of gas storage and separation, the stability of these materials, their electronic properties, and their synthesis. The range of topics illustrates the large variety of topics that can be studied with big-data science. Given the increasing interest of the scientific community in ML, we expect this list to rapidly expand in the coming years.
翻訳日:2023-01-10 05:29:59 公開日:2020-06-08
# テキストゲームのための探索型言語学習

Exploration Based Language Learning for Text-Based Games ( http://arxiv.org/abs/2001.08868v2 )

ライセンス: Link先を確認
Andrea Madotto, Mahdi Namazifar, Joost Huizinga, Piero Molino, Adrien Ecoffet, Huaixiu Zheng, Alexandros Papangelis, Dian Yu, Chandra Khatri, Gokhan Tur(参考訳) 本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。 テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。 これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。 さらに、これらのスキルは固定コーパスではなく、環境とのインタラクションを通じて身につけることができる学習環境を提供する。 これらのゲームが学習エージェントにとって特に困難なのは、組合せ的に大きなアクション空間である。 既存のテキストベースのゲーム解決方法は、非常に単純なゲームか、あるいは所定の許容アクションセットに制限されたアクション空間を持つゲームに限られる。 本研究では,Go-Exploreの探索手法をテキストベースのゲームに応用することを提案する。 より具体的には、最初の探索段階において、まず高い報酬で軌跡を抽出し、その後、これらの軌跡を模倣してゲームを解く政策を訓練する。 実験の結果,この手法は,テキストベースのゲームでは既存のソリューションよりも優れており,環境とのインタラクション数の観点からよりサンプル効率が高いことがわかった。 さらに,学習方針は,アクション空間の制約を使わずに,既存の未確認ゲームに対する解よりも一般化可能であることを示す。

This work presents an exploration and imitation-learning-based agent capable of state-of-the-art performance in playing text-based computer games. Text-based computer games describe their world to the player through natural language and expect the player to interact with the game using text. These games are of interest as they can be seen as a testbed for language understanding, problem-solving, and language generation by artificial agents. Moreover, they provide a learning environment in which these skills can be acquired through interactions with an environment rather than using fixed corpora. One aspect that makes these games particularly challenging for learning agents is the combinatorially large action space. Existing methods for solving text-based games are limited to games that are either very simple or have an action space restricted to a predetermined set of admissible actions. In this work, we propose to use the exploration approach of Go-Explore for solving text-based games. More specifically, in an initial exploration phase, we first extract trajectories with high rewards, after which we train a policy to solve the game by imitating these trajectories. Our experiments show that this approach outperforms existing solutions in solving text-based games, and it is more sample efficient in terms of the number of interactions with the environment. Moreover, we show that the learned policy can generalize better than existing solutions to unseen games without using any restriction on the action space.
翻訳日:2023-01-07 04:49:28 公開日:2020-06-08
# ERNIE-GEN: 自然言語生成のためのマルチフロー事前学習および微調整フレームワーク

ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation ( http://arxiv.org/abs/2001.11314v3 )

ライセンス: Link先を確認
Dongling Xiao, Han Zhang, Yukun Li, Yu Sun, Hao Tian, Hua Wu and Haifeng Wang(参考訳) 現在の自然言語生成における事前学習は、下流タスクの露出バイアスの問題にほとんど注意を払わない。 そこで本研究では,インフィルディング生成機構とノイズアウェア生成手法を用いて,トレーニングと推論の相違を橋渡しするernie-genという,シーケンス事前学習と微調整のためのマルチフローシーケンスの拡張を提案する。 人間の文章パターンに近づくために、このフレームワークは単語ごとの予測ではなく、連続的に意味論的に完全であるスパンを予測するようにモデルを訓練するスパン・バイ・スパン生成フローを導入する。 既存のプリトレーニング方法とは異なり、ernie-genはマルチグラニュラリティーのターゲットサンプリングを組み込んでプリトレーニングデータを構築し、エンコーダとデコーダの相関性を高める。 実験の結果,ERNIE-GENは,抽象的な要約(GigawordとCNN/DailyMail),質問生成(SQuAD),対話生成(Persona-Chat),生成的質問応答(CoQA)など,言語生成タスクの事前学習データとパラメータをはるかに少ない精度で達成していることがわかった。

Current pre-training works in natural language generation pay little attention to the problem of exposure bias on downstream tasks. To address this issue, we propose an enhanced multi-flow sequence to sequence pre-training and fine-tuning framework named ERNIE-GEN, which bridges the discrepancy between training and inference with an infilling generation mechanism and a noise-aware generation method. To make generation closer to human writing patterns, this framework introduces a span-by-span generation flow that trains the model to predict semantically-complete spans consecutively rather than predicting word by word. Unlike existing pre-training methods, ERNIE-GEN incorporates multi-granularity target sampling to construct pre-training data, which enhances the correlation between encoder and decoder. Experimental results demonstrate that ERNIE-GEN achieves state-of-the-art results with a much smaller amount of pre-training data and parameters on a range of language generation tasks, including abstractive summarization (Gigaword and CNN/DailyMail), question generation (SQuAD), dialogue generation (Persona-Chat) and generative question answering (CoQA).
翻訳日:2023-01-06 19:07:34 公開日:2020-06-08
# 野生の家族の認識:第4版データチャレンジのためのホワイトペーパー

Recognizing Families In the Wild: White Paper for the 4th Edition Data Challenge ( http://arxiv.org/abs/2002.06303v3 )

ライセンス: Link先を確認
Joseph P. Robinson and Yu Yin and Zaid Khan and Ming Shao and Siyu Xia and Michael Stopa and Samson Timoner and Matthew A. Turk and Rama Chellappa and Yun Fu(参考訳) RFIW(Recognizing Families In the Wild)は、様々な視覚的親族に基づく様々な課題を従来よりもはるかに高いスケールでサポートする、大規模かつ多トラックの自動親族認識評価である。 第15回IEEE International Conference on Automatic Face and Gesture Recognition (FG)がチャレンジとして開催され、RFIWはオリジナルの作品を公開するためのプラットフォームと、次のステップについて議論する専門家の集まりを提供する。 本稿では,実践的モチベーション,技術的背景,データ分割,メトリクス,ベンチマーク結果などを含む評価プロトコルにおける支援課題(親子検証,三対象検証,行方不明児の検索・検索など)を要約する。 さらに、トップ投稿(すなわちリーダーボードの統計)は、問題の状況に関するハイレベルな分析としてリストアップされ、レビューされる。 最後に、本稿の目的は2020年のrfiwチャレンジを、今後の方向性を予測しながら、エンドツーエンドで記述することである。

Recognizing Families In the Wild (RFIW): an annual large-scale, multi-track automatic kinship recognition evaluation that supports various visual kin-based problems on scales much higher than ever before. Organized in conjunction with the 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG) as a Challenge, RFIW provides a platform for publishing original work and the gathering of experts for a discussion of the next steps. This paper summarizes the supported tasks (i.e., kinship verification, tri-subject verification, and search & retrieval of missing children) in the evaluation protocols, which include the practical motivation, technical background, data splits, metrics, and benchmark results. Furthermore, top submissions (i.e., leader-board stats) are listed and reviewed as a high-level analysis on the state of the problem. In the end, the purpose of this paper is to describe the 2020 RFIW challenge, end-to-end, along with forecasts in promising future directions.
翻訳日:2022-12-31 23:10:19 公開日:2020-06-08
# 対人訓練における神経機能的リーダーの追跡

Follow the Neurally-Perturbed Leader for Adversarial Training ( http://arxiv.org/abs/2002.06476v2 )

ライセンス: Link先を確認
Ari Azarafrooz(参考訳) 学習のゲーム理論モデルは、多目的アーキテクチャを最適化する強力なモデルの集合である。 これらのモデルの中には、逆学習フレームワークに触発されたゼロサムアーキテクチャがある。 これらのゼロサムアーキテクチャの重要な欠点は、勾配ベースのトレーニングが弱い収束と循環ダイナミクスをもたらすことである。 循環的挙動を伴わない混合ナッシュ平衡への収束を保証するゼロサムアーキテクチャのリーダートレーニングアルゴリズムを提案する。 摂動が神経媒介剤の結果である摂動リーダーアルゴリズム(perturbed leader algorithm)の特殊なタイプである。 我々は,この学習アルゴリズムを凸・非凸損失を持つゲームや,生成的対角構造に応用して理論的結果を検証する。 さらに,逆模倣学習アプリケーションに対して,このアルゴリズムの実装をカスタマイズする。 トレーニングのすべてのステップにおいて、仲介者エージェントは生成されたコードで観察を妨害する。 これらの仲介符号の結果として,提案アルゴリズムは様々な要因の異なる環境下での学習にも有効である。 我々は、手続き的に生成されたゲーム環境と合成データを用いてアサーションを検証する。 Githubの実装は利用可能だ。

Game-theoretic models of learning are a powerful set of models that optimize multi-objective architectures. Among these models are zero-sum architectures that have inspired adversarial learning frameworks. An important shortcoming of these zeros-sum architectures is that gradient-based training leads to weak convergence and cyclic dynamics. We propose a novel follow the leader training algorithm for zeros-sum architectures that guarantees convergence to mixed Nash equilibrium without cyclic behaviors. It is a special type of follow the perturbed leader algorithm where perturbations are the result of a neural mediating agent. We validate our theoretical results by applying this training algorithm to games with convex and non-convex loss as well as generative adversarial architectures. Moreover, we customize the implementation of this algorithm for adversarial imitation learning applications. At every step of the training, the mediator agent perturbs the observations with generated codes. As a result of these mediating codes, the proposed algorithm is also efficient for learning in environments with various factors of variations. We validate our assertion by using a procedurally generated game environment as well as synthetic data. Github implementation is available.
翻訳日:2022-12-31 17:49:45 公開日:2020-06-08
# 生体模倣ロボットヘッドの制御を学習する必要のない運動系構造を模擬したスパイクニューラルネットワーク

A Spiking Neural Network Emulating the Structure of the Oculomotor System Requires No Learning to Control a Biomimetic Robotic Head ( http://arxiv.org/abs/2002.07534v2 )

ライセンス: Link先を確認
Praveenram Balachandar and Konstantinos P. Michmizos(参考訳) ロボットビジョンは、変化する環境において、変化の速いノイズの多い情報をリアルタイムに処理するための要件を導入する。 現実の環境では、静的カメラシステムやディープラーニングアルゴリズムのような便利な仮定は、理想的にはわずかに変化する大量のデータを探索することは困難である。 眼球運動に伴うニューラルコネクトームの最近の研究を利用して、神経形態の眼球運動制御器を設計し、体内のバイオミメティックロボットヘッドプロトタイプの中心に配置した。 コントローラは、(1)全てのデータがスパイクニューラルネットワーク(SNN)によって符号化され、処理され、(2)関連する脳領域のトポロジーを模倣することにより、SNNは生物学的に解釈可能で、操作する訓練を必要としないという意味でユニークである。 本稿では,ロボットの目標追跡能力について報告し,その眼運動学がヒトの眼球研究で報告されているものと類似していることを示し,snの機能に必須ではないが,生物学的に拘束された学習がさらなる性能向上に利用できることを示す。 この研究は、エネルギー効率の良いニューロモルフィックSNNを開発し、その新しい知性を活用して、汎用性と堅牢性でバイオミメティクスロボットを制御しようとしている。

Robotic vision introduces requirements for real-time processing of fast-varying, noisy information in a continuously changing environment. In a real-world environment, convenient assumptions, such as static camera systems and deep learning algorithms devouring high volumes of ideally slightly-varying data are hard to survive. Leveraging on recent studies on the neural connectome associated with eye movements, we designed a neuromorphic oculomotor controller and placed it at the heart of our in-house biomimetic robotic head prototype. The controller is unique in the sense that (1) all data are encoded and processed by a spiking neural network (SNN), and (2) by mimicking the associated brain areas' topology, the SNN is biologically interpretable and requires no training to operate. Here, we report the robot's target tracking ability, demonstrate that its eye kinematics are similar to those reported in human eye studies and show that a biologically-constrained learning, although not required for the SNN's function, can be used to further refine its performance. This work aligns with our ongoing effort to develop energy-efficient neuromorphic SNNs and harness their emerging intelligence to control biomimetic robots with versatility and robustness.
翻訳日:2022-12-30 20:09:59 公開日:2020-06-08
# ロジスティックバンディットの楽観的アルゴリズムの改善

Improved Optimistic Algorithms for Logistic Bandits ( http://arxiv.org/abs/2002.07530v2 )

ライセンス: Link先を確認
Louis Faury, Marc Abeille, Cl\'ement Calauz\`enes, Olivier Fercoq(参考訳) 一般化線形バンディットフレームワークは、よく理解された線形設定を拡張し、よりリッチな報酬構造をモデル化することで、近年多くの注目を集めている。 特に、報酬がバイナリであるときに広く使用されるロジスティックモデルをカバーする。 ロジスティックな盗賊にとって、既存のアルゴリズムの頻繁な後悔の保証は$\tilde{\mathcal{O}}(\kappa \sqrt{T})$であり、$\kappa$は問題依存定数である。 残念ながら、$\kappa$ は決定セットのサイズに指数関数的にスケールするので任意に大きくなる。 これは、非常にゆるやかな後悔と経験的なパフォーマンスをもたらす可能性がある。 本稿では,$\kappa$が導入した禁止的依存関係に着目して,ロジスティックバンディットについて検討する。 本稿では,報奨関数の非線形性を詳細に検討した新しい楽観的アルゴリズムを提案する。 我々は、$\tilde{\mathcal{O}}(\sqrt{T})$ regretを楽しんでおり、$\kappa$に依存せず、二項目の項で表現する。 我々の分析は、独立した関心を持つ自己正規化マリンガレに対する新しい尾不等式に基づいている。

The generalized linear bandit framework has attracted a lot of attention in recent years by extending the well-understood linear setting and allowing to model richer reward structures. It notably covers the logistic model, widely used when rewards are binary. For logistic bandits, the frequentist regret guarantees of existing algorithms are $\tilde{\mathcal{O}}(\kappa \sqrt{T})$, where $\kappa$ is a problem-dependent constant. Unfortunately, $\kappa$ can be arbitrarily large as it scales exponentially with the size of the decision set. This may lead to significantly loose regret bounds and poor empirical performance. In this work, we study the logistic bandit with a focus on the prohibitive dependencies introduced by $\kappa$. We propose a new optimistic algorithm based on a finer examination of the non-linearities of the reward function. We show that it enjoys a $\tilde{\mathcal{O}}(\sqrt{T})$ regret with no dependency in $\kappa$, but for a second order term. Our analysis is based on a new tail-inequality for self-normalized martingales, of independent interest.
翻訳日:2022-12-30 19:24:08 公開日:2020-06-08
# 連続圏:新しい単純x値指数関数族

The continuous categorical: a novel simplex-valued exponential family ( http://arxiv.org/abs/2002.08563v2 )

ライセンス: Link先を確認
Elliott Gordon-Rodriguez, Gabriel Loaiza-Ganem, John P. Cunningham(参考訳) simplex-valuedデータは、例えばディープネットワークの転送学習や圧縮といった文脈で、統計や機械学習全体に現れる。 このようなデータに対する既存のモデルは、ディリクレ分布や他の関連する損失関数に依存する。ここでは、これらの標準選択が、これらの分布の上流における柔軟なネットワークモデルの使用をいら立たせるバイアスや数値問題など、多くの制限によって体系的に苦しめられていることを示している。 最近発見された連続ベルヌーイの非自明な多変量一般化として生じる連続圏(英語版)(continuous categorical)をモデル化するための新しい指数関数列を導入することで、これらの制限を解消する。 ディリクレや他の典型的な選択とは異なり、連続圏は、偏りのない推定子を産み出す優れた確率的損失関数をもたらすが、ジリクレの数学的単純さは保たれる。 本稿では,その理論的性質を探求するとともに,再パラメータ化手法に適合する分布のサンプリング手法を導入し,その性能評価を行う。 最後に,シミュレーション研究,多政党選挙の応用例,ニューラルネットワーク圧縮タスクにおいて,連続的カテゴリが標準選択を経験的に上回っていることを示す。

Simplex-valued data appear throughout statistics and machine learning, for example in the context of transfer learning and compression of deep networks. Existing models for this class of data rely on the Dirichlet distribution or other related loss functions; here we show these standard choices suffer systematically from a number of limitations, including bias and numerical issues that frustrate the use of flexible network models upstream of these distributions. We resolve these limitations by introducing a novel exponential family of distributions for modeling simplex-valued data - the continuous categorical, which arises as a nontrivial multivariate generalization of the recently discovered continuous Bernoulli. Unlike the Dirichlet and other typical choices, the continuous categorical results in a well-behaved probabilistic loss function that produces unbiased estimators, while preserving the mathematical simplicity of the Dirichlet. As well as exploring its theoretical properties, we introduce sampling methods for this distribution that are amenable to the reparameterization trick, and evaluate their performance. Lastly, we demonstrate that the continuous categorical outperforms standard choices empirically, across a simulation study, an applied example on multi-party elections, and a neural network compression task.
翻訳日:2022-12-30 06:42:33 公開日:2020-06-08
# 限られたデータを用いた情報抽出のための転送学習

Transfer Learning for Information Extraction with Limited Data ( http://arxiv.org/abs/2003.03064v2 )

ライセンス: Link先を確認
Minh-Tien Nguyen, Viet-Anh Phan, Le Thai Linh, Nguyen Hong Son, Le Tien Dung, Miku Hirano and Hajime Hotta(参考訳) 本稿では,詳細な情報抽出手法を提案する。 情報抽出をビジネスプロセス自動化に適用した多くの著者の経験を通じて、基本的な技術的な課題がいくつか見つかる。 (i)ラベル付きデータの可用性は通常制限され、 (ii)高度に詳細な分類が必要である。 提案手法の主な考え方は,ディープニューラルネットワークの事前学習モデルと,抽出された各用語のクラスを決定する共通統計分類器の組み合わせを再利用するトランスファー学習の概念を活用することである。 まず,実シナリオにおけるトレーニングデータの制限に対応するためにBERTを使用し,次に畳み込みニューラルネットワークを用いてBERTを積み重ねて,分類のための隠れ表現を学習する。 本手法を検証するために,我が国の政府プロジェクトに対する競争入札のプロセスである文書処理の実際の事例に本モデルを適用した。 我々は,100の文書をトレーニングとテストに使用し,アプリケーションレシーバーの部門名など,対象業務プロセスに特化している詳細な情報精度で,詳細な名前付きエンティティを抽出できることを確認した。

This paper presents a practical approach to fine-grained information extraction. Through plenty of experiences of authors in practically applying information extraction to business process automation, there can be found a couple of fundamental technical challenges: (i) the availability of labeled data is usually limited and (ii) highly detailed classification is required. The main idea of our proposal is to leverage the concept of transfer learning, which is to reuse the pre-trained model of deep neural networks, with a combination of common statistical classifiers to determine the class of each extracted term. To do that, we first exploit BERT to deal with the limitation of training data in real scenarios, then stack BERT with Convolutional Neural Networks to learn hidden representation for classification. To validate our approach, we applied our model to an actual case of document processing, which is a process of competitive bids for government projects in Japan. We used 100 documents for training and testing and confirmed that the model enables to extract fine-grained named entities with a detailed level of information preciseness specialized in the targeted business process, such as a department name of application receivers.
翻訳日:2022-12-26 01:04:07 公開日:2020-06-08
# 胸部X線診断のための注意機構をもつ文字レベル日本語テキスト生成

Character-level Japanese Text Generation with Attention Mechanism for Chest Radiography Diagnosis ( http://arxiv.org/abs/2004.13846v2 )

ライセンス: Link先を確認
Kenya Sakka, Kotaro Nakayama, Nisei Kimura, Taiki Inoue, Yusuke Iwasawa, Ryohei Yamaguchi, Yosimasa Kawazoe, Kazuhiko Ohe, Yutaka Matsuo(参考訳) 胸部x線撮影は患者の状態を診断し、重要な情報を同定するための一般的な方法であり、救急医療や検診などの様々な状況において、日常的な診療に広く用いられている。 しかし胸部x線画像の解釈には高度な専門知識が必要である。 このように、医療専門家は、このような膨大な量のラジオグラフィーの診断にかなりの時間を費やしている。 これらの問題を解決するために, 結果を生成する手法が提案されている。 しかし,胸部x線写真作成の研究は主に英語に焦点をあてており,我々の知る限りでは日本語データの研究は行われていない。 日本語における発見の生成には2つの課題がある。 最初の課題は、日本語の単語の境界が明確でないため、単語分割が難しいことである。 第二の課題は、多くの正書法の変種が存在することである。 これら2つの課題に対処するため,胸部X線写真から日本語の指標を抽出するエンドツーエンドモデルを提案した。 また,結果の解釈能力だけでなく,精度を向上させるための注意機構も導入した。 提案手法は,日本語データを用いた公開データセットを用いて評価した。 提案手法の有効性は,バイリンガル評価スコアを用いて確認した。 また, 得られた結果から, 提案手法が正書法を検討できることを確認した。 さらに, 視覚検査により, 注意機構が画像の特徴や位置情報を捉えていることを確認した。

Chest radiography is a general method for diagnosing a patient's condition and identifying important information; therefore, radiography is used extensively in routine medical practice in various situations, such as emergency medical care and medical checkup. However, a high level of expertise is required to interpret chest radiographs. Thus, medical specialists spend considerable time in diagnosing such huge numbers of radiographs. In order to solve these problems, methods for generating findings have been proposed. However, the study of generating chest radiograph findings has primarily focused on the English language, and to the best of our knowledge, no studies have studied Japanese data on this subject. There are two challenges involved in generating findings in the Japanese language. The first challenge is that word splitting is difficult because the boundaries of Japanese word are not clear. The second challenge is that there are numerous orthographic variants. For deal with these two challenges, we proposed an end-to-end model that generates Japanese findings at the character-level from chest radiographs. In addition, we introduced the attention mechanism to improve not only the accuracy, but also the interpretation ability of the results. We evaluated the proposed method using a public dataset with Japanese findings. The effectiveness of the proposed method was confirmed using the Bilingual Evaluation Understudy score. And, we were confirmed from the generated findings that the proposed method was able to consider the orthographic variants. Furthermore, we confirmed via visual inspection that the attention mechanism captures the features and positional information of radiographs.
翻訳日:2022-12-16 05:26:31 公開日:2020-06-08
# COVID19について語るとき、何が落ち込むのか:自然言語処理を用いたツイートのメンタルヘルス分析

What are We Depressed about When We Talk about COVID19: Mental Health Analysis on Tweets Using Natural Language Processing ( http://arxiv.org/abs/2004.10899v3 )

ライセンス: Link先を確認
Irene Li, Yixin Li, Tianxiao Li, Sergio Alvarez-Napagao, Dario Garcia-Gasulla and Toyotaro Suzumura(参考訳) 新型コロナウイルス感染症2019(COVID-19)の流行は、ヒトの生活に大きな影響を与えている。 直接的な身体的および経済的な脅威に加えて、パンデミックは人々の精神状態にも間接的に影響を及ぼす。 この問題は、失業状況、在宅政策、ウイルスに対する恐れなど、さまざまな理由による可能性がある。 本研究では,メンタルヘルスの観点からのつぶやきの分析に自然言語処理(NLP)技術を適用することに焦点を当てる。 それぞれのツイートを、怒り、期待、嫌悪感、恐怖、喜び、悲しみ、驚き、信頼といった感情に分類する深いモデルをトレーニングしました。 EmoCT(Emotion-Covid19-Tweet)データセットを構築し、1000の英語ツイートを手動でラベル付けする。 さらに,悲しみと恐怖を引き起こす要因を明らかにするために,二つの方法を提案し比較する。

The outbreak of coronavirus disease 2019 (COVID-19) recently has affected human life to a great extent. Besides direct physical and economic threats, the pandemic also indirectly impact people's mental health conditions, which can be overwhelming but difficult to measure. The problem may come from various reasons such as unemployment status, stay-at-home policy, fear for the virus, and so forth. In this work, we focus on applying natural language processing (NLP) techniques to analyze tweets in terms of mental health. We trained deep models that classify each tweet into the following emotions: anger, anticipation, disgust, fear, joy, sadness, surprise and trust. We build the EmoCT (Emotion-Covid19-Tweet) dataset for the training purpose by manually labeling 1,000 English tweets. Furthermore, we propose and compare two methods to find out the reasons that are causing sadness and fear.
翻訳日:2022-12-10 17:38:29 公開日:2020-06-08
# 深部ニューラルネットワークの完全リプシッツ定数の推定

Estimating Full Lipschitz Constants of Deep Neural Networks ( http://arxiv.org/abs/2004.13135v2 )

ライセンス: Link先を確認
Calypso Herrera, Florian Krach, Josef Teichmann(参考訳) 我々は、ディープニューラルネットワークの勾配とネットワーク自体のリプシッツ定数を、パラメータの完全な集合に対して推定する。 まず、より一般的な枠組みで、制御された常微分方程式の解として表現できる全てのニューラルネットワークに対して、時間が連続的な深さとして現れる。 これらの推定値は、一例に示すような確率勾配降下法のステップサイズを設定するのに利用できる。

We estimate the Lipschitz constants of the gradient of a deep neural network and the network itself with respect to the full set of parameters. We first develop estimates for a deep feed-forward densely connected network and then, in a more general framework, for all neural networks that can be represented as solutions of controlled ordinary differential equations, where time appears as continuous depth. These estimates can be used to set the step size of stochastic gradient descent methods, which is illustrated for one example method.
翻訳日:2022-12-09 04:53:42 公開日:2020-06-08
# ポリグリド変換のスムーズな補間のための高速かつメモリ効率のアルゴリズム:ヒト関節追跡への応用

A fast and memory-efficient algorithm for smooth interpolation of polyrigid transformations: application to human joint tracking ( http://arxiv.org/abs/2005.02159v3 )

ライセンス: Link先を確認
K. Makki, B. Borotikar, M. Garetier, S. Brochard, D. Ben Salem, F. Rousseau(参考訳) log euclidean polyrigid registration frameworkは、可逆性が保証されるポリリジド/アフィン変換をスムーズに推定し補間する方法を提供する。 この強力で柔軟な数学的枠組みは、後から時空間の関節変形を合成するために骨剛性制約を課すことによって、人間の関節動態を追跡するために現在使用されている。 しかし、クローズド形式は存在しないため、このフレームワークを用いて画像登録を行うには、通常の微分方程式(ODE)の計算コストがかかる。 この問題に対処するために、これらのODEを解く指数写像は、文献におけるスケーリング法とスクアリング法を用いて計算される。 本稿では,運動中のヒト関節の均質ポリリジッド変換の滑らかな補間のための行列対角化に基づくアルゴリズムを提案する。 このオルタナティブな計算手法によるODEの統合は、骨剛性変換が人間の関節運動の機械的制約を満たすという事実により、局所的な骨変換の対角化と結果として生じる関節変換を確実にする条件を提供する。 スケーリング・スカーリング法と比較し,密度の高い正則格子上の行列指数関数の計算に伴う計算負荷を大幅に低減する行列固有分解法の有用性について考察した。 最後に, 足関節の動的MRIの時間分解能を高めるために本手法を適用した。 数値実験の結果,固有デコンポジション法は精度,計算時間,メモリ要求のトレードオフのバランスをとることができることがわかった。

The log Euclidean polyrigid registration framework provides a way to smoothly estimate and interpolate poly-rigid/affine transformations for which the invertibility is guaranteed. This powerful and flexible mathematical framework is currently being used to track the human joint dynamics by first imposing bone rigidity constraints in order to synthetize the spatio-temporal joint deformations later. However, since no closed-form exists, then a computationally expensive integration of ordinary differential equations (ODEs) is required to perform image registration using this framework. To tackle this problem, the exponential map for solving these ODEs is computed using the scaling and squaring method in the literature. In this paper, we propose an algorithm using a matrix diagonalization based method for smooth interpolation of homogeneous polyrigid transformations of human joints during motion. The use of this alternative computational approach to integrate ODEs is well motivated by the fact that bone rigid transformations satisfy the mechanical constraints of human joint motion, which provide conditions that guarantee the diagonalizability of local bone transformations and consequently of the resulting joint transformations. In a comparison with the scaling and squaring method, we discuss the usefulness of the matrix eigendecomposition technique which reduces significantly the computational burden associated with the computation of matrix exponential over a dense regular grid. Finally, we have applied the method to enhance the temporal resolution of dynamic MRI sequences of the ankle joint. To conclude, numerical experiments show that the eigendecomposition method is more capable of balancing the trade-off between accuracy, computation time, and memory requirements.
翻訳日:2022-12-08 23:46:05 公開日:2020-06-08
# 参照自由機械翻訳評価による言語間エンコーダの限界について

On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation ( http://arxiv.org/abs/2005.01196v3 )

ライセンス: Link先を確認
Wei Zhao, Goran Glava\v{s}, Maxime Peyrard, Yang Gao, Robert West, Steffen Eger(参考訳) クロスリンガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットクロスリンガル転送または教師なしクロスリンガルテキスト類似性を介して行われる。 本稿では,ソースコードを,多言語エンコーダの自然な対角的設定である(低品質な)システム翻訳と直接比較する,参照自由機械翻訳(MT)の評価に関心を持つ。 参照なし評価は、MTシステムのWebスケール比較の約束である。 事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。 参照なしMT評価におけるセマンティックエンコーダとしての性能は低く,その2つの重要な制限,すなわち2つを識別する。 (a)相互翻訳の表現と、より目立つものとの意味的ミスマッチ (b)「翻訳」、すなわち低品質リテラル翻訳を罰することができないこと。 本稿では,(1)ベクトル空間のポストホックな再アライメント,(2)意味相似性に基づくメトリクスとターゲット側言語モデリングとの結合という2つの部分的治療法を提案する。 セグメントレベルのMT評価では、基準ベースのBLEUを5.7の相関点で上回っている。

Evaluation of cross-lingual encoders is usually performed either via zero-shot cross-lingual transfer in supervised downstream tasks or via unsupervised cross-lingual textual similarity. In this paper, we concern ourselves with reference-free machine translation (MT) evaluation where we directly compare source texts to (sometimes low-quality) system translations, which represents a natural adversarial setup for multilingual encoders. Reference-free evaluation holds the promise of web-scale comparison of MT systems. We systematically investigate a range of metrics based on state-of-the-art cross-lingual semantic representations obtained with pretrained M-BERT and LASER. We find that they perform poorly as semantic encoders for reference-free MT evaluation and identify their two key limitations, namely, (a) a semantic mismatch between representations of mutual translations and, more prominently, (b) the inability to punish "translationese", i.e., low-quality literal translations. We propose two partial remedies: (1) post-hoc re-alignment of the vector spaces and (2) coupling of semantic-similarity based metrics with target-side language modeling. In segment-level MT evaluation, our best metric surpasses reference-based BLEU by 5.7 correlation points.
翻訳日:2022-12-07 06:42:03 公開日:2020-06-08
# sktimeによる予測:sktimeの新しい予測APIの設計とM4研究の再現と拡張への応用

Forecasting with sktime: Designing sktime's New Forecasting API and Applying It to Replicate and Extend the M4 Study ( http://arxiv.org/abs/2005.08067v2 )

ライセンス: Link先を確認
Markus L\"oning, Franz Kir\'aly(参考訳) 我々はPythonで予測を行うための新しいオープンソースフレームワークを提案する。 私たちのフレームワークは、Scikit-learn互換インターフェースを備えた時系列のより一般的な機械学習ツールボックスであるsktimeの一部である。 新しいフレームワークは、コンポジットモデルを構築し、調整し、評価する専用の予測アルゴリズムとツールを提供します。 M4予測結果の再現と拡張にはsktimeを使用します。 特に,単変量予測のための単純なオフザシェルフ機械学習手法の可能性について検討する。 私たちの主な結果は、単純なハイブリッドアプローチが統計モデルのパフォーマンスを向上し、単純な純粋なアプローチが時間単位のデータセットで競争力のあるパフォーマンスを達成し、統計アルゴリズムを上回ってm4の勝者に近づきます。

We present a new open-source framework for forecasting in Python. Our framework forms part of sktime, a more general machine learning toolbox for time series with scikit-learn compatible interfaces for different learning tasks. Our new framework provides dedicated forecasting algorithms and tools to build, tune and evaluate composite models. We use sktime to both replicate and extend key results from the M4 forecasting study. In particular, we further investigate the potential of simple off-the-shelf machine learning approaches for univariate forecasting. Our main results are that simple hybrid approaches can boost the performance of statistical models, and that simple pure approaches can achieve competitive performance on the hourly data set, outperforming the statistical algorithms and coming close to the M4 winner.
翻訳日:2022-12-02 12:58:21 公開日:2020-06-08
# Egocentric Human Segmentation for Mixed Reality (ヒューマン・セグメンテーション)

Egocentric Human Segmentation for Mixed Reality ( http://arxiv.org/abs/2005.12074v2 )

ライセンス: Link先を確認
Andrija Gajic and Ester Gonzalez-Sosa and Diego Gonzalez-Morin and Marcos Escudero-Vi\~nolo and Alvaro Villegas(参考訳) 本研究の目的は,セマンティックセグメンテーションネットワークを用いて,身体の部位を自発的映像から切り離すことである。 私たちの貢献は2つあります。 一 15万以上の写実的画像と、異なる人口要因を含む腕又は脚等の自我中心の人体部位の画素別ラベルからなる半合成データセットを作成すること。 2thundernetアーキテクチャに基づいて、リアルタイム要求(720 x 720画像に対して16ms)を超えて実行できるディープラーニングセマンティックセグメンテーションアルゴリズムを実装した。 この手法は仮想環境の存在感を高め、標準的な仮想アバターに対するより現実的なソリューションとなると信じられている。

The objective of this work is to segment human body parts from egocentric video using semantic segmentation networks. Our contribution is two-fold: i) we create a semi-synthetic dataset composed of more than 15, 000 realistic images and associated pixel-wise labels of egocentric human body parts, such as arms or legs including different demographic factors; ii) building upon the ThunderNet architecture, we implement a deep learning semantic segmentation algorithm that is able to perform beyond real-time requirements (16 ms for 720 x 720 images). It is believed that this method will enhance sense of presence of Virtual Environments and will constitute a more realistic solution to the standard virtual avatars.
翻訳日:2022-11-29 06:14:42 公開日:2020-06-08
# sdct-auxnet$^{\theta}$:癌診断のための補助分類器を用いたdct-auxnet$^{\theta}$:dct拡張染色脱畳cnn

SDCT-AuxNet$^{\theta}$: DCT Augmented Stain Deconvolutional CNN with Auxiliary Classifier for Cancer Diagnosis ( http://arxiv.org/abs/2006.00304v2 )

ライセンス: Link先を確認
Shiv Gehlot and Anubha Gupta and Ritu Gupta(参考訳) 急性リンパ性白血病(英語: acute lymphoblastic leukemia,ALL)は、世界中の小児の白血球癌である。 畳み込みニューラルネットワーク(CNN)の人気により、コンピュータ支援によるがん診断が注目されている。 このようなツールは簡単にデプロイでき、コスト効率がよい。 これにより、がん診断施設の広範囲をカバーすることができる。 しかし, 大規模な訓練データセットが利用不可能であったため, このようなall癌治療ツールの開発は困難であった。 悪性細胞と正常細胞の視覚的類似性は、問題の複雑さを増す。 本稿では,最近の大規模データセットのリリースについて論じ,all癌細胞像の分類のための新しいディープラーニングアーキテクチャを提案する。 提案アーキテクチャ,すなわちSDCT-AuxNet$^{\theta}$は,1つのモジュールの主分類器としてコンパクトCNN,もう1つのモジュールの補助分類器としてカーネルSVMを利用する2モジュールフレームワークである。 CNN分類器は双線形プールによる特徴を用いるが、スペクトル平均化機能は補助分類器によって使用される。 また、このcnnは、従来のrgb画像ではなく、光密度領域の汚れ縮退量画像に基づいて訓練される。 予測されたクラスラベルの信頼度スコアを用いた意思決定に両分類器を利用する新しいテスト戦略を提案する。 提案手法の有効性を検証するため,最近公表された15114個のがんおよび健康細胞画像の公開データセットを用いて精巧な実験を行った。 この挑戦的なデータセットにおいて、これまでのところ最良である94.8$\%$の重み付きf1スコアが得られる。

Acute lymphoblastic leukemia (ALL) is a pervasive pediatric white blood cell cancer across the globe. With the popularity of convolutional neural networks (CNNs), computer-aided diagnosis of cancer has attracted considerable attention. Such tools are easily deployable and are cost-effective. Hence, these can enable extensive coverage of cancer diagnostic facilities. However, the development of such a tool for ALL cancer was challenging so far due to the non-availability of a large training dataset. The visual similarity between the malignant and normal cells adds to the complexity of the problem. This paper discusses the recent release of a large dataset and presents a novel deep learning architecture for the classification of cell images of ALL cancer. The proposed architecture, namely, SDCT-AuxNet$^{\theta}$ is a 2-module framework that utilizes a compact CNN as the main classifier in one module and a Kernel SVM as the auxiliary classifier in the other one. While CNN classifier uses features through bilinear-pooling, spectral-averaged features are used by the auxiliary classifier. Further, this CNN is trained on the stain deconvolved quantity images in the optical density domain instead of the conventional RGB images. A novel test strategy is proposed that exploits both the classifiers for decision making using the confidence scores of their predicted class labels. Elaborate experiments have been carried out on our recently released public dataset of 15114 images of ALL cancer and healthy cells to establish the validity of the proposed methodology that is also robust to subject-level variability. A weighted F1 score of 94.8$\%$ is obtained that is best so far on this challenging dataset.
翻訳日:2022-11-26 18:09:50 公開日:2020-06-08
# スケーラブルでクラウドネイティブなハイパーパラメータチューニングシステム

A Scalable and Cloud-Native Hyperparameter Tuning System ( http://arxiv.org/abs/2006.02085v2 )

ライセンス: Link先を確認
Johnu George, Ce Gao, Richard Liu, Hou Gang Liu, Yuan Tang, Ramdoot Pydipaty, Amit Kumar Saha(参考訳) 本稿では,その基盤となる機械学習フレームワークに非依存なスケーラブルでクラウドネイティブで実運用対応のハイパーパラメータチューニングシステムであるKatibを紹介する。 複数のハイパーパラメータチューニングシステムがあるが、これはシステムユーザと管理者の両方のニーズに対応する最初のシステムである。 特に,マルチテナンシ,スケーラビリティ,耐障害性,拡張性といった点で,既存のハイパーパラメータチューニングシステムと対比し,モチベーションと設計について述べる。 ローカルマシンにデプロイすることも、オンプレミスデータセンタやプライベート/パブリッククラウドでサービスとしてホストすることもできる。 実験結果と実世界の実運用ユースケースを用いて,本システムの有用性を実証する。 Katibは、複数の企業の積極的なコントリビュータであり、Apache 2.0ライセンスの下で、emph{https://github.com/kubeflow/katib}でオープンソース化されている。

In this paper, we introduce Katib: a scalable, cloud-native, and production-ready hyperparameter tuning system that is agnostic of the underlying machine learning framework. Though there are multiple hyperparameter tuning systems available, this is the first one that caters to the needs of both users and administrators of the system. We present the motivation and design of the system and contrast it with existing hyperparameter tuning systems, especially in terms of multi-tenancy, scalability, fault-tolerance, and extensibility. It can be deployed on local machines, or hosted as a service in on-premise data centers, or in private/public clouds. We demonstrate the advantage of our system using experimental results as well as real-world, production use cases. Katib has active contributors from multiple companies and is open-sourced at \emph{https://github.com/kubeflow/katib} under the Apache 2.0 license.
翻訳日:2022-11-25 18:38:55 公開日:2020-06-08
# ロバスト多視点学習のための階層的最適輸送

Hierarchical Optimal Transport for Robust Multi-View Learning ( http://arxiv.org/abs/2006.03160v2 )

ライセンス: Link先を確認
Dixin Luo, Hongteng Xu, Lawrence Carin(参考訳) 伝統的な多視点学習法は、しばしば2つの仮定に依拠する: (i$) 異なるビューのサンプルは整列し、(ii$) 潜在空間におけるそれらの表現は同じ分布に従う。 残念なことに、この2つの仮定は実際には疑わしい場合があり、マルチビュー学習の適用が制限される。 本研究では,これら2つの仮定への依存性を軽減するために,階層的最適輸送法を提案する。 不整合多視点データにより、HOT法は異なるビューの分布間のスライスされたワッサーシュタイン距離をペナルティ化する。 これらのスライスされたワッサースタイン距離は、ビューのクラスタリング構造を明確に示す異なるビュー間のエントロピー最適移動を計算するために地上距離として使用される。 HOT法は教師なしと半教師付きの両方の学習に適用でき、実験結果から、合成と実の両方のタスクで堅牢に動作することが示されている。

Traditional multi-view learning methods often rely on two assumptions: ($i$) the samples in different views are well-aligned, and ($ii$) their representations in latent space obey the same distribution. Unfortunately, these two assumptions may be questionable in practice, which limits the application of multi-view learning. In this work, we propose a hierarchical optimal transport (HOT) method to mitigate the dependency on these two assumptions. Given unaligned multi-view data, the HOT method penalizes the sliced Wasserstein distance between the distributions of different views. These sliced Wasserstein distances are used as the ground distance to calculate the entropic optimal transport across different views, which explicitly indicates the clustering structure of the views. The HOT method is applicable to both unsupervised and semi-supervised learning, and experimental results show that it performs robustly on both synthetic and real-world tasks.
翻訳日:2022-11-25 09:33:16 公開日:2020-06-08
# FHIR上のサーバレス: クラウド上のヘルスケアのための機械学習モデルをデプロイする

Serverless on FHIR: Deploying machine learning models for healthcare on the cloud ( http://arxiv.org/abs/2006.04748v1 )

ライセンス: Link先を確認
Bell Raj Eapen, Kamran Sartipi and Norm Archer(参考訳) 機械学習(ML)は、デジタルヘルスの実装において重要な役割を果たす。 ハードウェアの進歩とソフトウェアツールの民主化は機械学習に革命をもたらした。 しかし、効果的かつ効率的な臨床決定支援のためのMLモデル(実行すべきタスクの数学的表現)の配置は依然として課題である。 MLモデルは、高い回転率で精度と予測パワーを常に改善する。 下流医療情報システムで消費される更新モデルは患者の安全に不可欠である。 デジタルヘルスのためのクラウドベースのモデルデプロイメントのための機能的分類法と4層アーキテクチャを導入する。 4つのティアは、保守性のためのコンテナ化されたマイクロサービス、スケーラビリティのためのサーバレスアーキテクチャ、可搬性のためのサービスとしての機能、発見性のためのFHIRスキーマである。 このアーキテクチャをServerless on FHIRと呼び、EMRや可視化ツールといった下流システムで使用可能なデジタルヘルスアプリケーションをデプロイするための標準として提案します。

Machine Learning (ML) plays a vital role in implementing digital health. The advances in hardware and the democratization of software tools have revolutionized machine learning. However, the deployment of ML models -- the mathematical representation of the task to be performed -- for effective and efficient clinical decision support at the point of care is still a challenge. ML models undergo constant improvement of their accuracy and predictive power with a high turnover rate. Updating models consumed by downstream health information systems is essential for patient safety. We introduce a functional taxonomy and a four-tier architecture for cloud-based model deployment for digital health. The four tiers are containerized microservices for maintainability, serverless architecture for scalability, function as a service for portability and FHIR schema for discoverability. We call this architecture Serverless on FHIR and propose this as a standard to deploy digital health applications that can be consumed by downstream systems such as EMRs and visualization tools.
翻訳日:2022-11-24 02:53:11 公開日:2020-06-08
# 量子を用いた圧縮センシングのためのアンサンブルアプローチ

An Ensemble Approach for Compressive Sensing with Quantum ( http://arxiv.org/abs/2006.04682v1 )

ライセンス: Link先を確認
Ramin Ayanzadeh, Milton Halem and Tim Finin(参考訳) 統計的アンサンブルのアイデアを活用して、量子アニールに基づくバイナリ圧縮センシングの品質を向上させる。 量子アニール器上で量子機械命令を実行すると、与えられたハミルトニアン基底状態ではなく励起状態が得られるので、異なるペナルティパラメータを用いて、基底状態(s)が元の問題の潜在的な解を表す複数の2次非制約バイナリ最適化(QUBO)関数を生成する。 次に、得られたサンプルを、対応する(異なる)QUBOの最小化から、バイナリ圧縮センシングの問題の解を推定する。 D-Wave 2000Q量子プロセッサを用いた実験により,提案手法は,回復可能性と疎性の間のトレードオフを制御するペナルティパラメータのキャリブレーションに特に敏感でないことを示した。

We leverage the idea of a statistical ensemble to improve the quality of quantum annealing based binary compressive sensing. Since executing quantum machine instructions on a quantum annealer can result in an excited state, rather than the ground state of the given Hamiltonian, we use different penalty parameters to generate multiple distinct quadratic unconstrained binary optimization (QUBO) functions whose ground state(s) represent a potential solution of the original problem. We then employ the attained samples from minimizing all corresponding (different) QUBOs to estimate the solution of the problem of binary compressive sensing. Our experiments, on a D-Wave 2000Q quantum processor, demonstrated that the proposed ensemble scheme is notably less sensitive to the calibration of the penalty parameter that controls the trade-off between the feasibility and sparsity of recoveries.
翻訳日:2022-11-24 02:52:01 公開日:2020-06-08
# アルゴリズムによる誤り検出手法による畳み込みのレジリエンス

Making Convolutions Resilient via Algorithm-Based Error Detection Techniques ( http://arxiv.org/abs/2006.04984v1 )

ライセンス: Link先を確認
Siva Kumar Sastry Hari, Michael B. Sullivan, Timothy Tsai, and Stephen W. Keckler(参考訳) 畳み込みニューラルネットワーク(cnns)がリアルタイムテレメトリを正確に処理する能力は、安全性クリティカルで高性能なコンピューティングシステムでの使用を促進する。 このようなシステムはエラーに対して高いレベルのレジリエンスを必要とするため、CNNはハードウェアの欠陥がある場合には正しく実行する必要がある。 完全な重複は必要な保証を提供するが、100%のオーバーヘッドを負う。 アルゴリズム技術は低コストのソリューションを提供することが知られているが、CNNのデプロイメントプラットフォーム(GPU上のTensorFlowやTensorRTなど)でそのような技術の実現可能性や性能は研究されていない。 本稿では,CNNにおいて最もリソースを必要とする処理である畳み込みをアルゴリズムで検証することに焦点を当てる。 コンボリューションを検証するためにchecksumsを使用し、少量の冗長性を追加しています。 まず、複数のネットワーク層を融合させ、少ない精度で処理を行う最適化推論プラットフォームの畳み込みにアルゴリズムに基づくエラー検出(abed)を使用することで生じる課題を特定し、それらを克服する方法を実証する。 実装の複雑さ、ランタイムオーバーヘッド、カバレッジトレードオフを提供するABED手法のバリエーションを提案し評価する。 その結果、ABEDは出力を損なう可能性のある過渡的ハードウェアエラーをすべて検出でき、実行時のオーバーヘッドが低い(6-23%)ため、完全な複製に比べてワークロードに少なくとも1.6倍のスループットを提供する。

The ability of Convolutional Neural Networks (CNNs) to accurately process real-time telemetry has boosted their use in safety-critical and high-performance computing systems. As such systems require high levels of resilience to errors, CNNs must execute correctly in the presence of hardware faults. Full duplication provides the needed assurance but incurs a prohibitive 100% overhead. Algorithmic techniques are known to offer low-cost solutions, but the practical feasibility and performance of such techniques have never been studied for CNN deployment platforms (e.g., TensorFlow or TensorRT on GPUs). In this paper, we focus on algorithmically verifying Convolutions, which are the most resource-demanding operations in CNNs. We use checksums to verify convolutions, adding a small amount of redundancy, far less than full-duplication. We first identify the challenges that arise in employing Algorithm-Based Error Detection (ABED) for Convolutions in optimized inference platforms that fuse multiple network layers and use reduced-precision operations, and demonstrate how to overcome them. We propose and evaluate variations of ABED techniques that offer implementation complexity, runtime overhead, and coverage trade-offs. Results show that ABED can detect all transient hardware errors that might otherwise corrupt output and does so while incurring low runtime overheads (6-23%), offering at least 1.6X throughput to workloads compared to full duplication.
翻訳日:2022-11-24 02:47:25 公開日:2020-06-08
# マイクロコントローラのリアルタイムニューラルネットワーク実装の提案

Real-time Neural Networks Implementation Proposal for Microcontrollers ( http://arxiv.org/abs/2006.05344v1 )

ライセンス: Link先を確認
Caio J. B. V. Guimar\~aes and Marcelo A. C. Fernandes(参考訳) リアルタイムアプリケーションにハードウェアに組み込まれたArtificial Neural Networks(ANN)によるインテリジェントシステムの採用は、現在、IoT(Internet of Things)やM2M(Machine to Machine)といった分野の需要が高まっている。 しかし、ANNをこの種のシステムに適用することは、その基本的な操作を処理するのに必要な計算能力が高いために大きな課題となる。 本稿では,多層型パーセプトロン(mlp)型ニューラルネットワークの実装戦略をマイクロコントローラ(低コスト・低消費電力プラットフォーム)で示すことを目的とする。 完全な分類プロセスを備えたモジュラ行列型MLPを実装し,マイクロコントローラのバックプロパゲーショントレーニングを行った。 テストと検証は、トレーニングプロセスの平均正方形誤差(MSE)のハードウェア・イン・ザ・ループ(HIL)、分類結果、各実装モジュールの処理時間を通じて行われた。 以上の結果から,ハイパーパラメータの値と分類に必要な処理時間との線形関係が明らかとなった。 これらの結果は、この実装戦略とプラットフォームが、ANNの機能を必要とするリアルタイムアプリケーションにうまく適用可能であることを示している。

The adoption of intelligent systems with Artificial Neural Networks (ANNs) embedded in hardware for real-time applications currently faces a growing demand in fields like the Internet of Things (IoT) and Machine to Machine (M2M). However, the application of ANNs in this type of system poses a significant challenge due to the high computational power required to process its basic operations. This paper aims to show an implementation strategy of a Multilayer Perceptron (MLP) type neural network, in a microcontroller (a low-cost, low-power platform). A modular matrix-based MLP with the full classification process was implemented, and also the backpropagation training in the microcontroller. The testing and validation were performed through Hardware in the Loop (HIL) of the Mean Squared Error (MSE) of the training process, classification result, and the processing time of each implementation module. The results revealed a linear relationship between the values of the hyperparameters and the processing time required for classification, also the processing time concurs with the required time for many applications on the fields mentioned above. These findings show that this implementation strategy and this platform can be applied successfully on real-time applications that require the capabilities of ANNs.
翻訳日:2022-11-24 02:46:59 公開日:2020-06-08
# 確率計算を用いたニューラルネットワーク加速の設計課題

Design Challenges of Neural Network Acceleration Using Stochastic Computing ( http://arxiv.org/abs/2006.05352v1 )

ライセンス: Link先を確認
Alireza Khadem(参考訳) 最先端のニューラルネットワーク(NN)の巨大で絶え間なく増加する複雑さは、IoT(Internet of Things)のようなリソース制限されたデバイスへのディープラーニングの展開を妨げる。 確率コンピューティングは、NNの近似特性に固有のアメニビリティを活用して、そのエネルギーと面積のフットプリントを削減し、IoTに適した小さな組み込みデバイスに対する2つの重要な要件である。 本報告では,最近提案された2つの確率的nn設計について,sim and leeによるbisc (binary interfaced stochastic computing) とcanals et al.によるesl (extended stochastic logic) を比較し,比較する。 解析とシミュレーションを用いて, 性能, 消費電力, 面積, 精度という観点から, これら設計の3つの異なる実装を比較した。 また、NN構築に確率計算を採用する際の全体的な課題についても論じる。 BISC は MNIST 桁認識データセットに適用した LeNet-5 NN モデルの実行時に他のアーキテクチャよりも優れることがわかった。 解析とシミュレーションの結果、このアーキテクチャは50倍速く、面積は5.7倍と2.9倍小さく、2つのeslアーキテクチャよりも7.8倍と1.8倍の電力消費があることがわかった。

The enormous and ever-increasing complexity of state-of-the-art neural networks (NNs) has impeded the deployment of deep learning on resource-limited devices such as the Internet of Things (IoTs). Stochastic computing exploits the inherent amenability to approximation characteristic of NNs to reduce their energy and area footprint, two critical requirements of small embedded devices suitable for the IoTs. This report evaluates and compares two recently proposed stochastic-based NN designs, referred to as BISC (Binary Interfaced Stochastic Computing) by Sim and Lee, 2017, and ESL (Extended Stochastic Logic) by Canals et al., 2016. Using analysis and simulation, we compare three distinct implementations of these designs in terms of performance, power consumption, area, and accuracy. We also discuss the overall challenges faced in adopting stochastic computing for building NNs. We find that BISC outperforms the other architectures when executing the LeNet-5 NN model applied to the MNIST digit recognition dataset. Our analysis and simulation experiments indicate that this architecture is around 50X faster, occupies 5.7X and 2.9X less area, and consumes 7.8X and 1.8X less power than the two ESL architectures.
翻訳日:2022-11-24 02:46:39 公開日:2020-06-08
# 病理組織像における背景除去のためのU-Netトポロジーの比較検討

A Comparative Study of U-Net Topologies for Background Removal in Histopathology Images ( http://arxiv.org/abs/2006.06531v1 )

ライセンス: Link先を確認
Abtin Riasatian, Maral Rasoolijaberi, Morteza Babaei, H.R. Tizhoosh(参考訳) 過去10年間で、病理のデジタル化はかなりの勢いを増した。 デジタル病理学には、より効率的なワークフロー、より簡単なコラボレーション、テレパロジーのための強力な場所など、多くの利点がある。 同時に、コンピュータ支援診断(CAD)を全スライド画像(WSI)に適用することは、デジタル化の直接的な結果としてかなりの注目を集めている。 画像解析の最初のステップは、組織を抽出することです。 したがって、背景除去は多くのアルゴリズムに対して効率的かつ正確な結果を得るために必要不可欠である。 ヒトの操作者に対する明らかな差別にもかかわらず、wsisの組織領域の同定は、主に色の変化や人工物の存在からコンピュータにとって困難である。 また, 歯槽組織型, 脂肪組織, 染色不良組織などの一部の症例では検出が困難である。 本稿では,異なるネットワークバックボーン(異なるトポロジ)を用いたU-Netアーキテクチャの実験を行い,組織領域を抽出するために,WSIの背景やアーチファクトを除去する。 我々はMobileNet、VGG16、EfficientNet-B3、ResNet50、ResNext101、DenseNet121を含む幅広いバックボーンネットワークを比較した。 我々は、癌ゲノムアトラス(tcga)データセットの手動ラベル付きサブセットでネットワークを訓練し、評価した。 efficientnet-b3とmobilenetは99%の感度と特異性で最高の結果を得た。

During the last decade, the digitization of pathology has gained considerable momentum. Digital pathology offers many advantages including more efficient workflows, easier collaboration as well as a powerful venue for telepathology. At the same time, applying Computer-Aided Diagnosis (CAD) on Whole Slide Images (WSIs) has received substantial attention as a direct result of the digitization. The first step in any image analysis is to extract the tissue. Hence, background removal is an essential prerequisite for efficient and accurate results for many algorithms. In spite of the obvious discrimination for human operators, the identification of tissue regions in WSIs could be challenging for computers, mainly due to the existence of color variations and artifacts. Moreover, some cases such as alveolar tissue types, fatty tissues, and tissues with poor staining are difficult to detect. In this paper, we perform experiments on U-Net architecture with different network backbones (different topologies) to remove the background as well as artifacts from WSIs in order to extract the tissue regions. We compare a wide range of backbone networks including MobileNet, VGG16, EfficientNet-B3, ResNet50, ResNext101 and DenseNet121. We trained and evaluated the network on a manually labeled subset of The Cancer Genome Atlas (TCGA) Dataset. EfficientNet-B3 and MobileNet by almost 99% sensitivity and specificity reached the best results.
翻訳日:2022-11-24 02:46:16 公開日:2020-06-08
# デュアル・インフォメーション・ボトルネック

The Dual Information Bottleneck ( http://arxiv.org/abs/2006.04641v1 )

ライセンス: Link先を確認
Zoe Piran, Ravid Shwartz-Ziv, Naftali Tishby(参考訳) Information Bottleneck (IB) フレームワークは、精度と複雑さのバランスをとるための原則化されたアプローチを用いて得られる最適な表現の一般的な特徴付けである。 本稿では,ibの既知の欠点を解決する2重情報ボトルネック(dualib)という新しい枠組みを提案する。 我々は、dualibフレームワークの理論的分析を提供する。 (i)その解の構造の解法 (ii)平均予測誤差指数の最適化における優劣の解消と (iii)原分布の指数形式を保存する能力を示すこと。 大規模問題にアプローチするため,Deep Neural Networks のための新たな2次IBの変分定式化を提案する。 いくつかのデータ集合の実験では、IBの変分形式と比較する。 これにより、デュアルIBの優れたインフォメーションプレーン特性とエラーの改善の可能性を明らかにする。

The Information Bottleneck (IB) framework is a general characterization of optimal representations obtained using a principled approach for balancing accuracy and complexity. Here we present a new framework, the Dual Information Bottleneck (dualIB), which resolves some of the known drawbacks of the IB. We provide a theoretical analysis of the dualIB framework; (i) solving for the structure of its solutions (ii) unraveling its superiority in optimizing the mean prediction error exponent and (iii) demonstrating its ability to preserve exponential forms of the original distribution. To approach large scale problems, we present a novel variational formulation of the dualIB for Deep Neural Networks. In experiments on several data-sets, we compare it to a variational form of the IB. This exposes superior Information Plane properties of the dualIB and its potential in improvement of the error.
翻訳日:2022-11-24 02:45:29 公開日:2020-06-08
# 機械学習の解釈可能性とスマートキャンパスプロジェクトへの影響

Machine Learning Interpretability and Its Impact on Smart Campus Projects ( http://arxiv.org/abs/2006.04300v1 )

ライセンス: Link先を確認
Raghad Zenki and Mu Mu(参考訳) 機械学習(ml)は、過去数十年間、予測分析の能力を高めてきた。 医療、刑事司法、金融、スマートシティなど、さまざまな分野で普及している。 例えば、ノーサンプトン大学は、新しいWaterside Campus上に、IoTとソフトウェア定義ネットワーク(SDN)の複数のレイヤを持つスマートシステムを構築している。 このシステムは、スマートな建物のエネルギー効率を最適化し、テナントやビジターの健康と安全を改善し、群衆の管理と道路の整備を支援し、インターネット接続を改善するために使用できる。

Machine learning (ML) has shown increasing abilities for predictive analytics over the last decades. It is becoming ubiquitous in different fields, such as healthcare, criminal justice, finance and smart city. For instance, the University of Northampton is building a smart system with multiple layers of IoT and software-defined networks (SDN) on its new Waterside Campus. The system can be used to optimize smart buildings energy efficiency, improve the health and safety of its tenants and visitors, assist crowd management and way-finding, and improve the Internet connectivity.
翻訳日:2022-11-24 02:37:37 公開日:2020-06-08
# インテリジェントかつ効果的なv2x通信のためのソフトウォーリゼーション、仮想化、機械学習

Softwarization, Virtualization, & Machine Learning For Intelligent & Effective V2X Communications ( http://arxiv.org/abs/2006.04595v1 )

ライセンス: Link先を確認
Abdallah Moubayed and Abdallah Shami(参考訳) 第5世代(5G)モバイルネットワークシステムの概念は,通信事業者やサービスプロバイダが,需要の増大に対応するため,インフラストラクチャとデリバリモードのアップグレードを目論む中で,近年出現している。 ソフトウォーリゼーション、仮想化、機械学習といったコンセプトは、そのようなネットワークの革新的で柔軟なイネーブラとして重要なコンポーネントとなるでしょう。 特に、ソフトウェア定義ネットワーク、ソフトウェア定義周辺、クラウドとエッジコンピューティング、ネットワーク機能仮想化といったパラダイムは、いくつかの5gネットワークの課題、特に柔軟性、プログラム可能性、スケーラビリティ、セキュリティにおいて大きな役割を果たすだろう。 本稿では,V2X通信におけるこれらのパラダイムの役割と可能性について論じる。 そのために、論文はv2xコミュニケーションの概要と背景を提供することから始めます。 そこで本稿では,v2x コミュニケーションが直面する様々な課題と,それに取り組むための先行研究についてより詳細に述べる。 さらに,このようなネットワークの課題にソフトウォーリゼーション,仮想化,機械学習がいかに適応できるかについて述べる。

The concept of the fifth generation (5G) mobile network system has emerged in recent years as telecommunication operators and service providers look to upgrade their infrastructure and delivery modes to meet the growing demand. Concepts such as softwarization, virtualization, and machine learning will be key components as innovative and flexible enablers of such networks. In particular, paradigms such as software-defined networks, software-defined perimeter, cloud & edge computing, and network function virtualization will play a major role in addressing several 5G networks' challenges, especially in terms of flexibility, programmability, scalability, and security. In this work, the role and potential of these paradigms in the context of V2X communication is discussed. To do so, the paper starts off by providing an overview and background of V2X communications. Then, the paper discusses in more details the various challenges facing V2X communications and some of the previous literature work done to tackle them. Furthermore, the paper describes how softwarization, virtualization, and machine learning can be adapted to tackle the challenges of such networks.
翻訳日:2022-11-24 02:36:27 公開日:2020-06-08
# 深部ニューラルネットワークを用いた果樹園環境におけるリアルタイムキウイフルーツフラワー検出

Deep Neural Network Based Real-time Kiwi Fruit Flower Detection in an Orchard Environment ( http://arxiv.org/abs/2006.04343v1 )

ライセンス: Link先を確認
JongYoon Lim, Ho Seok Ahn, Mahla Nejati, Jamie Bell, Henry Williams, Bruce A. MacDonald(参考訳) 本稿では,ディープニューラルネットワーク(dnn)を用いたキウイ果実の花検出法について,高精度で高速でロバストな自動受粉ロボットシステムを構築するための新しい手法を提案する。 ディープニューラルネットワークにおける最近の研究は、多くの領域でオブジェクト検出タスクにおいて優れたパフォーマンスを示している。 そこで本研究では, キウイ果実の花の検出にDNNを活用することを目的として, より高速なR-CNNとSingle Shot Detector (SSD) Net, および特徴抽出器であるInception Net V2とNAS Netを実世界の果樹園のデータセットで解析した。 また, リアルタイム農業用受粉ロボットシステムに適した最適モデルを求めるために, 精度と処理速度の観点から比較を行った。 一般化モデルの性能を示すために,様々な季節と場所から収集したデータセットを用いて実験を行う(spatio-temporal consistency)。 提案システムでは,実世界のデータセットでそれぞれ0.919,0.874,0.889の精度,リコール,F1スコアが期待できる結果を示した。

In this paper, we present a novel approach to kiwi fruit flower detection using Deep Neural Networks (DNNs) to build an accurate, fast, and robust autonomous pollination robot system. Recent work in deep neural networks has shown outstanding performance on object detection tasks in many areas. Inspired this, we aim for exploiting DNNs for kiwi fruit flower detection and present intensive experiments and their analysis on two state-of-the-art object detectors; Faster R-CNN and Single Shot Detector (SSD) Net, and feature extractors; Inception Net V2 and NAS Net with real-world orchard datasets. We also compare those approaches to find an optimal model which is suitable for a real-time agricultural pollination robot system in terms of accuracy and processing speed. We perform experiments with dataset collected from different seasons and locations (spatio-temporal consistency) in order to demonstrate the performance of the generalized model. The proposed system demonstrates promising results of 0.919, 0.874, and 0.889 for precision, recall, and F1-score respectively on our real-world dataset, and the performance satisfies the requirement for deploying the system onto an autonomous pollination robotics system.
翻訳日:2022-11-24 02:30:15 公開日:2020-06-08
# 球状UVアンラッピングによる等角Zバッファ画像の高速合成LiDARレンダリング

Fast Synthetic LiDAR Rendering via Spherical UV Unwrapping of Equirectangular Z-Buffer Images ( http://arxiv.org/abs/2006.04345v1 )

ライセンス: Link先を確認
Mohammed Hossny, Khaled Saleh, Mohammed Attia, Ahmed Abobakr, Julie Iskander(参考訳) 自動運転車の普及に伴い、LiDARのデータはますます重要になっている。 点雲の360度水平視野を提供する能力は、状況認識能力を高めた自動運転車を装備する。 合成LiDARデータ生成パイプラインは、LiDARに関する機械学習研究を前進させるための優れたソリューションを提供するが、それらはレンダリング時間である大きな欠点に悩まされている。 物理的に正確なLiDARシミュレータ(例:Blensor)は計算コストが高く、1フレームあたり平均レンダリング時間は14-60秒である。 これは、carla(dosovitskiy et al., 2017)のように、単純化されたポリゴントポロジー(低ポリアセット)を持つ3dモデルを使用することで補うことが多い。 しかしこれは、粗い粒度の非現実的なLiDAR点雲の価格が伴う。 本稿では,1フレーム当たり1秒の高速レンダリングでLiDAR点雲をシミュレートする新しい手法を提案する。 提案手法は、等角形状Zバッファ画像の球面紫外解離に依存する。 Blensor (Gschwandtner et al., 2011) をベースライン法として, 提案手法を用いて生成された点雲の比較を行った。 複雑な都市景観の誤差はヴェロダインhdl64-e2パラメータによる2-120mの走査範囲で4.28cmである。 提案手法では,フレーム毎の総時間は3.2+/-0.31秒であった。 対照的に、BlenSorベースライン法は16.2 +/1.82秒を報告した。

LiDAR data is becoming increasingly essential with the rise of autonomous vehicles. Its ability to provide 360deg horizontal field of view of point cloud, equips self-driving vehicles with enhanced situational awareness capabilities. While synthetic LiDAR data generation pipelines provide a good solution to advance the machine learning research on LiDAR, they do suffer from a major shortcoming, which is rendering time. Physically accurate LiDAR simulators (e.g. Blensor) are computationally expensive with an average rendering time of 14-60 seconds per frame for urban scenes. This is often compensated for via using 3D models with simplified polygon topology (low poly assets) as is the case of CARLA (Dosovitskiy et al., 2017). However, this comes at the price of having coarse grained unrealistic LiDAR point clouds. In this paper, we present a novel method to simulate LiDAR point cloud with faster rendering time of 1 sec per frame. The proposed method relies on spherical UV unwrapping of Equirectangular Z-Buffer images. We chose Blensor (Gschwandtner et al., 2011) as the baseline method to compare the point clouds generated using the proposed method. The reported error for complex urban landscapes is 4.28cm for a scanning range between 2-120 meters with Velodyne HDL64-E2 parameters. The proposed method reported a total time per frame to 3.2 +/- 0.31 seconds per frame. In contrast, the BlenSor baseline method reported 16.2 +/- 1.82 seconds.
翻訳日:2022-11-24 02:29:50 公開日:2020-06-08
# 畳み込みニューラルネットワークを用いた光音響顕微鏡による高速イメージング

Photoacoustic Microscopy with Sparse Data Enabled by Convolutional Neural Networks for Fast Imaging ( http://arxiv.org/abs/2006.04368v1 )

ライセンス: Link先を確認
Jiasheng Zhou, Da He, Xiaoyu Shang, Zhendong Guo, Sung-liang Chen, Jiajia Luo(参考訳) 光音響顕微鏡(PAM)は近年,バイオメディカルイメージング技術として期待されている。 しかし、ポイントバイポイント走査機構は、pamの適用を制限する低速イメージングに繋がる。 サンプリング密度の低減は、自然に画像取得時間を短縮できるため、画像品質のコストがかかる。 本研究では、畳み込みニューラルネットワーク(CNN)を用いて、スパースPAM画像の品質を向上し、良好な画質を維持しながら画像取得を高速化する手法を提案する。 CNNモデルは1/4または1/16の低サンプリングスパルスPAM画像から潜在完全サンプリング画像へのマッピングである圧縮励磁ブロックと残留ブロックの両方を利用して拡張を実現する。 画像の忠実性を維持するために知覚損失関数を適用する。 モデルは主に葉脈のpam画像で訓練され検証される。 提案手法の有効性を実証し,既存の手法を定量的かつ定性的に比較した。 また, マウス耳と眼の血管の生体内PAM画像を用いて実験を行った。 以上の結果から,このモデルは血管のスパースpam画像の画質を,いくつかの側面から向上させ,迅速なpamの確立と臨床応用の促進に寄与する可能性が示唆された。

Photoacoustic microscopy (PAM) has been a promising biomedical imaging technology in recent years. However, the point-by-point scanning mechanism results in low-speed imaging, which limits the application of PAM. Reducing sampling density can naturally shorten image acquisition time, which is at the cost of image quality. In this work, we propose a method using convolutional neural networks (CNNs) to improve the quality of sparse PAM images, thereby speeding up image acquisition while keeping good image quality. The CNN model utilizes both squeeze-and-excitation blocks and residual blocks to achieve the enhancement, which is a mapping from a 1/4 or 1/16 low-sampling sparse PAM image to a latent fully-sampled image. The perceptual loss function is applied to keep the fidelity of images. The model is mainly trained and validated on PAM images of leaf veins. The experiments show the effectiveness of our proposed method, which significantly outperforms existing methods quantitatively and qualitatively. Our model is also tested using in vivo PAM images of blood vessels of mouse ears and eyes. The results show that the model can enhance the image quality of the sparse PAM image of blood vessels from several aspects, which may help fast PAM and facilitate its clinical applications.
翻訳日:2022-11-24 02:29:28 公開日:2020-06-08
# バイオメディカルイメージングのための逆損失と共変量シフトを伴うクロスドメインセグメンテーション

Cross-Domain Segmentation with Adversarial Loss and Covariate Shift for Biomedical Imaging ( http://arxiv.org/abs/2006.04390v1 )

ライセンス: Link先を確認
Bora Baydar, Savas Ozkan, A. Emre Kavur, N. Sinem Gezer, M. Alper Selver, Gozde Bozdagi Akar(参考訳) 単一のソースから取得した画像のセマンティックセグメンテーションにディープラーニング手法が広く用いられているにもかかわらず、臨床医は詳細な分析に多領域データを使用することが多い。 例えば、CTとMRIは、画像の品質、アーティファクト、出力特性などにおいて、鑑別診断に繋がる利点がある。 現在のセグメンテーションのテクニックの能力は、その違いのために個々のドメインでしか働けない。 しかしながら、全てのモダリティに取り組むことができるモデルは、本質的に完全なソリューションのために必要である。 さらに、特にディープラーニングモデルにおいて、堅牢性はトレーニングステップにおけるサンプルの数に大きく影響を受ける。 したがって、データドメインに関係なく利用可能なすべてのデータを信頼できる方法で使用する必要がある。 本研究の目的は、異なるモダリティから異なるパターンと共有パターンをカプセル化することにより、ドメイン間データから堅牢な表現を学習できる新しいモデルを実装することである。 正確には、スパース表現とリッチ表現が得られた場合、共変量シフト特性は、構造変化と対逆損失とともに保持される。 したがって、単一のパラメータセットを使用してクロスドメインセグメンテーションタスクを実行する。 提案手法の優位性は, 訓練段階や推論段階において, モダリティに関する情報は提供されないことである。 定期的な臨床ワークフローで得られたctとmriの肝検査では,提案モデルが他のすべてのベースラインよりも大きなマージンを示した。 実験はCovid-19データセット上でも行われ、クラス内における視覚的な大きな違いが観察されるCTデータから成っている。 同様に,提案手法は最高の性能を実現する。

Despite the widespread use of deep learning methods for semantic segmentation of images that are acquired from a single source, clinicians often use multi-domain data for a detailed analysis. For instance, CT and MRI have advantages over each other in terms of imaging quality, artifacts, and output characteristics that lead to differential diagnosis. The capacity of current segmentation techniques is only allow to work for an individual domain due to their differences. However, the models that are capable of working on all modalities are essentially needed for a complete solution. Furthermore, robustness is drastically affected by the number of samples in the training step, especially for deep learning models. Hence, there is a necessity that all available data regardless of data domain should be used for reliable methods. For this purpose, this manuscript aims to implement a novel model that can learn robust representations from cross-domain data by encapsulating distinct and shared patterns from different modalities. Precisely, covariate shift property is retained with structural modification and adversarial loss where sparse and rich representations are obtained. Hence, a single parameter set is used to perform cross-domain segmentation task. The superiority of the proposed method is that no information related to modalities are provided in either training or inference phase. The tests on CT and MRI liver data acquired in routine clinical workflows show that the proposed model outperforms all other baseline with a large margin. Experiments are also conducted on Covid-19 dataset that it consists of CT data where significant intra-class visual differences are observed. Similarly, the proposed method achieves the best performance.
翻訳日:2022-11-24 02:29:07 公開日:2020-06-08
# 自律ナビゲーションにおける物体識別と追跡のための新しい知覚アルゴリズムフレームワーク

Novel Perception Algorithmic Framework For Object Identification and Tracking In Autonomous Navigation ( http://arxiv.org/abs/2006.04859v1 )

ライセンス: Link先を確認
Suryansh Saxena and Isaac K Isukapati(参考訳) 本稿では,自律走行車両の視野内で物体を識別し追跡する能力を有する新しい知覚フレームワークを提案する。 提案されたアルゴリズムは、この目標を達成するためにトレーニングを必要としない。 このフレームワークは、ego-vehicleのポーズ推定とKD-Treeベースのセグメンテーションアルゴリズムを利用してオブジェクトクラスタを生成する。 続いて,VFH手法を用いて,特定対象クラスタの形状を多モードPDFに変換し,頑健な時空間追跡を目的として,新しいオブジェクトクラスタ毎に動きモデルを開始する。 この手法はさらに、高次元確率密度関数の統計的性質とベイズ運動モデルの推定を用いて、フレームからフレームまでの物体を特定し追跡する。 方法論の有効性は、KITTIデータセット上で検証される。 その結果, 中央追跡精度は約91%であり, エンドツーエンドの計算時間は153ミリ秒であった。

This paper introduces a novel perception framework that has the ability to identify and track objects in autonomous vehicle's field of view. The proposed algorithms don't require any training for achieving this goal. The framework makes use of ego-vehicle's pose estimation and a KD-Tree-based segmentation algorithm to generate object clusters. In turn, using a VFH technique, the geometry of each identified object cluster is translated into a multi-modal PDF and a motion model is initiated with every new object cluster for the purpose of robust spatio-temporal tracking. The methodology further uses statistical properties of high-dimensional probability density functions and Bayesian motion model estimates to identify and track objects from frame to frame. The effectiveness of the methodology is tested on a KITTI dataset. The results show that the median tracking accuracy is around 91% with an end-to-end computational time of 153 milliseconds
翻訳日:2022-11-24 02:28:17 公開日:2020-06-08
# 熱画像の画素幅運動劣化

Pixel-Wise Motion Deblurring of Thermal Videos ( http://arxiv.org/abs/2006.04973v1 )

ライセンス: Link先を確認
Manikandasriram Srinivasan Ramanagopal, Zixu Zhang, Ram Vasudevan, Matthew Johnson-Roberson(参考訳) 冷却されていないマイクロボロメーターは、シーンから放射される「熱」を撮像することで、可視光の欠如をロボットが見ることができる。 暗く見える能力にもかかわらず、これらのセンサーは大きな動きのぼやけに苦しむ。 これにより、ロボットシステムへの応用が制限された。 本稿では,各画素の熱慣性に起因する動きのぼやけについて述べる。 これは、空間的デコンボリューションを行うのに適切な空間的ぼかしカーネルを特定することに依存する従来のモーションデコンボリューリング技術が、熱カメラ画像上で確実に動きデブロワーリングを行うことができないことを意味している。 この問題に対処するため,本論文では,一画素における熱慣性効果を最小絶対収縮・選択演算子 (LASSO) 問題として逆転させ,二次計画法を用いて高速に解く。 スパルシリティと高いフレームレートを利用することで、このピクセルワイズラッソは、空間情報を使わずに、熱ビデオのフレームの動きを復元することができる。 そこで本研究では,その品質を,最先端の可視光カメラによるデブロアリング法と比較するため,異なるデブロアリングアルゴリズムで復元した画像に対して,事前学習対象検出器群の性能評価を行った。 全ての評価対象検出器は、他のテストされた最先端の手法よりも提案アルゴリズムによって復元された画像に対して体系的に優れた性能を示した。

Uncooled microbolometers can enable robots to see in the absence of visible illumination by imaging the "heat" radiated from the scene. Despite this ability to see in the dark, these sensors suffer from significant motion blur. This has limited their application on robotic systems. As described in this paper, this motion blur arises due to the thermal inertia of each pixel. This has meant that traditional motion deblurring techniques, which rely on identifying an appropriate spatial blur kernel to perform spatial deconvolution, are unable to reliably perform motion deblurring on thermal camera images. To address this problem, this paper formulates reversing the effect of thermal inertia at a single pixel as a Least Absolute Shrinkage and Selection Operator (LASSO) problem which we can solve rapidly using a quadratic programming solver. By leveraging sparsity and a high frame rate, this pixel-wise LASSO formulation is able to recover motion deblurred frames of thermal videos without using any spatial information. To compare its quality against state-of-the-art visible camera based deblurring methods, this paper evaluated the performance of a family of pre-trained object detectors on a set of images restored by different deblurring algorithms. All evaluated object detectors performed systematically better on images restored by the proposed algorithm rather than any other tested, state-of-the-art methods.
翻訳日:2022-11-24 02:27:10 公開日:2020-06-08
# グローバルロバスト性検証ネットワーク

Global Robustness Verification Networks ( http://arxiv.org/abs/2006.04403v1 )

ライセンス: Link先を確認
Weidi Sun, Yuteng Lu, Xiyue Zhang, Zhanxing Zhu and Meng Sun(参考訳) ディープニューラルネットワークの広範な展開は、多くのドメインで大きな成功を収めているが、深刻な安全性と信頼性の懸念がある。 既存の敵攻撃生成と自動検証技術は、ネットワークがグローバルに堅牢であるかどうか、すなわち入力空間における敵の例がないかどうかを正式に検証することはできない。 この問題に対処するため,我々は3つのコンポーネントからなるグローバルロバストネス検証フレームワークを開発した。 1) 論理推論によるクラス割当のどの入力領域が責任を負うかを見出す新しいルールベースの `back-propagation'' 2) 実現可能なルールベース `back-propagation'' を実現する新しいネットワークアーキテクチャスライディングドアネットワーク (sdn) 3)地域ベースのグローバルロバストネス検証(RGRV)アプローチ。 さらに,本手法が合成データと実データの両方に対して有効であることを示す。

The wide deployment of deep neural networks, though achieving great success in many domains, has severe safety and reliability concerns. Existing adversarial attack generation and automatic verification techniques cannot formally verify whether a network is globally robust, i.e., the absence or not of adversarial examples in the input space. To address this problem, we develop a global robustness verification framework with three components: 1) a novel rule-based ``back-propagation'' finding which input region is responsible for the class assignment by logic reasoning; 2) a new network architecture Sliding Door Network (SDN) enabling feasible rule-based ``back-propagation''; 3) a region-based global robustness verification (RGRV) approach. Moreover, we demonstrate the effectiveness of our approach on both synthetic and real datasets.
翻訳日:2022-11-24 02:20:05 公開日:2020-06-08
# AdaDeep:ユビキタスなインテリジェントなモバイルを実現するための、ユーザ駆動で自動化されたディープモデル圧縮フレームワーク

AdaDeep: A Usage-Driven, Automated Deep Model Compression Framework for Enabling Ubiquitous Intelligent Mobiles ( http://arxiv.org/abs/2006.04432v1 )

ライセンス: Link先を確認
Sicong Liu, Junzhao Du, Kaiming Nan, ZimuZhou, Atlas Wang, Yingyan Lin(参考訳) 近年のDeep Neural Networks(DNN)のブレークスルーは、モバイルプラットフォームにDNNを利用したインテリジェンスを導入するという、非常に大きな需要を刺激している。 リソース制約のあるプラットフォームにDNNをデプロイする可能性は、DNN圧縮技術によって実証されているが、現在のプラクティスには2つの制限がある。 1) 各圧縮手法は特定のDNN層にのみ適合するが, 単項圧縮方式が検討される。 2) 主に圧縮技術はdnnの推論精度に最適化されており、他のアプリケーション駆動システム性能(レイテンシやエネルギーコストなど)やプラットフォーム間のリソース可用性(ストレージや処理能力など)を明示的に考慮しない。 そこで本研究では,システムレベルで性能と資源制約の間の望ましいトレードオフを体系的に探究するための,利用主導で自動dnn圧縮フレームワークであるadadeepを提案する。 具体的には、AdaDeepは、与えられたDNNに対して、圧縮技術と対応する圧縮ハイパーパラメータの最も適切な組み合わせを自動的に選択する。 6つのデータセットと12台のデバイスに関する詳細な評価は、AdaDeepが18.6\times$レイテンシ削減、9.8\times$エネルギー効率の改善、37.3\times$DNNのストレージ削減を達成できることを示している。 さらに、AdaDeepは複数の新しい圧縮技術の組み合わせも明らかにしている。

Recent breakthroughs in Deep Neural Networks (DNNs) have fueled a tremendously growing demand for bringing DNN-powered intelligence into mobile platforms. While the potential of deploying DNNs on resource-constrained platforms has been demonstrated by DNN compression techniques, the current practice suffers from two limitations: 1) merely stand-alone compression schemes are investigated even though each compression technique only suit for certain types of DNN layers; and 2) mostly compression techniques are optimized for DNNs' inference accuracy, without explicitly considering other application-driven system performance (e.g., latency and energy cost) and the varying resource availability across platforms (e.g., storage and processing capability). To this end, we propose AdaDeep, a usage-driven, automated DNN compression framework for systematically exploring the desired trade-off between performance and resource constraints, from a holistic system level. Specifically, in a layer-wise manner, AdaDeep automatically selects the most suitable combination of compression techniques and the corresponding compression hyperparameters for a given DNN. Thorough evaluations on six datasets and across twelve devices demonstrate that AdaDeep can achieve up to $18.6\times$ latency reduction, $9.8\times$ energy-efficiency improvement, and $37.3\times$ storage reduction in DNNs while incurring negligible accuracy loss. Furthermore, AdaDeep also uncovers multiple novel combinations of compression techniques.
翻訳日:2022-11-24 02:19:52 公開日:2020-06-08
# 競争型マルチプレイヤーゲームのためのメタゲームオートバランシング

Metagame Autobalancing for Competitive Multiplayer Games ( http://arxiv.org/abs/2006.04419v1 )

ライセンス: Link先を確認
Daniel Hernandez, Charles Takashi Toyin Gbadamosi, James Goodman, James Alfred Walker(参考訳) 自動ゲームバランシングは、しばしば単一エージェントのシナリオに焦点を当てる。 本稿では,ゲーム設計中にマルチプレイヤーゲームのバランスをとるためのツールを提案する。 提案手法では,高レベル戦略(デッキ,キャラクタタイプ)が経験すべき相対的なスコアを表すメタゲームターゲットの直感的なグラフィカル表現を構築する必要がある。 これにより、より洗練された均衡目標が、同じ勝率の単純な要件を超えて定義できる。 次に、ターゲットグラフまでの距離を最小化するためにシミュレーションに基づく最適化を用いて、この目標を満たすゲームのパラメータ化を見つける。 このツールの能力は、Rock-Paper-Scissors から継承された例や、より複雑な非対称戦闘ゲームにおいて示す。

Automated game balancing has often focused on single-agent scenarios. In this paper we present a tool for balancing multi-player games during game design. Our approach requires a designer to construct an intuitive graphical representation of their meta-game target, representing the relative scores that high-level strategies (or decks, or character types) should experience. This permits more sophisticated balance targets to be defined beyond a simple requirement of equal win chances. We then find a parameterization of the game that meets this target using simulation-based optimization to minimize the distance to the target graph. We show the capabilities of this tool on examples inheriting from Rock-Paper-Scissors, and on a more complex asymmetric fighting game.
翻訳日:2022-11-24 02:19:22 公開日:2020-06-08
# 一般化フレームワークによるセルフプレイアルゴリズムの比較

A Comparison of Self-Play Algorithms Under a Generalized Framework ( http://arxiv.org/abs/2006.04471v1 )

ライセンス: Link先を確認
Daniel Hernandez, Kevin Denamganai, Sam Devlin, Spyridon Samothrakis, James Alfred Walker(参考訳) 科学史を通じて、包括的な理論の枠組みにより、研究者は個人的な直観や文化的に偏った理論を越えて成長することができた。 既存の発見を検証し、複製し、接続された結果をリンクすることができる。 マルチエージェント強化学習でしばしば引用される自己遊びの概念は、形式的モデルに基づかない。 我々は,既存の様々な自己遊びアルゴリズムから抽象化された自己遊びの意味をカプセル化した,明確な仮定を持つ形式化されたフレームワークを提案する。 このフレームワークは、マルチエージェントトレーニングのための理論解の概念の近似として構成されている。 簡単な環境では、キャプチャーされた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを定性的に測定する。 また、セルフプレイトレーニングのパフォーマンスの定量的指標の解釈に関する洞察も提供する。 以上の結果から, 学習を通じて, 様々なセルフプレイ定義が周期的な政策進化を示すことが示唆された。

Throughout scientific history, overarching theoretical frameworks have allowed researchers to grow beyond personal intuitions and culturally biased theories. They allow to verify and replicate existing findings, and to link is connected results. The notion of self-play, albeit often cited in multiagent Reinforcement Learning, has never been grounded in a formal model. We present a formalized framework, with clearly defined assumptions, which encapsulates the meaning of self-play as abstracted from various existing self-play algorithms. This framework is framed as an approximation to a theoretical solution concept for multiagent training. On a simple environment, we qualitatively measure how well a subset of the captured self-play methods approximate this solution when paired with the famous PPO algorithm. We also provide insights on interpreting quantitative metrics of performance for self-play training. Our results indicate that, throughout training, various self-play definitions exhibit cyclic policy evolutions.
翻訳日:2022-11-24 02:19:08 公開日:2020-06-08
# 責任あるAIのためのプラクティスの原則:ギャップを閉じる

Principles to Practices for Responsible AI: Closing the Gap ( http://arxiv.org/abs/2006.04707v1 )

ライセンス: Link先を確認
Daniel Schiff and Bogdana Rakova and Aladdin Ayesh and Anat Fanti and Michael Lennon(参考訳) 企業は、責任あるAIにさまざまなハイレベルな人工知能(AI)原則を採用することを検討しているが、これらの原則を組織的なプラクティスとしてどのように実装するかは明確ではない。 本稿では原則と実践のギャップを概観する。 このギャップの5つの説明を,学際的な分割からツールの過剰さまで,概説する。 結果として、幅広い、運用可能、柔軟、反復的、ガイド付き、参加型のインパクトアセスメントフレームワークは、原則と実践のギャップを埋めるための有望なアプローチであると論じる。 最後に,これらのレコメンデーションを適用した実践者を支援するために,森林生態系修復におけるaiの利用に関するケーススタディをレビューし,影響評価フレームワークが効果的で責任のあるaiプラクティスにどのように変換できるかを実証する。

Companies have considered adoption of various high-level artificial intelligence (AI) principles for responsible AI, but there is less clarity on how to implement these principles as organizational practices. This paper reviews the principles-to-practices gap. We outline five explanations for this gap ranging from a disciplinary divide to an overabundance of tools. In turn, we argue that an impact assessment framework which is broad, operationalizable, flexible, iterative, guided, and participatory is a promising approach to close the principles-to-practices gap. Finally, to help practitioners with applying these recommendations, we review a case study of AI's use in forest ecosystem restoration, demonstrating how an impact assessment framework can translate into effective and responsible AI practices.
翻訳日:2022-11-24 02:18:54 公開日:2020-06-08
# デモからタスク空間仕様へ:因果解析を用いてデモからルールパラメータを抽出する

From Demonstrations to Task-Space Specifications: Using Causal Analysis to Extract Rule Parameterization from Demonstrations ( http://arxiv.org/abs/2006.11300v1 )

ライセンス: Link先を確認
Daniel Angelov, Yordan Hristov, Subramanian Ramamoorthy(参考訳) ユーザー行動の学習モデルは、人間とロボットの相互作用を必要とする多くのアプリケーションドメインに広く適用できる重要な問題である。 本研究では,人間の実演から抽出した異なるユーザの行動型に対して,潜在空間内で望ましいタスクソリューションをクラスタリングすることにより生成モデルを学ぶことができることを示す。 これらのモデルを使って、ユーザタイプを区別し、重複するソリューションのケースを見つけます。 さらに、学習可能な微分モデルを通して、特定のユーザタイプを構成する嗜好を満たすために、初期推定されたソリューションを変更することもできる。 このように生成モデルを構成する利点は、デモンストレーションで示されたように、ユーザのタスクの仕様の一部を構成するシンボル間の因果関係を抽出することができることである。 さらに,これらの仕様を制約最適化によりパラメータ化することで,動作計画を行う安全エンベロープを求める。 提案手法は, テーブル上環境において, 審美的に駆動するロボットで物体を移動させる作業を行いながら, 動作の注意度が異なる3つのユーザタイプを正しく識別できることを示す。 本手法は, 99%[97.8~99.8]の症例において, 所定の時間内に正しい型を同定し, IRLベースラインを上回った。 また,提案手法は,未確認オブジェクトであっても,特定のユーザ仕様を満たすものに対して,デフォルトの軌道を正しく変更することを示す。 得られた軌道は、同じタスクを完了したPR2ヒューマノイドロボットに直接実装可能である。

Learning models of user behaviour is an important problem that is broadly applicable across many application domains requiring human-robot interaction. In this work, we show that it is possible to learn generative models for distinct user behavioural types, extracted from human demonstrations, by enforcing clustering of preferred task solutions within the latent space. We use these models to differentiate between user types and to find cases with overlapping solutions. Moreover, we can alter an initially guessed solution to satisfy the preferences that constitute a particular user type by backpropagating through the learned differentiable models. An advantage of structuring generative models in this way is that we can extract causal relationships between symbols that might form part of the user's specification of the task, as manifested in the demonstrations. We further parameterize these specifications through constraint optimization in order to find a safety envelope under which motion planning can be performed. We show that the proposed method is capable of correctly distinguishing between three user types, who differ in degrees of cautiousness in their motion, while performing the task of moving objects with a kinesthetically driven robot in a tabletop environment. Our method successfully identifies the correct type, within the specified time, in 99% [97.8 - 99.8] of the cases, which outperforms an IRL baseline. We also show that our proposed method correctly changes a default trajectory to one satisfying a particular user specification even with unseen objects. The resulting trajectory is shown to be directly implementable on a PR2 humanoid robot completing the same task.
翻訳日:2022-11-24 02:18:40 公開日:2020-06-08
# 音声強調のための非因果FFTNetアーキテクチャ

A non-causal FFTNet architecture for speech enhancement ( http://arxiv.org/abs/2006.04469v1 )

ライセンス: Link先を確認
Muhammed PV Shifas, Nagaraj Adiga, Vassilis Tsiaras, Yannis Stylianou(参考訳) 本稿では,高品質な音声波形を生成するニューラルネットワークであるfftnetに基づく音声強調のための,並列,非コーサル,浅い波形領域アーキテクチャを提案する。 WaveNetのような他の波形ベースのアプローチとは対照的に、FFTNetは初期拡張パターンを使用している。 このようなアーキテクチャは、通常ノイズが非相関である時間領域における音声の長期的相関構造をよりよく表現するので、波形領域に基づく音声強調に好適である。 FFTNetのこの特徴をさらに強化するために、各層における現在のサンプルを前層の過去と将来のサンプルから推定する非因果FFTNetアーキテクチャを提案する。 浅いネットワークを提案し、一定の範囲内で非因果性を適用することで、提案する音声強調のためのFFTNetは、WaveNetやSEGANのような他のニューラルネットワークベースのアプローチに比べてはるかに少ないパラメータを使用する。 具体的には、提案するネットワークはモデルパラメータを著しく削減し、WaveNetより32%、SEGANより87%削減した。 最後に、主観的および客観的な指標に基づいて、SE-FFTNetは、SEGANと同等に優れた性能を提供する一方で、信号品質の強化の観点から、WaveNetより優れている。 アーキテクチャのTensorflow実装は1.0で提供される。

In this paper, we suggest a new parallel, non-causal and shallow waveform domain architecture for speech enhancement based on FFTNet, a neural network for generating high quality audio waveform. In contrast to other waveform based approaches like WaveNet, FFTNet uses an initial wide dilation pattern. Such an architecture better represents the long term correlated structure of speech in the time domain, where noise is usually highly non-correlated, and therefore it is suitable for waveform domain based speech enhancement. To further strengthen this feature of FFTNet, we suggest a non-causal FFTNet architecture, where the present sample in each layer is estimated from the past and future samples of the previous layer. By suggesting a shallow network and applying non-causality within certain limits, the suggested FFTNet for speech enhancement (SE-FFTNet) uses much fewer parameters compared to other neural network based approaches for speech enhancement like WaveNet and SEGAN. Specifically, the suggested network has considerably reduced model parameters: 32% fewer compared to WaveNet and 87% fewer compared to SEGAN. Finally, based on subjective and objective metrics, SE-FFTNet outperforms WaveNet in terms of enhanced signal quality, while it provides equally good performance as SEGAN. A Tensorflow implementation of the architecture is provided at 1 .
翻訳日:2022-11-24 02:17:58 公開日:2020-06-08
# 畳み込みニューラルネットワークとヒートマップ回帰を用いた非構造道路消滅点検出

Unstructured Road Vanishing Point Detection Using the Convolutional Neural Network and Heatmap Regression ( http://arxiv.org/abs/2006.04691v1 )

ライセンス: Link先を確認
Yin-Bo Liu, Ming Zeng, Qing-Hao Meng(参考訳) 非構造的道路消滅点(VP)検出は特に自動運転分野において難しい問題である。 本稿では,非構造道路VPを検出するために,畳み込みニューラルネットワーク(CNN)と熱マップ回帰を組み合わせた新しい手法を提案する。 提案手法はまず,非構造化道路画像の階層的特徴を抽出するために,軽量なバックボーン,すなわち奥行き方向畳み込み修正hrnetを採用する。 そして, 高速かつ高精度な道路VP検出を実現するために, マルチスケール教師付き学習, ヒートマップ超解像, 座標回帰手法の3つの先進戦略を利用する。 実験の結果,提案手法はリアルタイムに様々な条件下での最先端手法と比較して高い検出精度を示し,最高速度は33fpsであることがわかった。

Unstructured road vanishing point (VP) detection is a challenging problem, especially in the field of autonomous driving. In this paper, we proposed a novel solution combining the convolutional neural network (CNN) and heatmap regression to detect unstructured road VP. The proposed algorithm firstly adopts a lightweight backbone, i.e., depthwise convolution modified HRNet, to extract hierarchical features of the unstructured road image. Then, three advanced strategies, i.e., multi-scale supervised learning, heatmap super-resolution, and coordinate regression techniques are utilized to achieve fast and high-precision unstructured road VP detection. The empirical results on Kong's dataset show that our proposed approach enjoys the highest detection accuracy compared with state-of-the-art methods under various conditions in real-time, achieving the highest speed of 33 fps.
翻訳日:2022-11-24 02:11:42 公開日:2020-06-08
# 到達性に先行した自己中心的視点における物体のマルチモーダルな将来の位置推定と創発予測

Multimodal Future Localization and Emergence Prediction for Objects in Egocentric View with a Reachability Prior ( http://arxiv.org/abs/2006.04700v1 )

ライセンス: Link先を確認
Osama Makansi, \"Ozg\"un Cicek, Kevin Buchicchio, Thomas Brox(参考訳) 本稿では,移動車の観点から,将来の動態,特に他の車両や歩行者の将来の位置を予想する問題について検討する。 我々は,1)1台のRGBカメラによる自我中心の視界による部分視認性,2)車両の移動による視野の変化,2)将来の状態の分布の多様性,という2つの基本的な課題にアプローチする。 多くの先行研究とは対照的に、我々は地図からの構造的知識を仮定しない。 むしろ、現在の画像のセマンティックマップから対象の特定のクラスに先立って到達可能性を推定し、計画されたエゴモーションを用いて未来に伝播する。 実験により, 複数仮説学習と組み合わせた到達性により, 追跡対象の将来の位置のマルチモーダル予測が向上し, 新たな対象が出現した。 また、目に見えないデータセットへのゼロショット転送を約束します。 ソースコードは $\href{https://github.com/lmb-freiburg/FLN-EPN-RPN}{\text{this https URLで入手できる。 }}$

In this paper, we investigate the problem of anticipating future dynamics, particularly the future location of other vehicles and pedestrians, in the view of a moving vehicle. We approach two fundamental challenges: (1) the partial visibility due to the egocentric view with a single RGB camera and considerable field-of-view change due to the egomotion of the vehicle; (2) the multimodality of the distribution of future states. In contrast to many previous works, we do not assume structural knowledge from maps. We rather estimate a reachability prior for certain classes of objects from the semantic map of the present image and propagate it into the future using the planned egomotion. Experiments show that the reachability prior combined with multi-hypotheses learning improves multimodal prediction of the future location of tracked objects and, for the first time, the emergence of new objects. We also demonstrate promising zero-shot transfer to unseen datasets. Source code is available at $\href{https://github.com/lmb-freiburg/FLN-EPN-RPN}{\text{this https URL.}}$
翻訳日:2022-11-24 02:11:26 公開日:2020-06-08
# 自己教師付き治療による教師なし転校学習

Unsupervised Transfer Learning with Self-Supervised Remedy ( http://arxiv.org/abs/2006.04737v1 )

ライセンス: Link先を確認
Jiabo Huang and Shaogang Gong(参考訳) 手動ラベルのない新しいドメインにディープネットワークを一般化することは、ディープラーニングにとって難しい。 この問題は、新しい領域における画像データ分布の予測不能な変化により本質的に困難である。 事前学習された知識は、学習された領域と新しい領域について強い仮定をせずにはうまく移動できない。 ドメイン適応からゼロショット学習、少数ショット学習まで、さまざまな仮定に基づく根本的な問題に対処するために異なる方法が研究されている。 本研究では,ラベルなし対象データの識別的潜在空間をラベル付き関連領域からの知識転送によって学習することを目的とした転送クラスタリングによってこの問題に対処する。 具体的には,対象領域に内在する相対的(好適な)画像情報を利用して,対象領域の画像分布特性と関連するラベル付き領域から学習した事前知識をモデル化し,ラベル付き対象データのより識別的なクラスタリングを実現する。 本手法は,移動学習と自己指導学習の両方の利点を生かして,自己超越によって伝達不能な事前知識を緩和する。 画像クラスタリングタスクのための4つのデータセットに関する広範な実験は、最先端の転送クラスタリング技術よりも、モデルが優れていることを示している。 さらに,4つのゼロショット学習ベンチマークにおいて,その競合性を示す。

Generalising deep networks to novel domains without manual labels is challenging to deep learning. This problem is intrinsically difficult due to unpredictable changing nature of imagery data distributions in novel domains. Pre-learned knowledge does not transfer well without making strong assumptions about the learned and the novel domains. Different methods have been studied to address the underlying problem based on different assumptions, e.g. from domain adaptation to zero-shot and few-shot learning. In this work, we address this problem by transfer clustering that aims to learn a discriminative latent space of the unlabelled target data in a novel domain by knowledge transfer from labelled related domains. Specifically, we want to leverage relative (pairwise) imagery information, which is freely available and intrinsic to a target domain, to model the target domain image distribution characteristics as well as the prior-knowledge learned from related labelled domains to enable more discriminative clustering of unlabelled target data. Our method mitigates nontransferrable prior-knowledge by self-supervision, benefiting from both transfer and self-supervised learning. Extensive experiments on four datasets for image clustering tasks reveal the superiority of our model over the state-of-the-art transfer clustering techniques. We further demonstrate its competitive transferability on four zero-shot learning benchmarks.
翻訳日:2022-11-24 02:10:39 公開日:2020-06-08
# ニューラルネットワーク布の三次元空間のパラメータ化

Skinning a Parameterization of Three-Dimensional Space for Neural Network Cloth ( http://arxiv.org/abs/2006.04874v1 )

ライセンス: Link先を確認
Jane Wu, Zhenglin Geng, Hui Zhou, Ronald Fedkiw(参考訳) 本稿では,仮想布を四面体メッシュに埋め込み,底面を囲む空気の体積領域をパラメトリゼーションする新しい布変形学習フレームワークを提案する。 キャラクタアニメーション中にこのボリュームパラメータ化を維持するため、四面体メッシュは変形するにつれて体表面を追従するように拘束される。 この3次元空間のパラメータ化に布メッシュの頂点を埋め込み、関節回転と衝突による非線形変形の多くを自動的に捉える。 次に,畳み込みニューラルネットワークを訓練し,各骨格ポーズに対する布の埋め込みオフセットを学習することにより,真理変形を回復する。 実験の結果,体表面のパラメータ化から得られた布のオフセットを定量的・視覚的に学習するよりも,平均誤差5つの標準偏差の先行状態が向上した。 さらに,高頻度のディテールを低周波パラメータ化に組み込むことができる汎用学習パラダイムの有効性を示す。

We present a novel learning framework for cloth deformation by embedding virtual cloth into a tetrahedral mesh that parametrizes the volumetric region of air surrounding the underlying body. In order to maintain this volumetric parameterization during character animation, the tetrahedral mesh is constrained to follow the body surface as it deforms. We embed the cloth mesh vertices into this parameterization of three-dimensional space in order to automatically capture much of the nonlinear deformation due to both joint rotations and collisions. We then train a convolutional neural network to recover ground truth deformation by learning cloth embedding offsets for each skeletal pose. Our experiments show significant improvement over learning cloth offsets from body surface parameterizations, both quantitatively and visually, with prior state of the art having a mean error five standard deviations higher than ours. Moreover, our results demonstrate the efficacy of a general learning paradigm where high-frequency details can be embedded into low-frequency parameterizations.
翻訳日:2022-11-24 02:10:22 公開日:2020-06-08
# 人間の3次元特徴の温め方

Reposing Humans by Warping 3D Features ( http://arxiv.org/abs/2006.04898v1 )

ライセンス: Link先を確認
Markus Knoche, Istv\'an S\'ar\'andi, Bastian Leibe(参考訳) 我々は、人間のイメージを任意の望ましい新しいポーズに配置する問題に対処する。 この条件付き画像生成タスクは、自己閉鎖体部分を含む人間の3D構造を推論する必要がある。 ほとんどの先行作品は2d表現に基づいているか、明示的な3dボディメッシュを操作する必要がある。 近年の深層学習に基づくボリューム表現の成功を踏まえ,人間の画像から密集した特徴量を暗黙的に学習することを提案する。 所望のポーズ変化に応じて潜在機能ボリュームが反動されると、畳み込みデコーダによってボリュームはrgbスペースにマッピングされる。 DeepFashionとiPERベンチマークの最先端結果は、密度の高い人間の表現がより詳細に調べる価値があることを示している。

We address the problem of reposing an image of a human into any desired novel pose. This conditional image-generation task requires reasoning about the 3D structure of the human, including self-occluded body parts. Most prior works are either based on 2D representations or require fitting and manipulating an explicit 3D body mesh. Based on the recent success in deep learning-based volumetric representations, we propose to implicitly learn a dense feature volume from human images, which lends itself to simple and intuitive manipulation through explicit geometric warping. Once the latent feature volume is warped according to the desired pose change, the volume is mapped back to RGB space by a convolutional decoder. Our state-of-the-art results on the DeepFashion and the iPER benchmarks indicate that dense volumetric human representations are worth investigating in more detail.
翻訳日:2022-11-24 02:09:43 公開日:2020-06-08
# 対人ロバスト性に対する自己指導的アプローチ

A Self-supervised Approach for Adversarial Robustness ( http://arxiv.org/abs/2006.04924v1 )

ライセンス: Link先を確認
Muzammal Naseer, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Fatih Porikli(参考訳) 敵対的な例は、Deep Neural Network(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。 このような攻撃に対するDNNの脆弱性は、現実のデプロイメントにとって大きな障害となる可能性がある。 敵の例の転送性は、クロスタスク保護を提供する一般的な防御を必要とする。 対象モデルのパラメータを変更することでロバスト性を高める対抗訓練は、そのような一般化性に欠ける。 一方で、さまざまな入力処理ベースの防御は、継続的に進化する攻撃に直面して不足する。 本稿では,両アプローチの利点を組み合わせるための第一歩として,入力空間における自己教師付き対向学習機構を提案する。 設計上,我々の防衛は汎用的なアプローチであり,従来の最先端技術と比較して,翻訳不変な \textbf{unseen} 攻撃の成功率を 82.6\% から 31.9\% に下げることによる) に対して大きな堅牢性を提供する。 分類やセグメンテーション,検出など,さまざまなビジョンシステムを保護するためのプラグイン・アンド・プレイソリューションとしてデプロイすることが可能です。 コードは以下の通りである。 {\small\url{https://github.com/Muzammal-Naseer/NRP}}。

Adversarial examples can cause catastrophic mistakes in Deep Neural Network (DNNs) based vision systems e.g., for classification, segmentation and object detection. The vulnerability of DNNs against such attacks can prove a major roadblock towards their real-world deployment. Transferability of adversarial examples demand generalizable defenses that can provide cross-task protection. Adversarial training that enhances robustness by modifying target model's parameters lacks such generalizability. On the other hand, different input processing based defenses fall short in the face of continuously evolving attacks. In this paper, we take the first step to combine the benefits of both approaches and propose a self-supervised adversarial training mechanism in the input space. By design, our defense is a generalizable approach and provides significant robustness against the \textbf{unseen} adversarial attacks (\eg by reducing the success rate of translation-invariant \textbf{ensemble} attack from 82.6\% to 31.9\% in comparison to previous state-of-the-art). It can be deployed as a plug-and-play solution to protect a variety of vision systems, as we demonstrate for the case of classification, segmentation and detection. Code is available at: {\small\url{https://github.com/Muzammal-Naseer/NRP}}.
翻訳日:2022-11-24 02:09:29 公開日:2020-06-08
# 歪みに対するロバスト性を高めるスポーリングおよびダウンスケーリングネットワーク

Sparsifying and Down-scaling Networks to Increase Robustness to Distortions ( http://arxiv.org/abs/2006.11389v1 )

ライセンス: Link先を確認
Sergey Tarasenko(参考訳) 完全に訓練されたネットワークは歪んだ画像を表示すると性能が劇的に低下することが示されている。 Streaming Network(STNet)は、歪んだ画像の堅牢な分類が可能な新しいアーキテクチャである。 この歪み頑健性は、分離重み付きスパース入力および孤立並列ストリームにより実現される。 近年の結果、STNetは20種類のノイズや歪みに対して堅牢であることが証明されている。 STNetは、低照度画像の分類に最先端の性能を示し、他のネットワークではずっと小さいサイズである。 本稿では,VGG16,ResNet50,MobileNetV2などの人気ネットワークを並列ストリームとして,スケールしたバージョン(各層におけるフィルタ数はn倍)を用いてSTNetを構築する。 これらの新しいSTNetは、いくつかのデータセットでテストされる。 以上の結果から,新しいsstnetは従来のネットワークに比べて高い,あるいは同等の精度を示すことがわかった。 テストに使用されるデータセットとネットワークの多様性を考慮すると、新しいタイプのstnetは歪んだ画像のロバストな分類のための効率的なツールであると結論づける。

It has been shown that perfectly trained networks exhibit drastic reduction in performance when presented with distorted images. Streaming Network (STNet) is a novel architecture capable of robust classification of the distorted images while been trained on undistorted images. The distortion robustness is enabled by means of sparse input and isolated parallel streams with decoupled weights. Recent results prove STNet is robust to 20 types of noise and distortions. STNet exhibits state-of-the-art performance for classification of low light images, while being of much smaller size when other networks. In this paper, we construct STNets by using scaled versions (number of filters in each layer is reduced by factor of n) of popular networks like VGG16, ResNet50 and MobileNetV2 as parallel streams. These new STNets are tested on several datasets. Our results indicate that more efficient (less FLOPS), new STNets exhibit higher or equal accuracy in comparison with original networks. Considering a diversity of datasets and networks used for tests, we conclude that a new type of STNets is an efficient tool for robust classification of distorted images.
翻訳日:2022-11-24 02:08:51 公開日:2020-06-08
# 画像復元のためのニューラルスパース表現

Neural Sparse Representation for Image Restoration ( http://arxiv.org/abs/2006.04357v1 )

ライセンス: Link先を確認
Yuchen Fan, Jiahui Yu, Yiqun Mei, Yulun Zhang, Yun Fu, Ding Liu, Thomas S. Huang(参考訳) 疎符号化に基づく画像復元モデルにおけるスパース表現の堅牢性と効率に着想を得て,ディープネットワークにおけるニューロンの空間性を検討した。 本手法は隠れたニューロンに空間的制約を課す。 スパルシリティ制約は勾配に基づく学習アルゴリズムに好適であり、様々なネットワークの畳み込み層にアタッチできる。 ニューロンのスパーシティは、精度を損なうことなくゼロでないコンポーネントのみを操作することで、計算の節約を可能にする。 一方,本手法では,表現の次元とモデル容量を,計算コストを考慮せずに増大させることができる。 実験により、画像のスーパーレゾリューション、画像のノイズ除去、画像圧縮アーティファクトの除去など、複数の画像復元タスクにおいてスパース表現が重要であることが示されている。 コードはhttps://github.com/ychfan/nsrで入手できる。

Inspired by the robustness and efficiency of sparse representation in sparse coding based image restoration models, we investigate the sparsity of neurons in deep networks. Our method structurally enforces sparsity constraints upon hidden neurons. The sparsity constraints are favorable for gradient-based learning algorithms and attachable to convolution layers in various networks. Sparsity in neurons enables computation saving by only operating on non-zero components without hurting accuracy. Meanwhile, our method can magnify representation dimensionality and model capacity with negligible additional computation cost. Experiments show that sparse representation is crucial in deep neural networks for multiple image restoration tasks, including image super-resolution, image denoising, and image compression artifacts removal. Code is available at https://github.com/ychfan/nsr
翻訳日:2022-11-24 02:03:10 公開日:2020-06-08
# 単眼深度に対する意味駆動型教師なし学習とエゴ運動推定

Semantics-Driven Unsupervised Learning for Monocular Depth and Ego-Motion Estimation ( http://arxiv.org/abs/2006.04371v1 )

ライセンス: Link先を確認
Xiaobin Wei, Jianjiang Feng, Jie Zhou(参考訳) 本稿では,単眼深度と自我運動推定のためのセマンティクス駆動非教師なし学習手法を提案する。 近年の教師なし学習法では, 合成ビューと実画像の光度誤差を指導信号として用いている。 本手法では,シーンにおける動的物体や閉塞の影響を軽減するためにセマンティックセグメンテーション情報を活用し,深度とセマンティクスの相関を考慮し,深度予測性能を向上させる。 コストのかかるラベリングプロセスを避けるために,事前学習した意味セグメンテーションネットワークによって得られたノイズの多い意味セグメンテーション結果を用いる。 さらに、隣接するフレームの対応する点間の位置誤差を最小限に抑え、3次元空間情報を利用する。 KITTIデータセットによる実験結果から,本手法は深度推定とエゴモーション推定の両方で良好な性能を発揮することが示された。

We propose a semantics-driven unsupervised learning approach for monocular depth and ego-motion estimation from videos in this paper. Recent unsupervised learning methods employ photometric errors between synthetic view and actual image as a supervision signal for training. In our method, we exploit semantic segmentation information to mitigate the effects of dynamic objects and occlusions in the scene, and to improve depth prediction performance by considering the correlation between depth and semantics. To avoid costly labeling process, we use noisy semantic segmentation results obtained by a pre-trained semantic segmentation network. In addition, we minimize the position error between the corresponding points of adjacent frames to utilize 3D spatial information. Experimental results on the KITTI dataset show that our method achieves good performance in both depth and ego-motion estimation tasks.
翻訳日:2022-11-24 02:02:56 公開日:2020-06-08
# 一般化焦点損失:密集物体検出のための資格と分散境界ボックスの学習

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection ( http://arxiv.org/abs/2006.04388v1 )

ライセンス: Link先を確認
Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang and Jian Yang(参考訳) 一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。 分類は通常フォカルロスによって最適化され、ボックスの位置はディラックデルタ分布の下で一般的に学習される。 最近の1段階検出器のトレンドは、予測品質が検出性能を向上させるために分類が容易となる局所化の品質を推定する個別予測ブランチを導入することである。 本稿では, 上記の3つの基本要素, 品質推定, 分類, 局所化について述べる。 既存の手法では,(1) 訓練と推論の質推定と分類の不整合,(2) 複雑な場面における曖昧さと不確実性がある場合の局所化の非フレキシブルディラックデルタ分布,の2つの問題点が指摘されている。 この問題に対処するために、これらの要素の新しい表現を設計する。 具体的には, 品質推定をクラス予測ベクトルに融合し, 局所的品質と分類の結合表現を形成し, ボックス位置の任意の分布を表すベクトルを用いる。 改良された表現は、矛盾するリスクを排除し、実際のデータの柔軟な分布を正確に描写するが、焦点損失の範囲を超えた連続ラベルを含む。 次に、最適化を成功させるために、その離散形式から連続バージョンへの焦点損失を一般化する一般化焦点損失(gfl)を提案する。 COCOテストデブでは、GFLはResNet-101バックボーンを使用して45.0\% APを達成し、最先端のSAPD(43.5\%)とATSS(43.6\%)を上回り、バックボーンとトレーニング設定が同じである。 特に、最高のモデルはシングルモデルのシングルスケールapを1つの2080ti gpu上で10fpsで48.2\%達成できます。 コードとモデルはhttps://github.com/implus/gfocalで入手できる。

One-stage detector basically formulates object detection as dense classification and localization. The classification is usually optimized by Focal Loss and the box location is commonly learned under Dirac delta distribution. A recent trend for one-stage detectors is to introduce an individual prediction branch to estimate the quality of localization, where the predicted quality facilitates the classification to improve detection performance. This paper delves into the representations of the above three fundamental elements: quality estimation, classification and localization. Two problems are discovered in existing practices, including (1) the inconsistent usage of the quality estimation and classification between training and inference and (2) the inflexible Dirac delta distribution for localization when there is ambiguity and uncertainty in complex scenes. To address the problems, we design new representations for these elements. Specifically, we merge the quality estimation into the class prediction vector to form a joint representation of localization quality and classification, and use a vector to represent arbitrary distribution of box locations. The improved representations eliminate the inconsistency risk and accurately depict the flexible distribution in real data, but contain continuous labels, which is beyond the scope of Focal Loss. We then propose Generalized Focal Loss (GFL) that generalizes Focal Loss from its discrete form to the continuous version for successful optimization. On COCO test-dev, GFL achieves 45.0\% AP using ResNet-101 backbone, surpassing state-of-the-art SAPD (43.5\%) and ATSS (43.6\%) with higher or comparable inference speed, under the same backbone and training settings. Notably, our best model can achieve a single-model single-scale AP of 48.2\%, at 10 FPS on a single 2080Ti GPU. Code and models are available at https://github.com/implus/GFocal.
翻訳日:2022-11-24 02:02:40 公開日:2020-06-08
# クロスグラニュラリティ動作認識のための深層階層型プール設計

Deep hierarchical pooling design for cross-granularity action recognition ( http://arxiv.org/abs/2006.04473v1 )

ライセンス: Link先を確認
Ahmed Mazari and Hichem Sahbi(参考訳) 本稿では,行動認識における時間的粒度の異なる階層的アグリゲーション設計を提案する。 このネットワークをトップダウンに横切ると、プール操作は不変性が少なくなりつつも、時間的に絶対的かつ局所性が良くなっています。 このネットワークにおける操作の組み合わせを学習することは、その解が、大域的な階層的プーリングプロセスにおける各レベル(つまり、時間的粒度)の寄与を捉える重みの分布に対応する制約付き最小化問題を解くことによって得られる。 原則と基礎が整っただけでなく、提案された階層的なプーリングもビデオ長の非依存であり、動作のミスアライメントに対する耐性がある。 UCF-101データベースに対する大規模な実験は、これらの主張を裏付けるものである。

In this paper, we introduce a novel hierarchical aggregation design that captures different levels of temporal granularity in action recognition. Our design principle is coarse-to-fine and achieved using a tree-structured network; as we traverse this network top-down, pooling operations are getting less invariant but timely more resolute and well localized. Learning the combination of operations in this network -- which best fits a given ground-truth -- is obtained by solving a constrained minimization problem whose solution corresponds to the distribution of weights that capture the contribution of each level (and thereby temporal granularity) in the global hierarchical pooling process. Besides being principled and well grounded, the proposed hierarchical pooling is also video-length agnostic and resilient to misalignments in actions. Extensive experiments conducted on the challenging UCF-101 database corroborate these statements.
翻訳日:2022-11-24 02:01:27 公開日:2020-06-08
# ディープマルチアグリゲーションネットワークを用いた行動認識

Action Recognition with Deep Multiple Aggregation Networks ( http://arxiv.org/abs/2006.04489v1 )

ライセンス: Link先を確認
Ahmed Mazari and Hichem Sahbi(参考訳) 現在のアクション認識アルゴリズムのほとんどは、複数の畳み込み層、プール層、完全に接続された層を積み重ねるディープネットワークに基づいている。 畳み込みと完全連結な操作は文献で広く研究されているが、アクション認識を扱うプーリング操作の設計は、アクションカテゴリーの時間的粒度が異なるため、比較的注意が払われておらず、既存のソリューションは主に最大または平均演算に依存している。 後者は明らかに、アクションカテゴリの実際の時間的粒度を完全に示さないため、分類性能のボトルネックとなる。 本稿では,行動認識における時間的粒度の異なる階層的なプール設計を提案する。 このネットワークをトップダウンに横切ると、プール操作は不変性が少なくなりつつも、時間的に絶対的かつ局所性が良くなっています。 このネットワークにおける操作の組み合わせを学習することは、その解が、大域的な階層的プーリングプロセスにおける各レベル(つまり、時間的粒度)の寄与を捉える重みの分布に対応する制約付き最小化問題を解くことによって得られる。 原理と基礎性に加えて、提案された階層型プーリングもビデオ長と解像度に依存しない。 挑戦的なUCF-101、HMDB-51、JHMDB-21データベースに関する大規模な実験は、これらの全ての主張を裏付けるものである。

Most of the current action recognition algorithms are based on deep networks which stack multiple convolutional, pooling and fully connected layers. While convolutional and fully connected operations have been widely studied in the literature, the design of pooling operations that handle action recognition, with different sources of temporal granularity in action categories, has comparatively received less attention, and existing solutions rely mainly on max or averaging operations. The latter are clearly powerless to fully exhibit the actual temporal granularity of action categories and thereby constitute a bottleneck in classification performances. In this paper, we introduce a novel hierarchical pooling design that captures different levels of temporal granularity in action recognition. Our design principle is coarse-to-fine and achieved using a tree-structured network; as we traverse this network top-down, pooling operations are getting less invariant but timely more resolute and well localized. Learning the combination of operations in this network -- which best fits a given ground-truth -- is obtained by solving a constrained minimization problem whose solution corresponds to the distribution of weights that capture the contribution of each level (and thereby temporal granularity) in the global hierarchical pooling process. Besides being principled and well grounded, the proposed hierarchical pooling is also video-length and resolution agnostic. Extensive experiments conducted on the challenging UCF-101, HMDB-51 and JHMDB-21 databases corroborate all these statements.
翻訳日:2022-11-24 02:01:12 公開日:2020-06-08
# プロの人間と機械の翻訳の違いは何か? ドメイン固有MTのブラインド多言語化

What's the Difference Between Professional Human and Machine Translation? A Blind Multi-language Study on Domain-specific MT ( http://arxiv.org/abs/2006.04781v1 )

ライセンス: Link先を確認
Lukas Fischer and Samuel L\"aubli(参考訳) 機械翻訳 (MT) では, 人為的後編集を必要とする誤りが多数報告されているが, 人為的翻訳 (HT) にそのような誤りが含まれている程度は, MT と HT をインターリーブした事前翻訳文書をコンパイルし, プロの翻訳者に対して, エラーのフラグ付けと後編集をブラインド評価で求めている。 mtセグメントの編集後作業は3つの言語ペアのうち2つでのみ高く,誤語,欠落,類型的問題を持つセグメントの数はhtでも同様であることがわかった。

Machine translation (MT) has been shown to produce a number of errors that require human post-editing, but the extent to which professional human translation (HT) contains such errors has not yet been compared to MT. We compile pre-translated documents in which MT and HT are interleaved, and ask professional translators to flag errors and post-edit these documents in a blind evaluation. We find that the post-editing effort for MT segments is only higher in two out of three language pairs, and that the number of segments with wrong terminology, omissions, and typographical problems is similar in HT.
翻訳日:2022-11-24 01:53:42 公開日:2020-06-08
# 機械学習とグラフマイナー:障害の力

Graph Minors Meet Machine Learning: the Power of Obstructions ( http://arxiv.org/abs/2006.04689v1 )

ライセンス: Link先を確認
Faisal N. Abu-Khzam, Mohamed Mahmoud Abd El-Wahab and Noureldin Yosri(参考訳) 計算の難易度は何十年もの間、品質とタイムのトレードオフを主な目的とする多数の方法論の開発に刺激を与えてきた。 機械学習技術の使用は、${\cal NP}$-hardの組合せ最適化問題の近似解を得るためのツールの1つとしてようやく登場した。 最近の論文で、Dai et al.はVertex Cover問題のインスタンスに対して、そのような近似解を計算する方法を紹介した。 本稿では,問題自体に本質的な性質があると考える「障害」と呼ばれる特別な問題例を考慮し,適切なトレーニング戦略を選択することの有効性を検討する。 最近のDai et al.のVertex Cover問題への取り組みと、同じケーススタディと19の他の問題事例を用いて、ニューラルネットワークのトレーニングに障害を用いることの有用性を示す。 実験により、障害のあるトレーニングは収束に必要なイテレーションの数を大幅に削減し、モデルトレーニングに必要な時間を大幅に削減できることが示された。

Computational intractability has for decades motivated the development of a plethora of methodologies that mainly aimed at a quality-time trade-off. The use of Machine Learning techniques has finally emerged as one of the possible tools to obtain approximate solutions to ${\cal NP}$-hard combinatorial optimization problems. In a recent article, Dai et al. introduced a method for computing such approximate solutions for instances of the Vertex Cover problem. In this paper we consider the effectiveness of selecting a proper training strategy by considering special problem instances called "obstructions" that we believe carry some intrinsic properties of the problem itself. Capitalizing on the recent work of Dai et al. on the Vertex Cover problem, and using the same case study as well as 19 other problem instances, we show the utility of using obstructions for training neural networks. Experiments show that training with obstructions results in a huge reduction in number of iterations needed for convergence, thus gaining a substantial reduction in the time needed for training the model.
翻訳日:2022-11-24 01:53:02 公開日:2020-06-08
# マルチロボット計画のための整数プログラミング:列生成アプローチ

Integer Programming for Multi-Robot Planning: A Column Generation Approach ( http://arxiv.org/abs/2006.04856v1 )

ライセンス: Link先を確認
Naveed Haghani, Jiaoyang Li, Sven Koenig, Gautam Kunapuli, Claudio Contardo, Julian Yarkony(参考訳) 倉庫内のロボット群を協調させることは,問題やロボット特有の制約を尊重しながら,制限時間内に達成される報酬を最大化するために問題を考える。 この問題を重み付き集合パッキング問題として定式化し、そこでは要素をロボットが占有できる時空の位置と、拾い上げて届けられるアイテムと定義する。 ロボットは衝突せず、各アイテムは最大で1回配送され、いつでもアクティブなロボットの数は利用可能な総数を超えないことを強制する。 ロボット経路の集合は計算不可能であるため,資源制約された最短経路問題である列生成を用いて最適化を行う。

We consider the problem of coordinating a fleet of robots in a warehouse so as to maximize the reward achieved within a time limit while respecting problem and robot specific constraints. We formulate the problem as a weighted set packing problem where elements are defined as being the space-time positions a robot can occupy and the items that can be picked up and delivered. We enforce that robots do not collide, that each item is delivered at most once, and that the number of robots active at any time does not exceed the total number available. Since the set of robot routes is not enumerable, we attack optimization using column generation where pricing is a resource-constrained shortest-path problem.
翻訳日:2022-11-24 01:52:21 公開日:2020-06-08
# Intel Loihi上での六脚ロボット移動のためのアストロサイト修飾ニューロモルフィック中央パターン生成装置

An Astrocyte-Modulated Neuromorphic Central Pattern Generator for Hexapod Robot Locomotion on Intel's Loihi ( http://arxiv.org/abs/2006.04765v1 )

ライセンス: Link先を確認
Ioannis Polykretis, Konstantinos P. Michmizos(参考訳) 移動は、自然界に豊富な生物学的ネットワークによって「不運に」対処される脚のあるロボットにとって重要な課題であり、中央パターンジェネレータ(CPG)と呼ばれる。 これまでにバイオミメティックなロボットコントローラーとなった多数のcpgネットワークモデルは、新興のニューロモルフィックなハードウェアには適用されず、本質的にエネルギー効率の良いシステムをもたらすロバストな歩行メカニズムをモバイルロボットに奪われている。 そこで本研究では,ヘキサポッドロボットの歩行パターンを2つ生成する網羅的スパイキング型ニューラル・アストロサイトティックネットワークに基づく脳型CPG制御器を提案する。 我々の提案したCPGアーキテクチャは、最近同定されたニューロ変調のための天体機構に基づいており、チップとロボットオペレーティングシステム(ROS)環境とのリアルタイムインタラクションフレームワークを活用し、IntelのLoihiニューロモルフィックチップにシームレスに統合されている。 ここでは,ロイヒを走行するCPGを用いて,センサノイズや速度プロファイルの変化に頑健な歩行ロボットを制御できることを実証する。 以上より,自律移動ロボットにおけるloihi制御型ロコモーションへのアプローチについて検討した。

Locomotion is a crucial challenge for legged robots that is addressed "effortlessly" by biological networks abundant in nature, named central pattern generators (CPG). The multitude of CPG network models that have so far become biomimetic robotic controllers is not applicable to the emerging neuromorphic hardware, depriving mobile robots of a robust walking mechanism that would result in inherently energy-efficient systems. Here, we propose a brain-morphic CPG controler based on a comprehensive spiking neural-astrocytic network that generates two gait patterns for a hexapod robot. Building on the recently identified astrocytic mechanisms for neuromodulation, our proposed CPG architecture is seamlessly integrated into Intel's Loihi neuromorphic chip by leveraging a real-time interaction framework between the chip and the robotic operating system (ROS) environment, that we also propose. Here, we demonstrate that a Loihi-run CPG can be used to control a walking robot with robustness to sensory noise and varying speed profiles. Our results pave the way for scaling this and other approaches towards Loihi-controlled locomotion in autonomous mobile robots.
翻訳日:2022-11-24 01:52:09 公開日:2020-06-08
# 補完的勧告のための構成的視覚コヒーレンス学習

Learning the Compositional Visual Coherence for Complementary Recommendations ( http://arxiv.org/abs/2006.04380v1 )

ライセンス: Link先を確認
Zhi Li, Bo Wu, Qi Liu, Likang Wu, Hongke Zhao, Tao Mei(参考訳) 近年, 学業・産業界において, 補足的かつ互換性のある製品提案の提供を目的とした補完的勧告が注目されている。 %であるが,複雑さと主観性から困難である。 現存する研究は、主に2つのアイテム間の共同購入関係のモデル化に重点を置いているが、アイテムコレクションの構成的関連性はほとんど解明されていない。 実際、ユーザが購入した製品の補完アイテムを選択すると、グローバルインプレッションに加えて視覚的なセマンティックコヒーレンス(カラーコロケーションやテクスチャの互換性など)を考えるのは直感的です。 そこで本稿では,グローバルコンテンツとセマンティックコンテンツの両方に対する包括的構成コヒーレンスをモデル化するための,新しいコンテンツ注意ニューラルネットワーク(CANN)を提案する。 具体的には,まず,グローバル構成コヒーレンスをモデル化するために,マルチヘッドに着目した \textit{global coherence learning} (gcl) モジュールを提案する。 次に,異なる意味領域から意味焦点表現を生成し,異なる意味焦点表現から焦点合成コヒーレンスを学習するために,FCL(textit{Focal Coherence Learning})モジュールを設計する。 最後に、新しい構成最適化戦略でCANNを最適化する。 大規模実世界のデータに対する広範囲な実験は、いくつかの最先端手法と比較して、cannの有効性を明確に示している。

Complementary recommendations, which aim at providing users product suggestions that are supplementary and compatible with their obtained items, have become a hot topic in both academia and industry in recent years. %However, it is challenging due to its complexity and subjectivity. Existing work mainly focused on modeling the co-purchased relations between two items, but the compositional associations of item collections are largely unexplored. Actually, when a user chooses the complementary items for the purchased products, it is intuitive that she will consider the visual semantic coherence (such as color collocations, texture compatibilities) in addition to global impressions. Towards this end, in this paper, we propose a novel Content Attentive Neural Network (CANN) to model the comprehensive compositional coherence on both global contents and semantic contents. Specifically, we first propose a \textit{Global Coherence Learning} (GCL) module based on multi-heads attention to model the global compositional coherence. Then, we generate the semantic-focal representations from different semantic regions and design a \textit{Focal Coherence Learning} (FCL) module to learn the focal compositional coherence from different semantic-focal representations. Finally, we optimize the CANN in a novel compositional optimization strategy. Extensive experiments on the large-scale real-world data clearly demonstrate the effectiveness of CANN compared with several state-of-the-art methods.
翻訳日:2022-11-24 01:45:53 公開日:2020-06-08
# 非線形高次ラベル展開

Nonlinear Higher-Order Label Spreading ( http://arxiv.org/abs/2006.04762v1 )

ライセンス: Link先を確認
Francesco Tudisco, Austin R. Benson, Konstantin Prokopchik(参考訳) ラベル拡散は、ポイントクラウドやネットワークデータを用いた半教師付き学習の一般的なテクニックであり、グラフ上のラベルの拡散と解釈できる。 ラベルの拡散には多くのバリエーションがあるが、ほとんど全てが線形モデルであり、ノードへの入力情報は近隣ノードからの情報の重み付けされた和である。 ここでは、グラフの高階構造、すなわちグラフの三角形の非線形関数によるラベル拡散に非線形性を加える。 非線形関数の幅広いクラスについて、制約付き半教師付き損失関数の大域解への非線形高階ラベル拡散アルゴリズムの収束を証明する。 我々は,非線形高次モデルが古典的ラベル拡散やハイパーグラフモデルやグラフニューラルネットワークと好適な比較を行う,様々なポイントクラウドやネットワークデータセットにおいて,このアプローチの効率性と有効性を示す。

Label spreading is a general technique for semi-supervised learning with point cloud or network data, which can be interpreted as a diffusion of labels on a graph. While there are many variants of label spreading, nearly all of them are linear models, where the incoming information to a node is a weighted sum of information from neighboring nodes. Here, we add nonlinearity to label spreading through nonlinear functions of higher-order structure in the graph, namely triangles in the graph. For a broad class of nonlinear functions, we prove convergence of our nonlinear higher-order label spreading algorithm to the global solution of a constrained semi-supervised loss function. We demonstrate the efficiency and efficacy of our approach on a variety of point cloud and network datasets, where the nonlinear higher-order model compares favorably to classical label spreading, as well as hypergraph models and graph neural networks.
翻訳日:2022-11-24 01:43:42 公開日:2020-06-08
# 粒子物理学のためのローレンツ群同変ニューラルネットワーク

Lorentz Group Equivariant Neural Network for Particle Physics ( http://arxiv.org/abs/2006.04780v1 )

ライセンス: Link先を確認
Alexander Bogatskiy, Brandon Anderson, Jan T. Offermann, Marwah Roussi, David W. Miller, Risi Kondor(参考訳) 物理学における空間と時間の基本対称性であるローレンツ群の下での変換に関して、完全同値であるニューラルネットワークアーキテクチャを提案する。 このアーキテクチャはローレンツ群の有限次元表現の理論に基づいており、同変非線形性はテンソル積を含む。 粒子物理学における分類タスクにおいて、このような同変アーキテクチャは、学習可能なパラメータが比較的少なく、CNNやポイントクラウドアプローチを使用する主要なアプローチよりもはるかに物理的に解釈可能な、非常に単純なモデルをもたらすことを示す。 陽子-陽子衝突で生成するジェット成分のエネルギー運動量からトップクォーク崩壊をタグ付けする一般分類データセット[27]上で,ネットワークの競合性能を実証した。

We present a neural network architecture that is fully equivariant with respect to transformations under the Lorentz group, a fundamental symmetry of space and time in physics. The architecture is based on the theory of the finite-dimensional representations of the Lorentz group and the equivariant nonlinearity involves the tensor product. For classification tasks in particle physics, we demonstrate that such an equivariant architecture leads to drastically simpler models that have relatively few learnable parameters and are much more physically interpretable than leading approaches that use CNNs and point cloud approaches. The competitive performance of the network is demonstrated on a public classification dataset [27] for tagging top quark decays given energy-momenta of jet constituents produced in proton-proton collisions.
翻訳日:2022-11-24 01:43:22 公開日:2020-06-08
# 誤特定下の分類:半空間、一般化線形モデル、進化可能性への接続

Classification Under Misspecification: Halfspaces, Generalized Linear Models, and Connections to Evolvability ( http://arxiv.org/abs/2006.04787v1 )

ライセンス: Link先を確認
Sitan Chen, Frederic Koehler, Ankur Moitra, Morris Yau(参考訳) 本稿では,誤特定に基づく分類における古典的な問題を再考する。 特に、Massartノイズ下でのハーフスペースの学習問題を$\eta$で検討する。 最近の研究で、Diakonikolas、Goulekakis、Tzamosは、$\eta + \epsilon$ for any $\epsilon > 0$を学習するための最初の効率的なアルゴリズムを提供することで、長年の問題を解決した。 しかし、それらのアルゴリズムは複雑な仮説を出力し、空間を$\text{poly}(d,1/\epsilon)$ regionに分割する。 ここで、より単純なアルゴリズムを与え、その過程において、いくつかの未解決の問題を解決する: (1) マッサート半空間に対する最初の適切な学習者を与え、$\eta + \epsilon$ を得る。 また、多項式時間アルゴリズムによって実現可能なサンプル複雑性の限界も改善した。 2)(1)に基づいて,任意に複雑な分類器を等しく適切な分類器に変換するブラックボックス知識蒸留法を開発した。 (3) 単純だが見過ごされた接続を進化可能性に活用することにより、任意のSQアルゴリズムは、$\mathsf{OPT} + \epsilon$を達成するために超ポリノミカルな多くのクエリを必要とすることを示す。 さらに、任意の奇数、単調、リプシッツ関数 $\sigma$ に対して $\mathbb{E}[Y|\mathbf{X}] = \sigma(\langle \mathbf{w}^*, \mathbf{X}\rangle)$ を一般化線型モデルとして研究する。 このファミリーは、前述のハーフスペースモデルを特別なケースとして含むが、よりリッチで、ロジスティック回帰のような他の基本モデルを含んでいる。 我々は,マスアートノイズを一般化する新しい汚職モデルを提案し,この環境で学習する一般的なアルゴリズムを提案する。 我々のアルゴリズムは、誤特定の有無を分類する学習のための、小さなレシピセットに基づいている。 最後に,マスアート雑音下でのハーフスペース学習のためのアルゴリズムを実証的に検討し,公平性を示すことを示す。

In this paper we revisit some classic problems on classification under misspecification. In particular, we study the problem of learning halfspaces under Massart noise with rate $\eta$. In a recent work, Diakonikolas, Goulekakis, and Tzamos resolved a long-standing problem by giving the first efficient algorithm for learning to accuracy $\eta + \epsilon$ for any $\epsilon > 0$. However, their algorithm outputs a complicated hypothesis, which partitions space into $\text{poly}(d,1/\epsilon)$ regions. Here we give a much simpler algorithm and in the process resolve a number of outstanding open questions: (1) We give the first proper learner for Massart halfspaces that achieves $\eta + \epsilon$. We also give improved bounds on the sample complexity achievable by polynomial time algorithms. (2) Based on (1), we develop a blackbox knowledge distillation procedure to convert an arbitrarily complex classifier to an equally good proper classifier. (3) By leveraging a simple but overlooked connection to evolvability, we show any SQ algorithm requires super-polynomially many queries to achieve $\mathsf{OPT} + \epsilon$. Moreover we study generalized linear models where $\mathbb{E}[Y|\mathbf{X}] = \sigma(\langle \mathbf{w}^*, \mathbf{X}\rangle)$ for any odd, monotone, and Lipschitz function $\sigma$. This family includes the previously mentioned halfspace models as a special case, but is much richer and includes other fundamental models like logistic regression. We introduce a challenging new corruption model that generalizes Massart noise, and give a general algorithm for learning in this setting. Our algorithms are based on a small set of core recipes for learning to classify in the presence of misspecification. Finally we study our algorithm for learning halfspaces under Massart noise empirically and find that it exhibits some appealing fairness properties.
翻訳日:2022-11-24 01:43:08 公開日:2020-06-08
# 文書レベルニューラルマシン翻訳のための談話構造モデリング

Modeling Discourse Structure for Document-level Neural Machine Translation ( http://arxiv.org/abs/2006.04721v1 )

ライセンス: Link先を確認
Junxuan Chen, Xiang Li, Jiarui Zhang, Chulun Zhou, Jianwei Cui, Bin Wang, Jinsong Su(参考訳) 近年,機械翻訳のコミュニティにおいて,文書レベルのニューラルマシン翻訳(NMT)が話題となっている。 その成功にもかかわらず、既存の研究の多くは翻訳すべき入力文書の談話構造情報を無視しており、他のタスクで効果的であることが示されている。 本稿では,談話構造情報を用いて文書レベルのNMTを改善することを提案する。 我々のエンコーダは階層型アテンションネットワーク(han)に基づいている。 具体的には、まず入力文書を解析してその談話構造を得る。 次に,各単語の談話構造情報をエンコードするトランスベースのパスエンコーダを提案する。 最後に、談話構造情報をエンコーダに入力する前に埋め込む単語と組み合わせる。 英語とドイツ語のデータセットによる実験結果から,我々のモデルはTransformerとTransformer+HANのどちらよりも優れていることがわかった。

Recently, document-level neural machine translation (NMT) has become a hot topic in the community of machine translation. Despite its success, most of existing studies ignored the discourse structure information of the input document to be translated, which has shown effective in other tasks. In this paper, we propose to improve document-level NMT with the aid of discourse structure information. Our encoder is based on a hierarchical attention network (HAN). Specifically, we first parse the input document to obtain its discourse structure. Then, we introduce a Transformer-based path encoder to embed the discourse structure information of each word. Finally, we combine the discourse structure information with the word embedding before it is fed into the encoder. Experimental results on the English-to-German dataset show that our model can significantly outperform both Transformer and Transformer+HAN.
翻訳日:2022-11-24 01:42:10 公開日:2020-06-08
# FREDE: 線形空間の任意のグラフ埋め込み

FREDE: Linear-Space Anytime Graph Embeddings ( http://arxiv.org/abs/2006.04746v1 )

ライセンス: Link先を確認
Anton Tsitsulin, Marina Munkhoeva, Davide Mottin, Panagiotis Karras, Ivan Oseledets, Emmanuel M\"uller(参考訳) グラフノードの低次元表現や埋め込みは、データマイニングタスクを容易にする。 埋め込み法はノード間の類似度を明示的にまたは暗黙的に依存する。 類似性行列は二次的であるため、空間複雑性と埋め込み品質のトレードオフが生じる; 過去の研究は、まず、線形空間を許容するが品質を妥協するヒューリスティックスと線形変換因子分解を選択した; 近年の研究では、実行可能な選択肢として二次空間解も提案している。 本稿では,類似度行列の行間の共分散を効果的に維持することを目的とした埋め込み手法について述べる。 (i)線形空間複雑性。 (ii)その基礎としての非線形変換、及び (iii)非自明な品質保証? 本稿では,類似度行列の行を個々に処理しながら品質を反復的に改善するスケッチベース手法であるfrede(frequent directions embedded)を用いて,この質問に回答する。 可変サイズネットワークを用いた実験により,fredeはsvdと同様に,ノードの類似性のわずか10%に基づく組込みを導出しても,データマイニングタスクにおける現在の最先端手法と競合することを示した。

Low-dimensional representations, or embeddings, of a graph's nodes facilitate data mining tasks. Known embedding methods explicitly or implicitly rely on a similarity measure among nodes. As the similarity matrix is quadratic, a tradeoff between space complexity and embedding quality arises; past research initially opted for heuristics and linear-transform factorizations, which allow for linear space but compromise on quality; recent research has proposed a quadratic-space solution as a viable option too. In this paper we observe that embedding methods effectively aim to preserve the covariance among the rows of a similarity matrix, and raise the question: is there a method that combines (i) linear space complexity, (ii) a nonlinear transform as its basis, and (iii) nontrivial quality guarantees? We answer this question in the affirmative, with FREDE(FREquent Directions Embedding), a sketching-based method that iteratively improves on quality while processing rows of the similarity matrix individually; thereby, it provides, at any iteration, column-covariance approximation guarantees that are, in due course, almost indistinguishable from those of the optimal row-covariance approximation by SVD. Our experimental evaluation on variably sized networks shows that FREDE performs as well as SVD and competitively against current state-of-the-art methods in diverse data mining tasks, even when it derives an embedding based on only 10% of node similarities.
翻訳日:2022-11-24 01:36:05 公開日:2020-06-08
# 時間差とQ学習は表現を学習できるか? 平均場の理論

Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory ( http://arxiv.org/abs/2006.04761v1 )

ライセンス: Link先を確認
Yufeng Zhang, Qi Cai, Zhuoran Yang, Yongxin Chen, Zhaoran Wang(参考訳) 時間差とq学習は、ニューラルネットワークのような表現力のある非線形関数近似子によって強化される深層強化学習において重要な役割を果たす。 彼らの経験的成功の核心は、画像やテキストのような豊富な観察を意味構造をエンコードする潜在空間に埋め込む、学習された特徴表現である。 一方、そのような特徴表現の進化は、時間差とq学習の収束に不可欠である。 特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。 関数近似器がニューラルネットワークであるとき、関連する特徴表現はどのように進化しますか? もし収束すれば、最適なものに収束するだろうか? 過パラメータの2層ニューラルネットワークを用いて,時間差とq学習により,平均二乗射影ベルマン誤差をサブリニアレートでグローバルに最小化する。 さらに、関連する特徴表現は最適に収束し、関連する特徴表現が初期で安定化する神経タンジェント核状態において、Cai et al. (2019) の以前の解析を一般化する。 解析の鍵は平均場的視点であり、有限次元パラメータの進化と無限次元ワッセルシュタイン空間上の極限的パラメータの進化をつなぐものである。 我々の分析は、政策勾配にさらに結びついているソフトQ-ラーニングに一般化する。

Temporal-difference and Q-learning play a key role in deep reinforcement learning, where they are empowered by expressive nonlinear function approximators such as neural networks. At the core of their empirical successes is the learned feature representation, which embeds rich observations, e.g., images and texts, into the latent space that encodes semantic structures. Meanwhile, the evolution of such a feature representation is crucial to the convergence of temporal-difference and Q-learning. In particular, temporal-difference learning converges when the function approximator is linear in a feature representation, which is fixed throughout learning, and possibly diverges otherwise. We aim to answer the following questions: When the function approximator is a neural network, how does the associated feature representation evolve? If it converges, does it converge to the optimal one? We prove that, utilizing an overparameterized two-layer neural network, temporal-difference and Q-learning globally minimize the mean-squared projected Bellman error at a sublinear rate. Moreover, the associated feature representation converges to the optimal one, generalizing the previous analysis of Cai et al. (2019) in the neural tangent kernel regime, where the associated feature representation stabilizes at the initial one. The key to our analysis is a mean-field perspective, which connects the evolution of a finite-dimensional parameter to its limiting counterpart over an infinite-dimensional Wasserstein space. Our analysis generalizes to soft Q-learning, which is further connected to policy gradient.
翻訳日:2022-11-24 01:35:32 公開日:2020-06-08
# 物理シミュレーションのための多次元高次ガウス過程

Multi-Fidelity High-Order Gaussian Processes for Physical Simulation ( http://arxiv.org/abs/2006.04972v1 )

ライセンス: Link先を確認
Zheng Wang, Wei Xing, Robert Kirby, Shandian Zhe(参考訳) 物理シミュレーションの鍵となる課題は、離散化された領域上の偏微分方程式(PDE)を解くことである。 特に、高忠実度ソリューションは低忠実度ソリューションよりもずっと高価である。 コスト削減のために、異なる忠実度のシミュレーション例を利用して高次元PDE解出力を予測する新しいガウス過程(GP)モデルを考える。 既存のgp法は高次元出力にスケーラブルでないか、複数の忠実度サンプルを統合する効果的な戦略を欠いている。 これらの問題に対処するため,MFHoGP(Multi-Fidelity High-Order Gaussian Process)を提案する。 新規な非線形コリージョン化モデルに基づいて、mfhogpはファイバー全体にわたってベースを伝播し、情報をヒューズし、基底重みの上に深いマトリックスgpを配置し、フィデリティをまたいだ(非線形)関係をキャプチャする。 推論効率と品質を改善するため,モデルパラメータを大幅に削減する基底分解と,後続の依存性を捕捉し,計算を簡略化する層ワイド行列ガウス後続法を用いる。 我々の確率的変分学習アルゴリズムは余分な近似なしに数百万の出力をうまく処理する。 本手法の利点をいくつかの応用例で示す。

The key task of physical simulation is to solve partial differential equations (PDEs) on discretized domains, which is known to be costly. In particular, high-fidelity solutions are much more expensive than low-fidelity ones. To reduce the cost, we consider novel Gaussian process (GP) models that leverage simulation examples of different fidelities to predict high-dimensional PDE solution outputs. Existing GP methods are either not scalable to high-dimensional outputs or lack effective strategies to integrate multi-fidelity examples. To address these issues, we propose Multi-Fidelity High-Order Gaussian Process (MFHoGP) that can capture complex correlations both between the outputs and between the fidelities to enhance solution estimation, and scale to large numbers of outputs. Based on a novel nonlinear coregionalization model, MFHoGP propagates bases throughout fidelities to fuse information, and places a deep matrix GP prior over the basis weights to capture the (nonlinear) relationships across the fidelities. To improve inference efficiency and quality, we use bases decomposition to largely reduce the model parameters, and layer-wise matrix Gaussian posteriors to capture the posterior dependency and to simplify the computation. Our stochastic variational learning algorithm successfully handles millions of outputs without extra sparse approximations. We show the advantages of our method in several typical applications.
翻訳日:2022-11-24 01:35:09 公開日:2020-06-08
# 深部株価予測

Deep Stock Predictions ( http://arxiv.org/abs/2006.04992v1 )

ライセンス: Link先を確認
Akash Doshi, Alexander Issa, Puneet Sachdeva, Sina Rafati, Somnath Rakshit(参考訳) 株価の予測は時系列予測問題と解釈でき、Long Short Term Memory (LSTM) ニューラルネットワークはそのような問題を解決するために構築されたアーキテクチャのためにしばしば使用される。 本稿では,4つの企業に対するlstm株価予測を用いてポートフォリオ最適化を行うトレーディング戦略の設計について検討する。 次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。 さらに,ウィンドウ長とマルチステップ予測長の最適選択のためのデータ駆動手法を提案し,アテンションユニットの追加により強化されたマルチスタック双方向LSTMに対して,アナリスト呼び出しを技術的指標として考慮する。 ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させるために,カスタマイズされた損失関数を持つLSTMモデルが提案されている。

Forecasting stock prices can be interpreted as a time series prediction problem, for which Long Short Term Memory (LSTM) neural networks are often used due to their architecture specifically built to solve such problems. In this paper, we consider the design of a trading strategy that performs portfolio optimization using the LSTM stock price prediction for four different companies. We then customize the loss function used to train the LSTM to increase the profit earned. Moreover, we propose a data driven approach for optimal selection of window length and multi-step prediction length, and consider the addition of analyst calls as technical indicators to a multi-stack Bidirectional LSTM strengthened by the addition of Attention units. We find the LSTM model with the customized loss function to have an improved performance in the training bot over a regressive baseline such as ARIMA, while the addition of analyst call does improve the performance for certain datasets.
翻訳日:2022-11-24 01:34:46 公開日:2020-06-08
# DNSタイポスクワット検出のためのアンサンブルに基づく特徴選択と分類モデル

Ensemble-based Feature Selection and Classification Model for DNS Typo-squatting Detection ( http://arxiv.org/abs/2006.09272v1 )

ライセンス: Link先を確認
Abdallah Moubayed and Emad Aqeeli and Abdallah Shami(参考訳) ドメイン名システム(DNS)は、現在のIPベースのインターネットアーキテクチャにおいて重要な役割を果たす。 これはドメイン名からip解決を実行するためである。 しかしdnsプロトコルには、データ完全性やオリジン認証の欠如によるセキュリティ上の脆弱性がいくつかある。 本稿では,特定のセキュリティ脆弱性,すなわちタイポスキャッティングに注目する。 タイポスクワット(タイポスクワット、Typo-squatting)とは、ユーザーを悪意のあるウェブサイトにリダイレクトすることを目的として、既存の人気ブランドと非常によく似たドメイン名を登録することを指す。 typo-squattingの危険性は、情報脅威、企業秘密漏洩、不正行為の促進につながる可能性があることである。 本稿では,DNS型スワーミング攻撃を検出するために,アンサンブルに基づく特徴選択とバッジ分類モデルを提案する。 実験の結果,提案手法は,機能セットが小さく,計算の複雑さが低く(機能集合サイズが50%以上減少する),かつ,悪意のあるタイプポスキャッティング領域(精度が1.5%以上,完全特徴集合を用いたモデルと比較して精度が5%以上低下する)の同定において,高い精度と精度を達成していることがわかった。

Domain Name System (DNS) plays in important role in the current IP-based Internet architecture. This is because it performs the domain name to IP resolution. However, the DNS protocol has several security vulnerabilities due to the lack of data integrity and origin authentication within it. This paper focuses on one particular security vulnerability, namely typo-squatting. Typo-squatting refers to the registration of a domain name that is extremely similar to that of an existing popular brand with the goal of redirecting users to malicious/suspicious websites. The danger of typo-squatting is that it can lead to information threat, corporate secret leakage, and can facilitate fraud. This paper builds on our previous work in [1], which only proposed majority-voting based classifier, by proposing an ensemble-based feature selection and bagging classification model to detect DNS typo-squatting attack. Experimental results show that the proposed framework achieves high accuracy and precision in identifying the malicious/suspicious typo-squatting domains (a loss of at most 1.5% in accuracy and 5% in precision when compared to the model that used the complete feature set) while having a lower computational complexity due to the smaller feature set (a reduction of more than 50% in feature set size).
翻訳日:2022-11-24 01:34:30 公開日:2020-06-08
# stad:トラヒック・オブ・トラベルタイム推定の時空間調整

STAD: Spatio-Temporal Adjustment of Traffic-Oblivious Travel-Time Estimation ( http://arxiv.org/abs/2006.09892v1 )

ライセンス: Link先を確認
Sofiane Abbar, Rade Stanojevic, Mohamed Mokbel(参考訳) 旅行時間推定は、現代交通の応用において重要な要素である。 走行時間推定技術の現状は、gpsトレースを使用して道路網の重みを学習し、しばしば有向グラフとしてモデル化し、dijkstraのようなアルゴリズムを適用して最短経路を見つける。 その後、帰還した経路のエッジ重みの和として旅行時間が計算される。 時間依存を可能にするため、既存のシステムは異なる時間ウィンドウに対応する多重重み付きグラフを演算する。 これらのグラフは、プロダクションのルーティングエンジンにデプロイされる前にオフラインで最適化されることが多い。 本稿では,出発時刻,目的地時刻,出発時刻の形式で表現された旅行要求に対して,移動時間推定を-オンザフライで調整するシステムであるstadを提案する。 stadは、機械学習とスパーストリップを使用して、基本的なルーティングエンジンの不完全さを学習し、都市内の実際の交通状況への移動時間を調整できる本格的な時間依存システムに変える。 STADは、出発時や目的地地域といった空間的特徴と出発時や日時といった時間的特徴を組み合わせることで、交通の時空間特性を活用し、基本経路エンジンの走行時間推定を大幅に改善する。 Doha、New York City、Portoの実際の旅行データセットの実験では、最初の2都市では14%、後者では29%の絶対誤差が減少している。 また、STADは3つの都市で異なる商業・研究ベースラインよりも優れた性能を示している。

Travel time estimation is an important component in modern transportation applications. The state of the art techniques for travel time estimation use GPS traces to learn the weights of a road network, often modeled as a directed graph, then apply Dijkstra-like algorithms to find shortest paths. Travel time is then computed as the sum of edge weights on the returned path. In order to enable time-dependency, existing systems compute multiple weighted graphs corresponding to different time windows. These graphs are often optimized offline before they are deployed into production routing engines, causing a serious engineering overhead. In this paper, we present STAD, a system that adjusts - on the fly - travel time estimates for any trip request expressed in the form of origin, destination, and departure time. STAD uses machine learning and sparse trips data to learn the imperfections of any basic routing engine, before it turns it into a full-fledged time-dependent system capable of adjusting travel times to real traffic conditions in a city. STAD leverages the spatio-temporal properties of traffic by combining spatial features such as departing and destination geographic zones with temporal features such as departing time and day to significantly improve the travel time estimates of the basic routing engine. Experiments on real trip datasets from Doha, New York City, and Porto show a reduction in median absolute errors of 14% in the first two cities and 29% in the latter. We also show that STAD performs better than different commercial and research baselines in all three cities.
翻訳日:2022-11-24 01:34:10 公開日:2020-06-08
# P2P貸出における信用評価のための二次属性の決定

Determining Secondary Attributes for Credit Evaluation in P2P Lending ( http://arxiv.org/abs/2006.13921v1 )

ライセンス: Link先を確認
Revathi Bhuvaneswari, Antonio Segalini(参考訳) 従来の銀行組織とピアツーピア融資会社の両方による信用評価の二次的手段の必要性が高まっている。 これは、厳格な一次信用履歴が「善」と「悪」の借主を区別するのに役立たず、最終的には個人借り手と投資家全体の両方を傷つける現代の技術的時代において特に重要である。 このスコアに寄与する特定の二次属性を識別しながら、機械学習による分類とクラスタリングアルゴリズムを用いて借主の信用度を正確に予測する。 ローンが完全に支払われる時期を予測するため、広範な研究が行われてきたが、貸付の特徴選択の分野は比較的新しい。 キーセカンダリ属性を特定しながら,LendingClubデータ上で65%のF1と73%のAUCを達成した。

There has been an increased need for secondary means of credit evaluation by both traditional banking organizations as well as peer-to-peer lending entities. This is especially important in the present technological era where sticking with strict primary credit histories doesn't help distinguish between a 'good' and a 'bad' borrower, and ends up hurting both the individual borrower as well as the investor as a whole. We utilized machine learning classification and clustering algorithms to accurately predict a borrower's creditworthiness while identifying specific secondary attributes that contribute to this score. While extensive research has been done in predicting when a loan would be fully paid, the area of feature selection for lending is relatively new. We achieved 65% F1 and 73% AUC on the LendingClub data while identifying key secondary attributes.
翻訳日:2022-11-24 01:33:43 公開日:2020-06-08
# 心理計測サーベイ応答の検証

Validating psychometric survey responses ( http://arxiv.org/abs/2006.14054v1 )

ライセンス: Link先を確認
Alberto Mastrotto (1), Anderson Nelson (1), Dev Sharma (1), Ergeta Muca (1), Kristina Liapchin (1), Luis Losada (1), Mayur Bansal (1), Roman S. Samarev (2 and 3) ((1) Columbia University, 116th St and Broadway, New York, NY 10027, USA, (2) dotin Inc, Francisco Ln. 194, 94539, Fremont CA, USA, (3) Bauman Moscow State Technical University, ul. Baumanskaya 2-ya, 5/1, 105005, Moscow, Russia)(参考訳) 機械学習技術を用いて,調査回答におけるユーザの有効性を分類する手法を提案する。 本手法は,Webサーベイにおけるユーザマウスの活動の収集と,特定の回答を分析せずに調査の有効性を推定することに基づいている。 ルールベースアプローチ、LSTMおよびHMMモデルを検討する。 このアプローチは、疑わしいユーザの振る舞いを検出し、偽のデータ記録の代わりに適切な回答を要求するWebサーベイアプリケーションで使われるかもしれない。

We present an approach to classify user validity in survey responses by using a machine learning techniques. The approach is based on collecting user mouse activity on web-surveys and fast predicting validity of the survey in general without analysis of specific answers. Rule based approach, LSTM and HMM models are considered. The approach might be used in web-survey applications to detect suspicious users behaviour and request from them proper answering instead of false data recording.
翻訳日:2022-11-24 01:33:29 公開日:2020-06-08
# Associate-3Ddet: 3Dポイントクラウドオブジェクト検出のための知覚対概念アソシエーション

Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Object Detection ( http://arxiv.org/abs/2006.04356v1 )

ライセンス: Link先を確認
Liang Du and Xiaoqing Ye and Xiao Tan and Jianfeng Feng and Zhenbo Xu and Errui Ding and Shilei Wen(参考訳) 3Dポイント雲からの物体検出は依然として難しい課題だが、最近の研究ではディープラーニング技術によって封筒を推し進めている。 重度の空間的閉塞とセンサーまでの距離による点密度の固有のばらつきのため、同じ物体の出現は点雲データによって大きく異なる。 このような外観変化に対してロバストな特徴表現を設計することは、3dオブジェクト検出方法の重要な問題である。 本稿では,特徴表現の堅牢性を高めるために,ドメイン適応のようなアプローチを革新的に提案する。 より具体的には、その特徴が実際のシーンから来る知覚領域と、その特徴が詳細な情報に富んだ非閉塞点雲からなる拡張シーンから抽出される概念領域とのギャップを橋渡しする。 このドメイン適応アプローチは、物体知覚を進める際に人間の脳の機能を模倣する。 広範な実験によって、当社の単純かつ効果的なアプローチが3dポイントクラウドオブジェクト検出のパフォーマンスを根本的に向上させ、最先端の成果を達成できることが示されています。

Object detection from 3D point clouds remains a challenging task, though recent studies pushed the envelope with the deep learning techniques. Owing to the severe spatial occlusion and inherent variance of point density with the distance to sensors, appearance of a same object varies a lot in point cloud data. Designing robust feature representation against such appearance changes is hence the key issue in a 3D object detection method. In this paper, we innovatively propose a domain adaptation like approach to enhance the robustness of the feature representation. More specifically, we bridge the gap between the perceptual domain where the feature comes from a real scene and the conceptual domain where the feature is extracted from an augmented scene consisting of non-occlusion point cloud rich of detailed information. This domain adaptation approach mimics the functionality of the human brain when proceeding object perception. Extensive experiments demonstrate that our simple yet effective approach fundamentally boosts the performance of 3D point cloud object detection and achieves the state-of-the-art results.
翻訳日:2022-11-24 01:33:22 公開日:2020-06-08
# Privacy Adversarial Network: モバイルデータプライバシのための表現学習

Privacy Adversarial Network: Representation Learning for Mobile Data Privacy ( http://arxiv.org/abs/2006.06535v1 )

ライセンス: Link先を確認
Sicong Liu, Junzhao Du, Anshumali Shrivastava, Lin Zhong(参考訳) 機械学習の驚くべき成功により、モバイルユーザー向けのクラウドベースのインテリジェントサービスが増えている。 このようなサービスでは、画像、音声、ビデオなどのデータをプロバイダに送信する必要があるため、ユーザのプライバシに深刻な課題がある。 これに対処するために、プリエントワークは、例えばノイズの追加やid情報の削除といったデータを難読化するか、データから抽出された表現、例えば匿名化特徴を送信します。 難読化されたデータはユーティリティを減らし、抽出された表現が機密情報を明らかにするため、サービスユーティリティとデータのプライバシのバランスを取るのに苦労する。 私たちは、プライバシとユーティリティのバランスを改善するために、敵対的学習を活用しています。 我々は,機密情報(プライバシの尺度)のプライバシー開示リスクに対して, \textit{privacy adversaries} によって最適化する特徴表現を生成する \textit{representation encoder} を設計し, \textit{utility discriminator} によるタスク推論精度(ユーティリティの尺度)と同時最適化する。 その結果、新たなトレーニングアルゴリズムを備えた、新しいディープラーニングモデルであるprivacy adversarial network(\systemname)が、生データから表現を自動的に学習する。 直感的には、PANは抽出した表現に目標タスクに必要な情報のみを伝えるように強制する。 驚くべきことに、これは実際にタスクの正確性を改善する暗黙の正規化を構成する。 その結果、panはより良いユーティリティとより良いプライバシを同時に達成するのです! 6つの一般的なデータセットに関する広範な実験を報告し,先行研究で報告された代替手法と比較して, \systemname が優れていることを示す。

The remarkable success of machine learning has fostered a growing number of cloud-based intelligent services for mobile users. Such a service requires a user to send data, e.g. image, voice and video, to the provider, which presents a serious challenge to user privacy. To address this, prior works either obfuscate the data, e.g. add noise and remove identity information, or send representations extracted from the data, e.g. anonymized features. They struggle to balance between the service utility and data privacy because obfuscated data reduces utility and extracted representation may still reveal sensitive information. This work departs from prior works in methodology: we leverage adversarial learning to a better balance between privacy and utility. We design a \textit{representation encoder} that generates the feature representations to optimize against the privacy disclosure risk of sensitive information (a measure of privacy) by the \textit{privacy adversaries}, and concurrently optimize with the task inference accuracy (a measure of utility) by the \textit{utility discriminator}. The result is the privacy adversarial network (\systemname), a novel deep model with the new training algorithm, that can automatically learn representations from the raw data. Intuitively, PAN adversarially forces the extracted representations to only convey the information required by the target task. Surprisingly, this constitutes an implicit regularization that actually improves task accuracy. As a result, PAN achieves better utility and better privacy at the same time! We report extensive experiments on six popular datasets and demonstrate the superiority of \systemname compared with alternative methods reported in prior work.
翻訳日:2022-11-24 01:27:40 公開日:2020-06-08
# 感性属性のサンプル化による等化オッドの獲得

Achieving Equalized Odds by Resampling Sensitive Attributes ( http://arxiv.org/abs/2006.04292v1 )

ライセンス: Link先を確認
Yaniv Romano and Stephen Bates and Emmanuel J. Cand\`es(参考訳) 等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。 これは、この基準の違反を厳格に定量化する一般的な不一致関数を導入することで達成される。 この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。 適合モデルを評価するために,予測規則がこの性質に違反しているかどうかを検出するための形式的仮説テストを開発した。 モデルフィッティングと仮説テストの両方は、構成により等化奇数に従う感度属性の再サンプリング版を利用する。 提案手法の適用性と妥当性を回帰分類問題と多クラス分類問題の両方に適用し,最先端手法の性能向上を報告した。 最後に,不確実性定量化のための手法(研究対象グループごとに偏りのない)を組み込んで,データ分析の結果を厳密に伝える方法を示す。

We present a flexible framework for learning predictive models that approximately satisfy the equalized odds notion of fairness. This is achieved by introducing a general discrepancy functional that rigorously quantifies violations of this criterion. This differentiable functional is used as a penalty driving the model parameters towards equalized odds. To rigorously evaluate fitted models, we develop a formal hypothesis test to detect whether a prediction rule violates this property, the first such test in the literature. Both the model fitting and hypothesis testing leverage a resampled version of the sensitive attribute obeying equalized odds, by construction. We demonstrate the applicability and validity of the proposed framework both in regression and multi-class classification problems, reporting improved performance over state-of-the-art methods. Lastly, we show how to incorporate techniques for equitable uncertainty quantification---unbiased for each group under study---to communicate the results of the data analysis in exact terms.
翻訳日:2022-11-24 01:27:10 公開日:2020-06-08
# バランスサブサンプル安定予測

Balance-Subsampled Stable Prediction ( http://arxiv.org/abs/2006.04381v1 )

ライセンス: Link先を確認
Kun Kuang, Hengtao Zhang, Fei Wu, Yueting Zhuang and Aijun Zhang(参考訳) 機械学習では、トレーニングとテストデータが同じ人口分布を共有していると一般的に仮定される。 しかし、サンプル選択バイアスがトレーニングデータからテストデータへの分布シフトを引き起こす可能性があるため、実際にこの仮定に違反することが多い。 このようなモデルに依存しない分布シフトは、通常未知のテストデータ間での予測不安定をもたらす。 本稿では,分数階乗設計の理論に基づく新しいバランス代入安定予測(bssp)アルゴリズムを提案する。 それぞれの予測器の明確な効果を結合変数から分離する。 設計理論的解析により,提案手法は分布シフトによって引き起こされる予測器間の結合効果を低減し,パラメータ推定の精度と予測安定性を向上できることを示した。 合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回ることを示した。

In machine learning, it is commonly assumed that training and test data share the same population distribution. However, this assumption is often violated in practice because the sample selection bias may induce the distribution shift from training data to test data. Such a model-agnostic distribution shift usually leads to prediction instability across unknown test data. In this paper, we propose a novel balance-subsampled stable prediction (BSSP) algorithm based on the theory of fractional factorial design. It isolates the clear effect of each predictor from the confounding variables. A design-theoretic analysis shows that the proposed method can reduce the confounding effects among predictors induced by the distribution shift, hence improve both the accuracy of parameter estimation and prediction stability. Numerical experiments on both synthetic and real-world data sets demonstrate that our BSSP algorithm significantly outperforms the baseline methods for stable prediction across unknown test data.
翻訳日:2022-11-24 01:26:53 公開日:2020-06-08
# 周辺・階層情報最大化による教師なしグラフ表現

Unsupervised Graph Representation by Periphery and Hierarchical Information Maximization ( http://arxiv.org/abs/2006.04696v1 )

ライセンス: Link先を確認
Sambaran Bandyopadhyay, Manasvi Aggarwal, M. Narasimha Murty(参考訳) 近年,グラフなどの非ユークリッドデータ型における深層表現学習が注目されている。 グラフニューラルネットワークの発明により、ベクトル空間におけるノードとグラフ全体の表現の最先端性が向上した。 しかし、グラフ表現全体については、既存のグラフニューラルネットワークのほとんどは、教師付き方法でグラフ分類損失に基づいて訓練されている。 しかし、大量のグラフのラベルを得ることは、現実世界のアプリケーションにとって高価である。 そこで本稿では,グラフ全体のベクトル表現を生成するために,教師なしグラフニューラルネットワークを提案する。 この目的のために,階層型グラフニューラルネットワークの概念と相互情報最大化を1つのフレームワークに統合する。 また,グラフの周辺表現の概念を提案し,その有用性を示すアルゴリズムをGraPHmaxと呼ぶ。 実世界のグラフデータセットの徹底的な実験を行い、GraPHmaxの性能を教師付きベースラインアルゴリズムと教師なしベースラインアルゴリズムの両方で比較する。 実験結果から,複数の実世界のデータセット上での複数のグラフレベルのタスクの最先端性を向上できる一方で,他のデータセットとの競合も維持できることがわかった。

Deep representation learning on non-Euclidean data types, such as graphs, has gained significant attention in recent years. Invent of graph neural networks has improved the state-of-the-art for both node and the entire graph representation in a vector space. However, for the entire graph representation, most of the existing graph neural networks are trained on a graph classification loss in a supervised way. But obtaining labels of a large number of graphs is expensive for real world applications. Thus, we aim to propose an unsupervised graph neural network to generate a vector representation of an entire graph in this paper. For this purpose, we combine the idea of hierarchical graph neural networks and mutual information maximization into a single framework. We also propose and use the concept of periphery representation of a graph and show its usefulness in the proposed algorithm which is referred as GraPHmax. We conduct thorough experiments on several real-world graph datasets and compare the performance of GraPHmax with a diverse set of both supervised and unsupervised baseline algorithms. Experimental results show that we are able to improve the state-of-the-art for multiple graph level tasks on several real-world datasets, while remain competitive on the others.
翻訳日:2022-11-24 01:25:01 公開日:2020-06-08
# クロスドメインFew-Shot学習のためのトランスダクティブマルチヘッドモデル

A Transductive Multi-Head Model for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2006.11384v1 )

ライセンス: Link先を確認
Jianan Jiang, Zhenpeng Li, Yuhong Guo, Jieping Ye(参考訳) 本稿では,CD-FSL(Cross-Domain Few-Shot Learning)の課題に対処するため,Transductive Multi-Head Few-Shot Learning (TMHFS)を提案する。 tmhfs法は、共通特徴埋め込みネットワークの後に、新しい予測ヘッド、すなわち、意味情報に基づくインスタンス単位のグローバル分類ネットワークを導入することにより、メタ信頼変換(mct)および高密度特徴マッチングネットワーク(dfmn)法[2]を拡張する。 我々は、複数のヘッド、すなわちMCT損失、DFMN損失、意味分類器損失で埋め込みネットワークをソースドメイン内で同時にトレーニングする。 対象領域における数ショットの学習では,まずセマンティックグローバル分類器とサポートインスタンスのみを用いて埋め込みネットワーク上で微調整を行い,次にMDT部を用いてクエリセットのラベルを細調整した埋め込みネットワークで予測する。 さらに,微調整およびテスト段階におけるデータ拡張技術を利用して予測性能を向上させる。 実験の結果,提案手法は4つの異なる対象領域において,強いベースライン,微調整を大きく上回ることがわかった。

In this paper, we present a new method, Transductive Multi-Head Few-Shot learning (TMHFS), to address the Cross-Domain Few-Shot Learning (CD-FSL) challenge. The TMHFS method extends the Meta-Confidence Transduction (MCT) and Dense Feature-Matching Networks (DFMN) method [2] by introducing a new prediction head, i.e, an instance-wise global classification network based on semantic information, after the common feature embedding network. We train the embedding network with the multiple heads, i.e,, the MCT loss, the DFMN loss and the semantic classifier loss, simultaneously in the source domain. For the few-shot learning in the target domain, we first perform fine-tuning on the embedding network with only the semantic global classifier and the support instances, and then use the MCT part to predict labels of the query set with the fine-tuned embedding network. Moreover, we further exploit data augmentation techniques during the fine-tuning and test stages to improve the prediction performance. The experimental results demonstrate that the proposed methods greatly outperform the strong baseline, fine-tuning, on four different target domains.
翻訳日:2022-11-24 01:18:24 公開日:2020-06-08
# 可変ベイズ安全下での学習

Learning under Invariable Bayesian Safety ( http://arxiv.org/abs/2006.04497v1 )

ライセンス: Link先を確認
Gal Bahar, Omer Ben-Porat, Kevin Leyton-Brown and Moshe Tennenholtz(参考訳) 最近の研究機関は、探索・探索システムの安全性の制約に対処している。 このような制約は、例えば、福祉と全体的な福祉のバランスをとるべき個人が探検を行う場合に生じる。 本稿では,近年のバンディットライクな環境でのレコメンデーションにインスパイアされたモデルを採用する。 我々は,各ラウンドにおいて尊重されるべき安全制約を導入し,各ラウンドの期待値が所定のしきい値を超えていることを決定することにより,この一連の文献に寄与する。 我々のモデリングにより、安全な探索・探索政策は慎重な計画が必要であり、そうでなければ、最適以下の福祉につながるでしょう。 インスタンス依存収束率の設定と解析に漸近的に最適なアルゴリズムを考案する。

A recent body of work addresses safety constraints in explore-and-exploit systems. Such constraints arise where, for example, exploration is carried out by individuals whose welfare should be balanced with overall welfare. In this paper, we adopt a model inspired by recent work on a bandit-like setting for recommendations. We contribute to this line of literature by introducing a safety constraint that should be respected in every round and determines that the expected value in each round is above a given threshold. Due to our modeling, the safe explore-and-exploit policy deserves careful planning, or otherwise, it will lead to sub-optimal welfare. We devise an asymptotically optimal algorithm for the setting and analyze its instance-dependent convergence rate.
翻訳日:2022-11-24 01:16:43 公開日:2020-06-08
# クラスタリングのアルゴリズム入門

An Algorithmic Introduction to Clustering ( http://arxiv.org/abs/2006.04916v1 )

ライセンス: Link先を確認
Bernardo A. Gonzalez-Torres(参考訳) 本稿では,5つの異なるクラスタリングアルゴリズム間の関係を同定し,クラスタリングのより統一的な視点を示す。 結果の一部は新しいものではないが、よりクリーンで、よりシンプルで、より簡潔な方法で提示される。 私の知る限りでは、DBSCANと平均シフトの理論的関係を導入する登山手順としてのDBSCANの解釈は、新しい結果である。

This paper tries to present a more unified view of clustering, by identifying the relationships between five different clustering algorithms. Some of the results are not new, but they are presented in a cleaner, simpler and more concise way. To the best of my knowledge, the interpretation of DBSCAN as a climbing procedure, which introduces a theoretical connection between DBSCAN and Mean shift, is a novel result.
翻訳日:2022-11-24 01:09:06 公開日:2020-06-08
# 深度メートル法学習のための校正近傍認識信頼度尺度

Calibrated neighborhood aware confidence measure for deep metric learning ( http://arxiv.org/abs/2006.04935v1 )

ライセンス: Link先を確認
Maryna Karpusha, Sunghee Yun, Istvan Fehervari(参考訳) 近年、ディープラーニングの成功により、深層学習は有望な改善を遂げている。 マイナショット学習,画像検索,オープンセット分類などの問題に対してうまく適用されている。 しかし、深層学習モデルの信頼性を測り、信頼できない予測を特定することは依然としてオープンな課題である。 本稿では,その分類精度をよく反映した校正・解釈可能な信頼度尺度の定義に焦点をあてる。 学習距離メートル法を用いて遅延空間で類似性の比較を行う一方で,ガウス核平滑化関数を用いて各クラス毎のデータ点の分布を近似する。 ホールドアウト検証データセットに信頼度メトリックを提案する後処理キャリブレーションアルゴリズムは、最先端のディープラーニングモデルの一般化と堅牢性を改善しつつ、信頼度を解釈可能な推定を提供する。 一般的な4つのベンチマークデータセット(Caltech-UCSD Birds、Stanford Online Product、Stanford Car-196、In-shop Clothes Retrieval)の広範なテストは、追加のノイズや敵の例に関連するテストデータの分布シフトがあっても一貫した改善を示している。

Deep metric learning has gained promising improvement in recent years following the success of deep learning. It has been successfully applied to problems in few-shot learning, image retrieval, and open-set classifications. However, measuring the confidence of a deep metric learning model and identifying unreliable predictions is still an open challenge. This paper focuses on defining a calibrated and interpretable confidence metric that closely reflects its classification accuracy. While performing similarity comparison directly in the latent space using the learned distance metric, our approach approximates the distribution of data points for each class using a Gaussian kernel smoothing function. The post-processing calibration algorithm with proposed confidence metric on the held-out validation dataset improves generalization and robustness of state-of-the-art deep metric learning models while provides an interpretable estimation of the confidence. Extensive tests on four popular benchmark datasets (Caltech-UCSD Birds, Stanford Online Product, Stanford Car-196, and In-shop Clothes Retrieval) show consistent improvements even at the presence of distribution shifts in test data related to additional noise or adversarial examples.
翻訳日:2022-11-24 01:08:39 公開日:2020-06-08
# クラスタリングのための個別フェアネスの表記法

A Notion of Individual Fairness for Clustering ( http://arxiv.org/abs/2006.04960v1 )

ライセンス: Link先を確認
Matth\"aus Kleindessner, Pranjal Awasthi, Jamie Morgenstern(参考訳) フェア機械学習における一般的な区別は、特にフェア分類において、グループフェアネスと個人フェアネスの間にある。 クラスタリングの文脈では,群フェアネスは近年広く研究されているが,クラスタリングの個別フェアネスは研究されていない。 本稿では,クラスタリングにおける個人的公正性の自然な概念を提案する。 私たちの考えでは、すべてのデータポイントは、平均して、他のクラスタのポイントよりも、自身のクラスタのポイントに近いものです。 提案する個々人の公平性に関する質問について検討する。 負の面では、与えられたデータセットが一般にそのような個別に公平なクラスタリングを許すかどうかを決定することはNPハードであることを示す。 正の面では、実線上にあるデータセットの特別な場合に対して、個別に公正なクラスタリングを見つけるための効率的な動的プログラミング手法を提案する。 一般データセットに対しては,個々のフェアネス違反数を最小化することを目的としたヒューリスティックスを調査し,実際のデータセットにおける標準的なクラスタリング手法と比較する。

A common distinction in fair machine learning, in particular in fair classification, is between group fairness and individual fairness. In the context of clustering, group fairness has been studied extensively in recent years; however, individual fairness for clustering has hardly been explored. In this paper, we propose a natural notion of individual fairness for clustering. Our notion asks that every data point, on average, is closer to the points in its own cluster than to the points in any other cluster. We study several questions related to our proposed notion of individual fairness. On the negative side, we show that deciding whether a given data set allows for such an individually fair clustering in general is NP-hard. On the positive side, for the special case of a data set lying on the real line, we propose an efficient dynamic programming approach to find an individually fair clustering. For general data sets, we investigate heuristics aimed at minimizing the number of individual fairness violations and compare them to standard clustering approaches on real data sets.
翻訳日:2022-11-24 01:08:17 公開日:2020-06-08
# 受動バッチ注入訓練手法:異なるデータ分布からミニバッチを注入することでネットワーク性能を高める

Passive Batch Injection Training Technique: Boosting Network Performance by Injecting Mini-Batches from a different Data Distribution ( http://arxiv.org/abs/2006.04406v1 )

ライセンス: Link先を確認
Pravendra Singh, Pratik Mazumder, Vinay P. Namboodiri(参考訳) 本研究は,従来の入力データとは異なる分布からの付加データを利用する深層ニューラルネットワークのための新しい学習手法を提案する。 本手法は,ネットワークのオーバーフィッティングを低減し,一般化性能を向上させることを目的とする。 提案手法であるパッシブバッチインジェクショントレーニング技術(pbitt)は,すでに$l_2$正規化やバッチ正規化などのオーバーフィッティングを削減しているネットワークにおいて,オーバーフィッティングのレベルを低減し,精度を大幅に向上させる。 Passive Batch Injection Training Technique (PBITT)は、入力データ分布とは異なる分布からのデータを含む、いくつかの受動的ミニバッチをトレーニングプロセスに導入する。 この手法は最終モデルのパラメータ数を増加せず、推論(テスト)時間も増加せず、深いCNNの性能を向上させる。 私たちの知る限りでは、畳み込みニューラルネットワーク(cnns)のトレーニングを支援するために、さまざまなデータ分散を利用する最初の作業です。 VGG、ResNet、WideResNetといった標準アーキテクチャと、CIFAR-10、CIFAR-100、SVHN、ImageNetといった一般的なデータセットについて、提案手法を徹底的に評価する。 提案手法を用いて一貫した精度向上を観測する。 また,本手法により訓練されたモデルが,高速なR-CNNを用いたMS-COCOデータセット上でのオブジェクト検出など,他のタスクによく当てはまることを示した。 提案手法を検証するために広範囲なアブレーションを行った。 提案手法は,cifar-100データセットに対して,vgg-16の精度を2.1%向上させる。

This work presents a novel training technique for deep neural networks that makes use of additional data from a distribution that is different from that of the original input data. This technique aims to reduce overfitting and improve the generalization performance of the network. Our proposed technique, namely Passive Batch Injection Training Technique (PBITT), even reduces the level of overfitting in networks that already use the standard techniques for reducing overfitting such as $L_2$ regularization and batch normalization, resulting in significant accuracy improvements. Passive Batch Injection Training Technique (PBITT) introduces a few passive mini-batches into the training process that contain data from a distribution that is different from the input data distribution. This technique does not increase the number of parameters in the final model and also does not increase the inference (test) time but still improves the performance of deep CNNs. To the best of our knowledge, this is the first work that makes use of different data distribution to aid the training of convolutional neural networks (CNNs). We thoroughly evaluate the proposed approach on standard architectures: VGG, ResNet, and WideResNet, and on several popular datasets: CIFAR-10, CIFAR-100, SVHN, and ImageNet. We observe consistent accuracy improvement by using the proposed technique. We also show experimentally that the model trained by our technique generalizes well to other tasks such as object detection on the MS-COCO dataset using Faster R-CNN. We present extensive ablations to validate the proposed approach. Our approach improves the accuracy of VGG-16 by a significant margin of 2.1% over the CIFAR-100 dataset.
翻訳日:2022-11-24 01:07:05 公開日:2020-06-08
# tvgp-vae:テンソル変量ガウス過程前変量オートエンコーダ

tvGP-VAE: Tensor-variate Gaussian Process Prior Variational Autoencoder ( http://arxiv.org/abs/2006.04788v1 )

ライセンス: Link先を確認
Alex Campbell, Pietro Li\`o(参考訳) 変分オートエンコーダ(VAE)は、高次元データに基づく教師なし表現学習のための、深部生成潜在変数モデルの強力なクラスである。 計算的トラクタビリティを確保するため、VAEは単変量標準ガウス前値と平均体ガウス後値分布で実装されることが多い。 この結果、ベクトル値の潜在変数は元のデータ構造に非依存であり、複数の次元で高い相関関係を持つ可能性がある。 VAEフレームワークに対するテンソル変量拡張, テンソル変量ガウス過程の変分オートエンコーダ(tvGP-VAE)を提案し, 標準的な単変量ガウス前および後分布をテンソル変量ガウス過程で置き換える。 tvGP-VAEはテンソル値の潜在変数の次元上のカーネル関数を用いて相関構造を明示的にモデル化することができる。 時空間的に相関した画像時系列を例にとると、潜在空間で明示的に表現する相関構造の選択が、復元の観点からモデル性能に大きな影響を与えることが示されている。

Variational autoencoders (VAEs) are a powerful class of deep generative latent variable model for unsupervised representation learning on high-dimensional data. To ensure computational tractability, VAEs are often implemented with a univariate standard Gaussian prior and a mean-field Gaussian variational posterior distribution. This results in a vector-valued latent variables that are agnostic to the original data structure which might be highly correlated across and within multiple dimensions. We propose a tensor-variate extension to the VAE framework, the tensor-variate Gaussian process prior variational autoencoder (tvGP-VAE), which replaces the standard univariate Gaussian prior and posterior distributions with tensor-variate Gaussian processes. The tvGP-VAE is able to explicitly model correlation structures via the use of kernel functions over the dimensions of tensor-valued latent variables. Using spatiotemporally correlated image time series as an example, we show that the choice of which correlation structures to explicitly represent in the latent space has a significant impact on model performance in terms of reconstruction.
翻訳日:2022-11-24 01:00:42 公開日:2020-06-08
# procrustean直交スパースハッシュ

Procrustean Orthogonal Sparse Hashing ( http://arxiv.org/abs/2006.04847v1 )

ライセンス: Link先を確認
Mariano Tepper, Dipanjan Sengupta, Ted Willke(参考訳) ハッシュ処理は、その速度と効率性のため、類似性検索の最も一般的な方法の1つである。 文学では二分ハッシュが一般的である。 近年,昆虫の嗅覚は疎ハッシュと構造的および機能的に類似していることが示されている [6]。 ここでは,この生物学的メカニズムが最適化問題の解であることを示す。 さらに、直交性はスパースハッシュの精度を高めることを示す。 次に,新しい手法であるprocrustean orthogonal sparse hashing (posh, procrustean orthogonal sparse hashing)を提案する。 本稿では, 最適スパースリフティング(OSL) [22] とBioHash [30] の欠点を理論的に証明し, これら欠陥に対処するための2つの新しい方法, Binary OSL と SphericalHash を提案する。 我々はPOSH, Binary OSL, SphericalHashをいくつかの最先端ハッシュ手法と比較し, 幅広い標準ベンチマークとパラメータ設定で提案手法の優位性を示す実験結果を提供する。

Hashing is one of the most popular methods for similarity search because of its speed and efficiency. Dense binary hashing is prevalent in the literature. Recently, insect olfaction was shown to be structurally and functionally analogous to sparse hashing [6]. Here, we prove that this biological mechanism is the solution to a well-posed optimization problem. Furthermore, we show that orthogonality increases the accuracy of sparse hashing. Next, we present a novel method, Procrustean Orthogonal Sparse Hashing (POSH), that unifies these findings, learning an orthogonal transform from training data compatible with the sparse hashing mechanism. We provide theoretical evidence of the shortcomings of Optimal Sparse Lifting (OSL) [22] and BioHash [30], two related olfaction-inspired methods, and propose two new methods, Binary OSL and SphericalHash, to address these deficiencies. We compare POSH, Binary OSL, and SphericalHash to several state-of-the-art hashing methods and provide empirical results for the superiority of the proposed methods across a wide range of standard benchmarks and parameter settings.
翻訳日:2022-11-24 00:59:24 公開日:2020-06-08
# 繰り返しニューラルネットワークを用いた道路網の交通流予測

Traffic Flow Forecast of Road Networks with Recurrent Neural Networks ( http://arxiv.org/abs/2006.04670v1 )

ライセンス: Link先を確認
Ralf R\"uther and Andreas Klos and Marius Rosenbaum and Wolfram Schiffmann(参考訳) スマートシティ開発への関心は近年劇的に高まっている。 この文脈では、インテリジェント輸送システムは主要なトピックを描いている。 効率的なインテリジェント交通システムには交通流の予測が不可欠である。 交通の流れの予測は、確率的かつ非線形な性質のため、難しい作業である。 古典的な統計手法の他に、ニューラルネットワークは将来のトラフィックフローを予測する可能性を秘めている。 本研究では, 様々なリカレントニューラルネットワークを用いて, この予測を行う。 これらは、市の交差点に位置する誘導ループの測定に基づいて訓練される。 2018年1月から7月末までのデータを活用した。 各モデルは、すべてのセンサから計測されたトラフィックフローのシーケンスを組み込んで、各センサの将来のトラフィックフローを同時に予測する。 様々なモデルアーキテクチャ,予測地平線,入力データについて検討した。 大抵の場合、ゲート再帰単位を持つベクトル出力モデルは、考慮された全ての予測シナリオでテストセットの最小誤差を達成した。 データが少ないため、訓練されたモデルの一般化は限られている。

The interest in developing smart cities has increased dramatically in recent years. In this context an intelligent transportation system depicts a major topic. The forecast of traffic flow is indispensable for an efficient intelligent transportation system. The traffic flow forecast is a difficult task, due to its stochastic and non linear nature. Besides classical statistical methods, neural networks are a promising possibility to predict future traffic flow. In our work, this prediction is performed with various recurrent neural networks. These are trained on measurements of induction loops, which are placed in intersections of the city. We utilized data from beginning of January to the end of July in 2018. Each model incorporates sequences of the measured traffic flow from all sensors and predicts the future traffic flow for each sensor simultaneously. A variety of model architectures, forecast horizons and input data were investigated. Most often the vector output model with gated recurrent units achieved the smallest error on the test set over all considered prediction scenarios. Due to the small amount of data, generalization of the trained models is limited.
翻訳日:2022-11-24 00:52:03 公開日:2020-06-08
# 解釈可能な機械学習への半パラメトリックアプローチ

A Semiparametric Approach to Interpretable Machine Learning ( http://arxiv.org/abs/2006.04732v1 )

ライセンス: Link先を確認
Numair Sani, Jaron Lee, Razieh Nabi, Ilya Shpitser(参考訳) 機械学習におけるブラックボックスモデルは複雑な問題や高次元設定において優れた予測性能を示した。 しかし、透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限する。 この欠点に対処するために, 半パラメトリック統計を用いた予測モデルにおける解釈可能性と性能を交換する新しい手法を提案し, パラメトリック回帰モデルの解釈可能性と非パラメトリック法の性能を組み合わせることを可能にする。 これは,第1片が解釈可能でパラメトリックであり,第2片が解釈不能な残余片を追加するという2要素モデルを用いて実現される。 モデル全体の性能は, 十分な次元縮小法を用いて最適化される。 影響関数に基づく推定器は導出され、二重ロバストであることが示されている。 これにより、モデルパラメータの推定にdouble machine learningのようなアプローチが利用可能になります。 手術患者の集中治療室における滞在期間を予測したシミュレーション研究とデータアプリケーションを用いて,本手法の有用性について述べる。

Black box models in machine learning have demonstrated excellent predictive performance in complex problems and high-dimensional settings. However, their lack of transparency and interpretability restrict the applicability of such models in critical decision-making processes. In order to combat this shortcoming, we propose a novel approach to trading off interpretability and performance in prediction models using ideas from semiparametric statistics, allowing us to combine the interpretability of parametric regression models with performance of nonparametric methods. We achieve this by utilizing a two-piece model: the first piece is interpretable and parametric, to which a second, uninterpretable residual piece is added. The performance of the overall model is optimized using methods from the sufficient dimension reduction literature. Influence function based estimators are derived and shown to be doubly robust. This allows for use of approaches such as double Machine Learning in estimating our model parameters. We illustrate the utility of our approach via simulation studies and a data application based on predicting the length of stay in the intensive care unit among surgery patients.
翻訳日:2022-11-24 00:50:23 公開日:2020-06-08
# 非パラメトリック特徴の影響と重要性

Nonparametric Feature Impact and Importance ( http://arxiv.org/abs/2006.04750v1 )

ライセンス: Link先を確認
Terence Parr, James D. Wilson, Jeff Hamrick(参考訳) 実践者は、モデルを単純化し、汎用性を改善するために、モデル開発中に弱い予測因子をランク付けし排除するために特徴的重要性を使用する。 残念なことに、これらの特徴的重要度と特徴的影響、つまり説明変数が応答変数に与える影響を日常的に満たしている。 これは、ビジネスや医学的洞察の目的にとって重要性が不適切な影響を与えると解釈された場合、現実世界に影響を及ぼす可能性がある。 計算の重要性に対する主要なアプローチは、特徴選択にうまく機能するが、特徴の影響を歪曲した尺度を与える適合モデルの尋問である。 同じデータセットに適用された同じ手法は、モデルによって異なる特徴を生み出すことができ、結果、影響はデータから直接計算されるべきであると結論付ける。 非パラメトリックな特徴選択アルゴリズムはあるが、通常は影響や重要性の尺度ではなく、機能ランキングを提供する。 通常は、応答と単一変数の関連に焦点を合わせます。 本稿では,データに対して直接作用する部分依存曲線から導かれる特徴的影響と重要性を数学的に定義する。 品質を評価するために,これらの定義によってランク付けされた特徴は,既存の特徴選択手法と競合することを示す。

Practitioners use feature importance to rank and eliminate weak predictors during model development in an effort to simplify models and improve generality. Unfortunately, they also routinely conflate such feature importance measures with feature impact, the isolated effect of an explanatory variable on the response variable. This can lead to real-world consequences when importance is inappropriately interpreted as impact for business or medical insight purposes. The dominant approach for computing importances is through interrogation of a fitted model, which works well for feature selection, but gives distorted measures of feature impact. The same method applied to the same data set can yield different feature importances, depending on the model, leading us to conclude that impact should be computed directly from the data. While there are nonparametric feature selection algorithms, they typically provide feature rankings, rather than measures of impact or importance. They also typically focus on single-variable associations with the response. In this paper, we give mathematical definitions of feature impact and importance, derived from partial dependence curves, that operate directly on the data. To assess quality, we show that features ranked by these definitions are competitive with existing feature selection techniques using three real data sets for predictive tasks.
翻訳日:2022-11-24 00:50:07 公開日:2020-06-08
# Ablated Data Augmentationによる罰則

The Penalty Imposed by Ablated Data Augmentation ( http://arxiv.org/abs/2006.04769v1 )

ライセンス: Link先を確認
Frederick Liu, Amir Najmi, Mukund Sundararajan(参考訳) 入力の一部をランダムに省略する一連のデータ拡張技術がある。 これには入力ドロップアウト、カットアウト、ランダム消去が含まれる。 これらの手法はデータ拡張を短縮した。 これらの技術は精神に似ており、様々な領域におけるモデル性能の向上に成功しているように見えるが、L1やL2のような他の正規化技術のように、これらの技術の違いを数学的に理解していない。 まず,線形回帰のための平均アブレーションと逆ドロップアウトの形式モデルについて検討した。 我々は,従来の最小二乗目標の最適化に等価であることを示すとともに,一般のフレームワークのドロップアウトよりも一般的な実装であるContribution Covariance Penalty and inverted Dropoutと呼ぶペナルティを,修正されたL2とともに最小二乗目標の最適化に等価であることを示す。 ディープネットワークの場合、貢献を平均勾配による帰属係数と係数に置き換え、すなわち、様々なネットワークで対応するアブレーションデータの増加に伴って、貢献共分散ペナルティと修正l2ペナルティの低下に置き換えれば、結果の実証的なバージョンを示す。

There is a set of data augmentation techniques that ablate parts of the input at random. These include input dropout, cutout, and random erasing. We term these techniques ablated data augmentation. Though these techniques seems similar in spirit and have shown success in improving model performance in a variety of domains, we do not yet have a mathematical understanding of the differences between these techniques like we do for other regularization techniques like L1 or L2. First, we study a formal model of mean ablated data augmentation and inverted dropout for linear regression. We prove that ablated data augmentation is equivalent to optimizing the ordinary least squares objective along with a penalty that we call the Contribution Covariance Penalty and inverted dropout, a more common implementation than dropout in popular frameworks, is equivalent to optimizing the ordinary least squares objective along with Modified L2. For deep networks, we demonstrate an empirical version of the result if we replace contributions with attributions and coefficients with average gradients, i.e., the Contribution Covariance Penalty and Modified L2 Penalty drop with the increase of the corresponding ablated data augmentation across a variety of networks.
翻訳日:2022-11-24 00:49:30 公開日:2020-06-08
# 適応サンプリングによるグラフ表現学習ネットワーク

Graph Representation Learning Network via Adaptive Sampling ( http://arxiv.org/abs/2006.04637v1 )

ライセンス: Link先を確認
Anderson de Andrade, Chen Liu(参考訳) Graph Attention Network(GAT)とGraphSAGEは、グラフ構造化データを操作するニューラルネットワークアーキテクチャであり、リンク予測とノード分類のために広く研究されている。 GraphSAGEが提起した課題のひとつは、グラフ構造に基づいた隣の機能をスマートに組み合わせる方法だ。 GATはこの問題に注意を払って対処するが、GATの課題は、大規模で高密度なグラフに対するスケーラビリティである。 本研究では,より効率的で,異なるエッジ型情報を組み込むことが可能な,これらの問題に対処する新しいアーキテクチャを提案する。 重み付き多段階遷移確率からサンプリングされた近傍のノード表現を生成する。 トランスダクティブ設定とインダクティブ設定の両方で実験を行う。 実験は、cora、citeseer、pubmed、ppi、twitter、youtubeデータセットなど、いくつかのグラフベンチマークで同等あるいはそれ以上の結果を達成した。

Graph Attention Network (GAT) and GraphSAGE are neural network architectures that operate on graph-structured data and have been widely studied for link prediction and node classification. One challenge raised by GraphSAGE is how to smartly combine neighbour features based on graph structure. GAT handles this problem through attention, however the challenge with GAT is its scalability over large and dense graphs. In this work, we proposed a new architecture to address these issues that is more efficient and is capable of incorporating different edge type information. It generates node representations by attending to neighbours sampled from weighted multi-step transition probabilities. We conduct experiments on both transductive and inductive settings. Experiments achieved comparable or better results on several graph benchmarks, including the Cora, Citeseer, Pubmed, PPI, Twitter, and YouTube datasets.
翻訳日:2022-11-24 00:40:34 公開日:2020-06-08
# 機械学習を用いたDst予測の新しい評価法としての動的時間ワープ

Dynamic Time Warping as a New Evaluation for Dst Forecast with Machine Learning ( http://arxiv.org/abs/2006.04667v1 )

ライセンス: Link先を確認
Brecht Laperre, Jorge Amaya, Giovanni Lapenta(参考訳) ニューラルネットワークと機械学習に基づくモデルは、宇宙物理学で人気が高まっている。 特に、ニューラルネットワークモデルによる地磁気指標の予測は、一般的な研究分野になりつつある。 これらのモデルは、ルート平均二乗誤差(RMSE)やピアソン相関係数などの指標を用いて評価される。 しかし、これらの古典的な指標は時に重要な振る舞いを捉えない。 古典的指標の欠如を示すため,我々は,長期記憶ネットワークを用いてニューラルネットワークをトレーニングし,OMNIWebデータに基づいてトレーニングした1時間から6時間までの予測地平線で発生時刻$t$の乱暴嵐時指数の予測を行った。 相関係数とRMSEによるモデルの結果の検査により,最新の論文に匹敵する性能を示した。 しかし,視覚検査の結果,ニューラルネットワークによる予測は永続性モデルと類似していることがわかった。 本研究では, 2つの時系列が相互に時間的にシフトするかどうかを, 持続モデル出力と観測値とで測定する新しい手法を提案する。 Dynamical Time Warpingに基づくこの新しい測定は、永続化モデルによって得られた結果を特定し、ニューラルネットワークの出力の視覚的観察を確認するための有望な結果を示す。 最後に、ニューラルネットワークをトレーニングするための異なる手法を探索し、結果から永続性挙動を除去する。

Models based on neural networks and machine learning are seeing a rise in popularity in space physics. In particular, the forecasting of geomagnetic indices with neural network models is becoming a popular field of study. These models are evaluated with metrics such as the root-mean-square error (RMSE) and Pearson correlation coefficient. However, these classical metrics sometimes fail to capture crucial behavior. To show where the classical metrics are lacking, we trained a neural network, using a long short-term memory network, to make a forecast of the disturbance storm time index at origin time $t$ with a forecasting horizon of 1 up to 6 hours, trained on OMNIWeb data. Inspection of the model's results with the correlation coefficient and RMSE indicated a performance comparable to the latest publications. However, visual inspection showed that the predictions made by the neural network were behaving similarly to the persistence model. In this work, a new method is proposed to measure whether two time series are shifted in time with respect to each other, such as the persistence model output versus the observation. The new measure, based on Dynamical Time Warping, is capable of identifying results made by the persistence model and shows promising results in confirming the visual observations of the neural network's output. Finally, different methodologies for training the neural network are explored in order to remove the persistence behavior from the results.
翻訳日:2022-11-24 00:39:56 公開日:2020-06-08
# グラフ信号の雑音化の観点からのグラフニューラルネットワークの理解

Understanding Graph Neural Networks from Graph Signal Denoising Perspectives ( http://arxiv.org/abs/2006.04386v1 )

ライセンス: Link先を確認
Guoji Fu and Yifan Hou and Jian Zhang and Kaili Ma and Barakeel Fanseu Kamhoua and James Cheng(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類などのタスクの性能に優れていたため,注目されている。 しかし、特にノード表現学習において、GNNがどのように機能するか、なぜ機能するのかについては、不十分な理解がある。 本稿では,GNN,具体的にはスペクトルグラフ畳み込みネットワークとグラフアテンションネットワークを理解するための理論的枠組みを提供する。 スペクトルグラフ畳み込み(spectral graph convolutions)はノード特徴のデノージング(denoising node features)として、グラフの注意はエッジ重み付けのデノージング(denoising edge weights)として機能します。 また、線形自己注意機構が最先端のグラフアテンション手法と競合することを示す。 GSDN-FとGSDN-EFという2つの新しいモデルが、ノイズの多いノード特徴と/またはノイズの多いエッジを持つグラフに対して効果的に機能する。 ベンチマークデータセットを用いた実験により,理論的な結果と新しいモデルの有効性を検証した。 ソースコードは \url{https://github.com/fuguoji/GSDN} で入手できる。

Graph neural networks (GNNs) have attracted much attention because of their excellent performance on tasks such as node classification. However, there is inadequate understanding on how and why GNNs work, especially for node representation learning. This paper aims to provide a theoretical framework to understand GNNs, specifically, spectral graph convolutional networks and graph attention networks, from graph signal denoising perspectives. Our framework shows that GNNs are implicitly solving graph signal denoising problems: spectral graph convolutions work as denoising node features, while graph attentions work as denoising edge weights. We also show that a linear self-attention mechanism is able to compete with the state-of-the-art graph attention methods. Our theoretical results further lead to two new models, GSDN-F and GSDN-EF, which work effectively for graphs with noisy node features and/or noisy edges. We validate our theoretical findings and also the effectiveness of our new models by experiments on benchmark datasets. The source code is available at \url{https://github.com/fuguoji/GSDN}.
翻訳日:2022-11-24 00:33:41 公開日:2020-06-08
# 命題化と埋め込み:同一硬貨の2つの側面

Propositionalization and Embeddings: Two Sides of the Same Coin ( http://arxiv.org/abs/2006.04410v1 )

ライセンス: Link先を確認
Nada Lavra\v{c} and Bla\v{z} \v{S}krlj and Marko Robnik-\v{S}ikonja(参考訳) データ前処理は、十分な時間とリソースを必要とする機械学習パイプラインの重要なコンポーネントである。 事前処理の不可欠な部分は、与えられた学習アルゴリズムが必要とする形式へのデータ変換である。 本稿では,データ変換手法の命題化と組込みに焦点をあて,異なる入力データ型やフォーマットから単一のテーブルデータ表現へのデータ融合を可能にする,リレーショナルラーニングにおけるデータ処理手法について概説する。 どちらのアプローチもデータを表形式のデータに変換することを目標としているが、異なる用語とタスク定義を使い、異なる目標に対処し、異なるコンテキストで使用される。 本稿では,これら2つのデータ変換手法の統一的定義を提示し,それらの類似点と相違点を複合データ変換タスクの変種として説明することにより,これらの2つのデータ変換手法の理解を向上する一元化フレームワークを提案する。 この統一フレームワークに加えて,提案法と埋め込み法を組み合わせた統一手法として,複雑なデータ変換と学習タスクの解法という利点を生かした新しい手法を提案する。 本稿では、インスタンスベースのPropDRMアプローチと、データ変換と学習のための機能ベースのPropStarアプローチの2つの効率的な実装と、いくつかのリレーショナル問題に対する経験的評価について述べる。 その結果,新しいアルゴリズムは既存の関係学習者より優れており,さらに大きな問題を解くことができることがわかった。

Data preprocessing is an important component of machine learning pipelines, which requires ample time and resources. An integral part of preprocessing is data transformation into the format required by a given learning algorithm. This paper outlines some of the modern data processing techniques used in relational learning that enable data fusion from different input data types and formats into a single table data representation, focusing on the propositionalization and embedding data transformation approaches. While both approaches aim at transforming data into tabular data format, they use different terminology and task definitions, are perceived to address different goals, and are used in different contexts. This paper contributes a unifying framework that allows for improved understanding of these two data transformation techniques by presenting their unified definitions, and by explaining the similarities and differences between the two approaches as variants of a unified complex data transformation task. In addition to the unifying framework, the novelty of this paper is a unifying methodology combining propositionalization and embeddings, which benefits from the advantages of both in solving complex data transformation and learning tasks. We present two efficient implementations of the unifying methodology: an instance-based PropDRM approach, and a feature-based PropStar approach to data transformation and learning, together with their empirical evaluation on several relational problems. The results show that the new algorithms can outperform existing relational learners and can solve much larger problems.
翻訳日:2022-11-24 00:33:23 公開日:2020-06-08
# 敵の攻撃は失敗に終わる

Tricking Adversarial Attacks To Fail ( http://arxiv.org/abs/2006.04504v1 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) 最近の敵防衛アプローチは失敗した。 非ターゲティング勾配に基づく攻撃は、分類器が間違ったクラスを選択する原因となる。 我々の新しいホワイトボックス・ディフェンス・トリックは、指定された標的クラスをターゲットにした攻撃を標的にしない攻撃である。 これらの対象クラスから、実際のクラスを導出できる。 目標訓練防御は,(1)摂動と(2)摂動の和を最小化し,(2)敵の損失を分類する,非標的的,勾配ベースの敵攻撃の核となる最小化を巧みに行う。 ターゲットトレーニングは分類器を最小限に変更し、指定されたクラスでラベル付けされた追加の重複点(0距離)で訓練する。 これらの異なるラベルの重複サンプルは、(1)と(2)の項を最小化し、正しい分類が導かれる指定されたクラスのサンプルに操り攻撃を収束させる。 重要なことに、ターゲットトレーニングは、摂動を最小限にする攻撃の敵対的なサンプルを生成するための攻撃とオーバーヘッドを知る必要性をなくす。 CIFAR10におけるCW-L2(信頼=0)の精度は86.2%であり,非敵検体では未保証の分類精度を超えている。 目標訓練は敵防衛戦略に根本的な変化をもたらす。

Recent adversarial defense approaches have failed. Untargeted gradient-based attacks cause classifiers to choose any wrong class. Our novel white-box defense tricks untargeted attacks into becoming attacks targeted at designated target classes. From these target classes, we can derive the real classes. Our Target Training defense tricks the minimization at the core of untargeted, gradient-based adversarial attacks: minimize the sum of (1) perturbation and (2) classifier adversarial loss. Target Training changes the classifier minimally, and trains it with additional duplicated points (at 0 distance) labeled with designated classes. These differently-labeled duplicated samples minimize both terms (1) and (2) of the minimization, steering attack convergence to samples of designated classes, from which correct classification is derived. Importantly, Target Training eliminates the need to know the attack and the overhead of generating adversarial samples of attacks that minimize perturbations. We obtain an 86.2% accuracy for CW-L2 (confidence=0) in CIFAR10, exceeding even unsecured classifier accuracy on non-adversarial samples. Target Training presents a fundamental change in adversarial defense strategy.
翻訳日:2022-11-24 00:31:32 公開日:2020-06-08
# ベイズ推論としてのブートストラップのバリエーション

A Variational View on Bootstrap Ensembles as Bayesian Inference ( http://arxiv.org/abs/2006.04548v1 )

ライセンス: Link先を確認
Dimitrios Milios, Pietro Michiardi, Maurizio Filippone(参考訳) 本稿では,ニューラルネットワークのアンサンブル法とベイズ推論との接続を確立するために,変分引数を用いる。 本稿では,各モデル/粒子がパラメトリックブートストラップと先行の摂動によりデータの摂動に対応するアンサンブルに基づく手法を検討する。 粒子の最適化ステップによって関連する分布がモデルパラメーターの後方への分岐を減少させる条件を導出する。 このような条件は近似に特別な形式は必要とせず、純粋に幾何学的であり、ReLUアクティベーションを持つニューラルネットワークのような多くの興味深いモデル上でのアンサンブルの挙動についての洞察を与える。 実験により、アンサンブル法は近似ベイズ推論の有効な代替となり得ることが確認された。

In this paper, we employ variational arguments to establish a connection between ensemble methods for Neural Networks and Bayesian inference. We consider an ensemble-based scheme where each model/particle corresponds to a perturbation of the data by means of parametric bootstrap and a perturbation of the prior. We derive conditions under which any optimization steps of the particles makes the associated distribution reduce its divergence to the posterior over model parameters. Such conditions do not require any particular form for the approximation and they are purely geometrical, giving insights on the behavior of the ensemble on a number of interesting models such as Neural Networks with ReLU activations. Experiments confirm that ensemble methods can be a valid alternative to approximate Bayesian inference; the theoretical developments in the paper seek to explain this behavior.
翻訳日:2022-11-24 00:30:59 公開日:2020-06-08
# iotインテリジェンスのためのエッジコンピューティングにおけるヒューリスティックな自己組織型言語特性ディープラーニング

A Heuristically Self-Organised Linguistic Attribute Deep Learning in Edge Computing For IoT Intelligence ( http://arxiv.org/abs/2006.04766v1 )

ライセンス: Link先を確認
Hongmei He and Zhenhuan Zhu(参考訳) IoT(Internet of Things)の開発によって、IoTインテリジェンスが新たなテクノロジになりつつある。 IoTインテリジェンスの成功のためのエッジデバイスにおけるデータ融合の障壁は、"Curse of dimensionality"である。 言語決定木(ldts)に埋め込まれた言語属性階層(lah)は、ディープラーニングの新しい属性を表現することができる。 従来のディープラーニングとは対照的に、LAHはLAHのLDTによって生成された規則を通して透明な情報伝達を提供することによって、欠落した解釈の欠点を克服することができる。 従来のディープラーニングと同様に、lahsを最適化する計算の複雑さはlahsの応用をブロックする。 本稿では,属性と属性と目標変数間の距離相関を利用して,意思決定や分類のためのldtを組み込んだlahを構築するためのヒューリスティックなアプローチを提案する。 属性のセットはいくつかの属性クラスタに分割され、ヒューリスティックに構成され、言語属性階層を形成する。 提案手法は、UCI機械学習レポジトリのベンチマーク決定や分類の問題によって検証された。 実験の結果,提案する自己組織化アルゴリズムは,効率的な言語属性階層を構築することができることがわかった。 LDTに埋め込まれた自己組織型言語属性階層は、大量の属性とデータ融合する単一LLTの「次元の曲線」に効率的に対処できるだけでなく、解決すべき問題に対する単一のLLTと比較して、意思決定や分類においてより良い、あるいは同等のパフォーマンスを達成できる。 自己組織化アルゴリズムは、LAHの最適化のためのWrapperの遺伝的アルゴリズムよりも効率的である。 これにより、IoTインテリジェンスのためのエッジデバイスに自己組織化アルゴリズムを組み込むことが可能になる。

With the development of Internet of Things (IoT), IoT intelligence becomes emerging technology. "Curse of Dimensionality" is the barrier of data fusion in edge devices for the success of IoT intelligence. A Linguistic Attribute Hierarchy (LAH), embedded with Linguistic Decision Trees (LDTs), can represent a new attribute deep learning. In contrast to the conventional deep learning, an LAH could overcome the shortcoming of missing interpretation by providing transparent information propagation through the rules, produced by LDTs in the LAH. Similar to the conventional deep learning, the computing complexity of optimising LAHs blocks the applications of LAHs. In this paper, we propose a heuristic approach to constructing an LAH, embedded with LDTs for decision making or classification by utilising the distance correlations between attributes and between attributes and the goal variable. The set of attributes is divided to some attribute clusters, and then they are heuristically organised to form a linguistic attribute hierarchy. The proposed approach was validated with some benchmark decision making or classification problems from the UCI machine learning repository. The experimental results show that the proposed self-organisation algorithm can construct an effective and efficient linguistic attribute hierarchy. Such a self-organised linguistic attribute hierarchy embedded with LDTs can not only efficiently tackle "curse of dimensionality" in a single LDT for data fusion with massive attributes, but also achieve better or comparable performance on decision making or classification, compared to the single LDT for the problem to be solved. The self-organisation algorithm is much efficient than the Genetic Algorithm in Wrapper for the optimisation of LAHs. This makes it feasible to embed the self-organisation algorithm in edge devices for IoT intelligence.
翻訳日:2022-11-24 00:25:23 公開日:2020-06-08
# ベイズ最適化のためのランダム化ガウス過程上信頼度

Randomised Gaussian Process Upper Confidence Bound for Bayesian Optimisation ( http://arxiv.org/abs/2006.04296v1 )

ライセンス: Link先を確認
Julian Berk, Sunil Gupta, Santu Rana and Svetha Venkatesh(参考訳) ベイズ最適化の性能を向上させるために,修正ガウス過程upper confidence bound (gp-ucb) 獲得関数を開発した。 これは、分布から探索・探索トレードオフパラメータをサンプリングすることによって行われる。 これにより、期待されるトレードオフパラメータが、関数のベイズ的後悔に縛られることなく、問題に合うように変更できることが証明される。 また,実世界の問題や合成問題において,GP-UCBよりも優れた性能が得られることを示す。

In order to improve the performance of Bayesian optimisation, we develop a modified Gaussian process upper confidence bound (GP-UCB) acquisition function. This is done by sampling the exploration-exploitation trade-off parameter from a distribution. We prove that this allows the expected trade-off parameter to be altered to better suit the problem without compromising a bound on the function's Bayesian regret. We also provide results showing that our method achieves better performance than GP-UCB in a range of real-world and synthetic problems.
翻訳日:2022-11-24 00:24:21 公開日:2020-06-08
# Eigen-GNN: GNNのプラグインを保存するグラフ構造

Eigen-GNN: A Graph Structure Preserving Plug-in for GNNs ( http://arxiv.org/abs/2006.04330v1 )

ライセンス: Link先を確認
Ziwei Zhang, Peng Cui, Jian Pei, Xin Wang, Wenwu Zhu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の新たな機械学習モデルである。 十分に深いGNNは理論上グラフ構造を完全に保存できるが、実際には既存のGNNモデルは浅く、本質的に機能中心である。 既存の浅層gnnはグラフ構造を十分に保存できないことを実証的かつ分析的に示す。 この根本的な課題を克服するため,グラフ構造保存におけるGNNの能力を高めるために,Eigen-GNNを提案する。 具体的には、グラフ構造の固有空間をGNNと統合し、GNNを次元化のタイプとして扱い、初期次元化の基盤を広げる。 深さを増やすことなく、eigen-gnnは、ノードの特徴とグラフ構造の両方を含んでいるため、機能駆動タスクと構造駆動タスクの両方を扱う柔軟性を持つ。 本稿では,ノード分類,リンク予測,グラフ同型テストなどのタスクに対して,Eigen-GNNの有効性を示すための実験結果を紹介する。

Graph Neural Networks (GNNs) are emerging machine learning models on graphs. Although sufficiently deep GNNs are shown theoretically capable of fully preserving graph structures, most existing GNN models in practice are shallow and essentially feature-centric. We show empirically and analytically that the existing shallow GNNs cannot preserve graph structures well. To overcome this fundamental challenge, we propose Eigen-GNN, a simple yet effective and general plug-in module to boost GNNs ability in preserving graph structures. Specifically, we integrate the eigenspace of graph structures with GNNs by treating GNNs as a type of dimensionality reduction and expanding the initial dimensionality reduction bases. Without needing to increase depths, Eigen-GNN possesses more flexibilities in handling both feature-driven and structure-driven tasks since the initial bases contain both node features and graph structures. We present extensive experimental results to demonstrate the effectiveness of Eigen-GNN for tasks including node classification, link prediction, and graph isomorphism tests.
翻訳日:2022-11-24 00:24:13 公開日:2020-06-08
# 非滑らか最適化の個別収束におけるネステロフ外挿の強さ

The Strength of Nesterov's Extrapolation in the Individual Convergence of Nonsmooth Optimization ( http://arxiv.org/abs/2006.04340v1 )

ライセンス: Link先を確認
W. Tao, Z. Pan, G. Wu, and Q. Tao(参考訳) 滑らかな凸目標を扱う場合,勾配降下法の収束率を桁違いに向上させるNesterov氏が提起した補間戦略は,機械学習タスクのトレーニングにおいて大きな成功を収めている。 本稿では,非滑らか凸最適化問題に対する射影部分勾配法 (psg) 法の個々のイテレートの収束を,nesterovの補間に基づいて理論的に研究する。 我々はネステロフの外挿がPSGの個人収束を非滑らかな問題に最適にする強さを持つことを証明する。 この考察を踏まえて、強凸問題に対する最適な個別収束を達成するために、下級評価条件の直接的修正は、シャミールが提起した確率的勾配降下(sgd)に関する公開問題への興味深い一歩であると見なされる。 さらに,確率的設定において非滑らかな損失を伴う正規化学習タスクを解くための導出アルゴリズムの拡張を与える。 他の最先端の非滑らかな手法と比較して、導出アルゴリズムは、特に機械学習問題に対処する際の基本的なSGDの代替として機能し、最適収束率を維持しながら正規化構造を保証するために個々の出力が必要である。 通常,本手法は,大規模な$l$1正規化ヒンジロス学習問題の解法として有効である。 いくつかの比較実験により、個々の出力が最適収束率を達成するだけでなく、平均解よりも優れたスパース性を保証することが示されている。

The extrapolation strategy raised by Nesterov, which can accelerate the convergence rate of gradient descent methods by orders of magnitude when dealing with smooth convex objective, has led to tremendous success in training machine learning tasks. In this article, the convergence of individual iterates of projected subgradient (PSG) methods for nonsmooth convex optimization problems is theoretically studied based on Nesterov's extrapolation, which we name individual convergence. We prove that Nesterov's extrapolation has the strength to make the individual convergence of PSG optimal for nonsmooth problems. In light of this consideration, a direct modification of the subgradient evaluation suffices to achieve optimal individual convergence for strongly convex problems, which can be regarded as making an interesting step toward the open question about stochastic gradient descent (SGD) posed by Shamir. Furthermore, we give an extension of the derived algorithms to solve regularized learning tasks with nonsmooth losses in stochastic settings. Compared with other state-of-the-art nonsmooth methods, the derived algorithms can serve as an alternative to the basic SGD especially in coping with machine learning problems, where an individual output is needed to guarantee the regularization structure while keeping an optimal rate of convergence. Typically, our method is applicable as an efficient tool for solving large-scale $l$1-regularized hinge-loss learning problems. Several comparison experiments demonstrate that our individual output not only achieves an optimal convergence rate but also guarantees better sparsity than the averaged solution.
翻訳日:2022-11-24 00:23:41 公開日:2020-06-08
# IPMによる分布ロバスト性と正規化とGANとの関係

Distributional Robustness with IPMs and links to Regularization and GANs ( http://arxiv.org/abs/2006.04349v1 )

ライセンス: Link先を確認
Hisham Husain(参考訳) 敵の攻撃に対するロバスト性は、深層ニューラルネットワークが小さな摂動に対して脆弱であることによる重要な懸念であり、近年は注目を集めている。 分散ロバスト最適化(DRO: Distributionally Robust Optimization)は、分散ベースの不確実性集合を通して堅牢性を研究し、正規化のようなロバスト化戦略に関する貴重な洞察を与えてきた。 機械学習の文脈では、既存の結果の大部分は、不確実性集合を構築するために$f$-divergences、Wasserstein 距離、最近では Maximum Mean Discrepancy (MMD) を選択している。 積分確率距離(IPMs)で構築された不確実性集合(MDD、トータル変分、ワッサーシュタイン距離など)を研究することにより、正則化によりロバスト性を理解するためにこの線を拡張する。 IPMの選択下にあるDROは、MDDとワッサーシュタイン距離の設定において既存の結果の回復と改善を行う正規化ペナルティの族に対応することを示す。 結果の汎用性から、他のIMMの選択法が機械学習における他の一般的な罰則と一致することを示す。 さらに,F$-GANによる逆生成モデルに光を当てることにより,$f$-GANの目的に対する分布ロバスト性の最初の研究となる。 本研究の結果は, 堅牢性を考慮した識別器の誘導特性を明らかにし, ワッサースタイン法, MMD法, Sobolev-GANs などのペナルティベースのGAN法について肯定的なコメントをすることができる。 まとめると、我々の結果は、GANを分布的堅牢性に密接に結び付け、DROにおける以前の結果を拡張し、正規化と大規模ロバスト性との関係の理解に寄与する。

Robustness to adversarial attacks is an important concern due to the fragility of deep neural networks to small perturbations and has received an abundance of attention in recent years. Distributionally Robust Optimization (DRO), a particularly promising way of addressing this challenge, studies robustness via divergence-based uncertainty sets and has provided valuable insights into robustification strategies such as regularization. In the context of machine learning, the majority of existing results have chosen $f$-divergences, Wasserstein distances and more recently, the Maximum Mean Discrepancy (MMD) to construct uncertainty sets. We extend this line of work for the purposes of understanding robustness via regularization by studying uncertainty sets constructed with Integral Probability Metrics (IPMs) - a large family of divergences including the MMD, Total Variation and Wasserstein distances. Our main result shows that DRO under \textit{any} choice of IPM corresponds to a family of regularization penalties, which recover and improve upon existing results in the setting of MMD and Wasserstein distances. Due to the generality of our result, we show that other choices of IPMs correspond to other commonly used penalties in machine learning. Furthermore, we extend our results to shed light on adversarial generative modelling via $f$-GANs, constituting the first study of distributional robustness for the $f$-GAN objective. Our results unveil the inductive properties of the discriminator set with regards to robustness, allowing us to give positive comments for several penalty-based GAN methods such as Wasserstein-, MMD- and Sobolev-GANs. In summary, our results intimately link GANs to distributional robustness, extend previous results on DRO and contribute to our understanding of the link between regularization and robustness at large.
翻訳日:2022-11-24 00:23:17 公開日:2020-06-08
# 非有界状態空間を用いた安定強化学習

Stable Reinforcement Learning with Unbounded State Space ( http://arxiv.org/abs/2006.04353v1 )

ライセンス: Link先を確認
Devavrat Shah, Qiaomin Xie, Zhi Xu(参考訳) 待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間を持つ強化学習(RL)の問題を考える。 有限、有界、あるいはコンパクトな状態空間向けに設計された従来のポリシーとエラーメトリックは、非有界状態空間に対して有意義な性能保証(例えば$\ell_\infty$ error)を提供するために無限のサンプルを必要とする。 つまり、パフォーマンスメトリクスという新しい概念が必要です。 この研究の主な貢献は、キューシステムと制御理論の文献から着想を得たものであり、我々は安定性を「良さ」の概念として提案する: 政策下の状態力学は高い確率で有界な領域に留まるべきである。 概念実証として,Sparse-Sampling-based Monte Carlo Oracle を用いた RL ポリシを提案し,最適ポリシの下でのシステムダイナミクスがリャプノフ関数を尊重する限り,安定性を満足すると主張した。 リャプノフ関数の存在の仮定は、任意のマルコフ連鎖の正の再発や安定性、すなわち、系を安定化できる方針が存在するならば、リャプノフ関数を持つ必要があるため、制限的ではない。 また,我々の方針は,特定のリアプノフ関数の知識を活用しない。 提案手法を効率的にするために,Sparse-Sampling をベースとしたモンテカルロ・オラクルのリプシッツ値関数を改良した,より効率的なサンプルを提供する。 さらに,適切なチューニングパラメータを自動で求める,注意深く構築された統計的テストに基づいて適応型アルゴリズムを設計した。

We consider the problem of reinforcement learning (RL) with unbounded state space motivated by the classical problem of scheduling in a queueing network. Traditional policies as well as error metric that are designed for finite, bounded or compact state space, require infinite samples for providing any meaningful performance guarantee (e.g. $\ell_\infty$ error) for unbounded state space. That is, we need a new notion of performance metric. As the main contribution of this work, inspired by the literature in queuing systems and control theory, we propose stability as the notion of "goodness": the state dynamics under the policy should remain in a bounded region with high probability. As a proof of concept, we propose an RL policy using Sparse-Sampling-based Monte Carlo Oracle and argue that it satisfies the stability property as long as the system dynamics under the optimal policy respects a Lyapunov function. The assumption of existence of a Lyapunov function is not restrictive as it is equivalent to the positive recurrence or stability property of any Markov chain, i.e., if there is any policy that can stabilize the system then it must possess a Lyapunov function. And, our policy does not utilize the knowledge of the specific Lyapunov function. To make our method sample efficient, we provide an improved, sample efficient Sparse-Sampling-based Monte Carlo Oracle with Lipschitz value function that may be of interest in its own right. Furthermore, we design an adaptive version of the algorithm, based on carefully constructed statistical tests, which finds the correct tuning parameter automatically.
翻訳日:2022-11-24 00:22:43 公開日:2020-06-08
# ディープスパイクニューラルネットワークの訓練

Training Deep Spiking Neural Networks ( http://arxiv.org/abs/2006.04436v1 )

ライセンス: Link先を確認
Eimantas Ledinauskas (1), Julius Ruseckas (1), Alfonsas Jur\v{s}\.enas (1), Giedrius Bura\v{c}as (2) ((1) Baltic Institute of Advanced Technology, Lithuania, (2) SRI International, USA)(参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(snn)を用いた計算は、現在のアナログニューラルネットワーク(anns)よりも1桁高いエネルギー効率をもたらす可能性がある。 残念なことに、最先端のANNと同じレイヤ数でSNNをトレーニングすることは、依然として課題である。 我々の知る限り、この点で成功した唯一の方法は、ANNの指導的訓練を行い、それをSNNに変換することである。 本研究では,サロゲート勾配によるバックプロパゲーションを用いて深部SNNを直接訓練し,フィードフォワードの暗黙的に繰り返される性質により,爆発的あるいは消滅的な勾配問題によりトレーニングが著しく妨げられることを明らかにする。 代用勾配関数をチューニングすることでこの問題を解くことができることを示す。 また,SNNニューロンの入力電流に対するANN文献からのバッチ正規化も提案する。 これらの改善により、cifar100とimagenetteオブジェクト認識データセット上でresnet50アーキテクチャでsnnをトレーニングできることが示される。 トレーニングされたSNNは、類似のANNと比較して精度が劣るが、1000タイムステップの順序を必要とするANNからの変換によって得られたSNNと比較して、ある程度の推論時間ステップ(10以下)で精度が向上する。

Computation using brain-inspired spiking neural networks (SNNs) with neuromorphic hardware may offer orders of magnitude higher energy efficiency compared to the current analog neural networks (ANNs). Unfortunately, training SNNs with the same number of layers as state of the art ANNs remains a challenge. To our knowledge the only method which is successful in this regard is supervised training of ANN and then converting it to SNN. In this work we directly train deep SNNs using backpropagation with surrogate gradient and find that due to implicitly recurrent nature of feed forward SNN's the exploding or vanishing gradient problem severely hinders their training. We show that this problem can be solved by tuning the surrogate gradient function. We also propose using batch normalization from ANN literature on input currents of SNN neurons. Using these improvements we show that is is possible to train SNN with ResNet50 architecture on CIFAR100 and Imagenette object recognition datasets. The trained SNN falls behind in accuracy compared to analogous ANN but requires several orders of magnitude less inference time steps (as low as 10) to reach good accuracy compared to SNNs obtained by conversion from ANN which require on the order of 1000 time steps.
翻訳日:2022-11-24 00:15:20 公開日:2020-06-08
# エネルギー制約による液体機械の性能向上

Energy Constraints Improve Liquid State Machine Performance ( http://arxiv.org/abs/2006.04716v1 )

ライセンス: Link先を確認
Andrew Fountain and Cory Merkel(参考訳) 代謝エネルギー制約のモデルは、そのネットワーク性能への影響を分析するために液体状態機械に適用される。 その結果,一定のエネルギー制約の組み合わせで試験精度が著しく向上し,デジタル液体状態装置を用いた発作検出作業では4.25%の改善がみられ,全体の貯水池スパイク活性は6.9%減少した。 精度の改善は、リャプノフ指数や貯水池の分離といった指標によって測定されるように、貯水池の力学に対するエネルギー制約の影響と関連しているようである。

A model of metabolic energy constraints is applied to a liquid state machine in order to analyze its effects on network performance. It was found that, in certain combinations of energy constraints, a significant increase in testing accuracy emerged; an improvement of 4.25% was observed on a seizure detection task using a digital liquid state machine while reducing overall reservoir spiking activity by 6.9%. The accuracy improvements appear to be linked to the energy constraints' impact on the reservoir's dynamics, as measured through metrics such as the Lyapunov exponent and the separation of the reservoir.
翻訳日:2022-11-24 00:14:55 公開日:2020-06-08
# 単語埋め込みと畳み込みニューラルネットワークを組み合わせて重複した質問を検出する

Combining word embeddings and convolutional neural networks to detect duplicated questions ( http://arxiv.org/abs/2006.04513v1 )

ライセンス: Link先を確認
Yoan Dimitrov(参考訳) 文間の意味的類似性の検出は、自然言語の曖昧さのため、現在でも課題である。 本研究では,単語埋め込みと畳み込みニューラルネットワーク(cnns)の強みを組み合わせることで,意味的に類似した質問を識別する手法を提案する。 さらに,コサイン類似度計量を用いて特徴ベクトルを効果的に比較する方法を示す。 私たちのネットワークは、400万以上の質問ペアを含むquoraデータセットでトレーニングされています。 我々は、Word2Vec、Fasttext、Doc2Vecといった様々な埋め込み手法を実験し、これらの手法がモデル性能に与える影響について検討する。 提案モデルはQuoraデータセット上での競合的な結果を実現し,CNNがパラフレーズ検出タスクに利用できるという確固たる証拠を補完する。

Detecting semantic similarities between sentences is still a challenge today due to the ambiguity of natural languages. In this work, we propose a simple approach to identifying semantically similar questions by combining the strengths of word embeddings and Convolutional Neural Networks (CNNs). In addition, we demonstrate how the cosine similarity metric can be used to effectively compare feature vectors. Our network is trained on the Quora dataset, which contains over 400k question pairs. We experiment with different embedding approaches such as Word2Vec, Fasttext, and Doc2Vec and investigate the effects these approaches have on model performance. Our model achieves competitive results on the Quora dataset and complements the well-established evidence that CNNs can be utilized for paraphrase detection tasks.
翻訳日:2022-11-24 00:14:12 公開日:2020-06-08
# アスペクトに基づく感性分析に関する総合的調査

A Comprehensive Survey on Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2006.04611v1 )

ライセンス: Link先を確認
Kaustubh Yadav(参考訳) Aspect Based Sentiment Analysis (ABSA)は自然言語処理のサブフィールドであり、感情情報を最終的に抽出する側面にデータを分割する。 ABSAは、一般的な感情分析よりも、文脈に関するより多くの情報を提供することが知られている。 本研究の目的は,ABSA実施中に実施される様々な方法論を探索し,比較研究を行うことである。 本調査では, 様々な解を詳細に論じ, 比較を行った。 そして、プロセスの全体像を得るために、都合よくセクションに分割されます。

Aspect Based Sentiment Analysis (ABSA) is the sub-field of Natural Language Processing that deals with essentially splitting our data into aspects ad finally extracting the sentiment information. ABSA is known to provide more information about the context than general sentiment analysis. In this study, our aim is to explore the various methodologies practiced while performing ABSA, and providing a comparative study. This survey paper discusses various solutions in-depth and gives a comparison between them. And is conveniently divided into sections to get a holistic view on the process.
翻訳日:2022-11-24 00:14:00 公開日:2020-06-08
# ColdGANs: 注意深いサンプリング戦略による言語GANのモデリング

ColdGANs: Taming Language GANs with Cautious Sampling Strategies ( http://arxiv.org/abs/2006.04643v1 )

ライセンス: Link先を確認
Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano(参考訳) MLE(Maximum Likelihood Estimation)に基づくトレーニング体制は、既知の制限に悩まされ、多くの場合、貧弱なテキストシーケンスに繋がる。 これらの制限の根底にあるのは、訓練と推論のミスマッチ、すなわちいわゆる露出バイアスであり、参照テキストのみを正しいとみなすことによって悪化し、実際にはいくつかの代替の定式化が良いものとなる。 generative adversarial networks (gans)は、これらの制限を緩和するが、テキストの離散的な性質は、言語生成への応用を妨げている。 従来の研究から離れて,テキスト生成に適用したgansの探索ステップを分析し,古典的サンプリングが不安定なトレーニングにどのように影響するかを示す。 我々は,サンプルを分散モードに近づけることで,よりスムーズな学習ダイナミックスを実現するGANフレームワークにおいて,代替的な探索戦略を検討することを提案する。 我々の知る限りでは、提案言語 GAN は MLE と好意的に比較され、非条件テキスト生成、質問生成、抽象的な要約という3つの生成タスクにおける最先端技術の改善が得られる。

Training regimes based on Maximum Likelihood Estimation (MLE) suffer from known limitations, often leading to poorly generated text sequences. At the root of these limitations is the mismatch between training and inference, i.e. the so-called exposure bias, exacerbated by considering only the reference texts as correct, while in practice several alternative formulations could be as good. Generative Adversarial Networks (GANs) can mitigate those limitations but the discrete nature of text has hindered their application to language generation: the approaches proposed so far, based on Reinforcement Learning, have been shown to underperform MLE. Departing from previous works, we analyze the exploration step in GANs applied to text generation, and show how classical sampling results in unstable training. We propose to consider alternative exploration strategies in a GAN framework that we name ColdGANs, where we force the sampling to be close to the distribution modes to get smoother learning dynamics. For the first time, to the best of our knowledge, the proposed language GANs compare favorably to MLE, and obtain improvements over the state-of-the-art on three generative tasks, namely unconditional text generation, question generation, and abstractive summarization.
翻訳日:2022-11-24 00:13:53 公開日:2020-06-08
# CAST:マルチスケールデータを用いた相関型適応スペクトルクラスタリングアルゴリズム

CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data ( http://arxiv.org/abs/2006.04435v1 )

ライセンス: Link先を確認
Xiang Li, Ben Kao, Caihua Shan, Dawei Yin, Martin Ester(参考訳) 本研究では,クラスタの大きさや密度の異なるマルチスケールデータに対して,スペクトルクラスタリングを適用する問題について検討する。 従来のスペクトルクラスタリング技術は、オブジェクトの近接を反映した類似性行列を処理してクラスタを発見する。 マルチスケールデータでは、疎クラスターのオブジェクトは遠く離れる可能性があり、密集したクラスタのオブジェクトは十分近くでなければならないため、距離ベースの類似性は有効ではない。 対象の「到達可能性類似性」の概念と与えられた距離に基づく類似性を統合し、対象の係数行列を導出することにより、マルチスケールデータにおけるスペクトルクラスタリングの問題を解く。 係数行列を正規化するためにトレースラッソを適用するアルゴリズムCASTを提案する。 結果の係数行列が「群効果」を持ち、「疎らさ」を示すことを証明した。 これら2つの特徴は,非常に効果的なスペクトルクラスタリングを示す。 我々は,CASTと他の10のクラスタリング手法を,幅広いデータセットを用いて評価した。 実験結果から,CASTは優れた性能を示し,マルチスケールデータのテストケースでは非常に堅牢であることがわかった。

We study the problem of applying spectral clustering to cluster multi-scale data, which is data whose clusters are of various sizes and densities. Traditional spectral clustering techniques discover clusters by processing a similarity matrix that reflects the proximity of objects. For multi-scale data, distance-based similarity is not effective because objects of a sparse cluster could be far apart while those of a dense cluster have to be sufficiently close. Following [16], we solve the problem of spectral clustering on multi-scale data by integrating the concept of objects' "reachability similarity" with a given distance-based similarity to derive an objects' coefficient matrix. We propose the algorithm CAST that applies trace Lasso to regularize the coefficient matrix. We prove that the resulting coefficient matrix has the "grouping effect" and that it exhibits "sparsity". We show that these two characteristics imply very effective spectral clustering. We evaluate CAST and 10 other clustering methods on a wide range of datasets w.r.t. various measures. Experimental results show that CAST provides excellent performance and is highly robust across test cases of multi-scale data.
翻訳日:2022-11-24 00:06:27 公開日:2020-06-08
# 監督された全DAG因果発見

Supervised Whole DAG Causal Discovery ( http://arxiv.org/abs/2006.04697v1 )

ライセンス: Link先を確認
Hebi Li, Qi Xiao, Jin Tian(参考訳) 本研究では,教師付きでデータから因果構造学習の課題に対処することを提案する。 教師付き学習による因果方向の学習作業は、ペア関係の学習に限られており、DAG全体の発見には適していない。 本稿では,DAG構造発見全体を教師あり学習としてモデル化する新しい手法を提案する。 この問題に適合するために,問題領域によく適合する置換同変モデルを用いることを提案する。 提案手法は,10,20,50,100の合成グラフと実データについて広く評価し,従来手法と比較して有望な結果を示した。

We propose to address the task of causal structure learning from data in a supervised manner. Existing work on learning causal directions by supervised learning is restricted to learning pairwise relation, and not well suited for whole DAG discovery. We propose a novel approach of modeling the whole DAG structure discovery as a supervised learning. To fit the problem in hand, we propose to use permutation equivariant models that align well with the problem domain. We evaluate the proposed approach extensively on synthetic graphs of size 10,20,50,100 and real data, and show promising results compared with a variety of previous approaches.
翻訳日:2022-11-24 00:06:07 公開日:2020-06-08
# 量子クラスタリングを用いた異常検出

Outlier Detection Using a Novel method: Quantum Clustering ( http://arxiv.org/abs/2006.04760v1 )

ライセンス: Link先を確認
Ding Liu, Hui Li(参考訳) 通常のデータインスタンスは、データ密度の変動がほとんどない領域に置かれることが多いが、データ密度に激しい変動がある領域には、異常値がしばしば現れる。 この仮説に基づいて、教師なし外乱検出に新しい密度に基づくアプローチを適用する。 このアプローチは量子クラスタリング(Quantum Clustering, QC)と呼ばれ、ラベルのないデータ処理を扱い、クラスタのセントロイドとアウトリーチを見つける潜在的な関数を構築する。 実験によれば、ポテンシャル関数はデータポイントの隠れた外れ値を効果的に見つけることができる。 さらに、QCを使用することでパラメータを$\sigma$に調整することで、より微妙な外れ値を見つけることができる。 また,2つの異なる研究領域から得られた2つのデータセット(空気品質検出とdarwin対応プロジェクト)について評価し,本手法の幅広い適用性を示す。

We propose a new assumption in outlier detection: Normal data instances are commonly located in the area that there is hardly any fluctuation on data density, while outliers are often appeared in the area that there is violent fluctuation on data density. And based on this hypothesis, we apply a novel density-based approach to unsupervised outlier detection. This approach, called Quantum Clustering (QC), deals with unlabeled data processing and constructs a potential function to find the centroids of clusters and the outliers. The experiments show that the potential function could clearly find the hidden outliers in data points effectively. Besides, by using QC, we could find more subtle outliers by adjusting the parameter $\sigma$. Moreover, our approach is also evaluated on two datasets (Air Quality Detection and Darwin Correspondence Project) from two different research areas, and the results show the wide applicability of our method.
翻訳日:2022-11-24 00:05:46 公開日:2020-06-08
# 勾配型メタラーニングのための多段階推定

Multi-step Estimation for Gradient-based Meta-learning ( http://arxiv.org/abs/2006.04298v1 )

ライセンス: Link先を確認
Jin-Hwa Kim, Junyoung Park, Yongseok Choi(参考訳) グラデーションベースのメタ学習アプローチは、少数の学習、転送学習、その他幅広い領域で成功している。 その有効性と単純さにもかかわらず、大きなメモリフットプリントを持つヘッセン行列を計算することの重荷は、大規模アプリケーションにおいて重要な課題である。 この問題に対処するために,内部ステップのウィンドウで同じ勾配を再利用してコストを削減する,単純かつ簡単な手法を提案する。 ラグランジュ形式論における多段階推定のダイナミクスを説明し、その力学を推定する二階微分を評価する方法について議論する。 提案手法を検証するために,複数設定のメタトランスファー学習およびマイトショット学習タスクを実験した。 メタトランスファーの実験は、他の近似が限られているトレーニングメタネットワークの適用性を強調している。 数ショットの学習では、一般的なベースラインと比較して時間とメモリの複雑さを評価する。 本手法は,トレーニング時間やメモリ使用量を大幅に削減し,競争精度を維持したり,場合によっては性能が向上することを示す。

Gradient-based meta-learning approaches have been successful in few-shot learning, transfer learning, and a wide range of other domains. Despite its efficacy and simplicity, the burden of calculating the Hessian matrix with large memory footprints is the critical challenge in large-scale applications. To tackle this issue, we propose a simple yet straightforward method to reduce the cost by reusing the same gradient in a window of inner steps. We describe the dynamics of the multi-step estimation in the Lagrangian formalism and discuss how to reduce evaluating second-order derivatives estimating the dynamics. To validate our method, we experiment on meta-transfer learning and few-shot learning tasks for multiple settings. The experiment on meta-transfer emphasizes the applicability of training meta-networks, where other approximations are limited. For few-shot learning, we evaluate time and memory complexities compared with popular baselines. We show that our method significantly reduces training time and memory usage, maintaining competitive accuracies, or even outperforming in some cases.
翻訳日:2022-11-24 00:05:32 公開日:2020-06-08
# 普遍化逆および不変摂動について

On Universalized Adversarial and Invariant Perturbations ( http://arxiv.org/abs/2006.04449v1 )

ライセンス: Link先を確認
Sandesh Kamath, Amit Deshpande, K V Subrahmanyam(参考訳) 畳み込みニューラルネットワーク(英: Convolutional Neural Network)または標準CNN(StdCNN)は、十分な翻訳で強化されたデータに基づいてトレーニングされたときに翻訳不変性を達成する翻訳不変モデルである。 与えられた変換群(例えば回転)の同変モデルに関する最近の研究は、グループ同変畳み込みニューラルネットワーク(gcnn)へと繋がる。 十分な回転で強化されたデータに基づいてトレーニングされたGCNNは、回転不変性を実現する。 arXiv:2002.11318の著者による最近の研究は、敵攻撃に対する不変性と堅牢性の間のトレードオフを研究する。 別の関連する研究 arXiv:2005.08632 において、あるスペクトル特性を満たす任意のモデルと入力依存攻撃が与えられた場合、著者はSVD-Universal と呼ばれる普遍化手法を提案し、ごく少数の試験例を見て、普遍的対向摂動を生成する。 本稿では,GCNNにおけるSVD-Universalの有効性について検討する。 実験により,GCNNの回転不変性が大きくなるにつれて,SVD-Universalの不正化率が向上することがわかった。 この現象を理解するために、普遍不変方向を導入し、SVD-Universalによって生成される普遍逆方向との関係について研究する。

Convolutional neural networks or standard CNNs (StdCNNs) are translation-equivariant models that achieve translation invariance when trained on data augmented with sufficient translations. Recent work on equivariant models for a given group of transformations (e.g., rotations) has lead to group-equivariant convolutional neural networks (GCNNs). GCNNs trained on data augmented with sufficient rotations achieve rotation invariance. Recent work by authors arXiv:2002.11318 studies a trade-off between invariance and robustness to adversarial attacks. In another related work arXiv:2005.08632, given any model and any input-dependent attack that satisfies a certain spectral property, the authors propose a universalization technique called SVD-Universal to produce a universal adversarial perturbation by looking at very few test examples. In this paper, we study the effectiveness of SVD-Universal on GCNNs as they gain rotation invariance through higher degree of training augmentation. We empirically observe that as GCNNs gain rotation invariance through training augmented with larger rotations, the fooling rate of SVD-Universal gets better. To understand this phenomenon, we introduce universal invariant directions and study their relation to the universal adversarial direction produced by SVD-Universal.
翻訳日:2022-11-24 00:05:16 公開日:2020-06-08
# 学習と運動量の黄金比

The Golden Ratio of Learning and Momentum ( http://arxiv.org/abs/2006.04751v1 )

ライセンス: Link先を確認
Stefan Jaeger(参考訳) 勾配降下は、人工知能ニューラルネットワークの初期から今日のディープラーニングネットワークにおける中心的なトレーニング原則である。 最も一般的な実装は、フィードフォワードニューラルネットワークを教師付きでトレーニングするためのバックプロパゲーションアルゴリズムである。 バックプロパゲーションでは、ネットワークの重みに関して損失関数の勾配を計算し、重みを更新し、損失を最小限に抑える。 平均二乗誤差は損失関数としてしばしば用いられるが、一般確率勾配降下原理は特定の損失関数とすぐには関連しない。 他のバックプロパゲーションの欠点は、多くのシステムで経験的に決定される2つの重要なトレーニングパラメータ、学習速度と運動量重みの最適値の探索である。 学習速度は、勾配に従うときの損失関数の最小値に対するステップサイズを規定する一方、運動量重みは、現在の重みを更新するときの以前の重み変化を考慮する。 両方のパラメータを相互に併用することは、トレーニングを改善する手段として一般的に受け入れられるが、それらの特定の値は標準のバックプロパゲーション理論からすぐには従わない。 本稿では,シナプスにおけるニューラル信号処理による情報理論的損失関数を提案する。 新しい損失関数は特定の学習率と運動量重みを示し、実際によく使われる経験的パラメータに繋がる。 提案フレームワークは,運動量項とその学習過程に対する平滑化効果について,より公式な説明を提供する。 すべての結果は、損失、学習率、モーメントが密接に関連していることを示している。 これらの理論的な知見を支持するために, 手書き文字認識実験では, 提案する損失関数と訓練パラメータの実用的有用性を示す。

Gradient descent has been a central training principle for artificial neural networks from the early beginnings to today's deep learning networks. The most common implementation is the backpropagation algorithm for training feed-forward neural networks in a supervised fashion. Backpropagation involves computing the gradient of a loss function, with respect to the weights of the network, to update the weights and thus minimize loss. Although the mean square error is often used as a loss function, the general stochastic gradient descent principle does not immediately connect with a specific loss function. Another drawback of backpropagation has been the search for optimal values of two important training parameters, learning rate and momentum weight, which are determined empirically in most systems. The learning rate specifies the step size towards a minimum of the loss function when following the gradient, while the momentum weight considers previous weight changes when updating current weights. Using both parameters in conjunction with each other is generally accepted as a means to improving training, although their specific values do not follow immediately from standard backpropagation theory. This paper proposes a new information-theoretical loss function motivated by neural signal processing in a synapse. The new loss function implies a specific learning rate and momentum weight, leading to empirical parameters often used in practice. The proposed framework also provides a more formal explanation of the momentum term and its smoothing effect on the training process. All results taken together show that loss, learning rate, and momentum are closely connected. To support these theoretical findings, experiments for handwritten digit recognition show the practical usefulness of the proposed loss function and training parameters.
翻訳日:2022-11-23 23:57:30 公開日:2020-06-08
# ゼイジは? 変分変換器を用いた分布外変換の検出

Wat zei je? Detecting Out-of-Distribution Translations with Variational Transformers ( http://arxiv.org/abs/2006.08344v1 )

ライセンス: Link先を確認
Tim Z. Xiao, Aidan N. Gomez, Yarin Gal(参考訳) トランスフォーマーモデルと等価なベイズ深層学習を用いて,ニューラルマシン翻訳における学習・分布文の検出を行う。 このために、離散確率変数の長い列、すなわち出力文中の単語に特化して設計された不確実性の新しい尺度を開発する。 我々の新しい不確実性尺度は, 長文に対する既存のアプローチのナイーブな適用において, 大きな難解さを解消する。 我々は,ドロップアウト近似推論により学習した変圧器モデル上での新しい尺度を用いる。 WMT13とEuroparlを用いたドイツ語と英語の翻訳作業において、オランダ語の原文(ドイツ語と同じ語型を用いる文)がドイツ語ではなくモデルに付与される時期を特定することができることを示す。

We detect out-of-training-distribution sentences in Neural Machine Translation using the Bayesian Deep Learning equivalent of Transformer models. For this we develop a new measure of uncertainty designed specifically for long sequences of discrete random variables -- i.e. words in the output sentence. Our new measure of uncertainty solves a major intractability in the naive application of existing approaches on long sentences. We use our new measure on a Transformer model trained with dropout approximate inference. On the task of German-English translation using WMT13 and Europarl, we show that with dropout uncertainty our measure is able to identify when Dutch source sentences, sentences which use the same word types as German, are given to the model instead of German.
翻訳日:2022-11-23 23:55:59 公開日:2020-06-08
# 幻覚的価値:不完全環境モデルを用いたdyna型計画の落とし穴

Hallucinating Value: A Pitfall of Dyna-style Planning with Imperfect Environment Models ( http://arxiv.org/abs/2006.04363v1 )

ライセンス: Link先を確認
Taher Jafferjee, Ehsan Imani, Erin Talvitie, Martha White, Micheal Bowling(参考訳) ダイナスタイル強化学習(RL)エージェントは、環境モデルによって生成された模擬経験で値関数を更新することにより、モデルフリーなRLエージェントよりもサンプル効率を向上させる。 しかし、環境力学の正確なモデルを学ぶことはしばしば困難であり、小さなエラーでもdynaエージェントが失敗する可能性がある。 本稿では,1種類のモデル誤差,すなわち幻覚状態について検討する。 これらはモデルによって生成される状態であるが、環境の実際の状態ではない。 幻覚値仮説(hallucinated value hypothesis, hvh): 幻覚状態の値に対する実状態の値の更新は、制御方針に悪影響を及ぼす誤った状態行動の値をもたらす。 我々は4つのダイナ変種を議論し、評価する。3つは実状態をシミュレート(シミュレート)に向けて更新する。 実験結果から,HVHがモデル誤差に頑健なDynaアルゴリズム開発に向けた実りある方向性を示すことが示唆された。

Dyna-style reinforcement learning (RL) agents improve sample efficiency over model-free RL agents by updating the value function with simulated experience generated by an environment model. However, it is often difficult to learn accurate models of environment dynamics, and even small errors may result in failure of Dyna agents. In this paper, we investigate one type of model error: hallucinated states. These are states generated by the model, but that are not real states of the environment. We present the Hallucinated Value Hypothesis (HVH): updating values of real states towards values of hallucinated states results in misleading state-action values which adversely affect the control policy. We discuss and evaluate four Dyna variants; three which update real states toward simulated -- and therefore potentially hallucinated -- states and one which does not. The experimental results provide evidence for the HVH thus suggesting a fruitful direction toward developing Dyna algorithms robust to model error.
翻訳日:2022-11-23 23:55:38 公開日:2020-06-08