このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200706となっている論文です。

PDF登録状況(公開日: 20200706)

TitleAuthorsAbstract論文公表日・翻訳日
# PaccMann$^{RL}$ on SARS-CoV-2:条件生成モデルによる抗ウイルス候補の設計

PaccMann$^{RL}$ on SARS-CoV-2: Designing antiviral candidates with conditional generative models ( http://arxiv.org/abs/2005.13285v3 )

ライセンス: Link先を確認
Jannis Born, Matteo Manica, Joris Cadow, Greta Markert, Nil Adell Mill, Modestas Filipavicius, Mar\'ia Rodr\'iguez Mart\'inez(参考訳) 新型コロナウイルス(covid-19)の世界的なパンデミックへの急速な発展に伴い、世界中の科学者は、効果的な抗ウイルス療法剤を必死に探している。 そこで本研究では,特定のタンパク質標的に対して調整した抗ウイルス候補薬の条件ド・ノボ設計のための深層学習フレームワークを提案する。 まず, 抗ウイルス化合物の標的タンパク質への親和性を予測するためのマルチモーダルリガンド-タンパク質結合親和性モデルを訓練し, このモデルと薬理毒性予測因子を組み合わせる。 この多目的を条件付き分子発生器(2つのvaeからなる)の報酬関数として活用し、より多くの抗ウイルス分子を持つ領域へ化学空間を移動させる枠組みを示す。 具体的には, 41のSARS-CoV-2関連標的タンパク質上で, リガンドを無害なタンパク質標的に対して生成する難易度について検討した。 深部RLを用いて,41例中35例において, 結合リガンドの採取に偏りがみられ, 平均83%の増加がみられた。 そこで本研究では,SARS-CoV-2インヒビターの生体内迅速評価に向けたロードマップに類似した,エンベロープタンパク質阻害剤のケーススタディを行い,最適な生成分子の合成アクセシビリティ評価を行う。

With the fast development of COVID-19 into a global pandemic, scientists around the globe are desperately searching for effective antiviral therapeutic agents. Bridging systems biology and drug discovery, we propose a deep learning framework for conditional de novo design of antiviral candidate drugs tailored against given protein targets. First, we train a multimodal ligand--protein binding affinity model on predicting affinities of antiviral compounds to target proteins and couple this model with pharmacological toxicity predictors. Exploiting this multi-objective as a reward function of a conditional molecular generator (consisting of two VAEs), we showcase a framework that navigates the chemical space toward regions with more antiviral molecules. Specifically, we explore a challenging setting of generating ligands against unseen protein targets by performing a leave-one-out-cross-validation on 41 SARS-CoV-2-related target proteins. Using deep RL, it is demonstrated that in 35 out of 41 cases, the generation is biased towards sampling more binding ligands, with an average increase of 83% comparing to an unbiased VAE. We present a case-study on a potential Envelope-protein inhibitor and perform a synthetic accessibility assessment of the best generated molecules is performed that resembles a viable roadmap towards a rapid in-vitro evaluation of potential SARS-CoV-2 inhibitors.
翻訳日:2022-11-28 08:29:03 公開日:2020-07-06
# チェックから推論へ:最適化問題としての実際の因果計算

From Checking to Inference: Actual Causality Computations as Optimization Problems ( http://arxiv.org/abs/2006.03363v2 )

ライセンス: Link先を確認
Amjad Ibrahim and Alexander Pretschner(参考訳) 実際の因果関係はますますよく理解されている。 halpern と pearl によって提案された最近の形式的アプローチにより、この概念は自動推論に適応できるほど成熟している。 実際の因果関係は特に説明可能なシステムを構築する上で不可欠である。 因果関係の推論は、反事実性の要件と原因の最小性のために計算的に困難である。 従来のアプローチでは、因果推論を自動化する問題に対する非効率的または制限された、ドメイン固有のソリューションが提示されていた。 本稿では,二項非巡回モデル上の因果推論の異なる概念を最適化問題として定式化する新しい手法を提案する。 我々は、因果性をチェックするために、2つのコンパクトで非自明な音声整数線形プログラミング(ILP)と最大満足度符号化(MaxSAT)をコントリビュートし比較する。 候補となる原因を考えると、どちらのアプローチも最小原因を識別する。 また,原因候補を必要とせず因果関係を推定するためのILP符号化も提案した。 どちらの概念も効率的に自動化されていることを示す。 8000ドル以上の変数を持つモデルを使用することで、チェックは数秒で計算される。 対照的に、推論は数分で計算される。

Actual causality is increasingly well understood. Recent formal approaches, proposed by Halpern and Pearl, have made this concept mature enough to be amenable to automated reasoning. Actual causality is especially vital for building accountable, explainable systems. Among other reasons, causality reasoning is computationally hard due to the requirements of counterfactuality and the minimality of causes. Previous approaches presented either inefficient or restricted, and domain-specific, solutions to the problem of automating causality reasoning. In this paper, we present a novel approach to formulate different notions of causal reasoning, over binary acyclic models, as optimization problems, based on quantifiable notions within counterfactual computations. We contribute and compare two compact, non-trivial, and sound integer linear programming (ILP) and Maximum Satisfiability (MaxSAT) encodings to check causality. Given a candidate cause, both approaches identify what a minimal cause is. Also, we present an ILP encoding to infer causality without requiring a candidate cause. We show that both notions are efficiently automated. Using models with more than $8000$ variables, checking is computed in a matter of seconds, with MaxSAT outperforming ILP in many cases. In contrast, inference is computed in a matter of minutes.
翻訳日:2022-11-25 04:18:55 公開日:2020-07-06
# 深い半教師付き学習の概要

An Overview of Deep Semi-Supervised Learning ( http://arxiv.org/abs/2006.05278v2 )

ライセンス: Link先を確認
Yassine Ouali, C\'eline Hudelot, Myriam Tami(参考訳) ディープニューラルネットワークは、ラベル付きデータの広範なコレクション(イメージネットなど)でトレーニングされた場合に、広範囲の教師付き学習タスク(画像分類など)で顕著なパフォーマンスを提供する能力を示した。 しかし、このような大規模なデータセットを作成するには、かなりの量のリソース、時間、労力が必要です。 このようなリソースは多くの実践的なケースでは利用できず、多くのディープラーニングメソッドの採用と適用を制限している。 大規模な注釈付きデータセットの必要性を克服するためのデータ効率の高い深層学習手法の探索において、新しい手法を開発するか、既存の半教師付き学習フレームワークを深層学習設定に採用することによって、ラベル付きデータの量を削減するための半教師付き学習とその深層ニューラルネットワークへの応用への関心が高まっている。 本稿では、分野導入から始まる深層半教師あり学習の概要を概観し、その後、深層学習における支配的な半教師あり学習アプローチを要約する。

Deep neural networks demonstrated their ability to provide remarkable performances on a wide range of supervised learning tasks (e.g., image classification) when trained on extensive collections of labeled data (e.g., ImageNet). However, creating such large datasets requires a considerable amount of resources, time, and effort. Such resources may not be available in many practical cases, limiting the adoption and the application of many deep learning methods. In a search for more data-efficient deep learning methods to overcome the need for large annotated datasets, there is a rising research interest in semi-supervised learning and its applications to deep neural networks to reduce the amount of labeled data required, by either developing novel methods or adopting existing semi-supervised learning frameworks for a deep learning setting. In this paper, we provide a comprehensive overview of deep semi-supervised learning, starting with an introduction to the field, followed by a summarization of the dominant semi-supervised approaches in deep learning.
翻訳日:2022-11-23 14:01:54 公開日:2020-07-06
# ミスコール、自動呼び出し、健康サポート:AIを使ってプログラムのエンゲージメントを高めて母体健康状態を改善する

Missed calls, Automated Calls and Health Support: Using AI to improve maternal health outcomes by increasing program engagement ( http://arxiv.org/abs/2006.07590v3 )

ライセンス: Link先を確認
Siddharth Nishtala, Harshavardhan Kamarthi, Divy Thakkar, Dhyanesh Narayanan, Anirudh Grama, Aparna Hegde, Ramesh Padmanabhan, Neha Madhiwalla, Suresh Chaudhary, Balaraman Ravindran, Milind Tambe(参考訳) インドでは、出産15分ごとに女性が死亡する母親死亡の11%を占めている。 予防ケア情報へのアクセス不足は、特に低所得世帯における高い母性死亡率と死亡率に寄与する重要な問題である。 我々は,インドに拠点を置く非営利団体であるarmmanと協力して,健康パラメーターに影響を与える可能性のあるプログラムに積極的に関与しない可能性のある女性を早期に特定することで,コールベースの情報プログラムの利用を促進する。 我々は,コールログと受益者の人口統計情報から短期的および長期的損失リスクを予測するための強固なディープラーニングモデルを構築した。 本モデルでは,短期予測では競争ベースラインよりも13%,長期予測では7%向上した。 また,本手法を目標とした介入を行うパイロット検証を通じて,実世界における本手法の適用可能性について検討する。

India accounts for 11% of maternal deaths globally where a woman dies in childbirth every fifteen minutes. Lack of access to preventive care information is a significant problem contributing to high maternal morbidity and mortality numbers, especially in low-income households. We work with ARMMAN, a non-profit based in India, to further the use of call-based information programs by early-on identifying women who might not engage on these programs that are proven to affect health parameters positively.We analyzed anonymized call-records of over 300,000 women registered in an awareness program created by ARMMAN that uses cellphone calls to regularly disseminate health related information. We built robust deep learning based models to predict short term and long term dropout risk from call logs and beneficiaries' demographic information. Our model performs 13% better than competitive baselines for short-term forecasting and 7% better for long term forecasting. We also discuss the applicability of this method in the real world through a pilot validation that uses our method to perform targeted interventions.
翻訳日:2022-11-21 21:37:20 公開日:2020-07-06
# AutoGAN-Distiller: 生成的敵ネットワークを圧縮する検索

AutoGAN-Distiller: Searching to Compress Generative Adversarial Networks ( http://arxiv.org/abs/2006.08198v2 )

ライセンス: Link先を確認
Yonggan Fu, Wuyang Chen, Haotao Wang, Haoran Li, Yingyan Lin, Zhangyang Wang(参考訳) gan(generative adversarial networks)の圧縮が注目されているのは,画像翻訳や拡張,編集といった多くのアプリケーションで,モバイルデバイスにganをデプロイする必要性が高まっているためだ。 しかしながら、他の深層モデルの圧縮に多大な努力を払っているのに対し、GAN(通常は発電機)の圧縮に関する研究は初期段階にある。 既存のGAN圧縮アルゴリズムは、特定のGANアーキテクチャの処理と損失に限られている。 深部圧縮におけるAutoMLの成功に触発されて、GAN圧縮にAutoMLを導入し、AutoGAN-Distiller(AGD)フレームワークを開発する。 特別に設計された効率的な検索空間から始め、AGDは対象の計算資源の制約を考慮して、新しい効率的なジェネレータのエンドツーエンドの発見を行う。 探索は、知識蒸留によって元のganモデルに導かれるため、圧縮が満たされる。 AGDは完全に自動化されており、独立した(すなわち、訓練された識別器を必要としない)、様々なGANモデルに適用できる。 我々はAGDを画像翻訳と超解像の2つの代表的なGANタスクで評価する。 ベルとホイッスルがなければ、agdは驚くほど軽量でより競争力のある圧縮モデルを生み出す。 私たちのコードと事前訓練済みモデルはhttps://github.com/TAMU-VITA/AGD.comで公開されています。

The compression of Generative Adversarial Networks (GANs) has lately drawn attention, due to the increasing demand for deploying GANs into mobile devices for numerous applications such as image translation, enhancement and editing. However, compared to the substantial efforts to compressing other deep models, the research on compressing GANs (usually the generators) remains at its infancy stage. Existing GAN compression algorithms are limited to handling specific GAN architectures and losses. Inspired by the recent success of AutoML in deep compression, we introduce AutoML to GAN compression and develop an AutoGAN-Distiller (AGD) framework. Starting with a specifically designed efficient search space, AGD performs an end-to-end discovery for new efficient generators, given the target computational resource constraints. The search is guided by the original GAN model via knowledge distillation, therefore fulfilling the compression. AGD is fully automatic, standalone (i.e., needing no trained discriminators), and generically applicable to various GAN models. We evaluate AGD in two representative GAN tasks: image translation and super resolution. Without bells and whistles, AGD yields remarkably lightweight yet more competitive compressed models, that largely outperform existing alternatives. Our codes and pretrained models are available at https://github.com/TAMU-VITA/AGD.
翻訳日:2022-11-21 04:10:15 公開日:2020-07-06
# サブレベル集合法による階層的クラスタリングの保証

Guarantees for Hierarchical Clustering by the Sublevel Set method ( http://arxiv.org/abs/2006.10274v2 )

ライセンス: Link先を確認
Marina Meila(参考訳) meila (2018) はサブレベルセット法と呼ばれる最適化ベースの手法を導入し、クラスタリングがデータを生成する分散に関する仮定に頼らずにほぼ最適で「ほぼ正しい」ことを保証した。 本稿では,dasgupta (2016) が提案するコストベースの階層的クラスタリングパラダイムにサブレベル集合法を拡張する。

Meila (2018) introduces an optimization based method called the Sublevel Set method, to guarantee that a clustering is nearly optimal and "approximately correct" without relying on any assumptions about the distribution that generated the data. This paper extends the Sublevel Set method to the cost-based hierarchical clustering paradigm proposed by Dasgupta (2016).
翻訳日:2022-11-19 12:42:48 公開日:2020-07-06
# 密度埋め込み層:適応受容場のための汎用フレームワーク

Density-embedding layers: a general framework for adaptive receptive fields ( http://arxiv.org/abs/2006.12779v2 )

ライセンス: Link先を確認
Francesco Cicala, Luca Bortolussi(参考訳) 人工ニューラルネットワークの有効性と性能は、特に視覚的タスクにおいて、ニューロンの受容野に重要な方法で依存する。 受容的場自体は、スパーシティ、プール、アクティベーション機能などいくつかのアーキテクチャ的側面の相互作用に依存する。 最近の文献では、受容場をより柔軟でデータに適応させようとするアドホックな提案がいくつかある。 例えば、畳み込み層とプーリング層の異なるパラメータ化は、その適応性を高めるために提案されている。 本稿では,ニューロンに代表される変換を一般化した密度埋め込み層の理論的枠組みを提案する。 具体的には、入力に適用されるアフィン変換は、入力のスカラー積に置き換えられ、ニューロンに関連付けられた密度関数を持つ分割定数関数として好適に表現される。 この密度は神経細胞の受容野を直接記述している。 重要な点として,そのような密度をパラメトリック関数の線形結合として適切に表現することにより,任意の自動微分システムを用いて密度を効率的に訓練し,手元の問題に適応させ,計算効率を高く評価することができる。 このフレームワークは最近のメソッドをキャプチャして一般化し、受容フィールドの微調整を可能にする。 本稿では,いくつかの新しいレイヤを定義し,古典的MNISTデータセット上で実験的に検証する。

The effectiveness and performance of artificial neural networks, particularly for visual tasks, depends in crucial ways on the receptive field of neurons. The receptive field itself depends on the interplay between several architectural aspects, including sparsity, pooling, and activation functions. In recent literature there are several ad hoc proposals trying to make receptive fields more flexible and adaptive to data. For instance, different parameterizations of convolutional and pooling layers have been proposed to increase their adaptivity. In this paper, we propose the novel theoretical framework of density-embedded layers, generalizing the transformation represented by a neuron. Specifically, the affine transformation applied on the input is replaced by a scalar product of the input, suitably represented as a piecewise constant function, with a density function associated with the neuron. This density is shown to describe directly the receptive field of the neuron. Crucially, by suitably representing such a density as a linear combination of a parametric family of functions, we can efficiently train the densities by means of any automatic differentiation system, making it adaptable to the problem at hand, and computationally efficient to evaluate. This framework captures and generalizes recent methods, allowing a fine tuning of the receptive field. In the paper, we define some novel layers and we experimentally validate them on the classic MNIST dataset.
翻訳日:2022-11-17 21:59:04 公開日:2020-07-06
# セキュリティとプライバシのためのスケーラブルなデータ分類

Scalable Data Classification for Security and Privacy ( http://arxiv.org/abs/2006.14109v5 )

ライセンス: Link先を確認
Paulo Tanaka, Sameet Sapra, Nikolay Laptev(参考訳) コンテンツベースのデータ分類は、オープンチャレンジです。 従来のデータ損失防止(DLP)のようなシステムは、問題のデータをフィンガープリントし、指紋データに対するエンドポイントを監視することでこの問題を解決する。 Facebookのデータアセットが常に変化しているため、このアプローチはスケーラブルではなく、データがどこにあるかを見つけるのに効果がない。 本稿は,facebook 内のセンシティブなセマンティクスタイプを大規模に検出し,データ保持とアクセス制御を自動的に実施するためのエンドツーエンドシステムについて述べる。 ここで説明したアプローチは、Facebook内のすべてのデータをマップアウトして分類するために、データ信号、機械学習、従来のフィンガープリント技術を取り入れることで、この問題を解決する最初のエンドツーエンドプライバシシステムです。 このシステムでは、さまざまなプライバシクラスの平均F2スコアを0.9以上達成し、数十のデータストアにわたる大量のデータアセットを処理する。

Content based data classification is an open challenge. Traditional Data Loss Prevention (DLP)-like systems solve this problem by fingerprinting the data in question and monitoring endpoints for the fingerprinted data. With a large number of constantly changing data assets in Facebook, this approach is both not scalable and ineffective in discovering what data is where. This paper is about an end-to-end system built to detect sensitive semantic types within Facebook at scale and enforce data retention and access controls automatically. The approach described here is our first end-to-end privacy system that attempts to solve this problem by incorporating data signals, machine learning, and traditional fingerprinting techniques to map out and classify all data within Facebook. The described system is in production achieving a 0.9+ average F2 scores across various privacy classes while handling a large number of data assets across dozens of data stores.
翻訳日:2022-11-17 04:34:31 公開日:2020-07-06
# ワークロード干渉のシーケンス・ツー・シーケンスモデル

Sequence-to-sequence models for workload interference ( http://arxiv.org/abs/2006.14429v2 )

ライセンス: Link先を確認
David Buchaca Prats, Joan Marcual, Josep Llu\'is Berral, David Carrera(参考訳) データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。 リソースが共有される環境における効率的なジョブ配置には、実行中にジョブがどう干渉するかを意識する必要がある。 機械学習とジョブモデリングをすでに含んでいる現在のテクニックは、実行の各時点における効果的なジョブ要求に焦点をあてるのではなく、時間にわたってワークロードの振る舞いの要約に基づいている。 本研究では,リカレントニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルを用いて,リソースに対するジョブの振る舞いと実行時間に基づいて,データセンター上でのジョブのスケジューリングをモデル化する手法を提案する。 目標は、リソースマネージャとスケジューラの配置決定を強化するために、個々のジョブが示すプロファイルから、実行時間に沿ったリソースの共有ジョブフットプリントを予測することである。 ここで紹介するメソッドは,さまざまなフレームワーク(HadoopやSparkなど)とアプリケーション(CPUバウンド,IOバウンド,マシンラーニング,SQLクエリなど)に基づいて,ハイパフォーマンスコンピューティングベンチマークを使用して検証されている。 実験の結果,前例や未確認の共スケジュールジョブから,リソースの利用傾向を正確に識別できることがわかった。

Co-scheduling of jobs in data-centers is a challenging scenario, where jobs can compete for resources yielding to severe slowdowns or failed executions. Efficient job placement on environments where resources are shared requires awareness on how jobs interfere during execution, to go far beyond ineffective resource overbooking techniques. Current techniques, most of them already involving machine learning and job modeling, are based on workload behavior summarization across time, instead of focusing on effective job requirements at each instant of the execution. In this work we propose a methodology for modeling co-scheduling of jobs on data-centers, based on their behavior towards resources and execution time, using sequence-to-sequence models based on recurrent neural networks. The goal is to forecast co-executed jobs footprint on resources along their execution time, from the profile shown by the individual jobs, to enhance resource managers and schedulers placement decisions. The methods here presented are validated using High Performance Computing benchmarks based on different frameworks (like Hadoop and Spark) and applications (CPU bound, IO bound, machine learning, SQL queries...). Experiments show that the model can correctly identify the resource usage trends from previously seen and even unseen co-scheduled jobs.
翻訳日:2022-11-17 03:12:28 公開日:2020-07-06
# 神経近位勾配反復による圧縮型MRフィンガープリンティング再建

Compressive MR Fingerprinting reconstruction with Neural Proximal Gradient iterations ( http://arxiv.org/abs/2006.15271v3 )

ライセンス: Link先を確認
Dongdong Chen, Mike E. Davies and Mohammad Golbabaee(参考訳) 物理フォワードモデルに対する予測の一貫性は、逆問題を確実に解く上で重要である。 この一貫性は、磁気共鳴フィンガープリンティング(mrf)問題のために提案された現在のエンドツーエンドディープラーニング手法では、ほとんど制御されない。 そこで本研究では,前処理とブロッホの動的モデルを逐次学習機構に直接組み込んだ学習近位勾配降下フレームワークであるProxNetを提案する。 ProxNetはデエイリアスと定量的推論のためのコンパクトな神経近位モデルを採用しており、少ないMDFトレーニングデータセットで柔軟にトレーニングすることができる。 我々の数値実験により、ProxNetは、辞書マッチング方式よりもはるかに高速でありながら、より優れた量的推測精度、はるかに少ないストレージ要求、および最近のディープラーニングMRFベースラインと同等のランタイムを達成できることが示されている。 コードはhttps://github.com/edongdongchen/PGD-Netでリリースされた。

Consistency of the predictions with respect to the physical forward model is pivotal for reliably solving inverse problems. This consistency is mostly un-controlled in the current end-to-end deep learning methodologies proposed for the Magnetic Resonance Fingerprinting (MRF) problem. To address this, we propose ProxNet, a learned proximal gradient descent framework that directly incorporates the forward acquisition and Bloch dynamic models within a recurrent learning mechanism. The ProxNet adopts a compact neural proximal model for de-aliasing and quantitative inference, that can be flexibly trained on scarce MRF training datasets. Our numerical experiments show that the ProxNet can achieve a superior quantitative inference accuracy, much smaller storage requirement, and a comparable runtime to the recent deep learning MRF baselines, while being much faster than the dictionary matching schemes. Code has been released at https://github.com/edongdongchen/PGD-Net.
翻訳日:2022-11-16 08:08:32 公開日:2020-07-06
# 統計的単語センスの曖昧さを考慮した意味的構文解析

Hinting Semantic Parsing with Statistical Word Sense Disambiguation ( http://arxiv.org/abs/2006.15942v2 )

ライセンス: Link先を確認
Ritwik Bose, Siddharth Vashishtha and James Allen(参考訳) セマンティックパーシングのタスクは、エッジが意味的役割を表し、ノードが単語感覚を表す論理形式グラフへの発話の変換として近似することができる。 結果として得られる表現は発話の意味を捉え、推論に適しているべきである。 単語感覚と意味役割は相互依存しており、単語感覚の割り当てにおける誤りは意味役割の割り当てに誤りを引き起こす可能性がある。 単語感覚不明瞭化に対する統計的アプローチは、生単語感覚代入のための論理的・規則的意味解析よりも優れているが、これらの統計的単語感覚不明瞭化システムは、入力のリッチな役割構造や詳細な意味表現を生成しない。 本研究では,論理的意味解析を導くための統計的WSDシステムからのヒントを提供し,論理的形式の健全性を維持しつつ,より優れた意味型代入を生成する。 我々は、f-scoreの最大10.5%の改善を観察したが、この改善はparseの構造的完全性にコストがかかることがわかった。

The task of Semantic Parsing can be approximated as a transformation of an utterance into a logical form graph where edges represent semantic roles and nodes represent word senses. The resulting representation should be capture the meaning of the utterance and be suitable for reasoning. Word senses and semantic roles are interdependent, meaning errors in assigning word senses can cause errors in assigning semantic roles and vice versa. While statistical approaches to word sense disambiguation outperform logical, rule-based semantic parsers for raw word sense assignment, these statistical word sense disambiguation systems do not produce the rich role structure or detailed semantic representation of the input. In this work, we provide hints from a statistical WSD system to guide a logical semantic parser to produce better semantic type assignments while maintaining the soundness of the resulting logical forms. We observe an improvement of up to 10.5% in F-score, however we find that this improvement comes at a cost to the structural integrity of the parse
翻訳日:2022-11-15 14:29:38 公開日:2020-07-06
# 生検における細胞分布の類似性を考慮したクラスタリング

An Approach for Clustering Subjects According to Similarities in Cell Distributions within Biopsies ( http://arxiv.org/abs/2007.00135v2 )

ライセンス: Link先を確認
Yassine El Ouahidi, Matis Feller, Matthieu Talagas, Bastien Pasdeloup(参考訳) 本稿では,その生検から抽出した特徴に基づき,癌患者を集団化するための新しい解釈可能な手法を提案する。 既存のアプローチとは対照的に,我々はヒストグラムを用いて細胞分裂の複雑なパターンを捉え,これらの再分割に基づいて被験者を比較することを提案する。 ここでは、データベースの作成、セルのセグメンテーションと表現型化、複雑な特徴の計算、特徴間の距離関数の選択、その距離を用いた被験者間のクラスタリング、得られたクラスタの生存分析など、完全なワークフローを説明します。 今回我々は,i期肺腺癌患者のヘマトキシリンおよびエオシン(h&e)染色組織について,予後予測の知識と高い信頼度で一致した手法を提案する。

In this paper, we introduce a novel and interpretable methodology to cluster subjects suffering from cancer, based on features extracted from their biopsies. Contrary to existing approaches, we propose here to capture complex patterns in the repartitions of their cells using histograms, and compare subjects on the basis of these repartitions. We describe here our complete workflow, including creation of the database, cells segmentation and phenotyping, computation of complex features, choice of a distance function between features, clustering between subjects using that distance, and survival analysis of obtained clusters. We illustrate our approach on a database of hematoxylin and eosin (H&E)-stained tissues of subjects suffering from Stage I lung adenocarcinoma, where our results match existing knowledge in prognosis estimation with high confidence.
翻訳日:2022-11-15 06:37:51 公開日:2020-07-06
# 階層的質的クラスタリング:臨界質的情報を含む混合データセットのクラスタリング

Hierarchical Qualitative Clustering: clustering mixed datasets with critical qualitative information ( http://arxiv.org/abs/2006.16701v3 )

ライセンス: Link先を確認
Diogo Seca, Jo\~ao Mendes-Moreira, Tiago Mendes-Neves, Ricardo Sousa(参考訳) クラスタリングは、データから洞察を抽出したり、ドメインの専門家が持つ前提、すなわちデータセグメンテーションの検証に使用することができる。 文献では、解釈可能性を失うことなく、データに存在する他の変数に関連するコンテキストを用いて定性値のクラスタリングに適用できる手法はほとんどない。 さらに、高次元の混合データセットでは、定性値間の不一致を計算するためのメトリクスは、しばしば貧弱にスケールする。 本研究では,階層的クラスタリング(hqc)と最大平均差を用いた,質的値のクラスタリング手法を提案する。 HQCはデータセットに存在する定性的情報の本来の解釈可能性を維持している。 HQCを2つのデータセットに適用する。 Spotifyが提供する混合データセットを用いて、数千曲の楽曲の量的特徴に基づいて、アーティストのクラスタリングに我々の手法をどのように利用できるかを示す。 また、企業の財務的特徴を利用して、企業産業をクラスタ化し、投資ポートフォリオの多様化の影響について論じる。

Clustering can be used to extract insights from data or to verify some of the assumptions held by the domain experts, namely data segmentation. In the literature, few methods can be applied in clustering qualitative values using the context associated with other variables present in the data, without losing interpretability. Moreover, the metrics for calculating dissimilarity between qualitative values often scale poorly for high dimensional mixed datasets. In this study, we propose a novel method for clustering qualitative values, based on Hierarchical Clustering (HQC), and using Maximum Mean Discrepancy. HQC maintains the original interpretability of the qualitative information present in the dataset. We apply HQC to two datasets. Using a mixed dataset provided by Spotify, we showcase how our method can be used for clustering music artists based on the quantitative features of thousands of songs. In addition, using financial features of companies, we cluster company industries, and discuss the implications in investment portfolios diversification.
翻訳日:2022-11-15 04:54:50 公開日:2020-07-06
# BiO-Net:エンコーダ・デコーダアーキテクチャのための繰り返し双方向接続学習

BiO-Net: Learning Recurrent Bi-directional Connections for Encoder-Decoder Architecture ( http://arxiv.org/abs/2007.00243v2 )

ライセンス: Link先を確認
Tiange Xiang, Chaoyi Zhang, Dongnan Liu, Yang Song, Heng Huang, Weidong Cai(参考訳) u-netは、セマンティックセグメンテーション、スーパーレゾリューション、画像デノージング、インパインティングといった現代のコンピュータビジョンタスクのための最先端のディープラーニングベースのアプローチの1つとなっている。 U-Netのこれまでの拡張は主に、既存のビルディングブロックの変更や、パフォーマンス向上のための新しい機能モジュールの開発に重点を置いてきた。 その結果、これらの変異は通常、予期せぬモデルの複雑さの増加につながる。 このようなU-Net変種でこの問題に対処するため,本稿では,新たな双方向O-shapeネットワーク(BiO-Net)を提案する。 提案する双方向スキップ接続は,任意のエンコーダデコーダアーキテクチャに直接適用可能であり,タスク領域のさらなる機能向上が期待できる。 各種の医用画像解析タスクにおいて,本手法を評価した結果,我々のBiO-Netは,バニラU-Netや最先端の手法よりも優れていた。 私たちのコードはhttps://github.com/tiangexiang/bio-netで利用可能です。

U-Net has become one of the state-of-the-art deep learning-based approaches for modern computer vision tasks such as semantic segmentation, super resolution, image denoising, and inpainting. Previous extensions of U-Net have focused mainly on the modification of its existing building blocks or the development of new functional modules for performance gains. As a result, these variants usually lead to an unneglectable increase in model complexity. To tackle this issue in such U-Net variants, in this paper, we present a novel Bi-directional O-shape network (BiO-Net) that reuses the building blocks in a recurrent manner without introducing any extra parameters. Our proposed bi-directional skip connections can be directly adopted into any encoder-decoder architecture to further enhance its capabilities in various task domains. We evaluated our method on various medical image analysis tasks and the results show that our BiO-Net significantly outperforms the vanilla U-Net as well as other state-of-the-art methods. Our code is available at https://github.com/tiangexiang/BiO-Net.
翻訳日:2022-11-14 22:53:35 公開日:2020-07-06
# TICO-19:Covid-19の翻訳イニシアチブ

TICO-19: the Translation Initiative for Covid-19 ( http://arxiv.org/abs/2007.01788v2 )

ライセンス: Link先を確認
Antonios Anastasopoulos, Alessandro Cattelan, Zi-Yi Dou, Marcello Federico, Christian Federman, Dmitriy Genzel, Francisco Guzm\'an, Junjie Hu, Macduff Hughes, Philipp Koehn, Rosie Lazar, Will Lewis, Graham Neubig, Mengmeng Niu, Alp \"Oktem, Eric Paquin, Grace Tang, and Sylwia Tur(参考訳) 新型コロナウイルスのパンデミックは、世界で1世紀ぶりの最悪のパンデミックだ。 SARS-CoV-2ウイルスの潮流を抑えるための重要な手段は、弱い集団に自分を守る手段を伝えていくことである。 この目的のために、covid-19の翻訳イニシアチブ(tico-19)の協力者は、これらの言語でcovid-19に関する情報へのアクセスを改善するためのツールやリソースの開発を促進するために、35の異なる言語でaiとmt研究者にテストと開発データを提供している。 研究チームは、高リソースの「ピボット」言語9つに加えて、アフリカ、南アジア、東南アジアなど、より少ない26の言語をターゲットにしている。 同じデータが表現されたすべての言語に翻訳されるため、テストや開発はセット内の任意の言語のペアリングに対して行うことができる。 さらに、チームはテストと開発データを翻訳メモリ(TMX)に変換し、ローカライザがどの言語からでも利用できるようにしている。

The COVID-19 pandemic is the worst pandemic to strike the world in over a century. Crucial to stemming the tide of the SARS-CoV-2 virus is communicating to vulnerable populations the means by which they can protect themselves. To this end, the collaborators forming the Translation Initiative for COvid-19 (TICO-19) have made test and development data available to AI and MT researchers in 35 different languages in order to foster the development of tools and resources for improving access to information about COVID-19 in these languages. In addition to 9 high-resourced, "pivot" languages, the team is targeting 26 lesser resourced languages, in particular languages of Africa, South Asia and South-East Asia, whose populations may be the most vulnerable to the spread of the virus. The same data is translated into all of the languages represented, meaning that testing or development can be done for any pairing of languages in the set. Further, the team is converting the test and development data into translation memories (TMXs) that can be used by localizers from and to any of the languages.
翻訳日:2022-11-14 06:05:32 公開日:2020-07-06
# 多項式しきい値関数の重みと密度境界について

On the weight and density bounds of polynomial threshold functions ( http://arxiv.org/abs/2007.02509v1 )

ライセンス: Link先を確認
Erhan Oztop and Minoru Asada(参考訳) 本報告では、すべての n-変数ブール関数を、最大で0.75 \times 2^n$非ゼロ整数係数を持つ多項式しきい値関数(PTF)として表すことができ、これらの係数の絶対値に上限を与える。 我々の知る限り、これは一般ブール関数の PTF 密度(単項数)と重み(係数の大きさの仮定)の両方に最もよく知られた境界を与える。 ベント函数の特別な場合も解析され、任意の n-変数ベント函数が 2^n$ 未満の整数係数で表される一方で、上記の密度境界も従うことが示される。 最後に、変数代入の$m <<2^n$の数を除いてほとんど定数であるスパースブール函数は、最も密度が高い$m+2^{n-1}$の小さな重み付き PTF を持つことを示す。

In this report, we show that all n-variable Boolean function can be represented as polynomial threshold functions (PTF) with at most $0.75 \times 2^n$ non-zero integer coefficients and give an upper bound on the absolute value of these coefficients. To our knowledge this provides the best known bound on both the PTF density (number of monomials) and weight (sum of the coefficient magnitudes) of general Boolean functions. The special case of Bent functions is also analyzed and shown that any n-variable Bent function can be represented with integer coefficients less than $2^n$ while also obeying the aforementioned density bound. Finally, sparse Boolean functions, which are almost constant except for $m << 2^n$ number of variable assignments, are shown to have small weight PTFs with density at most $m+2^{n-1}$.
翻訳日:2022-11-13 03:30:25 公開日:2020-07-06
# 音声自動キャプションのための音声特徴列の時間サブサンプリング

Temporal Sub-sampling of Audio Feature Sequences for Automated Audio Captioning ( http://arxiv.org/abs/2007.02676v1 )

ライセンス: Link先を確認
Khoa Nguyen and Konstantinos Drossos and Tuomas Virtanen(参考訳) 音声キャプションは、一般的な音声信号の内容のテキスト記述を自動的に作成するタスクである。 典型的な音声キャプション法はディープニューラルネットワーク(DNN)に依存しており、DNNのターゲットは入力されたオーディオシーケンスを単語の出力シーケンス、すなわちキャプションの出力シーケンスにマッピングすることである。 しかし、テキスト記述の長さは音声信号の長さよりもかなり小さく、例えば10語ほどで、数千の音声特徴ベクトルに匹敵する。 これは、出力ワードが複数の入力特徴ベクトルに対応することを示す。 本稿では,音声入力列に時間サブサンプリングを適用することにより,シーケンス間の長さの差を明示的に活用することに焦点を当てた手法を提案する。 エンコーダの出力として固定長ベクトルを用いるシーケンス・ツー・シーケンス法を用い,エンコーダのRNN間の時間的サブサンプリングを適用した。 自由に利用可能なデータセットを布地で使用することで,このアプローチの利点を評価し,時間的サブサンプリングの影響を評価する。 その結果,検討対象の指標がすべて改善された。

Audio captioning is the task of automatically creating a textual description for the contents of a general audio signal. Typical audio captioning methods rely on deep neural networks (DNNs), where the target of the DNN is to map the input audio sequence to an output sequence of words, i.e. the caption. Though, the length of the textual description is considerably less than the length of the audio signal, for example 10 words versus some thousands of audio feature vectors. This clearly indicates that an output word corresponds to multiple input feature vectors. In this work we present an approach that focuses on explicitly taking advantage of this difference of lengths between sequences, by applying a temporal sub-sampling to the audio input sequence. We employ a sequence-to-sequence method, which uses a fixed-length vector as an output from the encoder, and we apply temporal sub-sampling between the RNNs of the encoder. We evaluate the benefit of our approach by employing the freely available dataset Clotho and we evaluate the impact of different factors of temporal sub-sampling. Our results show an improvement to all considered metrics.
翻訳日:2022-11-13 03:30:09 公開日:2020-07-06
# マルコフモデルを用いた交通流の大規模解析とシミュレーション

Large-scale Analysis and Simulation of Traffic Flow using Markov Models ( http://arxiv.org/abs/2007.02681v1 )

ライセンス: Link先を確認
Ren\'at\'o Besenczi, Norbert B\'atfai, P\'eter Jeszenszky, Roland Major, Fanny Monori, M\'arton Isp\'any(参考訳) 既存の交通インフラ,特に大都市道路網における車両の移動のモデル化とシミュレーションは重要な課題である。 交通問題を理解し、対処し、交通規制を最適化し、予期しない災害イベントに対してリアルタイムに交通管理を適用するのに役立つ。 交通分析に使用できる数学的に厳密な確率モデルが、グラフとマルコフ連鎖理論の相互作用に基づく他の研究者によって以前に提案された。 このモデルは、道路ネットワーク上の車両のユニークな定常分布とトラフィックのダイナミクスを記述する遷移確率行列を提供する。 本稿では,車両の走行動態を車両分布とともに扱う2次元定常分布の概念を導入することにより,このモデルに対する新しいパラメトリゼーションを提案する。 さらに, このパラメータ行列を軌道データを用いて推定するために, 重み付き最小二乗推定法を適用した。 そこで本研究では,OpenStreetMapプロジェクトのTaxi Trajectory Predictionデータセットと道路ネットワークデータに本手法を適用した。 我々のアプローチをテストするために、我々は提案するモデルをソフトウェアに実装した。 我々は,中規模および大規模でシミュレーションを行い,人工的および実データに基づくモデルと推定手法の両方が良好であることが証明された。 実際のアプリケーションでは、データセットに基づいて、Portoのマップグラフ上に静止分布を展開しました。 ここで説明するアプローチは、大規模道路網のトラフィック分析に併用した手法を組み合わさったもので、これまで報告されていない。

Modeling and simulating movement of vehicles in established transportation infrastructures, especially in large urban road networks is an important task. It helps with understanding and handling traffic problems, optimizing traffic regulations and adapting the traffic management in real time for unexpected disaster events. A mathematically rigorous stochastic model that can be used for traffic analysis was proposed earlier by other researchers which is based on an interplay between graph and Markov chain theories. This model provides a transition probability matrix which describes the traffic's dynamic with its unique stationary distribution of the vehicles on the road network. In this paper, a new parametrization is presented for this model by introducing the concept of two-dimensional stationary distribution which can handle the traffic's dynamic together with the vehicles' distribution. In addition, the weighted least squares estimation method is applied for estimating this new parameter matrix using trajectory data. In a case study, we apply our method on the Taxi Trajectory Prediction dataset and road network data from the OpenStreetMap project, both available publicly. To test our approach, we have implemented the proposed model in software. We have run simulations in medium and large scales and both the model and estimation procedure, based on artificial and real datasets, have been proved satisfactory. In a real application, we have unfolded a stationary distribution on the map graph of Porto, based on the dataset. The approach described here combines techniques whose use together to analyze traffic on large road networks has not previously been reported.
翻訳日:2022-11-13 03:29:50 公開日:2020-07-06
# モノーラル歌声分離のための奥行き分離可能な畳み込みと再帰ニューラルネットワーク

Depthwise Separable Convolutions Versus Recurrent Neural Networks for Monaural Singing Voice Separation ( http://arxiv.org/abs/2007.02683v1 )

ライセンス: Link先を確認
Pyry Pyykk\"onen and Styliannos I. Mimilakis and Konstantinos Drossos and Tuomas Virtanen(参考訳) 最近の音源分離のアプローチは、主にリカレントニューラルネットワーク(RNN)を用いて、ディープニューラルネットワークのみに基づいている。 RNNは、多くの場合、シーケンス処理の他のタイプのディープニューラルネットワークよりも優れているが、特に音楽ソース分離で発生する典型的な長いシーケンスにおいて、トレーニングと並列化において特に困難であることが知られている。 本稿では,典型的な畳み込みの軽量かつ高速な変種である深さ分離型畳み込み(dws)にrnnを置き換えるユースケースを提案する。 我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。 本稿では,DWS-CNNのチャネル数と層数が音源分離性能に及ぼす影響を,信号対人工物,信号対干渉,信号対歪比の標準指標を用いて検討する。 その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。

Recent approaches for music source separation are almost exclusively based on deep neural networks, mostly employing recurrent neural networks (RNNs). Although RNNs are in many cases superior than other types of deep neural networks for sequence processing, they are known to have specific difficulties in training and parallelization, especially for the typically long sequences encountered in music source separation. In this paper we present a use-case of replacing RNNs with depth-wise separable (DWS) convolutions, which are a lightweight and faster variant of the typical convolutions. We focus on singing voice separation, employing an RNN architecture, and we replace the RNNs with DWS convolutions (DWS-CNNs). We conduct an ablation study and examine the effect of the number of channels and layers of DWS-CNNs on the source separation performance, by utilizing the standard metrics of signal-to-artifacts, signal-to-interference, and signal-to-distortion ratio. Our results show that by replacing RNNs with DWS-CNNs yields an improvement of 1.20, 0.06, 0.37 dB, respectively, while using only 20.57% of the amount of parameters of the RNN architecture.
翻訳日:2022-11-13 03:29:27 公開日:2020-07-06
# フレキシブルクラス構成成分を用いた半非パラメトリック潜在クラス選択モデル:混合モデルアプローチ

Semi-nonparametric Latent Class Choice Model with a Flexible Class Membership Component: A Mixture Model Approach ( http://arxiv.org/abs/2007.02739v1 )

ライセンス: Link先を確認
Georges Sfeir, Maya Abou-Zeid, Filipe Rodrigues, Francisco Camara Pereira, Isam Kaysi(参考訳) 本研究では,フレキシブルクラスメンバシップコンポーネントを有する半非パラメトリック潜在クラス選択モデル(lccm)を提案する。 提案モデルでは,選択過程における予測精度と不均一性の表現を含む様々な指標について,従来のランダムユーティリティ仕様に対する代替手法として混合モデルを用いて潜在クラスを定式化する。 混合モデルはパラメトリックモデルに基づくクラスタリング技術であり、機械学習、データマイニング、クラスタリングや分類問題に対するパター認識などの分野で広く使われている。 提案モデルの推定のために期待最大化(em)アルゴリズムが導出される。 提案モデルは,旅行モード選択行動に関する2つの異なるケーススタディを用いて,パラメータ推定符号,時間値,統計的適合度尺度,相互評価テストに基づいて,従来の離散選択モデルと比較した。 その結果、混合モデルは、選択モデルの振る舞いや経済的解釈性を弱めることなく、不均一性の表現性の向上に加えて、サンプル外予測精度の向上により、潜在クラス選択モデルの全体的な性能を向上させることが示された。

This study presents a semi-nonparametric Latent Class Choice Model (LCCM) with a flexible class membership component. The proposed model formulates the latent classes using mixture models as an alternative approach to the traditional random utility specification with the aim of comparing the two approaches on various measures including prediction accuracy and representation of heterogeneity in the choice process. Mixture models are parametric model-based clustering techniques that have been widely used in areas such as machine learning, data mining and patter recognition for clustering and classification problems. An Expectation-Maximization (EM) algorithm is derived for the estimation of the proposed model. Using two different case studies on travel mode choice behavior, the proposed model is compared to traditional discrete choice models on the basis of parameter estimates' signs, value of time, statistical goodness-of-fit measures, and cross-validation tests. Results show that mixture models improve the overall performance of latent class choice models by providing better out-of-sample prediction accuracy in addition to better representations of heterogeneity without weakening the behavioral and economic interpretability of the choice models.
翻訳日:2022-11-13 03:29:03 公開日:2020-07-06
# 配電系統におけるボルトVAR制御のためのマルチエージェント強化学習

Consensus Multi-Agent Reinforcement Learning for Volt-VAR Control in Power Distribution Networks ( http://arxiv.org/abs/2007.02991v1 )

ライセンス: Link先を確認
Yuanqi Gao, Wei Wang, Nanpeng Yu(参考訳) VVC(Volt-VAR Control)は、ネットワーク損失を低減し、電圧プロファイルを改善するために、アクティブな分散ネットワーク管理システムにおいて重要な応用である。 不正確なネットワークモデルや不完全なネットワークモデルへの依存を排除し、通信やコントローラの故障に対するレジリエンスを高めるために、VVC問題を解決するためのコンセンサス多エージェント深層強化学習アルゴリズムを提案する。 VVC問題はネットワーク化されたマルチエージェントマルコフ決定プロセスとして定式化され、最大エントロピー強化学習フレームワークと通信効率の高い新しいコンセンサス戦略を用いて解決される。 提案手法では,個々のエージェントが局所報酬を用いてグループ制御ポリシーを学習できる。 IEEE分散テストフィードの数値的研究により,提案アルゴリズムは単エージェント強化学習ベンチマークの性能と一致することが示された。 さらに,提案アルゴリズムは通信効率が高く,弾力性が高いことを示す。

Volt-VAR control (VVC) is a critical application in active distribution network management system to reduce network losses and improve voltage profile. To remove dependency on inaccurate and incomplete network models and enhance resiliency against communication or controller failure, we propose consensus multi-agent deep reinforcement learning algorithm to solve the VVC problem. The VVC problem is formulated as a networked multi-agent Markov decision process, which is solved using the maximum entropy reinforcement learning framework and a novel communication-efficient consensus strategy. The proposed algorithm allows individual agents to learn a group control policy using local rewards. Numerical studies on IEEE distribution test feeders show that our proposed algorithm matches the performance of single-agent reinforcement learning benchmark. In addition, the proposed algorithm is shown to be communication efficient and resilient.
翻訳日:2022-11-13 03:28:13 公開日:2020-07-06
# 深層学習によるX線光子結合データ補正

X-ray Photon-Counting Data Correction through Deep Learning ( http://arxiv.org/abs/2007.03119v1 )

ライセンス: Link先を確認
Mengzhou Li, David S. Rundle and Ge Wang(参考訳) X線フォトン計数検出器(PCD)は、ノイズやエネルギーの識別能力の低さから近年注目されている。 PCDに関連するエネルギー/スペクトル次元は、材料分解、ビーム硬化、金属加工物の還元、低線量CTイメージングなどの大きな利点をもたらす可能性がある。 しかし、x線pcdは現在いくつかの技術的問題、特に電荷分割(電荷共有やk殻蛍光再吸収やエスケープを含む)や、エネルギースペクトルを歪めてデータ品質を損なうパルスパイルアップ効果によって制限されている。 ハードウェアの改良と解析モデルによる生PCD測定の補正は、かなり高価で複雑である。 そこで本研究では、教師付き学習モードにおいて、不完全なデータを理想のデータに直接マッピングするディープニューラルネットワークに基づくPCDデータ補正手法を提案する。 本研究ではまず,電荷分割とパルス蓄積効果を取り入れた完全シミュレーションモデルを構築した。 シミュレーションされたPCDデータと地上の真理のデータは、PCDデータ修正のために特別に設計されたディープ・敵ネットワークに送られる。 次に、訓練されたネットワークを用いて別々に生成されたpcdデータを補正する。 実験の結果、トレーニングされたネットワークは、相対誤差$\pm6\%$で歪み測定から理想的なスペクトルを回復することを示した。 投影領域と再構成領域の両方において、重要なデータと画像の忠実度の改善が明らかである。

X-ray photon-counting detectors (PCDs) are drawing an increasing attention in recent years due to their low noise and energy discrimination capabilities. The energy/spectral dimension associated with PCDs potentially brings great benefits such as for material decomposition, beam hardening and metal artifact reduction, as well as low-dose CT imaging. However, X-ray PCDs are currently limited by several technical issues, particularly charge splitting (including charge sharing and K-shell fluorescence re-absorption or escaping) and pulse pile-up effects which distort the energy spectrum and compromise the data quality. Correction of raw PCD measurements with hardware improvement and analytic modeling is rather expensive and complicated. Hence, here we proposed a deep neural network based PCD data correction approach which directly maps imperfect data to the ideal data in the supervised learning mode. In this work, we first establish a complete simulation model incorporating the charge splitting and pulse pile-up effects. The simulated PCD data and the ground truth counterparts are then fed to a specially designed deep adversarial network for PCD data correction. Next, the trained network is used to correct separately generated PCD data. The test results demonstrate that the trained network successfully recovers the ideal spectrum from the distorted measurement within $\pm6\%$ relative error. Significant data and image fidelity improvements are clearly observed in both projection and reconstruction domains.
翻訳日:2022-11-13 03:27:58 公開日:2020-07-06
# ARC-Net: カプセルによるアクティビティ認識

ARC-Net: Activity Recognition Through Capsules ( http://arxiv.org/abs/2007.03063v1 )

ライセンス: Link先を確認
Hamed Damirchi, Rooholla Khorrambakht, Hamid Taghirad(参考訳) HAR(Human Activity Recognition)は、望ましいパフォーマンスを達成するために手作りの機能を使うよりも高度なソリューションを必要とする課題である。 ノイズに対して堅牢なより正確なHARシステムを得るためのソリューションとして、ディープラーニングが提案されている。 本稿では,arc-netを紹介し,複数の慣性測定ユニット(imus)からの情報を融合して被検者の活動を予測するカプセルの利用を提案する。 我々は、このネットワークが不要な情報を調整し、カプセルネットワークに埋め込まれた反復的なメカニズムによってより正確な決定を行うことができると仮定する。 ネットワークによって学習された事前のヒートマップを提供し、トレーニングされたネットワークによる各データソースの利用を可視化する。 提案したネットワークを用いることで,最先端アプローチの精度を2%向上することができた。 さらに, 結果の混乱行列の方向性について検討し, 得られたデータに基づいて活動の特異性を検討する。

Human Activity Recognition (HAR) is a challenging problem that needs advanced solutions than using handcrafted features to achieve a desirable performance. Deep learning has been proposed as a solution to obtain more accurate HAR systems being robust against noise. In this paper, we introduce ARC-Net and propose the utilization of capsules to fuse the information from multiple inertial measurement units (IMUs) to predict the activity performed by the subject. We hypothesize that this network will be able to tune out the unnecessary information and will be able to make more accurate decisions through the iterative mechanism embedded in capsule networks. We provide heatmaps of the priors, learned by the network, to visualize the utilization of each of the data sources by the trained network. By using the proposed network, we were able to increase the accuracy of the state-of-the-art approaches by 2%. Furthermore, we investigate the directionality of the confusion matrices of our results and discuss the specificity of the activities based on the provided data.
翻訳日:2022-11-13 03:21:56 公開日:2020-07-06
# 時空間グラフニューラルネットワークを用いたCOVID-19予測の検討

Examining COVID-19 Forecasting using Spatio-Temporal Graph Neural Networks ( http://arxiv.org/abs/2007.03113v1 )

ライセンス: Link先を確認
Amol Kapoor, Xue Ben, Luyang Liu, Bryan Perozzi, Matt Barnes, Martin Blais, Shawn O'Banion(参考訳) 本研究では,グラフニューラルネットワークと移動データを用いた新型コロナウイルスのケース予測の新しい予測手法について検討する。 既存の時系列予測モデルとは対照的に,提案手法は1つの大規模時空間グラフから学習し,ノードは地域レベルの人体移動,空間エッジは人体移動に基づく地域間接続,時間的エッジは時間的特徴を表す。 このアプローチを米国郡レベルのcovid-19データセットで評価し、グラフニューラルネットワークが活用するリッチな空間的および時間的情報によって、モデルが複雑なダイナミクスを学習できることを実証する。 RMSLEは6%減少し,Pearson相関は0.9978から0.998に改善した。 この新たな情報ソースとグラフベースのディープラーニングアプローチは、新型コロナウイルスの拡散と進化を理解するための強力なツールになり得る。 我々は,gnnと高分解能モビリティデータに基づく感染症の新しいモデリングパラダイムをさらに発展させることを奨励する。

In this work, we examine a novel forecasting approach for COVID-19 case prediction that uses Graph Neural Networks and mobility data. In contrast to existing time series forecasting models, the proposed approach learns from a single large-scale spatio-temporal graph, where nodes represent the region-level human mobility, spatial edges represent the human mobility based inter-region connectivity, and temporal edges represent node features through time. We evaluate this approach on the US county level COVID-19 dataset, and demonstrate that the rich spatial and temporal information leveraged by the graph neural network allows the model to learn complex dynamics. We show a 6% reduction of RMSLE and an absolute Pearson Correlation improvement from 0.9978 to 0.998 compared to the best performing baseline models. This novel source of information combined with graph based deep learning approaches can be a powerful tool to understand the spread and evolution of COVID-19. We encourage others to further develop a novel modeling paradigm for infectious disease based on GNNs and high resolution mobility data.
翻訳日:2022-11-13 03:21:33 公開日:2020-07-06
# Point Cloud Denoisingのためのグラフ畳み込み表現の学習

Learning Graph-Convolutional Representations for Point Cloud Denoising ( http://arxiv.org/abs/2007.02578v1 )

ライセンス: Link先を確認
Francesca Pistilli, Giulia Fracastoro, Diego Valsesia, Enrico Magli(参考訳) ポイントクラウドは、ますます関連性の高いデータタイプであるが、ノイズによってしばしば破損する。 本稿では,グラフ畳み込み層に基づく深層ニューラルネットワークを提案する。 ネットワークは完全畳み込みであり、点の高次元特徴表現間の類似性から近傍グラフを動的に構築することで、複雑な特徴階層を構築することができる。 理想曲面への近接を促進する損失と組み合わせると、提案手法は様々な測定値の最先端手法を大幅に上回る。 特に、Chamfer測度や、偏微分データから推定できる表面正規値の品質の観点から改善することができる。 また,高ノイズレベルと実際のライダースキャンで発生するような構造化雑音の存在の両方において,特に頑健であることを示す。

Point clouds are an increasingly relevant data type but they are often corrupted by noise. We propose a deep neural network based on graph-convolutional layers that can elegantly deal with the permutation-invariance problem encountered by learning-based point cloud processing methods. The network is fully-convolutional and can build complex hierarchies of features by dynamically constructing neighborhood graphs from similarity among the high-dimensional feature representations of the points. When coupled with a loss promoting proximity to the ideal surface, the proposed approach significantly outperforms state-of-the-art methods on a variety of metrics. In particular, it is able to improve in terms of Chamfer measure and of quality of the surface normals that can be estimated from the denoised data. We also show that it is especially robust both at high noise levels and in presence of structured noise such as the one encountered in real LiDAR scans.
翻訳日:2022-11-13 03:20:57 公開日:2020-07-06
# 動的最適輸送と機能リフティングの関連性について

On the Connection between Dynamical Optimal Transport and Functional Lifting ( http://arxiv.org/abs/2007.02587v1 )

ライセンス: Link先を確認
Thomas Vogt, Roland Haase, Danielle Bednarski, Jan Lellmann(参考訳) 関数リフト法は、より広い空間に埋め込むことで、困難な非凸問題の解を近似するツールを提供する。 本研究では,固定範囲 $\gamma$ 上の点確率測度の空間への埋め込みに基づく数学的に厳密な定式化について検討する。 興味深いことに、このアプローチは動的最適輸送の理論の一般化として導かれる。 制約として確立された連続性方程式を構成することは、一階正則化を持つ変分モデルに対応する。 連続性方程式を変更することで、このアプローチは高階正則化を持つモデルにも拡張することができる。

Functional lifting methods provide a tool for approximating solutions of difficult non-convex problems by embedding them into a larger space. In this work, we investigate a mathematically rigorous formulation based on embedding into the space of pointwise probability measures over a fixed range $\Gamma$. Interestingly, this approach can be derived as a generalization of the theory of dynamical optimal transport. Imposing the established continuity equation as a constraint corresponds to variational models with first-order regularization. By modifying the continuity equation, the approach can also be extended to models with higher-order regularization.
翻訳日:2022-11-13 03:20:42 公開日:2020-07-06
# 液体アルゴン時間投影室における3次元画素クラスタリングと粒子軌道再構成のためのスケーラブルで提案不要なインスタンスセグメンテーションネットワーク

Scalable, Proposal-free Instance Segmentation Network for 3D Pixel Clustering and Particle Trajectory Reconstruction in Liquid Argon Time Projection Chambers ( http://arxiv.org/abs/2007.03083v1 )

ライセンス: Link先を確認
Dae Heun Koh, Pierre C\^ote de Soux, Laura Domin\'e, Fran\c{c}ois Drielsma, Ran Itay, Qing Lin, Kazuhiro Terao, Ka Vang Tsang, Tracy Usher (for the DeepLearnPhysics Collaboration)(参考訳) 液体アルゴン時間射影チャンバー(Liquid Argon Time Projection Chambers、LArTPC)は、高精度物理測定のための加速器ベースのニュートリノ振動実験で用いられる高分解能粒子イメージング検出器である。 粒子軌道の画像は物理学者にとって直感的に解析できるが、高品質で自動化されたデータ再構成チェーンの開発は依然として困難である。 3Dイメージピクセルを同じ粒子タイプを共有する異なる粒子インスタンスにグループ化する作業である。 本稿では,Sparse Convolutional Neural Network (SCNN) を用いたLArTPCデータにおける粒子クラスタリングのための,最初のスケーラブルなディープラーニングアルゴリズムを提案する。 scnnと提案するフリーインスタンスセグメンテーションに基づいて、画像ピクセルの埋め込みを学習し、変換された空間でポイントクラウドクラスタリングを行うエンドツーエンドのトレーニング可能なインスタンスセグメンテーションネットワークを構築する。 我々は,一般的なクラスタリング評価指標に関して,公開3次元粒子画像データセットであるPILArNetのアルゴリズムの性能をベンチマークした。 3次元画素を個々の粒子軌道にクラスタリングし,90%を調整したRand指数スコアを92%以上,平均画素クラスタリング効率と純度を96%以上とした。 この研究は、LArTPC、特にディープ地下ニュートリノ実験の近接検出器を含むピクセルベースの3Dイメージング検出器のエンドツーエンドで最適化可能な全データ再構成チェーンの開発に寄与する。 我々のアルゴリズムはオープンアクセスレポジトリで利用可能であり、データセットの作業を再現するために使用できるSingularityソフトウェアコンテナを共有しています。

Liquid Argon Time Projection Chambers (LArTPCs) are high resolution particle imaging detectors, employed by accelerator-based neutrino oscillation experiments for high precision physics measurements. While images of particle trajectories are intuitive to analyze for physicists, the development of a high quality, automated data reconstruction chain remains challenging. One of the most critical reconstruction steps is particle clustering: the task of grouping 3D image pixels into different particle instances that share the same particle type. In this paper, we propose the first scalable deep learning algorithm for particle clustering in LArTPC data using sparse convolutional neural networks (SCNN). Building on previous works on SCNNs and proposal free instance segmentation, we build an end-to-end trainable instance segmentation network that learns an embedding of the image pixels to perform point cloud clustering in a transformed space. We benchmark the performance of our algorithm on PILArNet, a public 3D particle imaging dataset, with respect to common clustering evaluation metrics. 3D pixels were successfully clustered into individual particle trajectories with 90% of them having an adjusted Rand index score greater than 92% with a mean pixel clustering efficiency and purity above 96%. This work contributes to the development of an end-to-end optimizable full data reconstruction chain for LArTPCs, in particular pixel-based 3D imaging detectors including the near detector of the Deep Underground Neutrino Experiment. Our algorithm is made available in the open access repository, and we share our Singularity software container, which can be used to reproduce our work on the dataset.
翻訳日:2022-11-13 03:20:00 公開日:2020-07-06
# 解析階層過程の修正された公理的基礎

A modified axiomatic foundation of the analytic hierarchy process ( http://arxiv.org/abs/2007.02472v1 )

ライセンス: Link先を確認
Fang Liu, Wei-Guo Zhang(参考訳) 本稿では,解析階層プロセス (AHP) の公理的基礎を改良し, 対比較の相互特性が損なわれていることを報告する。 相互対称性の破れという新しい概念は、相互特性を伴わずに検討された状況を特徴づけるために提案される。 決定者によって経験された不確実性は、修正された公理に自然に組み込むことができる。 いくつかの結果は、近似一貫性という新しい概念と優先順位を引き出す方法を含む新しい公理から導かれる。 逆転の現象は、修正公理の基礎の下で理論的な観点から再考される。 順位逆転のない状況は、順位均衡と呼ばれる。 ランキング逆転の確率は、ケンドールの一致係数に基づく可能性度指数を導入することによって得られる。 修正公理と導出事実は、いくつかの不確実性の下で ahp の選択モデルの新たな操作基底を形成する。 これらの結果から, 相互性のある判断と比較して, より柔軟な決定情報の表現が受け入れられることがわかった。

This paper reports a modified axiomatic foundation of the analytic hierarchy process (AHP), where the reciprocal property of paired comparisons is broken. The novel concept of reciprocal symmetry breaking is proposed to characterize the considered situation without reciprocal property. It is found that the uncertainty experienced by the decision maker can be naturally incorporated into the modified axioms. Some results are derived from the new axioms involving the new concept of approximate consistency and the method of eliciting priorities. The phenomenon of ranking reversal is revisited from a theoretical viewpoint under the modified axiomatic foundation. The situations without ranking reversal are addressed and called ranking equilibrium. The likelihood of ranking reversal is captured by introducing a possibility degree index based on the Kendall's coefficient of concordance. The modified axioms and the derived facts form a novel operational basis of the AHP choice model under some uncertainty. The observations reveal that a more flexible expression of decision information could be accepted as compared to the judgments with reciprocal property.
翻訳日:2022-11-13 03:12:34 公開日:2020-07-06
# 動的認知

Dynamic Awareness ( http://arxiv.org/abs/2007.02823v1 )

ライセンス: Link先を確認
Joseph Y. Halpern and Evan Piermont(参考訳) 我々は,より認知されるエージェントの信念をモデル化する方法を検討する。 Halpern と Rego (2013) のフレームワークを確率を加えることによって使用し、エージェントが新しい式 $\phi$ in state $s$ of a model $M$ を知っていれば、モデル $M^*$ で状態 $s^*$ に遷移する方法についての制約を記述するモデル遷移の概念を定義する。 次に、そのようなモデルを情報開示に適用する方法について議論する。

We investigate how to model the beliefs of an agent who becomes more aware. We use the framework of Halpern and Rego (2013) by adding probability, and define a notion of a model transition that describes constraints on how, if an agent becomes aware of a new formula $\phi$ in state $s$ of a model $M$, she transitions to state $s^*$ in a model $M^*$. We then discuss how such a model can be applied to information disclosure.
翻訳日:2022-11-13 03:12:11 公開日:2020-07-06
# 非教師なし領域適応による恒星スペクトルの解釈

Interpreting Stellar Spectra with Unsupervised Domain Adaptation ( http://arxiv.org/abs/2007.03112v1 )

ライセンス: Link先を確認
Teaghan O'Briain, Yuan-Sen Ting, S\'ebastien Fabbro, Kwang M. Yi, Kim Venn, Spencer Bialek(参考訳) 教師なし領域適応を用いた不完全なシミュレーションと観測データからマッピングを実現する方法について論じる。 シミュレーションおよび観測されたデータ分布が共通の表現を共有しているという仮説の下では、シミュレーションされた領域と観測された領域の間での転送がいかに可能であるかを示す。 恒星分光観測によるスカイサーベイの解釈により,各領域上の2つの対向自己エンコーダと周期整合性制約を用いて,ドメイン転送パイプラインを構築した。 次に、物理恒星パラメータから実測スペクトルへの微分可能なパイプラインを構築し、補助的な生成代用物理エミュレータネットワークで支援する。 さらに、再構成されたスペクトル品質に対する手法のポテンシャルを実証し、元素量に関連する新しいスペクトル特徴を発見する。

We discuss how to achieve mapping from large sets of imperfect simulations and observational data with unsupervised domain adaptation. Under the hypothesis that simulated and observed data distributions share a common underlying representation, we show how it is possible to transfer between simulated and observed domains. Driven by an application to interpret stellar spectroscopic sky surveys, we construct the domain transfer pipeline from two adversarial autoencoders on each domains with a disentangling latent space, and a cycle-consistency constraint. We then construct a differentiable pipeline from physical stellar parameters to realistic observed spectra, aided by a supplementary generative surrogate physics emulator network. We further exemplify the potential of the method on the reconstructed spectra quality and to discover new spectral features associated to elemental abundances.
翻訳日:2022-11-13 03:11:47 公開日:2020-07-06
# COVID-19に関する質問に対する科学文献の検索

Searching Scientific Literature for Answers on COVID-19 Questions ( http://arxiv.org/abs/2007.02492v1 )

ライセンス: Link先を確認
Vincent Nguyen, Maciek Rybinski, Sarvnaz Karimi, Zhenchang Xing(参考訳) 新規疾患のパンデミックに関連する回答を見つけることは、新たな情報が徐々に手に入るにつれて、情報検索と検索の新たな課題を提起する。 TREC COVIDのサーチトラックは、科学者、臨床医、政策立案者、その他の研究者が科学的文献から信頼できる答えを見つけるのに、同様の情報を必要とするのを助けるための検索ツールの開発を支援することを目的としている。 このチャレンジへの参加の一環として、さまざまなランキングアルゴリズムを実験します。 本稿では,ニューラル検索のための新しい手法を提案し,TREC COVIDサーチの有効性を実証する。

Finding answers related to a pandemic of a novel disease raises new challenges for information seeking and retrieval, as the new information becomes available gradually. TREC COVID search track aims to assist in creating search tools to aid scientists, clinicians, policy makers and others with similar information needs in finding reliable answers from the scientific literature. We experiment with different ranking algorithms as part of our participation in this challenge. We propose a novel method for neural retrieval, and demonstrate its effectiveness on the TREC COVID search.
翻訳日:2022-11-13 03:11:11 公開日:2020-07-06
# オンラインファッションeコマースのサプライチェーン最適化におけるニュースボーイ問題の適用

An Application of Newsboy Problem in Supply Chain Optimisation of Online Fashion E-Commerce ( http://arxiv.org/abs/2007.02510v1 )

ライセンス: Link先を確認
Chandramouli Kamanchi and Gopinath Ashok Kumar and Nachiappan Sundaram and Ravindra Babu T and Chaithanya Bandi(参考訳) インドのオンラインファッションeコマース企業であるMyntraに展開するサプライチェーン最適化モデルについて述べる。 私たちのモデルはシンプルでエレガントで、運用も簡単です。 このモデルは、歴史的データを利用してストックキーピング・ユニット(SKU)の量を予測し、指標の「Fulfilment Index」と「Utilization Index」が最適化されるように保持する。 我々は,モデルの中心となる数学を提示するとともに,モデルの性能をベースライン回帰に基づく解と比較する。

We describe a supply chain optimization model deployed in an online fashion e-commerce company in India called Myntra. Our model is simple, elegant and easy to put into service. The model utilizes historic data and predicts the quantity of Stock Keeping Units (SKUs) to hold so that the metrics "Fulfilment Index" and "Utilization Index" are optimized. We present the mathematics central to our model as well as compare the performance of our model with baseline regression based solutions.
翻訳日:2022-11-13 03:11:02 公開日:2020-07-06
# 注意とメタパスの間接的利用によるHIN用GCN

GCN for HIN via Implicit Utilization of Attention and Meta-paths ( http://arxiv.org/abs/2007.02643v1 )

ライセンス: Link先を確認
Di Jin, Zhizhi Yu, Dongxiao He, Carl Yang, Philip S. Yu and Jiawei Han(参考訳) 不均一情報ネットワーク(HIN)は,HINの構造と意味情報を分散表現にマッピングすることを目的としており,研究の注目を集めている。 HIN埋め込みのためのグラフニューラルネットワークは通常、メタパスベースの隣人からの情報を取得するために階層的な注意(ノードレベルやメタパスレベルの注意を含む)を採用する。 しかし、この複雑な注意構造は、過度に過度な過度によりメタパスを選択する機能を達成できないことが多い。 さらに、情報を伝播する場合、これらの方法は直接(ワンホップ)メタパスと間接(マルチホップ)パスとを区別しない。 しかし、ネットワーク科学の観点からは、直接関係はより不可欠であると考えられており、直接情報伝達をモデル化するのにのみ使用できる。 これらの制約に対処するために,注意とメタパスを暗黙的に活用し,hin上の現在の過パラメータな注意機構によって引き起こされる過度なオーバーフィットを緩和する新しいニューラルネットワーク手法を提案する。 まず,各層で識別集約を行う多層グラフ畳み込みネットワーク(gcn)フレームワークと,直接リンクされたメタパスの層別情報伝達を積み重ねて,間接的にメタパスを選択するための注意の関数を実現する。 次に,アグリゲーションから分離可能な新しい伝播操作を導入することで,効果的な緩和と改善を行う。 すなわち、まず、確率的拡散ダイナミクスをよく定義した伝播過程全体をモデル化し、次に、層の増加によってノイズを低減できるランダムグラフベースの制約を導入する。 広範な実験により、最先端の手法よりも新しいアプローチが優れていることが示されている。

Heterogeneous information network (HIN) embedding, aiming to map the structure and semantic information in a HIN to distributed representations, has drawn considerable research attention. Graph neural networks for HIN embeddings typically adopt a hierarchical attention (including node-level and meta-path-level attentions) to capture the information from meta-path-based neighbors. However, this complicated attention structure often cannot achieve the function of selecting meta-paths due to severe overfitting. Moreover, when propagating information, these methods do not distinguish direct (one-hop) meta-paths from indirect (multi-hop) ones. But from the perspective of network science, direct relationships are often believed to be more essential, which can only be used to model direct information propagation. To address these limitations, we propose a novel neural network method via implicitly utilizing attention and meta-paths, which can relieve the severe overfitting brought by the current over-parameterized attention mechanisms on HIN. We first use the multi-layer graph convolutional network (GCN) framework, which performs a discriminative aggregation at each layer, along with stacking the information propagation of direct linked meta-paths layer-by-layer, realizing the function of attentions for selecting meta-paths in an indirect way. We then give an effective relaxation and improvement via introducing a new propagation operation which can be separated from aggregation. That is, we first model the whole propagation process with well-defined probabilistic diffusion dynamics, and then introduce a random graph-based constraint which allows it to reduce noise with the increase of layers. Extensive experiments demonstrate the superiority of the new approach over state-of-the-art methods.
翻訳日:2022-11-13 03:10:53 公開日:2020-07-06
# 概念と公式による正と負のデータ例の分離:制限記号の場合

Separating Positive and Negative Data Examples by Concepts and Formulas: The Case of Restricted Signatures ( http://arxiv.org/abs/2007.02669v1 )

ライセンス: Link先を確認
Jean Christoph Jung, Carsten Lutz, Hadrien Pulcini, Frank Wolter(参考訳) 本稿では,記述論理(DL)の概念と決定可能なFOフラグメントの式を用いて,オントロジーの存在下での正および負のデータ例の分離について検討する。 従来の作業とは対照的に、シンボルのサブセットを分離に使用できるデータとオントロジーから指定するシグネチャを追加します。 負の例がどのように扱われるかが異なる結果の弱いバージョンと強いバージョンを考察する。 我々の主な結果は、弱いバージョンは$\mathcal{ALCI}$で決定可能であるが、ガードされたフラグメントGF、ガードされた否定フラグメントGNF、DL $\mathcal{ALCFIO}$では決定不可能であり、強い分離性は$\mathcal{ALCI}$、GF、GNFで決定可能であることである。 また、(主に厳密な)複雑性境界も提供します。

We study the separation of positive and negative data examples in terms of description logic (DL) concepts and formulas of decidable FO fragments, in the presence of an ontology. In contrast to previous work, we add a signature that specifies a subset of the symbols from the data and ontology that can be used for separation. We consider weak and strong versions of the resulting problem that differ in how the negative examples are treated. Our main results are that (a projective form of) the weak version is decidable in $\mathcal{ALCI}$ while it is undecidable in the guarded fragment GF, the guarded negation fragment GNF, and the DL $\mathcal{ALCFIO}$, and that strong separability is decidable in $\mathcal{ALCI}$, GF, and GNF. We also provide (mostly tight) complexity bounds.
翻訳日:2022-11-13 03:04:56 公開日:2020-07-06
# レンズレス顕微鏡画像を用いた結核予測のためのセマンティックセグメンテーション

Automatic semantic segmentation for prediction of tuberculosis using lens-free microscopy images ( http://arxiv.org/abs/2007.02482v1 )

ライセンス: Link先を確認
Dennis N\'u\~nez-Fern\'andez, Lamberto Ballan, Gabriel Jim\'enez-Avalos, Jorge Coronel, Mirko Zimic(参考訳) Mycobacterium tuberculosis(Mycobacterium tuberculosis、結核菌)は、ペルーと世界中で最も深刻な公衆衛生問題の一つである。 このプロジェクトの開発は、mods法とレンズレス顕微鏡を用いて結核の診断を容易にし、自動化することを目的としている。 そこで,収集したデータセットにu-netネットワークを用いてtbコードの自動分割を行い,結核の予測を行った。 最初の結果はtbコードの自動分割に有望な証拠を示している。

Tuberculosis (TB), caused by a germ called Mycobacterium tuberculosis, is one of the most serious public health problems in Peru and the world. The development of this project seeks to facilitate and automate the diagnosis of tuberculosis by the MODS method and using lens-free microscopy, due they are easier to calibrate and easier to use (by untrained personnel) in comparison with lens microscopy. Thus, we employ a U-Net network in our collected dataset to perform the automatic segmentation of the TB cords in order to predict tuberculosis. Our initial results show promising evidence for automatic segmentation of TB cords.
翻訳日:2022-11-13 03:04:18 公開日:2020-07-06
# 自律走行車両のレーン注意による確率的多モード軌道予測

Probabilistic Multi-modal Trajectory Prediction with Lane Attention for Autonomous Vehicles ( http://arxiv.org/abs/2007.02574v1 )

ライセンス: Link先を確認
Chenxu Luo, Lin Sun, Dariush Dabiri, Alan Yuille(参考訳) 軌道予測は自動運転車にとって不可欠である。 計画システムは、周囲のオブジェクトの現在の状態を知るだけでなく、将来その状態も知る必要がある。 車両の場合、その軌道は車線幾何学に大きく影響され、車線情報を効果的に活用する方法は活発である。 既存の作品の多くは道路情報を探索するためにラスタライズドマップを使用しており、異なる車線を区別していない。 本稿では,レーン表現のための新しいインスタンス認識表現を提案する。 車線特徴と軌道特徴を統合することにより,車両の将来の位置を予測するために,目標指向車線注意モジュールを提案する。 提案したレーン表現とレーンアテンションモジュールは,広く使用されているエンコーダデコーダフレームワークに統合され,多様な予測が可能であることを示す。 最も重要なことに、生成された各軌道は不確実性を扱う確率に関連付けられている。 本手法は, 1つの行動モードに崩壊することなく, 様々な可能性をカバーすることができる。 ベンチマークデータセットの大規模な実験とアブレーション研究は,提案手法の有効性を裏付けるものである。 特に,提案手法はneurips 2019のargoverse motion forecasting competitionで3位にランクインした。

Trajectory prediction is crucial for autonomous vehicles. The planning system not only needs to know the current state of the surrounding objects but also their possible states in the future. As for vehicles, their trajectories are significantly influenced by the lane geometry and how to effectively use the lane information is of active interest. Most of the existing works use rasterized maps to explore road information, which does not distinguish different lanes. In this paper, we propose a novel instance-aware representation for lane representation. By integrating the lane features and trajectory features, a goal-oriented lane attention module is proposed to predict the future locations of the vehicle. We show that the proposed lane representation together with the lane attention module can be integrated into the widely used encoder-decoder framework to generate diverse predictions. Most importantly, each generated trajectory is associated with a probability to handle the uncertainty. Our method does not suffer from collapsing to one behavior modal and can cover diverse possibilities. Extensive experiments and ablation studies on the benchmark datasets corroborate the effectiveness of our proposed method. Notably, our proposed method ranks third place in the Argoverse motion forecasting competition at NeurIPS 2019.
翻訳日:2022-11-13 03:04:08 公開日:2020-07-06
# Augment Yourself:光シースルーヘッドマウントディスプレイと物理ミラーを用いた複合現実型自己拡張

Augment Yourself: Mixed Reality Self-Augmentation Using Optical See-through Head-mounted Displays and Physical Mirrors ( http://arxiv.org/abs/2007.02884v1 )

ライセンス: Link先を確認
Mathias Unberath, Kevin Yu, Roghayeh Barmaki, Alex Johnson, Nassir Navab(参考訳) 光シークレットヘッドマウントディスプレイ(OST HMD)は、仮想オブジェクトと物理シーンを融合して、没入型複合現実(MR)環境をユーザに提供するための重要な技術の1つである。 HMDの基本的な制限は、ユーザ自身は、カジュアルな姿勢では、遠位上肢のみがHMDの視野内にあるため、便利に拡張できないことである。 したがって、仮想ドレッシングルームや体の動きの学習など、ユーザを中心としたほとんどのMRアプリケーションは、HMDでは実現できない。 本稿では,OST HMDと物理ミラーを組み合わせて自己拡張を実現し,ユーザを中心とした没入型MR環境を実現する,新しいコンセプトとプロトタイプシステムを提案する。 まず,本システムは,hmdに装着したrgbdカメラを用いて,鏡が生成する仮想画像におけるユーザのポーズを推定し,直接ユーザではなく反射に仮想オブジェクトをアンカーする。 本システムでは,キャリブレーション精度と鏡による赤外線信号劣化効果を定量的に評価し,大鏡が設備の不可欠な部分である場合にその可能性を示す。 特に,仮想フィッティングルーム,ゲームアプリケーション,解剖学学習,パーソナルフィットネスへの応用を実証する。 LCD搭載スマートミラーのような競合する装置とは対照的に、提案システムはRGBDカメラを備えたHMDのみで構成されており、非常にフレキシブルで汎用的な環境を必要としない。 今後,本システムがどのように身体リハビリテーションやパーソナルトレーニングに最適に活用できるかを,有望な応用として検討する。

Optical see-though head-mounted displays (OST HMDs) are one of the key technologies for merging virtual objects and physical scenes to provide an immersive mixed reality (MR) environment to its user. A fundamental limitation of HMDs is, that the user itself cannot be augmented conveniently as, in casual posture, only the distal upper extremities are within the field of view of the HMD. Consequently, most MR applications that are centered around the user, such as virtual dressing rooms or learning of body movements, cannot be realized with HMDs. In this paper, we propose a novel concept and prototype system that combines OST HMDs and physical mirrors to enable self-augmentation and provide an immersive MR environment centered around the user. Our system, to the best of our knowledge the first of its kind, estimates the user's pose in the virtual image generated by the mirror using an RGBD camera attached to the HMD and anchors virtual objects to the reflection rather than the user directly. We evaluate our system quantitatively with respect to calibration accuracy and infrared signal degradation effects due to the mirror, and show its potential in applications where large mirrors are already an integral part of the facility. Particularly, we demonstrate its use for virtual fitting rooms, gaming applications, anatomy learning, and personal fitness. In contrast to competing devices such as LCD-equipped smart mirrors, the proposed system consists of only an HMD with RGBD camera and, thus, does not require a prepared environment making it very flexible and generic. In future work, we will aim to investigate how the system can be optimally used for physical rehabilitation and personal training as a promising application.
翻訳日:2022-11-13 03:02:46 公開日:2020-07-06
# 多孔質材料のノイズマイクロトモグラフィー画像における多孔質形状と空間分布に基づく代表成分同定のためのロバスト手法

Robust Technique for Representative Volume Element Identification in Noisy Microtomography Images of Porous Materials Based on Pores Morphology and Their Spatial Distribution ( http://arxiv.org/abs/2007.03035v1 )

ライセンス: Link先を確認
Maxim Grigoriev, Anvar Khafizov, Vladislav Kokhan, Viktor Asadchikov(参考訳) マイクロトモグラフィーは材料調査の強力な方法である。 研究に有用な多孔質媒体の物性を非破壊的に得ることができる。 応用方法の1つは、濾過業界で広く普及している金属セラミックス膜(サーメット)の細孔度、細孔径、表面積、その他のパラメータの計算である。 これらのパラメータは従来の手法とは対照的に同時に計算されるため,マイクロトモグラフィー手法は効率的である。 それでも、マイクロCT再構成画像の計算には時間を要するため、それらを高速化するために代表ボリューム要素を選択する必要がある。 本研究は, ポーシティなどの物理パラメータを考慮せずに, 代表的な初等音量同定に光を当てる。 したがって、ボリューム要素はノイズやグレースケールの画像でも見られる。 提案手法は柔軟であり,異方性試料の場合の体積径を過大評価しない。 得られたボリューム要素は、画像がフィルタリングされバイナライズされた場合の領域の物理特性の計算や、手順を記述するための最適なフィルタリングパラメータの選択に使用できる。

Microtomography is a powerful method of materials investigation. It enables to obtain physical properties of porous media non-destructively that is useful in studies. One of the application ways is a calculation of porosity, pore sizes, surface area, and other parameters of metal-ceramic (cermet) membranes which are widely spread in the filtration industry. The microtomography approach is efficient because all of those parameters are calculated simultaneously in contrast to the conventional techniques. Nevertheless, the calculations on Micro-CT reconstructed images appear to be time-consuming, consequently representative volume element should be chosen to speed them up. This research sheds light on representative elementary volume identification without consideration of any physical parameters such as porosity, etc. Thus, the volume element could be found even in noised and grayscale images. The proposed method is flexible and does not overestimate the volume size in the case of anisotropic samples. The obtained volume element could be used for computations of the domain's physical characteristics if the image is filtered and binarized, or for selections of optimal filtering parameters for denoising procedure.
翻訳日:2022-11-13 03:02:17 公開日:2020-07-06
# MCMI:相互情報制約によるマルチサイクル画像変換

MCMI: Multi-Cycle Image Translation with Mutual Information Constraints ( http://arxiv.org/abs/2007.02919v1 )

ライセンス: Link先を確認
Xiang Xu, Megha Nawhal, Greg Mori, Manolis Savva(参考訳) 教師なし画像間翻訳のための相互情報に基づくフレームワークを提案する。 MCMIでは,入力画像と出力画像間の相互情報制約によって翻訳プロセスが拘束されるマルチサイクル翻訳設定において,単一サイクル画像変換モデルを繰り返し使用可能なモジュールとして扱う。 提案する相互情報制約は、画像翻訳中にマルコフ特性を満たさない翻訳関数を最適化することで、クロスドメインマッピングを改善することができる。 MCMIで訓練したモデルは高品質な画像を生成し、最先端の画像翻訳法と比較して意味論的に関連性のあるマッピングを学習する。 MCMIフレームワークは、最小限の修正を施した既存の画像から画像への翻訳モデルに適用することができる。 定性的実験と知覚的研究は、いくつかのバックボーンモデルと様々な画像データセットを用いて、我々のアプローチの画質改善と一般性を示す。

We present a mutual information-based framework for unsupervised image-to-image translation. Our MCMI approach treats single-cycle image translation models as modules that can be used recurrently in a multi-cycle translation setting where the translation process is bounded by mutual information constraints between the input and output images. The proposed mutual information constraints can improve cross-domain mappings by optimizing out translation functions that fail to satisfy the Markov property during image translations. We show that models trained with MCMI produce higher quality images and learn more semantically-relevant mappings compared to state-of-the-art image translation methods. The MCMI framework can be applied to existing unpaired image-to-image translation models with minimum modifications. Qualitative experiments and a perceptual study demonstrate the image quality improvements and generality of our approach using several backbone models and a variety of image datasets.
翻訳日:2022-11-13 02:55:11 公開日:2020-07-06
# VPN: 日々の生活活動のためのビデオの埋め込み学習

VPN: Learning Video-Pose Embedding for Activities of Daily Living ( http://arxiv.org/abs/2007.03056v1 )

ライセンス: Link先を確認
Srijan Das, Saurav Sharma, Rui Dai, Francois Bremond, Monique Thonnat(参考訳) 本稿では,日常生活活動(ADL)の認識における時空間的側面に着目した。 ADLには2つの特性がある (i)微妙な時空間パターン、及び (ii)時間によって異なる類似の視覚パターン。 したがって、adlはよく似ていて、細かな詳細を見て区別する必要がある。 最近の時空間3D ConvNetは、アクション全体にわたる微妙な視覚パターンをキャプチャするには厳格すぎるため、我々は、新しい Video-Pose Network: VPN を提案する。 このVPNの2つの重要なコンポーネントは、空間埋め込みとアテンションネットワークである。 空間埋め込みは3DポーズとRGBキューを共通の意味空間に投影する。 これにより、アクション認識フレームワークは、両方のモダリティを利用する時空間的特徴をよりよく学習することができる。 類似行動を識別するために、注目ネットワークは2つの機能を提供している。 (i)人体のトポロジーを利用したエンドツーエンド学習可能なポーズバックボーン (ii)ビデオを通して時空間的注意重みを与えるためのカプラ NTU-RGB+D 120、そのサブセットであるNTU-RGB+D 60、実際の人間の活動データセットであるToyota Smarthomeと、小規模の人間とオブジェクトのインタラクションデータセットであるUCLA。

In this paper, we focus on the spatio-temporal aspect of recognizing Activities of Daily Living (ADL). ADL have two specific properties (i) subtle spatio-temporal patterns and (ii) similar visual patterns varying with time. Therefore, ADL may look very similar and often necessitate to look at their fine-grained details to distinguish them. Because the recent spatio-temporal 3D ConvNets are too rigid to capture the subtle visual patterns across an action, we propose a novel Video-Pose Network: VPN. The 2 key components of this VPN are a spatial embedding and an attention network. The spatial embedding projects the 3D poses and RGB cues in a common semantic space. This enables the action recognition framework to learn better spatio-temporal features exploiting both modalities. In order to discriminate similar actions, the attention network provides two functionalities - (i) an end-to-end learnable pose backbone exploiting the topology of human body, and (ii) a coupler to provide joint spatio-temporal attention weights across a video. Experiments show that VPN outperforms the state-of-the-art results for action classification on a large scale human activity dataset: NTU-RGB+D 120, its subset NTU-RGB+D 60, a real-world challenging human activity dataset: Toyota Smarthome and a small scale human-object interaction dataset Northwestern UCLA.
翻訳日:2022-11-13 02:54:34 公開日:2020-07-06
# 画像クラスタリングのための学習埋め込み:三重項損失アプローチの実証的研究

Learning Embeddings for Image Clustering: An Empirical Study of Triplet Loss Approaches ( http://arxiv.org/abs/2007.03123v1 )

ライセンス: Link先を確認
Kalun Ho, Janis Keuper, Franz-Josef Pfreundt and Margret Keuper(参考訳) 本研究では,三重項損失による特徴空間埋め込みの文脈において,k平均クラスタリングと相関クラスタリングという2つの異なる画像クラスタリング目標を評価した。 具体的には,畳み込みニューラルネットワークを訓練し,三重項損失の2つの一般的なバージョンを最適化して識別特徴を学習し,それらのクラスタリング特性を雑音ラベルを仮定して検討する。 さらに,形式的クラスタリングの目的に対して望ましい特性を示し,既存の手法より優れる,新しい単純なトリプルトロスの定式化を提案する。 k-meansの3つの三重項損失式とcifar-10画像分類データセットにおける相関クラスタリングについて評価した。

In this work, we evaluate two different image clustering objectives, k-means clustering and correlation clustering, in the context of Triplet Loss induced feature space embeddings. Specifically, we train a convolutional neural network to learn discriminative features by optimizing two popular versions of the Triplet Loss in order to study their clustering properties under the assumption of noisy labels. Additionally, we propose a new, simple Triplet Loss formulation, which shows desirable properties with respect to formal clustering objectives and outperforms the existing methods. We evaluate all three Triplet loss formulations for K-means and correlation clustering on the CIFAR-10 image classification dataset.
翻訳日:2022-11-13 02:53:46 公開日:2020-07-06
# GateNet:クリックスルーレート予測のためのゲーティング強化ディープネットワーク

GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2007.03519v1 )

ライセンス: Link先を確認
Tongwen Huang, Qingyun She, Zhiqiang Wang, Junlin Zhang(参考訳) 広告やフィードのランキングはfacebookなど多くのインターネット企業にとって不可欠だ。 多くの現実世界の広告やフィードランキングシステムの中で、クリックスルーレート(CTR)予測が中心的な役割を果たす。 近年、多くのニューラルネットワークベースのCTRモデルが提案され、Factization-Machine Supported Neural Networks、DeepFM、xDeepFMなど成功している。 それらの多くは、埋め込み層とMLP隠蔽層という2つのよく使われるコンポーネントを含んでいる。 一方、ゲーティング機構はコンピュータビジョン(CV)や自然言語処理(NLP)といった多くの研究分野にも広く応用されている。 いくつかの研究は、ゲーティング機構が非凸深層ニューラルネットワークのトレーサビリティを向上させることを証明している。 これらの観測から着想を得たGateNetという新しいモデルを提案する。このモデルでは,DNN CTRモデルの埋め込み層に,特徴埋め込みゲートと隠れゲートをそれぞれ導入する。 機能埋め込みゲートは学習可能なフィーチャーゲーティングモジュールを提供し、機能レベルからサルエントな潜在情報を選択する。 隠れたゲートは、モデルが高次相互作用をより効果的にキャプチャするのに役立ちます。 3つの実世界のデータセットで実施された大規模な実験は、FM、DeepFM、xDeepFMといった最先端モデルのすべてのデータセットのパフォーマンスを高める効果を示す。

Advertising and feed ranking are essential to many Internet companies such as Facebook. Among many real-world advertising and feed ranking systems, click through rate (CTR) prediction plays a central role. In recent years, many neural network based CTR models have been proposed and achieved success such as Factorization-Machine Supported Neural Networks, DeepFM and xDeepFM. Many of them contain two commonly used components: embedding layer and MLP hidden layers. On the other side, gating mechanism is also widely applied in many research fields such as computer vision(CV) and natural language processing(NLP). Some research has proved that gating mechanism improves the trainability of non-convex deep neural networks. Inspired by these observations, we propose a novel model named GateNet which introduces either the feature embedding gate or the hidden gate to the embedding layer or hidden layers of DNN CTR models, respectively. The feature embedding gate provides a learnable feature gating module to select salient latent information from the feature-level. The hidden gate helps the model to implicitly capture the high-order interaction more effectively. Extensive experiments conducted on three real-world datasets demonstrate its effectiveness to boost the performance of various state-of-the-art models such as FM, DeepFM and xDeepFM on all datasets.
翻訳日:2022-11-13 02:53:33 公開日:2020-07-06
# 論理学、言語学、計算学

Logic, Language, and Calculus ( http://arxiv.org/abs/2007.02484v1 )

ライセンス: Link先を確認
Florian Richter(参考訳) オブジェクト指向とメタ言語の違いは論理解析に不可欠であるが、コンピュータ科学の分野ではまだ検討されていない。 本稿では, 推論関係に関して, 差異について考察する。 メタ言語の推論関係(命題論理の計算のような)は自然言語の概念的関係を表現できないと論じられている。 推論関係は私たちの概念の使用と理解を支配する。 自然言語理解(NLU)と自然言語推論(NLI)の分野におけるいくつかのアプローチは、この知見を考慮に入れているが、どのように推論を良い推論として評価できるかは考慮しない。 推論の規範的次元を評価する論理的分析法を提案する。これは論理的理解の重要な部分であり、メタ言語の形式的理解を超えたものである。

The difference between object-language and metalanguage is crucial for logical analysis, but has yet not been examined for the field of computer science. In this paper the difference is examined with regard to inferential relations. It is argued that inferential relations in a metalanguage (like a calculus for propositional logic) cannot represent conceptual relations of natural language. Inferential relations govern our concept use and understanding. Several approaches in the field of Natural Language Understanding (NLU) and Natural Language Inference (NLI) take this insight in account, but do not consider, how an inference can be assessed as a good inference. I present a logical analysis that can assesss the normative dimension of inferences, which is a crucial part of logical understanding and goes beyond formal understanding of metalanguages.
翻訳日:2022-11-13 02:53:12 公開日:2020-07-06
# 推論とモーダル語彙

Inferences and Modal Vocabulary ( http://arxiv.org/abs/2007.02487v1 )

ライセンス: Link先を確認
Florian Richter(参考訳) 推論は推論の主要な形式の一つであり、形式論理学で一般的に用いられる。 この種の推論は単調性の特徴を持ち、問題となる可能性がある。 単調でない推論には様々な種類があり、例えば帰納的推論がある。 誘拐を有用な手段として批判する支持者と批評家の間での議論はこの問題に沿って再構築され、誘惑的推論がどのように一つの仮説を最良のものとして選ぶかが示される。 しかし、どうやって推論の良さを評価するのか? 材料推論は、材料不適合性の原理に基づいて良い推論を表現する。 物質的推論は、推論関係の論理的表現性を高める様相語彙に基づいている。 これはまた、機械学習におけるラベリングの適用に一定の制限をもたらす。 概念的関係を表現するための意味の様相解釈を提案する。

Deduction is the one of the major forms of inferences and commonly used in formal logic. This kind of inference has the feature of monotonicity, which can be problematic. There are different types of inferences that are not monotonic, e.g. abductive inferences. The debate between advocates and critics of abduction as a useful instrument can be reconstructed along the issue, how an abductive inference warrants to pick out one hypothesis as the best one. But how can the goodness of an inference be assessed? Material inferences express good inferences based on the principle of material incompatibility. Material inferences are based on modal vocabulary, which enriches the logical expressivity of the inferential relations. This leads also to certain limits in the application of labeling in machine learning. I propose a modal interpretation of implications to express conceptual relations.
翻訳日:2022-11-13 02:53:00 公開日:2020-07-06
# 教師なし適応オブジェクト検出のためのドメイン分類バンクの学習

Learning a Domain Classifier Bank for Unsupervised Adaptive Object Detection ( http://arxiv.org/abs/2007.02595v1 )

ライセンス: Link先を確認
Sanli Tang, Zhanzhan Cheng, Shiliang Pu, Dashan Guo, Yi Niu and Fei Wu(参考訳) 実際のアプリケーションでは、ディープネットワークに基づくオブジェクト検出は、ラベル付きトレーニングデータとラベルなしテストデータの間の大きなドメインギャップの課題に直面している。 ギャップを減らすために, 画像/インスタンスレベルの特徴をソースドメインと未ラベルのターゲットドメインに整列させることにより, 最新の手法を提案する。 しかし、これらの手法は、主にオブジェクトインスタンスのカテゴリ情報を無視するため、最適以下の問題に悩まされる。 この問題に対処するため、ドメイン分類器バンクを設計したドメイン分類器を用いて、カテゴリに応じたインスタンスレベルのアライメントを実現する。 具体的には,まず平均教師パラダイムを用いてラベルなしサンプルの擬似ラベルを生成する。 次に、クラスレベルのドメイン分類器を実装してそれらをグループ化し、ドメイン分類器バンクと呼ばれ、それぞれのドメイン分類器が特定のクラスの機能の整合を担います。 提案する細粒度領域アライメント機構を適応検出器としてベアオブジェクト検出器を組み立て,それをクロスクロス適応重み付け機構で最適化する。 3つの一般的な転送ベンチマークに関する大規模な実験は,本手法の有効性を実証し,新しい最先端技術を実現する。

In real applications, object detectors based on deep networks still face challenges of the large domain gap between the labeled training data and unlabeled testing data. To reduce the gap, recent techniques are proposed by aligning the image/instance-level features between source and unlabeled target domains. However, these methods suffer from the suboptimal problem mainly because of ignoring the category information of object instances. To tackle this issue, we develop a fine-grained domain alignment approach with a well-designed domain classifier bank that achieves the instance-level alignment respecting to their categories. Specifically, we first employ the mean teacher paradigm to generate pseudo labels for unlabeled samples. Then we implement the class-level domain classifiers and group them together, called domain classifier bank, in which each domain classifier is responsible for aligning features of a specific class. We assemble the bare object detector with the proposed fine-grained domain alignment mechanism as the adaptive detector, and optimize it with a developed crossed adaptive weighting mechanism. Extensive experiments on three popular transferring benchmarks demonstrate the effectiveness of our method and achieve the new remarkable state-of-the-arts.
翻訳日:2022-11-13 02:46:21 公開日:2020-07-06
# 平面領域のコンセンサスに基づく画像ステッチング

Image Stitching Based on Planar Region Consensus ( http://arxiv.org/abs/2007.02722v1 )

ライセンス: Link先を確認
Aocheng Li, Jie Guo, Yanwen Guo(参考訳) グローバルな変換なしに2つの画像を縫い合わせることは、非常に難しい。 本稿では,視点幾何学における平面構造の重要性に着目し,マッチングされた平面領域のアライメントを可能にすることにより,画像を縫い合わせる新しい画像縫い付け手法を提案する。 平面分割を利用した従来の手法と明らかに異なるのは、RGB画像から直接リッチな意味情報を利用して、深層畳み込みニューラルネットワーク(CNN)を用いて平面画像領域を抽出することである。 具体的には,既存のセマンティックセグメンテーションネットワークを完全に活用して,平面セグメンテーションに対応する新しいモジュールを設計する。 ネットワークをトレーニングするために、平面領域セグメンテーション用のデータセットを寄贈する。 平面領域知識により、一致した領域を制約し、重なり合う領域をより正確にアライメントすることで、一連の局所変換を得ることができる。 また,平面知識を用いて画像全体の変換フィールドを推定する。 最後のモザイクはメッシュベースの最適化フレームワークで得られ、高いアライメント精度を維持し、類似性変換を同時に緩和する。 定量的比較による広範囲な実験により,本手法は異なる状況に対処でき,課題場面の最先端を上回ることができることを示した。

Image stitching for two images without a global transformation between them is notoriously difficult. In this paper, noticing the importance of planar structure under perspective geometry, we propose a new image stitching method which stitches images by allowing for the alignment of a set of matched dominant planar regions. Clearly different from previous methods resorting to plane segmentation, the key to our approach is to utilize rich semantic information directly from RGB images to extract planar image regions with a deep Convolutional Neural Network (CNN). We specifically design a new module to make fully use of existing semantic segmentation networks to accommodate planar segmentation. To train the network, a dataset for planar region segmentation is contributed. With the planar region knowledge, a set of local transformations can be obtained by constraining matched regions, enabling more precise alignment in the overlapping area. We also use planar knowledge to estimate a transformation field over the whole image. The final mosaic is obtained by a mesh-based optimization framework which maintains high alignment accuracy and relaxes similarity transformation at the same time. Extensive experiments with quantitative comparisons show that our method can deal with different situations and outperforms the state-of-the-arts on challenging scenes.
翻訳日:2022-11-13 02:44:52 公開日:2020-07-06
# ジャンプオペレータープランニング:ゴールコンディショニングポリシーアンサンブルとゼロショット転送

Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot Transfer ( http://arxiv.org/abs/2007.02527v1 )

ライセンス: Link先を確認
Thomas J. Ringstrom, Mohammadhosein Hasanbeig, Alessandro Abate(参考訳) 階層制御では、構成性、抽象化、タスクトランスファーは、最大表現再利用で様々な問題を解決できる汎用アルゴリズムの設計に不可欠である。 本稿では,命令制約を伴う逐次サブゴールタスクの超指数空間における解を高速に計算する,Jump-Operator Dynamic Programmingと呼ばれる新しい階層的・構成的フレームワークを提案する。 このアプローチでは、時間的に拡張された行動として機能する再利用可能な目標条件付き警察のアンサンブルを制御し、警察の初期から最終状態のダイナミクスを要約するために使用されるファシビリティ機能と呼ばれる遷移演算子を利用する。 これにより、接地によって定義される低次元部分空間を最適化し、転送可能な解に影響を与えながらアルゴリズムのスケーラビリティを実質的に向上させることにより、高レベルなタスク空間をより大きな環境空間に接地する複雑さを軽減できる。 次に、この部分空間上の対象関数のクラスを同定し、その解は接地に不変であり、最適なゼロショット転送となる。

In Hierarchical Control, compositionality, abstraction, and task-transfer are crucial for designing versatile algorithms which can solve a variety of problems with maximal representational reuse. We propose a novel hierarchical and compositional framework called Jump-Operator Dynamic Programming for quickly computing solutions within a super-exponential space of sequential sub-goal tasks with ordering constraints, while also providing a fast linearly-solvable algorithm as an implementation. This approach involves controlling over an ensemble of reusable goal-conditioned polices functioning as temporally extended actions, and utilizes transition operators called feasibility functions, which are used to summarize initial-to-final state dynamics of the polices. Consequently, the added complexity of grounding a high-level task space onto a larger ambient state-space can be mitigated by optimizing in a lower-dimensional subspace defined by the grounding, substantially improving the scalability of the algorithm while effecting transferable solutions. We then identify classes of objective functions on this subspace whose solutions are invariant to the grounding, resulting in optimal zero-shot transfer.
翻訳日:2022-11-13 02:37:41 公開日:2020-07-06
# パフォーマンス報告標準によるAIベンチマークのゲームプレイに向けて

Towards Game-Playing AI Benchmarks via Performance Reporting Standards ( http://arxiv.org/abs/2007.02742v1 )

ライセンス: Link先を確認
Vanessa Volz and Boris Naujoks(参考訳) ゲームは、ゲームプレイングAIを評価するマイルストーンとして広く使用されているが、得られた観察を報告するための標準化されたフレームワークは存在しない。 結果として、異なるゲームプレイングaiアルゴリズムの強みと弱みに関する一般的な結論を引き出すのは難しいままである。 本稿では,AIゲームプレイパフォーマンスの報告ガイドラインを提案し,従えば,異なるAIアプローチ間の非バイアス比較に適した情報を提供する。 私たちが説明するビジョンは、異なるAIアルゴリズムの振る舞いと異なるゲームがもたらす課題のタイプについて、より一般的な結論を導き出すために、そのようなガイドラインに基づいたベンチマークとコンペを構築することです。

While games have been used extensively as milestones to evaluate game-playing AI, there exists no standardised framework for reporting the obtained observations. As a result, it remains difficult to draw general conclusions about the strengths and weaknesses of different game-playing AI algorithms. In this paper, we propose reporting guidelines for AI game-playing performance that, if followed, provide information suitable for unbiased comparisons between different AI approaches. The vision we describe is to build benchmarks and competitions based on such guidelines in order to be able to draw more general conclusions about the behaviour of different AI algorithms, as well as the types of challenges different games pose.
翻訳日:2022-11-13 02:37:19 公開日:2020-07-06
# 人工知能を用いた冠動脈疾患診断支援システム

Diagnosis of Coronary Artery Disease Using Artificial Intelligence Based Decision Support System ( http://arxiv.org/abs/2007.02854v1 )

ライセンス: Link先を確認
Noor Akhmad Setiawan, Paruvachi Ammasai Venkatachalam, Ahmad Fadzil M Hani(参考訳) 本研究は,エビデンスに基づく冠動脈疾患診断のためのファジィ判定支援システムの開発について述べる。 カリフォルニア大学アーバイン校(UCI)の冠動脈疾患データセットを用いる。 ファジィ意思決定支援システムの知識基盤は、ラフセット理論に基づくルール抽出法を用いて決定される。 ルールは、数値属性の離散化の情報に基づいて選択され、融合される。 抽出された規則の支持情報を用いてファジィルールウェイトを提案する。 米国、スイス、ハンガリーから収集されたUCI心疾患データセットを用いて、提案されたシステムを検証する。 その結果,循環器科医や血管造影より冠動脈閉塞の比率が良好であることが判明した。 提案システムの結果は,3人の専門医によって検証・検証され,より効率的かつ有用と考えられる。

This research is about the development a fuzzy decision support system for the diagnosis of coronary artery disease based on evidence. The coronary artery disease data sets taken from University California Irvine (UCI) are used. The knowledge base of fuzzy decision support system is taken by using rules extraction method based on Rough Set Theory. The rules then are selected and fuzzified based on information from discretization of numerical attributes. Fuzzy rules weight is proposed using the information from support of extracted rules. UCI heart disease data sets collected from U.S., Switzerland and Hungary, data from Ipoh Specialist Hospital Malaysia are used to verify the proposed system. The results show that the system is able to give the percentage of coronary artery blocking better than cardiologists and angiography. The results of the proposed system were verified and validated by three expert cardiologists and are considered to be more efficient and useful.
翻訳日:2022-11-13 02:37:07 公開日:2020-07-06
# 知的人工知能チームにおける異種戦略の自然発生

Natural Emergence of Heterogeneous Strategies in Artificially Intelligent Competitive Teams ( http://arxiv.org/abs/2007.03102v1 )

ライセンス: Link先を確認
Ankur Deka and Katia Sycara(参考訳) 混合協調競争環境におけるマルチエージェント戦略は、各エージェントが相手と競合しながらチームメイトと協調する必要があるため、手で作るのが困難である。 学習ベースのアルゴリズムは魅力的だが、多くのシナリオでは、チームの成功のために異種エージェントの振る舞いを必要とするため、学習アルゴリズムの複雑さが増大する。 本研究では,2つのチームが対戦するfortattackと呼ばれる競合型マルチエージェント環境を構築した。 グラフニューラルネットワークでエージェントをモデリングし、強化学習でそれらをトレーニングすることで、各チームにとってますます複雑な戦略の進化につながります。 このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。 均質なエージェントからのこのような不均一な振る舞いは、テスト時に他のエージェントの役割を置き換えることができるため、魅力的である。 最後に,親和性のあるエージェントに対する単一ポリシーを訓練するために,進化した敵戦略を利用するアンサンブルトレーニングを提案する。

Multi agent strategies in mixed cooperative-competitive environments can be hard to craft by hand because each agent needs to coordinate with its teammates while competing with its opponents. Learning based algorithms are appealing but many scenarios require heterogeneous agent behavior for the team's success and this increases the complexity of the learning algorithm. In this work, we develop a competitive multi agent environment called FortAttack in which two teams compete against each other. We corroborate that modeling agents with Graph Neural Networks and training them with Reinforcement Learning leads to the evolution of increasingly complex strategies for each team. We observe a natural emergence of heterogeneous behavior amongst homogeneous agents when such behavior can lead to the team's success. Such heterogeneous behavior from homogeneous agents is appealing because any agent can replace the role of another agent at test time. Finally, we propose ensemble training, in which we utilize the evolved opponent strategies to train a single policy for friendly agents.
翻訳日:2022-11-13 02:36:54 公開日:2020-07-06
# ビデオゲームにおける動的難易度調整の探索

Exploring Dynamic Difficulty Adjustment in Videogames ( http://arxiv.org/abs/2007.07220v1 )

ライセンス: Link先を確認
Gabriel K. Sepulveda, Felipe Besoain, and Nicolas A. Barriga(参考訳) 現在、ビデオゲームは世界最大のエンターテイメント産業の一つである。 この業界の一員であることは、他の多くの企業や開発者と競争することであり、ファンベースは極めて重要である。 ビデオゲームが楽しいので、常にあなたの会社をサポートするクライアントのグループです。 ビデオゲームは、難易度レベルがプレイヤーのスキルに良いマッチであるときに最も面白く、プレイヤーのエンゲージメントを増加させる。 しかし、全てのプレイヤーが等しく熟練しているわけではないため、選択が困難である。 本稿では,最近の研究課題である動的難易度調整(DDA)について紹介する。 本稿では,この問題に対する最近の研究と実装方法について概説する。 DDA問題を満足して解決することは、プレイヤーのプレイ経験に直接影響を与え、プレイヤーの保持と収益化に影響を与える可能性があるため、独立企業から1000億ドルのビジネスまで、あらゆるゲーム開発者にとって高い関心を持つ。

Videogames are nowadays one of the biggest entertainment industries in the world. Being part of this industry means competing against lots of other companies and developers, thus, making fanbases of vital importance. They are a group of clients that constantly support your company because your video games are fun. Videogames are most entertaining when the difficulty level is a good match for the player's skill, increasing the player engagement. However, not all players are equally proficient, so some kind of difficulty selection is required. In this paper, we will present Dynamic Difficulty Adjustment (DDA), a recently arising research topic, which aims to develop an automated difficulty selection mechanism that keeps the player engaged and properly challenged, neither bored nor overwhelmed. We will present some recent research addressing this issue, as well as an overview of how to implement it. Satisfactorily solving the DDA problem directly affects the player's experience when playing the game, making it of high interest to any game developer, from independent ones, to 100 billion dollar businesses, because of the potential impacts in player retention and monetization.
翻訳日:2022-11-13 02:36:39 公開日:2020-07-06
# 格闘ゲームにおける行動アルゴリズム入門

Introduction to Behavior Algorithms for Fighting Games ( http://arxiv.org/abs/2007.12586v1 )

ライセンス: Link先を確認
Ignacio Gajardo, Felipe Besoain, and Nicolas A. Barriga(参考訳) 対戦型ビデオゲームにおける人工知能(AI)の質は重要である。 他のゲームジャンルはストーリーやビジュアルに頼りがちだが、対戦ゲームは敵の体験にのみ依存する。 本稿では,Finite-State Machines や Behavior Trees などのゲームにおける標準的な動作アルゴリズムと,モンテカルロ木探索などの最近の開発について紹介する。 また、これらのアルゴリズムの既存および潜在的組み合わせについて、またゲームにどのように使用されるかについても論じる。 我々は、カジュアルプレイヤーとトーナメントの両方において、ファイティングゲームが金融的にピークを迎えているため、この成長する市場の柱のひとつとして、ファイティングゲームAIの構築と拡大が重要である。

The quality of opponent Artificial Intelligence (AI) in fighting videogames is crucial. Some other game genres can rely on their story or visuals, but fighting games are all about the adversarial experience. In this paper, we will introduce standard behavior algorithms in videogames, such as Finite-State Machines and Behavior Trees, as well as more recent developments, such as Monte-Carlo Tree Search. We will also discuss the existing and potential combinations of these algorithms, and how they might be used in fighting games. Since we are at the financial peak of fighting games, both for casual players and in tournaments, it is important to build and expand on fighting game AI, as it is one of the pillars of this growing market.
翻訳日:2022-11-13 02:36:19 公開日:2020-07-06
# ロボット手術映像からの半教師あり機器セグメンテーションのための運動流の学習

Learning Motion Flows for Semi-supervised Instrument Segmentation from Robotic Surgical Video ( http://arxiv.org/abs/2007.02501v1 )

ライセンス: Link先を確認
Zixu Zhao, Yueming Jin, Xiaojie Gao, Qi Dou, Pheng-Ann Heng(参考訳) 手術ビデオの低ヘルツラベリングを一定間隔で行うと、外科医の負担を大幅に軽減できる。 本稿では,スパースアノテーションを用いたロボット手術ビデオから半教師あり楽器のセグメンテーションについて検討する。 ラベル付きフレームを個別に使用する従来の方法とは異なり、時間的ダイナミクスを利用してセグメント化強化のための動作フローを賢く学習するデュアルモーションベース手法を提案する。 まず, 流れ予測器の設計を行い, 現行のラベル付きフレームに対して, フレームラベルペアを協調的に伝搬する動作を導出する。 さらに,高速な計測動作を考慮し,連続フレーム内の中間運動を推定するフロー補償器を,新しいサイクル学習戦略で導入する。 生成したデータペアを活用することで、トレーニングシーケンスの時間的一貫性を回復し、さらにはセグメンテーションの恩恵を受けることができます。 私たちは、2017 MICCAI EndoVis Robotic Instrument Segmentation Challengeデータセット上で、バイナリ、パート、タイプタスクでフレームワークを検証する。 その結果,本手法は最先端の半教師付き手法を高いマージンで上回り,さらに2つのタスクで完全に教師付きトレーニングを超越していることがわかった。

Performing low hertz labeling for surgical videos at intervals can greatly releases the burden of surgeons. In this paper, we study the semi-supervised instrument segmentation from robotic surgical videos with sparse annotations. Unlike most previous methods using unlabeled frames individually, we propose a dual motion based method to wisely learn motion flows for segmentation enhancement by leveraging temporal dynamics. We firstly design a flow predictor to derive the motion for jointly propagating the frame-label pairs given the current labeled frame. Considering the fast instrument motion, we further introduce a flow compensator to estimate intermediate motion within continuous frames, with a novel cycle learning strategy. By exploiting generated data pairs, our framework can recover and even enhance temporal consistency of training sequences to benefit segmentation. We validate our framework with binary, part, and type tasks on 2017 MICCAI EndoVis Robotic Instrument Segmentation Challenge dataset. Results show that our method outperforms the state-of-the-art semi-supervised methods by a large margin, and even exceeds fully supervised training on two tasks.
翻訳日:2022-11-13 02:35:46 公開日:2020-07-06
# 複雑問合せビデオ検索のための木型クロスモーダル符号化

Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval ( http://arxiv.org/abs/2007.02503v1 )

ライセンス: Link先を確認
Xun Yang, Jianfeng Dong, Yixin Cao, Xun Wang, Meng Wang, Tat-Seng Chua(参考訳) インターネット上のユーザー生成ビデオの急速な成長は、テキストベースのビデオ検索システムの必要性を高めた。 従来の手法は主に単純なクエリによる検索に関する概念に基づくパラダイムを好んでおり、通常はより複雑なセマンティックスを持つ複雑なクエリには効果がない。 近年,組込み型パラダイムが普及している。 クエリとビデオを、意味的に類似したテキストとビデオが互いにより近い共有埋め込み空間にマップすることを目指している。 その単純さにもかかわらず、テキストクエリの構文構造の利用を禁止し、複雑なクエリをモデル化するのに最適である。 複雑なクエリによるビデオ検索を容易にするために,クエリの言語構造とビデオの時間的表現を共同で学習する木拡張クロスモーダルエンコーディング手法を提案する。 具体的には、複雑なユーザクエリを前提として、テキストクエリを構造的に記述する潜在セマンティックツリーを再帰的に作成する。 次に,構造認識型問合せ表現を導出する木型問合せエンコーダと,映像の時間特性をモデル化する時間的注意映像エンコーダを設計した。 最後に、クエリとビデオの両方を、マッチングとランキングのための共同埋め込みスペースにマッピングする。 このアプローチでは,複雑なクエリの理解とモデリングが向上し,ビデオ検索性能が向上する。 大規模ビデオ検索ベンチマークデータセットの大規模な実験により,本手法の有効性が示された。

The rapid growth of user-generated videos on the Internet has intensified the need for text-based video retrieval systems. Traditional methods mainly favor the concept-based paradigm on retrieval with simple queries, which are usually ineffective for complex queries that carry far more complex semantics. Recently, embedding-based paradigm has emerged as a popular approach. It aims to map the queries and videos into a shared embedding space where semantically-similar texts and videos are much closer to each other. Despite its simplicity, it forgoes the exploitation of the syntactic structure of text queries, making it suboptimal to model the complex queries. To facilitate video retrieval with complex queries, we propose a Tree-augmented Cross-modal Encoding method by jointly learning the linguistic structure of queries and the temporal representation of videos. Specifically, given a complex user query, we first recursively compose a latent semantic tree to structurally describe the text query. We then design a tree-augmented query encoder to derive structure-aware query representation and a temporal attentive video encoder to model the temporal characteristics of videos. Finally, both the query and videos are mapped into a joint embedding space for matching and ranking. In this approach, we have a better understanding and modeling of the complex queries, thereby achieving a better video retrieval performance. Extensive experiments on large scale video retrieval benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-13 02:35:25 公開日:2020-07-06
# EDSL: 記号レベル特徴を持つエンコーダデコーダアーキテクチャによる数式認識

EDSL: An Encoder-Decoder Architecture with Symbol-Level Features for Printed Mathematical Expression Recognition ( http://arxiv.org/abs/2007.02517v1 )

ライセンス: Link先を確認
Yingnan Fu, Tingting Liu, Ming Gao, Aoying Zhou(参考訳) print mathematical expression recognition (pmer) は、印刷された数学的表現画像をラテックス表現のような構造的表現に転写することを目的としている。 これは、自動質問推薦、自動問題解決、学生の分析など、多くのアプリケーションにとって重要なタスクである。 現在主流のソリューションは、画像の要約に対処するイメージキャプションタスクの解決に依存している。 したがって、これらの手法はMER問題の解法に最適である。 本稿では,シンボルレベルの特徴を持つエンコーダデコーダを短縮し,画像から印刷された数式を識別する,edslという新しい手法を提案する。 EDSLのシンボルレベル画像エンコーダは、セグメンテーションモジュールと再構成モジュールで構成される。 セグメンテーションモジュールを実行することで、すべてのシンボルとその空間情報を教師なしの方法で画像から識別する。 次に,シンボルセグメンテーション後のシンボル依存を回復するための新しい再構築モジュールを設計する。 特に,シンボル間の空間的関係を捉えるために位置補正注意機構を用いる。 長出力からの負の影響を緩和するために,エンコードされた画像を逐次出力および構造出力に変換するトランスモデルを適用する。 提案手法の有効性と合理性を検証するため,2つの実データを用いた広範囲な実験を行った。 実験結果から,EDSLは評価基準マッチングにおいて92.7.%,89.0.%を達成しており,これは最先端法よりも3.47.%,4.04.%高い結果となった。 私たちのコードとデータセットはhttps://github.com/abcAnonymous/EDSL で公開されています。

Printed Mathematical expression recognition (PMER) aims to transcribe a printed mathematical expression image into a structural expression, such as LaTeX expression. It is a crucial task for many applications, including automatic question recommendation, automatic problem solving and analysis of the students, etc. Currently, the mainstream solutions rely on solving image captioning tasks, all addressing image summarization. As such, these methods can be suboptimal for solving MER problem. In this paper, we propose a new method named EDSL, shorted for encoder-decoder with symbol-level features, to identify the printed mathematical expressions from images. The symbol-level image encoder of EDSL consists of segmentation module and reconstruction module. By performing segmentation module, we identify all the symbols and their spatial information from images in an unsupervised manner. We then design a novel reconstruction module to recover the symbol dependencies after symbol segmentation. Especially, we employ a position correction attention mechanism to capture the spatial relationships between symbols. To alleviate the negative impact from long output, we apply the transformer model for transcribing the encoded image into the sequential and structural output. We conduct extensive experiments on two real datasets to verify the effectiveness and rationality of our proposed EDSL method. The experimental results have illustrated that EDSL has achieved 92.7\% and 89.0\% in evaluation metric Match, which are 3.47\% and 4.04\% higher than the state-of-the-art method. Our code and datasets are available at https://github.com/abcAnonymous/EDSL .
翻訳日:2022-11-13 02:35:03 公開日:2020-07-06
# 動詞の広義の深い意味の語彙

A Broad-Coverage Deep Semantic Lexicon for Verbs ( http://arxiv.org/abs/2007.02670v1 )

ライセンス: Link先を確認
James Allen, Hannah An, Ritwik Bose, Will de Beaumont and Choh Man Teng(参考訳) 深層言語理解の進展は、言語行動と存在論的概念と公理をつなぐ広い範囲の語彙の欠如によって抑制される。 我々は、wordnetと既存のリソースを満たし、あるいは超えた構文的および意味的詳細をカバーする、動詞の深い語彙的リソースである collie-v を開発した。 手作りの辞書とオントロジーからのブートストラップ、新しい存在論的概念と語彙的エントリ、セマンティックな役割選好とentailment axiomsは、辞書の定義や例を解析することで複数の制約を組み合わせることで自動的に導出される。 本手法の精度を複数の異なる次元に沿って評価し,新しい概念や語彙項目の導出において高い精度を得ることができた。 COLLIE-Vは一般公開されている。

Progress on deep language understanding is inhibited by the lack of a broad coverage lexicon that connects linguistic behavior to ontological concepts and axioms. We have developed COLLIE-V, a deep lexical resource for verbs, with the coverage of WordNet and syntactic and semantic details that meet or exceed existing resources. Bootstrapping from a hand-built lexicon and ontology, new ontological concepts and lexical entries, together with semantic role preferences and entailment axioms, are automatically derived by combining multiple constraints from parsing dictionary definitions and examples. We evaluated the accuracy of the technique along a number of different dimensions and were able to obtain high accuracy in deriving new concepts and lexical entries. COLLIE-V is publicly available.
翻訳日:2022-11-13 02:28:05 公開日:2020-07-06
# 並列文を用いないバイリンガル辞書に基づくニューラルマシン翻訳

Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences ( http://arxiv.org/abs/2007.02671v1 )

ライセンス: Link先を確認
Xiangyu Duan, Baijun Ji, Hao Jia, Min Tan, Min Zhang, Boxing Chen, Weihua Luo and Yue Zhang(参考訳) 本稿では,機械翻訳の新しいタスクを提案する。これは,並列文をベースとせず,二言語辞書を参照することができる。 本研究は,多言語辞書を検索して翻訳する単言語話者学習の能力に動機づけられ,並列文に依存しながら,多言語辞書と大規模単言語コーパスを用いてmtシステムがどの程度の能力が得られるかを確認するタスクを提案する。 我々は,課題に取り組むためのアンカートレーニング(at)を提案する。 ATはバイリンガル辞書を使用して、ソース言語とターゲット言語の間のギャップを埋めるためのアンカリングポイントを確立する。 様々な言語対の実験から,辞書ベースの単語翻訳,辞書による言語間単語埋め込み変換,教師なしMTの非教師なしMTの動作が困難である遠隔言語対において,ATは,4M以上のパラレル文で訓練された教師付きSMTに匹敵する性能を達成し,その性能を著しく向上することを示す。

In this paper, we propose a new task of machine translation (MT), which is based on no parallel sentences but can refer to a ground-truth bilingual dictionary. Motivated by the ability of a monolingual speaker learning to translate via looking up the bilingual dictionary, we propose the task to see how much potential an MT system can attain using the bilingual dictionary and large scale monolingual corpora, while is independent on parallel sentences. We propose anchored training (AT) to tackle the task. AT uses the bilingual dictionary to establish anchoring points for closing the gap between source language and target language. Experiments on various language pairs show that our approaches are significantly better than various baselines, including dictionary-based word-by-word translation, dictionary-supervised cross-lingual word embedding transformation, and unsupervised MT. On distant language pairs that are hard for unsupervised MT to perform well, AT performs remarkably better, achieving performances comparable to supervised SMT trained on more than 4M parallel sentences.
翻訳日:2022-11-13 02:27:51 公開日:2020-07-06
# 多項ネイブベイを用いたベンガル書評における感情極性検出

Sentiment Polarity Detection on Bengali Book Reviews Using Multinomial Naive Bayes ( http://arxiv.org/abs/2007.02758v1 )

ライセンス: Link先を確認
Eftekhar Hossain, Omar Sharif and Mohammed Moshiul Hoque(参考訳) 近年,オンラインプラットフォームにおける顧客の意見やレビューの膨大な利用により,NLP研究者に対する感情極性検出が注目されている。 eコマースサイトの継続的な拡大により、書籍を含む様々な商品の購入率は人々の間で大きく伸びている。 読者の意見/レビューは、ほとんどの場合、顧客の購入決定に影響する。 本研究は,ベンガル書評から感情極性(肯定的,否定的)を決定する機械学習に基づく手法を提案する。 提案手法の有効性を評価するため,ベンガル語本を2000点レビューしたコーパスを開発した。 様々なアプローチ(ロジスティック回帰、単純ベイズ、SVM、SGDなど)との比較分析も、ユニグラム、ビッグラム、トリグラムの特徴を考慮して行われた。 実験の結果,ユニグラム特徴の多項ベイズは,他の手法よりも84%精度で優れていることがわかった。

Recently, sentiment polarity detection has increased attention to NLP researchers due to the massive availability of customer's opinions or reviews in the online platform. Due to the continued expansion of e-commerce sites, the rate of purchase of various products, including books, are growing enormously among the people. Reader's opinions/reviews affect the buying decision of a customer in most cases. This work introduces a machine learning-based technique to determine sentiment polarities (either positive or negative category) from Bengali book reviews. To assess the effectiveness of the proposed technique, a corpus with 2000 reviews on Bengali books is developed. A comparative analysis with various approaches (such as logistic regression, naive Bayes, SVM, and SGD) also performed by taking into consideration of the unigram, bigram, and trigram features, respectively. Experimental result reveals that the multinomial Naive Bayes with unigram feature outperforms the other techniques with 84% accuracy on the test set.
翻訳日:2022-11-13 02:27:29 公開日:2020-07-06
# 2ギガワード以上のczeng 2.0並列コーパスを発表

Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords ( http://arxiv.org/abs/2007.03006v1 )

ライセンス: Link先を確認
Tom Kocmi, Martin Popel, Ondrej Bojar(参考訳) チェコ英語の並列コーパスczeng 2.0を新たにリリースし,各言語に20億語以上の単語 (2つの"gigawords") を格納した。 コーパスは文書レベルの情報を含み、ノイズの量を減らすためにいくつかのテクニックでフィルタリングされる。 以前のバージョンのCzEngのデータに加えて、新しい認証データと高品質な合成並列データを含んでいる。 CzEngは研究と教育目的で無料で利用できる。

We present a new release of the Czech-English parallel corpus CzEng 2.0 consisting of over 2 billion words (2 "gigawords") in each language. The corpus contains document-level information and is filtered with several techniques to lower the amount of noise. In addition to the data in the previous version of CzEng, it contains new authentic and also high-quality synthetic parallel data. CzEng is freely available for research and educational purposes.
翻訳日:2022-11-13 02:26:34 公開日:2020-07-06
# 低エネルギーバリアー磁気を用いた貯留層計算ハードウェアの構築

Building Reservoir Computing Hardware Using Low Energy-Barrier Magnetics ( http://arxiv.org/abs/2007.02766v1 )

ライセンス: Link先を確認
Samiran Ganguly, Avik W. Ghosh(参考訳) 生物にインスパイアされたリカレントニューラルネットワーク、例えば貯水池コンピュータは、単純な学習方式とカルマンフィルタとの深い接続のため、ハードウェアの観点から時空間データプロセッサを設計することに関心がある。 本研究では,低エネルギーバリア磁石を用いた磁気トンネル接合と数個のトランジスタから構築したアナログ確率ニューロンを用いて,ハードウェア・サイバリング・コンピュータを構築する方法の詳細なシミュレーションを用いて検討する。 これにより、貯水池コンピュータの数学的モデルの物理的具体化を実現することができる。 このような装置を用いたリザーバコンピュータのコンパクトな実装は、エッジデバイスにおけるスタンドアロンまたはその場機械認識のための、コンパクトでエネルギー効率の良い信号プロセッサを構築することができる。

Biologically inspired recurrent neural networks, such as reservoir computers are of interest in designing spatio-temporal data processors from a hardware point of view due to the simple learning scheme and deep connections to Kalman filters. In this work we discuss using in-depth simulation studies a way to construct hardware reservoir computers using an analog stochastic neuron cell built from a low energy-barrier magnet based magnetic tunnel junction and a few transistors. This allows us to implement a physical embodiment of the mathematical model of reservoir computers. Compact implementation of reservoir computers using such devices may enable building compact, energy-efficient signal processors for standalone or in-situ machine cognition in edge devices.
翻訳日:2022-11-13 02:26:12 公開日:2020-07-06
# 理由の空間と数学的モデル

Space of Reasons and Mathematical Model ( http://arxiv.org/abs/2007.02489v1 )

ライセンス: Link先を確認
Florian Richter(参考訳) 推論関係は私たちの概念の使用を左右する。 概念を理解するためには、意味のある空間に配置する必要がある。 ステートメントには様々な種類の条件があり、例えば、条件が異なる種類の説明、例えば因果的説明や概念的説明を表す。 重要な質問は: 言語の使用条件はどのように表現できるのか。 モデルにおける表現の概念的背景について議論し,最後に,提案論理と概念的決定がニューラルネットワークのモデルにどのように反映されるかを提案する。

Inferential relations govern our concept use. In order to understand a concept it has to be located in a space of implications. There are different kinds of conditions for statements, i.e. that the conditions represent different kinds of explanations, e.g. causal or conceptual explanations. The crucial questions is: How can the conditionality of language use be represented. The conceptual background of representation in models is discussed and in the end I propose how implications of propositional logic and conceptual determinations can be represented in a model of a neural network.
翻訳日:2022-11-13 02:25:59 公開日:2020-07-06
# Carbon Tracker: 深層学習モデルのカーボンフットプリントの追跡と予測

Carbontracker: Tracking and Predicting the Carbon Footprint of Training Deep Learning Models ( http://arxiv.org/abs/2007.03051v1 )

ライセンス: Link先を確認
Lasse F. Wolff Anthony, Benjamin Kanding, Raghavendra Selvan(参考訳) ディープラーニング(DL)は、さまざまなタスクで印象的な結果を得ることができるが、特殊なハードウェアアクセラレーターで広範囲にわたるトレーニングモデルのコストがかかることが多い。 このエネルギー集約型ワークロードは近年大きく成長している。 この指数的な傾向が続くと、機械学習(ML)は気候変動に重要な貢献をする可能性がある。 実践者が自分のエネルギーと炭素の足跡を知っていれば、可能な限り減らすために積極的に行動するかもしれない。 本研究では,学習用DLモデルのエネルギーおよび炭素フットプリントを追跡し,予測するツールであるCarbontrackerを紹介する。 モデル開発とトレーニングのエネルギーとカーボンフットプリントを,carbontrackerなどのツールを用いたパフォーマンス指標とともに報告する。 これはMLにおける責任あるコンピューティングを促進し、エネルギー効率の高いディープニューラルネットワークの研究を促進することを願っている。

Deep learning (DL) can achieve impressive results across a wide variety of tasks, but this often comes at the cost of training models for extensive periods on specialized hardware accelerators. This energy-intensive workload has seen immense growth in recent years. Machine learning (ML) may become a significant contributor to climate change if this exponential trend continues. If practitioners are aware of their energy and carbon footprint, then they may actively take steps to reduce it whenever possible. In this work, we present Carbontracker, a tool for tracking and predicting the energy and carbon footprint of training DL models. We propose that energy and carbon footprint of model development and training is reported alongside performance metrics using tools like Carbontracker. We hope this will promote responsible computing in ML and encourage research into energy-efficient deep neural networks.
翻訳日:2022-11-13 02:19:43 公開日:2020-07-06
# テレマティクスを用いた運転行動理解のためのコスト感応型マルチクラスアダブースト

Cost-sensitive Multi-class AdaBoost for Understanding Driving Behavior with Telematics ( http://arxiv.org/abs/2007.03100v1 )

ライセンス: Link先を確認
Banghee So and Jean-Philippe Boucher and Emiliano A. Valdez(参考訳) 保険業者はテレマティクス技術を利用して、距離の移動、ドライバーのブレーキ、加速または回転の方法、週毎の走行頻度など幅広いデータをキャプチャし、ドライバーの行動をよりよくデコードできるようになった。 このような追加情報は、保険会社が利用ベースの保険(UBI)のリスクアセスメントを改善するのに役立つ。 本稿では,クレーム頻度の予測にテレマティクス情報を統合する方法について検討する。 政策年度の自動車保険では、通常、請求がゼロのドライバーが多数を占め、正確に1つの請求で比率が低く、2つ以上の請求でははるかに低い。 本稿では, SAMME.C2 と呼ばれる, コスト依存型マルチクラス適応ブースティング (AdaBoost) アルゴリズムを導入する。 SAMME.C2アルゴリズムを校正するために,カナダのテレマティクスプログラムから収集した経験的データを用いて,従来のリスク変数に対するテレマティクスによる運転行動の評価を改善した。 本アルゴリズムは,SMOTEを用いたSAMME,SAMME,RUSBoost,SMOTEBoostなど,クラス不均衡を扱う他のモデルよりも優れていることを示す。 テレマティクスのサンプルデータは2013-2016年の観測で、トレーニングに50,301台、テストに21,574台が使用された。 広義的には、車載テレマティクスから得られる追加情報は、UBIドライバのリスク分類の洗練に役立つ。

Powered with telematics technology, insurers can now capture a wide range of data, such as distance traveled, how drivers brake, accelerate or make turns, and travel frequency each day of the week, to better decode driver's behavior. Such additional information helps insurers improve risk assessments for usage-based insurance (UBI), an increasingly popular industry innovation. In this article, we explore how to integrate telematics information to better predict claims frequency. For motor insurance during a policy year, we typically observe a large proportion of drivers with zero claims, a less proportion with exactly one claim, and far lesser with two or more claims. We introduce the use of a cost-sensitive multi-class adaptive boosting (AdaBoost) algorithm, which we call SAMME.C2, to handle such imbalances. To calibrate SAMME.C2 algorithm, we use empirical data collected from a telematics program in Canada and we find improved assessment of driving behavior with telematics relative to traditional risk variables. We demonstrate our algorithm can outperform other models that can handle class imbalances: SAMME, SAMME with SMOTE, RUSBoost, and SMOTEBoost. The sampled data on telematics were observations during 2013-2016 for which 50,301 are used for training and another 21,574 for testing. Broadly speaking, the additional information derived from vehicle telematics helps refine risk classification of drivers of UBI.
翻訳日:2022-11-13 02:19:31 公開日:2020-07-06
# 局所微分プライバシーを持つマルチアーマッドバンド

Multi-Armed Bandits with Local Differential Privacy ( http://arxiv.org/abs/2007.03121v1 )

ライセンス: Link先を確認
Wenbo Ren, Xingyu Zhou, Jia Liu, Ness B. Shroff(参考訳) 本稿では,ローカルディファレンシャルプライバシ(LDP)を保証したマルチアームバンディット(MAB)問題に対する後悔の最小化問題について検討する。 確率的なバンディットシステムでは、報酬は個人の情報を含むユーザーの活動を指し、ユーザーはエージェントに知られたくないかもしれない。 しかし、多くの場合、エージェントはレコメンデーションやニュースフィードなどのより良いサービスを提供するためにこれらの活動を知る必要がある。 このジレンマに対処するために、差分プライバシーを採用し、所与の LDP 保証付きMAB アルゴリズムの高次および低次境界について検討する。 本稿では,下限を証明し,後悔上限が下限下限から定数までと一致するアルゴリズムを提案する。 数値実験も我々の結論を裏付ける。

This paper investigates the problem of regret minimization for multi-armed bandit (MAB) problems with local differential privacy (LDP) guarantee. In stochastic bandit systems, the rewards may refer to the users' activities, which may involve private information and the users may not want the agent to know. However, in many cases, the agent needs to know these activities to provide better services such as recommendations and news feeds. To handle this dilemma, we adopt differential privacy and study the regret upper and lower bounds for MAB algorithms with a given LDP guarantee. In this paper, we prove a lower bound and propose algorithms whose regret upper bounds match the lower bound up to constant factors. Numerical experiments also confirm our conclusions.
翻訳日:2022-11-13 02:19:00 公開日:2020-07-06
# アンサンブル学習の改善による冠動脈疾患の診断

Coronary Heart Disease Diagnosis Based on Improved Ensemble Learning ( http://arxiv.org/abs/2007.02895v1 )

ライセンス: Link先を確認
Kuntoro Adi Nugroho, Noor Akhmad Setiawan, Teguh Bharata Adji(参考訳) 冠動脈疾患の適切な治療を行うには正確な診断が必要である。 機械学習に基づくアプローチは、冠動脈疾患の診断精度を向上させるために多くの研究者によって提案されている。 アンサンブル学習とカスケード一般化は、学習アルゴリズムの一般化能力を向上させるために使用できる方法の1つである。 本研究の目的は,アンサンブル学習とカスケード一般化に基づく心臓病診断手法を開発することである。 本研究では疎結合戦略を用いたカスケード一般化法を提案する。 C4。 5およびripperアルゴリズムをメタレベルアルゴリズムとし,naive bayesをベースレベルアルゴリズムとした。 BaggingとRandom Subspaceがアンサンブルの構築のために評価された。 ハイブリッド・カスケード・アンサンブル法を非センスモードと非カスケードモードの学習アルゴリズムと比較する。 この手法はローテーション・フォレストと比較される。 評価結果に基づき, ハイブリッド・カスケード・アンサンブル法が心疾患の診断に最適な結果を示した。 カスケード戦略の影響を分析するために精度と多様性を評価した。 その結果、アンサンブルにおける分類器の精度は向上するが、多様性は低下する。

Accurate diagnosis is required before performing proper treatments for coronary heart disease. Machine learning based approaches have been proposed by many researchers to improve the accuracy of coronary heart disease diagnosis. Ensemble learning and cascade generalization are among the methods which can be used to improve the generalization ability of learning algorithm. The objective of this study is to develop heart disease diagnosis method based on ensemble learning and cascade generalization. Cascade generalization method with loose coupling strategy is proposed in this study. C4. 5 and RIPPER algorithm were used as meta-level algorithm and Naive Bayes was used as baselevel algorithm. Bagging and Random Subspace were evaluated for constructing the ensemble. The hybrid cascade ensemble methods are compared with the learning algorithms in non-ensemble mode and non-cascade mode. The methods are also compared with Rotation Forest. Based on the evaluation result, the hybrid cascade ensemble method demonstrated the best result for the given heart disease diagnosis case. Accuracy and diversity evaluation was performed to analyze the impact of the cascade strategy. Based on the result, the accuracy of the classifiers in the ensemble is increased but the diversity is decreased.
翻訳日:2022-11-13 02:18:28 公開日:2020-07-06
# 深層学習による多孔質媒体の多孔性, 透過性, トルトゥース性予測

Predicting Porosity, Permeability, and Tortuosity of Porous Media from Images by Deep Learning ( http://arxiv.org/abs/2007.02820v1 )

ライセンス: Link先を確認
Krzysztof M. Graczyk and Maciej Matyka(参考訳) 畳み込みニューラルネットワーク(convolutional neural network, cnn)は、障害物の初期構成と多孔質メディアにおける3つの基本的な量の関係をエンコードするために使用される。 障害物のある二次元システムを考える。 格子ボルツマン法により多孔質媒質中の流体の流れをシミュレートする。 その結果,cnnは細孔性,透水性,tortuosityを精度良く予測できることがわかった。 CNNモデルの使用により、$T$と$\varphi$の関係が再現され、経験的推定値と比較された。 この分析は、$\varphi \in (0.37,0.99)$で、透過性$k \in (0.78, 2.1\times 10^5)$と tortuosity $T \in (1.03,2.74)$の5桁をカバーしている。

Convolutional neural networks (CNN) are utilized to encode the relation between initial configurations of obstacles and three fundamental quantities in porous media: porosity ($\varphi$), permeability $k$, and tortuosity ($T$). The two-dimensional systems with obstacles are considered. The fluid flow through a porous medium is simulated with the lattice Boltzmann method. It is demonstrated that the CNNs are able to predict the porosity, permeability, and tortuosity with good accuracy. With the usage of the CNN models, the relation between $T$ and $\varphi$ has been reproduced and compared with the empirical estimate. The analysis has been performed for the systems with $\varphi \in (0.37,0.99)$ which covers five orders of magnitude span for permeability $k \in (0.78, 2.1\times 10^5)$ and tortuosity $T \in (1.03,2.74)$.
翻訳日:2022-11-13 02:17:24 公開日:2020-07-06
# カバレッジ関数のための構造化サンプルからの最適化

Optimization from Structured Samples for Coverage Functions ( http://arxiv.org/abs/2007.02738v1 )

ライセンス: Link先を確認
Wei Chen, Xiaoming Sun, Jialin Zhang, Zhijie Zhang(参考訳) 我々は、サンプルデータから直接目的関数を最適化する問題を研究するサンプル(ops)モデルから最適化を再検討する。 これまでの結果から, 最大カバレッジ問題に対する定数近似比は, $\{s_i, f(s_i)\}_{i=1}^t$ (balkanski et al., 2017) という形で多項式的に多くの独立なサンプルを用いては得られず, カバレッジ関数が(1 - \epsilon)$-pmacで学習可能であっても (badanidiyuru et al., 2012) である。 本研究では,データサンプルが関数の構造情報をエンコードするカバレッジ関数のための,構造化サンプル(structured samples, opss)による最適化と呼ばれるより強力なモデルを提案する。 サンプル分布の3つの一般的な仮定の下では,最大カバレッジ問題の定数近似を実現する効率的なopssアルゴリズムを設計できることを示す。 さらに、計算効率を考慮しない場合、これらの仮定の下で一定の下界を証明します。 さらに,3つの仮定のうちのいずれかを取り除けば,最大被覆問題に対するOPSSは一定の近似を持たないことを示す。

We revisit the optimization from samples (OPS) model, which studies the problem of optimizing objective functions directly from the sample data. Previous results showed that we cannot obtain a constant approximation ratio for the maximum coverage problem using polynomially many independent samples of the form $\{S_i, f(S_i)\}_{i=1}^t$ (Balkanski et al., 2017), even if coverage functions are $(1 - \epsilon)$-PMAC learnable using these samples (Badanidiyuru et al., 2012), which means most of the function values can be approximately learned very well with high probability. In this work, to circumvent the impossibility result of OPS, we propose a stronger model called optimization from structured samples (OPSS) for coverage functions, where the data samples encode the structural information of the functions. We show that under three general assumptions on the sample distributions, we can design efficient OPSS algorithms that achieve a constant approximation for the maximum coverage problem. We further prove a constant lower bound under these assumptions, which is tight when not considering computational efficiency. Moreover, we also show that if we remove any one of the three assumptions, OPSS for the maximum coverage problem has no constant approximation.
翻訳日:2022-11-13 02:10:09 公開日:2020-07-06
# ネットワークにおける経路のマルコフ順序の学習

Learning the Markov order of paths in a network ( http://arxiv.org/abs/2007.02861v1 )

ライセンス: Link先を確認
Luka V. Petrovi\'c and Ingo Scholtes(参考訳) ネットワーク内の経路を表す分類列,すなわち状態間の遷移が既知のグラフに制約される可変長列においてマルコフ順序を学習する問題を考察する。 このようなデータは、標準マルコフ順序検出法や、グラフの制約を明示的に考慮した需要モデリング技術に課題をもたらす。 経路の多次モデリングフレームワークを採用し,ベイズ学習手法を開発した。 i) 確率比検定に基づいて競合する手法と比較して正マルコフ順序をより確実に検出する。 (ii) aic や bic を使用する方法に比べ,データ量はかなり少ない。 (iii)基礎となる制約の部分的な知識に対して頑健である。 さらに,確率比検定を用いた最近発表された手法は,経路の真のマルコフ次数に過度に適合する傾向があり,ベイズ的手法には当てはまらないことを示す。 本手法は, 禁止語, 移動軌跡, クリックストリームデータ, バイオインフォマティクスにおけるシーケンスデータといった, (部分的に) 既知の制約を受ける分類配列データのパターンを分析するデータ科学者にとって重要である。 モデル選択の鍵となる課題に対処し,ネットワーク分析における高次モデルの必要性を強調する研究の進展に,我々の研究はより深く関係している。

We study the problem of learning the Markov order in categorical sequences that represent paths in a network, i.e. sequences of variable lengths where transitions between states are constrained to a known graph. Such data pose challenges for standard Markov order detection methods and demand modelling techniques that explicitly account for the graph constraint. Adopting a multi-order modelling framework for paths, we develop a Bayesian learning technique that (i) more reliably detects the correct Markov order compared to a competing method based on the likelihood ratio test, (ii) requires considerably less data compared to methods using AIC or BIC, and (iii) is robust against partial knowledge of the underlying constraints. We further show that a recently published method that uses a likelihood ratio test has a tendency to overfit the true Markov order of paths, which is not the case for our Bayesian technique. Our method is important for data scientists analyzing patterns in categorical sequence data that are subject to (partially) known constraints, e.g. sequences with forbidden words, mobility trajectories and click stream data, or sequence data in bioinformatics. Addressing the key challenge of model selection, our work is further relevant for the growing body of research that emphasizes the need for higher-order models in network analysis.
翻訳日:2022-11-13 02:08:33 公開日:2020-07-06
# MIMO通信用多目的DNNプリコーダ

Multi-Objective DNN-based Precoder for MIMO Communications ( http://arxiv.org/abs/2007.02896v1 )

ライセンス: Link先を確認
Xinliang Zhang, Mojtaba Vaezi(参考訳) 本稿では、データ伝送、エネルギー回収、同時無線情報と電力伝達、物理層(PHY)セキュリティ、マルチキャストの5つの目的を持つ、2ユーザマルチインプットマルチ出力(MIMO)ネットワークのための統合ディープニューラルネットワーク(DNN)ベースのプリコーダを提案する。 まず, この問題を独立して解くために, 回転型プリコードを開発した。 ローテーションベースのプリコーディングは、PHYセキュリティとマルチキャストの既存のソリューションに勝る新しいプリコーディングとパワーアロケーションであり、異なるアンテナ設定で信頼性がある。 次に、DNNベースのプリコーダは、すべての目的に対してソリューションを統合するように設計されている。 提案したDNNは,従来の手法,すなわち解析的あるいは回転的解から得られる解を同時に学習する。 バイナリベクトルは、目的を区別するための入力機能として設計されている。 数値計算の結果,提案したDNNベースのプリコーダは従来の手法と比較して,最適に近い性能(平均最適解の99.45 %)を達成しつつ,一桁以上の計算複雑性を低減できることがわかった。 新しいプリコーダは受信機におけるアンテナ数の変化に対してより堅牢である。

This paper introduces a unified deep neural network (DNN)-based precoder for two-user multiple-input multiple-output (MIMO) networks with five objectives: data transmission, energy harvesting, simultaneous wireless information and power transfer, physical layer (PHY) security, and multicasting. First, a rotation-based precoding is developed to solve the above problems independently. Rotation-based precoding is new precoding and power allocation that beats existing solutions in PHY security and multicasting and is reliable in different antenna settings. Next, a DNN-based precoder is designed to unify the solution for all objectives. The proposed DNN concurrently learns the solutions given by conventional methods, i.e., analytical or rotation-based solutions. A binary vector is designed as an input feature to distinguish the objectives. Numerical results demonstrate that, compared to the conventional solutions, the proposed DNN-based precoder reduces on-the-fly computational complexity more than an order of magnitude while reaching near-optimal performance (99.45\% of the averaged optimal solutions). The new precoder is also more robust to the variations of the numbers of antennas at the receivers.
翻訳日:2022-11-13 02:08:14 公開日:2020-07-06
# ドローンのエッジ配置に最適化されたセマンティクスセグメンテーションアーキテクチャの検討

Exploration of Optimized Semantic Segmentation Architectures for edge-Deployment on Drones ( http://arxiv.org/abs/2007.02839v1 )

ライセンス: Link先を確認
Vivek Parmar, Narayani Bhatia, Shubham Negi and Manan Suri(参考訳) 本稿では,uavデータ処理の文脈における意味セグメンテーションアーキテクチャに対するネットワークパラメータの影響について分析を行う。 我々はDroneDeploy Segmentationベンチマークで分析を行った。 比較分析に基づいて,imagenetデータセットに基づくプリトレーニングエンコーダバックボーンを用いた,fpn効率の高いnetb3ネットワークアーキテクチャを同定した。 このネットワークは、検証データセットに対して、IoUスコア0.65とF1スコア0.71を達成する。 また、メモリフットプリントと推論レイテンシの観点から様々なアーキテクチャを比較し、TensorRTベースの最適化の影響をさらに調査する。 Model: FPNとBackbone: InceptionResnetV2と比較して、メモリの節約が約4.1倍、レイテンシが10%向上しました。

In this paper, we present an analysis on the impact of network parameters for semantic segmentation architectures in context of UAV data processing. We present the analysis on the DroneDeploy Segmentation benchmark. Based on the comparative analysis we identify the optimal network architecture to be FPN-EfficientNetB3 with pretrained encoder backbones based on Imagenet Dataset. The network achieves IoU score of 0.65 and F1-score of 0.71 over the validation dataset. We also compare the various architectures in terms of their memory footprint and inference latency with further exploration of the impact of TensorRT based optimizations. We achieve memory savings of ~4.1x and latency improvement of 10% compared to Model: FPN and Backbone: InceptionResnetV2.
翻訳日:2022-11-13 02:01:30 公開日:2020-07-06
# Apple病の深層学習:分類と同定

Deep Learning for Apple Diseases: Classification and Identification ( http://arxiv.org/abs/2007.02980v1 )

ライセンス: Link先を確認
Asif Iqbal Khan, SMK Quadri and Saba Banday(参考訳) 病気や害虫は毎年、リンゴ産業に大きな経済的損失をもたらす。 異なる疾患によって生じる症状は非常によく似ており、同時に発生する可能性があるため、様々なリンゴ病の同定は農家にとって困難である。 本論文は,apple 病の検出と同定を時間的かつ正確に行う試みである。 本研究では,リンゴ病の同定と分類のための深層学習に基づくアプローチを提案する。 研究の最初の部分は、データ収集とデータラベリングを含むデータセットの作成である。 次に,リンゴ病の自動分類のためのデータセット上で畳み込みニューラルネットワーク(cnn)モデルをトレーニングする。 CNNは、画像分類、オブジェクト検出、セグメンテーションなど、幅広いタスクに適合するように、自動的な特徴抽出と生画像から直接複雑な特徴の学習を行うエンドツーエンドの学習アルゴリズムである。 提案する深層モデルのパラメータの初期化に転送学習を適用した。 ローテーション、トランスレーション、リフレクション、スケーリングといったデータ拡張技術も、オーバーフィッティングを防ぐために適用された。 提案するcnnモデルは,データセットの精度約97.18%に達した。 以上の結果から,本手法は各種のリンゴ病の分類に有効であり,農家の実用ツールとして利用できることを確認した。

Diseases and pests cause huge economic loss to the apple industry every year. The identification of various apple diseases is challenging for the farmers as the symptoms produced by different diseases may be very similar, and may be present simultaneously. This paper is an attempt to provide the timely and accurate detection and identification of apple diseases. In this study, we propose a deep learning based approach for identification and classification of apple diseases. The first part of the study is dataset creation which includes data collection and data labelling. Next, we train a Convolutional Neural Network (CNN) model on the prepared dataset for automatic classification of apple diseases. CNNs are end-to-end learning algorithms which perform automatic feature extraction and learn complex features directly from raw images, making them suitable for wide variety of tasks like image classification, object detection, segmentation etc. We applied transfer learning to initialize the parameters of the proposed deep model. Data augmentation techniques like rotation, translation, reflection and scaling were also applied to prevent overfitting. The proposed CNN model obtained encouraging results, reaching around 97.18% of accuracy on our prepared dataset. The results validate that the proposed method is effective in classifying various types of apple diseases and can be used as a practical tool by farmers.
翻訳日:2022-11-13 02:01:19 公開日:2020-07-06
# 同じ対象に対する特徴ベクトルの集合における最も代表的な記述子の決定

Determination of the most representative descriptor among a set of feature vectors for the same object ( http://arxiv.org/abs/2007.03021v1 )

ライセンス: Link先を確認
Dmitry Pozdnyakov(参考訳) 本研究は,顔認識問題の解法として,顔の特徴ベクトルの集合の中で最も代表的な記述子を推定する手法について考察する。 この推定は,特徴空間と特徴ベクトルを疎充填する場合のウェルシュ/レクルス損失関数の適用による記述子としての集合のモード中間混合ベクトルのロバストな計算に基づく。

On an example of solution of the face recognition problem the approach for estimation of the most representative descriptor among a set of feature vectors for the same face is considered in present study. The estimation is based on robust calculation of the mode-median mixture vector for the set as the descriptor by means of Welsch/Leclerc loss function application in case of very sparse filling of the feature space with feature vectors
翻訳日:2022-11-13 02:01:01 公開日:2020-07-06
# 人間の活動認識における連続学習--正規化の実証分析

Continual Learning in Human Activity Recognition: an Empirical Analysis of Regularization ( http://arxiv.org/abs/2007.03032v1 )

ライセンス: Link先を確認
Saurav Jha, Martin Schiemer, Juan Ye(参考訳) コンピュータビジョンの領域に焦点をあてたディープニューラルネットワークの連続的学習技術が増加傾向にあることを考えると、これらのどれが人間の活動認識(HAR)のような他のタスクにうまく一般化するかを特定する必要がある。 近年の手法はほとんどが損失正規化項とメモリリプレイで構成されているため,HARデータセットを用いたタスク増分学習手法の構成的分析を行う。 ほとんどの正規化アプローチには大きな効果がなく、失敗時の直感が欠けていることが分かりました。 したがって、連続学習アルゴリズムの開発は、かなり多様なタスク領域によって動機づけられるべきである。

Given the growing trend of continual learning techniques for deep neural networks focusing on the domain of computer vision, there is a need to identify which of these generalizes well to other tasks such as human activity recognition (HAR). As recent methods have mostly been composed of loss regularization terms and memory replay, we provide a constituent-wise analysis of some prominent task-incremental learning techniques employing these on HAR datasets. We find that most regularization approaches lack substantial effect and provide an intuition of when they fail. Thus, we make the case that the development of continual learning algorithms should be motivated by rather diverse task domains.
翻訳日:2022-11-13 02:00:55 公開日:2020-07-06
# グルー変数予測によるSATソルバの強化

Enhancing SAT solvers with glue variable predictions ( http://arxiv.org/abs/2007.02559v1 )

ライセンス: Link先を確認
Jesse Michael Han(参考訳) 現代的なSATソルバは、分岐決定毎にニューラルネットワークに問い合わせる非現実的なスケールで日常的に動作する。 SelsamとBjornerによって提案されたNeuroCoreは、スコアベースの分岐ヒューリスティックを定期的に再フォーカスするだけで、ニューラルネットワークがSATソルバを加速できるという概念実証を提供した。 しかし、その作業にはいくつかの制限があった: 修正されたソルバはGPUアクセラレーションを必要とし、さらなる改善によりSATCOMP 2018ベンチマークのランダムなベースラインに匹敵せず、トレーニング対象の未満足なコアは、比較的容易な問題のみをラベル付けする高価なデータパイプラインを必要とした。 私たちはこれらの制限をすべて解決し、数百万の節を持つ巨大な産業問題に対するcpu推論を可能にするシンプルなネットワークアーキテクチャと、ラベル付きデータの生成が容易で強化学習タスクとしても定式化可能な、"em glue variable" 予測のためのトレーニングを使用しています。 本研究では,最先端のSATソルバであるCaDiCaLを改良し,SATCOMP 2018とSATRACE 2019の性能を改善し,SHA-1プレイメージ攻撃と強化学習を併用したデータセット上での有効性を示す。

Modern SAT solvers routinely operate at scales that make it impractical to query a neural network for every branching decision. NeuroCore, proposed by Selsam and Bjorner, offered a proof-of-concept that neural networks can still accelerate SAT solvers by only periodically refocusing a score-based branching heuristic. However, that work suffered from several limitations: their modified solvers require GPU acceleration, further ablations showed that they were no better than a random baseline on the SATCOMP 2018 benchmark, and their training target of unsat cores required an expensive data pipeline which only labels relatively easy unsatisfiable problems. We address all these limitations, using a simpler network architecture allowing CPU inference for even large industrial problems with millions of clauses, and training instead to predict {\em glue variables}---a target for which it is easier to generate labelled data, and which can also be formulated as a reinforcement learning task. We demonstrate the effectiveness of our approach by modifying the state-of-the-art SAT solver CaDiCaL, improving its performance on SATCOMP 2018 and SATRACE 2019 with supervised learning and its performance on a dataset of SHA-1 preimage attacks with reinforcement learning.
翻訳日:2022-11-13 02:00:09 公開日:2020-07-06
# ディープラーニングシステムテストのためのモデルに基づく行動のフロンティア探索

Model-based Exploration of the Frontier of Behaviours for Deep Learning System Testing ( http://arxiv.org/abs/2007.02787v1 )

ライセンス: Link先を確認
Vincenzo Riccio and Paolo Tonella(参考訳) 自律運転などの重要なタスクにおけるディープラーニング(DL)の採用の増加に伴い、DLに依存するシステムの品質評価が重要になっている。 訓練が完了すると、dlシステムは入力として提供される任意の数値ベクトルに対して、テスト対象のシステムの有効領域内外に関わらず出力を生成する。 したがって、これらのシステムの品質は、その妥当性ドメインと出力が誤った振る舞いを示す領域との交点によって決定される。 本稿では,行動のフロンティアの概念,すなわちdlシステムが誤解し始める入力について述べる。 誤動作のフロンティアがシステムの妥当性ドメインの外にある場合、品質チェックがパスされる。 そうでなければ、交点の入力はシステムの質の欠陥を表す。 dlシステムのフロンティア入力を生成する検索ベースのツールであるdeepjanusを開発した。 自動走行車の車線維持部品について得られた実験結果から、十分に訓練されたシステムのフロンティアは、土木工学のベストプラクティスに違反したほぼ独占的に非現実的な道路を含み、未訓練のフロンティアは、システムの重大な欠陥を示す多くの有効な入力を含むことが示された。

With the increasing adoption of Deep Learning (DL) for critical tasks, such as autonomous driving, the evaluation of the quality of systems that rely on DL has become crucial. Once trained, DL systems produce an output for any arbitrary numeric vector provided as input, regardless of whether it is within or outside the validity domain of the system under test. Hence, the quality of such systems is determined by the intersection between their validity domain and the regions where their outputs exhibit a misbehaviour. In this paper, we introduce the notion of frontier of behaviours, i.e., the inputs at which the DL system starts to misbehave. If the frontier of misbehaviours is outside the validity domain of the system, the quality check is passed. Otherwise, the inputs at the intersection represent quality deficiencies of the system. We developed DeepJanus, a search-based tool that generates frontier inputs for DL systems. The experimental results obtained for the lane keeping component of a self-driving car show that the frontier of a well trained system contains almost exclusively unrealistic roads that violate the best practices of civil engineering, while the frontier of a poorly trained one includes many valid inputs that point to serious deficiencies of the system.
翻訳日:2022-11-13 01:59:44 公開日:2020-07-06
# 機械学習におけるフェアネス--フェアネス尺度としての偽陽性率平等に反対

Fairness in machine learning: against false positive rate equality as a measure of fairness ( http://arxiv.org/abs/2007.02890v1 )

ライセンス: Link先を確認
Robert Long(参考訳) 機械学習が次々に決定を下すにつれて、アルゴリズムの偏見や不公平さを測定するためのさまざまな指標が提案されている。 2つの一般的な公正度尺度は、キャリブレーションと偽陽性率の等式である。 それぞれの尺度は直感的に重要であるように見えるが、特に両方の尺度を満たすことは不可能である。 このため、機械学習における大きな文献では、これらの2つの尺度の間の公正なトレードオフが語られている。 このフレーミングは、両方の尺度が実際に重要なものを捉えていると仮定している。 これまで、哲学者はこの決定的な仮定を検証しておらず、それぞれの測度が基準的に重要な性質を実際に追跡する程度を調べてきた。 これにより、キャリブレーションと偽陽性率平等の間の必然的な統計的衝突が倫理の重要なトピックとなっている。 本稿では,これらの対策を考えるための倫理的枠組みを提示し,初出の出現と異なり,偽陽性率は公平性について何も追跡せず,アルゴリズムの公正性を評価するための一貫性のない基準を定めている。

As machine learning informs increasingly consequential decisions, different metrics have been proposed for measuring algorithmic bias or unfairness. Two popular fairness measures are calibration and equality of false positive rate. Each measure seems intuitively important, but notably, it is usually impossible to satisfy both measures. For this reason, a large literature in machine learning speaks of a fairness tradeoff between these two measures. This framing assumes that both measures are, in fact, capturing something important. To date, philosophers have not examined this crucial assumption, and examined to what extent each measure actually tracks a normatively important property. This makes this inevitable statistical conflict, between calibration and false positive rate equality, an important topic for ethics. In this paper, I give an ethical framework for thinking about these measures and argue that, contrary to initial appearances, false positive rate equality does not track anything about fairness, and thus sets an incoherent standard for evaluating the fairness of algorithms.
翻訳日:2022-11-13 01:59:24 公開日:2020-07-06
# Sugeno Integral を用いた機械学習:バイナリ分類の場合

Machine Learning with the Sugeno Integral: The Case of Binary Classification ( http://arxiv.org/abs/2007.03046v1 )

ライセンス: Link先を確認
Sadegh Abbaszadeh and Eyke H\"ullermeier(参考訳) 本稿では,機械学習の文脈におけるsugeno積分の利用について詳述する。 具体的には,Sugeno積分を,異なる特徴や測定値を含む複数のインスタンスの局所的な評価をひとつのグローバルな評価に組み合わせたアグリゲーション関数として用いるバイナリ分類法を提案する。 スジェノ積分の特異性のため、この手法は特に順序データから、すなわち、順序尺度から測定されるときの学習に適している。 このトピックは、これまで機械学習にはあまり関心が寄せられていない。 学習問題の核心は、sugeno積分の基盤となる能力を特定することにある。 この問題に対処するため,線形プログラミングに基づくアルゴリズムを開発した。 このアルゴリズムはまた、元の特徴値を局所的な評価(局所的ユーティリティスコア)に変換する適切な手法と、グローバル評価のしきい値を調整する方法を含む。 分類器の柔軟性を制御し、トレーニングデータのオーバーフィットの問題を緩和するために、我々は、$k$-maxitive capacitiesへのアプローチを一般化し、ここでは$k$が学習者のハイパーパラメータの役割を担います。 そこで,本手法をいくつかのベンチマークデータセットの競合手法と比較する実験を行った。

In this paper, we elaborate on the use of the Sugeno integral in the context of machine learning. More specifically, we propose a method for binary classification, in which the Sugeno integral is used as an aggregation function that combines several local evaluations of an instance, pertaining to different features or measurements, into a single global evaluation. Due to the specific nature of the Sugeno integral, this approach is especially suitable for learning from ordinal data, that is, when measurements are taken from ordinal scales. This is a topic that has not received much attention in machine learning so far. The core of the learning problem itself consists of identifying the capacity underlying the Sugeno integral. To tackle this problem, we develop an algorithm based on linear programming. The algorithm also includes a suitable technique for transforming the original feature values into local evaluations (local utility scores), as well as a method for tuning a threshold on the global evaluation. To control the flexibility of the classifier and mitigate the problem of overfitting the training data, we generalize our approach toward $k$-maxitive capacities, where $k$ plays the role of a hyper-parameter of the learner. We present experimental studies, in which we compare our method with competing approaches on several benchmark data sets.
翻訳日:2022-11-13 01:53:07 公開日:2020-07-06
# 領域不変表現による分布シフト下の一般化の推定

Estimating Generalization under Distribution Shifts via Domain-Invariant Representations ( http://arxiv.org/abs/2007.03511v1 )

ライセンス: Link先を確認
Ching-Yao Chuang, Antonio Torralba, Stefanie Jegelka(参考訳) 機械学習モデルがトレーニングディストリビューションとは異なるテストディストリビューションにデプロイされると、パフォーマンスは低下するが、過大評価される。 本研究は,分散シフト下でのモデルの性能を,監督なしによりよく推定することを目的とする。 そのため、未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。 結果として生じるリスク推定の誤差は、プロキシモデルのターゲットリスクに依存するため、ドメイン不変表現の一般化を検討し、潜在表現の複雑さがターゲットリスクに大きな影響を与えることを示す。 実験的なアプローチとして,(1)領域適応モデルの自己調整が可能であり,(2)分布シフト時の対象モデルの誤差を正確に推定する。 その他のアプリケーションには、モデル選択、早期停止とエラー検出がある。

When machine learning models are deployed on a test distribution different from the training distribution, they can perform poorly, but overestimate their performance. In this work, we aim to better estimate a model's performance under distribution shift, without supervision. To do so, we use a set of domain-invariant predictors as a proxy for the unknown, true target labels. Since the error of the resulting risk estimate depends on the target risk of the proxy model, we study generalization of domain-invariant representations and show that the complexity of the latent representation has a significant influence on the target risk. Empirically, our approach (1) enables self-tuning of domain adaptation models, and (2) accurately estimates the target error of given models under distribution shift. Other applications include model selection, deciding early stopping and error detection.
翻訳日:2022-11-13 01:51:24 公開日:2020-07-06
# Bespoke vs. Pr\^et-\`a-Porter Lottery Tickets: Exploiting Mask similarity for Trainable Sub-Network Finding

Bespoke vs. Pr\^et-\`a-Porter Lottery Tickets: Exploiting Mask Similarity for Trainable Sub-Network Finding ( http://arxiv.org/abs/2007.04091v1 )

ライセンス: Link先を確認
Michela Paganini, Jessica Zosa Forde(参考訳) 過パラメータネットワーク内の疎トレーニング可能なサブネットワーク(ロッテリーチケット(lts)とも呼ばれる)の観測は、そのトレーサビリティ、スケーリング、ユニーク性、一般化性に関する問い合わせを促している。 28種類の画像分類タスクとアーキテクチャの組み合わせで、異なる反復プルーニング手法によって発見されたLTの接続構造の違いを発見し、その特異性を証明し、創発マスク構造とプルーニングの選択を結びつける。 さらに,精巧な宝くじ生成のためのコンセンサスに基づく手法を提案する。 この宝くじのデノベーション手順は、異なるタスクにまたがるパラメータが常に確実に重要なサブネットワークを識別する原則に基づいており、アーキテクチャの有意義な部分を恥ずかしいほど並列に選択できると同時に、追加のパラメータをさらなる反復を必要とせずに迅速に破棄することができる。 これらのサブネットワークを通常の宝くじに匹敵するパフォーマンスでトレーニングすることに成功しました。

The observation of sparse trainable sub-networks within over-parametrized networks - also known as Lottery Tickets (LTs) - has prompted inquiries around their trainability, scaling, uniqueness, and generalization properties. Across 28 combinations of image classification tasks and architectures, we discover differences in the connectivity structure of LTs found through different iterative pruning techniques, thus disproving their uniqueness and connecting emergent mask structure to the choice of pruning. In addition, we propose a consensus-based method for generating refined lottery tickets. This lottery ticket denoising procedure, based on the principle that parameters that always go unpruned across different tasks more reliably identify important sub-networks, is capable of selecting a meaningful portion of the architecture in an embarrassingly parallel way, while quickly discarding extra parameters without the need for further pruning iterations. We successfully train these sub-networks to performance comparable to that of ordinary lottery tickets.
翻訳日:2022-11-13 01:51:11 公開日:2020-07-06
# 部分条件付き生成型adversarial network

Partially Conditioned Generative Adversarial Networks ( http://arxiv.org/abs/2007.02845v1 )

ライセンス: Link先を確認
Francisco J. Ibarrola, Nishant Ravikumar and Alejandro F. Frangi(参考訳) 生成モデルは、間違いなく人工知能のホットトピックであり、最も一般的なタイプはジェネレーティブ・アドバイサル・ネットワーク(GAN)である。 これらのアーキテクチャにより、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成できる。 Conditional GANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。 しかし、実際的な観点からは、部分的情報に基づくデータ生成を希望する場合がある。 つまり、データ合成において、補助条件変数のサブセットのみが興味を持つ可能性がある。 本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,次の問題に対処するための新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。 数値と顔画像合成における提案手法の価値を示す実験を行い,提案手法が,これらの状況下での標準手法を効果的に上回ることができることを示す。

Generative models are undoubtedly a hot topic in Artificial Intelligence, among which the most common type is Generative Adversarial Networks (GANs). These architectures let one synthesise artificial datasets by implicitly modelling the underlying probability distribution of a real-world training dataset. With the introduction of Conditional GANs and their variants, these methods were extended to generating samples conditioned on ancillary information available for each sample within the dataset. From a practical standpoint, however, one might desire to generate data conditioned on partial information. That is, only a subset of the ancillary conditioning variables might be of interest when synthesising data. In this work, we argue that standard Conditional GANs are not suitable for such a task and propose a new Adversarial Network architecture and training strategy to deal with the ensuing problems. Experiments illustrating the value of the proposed approach in digit and face image synthesis under partial conditioning information are presented, showing that the proposed method can effectively outperform the standard approach under these circumstances.
翻訳日:2022-11-13 01:43:39 公開日:2020-07-06
# fall-to-delete:グラデーションに基づく機械学習手法

Descent-to-Delete: Gradient-Based Methods for Machine Unlearning ( http://arxiv.org/abs/2007.02923v1 )

ライセンス: Link先を確認
Seth Neel, Aaron Roth, Saeed Sharifi-Malvajerdi(参考訳) 凸モデルのデータ削除問題について検討する。 コンベックス最適化とリザーバサンプリングのテクニックを活用することで、更新シーケンスの長さで成長しない、削除毎のランタイムと定常エラーの両方を約束しながら、任意の長さの逆更新を処理することができる最初のデータ削除アルゴリズムを与える。 例えば、最適化アルゴリズムによって維持される状態全体が、私たちが再学習した状態と統計的に区別できないか、あるいは、観測可能な出力のみが再訓練の結果生じた観測可能な出力と統計的に区別できないという弱い条件を問うことができる。 この弱い削除基準の下で、より効率的な削除アルゴリズムを与えることができます。

We study the data deletion problem for convex models. By leveraging techniques from convex optimization and reservoir sampling, we give the first data deletion algorithms that are able to handle an arbitrarily long sequence of adversarial updates while promising both per-deletion run-time and steady-state error that do not grow with the length of the update sequence. We also introduce several new conceptual distinctions: for example, we can ask that after a deletion, the entire state maintained by the optimization algorithm is statistically indistinguishable from the state that would have resulted had we retrained, or we can ask for the weaker condition that only the observable output is statistically indistinguishable from the observable output that would have resulted from retraining. We are able to give more efficient deletion algorithms under this weaker deletion criterion.
翻訳日:2022-11-13 01:42:33 公開日:2020-07-06
# 共有モデルまたはコアセット:メンバーシップ推論攻撃に基づく研究

Sharing Models or Coresets: A Study based on Membership Inference Attack ( http://arxiv.org/abs/2007.02977v1 )

ライセンス: Link先を確認
Hanlin Lu, Changchang Liu, Ting He, Shiqiang Wang and Kevin S. Chan(参考訳) 分散機械学習は一般的に、すべてのデータを集中した場所に集めることなく、分散データに基づいたグローバルモデルをトレーニングすることを目的としており、そこでは、ローカルモデル(フェデレート学習)の収集と集約、代表データ要約(coreset)による収集とトレーニングという2つのアプローチが提案されている。 各アプローチは、生データを共有しないため、ある程度データのプライバシを保持するが、共有情報から生データを推測しようとする高度な攻撃の下では、保護の正確な範囲は明確ではない。 対象モデル精度,通信コスト,データプライバシの両手法の初回比較を行い,その最終結果は,メンバシップ推論攻撃と呼ばれる最先端攻撃戦略の精度で測定する。 実験では,各アプローチの精度と費用のトレードオフを定量化し,モデルトレーニングプロセスの設計を導くための非自明な比較を行った。

Distributed machine learning generally aims at training a global model based on distributed data without collecting all the data to a centralized location, where two different approaches have been proposed: collecting and aggregating local models (federated learning) and collecting and training over representative data summaries (coreset). While each approach preserves data privacy to some extent thanks to not sharing the raw data, the exact extent of protection is unclear under sophisticated attacks that try to infer the raw data from the shared information. We present the first comparison between the two approaches in terms of target model accuracy, communication cost, and data privacy, where the last is measured by the accuracy of a state-of-the-art attack strategy called the membership inference attack. Our experiments quantify the accuracy-privacy-cost tradeoff of each approach, and reveal a nontrivial comparison that can be used to guide the design of model training processes.
翻訳日:2022-11-13 01:41:27 公開日:2020-07-06
# 正規化フローを用いた半教師付き学習の予測分布の学習

Learning the Prediction Distribution for Semi-Supervised Learning with Normalising Flows ( http://arxiv.org/abs/2007.02745v1 )

ライセンス: Link先を確認
Ivana Bala\v{z}evi\'c, Carl Allen, Timothy Hospedales(参考訳) データボリュームが増加するにつれて、ラベル付けプロセスがボトルネックになり、ラベルなしのデータから情報を利用する方法の需要が高まる。 画像分類のための半教師付き学習(SSL)において印象的な結果が得られ、完全な教師付き性能に近づいた。 本研究では, ラベル予測上の分布を, 単一ホットベクトルからバイナリベクトル, 画像まで, 異なる複雑性のラベルに対して考慮した, SSLの確率論的一般化手法を提案する。 本手法では,ラベル付きデータに対する予測よりも後方分布を学習する正規化フローを用いて教師付きモデルを定式化し,ラベル付きデータに対する予測の事前化を行う。 本手法は,様々な出力複雑性を持つコンピュータビジョンタスク(分類,属性予測,画像から画像への変換)に適用可能であることを示す。

As data volumes continue to grow, the labelling process increasingly becomes a bottleneck, creating demand for methods that leverage information from unlabelled data. Impressive results have been achieved in semi-supervised learning (SSL) for image classification, nearing fully supervised performance, with only a fraction of the data labelled. In this work, we propose a probabilistically principled general approach to SSL that considers the distribution over label predictions, for labels of different complexity, from "one-hot" vectors to binary vectors and images. Our method regularises an underlying supervised model, using a normalising flow that learns the posterior distribution over predictions for labelled data, to serve as a prior over the predictions on unlabelled data. We demonstrate the general applicability of this approach on a range of computer vision tasks with varying output complexity: classification, attribute prediction and image-to-image translation.
翻訳日:2022-11-13 01:34:46 公開日:2020-07-06
# プログラム解析による回避攻撃に対する判定木認定

Certifying Decision Trees Against Evasion Attacks by Program Analysis ( http://arxiv.org/abs/2007.02771v1 )

ライセンス: Link先を確認
Stefano Calzavara and Pietro Ferrara and Claudio Lucchese(参考訳) 機械学習は様々なタスクで有用であることが証明されているが、回避攻撃、すなわち誤予測を強制するように設計された入力データの悪意ある摂動にも脆弱であることが証明された。 本稿では,攻撃者が任意の命令プログラムで表現できる表現的脅威モデルに対して,回避攻撃に対する決定木モデルの安全性を検証する新しい手法を提案する。 提案手法は,従来のプログラム解析手法に適合する命令型プログラムに変換するために,決定木の解釈可能性特性を利用する。 抽象解釈フレームワークを利用することで、公開データセット上でトレーニングされた決定ツリーモデルのセキュリティ保証を健全に検証することができる。 実験の結果,我々の手法は正確かつ効率的であり,最小限の偽陽性しか得られず,競合するアプローチでは難解なケースまでスケールアップできることがわかった。

Machine learning has proved invaluable for a range of different tasks, yet it also proved vulnerable to evasion attacks, i.e., maliciously crafted perturbations of input data designed to force mispredictions. In this paper we propose a novel technique to verify the security of decision tree models against evasion attacks with respect to an expressive threat model, where the attacker can be represented by an arbitrary imperative program. Our approach exploits the interpretability property of decision trees to transform them into imperative programs, which are amenable for traditional program analysis techniques. By leveraging the abstract interpretation framework, we are able to soundly verify the security guarantees of decision tree models trained over publicly available datasets. Our experiments show that our technique is both precise and efficient, yielding only a minimal number of false positives and scaling up to cases which are intractable for a competitor approach.
翻訳日:2022-11-13 01:34:30 公開日:2020-07-06
# TDprop:Jacobiプレコンディショニングは時間差学習に役立つか?

TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning? ( http://arxiv.org/abs/2007.02786v1 )

ライセンス: Link先を確認
Joshua Romoff, Peter Henderson, David Kanaa, Emmanuel Bengio, Ahmed Touati, Pierre-Luc Bacon, Joelle Pineau(参考訳) 時間差(TD)学習におけるブートストラップ項を考慮に入れたヤコビ事前条件は,適応最適化器の性能向上に役立つか検討する。 提案手法であるtdpropは,td更新規則の対角前条件に基づいてパラメータ当たりの学習率を計算する。 これは$n$-step リターンと td($\lambda$) の両方でどのように使えるかを示します。 理論的には、この追加の事前条件情報を含めることが、ハイパーパラメータサーチにより最適学習率が両方の場合の通常の半段階的TDに匹敵することを示す。 期待されたSARSAを用いたDeep RL実験では、TDpropは、ほぼ最適の学習速度で全てのテストゲームでAdamのパフォーマンスを達成または上回っているが、十分に調整されたSGDは、我々の理論に匹敵する同様の改善をもたらす可能性がある。 以上の結果から,Deep RLの適応最適化手法ではヤコビの事前条件が改善する可能性が示唆されたが,TDブートストラップ項の付加情報が組み込まれているにもかかわらず,必ずしもSGDより優れているとは限らない。

We investigate whether Jacobi preconditioning, accounting for the bootstrap term in temporal difference (TD) learning, can help boost performance of adaptive optimizers. Our method, TDprop, computes a per parameter learning rate based on the diagonal preconditioning of the TD update rule. We show how this can be used in both $n$-step returns and TD($\lambda$). Our theoretical findings demonstrate that including this additional preconditioning information is, surprisingly, comparable to normal semi-gradient TD if the optimal learning rate is found for both via a hyperparameter search. In Deep RL experiments using Expected SARSA, TDprop meets or exceeds the performance of Adam in all tested games under near-optimal learning rates, but a well-tuned SGD can yield similar improvements -- matching our theory. Our findings suggest that Jacobi preconditioning may improve upon typical adaptive optimization methods in Deep RL, but despite incorporating additional information from the TD bootstrap term, may not always be better than SGD.
翻訳日:2022-11-13 01:34:05 公開日:2020-07-06
# 施設立地のオンライン学習

Online Learning of Facility Locations ( http://arxiv.org/abs/2007.02801v1 )

ライセンス: Link先を確認
Stephen Pasteris, Ting He, Fabio Vitale, Shiqiang Wang, Mark Herbster(参考訳) 本稿では,実世界のアプリケーションにおける新たな問題に動機づけられた施設立地問題のオンライン学習版について,厳密な理論的検討を行う。 私たちの定式化では、一連のサイトとオンラインのユーザリクエストが与えられます。 各試行において、学習者は、サイトの部分集合を選択し、選択した各サイトに対するコストと、選択された部分集合内の最寄りサイトへのユーザの接続価格である追加コストを負う。 この問題は、よく知られたHedgeアルゴリズムの適用によって解決できる。 しかし、これは与えられたサイトの時間と空間の指数関数を必要とし、これはこの問題に対する新しい準線形時間アルゴリズムの設計を動機付け、その性能に優れた理論的保証を与える。

In this paper, we provide a rigorous theoretical investigation of an online learning version of the Facility Location problem which is motivated by emerging problems in real-world applications. In our formulation, we are given a set of sites and an online sequence of user requests. At each trial, the learner selects a subset of sites and then incurs a cost for each selected site and an additional cost which is the price of the user's connection to the nearest site in the selected subset. The problem may be solved by an application of the well-known Hedge algorithm. This would, however, require time and space exponential in the number of the given sites, which motivates our design of a novel quasi-linear time algorithm for this problem, with good theoretical guarantees on its performance.
翻訳日:2022-11-13 01:33:21 公開日:2020-07-06
# online nice for credit evaluation -- シーケンシャルデータによる動的問題

Online NEAT for Credit Evaluation -- a Dynamic Problem with Sequential Data ( http://arxiv.org/abs/2007.02821v1 )

ライセンス: Link先を確認
Yue Liu, Adam Ghandar, Georgios Theodoropoulos(参考訳) 本稿では,ストリーミングデータに基づいて信用評価モデルを更新するp2p融資問題に対する神経進化の応用について述べる。 一般的には信用評価領域では適用されていないNeuroevolution of Augmenting Topologies (NEAT) アルゴリズムを適用した。 この手法を他の広く応用された機械学習手法と比較することに加えて、問題に関連するオンライン学習の特定の側面に適したアルゴリズムのいくつかの拡張を開発し、評価する。 例えば、不均衡なストリーミングデータの処理、高い計算コスト、時間とともにモデルの類似性を維持すること、新たなデータで確率的学習アルゴリズムをトレーニングすること、モデルパフォーマンスに明確なメリットがある場合を除いてモデル変更を最小化することなどだ。

In this paper, we describe application of Neuroevolution to a P2P lending problem in which a credit evaluation model is updated based on streaming data. We apply the algorithm Neuroevolution of Augmenting Topologies (NEAT) which has not been widely applied generally in the credit evaluation domain. In addition to comparing the methodology with other widely applied machine learning techniques, we develop and evaluate several enhancements to the algorithm which make it suitable for the particular aspects of online learning that are relevant in the problem. These include handling unbalanced streaming data, high computation costs, and maintaining model similarity over time, that is training the stochastic learning algorithm with new data but minimizing model change except where there is a clear benefit for model performance
翻訳日:2022-11-13 01:32:38 公開日:2020-07-06
# インプテーションは重要か? 予測モデルのためのベンチマーク

Does imputation matter? Benchmark for predictive models ( http://arxiv.org/abs/2007.02837v1 )

ライセンス: Link先を確認
Katarzyna Wo\'znica and Przemys{\l}aw Biecek(参考訳) 不完全なデータは実用的な用途で一般的である。 ほとんどの予測機械学習モデルは、欠落した値を処理しないため、事前処理が必要になる。 データ計算に多くのアルゴリズムが用いられているが、予測モデルの性能に対する異なる手法の影響は理解されていない。 本稿では,予測モデルに対するデータ計算アルゴリズムの実証的有効性を,まず体系的に評価する。 主な貢献は,(1)実生活の分類タスクに基づく経験的ベンチマークのための一般的な手法の推薦,(2)データセットの集合とMLアルゴリズムの集合に対する異なる計算方法の比較分析である。

Incomplete data are common in practical applications. Most predictive machine learning models do not handle missing values so they require some preprocessing. Although many algorithms are used for data imputation, we do not understand the impact of the different methods on the predictive models' performance. This paper is first that systematically evaluates the empirical effectiveness of data imputation algorithms for predictive models. The main contributions are (1) the recommendation of a general method for empirical benchmarking based on real-life classification tasks and the (2) comparative analysis of different imputation methods for a collection of data sets and a collection of ML algorithms.
翻訳日:2022-11-13 01:32:24 公開日:2020-07-06
# ポリシー動的値関数による高速適応

Fast Adaptation via Policy-Dynamics Value Functions ( http://arxiv.org/abs/2007.02879v1 )

ライセンス: Link先を確認
Roberta Raileanu, Max Goldstein, Arthur Szlam, Rob Fergus(参考訳) 標準rlアルゴリズムは固定環境ダイナミクスを仮定し、新しい環境に適応するためにかなりの量の相互作用を必要とする。 本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミクス値関数(PD-VF)を紹介する。 PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。 従来のRLポリシーのアンサンブルは、トレーニング環境の経験を集めるために使用され、そこからポリシーと環境の両方の埋め込みを学ぶことができる。 そして、両方の埋め込みで条件付けられた値関数を訓練する。 テスト時、いくつかのアクションは環境の埋め込みを推測するのに十分であり、学習した値関数(追加の環境相互作用を必要としない)を最大化することでポリシーを選択できる。 提案手法は,mujocoドメインの集合上で新たなダイナミクスに迅速に適応できることを示す。 コードはhttps://github.com/rraileanu/policy-dynamics-value-functionsで利用可能。

Standard RL algorithms assume fixed environment dynamics and require a significant amount of interaction to adapt to new environments. We introduce Policy-Dynamics Value Functions (PD-VF), a novel approach for rapidly adapting to dynamics different from those previously seen in training. PD-VF explicitly estimates the cumulative reward in a space of policies and environments. An ensemble of conventional RL policies is used to gather experience on training environments, from which embeddings of both policies and environments can be learned. Then, a value function conditioned on both embeddings is trained. At test time, a few actions are sufficient to infer the environment embedding, enabling a policy to be selected by maximizing the learned value function (which requires no additional environment interaction). We show that our method can rapidly adapt to new dynamics on a set of MuJoCo domains. Code available at https://github.com/rraileanu/policy-dynamics-value-functions.
翻訳日:2022-11-13 01:26:17 公開日:2020-07-06
# マルチビュー学習のための新しいランダムフォレスト異種尺度

A Novel Random Forest Dissimilarity Measure for Multi-View Learning ( http://arxiv.org/abs/2007.02572v1 )

ライセンス: Link先を確認
Hongliu Cao, Simon Bernard, Robert Sabourin, Laurent Heutte(参考訳) マルチビュー学習は、複数の同時表現によってデータが記述される学習タスクである。 その主な課題は、これらの表現間の相補性を利用して分類/回帰タスクを解決することである。 これは、学習に利用可能な大量のデータがある場合、今日では達成できる課題です。 しかし、データが不足している場合(例えば、医療環境に関する問題)、すべての現実世界の問題に必ずしも当てはまるとは限らない。 これらの状況において、効果的な戦略はインスタンス間の相似性に基づいて中間表現を使用することである。 本研究は,これらの類似性表現をランダムな森林分類器を用いたデータから学習する新しい手法を提案する。 より正確には、高次元低サンプルサイズ(HDLSS)の多視点分類問題に適応するため、ランダムフォレスト近接測度を変更する2つの方法が提案されている。 第2の方法は、サンプル硬度測定に基づいて、元のRF近接度測定やLMNN(Large Margin Nearest Neighbor)計量学習測定など、最先端の計測よりもはるかに正確である。

Multi-view learning is a learning task in which data is described by several concurrent representations. Its main challenge is most often to exploit the complementarities between these representations to help solve a classification/regression task. This is a challenge that can be met nowadays if there is a large amount of data available for learning. However, this is not necessarily true for all real-world problems, where data are sometimes scarce (e.g. problems related to the medical environment). In these situations, an effective strategy is to use intermediate representations based on the dissimilarities between instances. This work presents new ways of constructing these dissimilarity representations, learning them from data with Random Forest classifiers. More precisely, two methods are proposed, which modify the Random Forest proximity measure, to adapt it to the context of High Dimension Low Sample Size (HDLSS) multi-view classification problems. The second method, based on an Instance Hardness measurement, is significantly more accurate than other state-of-the-art measurements including the original RF Proximity measurement and the Large Margin Nearest Neighbor (LMNN) metric learning measurement.
翻訳日:2022-11-13 01:24:43 公開日:2020-07-06
# rbfニューラルネットワークのためのマルチカーネル融合

Multi-Kernel Fusion for RBF Neural Networks ( http://arxiv.org/abs/2007.02592v1 )

ライセンス: Link先を確認
Syed Muhammad Atif, Shujaat Khan, Imran Naseem, Roberto Togneri, Mohammed Bennamoun(参考訳) 放射状基底関数ニューラルネットワーク(rbfnn)の単純かつ効果的なアーキテクチャ設計は、最も一般的な従来のニューラルネットワークの一つである。 現世代のラジアル基底関数ニューラルネットワークは、複数のカーネルを備えており、単一のカーネルのみを使用する前の世代と比較して大きなパフォーマンス上の利点を提供する。 既存のマルチカーネルRBFアルゴリズムでは、ベース/プライマリカーネルの凸結合によってマルチカーネルが形成される。 本稿では,すべてのベースカーネルが独自の(局所的な)重みを持つ,新しいマルチカーネル rbfnn を提案する。 このネットワークにおける新しい柔軟性は、より高速な収束率、より優れた局所最小化、貧弱な局所最小化に対するレジリエンスなどのパフォーマンスを提供する。 これらの性能向上は、現代のマルチカーネルRBFアルゴリズムと比較して、競合計算の複雑さで達成される。 提案アルゴリズムは, 数学的およびグラフィカルな図解を用いて性能向上を徹底的に分析し, 3種類の問題に対して評価する。 (i)パターン分類 (ii)システム識別及び (iii)関数近似。 実験結果から,提案アルゴリズムは既存の最先端マルチカーネル手法よりも優れていることが明らかになった。

A simple yet effective architectural design of radial basis function neural networks (RBFNN) makes them amongst the most popular conventional neural networks. The current generation of radial basis function neural network is equipped with multiple kernels which provide significant performance benefits compared to the previous generation using only a single kernel. In existing multi-kernel RBF algorithms, multi-kernel is formed by the convex combination of the base/primary kernels. In this paper, we propose a novel multi-kernel RBFNN in which every base kernel has its own (local) weight. This novel flexibility in the network provides better performance such as faster convergence rate, better local minima and resilience against stucking in poor local minima. These performance gains are achieved at a competitive computational complexity compared to the contemporary multi-kernel RBF algorithms. The proposed algorithm is thoroughly analysed for performance gain using mathematical and graphical illustrations and also evaluated on three different types of problems namely: (i) pattern classification, (ii) system identification and (iii) function approximation. Empirical results clearly show the superiority of the proposed algorithm compared to the existing state-of-the-art multi-kernel approaches.
翻訳日:2022-11-13 01:24:23 公開日:2020-07-06
# データ増進と敵意リスクについて--実証分析

On Data Augmentation and Adversarial Risk: An Empirical Analysis ( http://arxiv.org/abs/2007.02650v1 )

ライセンス: Link先を確認
Hamid Eghbal-zadeh, Khaled Koutini, Paul Primus, Verena Haunschmid, Michal Lewandowski, Werner Zellinger, Bernhard A. Moser, Gerhard Widmer(参考訳) データ拡張技術は、モデルの一般化能力を大幅に改善することが示され、ディープラーニングの標準的な実践となった。 これらのテクニックは、不変保存変換(例えば、専門家による拡張)、統計ヒューリスティックス(例えば、ミックスアップ)、データ分散(例えば、GAN)の学習など、さまざまな考え方に依存している。 しかし、逆境の状況では、このようなデータ拡張手法が誤分類リスクを減少させるか、さらに悪化させるかは、まだ不明である。 そこで本稿では,異なるデータ拡張手法が敵のリスクに与える影響を3つの尺度で分析する。 (a)敵の攻撃下での周知の危険 (b)ラプラシアン作用素に基づく新しい予測変化応力の測定と (c) トレーニング例が予測に与える影響。 本研究の結果は,データ拡張による分類性能の向上は,常に敵の攻撃によるリスクの向上を伴うという仮説を否定するものである。 さらに,得られたモデルに対して,非提示データよりも拡張データの方が影響が大きいことが明らかとなった。 総合的に考えると,データの特徴やタスクを考慮しない汎用データ拡張は,注意して適用する必要があることが示唆される。

Data augmentation techniques have become standard practice in deep learning, as it has been shown to greatly improve the generalisation abilities of models. These techniques rely on different ideas such as invariance-preserving transformations (e.g, expert-defined augmentation), statistical heuristics (e.g, Mixup), and learning the data distribution (e.g, GANs). However, in the adversarial settings it remains unclear under what conditions such data augmentation methods reduce or even worsen the misclassification risk. In this paper, we therefore analyse the effect of different data augmentation techniques on the adversarial risk by three measures: (a) the well-known risk under adversarial attacks, (b) a new measure of prediction-change stress based on the Laplacian operator, and (c) the influence of training examples on prediction. The results of our empirical analysis disprove the hypothesis that an improvement in the classification performance induced by a data augmentation is always accompanied by an improvement in the risk under adversarial attack. Further, our results reveal that the augmented data has more influence than the non-augmented data, on the resulting models. Taken together, our results suggest that general-purpose data augmentations that do not take into the account the characteristics of the data and the task, must be applied with care.
翻訳日:2022-11-13 01:24:05 公開日:2020-07-06
# 正規化流れを伴うブラックボックス逆例生成

Black-box Adversarial Example Generation with Normalizing Flows ( http://arxiv.org/abs/2007.02734v1 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) 深いニューラルネットワーク分類器は、敵対的な脆弱性に悩まされる: 入力データに対する巧妙で目立たない変更は、分類器の決定に影響を及ぼす。 この点において、強力な敵攻撃の研究は、この悪意ある行動の源泉を照らすのに役立つ。 本稿では,正規化フローを用いたブラックボックス対向攻撃を提案する。 本稿では,事前学習されたフローベースのモデルベース分布を探索することで,敵を見つけ出す方法を示す。 このようにして、摂動がデータの形にあるように、元のデータによく似た敵を生成することができる。 次に,ブラックボックス攻撃手法に対する提案手法の競合性能を実証する。

Deep neural network classifiers suffer from adversarial vulnerability: well-crafted, unnoticeable changes to the input data can affect the classifier decision. In this regard, the study of powerful adversarial attacks can help shed light on sources of this malicious behavior. In this paper, we propose a novel black-box adversarial attack using normalizing flows. We show how an adversary can be found by searching over a pre-trained flow-based model base distribution. This way, we can generate adversaries that resemble the original data closely as the perturbations are in the shape of the data. We then demonstrate the competitive performance of the proposed approach against well-known black-box adversarial attack methods.
翻訳日:2022-11-13 01:16:26 公開日:2020-07-06
# ハイブリッドfr-dl法を用いたライブビデオにおける複雑なヒューマンアクション認識

Complex Human Action Recognition in Live Videos Using Hybrid FR-DL Method ( http://arxiv.org/abs/2007.02811v1 )

ライセンス: Link先を確認
Fatemeh Serpush, Mahdi Rezaei(参考訳) 人間の行動認識の自動化は、高い計算コストにもかかわらず、コンピュータビジョンにおいて最も魅力的で実践的な研究分野の1つである。 このようなシステムでは、人間の行動ラベリングはビデオシーケンスの動作の出現とパターンに基づいているが、従来の手法や古典的ニューラルネットワークでは、ビデオシーケンス内の次のフレームでの行動認識予測に時間情報を使用することはできない。 一方,前処理段階の計算コストは高い。 本稿では,入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。 さらに,全体の特徴ではなく,代表フレームの重要な特徴を抽出する。 本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。 CNNとLSTM再帰ネットワークの組み合わせは、特徴の選択と以前の情報維持のために考慮され、最後に、人間の活動のラベル付けにSoftmax-KNN分類器が使用される。 本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。 提案手法を評価するために,動作認識研究の研究者の間で広く利用されているベンチマークにUCFデータセットを用いた。 データセットには101の複雑なアクティビティが含まれている。 実験の結果,6つの最先端記事と比較して精度と速度が有意に向上した。

Automated human action recognition is one of the most attractive and practical research fields in computer vision, in spite of its high computational costs. In such systems, the human action labelling is based on the appearance and patterns of the motions in the video sequences; however, the conventional methodologies and classic neural networks cannot use temporal information for action recognition prediction in the upcoming frames in a video sequence. On the other hand, the computational cost of the preprocessing stage is high. In this paper, we address challenges of the preprocessing phase, by an automated selection of representative frames among the input sequences. Furthermore, we extract the key features of the representative frame rather than the entire features. We propose a hybrid technique using background subtraction and HOG, followed by application of a deep neural network and skeletal modelling method. The combination of a CNN and the LSTM recursive network is considered for feature selection and maintaining the previous information, and finally, a Softmax-KNN classifier is used for labelling human activities. We name our model as Feature Reduction & Deep Learning based action recognition method, or FR-DL in short. To evaluate the proposed method, we use the UCF dataset for the benchmarking which is widely-used among researchers in action recognition research. The dataset includes 101 complicated activities in the wild. Experimental results show a significant improvement in terms of accuracy and speed in comparison with six state-of-the-art articles.
翻訳日:2022-11-13 01:16:18 公開日:2020-07-06
# kernel stein 生成モデル

Kernel Stein Generative Modeling ( http://arxiv.org/abs/2007.03074v1 )

ライセンス: Link先を確認
Wei-Cheng Chang, Chun-Liang Li, Youssef Mroueh, Yiming Yang(参考訳) 我々は,データ分布のスコア関数の推定に基づく反復的勾配更新からサンプルを導出できる,勾配に基づく明示的生成モデルに興味を持っている。 Stochastic Gradient Langevin Dynamics (SGLD)の最近の進歩は、高次元および複雑なデータ分布に関するエネルギーモデルによる印象的な結果を示している。 スタイン変分勾配降下(svgd)は、klの発散を減少させる関数的勾配降下に基づいて、与えられた分布を近似するために粒子の集合を反復的に輸送する決定論的サンプリングアルゴリズムである。 SVGDはいくつかのベイズ推論アプリケーションで有望な結果を得た。 しかし、SVGDを高次元問題に適用することはまだ未定である。 本研究の目的は,SVGDを用いた高次元推論の研究である。 まず,高次元における実用カーネルsvgd推論の重要な課題を明らかにする。 本稿では,最近導入されたノイズ条件スコアネットワーク推定器と協調して動作する雑音条件カーネルsvgd(nck-svgd)を提案する。 NCKは、スコア推定のノイズレベルにカーネルを適応させるため、SVGDの高次元での推論の成功に不可欠である。 NCK-SVGD は実データ分布を目標としている。 熱処理したSVGDをエントロピー正則化で拡張する。 サンプル品質と多様性を柔軟に制御できることを示し,精度とリコール評価によって実証的に検証する。 NCK-SVGDは、MNISTやCIFAR-10を含むコンピュータビジョンベンチマークで、GANと同等のサンプルを生成し、SGLDをアニールした。

We are interested in gradient-based Explicit Generative Modeling where samples can be derived from iterative gradient updates based on an estimate of the score function of the data distribution. Recent advances in Stochastic Gradient Langevin Dynamics (SGLD) demonstrates impressive results with energy-based models on high-dimensional and complex data distributions. Stein Variational Gradient Descent (SVGD) is a deterministic sampling algorithm that iteratively transports a set of particles to approximate a given distribution, based on functional gradient descent that decreases the KL divergence. SVGD has promising results on several Bayesian inference applications. However, applying SVGD on high dimensional problems is still under-explored. The goal of this work is to study high dimensional inference with SVGD. We first identify key challenges in practical kernel SVGD inference in high-dimension. We propose noise conditional kernel SVGD (NCK-SVGD), that works in tandem with the recently introduced Noise Conditional Score Network estimator. NCK is crucial for successful inference with SVGD in high dimension, as it adapts the kernel to the noise level of the score estimate. As we anneal the noise, NCK-SVGD targets the real data distribution. We then extend the annealed SVGD with an entropic regularization. We show that this offers a flexible control between sample quality and diversity, and verify it empirically by precision and recall evaluations. The NCK-SVGD produces samples comparable to GANs and annealed SGLD on computer vision benchmarks, including MNIST and CIFAR-10.
翻訳日:2022-11-13 01:15:41 公開日:2020-07-06
# LMVE at SemEval-2020 Task 4:Commonsense Validation and Explanation using Pretraining Language Model (英語)

LMVE at SemEval-2020 Task 4: Commonsense Validation and Explanation using Pretraining Language Model ( http://arxiv.org/abs/2007.02540v1 )

ライセンス: Link先を確認
Shilei Liu, Yu Guo, Bochao Li and Feiliang Ren(参考訳) 本稿では,SemEval-2020 Task 4のサブタスクaとbについて述べる。 サブタスクaでは、入力フォームが改善されたalbertベースのモデルを使用して、2つのステートメント候補から共通意味文を選択します。 サブタスクbでは、ヒント文機構によって強化された多重選択モデルを用いて、文が常識に反する理由を与えられた選択肢から選択する。 さらに,性能向上を支援するサブタスク間での移動学習戦略を提案する。 我々のシステムの精度スコアは公式のテストセットで95.6 / 94.9であり、ポスト評価のリーダーボードで7$^{th}$ / 2$^{nd}$である。

This paper describes our submission to subtask a and b of SemEval-2020 Task 4. For subtask a, we use a ALBERT based model with improved input form to pick out the common sense statement from two statement candidates. For subtask b, we use a multiple choice model enhanced by hint sentence mechanism to select the reason from given options about why a statement is against common sense. Besides, we propose a novel transfer learning strategy between subtasks which help improve the performance. The accuracy scores of our system are 95.6 / 94.9 on official test set and rank 7$^{th}$ / 2$^{nd}$ on Post-Evaluation leaderboard.
翻訳日:2022-11-13 01:14:54 公開日:2020-07-06
# eコマースにおけるアドレス分類のための深層コンテキスト埋め込み

Deep Contextual Embeddings for Address Classification in E-commerce ( http://arxiv.org/abs/2007.03020v1 )

ライセンス: Link先を確認
Shreyas Mangalgi, Lakshya Kumar and Ravindra Babu Tallamraju(参考訳) インドのような途上国のeコマースの顧客は、発送アドレスを入力する間、固定フォーマットに従わない傾向がある。 このようなアドレスのパーシングは、固有の構造や階層が欠如しているため、難しい。 アドレスの言語を理解することは必須であり、出荷を遅延なくルーティングできる。 本稿では,近年の自然言語処理(NLP)の進歩からモチベーションを導き,顧客アドレスを理解するための新しいアプローチを提案する。 また,編集距離と音韻アルゴリズムの組み合わせを用いてアドレスの前処理手順を定式化する。 次に、TF-IDF、Bi-LSTM、BERTベースのアプローチでWord2Vecを用いてアドレスのベクトル表現を作成するタスクにアプローチする。 これらのアプローチを,北・南インドの都市におけるサブリージョン分類タスクと比較した。 実験により,言語モデリングタスクのための大規模アドレスコーパス上で事前学習した汎用RoBERTaモデルの有効性を示す。 提案するrobertaモデルは,サブリージョン分類タスクに対する最小テキスト前処理で約90%の分類精度を達成し,他の手法よりも優れている。 一度トレーニングを済ませば、RoBERTaモデルはピンコード提案やジオコーディングといったサプライチェーンの様々な下流タスクに対して微調整できる。 このモデルはラベル付きデータに制限がある場合でも、そのようなタスクをうまく一般化する。 私たちの知る限りでは、言語モデルを事前学習し、異なる目的のために微調整することで、Eコマース領域における顧客の住所を理解する新しいアプローチを提案する研究としては、これが初めてのものだ。

E-commerce customers in developing nations like India tend to follow no fixed format while entering shipping addresses. Parsing such addresses is challenging because of a lack of inherent structure or hierarchy. It is imperative to understand the language of addresses, so that shipments can be routed without delays. In this paper, we propose a novel approach towards understanding customer addresses by deriving motivation from recent advances in Natural Language Processing (NLP). We also formulate different pre-processing steps for addresses using a combination of edit distance and phonetic algorithms. Then we approach the task of creating vector representations for addresses using Word2Vec with TF-IDF, Bi-LSTM and BERT based approaches. We compare these approaches with respect to sub-region classification task for North and South Indian cities. Through experiments, we demonstrate the effectiveness of generalized RoBERTa model, pre-trained over a large address corpus for language modelling task. Our proposed RoBERTa model achieves a classification accuracy of around 90% with minimal text preprocessing for sub-region classification task outperforming all other approaches. Once pre-trained, the RoBERTa model can be fine-tuned for various downstream tasks in supply chain like pincode suggestion and geo-coding. The model generalizes well for such tasks even with limited labelled data. To the best of our knowledge, this is the first of its kind research proposing a novel approach of understanding customer addresses in e-commerce domain by pre-training language models and fine-tuning them for different purposes.
翻訳日:2022-11-13 01:08:17 公開日:2020-07-06
# minecraftにおける模倣学習のスケーリング

Scaling Imitation Learning in Minecraft ( http://arxiv.org/abs/2007.02701v1 )

ライセンス: Link先を確認
Artemij Amiranashvili, Nicolai Dorka, Wolfram Burgard, Vladlen Koltun, Thomas Brox(参考訳) 模倣学習は、没入環境における感覚運動の協調を学習するための強力な技術群である。 模倣学習をマインクラフト環境における難解な探索問題に対して最先端のパフォーマンスを達成するために応用する。 本稿では,ネットワークアーキテクチャ,損失関数,データ拡張の影響を明らかにする実験を報告する。 私たちのアプローチの初期バージョンは、NeurIPS 2019でMineRLコンペティションで2位になった。 ここでは,今後のコンペティションエントリや関連する研究の出発点として使用できる,より強力な結果を報告する。 私たちのコードはhttps://github.com/amiranas/minerl_imitation_learningで利用可能です。

Imitation learning is a powerful family of techniques for learning sensorimotor coordination in immersive environments. We apply imitation learning to attain state-of-the-art performance on hard exploration problems in the Minecraft environment. We report experiments that highlight the influence of network architecture, loss function, and data augmentation. An early version of our approach reached second place in the MineRL competition at NeurIPS 2019. Here we report stronger results that can be used as a starting point for future competition entries and related research. Our code is available at https://github.com/amiranas/minerl_imitation_learning.
翻訳日:2022-11-13 01:07:56 公開日:2020-07-06
# 整数線形計画法によるベイズネットワーク構造学習問題の解法

Solving Bayesian Network Structure Learning Problem with Integer Linear Programming ( http://arxiv.org/abs/2007.02829v1 )

ライセンス: Link先を確認
Ronald Seoh(参考訳) この論文はベイジアンネットワーク構造学習問題の整数線形プログラミング(ILP)を定式化する。 本稿では,ベイズネットワークの定義と鍵特性を概観し,ベイズネットワーク構造がデータセットにどの程度適合するかを測定するために用いられるスコアメトリクスについて説明する。 スコアの分解可能性に基づく整数線形プログラミングの定式化について概説する。 構造物の非巡回性を保証するため、一般に有向非巡回グラフに適用できるサイクル制約に加えて、ベイジアンネットワーク用に特別に開発された「クラスター制約」を加える。 完全に指定すれば、これらの制約は指数関数的な数になるので、これらすべてを初期モデルで宣言することなく、切断平面として加える方法を説明します。 また、有向非巡回グラフ上のシンクノードのアイデアに基づいて実現可能な解を求めるヒューリスティックアルゴリズムを開発した。 ILP の定式化と切断平面を \textsf{Python} パッケージとして実装し,参照データセットの異なる設定による実験結果を示す。

This dissertation investigates integer linear programming (ILP) formulation of Bayesian Network structure learning problem. We review the definition and key properties of Bayesian network and explain score metrics used to measure how well certain Bayesian network structure fits the dataset. We outline the integer linear programming formulation based on the decomposability of score metrics. In order to ensure acyclicity of the structure, we add ``cluster constraints'' developed specifically for Bayesian network, in addition to cycle constraints applicable to directed acyclic graphs in general. Since there would be exponential number of these constraints if we specify them fully, we explain the methods to add them as cutting planes without declaring them all in the initial model. Also, we develop a heuristic algorithm that finds a feasible solution based on the idea of sink node on directed acyclic graphs. We implemented the ILP formulation and cutting planes as a \textsf{Python} package, and present the results of experiments with different settings on reference datasets.
翻訳日:2022-11-13 01:07:46 公開日:2020-07-06
# 長距離多目的強化学習のための最大エントロピーゲイン探索

Maximum Entropy Gain Exploration for Long Horizon Multi-goal Reinforcement Learning ( http://arxiv.org/abs/2007.02832v1 )

ライセンス: Link先を確認
Silviu Pitis, Harris Chan, Stephen Zhao, Bradly Stadie, Jimmy Ba(参考訳) 長距離訓練における多目的強化学習エージェントはどのような目標を追求すべきか? 望ましい(テスト時間)目標分布が、有用な学習信号を提供するには遠すぎる場合、エージェントは目立たない目標を追求すべきではないと主張する。 その代わり、歴史的達成された目標分布のエントロピーを最大化する独自の固有の目標を設定するべきである。 本稿では,達成可能な目標セットのフロンティアの探索に焦点を当てた,目標空間の疎い領域において,過去の達成目標をエージェントが追求することで,この目的を最適化することを提案する。 提案手法は,mazeナビゲーションやブロック積み重ねを含む長時間ホリゾンマルチゴールタスクにおいて,従来の技術よりも1桁高いサンプル効率を実現していることを示す。

What goals should a multi-goal reinforcement learning agent pursue during training in long-horizon tasks? When the desired (test time) goal distribution is too distant to offer a useful learning signal, we argue that the agent should not pursue unobtainable goals. Instead, it should set its own intrinsic goals that maximize the entropy of the historical achieved goal distribution. We propose to optimize this objective by having the agent pursue past achieved goals in sparsely explored areas of the goal space, which focuses exploration on the frontier of the achievable goal set. We show that our strategy achieves an order of magnitude better sample efficiency than the prior state of the art on long-horizon multi-goal tasks including maze navigation and block stacking.
翻訳日:2022-11-13 01:07:29 公開日:2020-07-06
# 社会的畳み込みと注意機構を用いた交通エージェント軌道予測

Traffic Agent Trajectory Prediction Using Social Convolution and Attention Mechanism ( http://arxiv.org/abs/2007.02515v1 )

ライセンス: Link先を確認
Tao Yang, Zhixiong Nan, He Zhang, Shitao Chen and Nanning Zheng(参考訳) 軌道予測は自動運転車の意思決定に重要である。 本稿では,自律走行車周辺におけるターゲットエージェントの軌道予測モデルを提案する。 本手法の主な考え方は,対象エージェントの履歴軌跡と周辺エージェントが対象エージェントに与える影響を検討することである。 この目的のために,対象エージェント履歴軌跡を注意マスクとしてエンコードし,対象エージェントとその周辺エージェントとの相互作用関係をエンコードするソーシャルマップを構築する。 トラジェクトリシーケンスが与えられると、まずLSTMネットワークを使用して、注目マスクとソーシャルマップが形成されるすべてのエージェントの特徴を抽出する。 そして、注目マスクとソーシャルマップとを融合させて融合特徴マップを取得し、社会畳み込みによって処理され、融合特徴表現を得る。 最後に、この融合特徴を可変長LSTMの入力として、対象エージェントの軌道を予測する。 可変長LSTMにより,センサ範囲内のエージェント数が交通シーンにおいて非常に動的である場合の処理が可能となることに留意する。 提案手法の有効性を検証するため,公開データセット上の複数の手法と比較し,20%の誤差低減を実現した。 さらに、モデルは32fpsでリアルタイム要求を満たす。

The trajectory prediction is significant for the decision-making of autonomous driving vehicles. In this paper, we propose a model to predict the trajectories of target agents around an autonomous vehicle. The main idea of our method is considering the history trajectories of the target agent and the influence of surrounding agents on the target agent. To this end, we encode the target agent history trajectories as an attention mask and construct a social map to encode the interactive relationship between the target agent and its surrounding agents. Given a trajectory sequence, the LSTM networks are firstly utilized to extract the features for all agents, based on which the attention mask and social map are formed. Then, the attention mask and social map are fused to get the fusion feature map, which is processed by the social convolution to obtain a fusion feature representation. Finally, this fusion feature is taken as the input of a variable-length LSTM to predict the trajectory of the target agent. We note that the variable-length LSTM enables our model to handle the case that the number of agents in the sensing scope is highly dynamic in traffic scenes. To verify the effectiveness of our method, we widely compare with several methods on a public dataset, achieving a 20% error decrease. In addition, the model satisfies the real-time requirement with the 32 fps.
翻訳日:2022-11-13 01:06:43 公開日:2020-07-06