このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200506となっている論文です。

PDF登録状況(公開日: 20200506)

TitleAuthorsAbstract論文公表日・翻訳日
# 低ビットレートサーベイランスビデオ圧縮のための生成記憶・再生フレームワーク

Generative Memorize-Then-Recall framework for low bit-rate Surveillance Video Compression ( http://arxiv.org/abs/1912.12847v3 )

ライセンス: Link先を確認
Yaojun Wu, Tianyu He, Zhibo Chen(参考訳) 監視ビデオの応用は近年急速に発展し、公共の安全と日常生活を保護し、しばしばビデオシーケンス中の物体を検出して認識している。 従来のコーディングフレームワークは、ブロック的な動き補償によって監視ビデオの時間的冗長性を取り除き、固有の構造情報の抽出と利用を欠いている。 本稿では,グループ・オブ・ピクチャー(GoP)のグローバル時空間的特徴(メモリ)と,各フレーム(キュー)のスケルトン構造に監視映像を組み込むことにより,この問題を解消する。 メモリは、gop内部のフレームを繰り返しニューラルネットワークに順次送り込み、gopの内部に現れるオブジェクトの外観を記述することで得られる。 骨格はポーズ推定器によって計算されるが、記憶を思い出す手がかりと考えられている。 さらに,外観と骨格の関係を把握するために注意機構を導入する。 最後に,各フレームの再構成に生成対向ネットワークを用いる。 実験結果から,本手法は,最新のh.265に比べて監視映像の圧縮性能がはるかに高い外観と骨格に基づく現実的な再構成を効果的に生成できることが判明した。

Applications of surveillance video have developed rapidly in recent years to protect public safety and daily life, which often detect and recognize objects in video sequences. Traditional coding frameworks remove temporal redundancy in surveillance video by block-wise motion compensation, lacking the extraction and utilization of inherent structure information. In this paper, we figure out this issue by disentangling surveillance video into the structure of a global spatio-temporal feature (memory) for Group of Picture (GoP) and skeleton for each frame (clue). The memory is obtained by sequentially feeding frame inside GoP into a recurrent neural network, describing appearance for objects that appeared inside GoP. While the skeleton is calculated by a pose estimator, it is regarded as a clue to recall memory. Furthermore, an attention mechanism is introduced to obtain the relation between appearance and skeletons. Finally, we employ generative adversarial network to reconstruct each frame. Experimental results indicate that our method effectively generates realistic reconstruction based on appearance and skeleton, which show much higher compression performance on surveillance video compared with the latest video compression standard H.265.
翻訳日:2023-01-17 02:34:57 公開日:2020-05-06
# 欠陥間の絡み合い負性度の時間発展

Time evolution of entanglement negativity across a defect ( http://arxiv.org/abs/2001.06274v2 )

ライセンス: Link先を確認
Matthias Gruber and Viktor Eisler(参考訳) 欠陥を介して2つの同種半鎖を結合することで、自由フェルミオン鎖のクエンチを考える。 エンタングルメント負性率の時間進化は、欠陥を取り巻く隣接セグメント間で研究される。 等しい初期充填の場合、負性は時間的に対数的に増大し、R'enyi の相互情報の半分を指数 $\alpha = 1/2$ で大セグメントの極限で等しい。 鋭い対照的に、偏りのある場合、両方の量に対して大きな値で飽和が続き、欠陥からの後方散乱により線形増加が見られ、準粒子画像で再現できる。 さらに、下降補正の綿密な検査により、負性および相互情報が定常状態の小さいが有限な差を持つことが明らかとなった。 最後に,密度行列再正規化群法によるXXZスピン鎖の類似のクエンチについても検討し,フェルミオンの場合と比較した。

We consider a quench in a free-fermion chain by joining two homogeneous half-chains via a defect. The time evolution of the entanglement negativity is studied between adjacent segments surrounding the defect. In case of equal initial fillings, the negativity grows logarithmically in time and essentially equals one-half of the R\'enyi mutual information with index $\alpha = 1/2$ in the limit of large segments. In sharp contrast, in the biased case one finds a linear increase followed by the saturation at an extensive value for both quantities, which is due to the backscattering from the defect and can be reproduced in a quasiparticle picture. Furthermore, a closer inspection of the subleading corrections reveals that the negativity and the mutual information have a small but finite difference in the steady state. Finally, we also study a similar quench in the XXZ spin chain via density-matrix renormalization group methods and compare the results for the negativity to the fermionic case.
翻訳日:2023-01-10 13:13:36 公開日:2020-05-06
# 記述論理 elhr の証明

Provenance for the Description Logic ELHr ( http://arxiv.org/abs/2001.07541v2 )

ライセンス: Link先を確認
Camille Bourgaux, Ana Ozaki, Rafael Pe\~naloza and Livia Predoiu(参考訳) ELHrオントロジーにおける前兆情報処理の問題に対処する。 本稿では,オントロジーに基づくデータアクセスの設定について考察し,オントロジーの公理に証明トークンを付加したセミリングと古典的データ証明の拡張について考察する。 その結果、導出に関わる公理の証明を継承し、注釈として証明多項式を生成する。 ELHrの場合のセマンティクスを分析し,結合の存在が証明の扱いに様々な困難をもたらすことを示し,その一部はセミリングの乗法的イデオロポシーを仮定することによって緩和されている。 本仮定では, オントロジーの完備化, 結果に対する関連する公理の集合の計算, 問合せ応答の3つの問題について検討する。

We address the problem of handling provenance information in ELHr ontologies. We consider a setting recently introduced for ontology-based data access, based on semirings and extending classical data provenance, in which ontology axioms are annotated with provenance tokens. A consequence inherits the provenance of the axioms involved in deriving it, yielding a provenance polynomial as an annotation. We analyse the semantics for the ELHr case and show that the presence of conjunctions poses various difficulties for handling provenance, some of which are mitigated by assuming multiplicative idempotency of the semiring. Under this assumption, we study three problems: ontology completion with provenance, computing the set of relevant axioms for a consequence, and query answering.
翻訳日:2023-01-08 00:19:04 公開日:2020-05-06
# ソリッドメカニクスにおける解法と発見のためのディープラーニングフレームワーク

A deep learning framework for solution and discovery in solid mechanics ( http://arxiv.org/abs/2003.02751v2 )

ライセンス: Link先を確認
Ehsan Haghighat, Maziar Raissi, Adrian Moure, Hector Gomez, Ruben Juanes(参考訳) 本稿では,物理情報ニューラルネットワーク(PINN)と呼ばれるディープラーニングのクラスを,固体力学の学習と発見に応用する。 運動量バランスと構成的関係をPINNに組み込む方法を説明し、線形弾性への応用を詳細に検討し、von–Misesエラスト塑性を示す例を通して非線形問題への拡張を説明する。 一般的なPINNアルゴリズムは1つのディープニューラルネットワーク(DNN)のトレーニングに基づいているが、フィールド変数をより正確に表現できるマルチネットワークモデルを提案する。 モデルを検証するために,解析的および数値的参照解から生成した合成データを用いた枠組みを検証した。 ピンモデルの収束について検討し, 等geometric analysis (iga) が従来の低次有限要素法 (fem) と比較して精度と収束特性に優れることを示した。 また,トランスファー学習のフレームワークの適用可能性を示し,ネットワーク再トレーニング時の収束を著しく促進した。 最後に、物理を尊重することで堅牢性が向上し、いくつかのパラメータのみをトレーニングすると、PINNモデルはネットワークに新たに導入された幅広いパラメータの解を正確に予測できることがわかった。

We present the application of a class of deep learning, known as Physics Informed Neural Networks (PINN), to learning and discovery in solid mechanics. We explain how to incorporate the momentum balance and constitutive relations into PINN, and explore in detail the application to linear elasticity, and illustrate its extension to nonlinear problems through an example that showcases von~Mises elastoplasticity. While common PINN algorithms are based on training one deep neural network (DNN), we propose a multi-network model that results in more accurate representation of the field variables. To validate the model, we test the framework on synthetic data generated from analytical and numerical reference solutions. We study convergence of the PINN model, and show that Isogeometric Analysis (IGA) results in superior accuracy and convergence characteristics compared with classic low-order Finite Element Method (FEM). We also show the applicability of the framework for transfer learning, and find vastly accelerated convergence during network re-training. Finally, we find that honoring the physics leads to improved robustness: when trained only on a few parameters, we find that the PINN model can accurately predict the solution for a wide range of parameters new to the network---thus pointing to an important application of this framework to sensitivity analysis and surrogate modeling.
翻訳日:2023-01-01 04:41:15 公開日:2020-05-06
# 深層学習によるセンチネル1sarの湖氷検出

Lake Ice Detection from Sentinel-1 SAR with Deep Learning ( http://arxiv.org/abs/2002.07040v2 )

ライセンス: Link先を確認
Manu Tom, Roberto Aguilar, Pascal Imhof, Silvan Leinss, Emmanuel Baltsavias and Konrad Schindler(参考訳) 氷湖は、本質的気候変数(ecv)湖の一部として、気候変動と地球温暖化を監視する重要な指標である。 湖氷の時空間的範囲は、凍結や分裂といった重要な現象のタイミングとともに、地域の気候や地球規模の気候に関する重要な手がかりとなる。 本稿では,深層ニューラルネットワークを用いたSentinel-1 Synthetic Aperture Radar(SAR)データの自動解析に基づく湖氷モニタリングシステムを提案する。 湖氷モニタリングに光学衛星画像を用いた過去の研究では、気象や照明条件に関わらず、マイクロ波センサーが雲を貫通し湖を観測する能力のおかげで、頻繁に雲を覆うことが主な制限要因であった。 氷検出を2クラス(凍結・非凍結)のセマンティックセグメンテーション問題とし,最先端の深部畳み込みネットワーク(CNN)を用いて解いた。 スイスにおける2つの冬(2016年 - 17年, 2017年 - 18年)と3つのアルプス湖について報告した。 提案モデルは平均交点オーバーユニオン (miou) のスコアが平均で90%以上、最も難しい湖でも84%以上に達する。 さらに,相互評価試験を行い,未発見の湖沼と冬をまたいでアルゴリズムがよく一般化することを示す。

Lake ice, as part of the Essential Climate Variable (ECV) lakes, is an important indicator to monitor climate change and global warming. The spatio-temporal extent of lake ice cover, along with the timings of key phenological events such as freeze-up and break-up, provide important cues about the local and global climate. We present a lake ice monitoring system based on the automatic analysis of Sentinel-1 Synthetic Aperture Radar (SAR) data with a deep neural network. In previous studies that used optical satellite imagery for lake ice monitoring, frequent cloud cover was a main limiting factor, which we overcome thanks to the ability of microwave sensors to penetrate clouds and observe the lakes regardless of the weather and illumination conditions. We cast ice detection as a two class (frozen, non-frozen) semantic segmentation problem and solve it using a state-of-the-art deep convolutional network (CNN). We report results on two winters ( 2016 - 17 and 2017 - 18 ) and three alpine lakes in Switzerland. The proposed model reaches mean Intersection-over-Union (mIoU) scores >90% on average, and >84% even for the most difficult lake. Additionally, we perform cross-validation tests and show that our algorithm generalises well across unseen lakes and winters.
翻訳日:2022-12-31 13:10:20 公開日:2020-05-06
# シングルショットインスタンスセグメンテーションのためのマスク符号化

Mask Encoding for Single Shot Instance Segmentation ( http://arxiv.org/abs/2003.11712v2 )

ライセンス: Link先を確認
Rufeng Zhang, Zhi Tian, Chunhua Shen, Mingyu You, Youliang Yan(参考訳) 現在、インスタンスセグメンテーションは、Mask R-CNNが開拓した2段階の手法によって支配されている。 対照的に、ワンステージの代替案はマスクapのマスクr-cnnと競合できないが、主にマスクをコンパクトに表現することの難しさから、ワンステージ方式の設計は非常に困難である。 本研究では,単純なシングルショットインスタンスセグメンテーションフレームワークであるマスクエンコーディングに基づくインスタンスセグメンテーション(meinst)を提案する。 2次元マスクを直接予測する代わりに、meinstはそれをコンパクトで固定次元の表現ベクトルに蒸留し、インスタンス分割タスクを1段階のバウンディングボックス検出器に組み込むことができ、シンプルで効率的なインスタンスセグメンテーションフレームワークとなる。 提案された1段階のMEInstは、シングルモデル(ResNeXt-101-FPNバックボーン)とMS-COCOベンチマークでのシングルスケールテストで36.4%のマスクAPを達成した。 よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。 このフレームワークは、他のインスタンスレベルの認識タスクに容易に適応できる。 コードは、https://git.io/AdelaiDet.comで入手できる。

To date, instance segmentation is dominated by twostage methods, as pioneered by Mask R-CNN. In contrast, one-stage alternatives cannot compete with Mask R-CNN in mask AP, mainly due to the difficulty of compactly representing masks, making the design of one-stage methods very challenging. In this work, we propose a simple singleshot instance segmentation framework, termed mask encoding based instance segmentation (MEInst). Instead of predicting the two-dimensional mask directly, MEInst distills it into a compact and fixed-dimensional representation vector, which allows the instance segmentation task to be incorporated into one-stage bounding-box detectors and results in a simple yet efficient instance segmentation framework. The proposed one-stage MEInst achieves 36.4% in mask AP with single-model (ResNeXt-101-FPN backbone) and single-scale testing on the MS-COCO benchmark. We show that the much simpler and flexible one-stage instance segmentation method, can also achieve competitive performance. This framework can be easily adapted for other instance-level recognition tasks. Code is available at: https://git.io/AdelaiDet
翻訳日:2022-12-19 21:51:21 公開日:2020-05-06
# 自然言語からのICD10メディカルエンティティの神経翻訳と自動認識

Neural translation and automated recognition of ICD10 medical entities from natural language ( http://arxiv.org/abs/2004.13839v2 )

ライセンス: Link先を確認
Louis Falissard, Claire Morgand, Sylvie Roussel, Claire Imbaud, Walid Ghosn, Karim Bounebache, Gr\'egoire Rey(参考訳) 自然言語からの医療機関の認識は医療分野においてユビキタスな問題であり、医療行為のコーディングから公衆衛生のための電子健康データの解析まで幅広い応用がある。 しかし、これは人間の専門的な介入を必要とする複雑な作業であり、拡張性と時間を要する。 近年の人工知能の進歩、特にディープラーニングの手法の隆盛は、ニューラルネットワークのシーケンスモデルとその自然言語処理における強力な応用など、多くの複雑な問題に対してコンピュータが効率的な意思決定を可能にした。 しかし、そこから学ぶにはかなりの量のデータが必要であり、それは通常彼らの主な制限要因である。 しかし、C\'epiDcは、死証明の完全なデータベースをフランス全国規模で保存し、関連する人間のコード化された医療機関が機械学習の実践者に提供する、数百万の自然言語サンプルを蓄積している。 本稿では,自然言語問題からの医学的実体認識に対する深層神経配列モデルの応用について検討する。

The recognition of medical entities from natural language is an ubiquitous problem in the medical field, with applications ranging from medical act coding to the analysis of electronic health data for public health. It is however a complex task usually requiring human expert intervention, thus making it expansive and time consuming. The recent advances in artificial intelligence, specifically the raise of deep learning methods, has enabled computers to make efficient decisions on a number of complex problems, with the notable example of neural sequence models and their powerful applications in natural language processing. They however require a considerable amount of data to learn from, which is typically their main limiting factor. However, the C\'epiDc stores an exhaustive database of death certificates at the French national scale, amounting to several millions of natural language examples provided with their associated human coded medical entities available to the machine learning practitioner. This article investigates the applications of deep neural sequence models to the medical entity recognition from natural language problem.
翻訳日:2022-12-19 04:18:49 公開日:2020-05-06
# 強化学習による進化の模倣

Mimicking Evolution with Reinforcement Learning ( http://arxiv.org/abs/2004.00048v2 )

ライセンス: Link先を確認
Jo\~ao P. Abrantes, Arnaldo J. Abrantes, Frans A. Oliehoek(参考訳) 進化は地球上で人間と動物の知性を生み出した。 人工的な人間のような知性を生み出すための道は、自然のシミュレーションで進化の過程を模倣する。 自然界では、脳の発達を駆動する2つのプロセスがあります。 進化は世代をまたいでゆっくりと、そして何よりも、内部の報酬関数を変えることによって、エージェントが何を学べるかを定義する。 学習は生涯を通じて素早く行動し、快楽を最大化し痛みを最小化するためにエージェントのポリシーを迅速に更新する。 報酬機能は、進化によってフィットネス機能と緩やかに一致しているが、エージェントが環境を進化させ、そのフィットネス機能も変化し、報酬とフィットネスの間の不一致が増大する。 この2つのプロセスをシミュレーションで再現する計算コストは非常に高い。 この研究は、EvER(Evolutionary Reward)による進化論を提案し、学習者は、報酬関数とフィットネス関数との整合性を確保することで、より進化的な適合性を持つポリシーの探索を単手で行うことができる。 この検索では、EvERはエージェントが生涯にわたって行う全ての状態行動軌跡を利用する。 対照的に、現在の進化的アルゴリズムはこの情報を破棄し、結果としてシーケンシャルな決定問題に取り組む際の潜在的な効率を制限する。 このアルゴリズムを2つの単純なバイオインスパイアされた環境でテストし、最先端の進化的アルゴリズムと比較して、生存と遺伝子再生においてより有能なエージェントの生成に優れていることを示した。

Evolution gave rise to human and animal intelligence here on Earth. We argue that the path to developing artificial human-like-intelligence will pass through mimicking the evolutionary process in a nature-like simulation. In Nature, there are two processes driving the development of the brain: evolution and learning. Evolution acts slowly, across generations, and amongst other things, it defines what agents learn by changing their internal reward function. Learning acts fast, across one's lifetime, and it quickly updates agents' policy to maximise pleasure and minimise pain. The reward function is slowly aligned with the fitness function by evolution, however, as agents evolve the environment and its fitness function also change, increasing the misalignment between reward and fitness. It is extremely computationally expensive to replicate these two processes in simulation. This work proposes Evolution via Evolutionary Reward (EvER) that allows learning to single-handedly drive the search for policies with increasingly evolutionary fitness by ensuring the alignment of the reward function with the fitness function. In this search, EvER makes use of the whole state-action trajectories that agents go through their lifetime. In contrast, current evolutionary algorithms discard this information and consequently limit their potential efficiency at tackling sequential decision problems. We test our algorithm in two simple bio-inspired environments and show its superiority at generating more capable agents at surviving and reproducing their genes when compared with a state-of-the-art evolutionary algorithm.
翻訳日:2022-12-18 01:07:24 公開日:2020-05-06
# 深層学習に基づく無人航空機事故の検出と同定

On-board Deep-learning-based Unmanned Aerial Vehicle Fault Cause Detection and Identification ( http://arxiv.org/abs/2005.00336v2 )

ライセンス: Link先を確認
Vidyasagar Sadhu, Saman Zonouz, Dario Pompili(参考訳) 無人航空機(uavs)/drnesの使用の増加に伴い、事故ライクなシナリオやインシデント後の鑑識分析から適切な回復のために、リアルタイムに故障原因を検出し識別することが重要である。 墜落の原因は、センサー・アクティベーターシステムの故障、物理的ダメージ・攻撃、またはドローンのソフトウェアへのサイバー攻撃である可能性がある。 本稿では,センサデータに基づくドローンの誤動作の検出と分類を行うために,深層畳み込み・長短期記憶ニューラルネットワーク(CNN,LSTM)に基づく新しいアーキテクチャを提案する。 提案アーキテクチャでは,センサデータから高次特徴を自動的に学習し,センサデータの空間的・時間的ダイナミクスを学習することができる。 提案したディープラーニングアーキテクチャを,実機でのシミュレーションと実験により検証する。 実験結果によると、我々のソリューションは90%以上の精度で検出でき、様々な種類のドローンの誤動作(シミュレーションデータ)を99%の精度で、最大88%の精度(実験データ)で分類できる。

With the increase in use of Unmanned Aerial Vehicles (UAVs)/drones, it is important to detect and identify causes of failure in real time for proper recovery from a potential crash-like scenario or post incident forensics analysis. The cause of crash could be either a fault in the sensor/actuator system, a physical damage/attack, or a cyber attack on the drone's software. In this paper, we propose novel architectures based on deep Convolutional and Long Short-Term Memory Neural Networks (CNNs and LSTMs) to detect (via Autoencoder) and classify drone mis-operations based on sensor data. The proposed architectures are able to learn high-level features automatically from the raw sensor data and learn the spatial and temporal dynamics in the sensor data. We validate the proposed deep-learning architectures via simulations and experiments on a real drone. Empirical results show that our solution is able to detect with over 90% accuracy and classify various types of drone mis-operations (with about 99% accuracy (simulation data) and upto 88% accuracy (experimental data)).
翻訳日:2022-12-17 04:29:12 公開日:2020-05-06
# 因果集団同定による個別治療効果の推定

Estimating Individual Treatment Effects through Causal Populations Identification ( http://arxiv.org/abs/2004.05013v3 )

ライセンス: Link先を確認
C\'eline Beji, Micha\"el Bon, Florian Yger, Jamal Atif(参考訳) 観察データから個々の治療効果を推定することは、治療や介入のない結果の差として定義され、両者のどちらかを観察しながらも、因果学習において難しい問題である。 本稿では,隠れ変数からの推論としてこの問題を定式化し,4つの排他的因果集団のモデルに基づいて因果制約を課す。 我々は,ecmアルゴリズムとして考案されたemアルゴリズムの新バージョンを提案し,軽度条件下での収束に関するヒントを提供する。 本アルゴリズムと合成および実世界のデータに基づくベースライン手法を比較し,その性能について考察する。

Estimating the Individual Treatment Effect from observational data, defined as the difference between outcomes with and without treatment or intervention, while observing just one of both, is a challenging problems in causal learning. In this paper, we formulate this problem as an inference from hidden variables and enforce causal constraints based on a model of four exclusive causal populations. We propose a new version of the EM algorithm, coined as Expected-Causality-Maximization (ECM) algorithm and provide hints on its convergence under mild conditions. We compare our algorithm to baseline methods on synthetic and real-world data and discuss its performances.
翻訳日:2022-12-14 20:17:47 公開日:2020-05-06
# 平・階層分類における胸部X線画像中のCOVID-19の同定

COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios ( http://arxiv.org/abs/2004.05835v3 )

ライセンス: Link先を確認
Rodolfo M. Pereira, Diego Bertolini, Lucas O. Teixeira, Carlos N. Silla Jr., and Yandre M. G. Costa(参考訳) 新型コロナウイルス(covid-19)は重症肺炎を引き起こす可能性があり、医療システムに大きな影響を与えると推定されている。 肺炎の標準的な画像診断検査は、胸部x線(cxr)とct(ct)スキャンである。 CXRはCTよりも安価で、高速で、広く普及しているため有用である。 本研究は、cxr画像のみを用いて、他のタイプや健康な肺からcovid-19による肺炎を同定することを目的としている。 目的を達成するために,肺炎は階層構造として構成できるため,多類・階層的視点を考慮した分類スキーマを提案する。 この領域における自然データ不均衡を考えると、クラス分布の再均衡のために再サンプリングアルゴリズムも提案した。 分類スキーマは、よく知られたテクスチャ記述子と事前訓練されたCNNモデルを用いて特徴を抽出する。 また,複数のテクスチャ記述子とベース分類器の強度を同時に活用するために,早期および後期の融合手法についても検討した。 このアプローチを評価するために,異なる病原体による肺炎のcxr画像と健康な肺のcxr画像を含むrydls-20というデータベースを作成した。 クラス分布は、いくつかの病原体が他の病原体よりも一般的である現実世界のシナリオに従う。 提案手法は,マルチクラスアプローチによるマクロavg f1-score 0.65,階層分類シナリオにおけるcovid-19識別のためのf1-score 0.89を用いて達成した。 知る限り、私たちは3つ以上のクラスを持つ不均衡な環境で、新型コロナウイルスの診断で得られる最高の名目率を達成した。 また, 病原菌による肺炎の種類を考慮し, ここで得られた新型コロナウイルスの認識率を最も高く評価する, 新たな階層分類手法についても強調する必要がある。

The COVID-19 can cause severe pneumonia and is estimated to have a high impact on the healthcare system. The standard image diagnosis tests for pneumonia are chest X-ray (CXR) and computed tomography (CT) scan. CXR are useful in because it is cheaper, faster and more widespread than CT. This study aims to identify pneumonia caused by COVID-19 from other types and also healthy lungs using only CXR images. In order to achieve the objectives, we have proposed a classification schema considering the multi-class and hierarchical perspectives, since pneumonia can be structured as a hierarchy. Given the natural data imbalance in this domain, we also proposed the use of resampling algorithms in order to re-balance the classes distribution. Our classification schema extract features using some well-known texture descriptors and also using a pre-trained CNN model. We also explored early and late fusion techniques in order to leverage the strength of multiple texture descriptors and base classifiers at once. To evaluate the approach, we composed a database, named RYDLS-20, containing CXR images of pneumonia caused by different pathogens as well as CXR images of healthy lungs. The classes distribution follows a real-world scenario in which some pathogens are more common than others. The proposed approach achieved a macro-avg F1-Score of 0.65 using a multi-class approach and a F1-Score of 0.89 for the COVID-19 identification in the hierarchical classification scenario. As far as we know, we achieved the best nominal rate obtained for COVID-19 identification in an unbalanced environment with more than three classes. We must also highlight the novel proposed hierarchical classification approach for this task, which considers the types of pneumonia caused by the different pathogens and lead us to the best COVID-19 recognition rate obtained here.
翻訳日:2022-12-13 23:15:58 公開日:2020-05-06
# パーキンソン病分類と回帰分析のトポロジ的記述

Topological Descriptors for Parkinson's Disease Classification and Regression Analysis ( http://arxiv.org/abs/2004.07384v2 )

ライセンス: Link先を確認
Afra Nawar, Farhan Rahman, Narayanan Krishnamurthi, Anirudh Som and Pavan Turaga(参考訳) 現在、神経疾患患者の大多数は、患者データの個人的評価と質的分析を通じて診断されている。 本稿では,パーキンソン病の分類と重症度評価のプロセスを自動化するために,TDA(Topological Data Analysis)と機械学習ツールを併用することを提案する。 パーキンソン病を自動化し、安定し、正確に評価する方法は、患者の診断を合理化し、家族に矯正措置の時間を与える上で重要である。 本稿では,パーキンソン病の姿勢変化解析にTDAを取り入れた手法を提案する。 システムのトポロジーの研究は、データの小さな変化に不変であることが証明され、識別タスクでうまく機能することが示されている。 論文の貢献は2つある。 提案する手法を提案する。 1)健康な患者を病に苦しむ患者から分類し, 2)疾患の重症度を診断する。 本稿では, パーキンソン病データセットを健康高齢者, 健常若年者, パーキンソン病患者に応用することを目的とした。 私たちのコードはhttps://github.com/itsmeafra/sublevel-set-tdaで利用可能です。

At present, the vast majority of human subjects with neurological disease are still diagnosed through in-person assessments and qualitative analysis of patient data. In this paper, we propose to use Topological Data Analysis (TDA) together with machine learning tools to automate the process of Parkinson's disease classification and severity assessment. An automated, stable, and accurate method to evaluate Parkinson's would be significant in streamlining diagnoses of patients and providing families more time for corrective measures. We propose a methodology which incorporates TDA into analyzing Parkinson's disease postural shifts data through the representation of persistence images. Studying the topology of a system has proven to be invariant to small changes in data and has been shown to perform well in discrimination tasks. The contributions of the paper are twofold. We propose a method to 1) classify healthy patients from those afflicted by disease and 2) diagnose the severity of disease. We explore the use of the proposed method in an application involving a Parkinson's disease dataset comprised of healthy-elderly, healthy-young and Parkinson's disease patients. Our code is available at https://github.com/itsmeafra/Sublevel-Set-TDA.
翻訳日:2022-12-13 03:14:04 公開日:2020-05-06
# Stack Overflow Post Editsの注釈付きデータセット

An Annotated Dataset of Stack Overflow Post Edits ( http://arxiv.org/abs/2004.08193v2 )

ライセンス: Link先を確認
Sebastian Baltes, Markus Wagner(参考訳) ソフトウェアエンジニアリングを改善するため、ソフトウェアリポジトリはコードスニペットとバグ修正のために掘り下げられた。 通常、このマイニングはファイルやコミットのレベルで行われる。 より深く掘り下げて、より高い解像度で洞察を抽出するために、stack overflowで700万以上のコードとテキストの編集を含む注釈付きデータセットを提示します。 予備研究では,これらの編集は,例えば非機能特性の最適化など,細粒度パッチに関する情報をマイニングするための宝庫である可能性が示唆された。

To improve software engineering, software repositories have been mined for code snippets and bug fixes. Typically, this mining takes place at the level of files or commits. To be able to dig deeper and to extract insights at a higher resolution, we hereby present an annotated dataset that contains over 7 million edits of code and text on Stack Overflow. Our preliminary study indicates that these edits might be a treasure trove for mining information about fine-grained patches, e.g., for the optimisation of non-functional properties.
翻訳日:2022-12-12 13:15:12 公開日:2020-05-06
# 拡張多重モード低ランク前・全変動を用いたテンソル補修

Tensor completion using enhanced multiple modes low-rank prior and total variation ( http://arxiv.org/abs/2004.08747v3 )

ライセンス: Link先を確認
Haijin Zeng, Xiaozhen Xie, Jifeng Ning(参考訳) 本稿では,二重核ノルム正規化低ランク行列因子化と基底テンソルの全モードマージを同時に行うことにより,低ランクテンソルを回復する新しいモデルを提案する。 モデルを解くためにブロック列上界最小化アルゴリズムが適用される。 我々のアルゴリズムのサブシーケンス収束は確立でき、いくつかの穏やかな条件下では、我々のアルゴリズムは座標方向最小化器に収束する。 3種類の公開データセットに関するいくつかの実験により、我々のアルゴリズムは、他の試験テンソル完成法よりもはるかに少ないサンプルから様々な低ランクテンソルを復元できることを示した。

In this paper, we propose a novel model to recover a low-rank tensor by simultaneously performing double nuclear norm regularized low-rank matrix factorizations to the all-mode matricizations of the underlying tensor. An block successive upper-bound minimization algorithm is applied to solve the model. Subsequence convergence of our algorithm can be established, and our algorithm converges to the coordinate-wise minimizers in some mild conditions. Several experiments on three types of public data sets show that our algorithm can recover a variety of low-rank tensors from significantly fewer samples than the other testing tensor completion methods.
翻訳日:2022-12-12 00:24:15 公開日:2020-05-06
# 重み付きチーガーとバッサーの不等式とクラスタリングとカット確率密度への応用

Weighted Cheeger and Buser Inequalities, with Applications to Clustering and Cutting Probability Densities ( http://arxiv.org/abs/2004.09589v3 )

ライセンス: Link先を確認
Timothy Chu and Gary L. Miller and Noel J. Walkington and Alex L. Wang(参考訳) 本稿では,確率密度関数のスパースカットが,その主固有関数のチーガーカットとどのように関係しているかを,'スパースカット'と'主固有関数'の適切な定義に対して示す。 確率密度設定におけるスパースカットと主固有関数の適切な定義を構築する。 次に, alon-milman の正規化グラフラプラシアンに類似したチーガー型とバスター型不等式を証明する。 そのような不等式がスパースカットや主固有函数の定義のほとんどに当てはまらないことを示す。 この結果を用いて,スペクトルクラスタリングの原理的変種を含む確率密度とクラスタリングデータを削減する新しいアルゴリズムを生成する。

In this paper, we show how sparse or isoperimetric cuts of a probability density function relate to Cheeger cuts of its principal eigenfunction, for appropriate definitions of `sparse cut' and `principal eigenfunction'. We construct these appropriate definitions of sparse cut and principal eigenfunction in the probability density setting. Then, we prove Cheeger and Buser type inequalities similar to those for the normalized graph Laplacian of Alon-Milman. We demonstrate that no such inequalities hold for most prior definitions of sparse cut and principal eigenfunction. We apply this result to generate novel algorithms for cutting probability densities and clustering data, including a principled variant of spectral clustering.
翻訳日:2022-12-11 18:20:55 公開日:2020-05-06
# 局所更新の階層的クラスタリングによるフェデレーション学習による非IIDデータのトレーニング改善

Federated learning with hierarchical clustering of local updates to improve training on non-IID data ( http://arxiv.org/abs/2004.11791v2 )

ライセンス: Link先を確認
Christopher Briggs, Zhong Fan, Peter Andras(参考訳) フェデレートラーニング(FL)は、大規模分散データ上で機械学習タスクを実行するための、確立された方法である。 しかし、現実の状況では典型的なように、データが非ID(独立ではなく、同一の分散)な方法で分散されるような環境では、FLが生成するジョイントモデルは、iidデータのトレーニングと比較してテストセットの正確性や通信コストの面で苦しむ。 単一結合モデルの学習は,特定の非iidデータの存在下では最適ではないことが多い。 本研究では,クライアントのクラスタを分離する階層的クラスタリングステップ(FL+HC)を導入し,その局所的な更新をグローバルジョイントモデルに類似させることによりFLを改良する。 一旦分離されると、クラスタは独立して、特別なモデルで並列にトレーニングされる。 本稿では,いくつかのiidおよび非iid設定におけるfl+hcのハイパーパラメータのロバストな経験的解析を行う。 FL+HCは,クラスタリングを伴わないFLに比べて,より少ない通信ラウンドでモデルを収束させることができることを示す。 さらに、FL+HCは、標準的なFLと比較して、より多くのクライアントがターゲット精度に達することができる。 最後に、基礎となるフェデレート学習通信プロトコルを変更することなく、優れた機能を持つ特化モデルを促進するために、優れたデフォルトハイパーパラメータを提案する。

Federated learning (FL) is a well established method for performing machine learning tasks over massively distributed data. However in settings where data is distributed in a non-iid (not independent and identically distributed) fashion -- as is typical in real world situations -- the joint model produced by FL suffers in terms of test set accuracy and/or communication costs compared to training on iid data. We show that learning a single joint model is often not optimal in the presence of certain types of non-iid data. In this work we present a modification to FL by introducing a hierarchical clustering step (FL+HC) to separate clusters of clients by the similarity of their local updates to the global joint model. Once separated, the clusters are trained independently and in parallel on specialised models. We present a robust empirical analysis of the hyperparameters for FL+HC for several iid and non-iid settings. We show how FL+HC allows model training to converge in fewer communication rounds (significantly so under some non-iid settings) compared to FL without clustering. Additionally, FL+HC allows for a greater percentage of clients to reach a target accuracy compared to standard FL. Finally we make suggestions for good default hyperparameters to promote superior performing specialised models without modifying the the underlying federated learning communication protocol.
翻訳日:2022-12-10 02:58:28 公開日:2020-05-06
# 埋め込みを用いた知識グラフにおけるエンティティ型予測

Entity Type Prediction in Knowledge Graphs using Embeddings ( http://arxiv.org/abs/2004.13702v2 )

ライセンス: Link先を確認
Russa Biswas, Radina Sofronova, Mehwish Alam, Harald Sack(参考訳) オープン知識グラフ(DBpedia、Wikidata、YAGOなど)は、データマイニングと情報検索の分野における多様なアプリケーションのバックボーンとして認識されている。 したがって、知識グラフ(KG)の完全性と正確性は不可欠である。 これらのKGのほとんどは、ウィキペディアのスナップショットから自動で情報抽出するか、ユーザーが提供する情報蓄積か、ヒューリスティックを使って作成される。 しかしながら、これらのKGsの型情報は、しばしばうるさい、不完全、不正確である。 この問題に対処するために、KG埋め込みを用いたエンティティタイピングのためのマルチラベル分類手法を提案する。 我々は,現在の最先端型予測手法と比較し,KGを用いた実験について報告する。

Open Knowledge Graphs (such as DBpedia, Wikidata, YAGO) have been recognized as the backbone of diverse applications in the field of data mining and information retrieval. Hence, the completeness and correctness of the Knowledge Graphs (KGs) are vital. Most of these KGs are mostly created either via an automated information extraction from Wikipedia snapshots or information accumulation provided by the users or using heuristics. However, it has been observed that the type information of these KGs is often noisy, incomplete, and incorrect. To deal with this problem a multi-label classification approach is proposed in this work for entity typing using KG embeddings. We compare our approach with the current state-of-the-art type prediction method and report on experiments with the KGs.
翻訳日:2022-12-08 22:07:49 公開日:2020-05-06
# 自然言語処理による新しい質問評価フレームワークの導入

Introducing a framework to assess newly created questions with Natural Language Processing ( http://arxiv.org/abs/2004.13530v2 )

ライセンス: Link先を確認
Luca Benedetto, Andrea Cappelli, Roberto Turrin, Paolo Cremonesi(参考訳) 項目応答理論(irt)から派生した統計モデルは、特定の主題における学生の評価を可能にし、いくつかの目的(学習経路のカスタマイズ、ドロップアウト予測など)に有用である。 しかし,質問の評価も必要であり,すでに数人の生徒が答えている質問の特徴をIRTで推定することは可能であるが,この手法は新たに作成された質問には適用できない。 本稿では,質問文から有意義な特徴を抽出し,選択可能な選択肢を抽出し,新たに作成された複数の質問の難易度と識別度を推定するためのモデルを訓練し,評価する枠組みを提案する。 このフレームワークを使って1つのモデルを実装し、cloudacademyが提供する実世界のデータセットでテストし、従来のモデルよりも優れており、難易度推定ではrmseを6.7%削減し、差別推定ではrmseを10.8%削減していることを示した。 また,我々は特徴選択を支持するために行ったアブレーション研究の結果を示し,質問文の特徴の違いが難易度と識別に及ぼす影響を示す。

Statistical models such as those derived from Item Response Theory (IRT) enable the assessment of students on a specific subject, which can be useful for several purposes (e.g., learning path customization, drop-out prediction). However, the questions have to be assessed as well and, although it is possible to estimate with IRT the characteristics of questions that have already been answered by several students, this technique cannot be used on newly generated questions. In this paper, we propose a framework to train and evaluate models for estimating the difficulty and discrimination of newly created Multiple Choice Questions by extracting meaningful features from the text of the question and of the possible choices. We implement one model using this framework and test it on a real-world dataset provided by CloudAcademy, showing that it outperforms previously proposed models, reducing by 6.7% the RMSE for difficulty estimation and by 10.8% the RMSE for discrimination estimation. We also present the results of an ablation study performed to support our features choice and to show the effects of different characteristics of the questions' text on difficulty and discrimination.
翻訳日:2022-12-08 22:05:42 公開日:2020-05-06
# 声と聞き声を見る:クロスモーダル・セルフ・スーパービジョンを用いた識別埋め込みの学習

Seeing voices and hearing voices: learning discriminative embeddings using cross-modal self-supervision ( http://arxiv.org/abs/2004.14326v2 )

ライセンス: Link先を確認
Soo-Whan Chung, Hong Goo Kang, Joon Son Chung(参考訳) この作業の目的は、手動でアノテートされたデータにアクセスせずに差別的なクロスモーダルな埋め込みを訓練することである。 自己教師付き学習の最近の進歩は、効果的な表現を自然な相互モーダル同期から学べることを示している。 私たちは、ユニモーダルな下流タスクに対してより差別的な埋め込みをトレーニングするための、以前の作業の上に構築しています。 そこで本研究では,モダリティにまたがるメトリクスを最適化するだけでなく,各モダリティにクラス内特徴分離を強制する新しいトレーニング戦略を提案する。 本手法の有効性は,視聴覚同期に訓練された特徴を用いた口唇読解と,クロスモーダルバイオメトリックマッチングに訓練された特徴を用いた話者認識の2つの下流課題で実証された。 提案手法は,最先端の自己教師型ベースラインよりも有意差で優れる。

The goal of this work is to train discriminative cross-modal embeddings without access to manually annotated data. Recent advances in self-supervised learning have shown that effective representations can be learnt from natural cross-modal synchrony. We build on earlier work to train embeddings that are more discriminative for uni-modal downstream tasks. To this end, we propose a novel training strategy that not only optimises metrics across modalities, but also enforces intra-class feature separation within each of the modalities. The effectiveness of the method is demonstrated on two downstream tasks: lip reading using the features trained on audio-visual synchronisation, and speaker recognition using the features trained for cross-modal biometric matching. The proposed method outperforms state-of-the-art self-supervised baselines by a signficant margin.
翻訳日:2022-12-08 14:36:44 公開日:2020-05-06
# 頂点指名における機能の役割について: コンテンツとコンテキストは(時々)より良くなる

On the role of features in vertex nomination: Content and context together are better (sometimes) ( http://arxiv.org/abs/2005.02151v2 )

ライセンス: Link先を確認
Keith Levin, Carey E. Priebe, Vince Lyzinski(参考訳) バーテックス・アポイントメント(英: Vertex nomination)とは、あるグラフに対する関心の頂点を用いて、第2のグラフに対する関心の頂点を探索する、軽量に教師付きネットワーク情報検索(IR)タスクである。 他のIRタスクと同様に、頂点指名スキームの出力は第2グラフの頂点のランクリストであり、現在までに未知の関心の頂点はリストの一番上に理想的に集中している。 頂点指定スキームは、関連する情報のために複雑なネットワークを効率的にマイニングするための有用なツールセットを提供する。 本稿では,頂点候補におけるコンテンツ(エッジ属性と頂点属性)とコンテキスト(ネットワークトポロジー)の2つの役割を理論的かつ実質的に検討する。 我々は、コンテンツとコンテキストの両方を利用する頂点の指名スキームが、コンテンツとコンテキストだけを別々に活用する、必要かつ十分な条件を提供する。 本論文では,コンテントとコンテキストの共用性が実証的に実証されているが,ネットワークの特徴とトポロジの潜在的な相補的役割を理解するための新たな理論的基盤を提供する。

Vertex nomination is a lightly-supervised network information retrieval (IR) task in which vertices of interest in one graph are used to query a second graph to discover vertices of interest in the second graph. Similar to other IR tasks, the output of a vertex nomination scheme is a ranked list of the vertices in the second graph, with the heretofore unknown vertices of interest ideally concentrating at the top of the list. Vertex nomination schemes provide a useful suite of tools for efficiently mining complex networks for pertinent information. In this paper, we explore, both theoretically and practically, the dual roles of content (i.e., edge and vertex attributes) and context (i.e., network topology) in vertex nomination. We provide necessary and sufficient conditions under which vertex nomination schemes that leverage both content and context outperform schemes that leverage only content or context separately. While the joint utility of both content and context has been demonstrated empirically in the literature, the framework presented in this paper provides a novel theoretical basis for understanding the potential complementary roles of network features and topology.
翻訳日:2022-12-08 13:24:33 公開日:2020-05-06
# MatriVasha: バングラ手書き複合文字のための多目的総合データベース

MatriVasha: A Multipurpose Comprehensive Database for Bangla Handwritten Compound Characters ( http://arxiv.org/abs/2005.02155v2 )

ライセンス: Link先を確認
Jannatul Ferdous, Suvrajit Karmaker, A K M Shahariar Azad Rabby, Syed Akhter Hossain(参考訳) 現在、バングラの筆跡複合文字の認識は長年にわたって重要な問題となっている。 近年、機械学習やディープラーニングにおけるアプリケーションベースの研究が注目されており、特にBangla OCRのような膨大な応用があるため、手書き認識が注目されている。 バングラを認識できるプロジェクトであるMatrriVashaは、いくつかの複合文字を手書きした。 現在、複合文字認識は、その変種的応用により重要なトピックであり、古い形式や信頼性のある情報のデジタル化を支援する。 しかし残念ながら、すべての種類のバングラ複合文字を分類できる包括的なデータセットが欠けている。 MatrriVashaは複合的なキャラクタを調整しようとする試みであり、それぞれが独自のスタイルの書体を持っているため、難しい。 結局のところ、matrrivashaはバングラデシュ国内で収集された2552(二千五百二)の孤立した手書き文字からなるバングラ120(百二十)の複合文字を認識しようとするデータセットを提案した。 このデータセットは、地区の有効性、年齢グループ、男女の同数を含む標本が収集されたため、地区、年齢、性別に基づく文書による研究の観点で問題に直面した。 現在、提案しているデータセットは、バングラ複合文字の最も広範なデータセットである。 手書きバングラ複合文字の認識技法の枠組化を目的としている。 将来的には、このデータセットを公開して、研究の拡大を支援する予定である。

At present, recognition of the Bangla handwriting compound character has been an essential issue for many years. In recent years there have been application-based researches in machine learning, and deep learning, which is gained interest, and most notably is handwriting recognition because it has a tremendous application such as Bangla OCR. MatrriVasha, the project which can recognize Bangla, handwritten several compound characters. Currently, compound character recognition is an important topic due to its variant application, and helps to create old forms, and information digitization with reliability. But unfortunately, there is a lack of a comprehensive dataset that can categorize all types of Bangla compound characters. MatrriVasha is an attempt to align compound character, and it's challenging because each person has a unique style of writing shapes. After all, MatrriVasha has proposed a dataset that intends to recognize Bangla 120(one hundred twenty) compound characters that consist of 2552(two thousand five hundred fifty-two) isolated handwritten characters written unique writers which were collected from within Bangladesh. This dataset faced problems in terms of the district, age, and gender-based written related research because the samples were collected that includes a verity of the district, age group, and the equal number of males, and females. As of now, our proposed dataset is so far the most extensive dataset for Bangla compound characters. It is intended to frame the acknowledgment technique for handwritten Bangla compound character. In the future, this dataset will be made publicly available to help to widen the research.
翻訳日:2022-12-08 13:06:55 公開日:2020-05-06
# 自己学習によるセマンティックセグメンテーションの改善

Improving Semantic Segmentation via Self-Training ( http://arxiv.org/abs/2004.14960v2 )

ライセンス: Link先を確認
Yi Zhu, Zhongyue Zhang, Chongruo Wu, Zhi Zhang, Tong He, Hang Zhang, R. Manmatha, Mu Li, Alexander Smola(参考訳) ディープラーニングは通常、完全な監視で最高の結果を得る。 意味セグメンテーションの場合、正確なモデルを学ぶために大量のピクセル毎のアノテーションが必要であることを意味する。 本稿では,半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果が得られることを示す。 まず、教師モデルをラベル付きデータでトレーニングし、その後、ラベル付きデータの大きなセットで擬似ラベルを生成します。 私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成できます。 また,従来のファインタニング手法を大きなマージンで上回り,挑戦的なクロスドメイン一般化タスクにおける自己学習の有効性を示す。 最後に,大量の擬似ラベルによる計算負担を軽減するため,性能劣化のないセグメンテーションモデルのトレーニングを最大2倍高速化する高速なトレーニングスケジュールを提案する。

Deep learning usually achieves the best results with complete supervision. In the case of semantic segmentation, this means that large amounts of pixelwise annotations are required to learn accurate models. In this paper, we show that we can obtain state-of-the-art results using a semi-supervised approach, specifically a self-training paradigm. We first train a teacher model on labeled data, and then generate pseudo labels on a large set of unlabeled data. Our robust training framework can digest human-annotated and pseudo labels jointly and achieve top performances on Cityscapes, CamVid and KITTI datasets while requiring significantly less supervision. We also demonstrate the effectiveness of self-training on a challenging cross-domain generalization task, outperforming conventional finetuning method by a large margin. Lastly, to alleviate the computational burden caused by the large amount of pseudo labels, we propose a fast training schedule to accelerate the training of segmentation models by up to 2x without performance degradation.
翻訳日:2022-12-08 05:09:08 公開日:2020-05-06
# 対人訓練によるタスク指向対話における言語の自然性向上

Boosting Naturalness of Language in Task-oriented Dialogues via Adversarial Training ( http://arxiv.org/abs/2004.14565v2 )

ライセンス: Link先を確認
Chenguang Zhu(参考訳) タスク指向対話システムにおける自然言語生成(NLG)モジュールは、必要な情報を伝えるユーザ向け発話を生成する。 したがって、生成した応答は自然かつ流動的であることが重要である。 我々は、より人間的な反応を生み出すために、敵の訓練を統合することを提案する。 このモデルはグラデーション計算にストレートスルーグンベル・ソフトマックス推定器を使用する。 また,性能向上のための2段階トレーニング手法を提案する。 実験の結果, 自動評価と人間評価の両方において, 言語生成の質を効果的に改善できることがわかった。 例えば、RNN-LGレストランデータセットでは、我々のモデルであるAdvNLGは、BLEUの3.6%で過去の最先端結果を上回っています。

The natural language generation (NLG) module in a task-oriented dialogue system produces user-facing utterances conveying required information. Thus, it is critical for the generated response to be natural and fluent. We propose to integrate adversarial training to produce more human-like responses. The model uses Straight-Through Gumbel-Softmax estimator for gradient computation. We also propose a two-stage training scheme to boost performance. Empirical results show that the adversarial training can effectively improve the quality of language generation in both automatic and human evaluations. For example, in the RNN-LG Restaurant dataset, our model AdvNLG outperforms the previous state-of-the-art result by 3.6% in BLEU.
翻訳日:2022-12-08 04:07:21 公開日:2020-05-06
# 小画像の差分的プライベート生成

Differentially Private Generation of Small Images ( http://arxiv.org/abs/2005.00783v2 )

ライセンス: Link先を確認
Justus T. C. Schwabedal and Pascal Michel and Mario S. Riontino(参考訳) 画像データセットを匿名化するために、差分プライバシーを持つ生成敵ネットワークのトレーニングについて検討する。 MNISTでは、$\epsilon$-$\delta$差分プライバシーと開始スコアのパラメータを使って、プライバシーユーティリティのトレードオフを数値的に測定する。 我々の実験は、プライバシー予算の増加が生成画像の品質にほとんど影響を与えない飽和トレーニング体制を明らかにする。 また,微分プライベートなadam最適化が勾配クリッピングパラメータに依存しない理由を解析的に説明する。 さらに,近年の文献で明らかになった,差分プライベート深層学習に関する先行研究における一般的な誤りを浮き彫りにする。 対象者の治療を通じて、将来、匿名性の誤った推定を防止することを望む。

We explore the training of generative adversarial networks with differential privacy to anonymize image data sets. On MNIST, we numerically measure the privacy-utility trade-off using parameters from $\epsilon$-$\delta$ differential privacy and the inception score. Our experiments uncover a saturated training regime where an increasing privacy budget adds little to the quality of generated images. We also explain analytically why differentially private Adam optimization is independent of the gradient clipping parameter. Furthermore, we highlight common errors in previous works on differentially private deep learning, which we uncovered in recent literature. Throughout the treatment of the subject, we hope to prevent erroneous estimates of anonymity in the future.
翻訳日:2022-12-07 12:06:16 公開日:2020-05-06
# ニューラルネットワークとリスク価値

Neural Networks and Value at Risk ( http://arxiv.org/abs/2005.01686v2 )

ライセンス: Link先を確認
Alexander Arimond, Damian Borth, Andreas Hoepner, Michael Klawunn and Stefan Weisheit(参考訳) 生成レジームスイッチングフレームワークを利用して,リスクしきい値推定における資産リターンのモンテカルロシミュレーションを行う。 2018年8月に終了する最大1250週間のサンプル地平線設定で、世界、米国、ユーロ圏、英国の株式市場および長期債をテスト資産として使用し、ニューラルネットワークを3つの設計ステップに沿って調査する。 (i)ニューラルネットワークの初期化。 (ii)それが訓練されたことによるインセンティブ機能 (iii)供給するデータ量。 まず、ニューラルネットワークとランダムシードを比較し、最も確立されたモデル(すなわちHidden Markov)から推定されるネットワークを初期化する。 後者は、VaR違反の頻度(すなわち、推定されたVaRしきい値から外れた実効リターン)で上回る。 第2に、トレーニング命令に第2の目標を追加することで、ネットワークの損失関数のインセンティブ構造をバランスさせ、ニューラルネットワークが精度を最適化するとともに、経験的に現実的なレジーム分布(ブルとベアの市場周波数)に留まります。 特にこの設計機能は、バランスのとれたインセンティブリカレントニューラルネットワーク(rnn)が、他のニューラルネットワークだけでなく、統計的および経済的に重要なレベルで確立されたアプローチでも、単一のインセンティブrnnを上回ることができる。 第3に、トレーニングデータセットの半分は2,000日です。 私たちのネットワークは、かなり少ないデータ(すなわち1000日)でパフォーマンスを著しく低下させると、非常に大きなデータセットに依存するニューラルネットワークの重大な弱点を浮き彫りにする。

Utilizing a generative regime switching framework, we perform Monte-Carlo simulations of asset returns for Value at Risk threshold estimation. Using equity markets and long term bonds as test assets in the global, US, Euro area and UK setting over an up to 1,250 weeks sample horizon ending in August 2018, we investigate neural networks along three design steps relating (i) to the initialization of the neural network, (ii) its incentive function according to which it has been trained and (iii) the amount of data we feed. First, we compare neural networks with random seeding with networks that are initialized via estimations from the best-established model (i.e. the Hidden Markov). We find latter to outperform in terms of the frequency of VaR breaches (i.e. the realized return falling short of the estimated VaR threshold). Second, we balance the incentive structure of the loss function of our networks by adding a second objective to the training instructions so that the neural networks optimize for accuracy while also aiming to stay in empirically realistic regime distributions (i.e. bull vs. bear market frequencies). In particular this design feature enables the balanced incentive recurrent neural network (RNN) to outperform the single incentive RNN as well as any other neural network or established approach by statistically and economically significant levels. Third, we half our training data set of 2,000 days. We find our networks when fed with substantially less data (i.e. 1,000 days) to perform significantly worse which highlights a crucial weakness of neural networks in their dependence on very large data sets ...
翻訳日:2022-12-07 01:50:18 公開日:2020-05-06
# 単眼カメラを用いた自走運動と周辺車両状態推定

Ego-motion and Surrounding Vehicle State Estimation Using a Monocular Camera ( http://arxiv.org/abs/2005.01632v3 )

ライセンス: Link先を確認
Jun Hayakawa, Behzad Dariush(参考訳) エゴモーションと周囲の車両状態を理解することは、自動運転と高度な運転支援技術を実現するために不可欠である。 この問題を解決する典型的なアプローチは、lidar、カメラ、レーダーなどの複数のセンサーを融合して、位置、速度、方向など周囲の車両の状態を認識する。 このような感覚モダリティは、個人用車両の製造には複雑でコストがかかる。 本論文では,単一の単眼カメラを用いて自走運動と周辺車両状態を推定する新しい機械学習手法を提案する。 我々のアプローチは、3つのディープニューラルネットワークを組み合わせることで、一連の画像から3次元車両のバウンディングボックス、深さ、光の流れを推定する。 本論文の主な貢献は,エゴモーションと周囲の車両状態を推定するために,これら3つのネットワークを統合する新しいフレームワークとアルゴリズムである。 より正確な3次元位置推定を実現するために,地盤面の補正をリアルタイムに行う。 提案手法の有効性は,Can-BusやLiDARなど他のセンサから得られる真実データと比較した実験により実証された。

Understanding ego-motion and surrounding vehicle state is essential to enable automated driving and advanced driving assistance technologies. Typical approaches to solve this problem use fusion of multiple sensors such as LiDAR, camera, and radar to recognize surrounding vehicle state, including position, velocity, and orientation. Such sensing modalities are overly complex and costly for production of personal use vehicles. In this paper, we propose a novel machine learning method to estimate ego-motion and surrounding vehicle state using a single monocular camera. Our approach is based on a combination of three deep neural networks to estimate the 3D vehicle bounding box, depth, and optical flow from a sequence of images. The main contribution of this paper is a new framework and algorithm that integrates these three networks in order to estimate the ego-motion and surrounding vehicle state. To realize more accurate 3D position estimation, we address ground plane correction in real-time. The efficacy of the proposed method is demonstrated through experimental evaluations that compare our results to ground truth data available from other sensors including Can-Bus and LiDAR.
翻訳日:2022-12-07 01:14:58 公開日:2020-05-06
# 非自律神経odeの時間依存性

Time Dependence in Non-Autonomous Neural ODEs ( http://arxiv.org/abs/2005.01906v2 )

ライセンス: Link先を確認
Jared Quincy Davis, Krzysztof Choromanski, Jake Varley, Honglak Lee, Jean-Jacques Slotine, Valerii Likhosterov, Adrian Weller, Ameesh Makadia, Vikas Sindhwani(参考訳) ニューラル正規微分方程式(ODE)はディープ・ネットワークのエレガントな再解釈であり、連続した時間で深度の概念を置き換えることができ、ODEソルバは前方伝播を行い、随伴法は効率よく一定のメモリバックプロパゲーションを可能にする。 ニューラルオデムは自発的でないときのみ普遍的近似子であり、すなわちダイナミクスは時間に依存する。 本稿では,時間依存が非パラメトリックであり,重量軌跡の滑らかさを明示的に制御し,表現力と効率のトレードオフを可能にする,時間変動重みを持つニューラルオデムの新たなファミリーを提案する。 この拡張表現性を利用して、従来のニューラルODEの変種を速度と表現能力の両方で上回り、最終的に選択された画像分類と映像予測タスクにおける標準ResNetおよびCNNモデルより上回ります。

Neural Ordinary Differential Equations (ODEs) are elegant reinterpretations of deep networks where continuous time can replace the discrete notion of depth, ODE solvers perform forward propagation, and the adjoint method enables efficient, constant memory backpropagation. Neural ODEs are universal approximators only when they are non-autonomous, that is, the dynamics depends explicitly on time. We propose a novel family of Neural ODEs with time-varying weights, where time-dependence is non-parametric, and the smoothness of weight trajectories can be explicitly controlled to allow a tradeoff between expressiveness and efficiency. Using this enhanced expressiveness, we outperform previous Neural ODE variants in both speed and representational capacity, ultimately outperforming standard ResNet and CNN models on select image classification and video prediction tasks.
翻訳日:2022-12-06 13:22:02 公開日:2020-05-06
# 最適制御器の逆学習における最大度法

Maximum Likelihood Methods for Inverse Learning of Optimal Controllers ( http://arxiv.org/abs/2005.02767v1 )

ライセンス: Link先を確認
Marcel Menner, Melanie N. Zeilinger(参考訳) 本稿では,KKT(Karush-Kuhn-Tucker)条件に基づく制約付き最適制御問題に対する目的関数の逆学習フレームワークを提案する。 異なるモデル仮定と計算複雑性に対応する3つの変種について論じる。 最初の方法は、KKT条件の凸緩和を使い、ベンチマークとして機能する。 本論文の主な貢献は,kkt条件と最大確率推定を組み合わせた2つの学習手法の提案である。 この組み合わせの鍵となる利点は、確率引数を用いた分枝境界アルゴリズムによるノイズデータから学習するための制約の体系的処理である。 本稿では,学習手法の理論的性質を考察し,学習対象関数に最大公約式を用いることの利点を強調するシミュレーション結果を示す。

This paper presents a framework for inverse learning of objective functions for constrained optimal control problems, which is based on the Karush-Kuhn-Tucker (KKT) conditions. We discuss three variants corresponding to different model assumptions and computational complexities. The first method uses a convex relaxation of the KKT conditions and serves as the benchmark. The main contribution of this paper is the proposition of two learning methods that combine the KKT conditions with maximum likelihood estimation. The key benefit of this combination is the systematic treatment of constraints for learning from noisy data with a branch-and-bound algorithm using likelihood arguments. This paper discusses theoretic properties of the learning methods and presents simulation results that highlight the advantages of using the maximum likelihood formulation for learning objective functions.
翻訳日:2022-12-06 06:33:22 公開日:2020-05-06
# AVAC: エッジデバイスのための機械学習ベースの適応RRAM変数認識コントローラ

AVAC: A Machine Learning based Adaptive RRAM Variability-Aware Controller for Edge Devices ( http://arxiv.org/abs/2005.03077v1 )

ライセンス: Link先を確認
Shikhar Tuli and Shreshth Tuli(参考訳) 最近、Edge Computingパラダイムは業界でも学界でも大きな人気を集めている。 研究者は、こうした機器の性能向上とエネルギー消費の削減をますます目標としています。 近年の取り組みは, 漏れ特性と高積分密度のため, エネルギー効率向上に新たなRRAM技術を利用することに重点を置いている。 このようなデバイスがサポートするアプリケーションの複雑さとダイナミズムがエスカレートするにつれて、静的RRAMコントローラによる理想的な性能維持が困難になっている。 機械学習は、これに有望なソリューションを提供するため、この作業は、動的なパラメータ更新を可能にするために、そのようなコントローラの拡張に焦点を当てる。 本研究では,オンザフライ学習モデルと勾配上昇モデルを用いて,待ちバッファとバッチサイズを定期的に更新する適応型rram可変性アウェアコントローラavacを提案する。 AVACにより、Edgeデバイスは異なるアプリケーションとそのステージに適応し、計算性能を改善し、エネルギー消費を減らすことができる。 シミュレーションでは、raspberry-piベースのエッジデプロイメントで実際のヘルスケアアプリケーションのトレースを使用することで、提案されたモデルが最大29%のパフォーマンス向上と19%のエネルギー削減をもたらすことが示されている。

Recently, the Edge Computing paradigm has gained significant popularity both in industry and academia. Researchers now increasingly target to improve performance and reduce energy consumption of such devices. Some recent efforts focus on using emerging RRAM technologies for improving energy efficiency, thanks to their no leakage property and high integration density. As the complexity and dynamism of applications supported by such devices escalate, it has become difficult to maintain ideal performance by static RRAM controllers. Machine Learning provides a promising solution for this, and hence, this work focuses on extending such controllers to allow dynamic parameter updates. In this work we propose an Adaptive RRAM Variability-Aware Controller, AVAC, which periodically updates Wait Buffer and batch sizes using on-the-fly learning models and gradient ascent. AVAC allows Edge devices to adapt to different applications and their stages, to improve computation performance and reduce energy consumption. Simulations demonstrate that the proposed model can provide up to 29% increase in performance and 19% decrease in energy, compared to static controllers, using traces of real-life healthcare applications on a Raspberry-Pi based Edge deployment.
翻訳日:2022-12-06 06:33:10 公開日:2020-05-06
# HPCアクティビティの識別に電力分析を使う方法

Catch Me If You Can: Using Power Analysis to Identify HPC Activity ( http://arxiv.org/abs/2005.03135v1 )

ライセンス: Link先を確認
Bogdan Copos and Sean Peisert(参考訳) ハイパフォーマンスコンピューティング(HPC)やクラウドコンピューティングシステムなどの大規模コンピューティングプラットフォーム上のユーザを監視することは、簡単ではない。 プロセスビューアのようなユーティリティは、粒度制限のため、ユーザが実行しているものに対する限られた洞察を提供し、システムコールトレースのような他のデータソースは、運用上の大きなオーバーヘッドを負う可能性がある。 しかし、技術的かつ手続き的な措置にもかかわらず、個人的利益のために貴重なhpcリソースを乱用するユーザーの事例は、過去に \cite{hpcbitmine} に記録されており、世界中の多くの緩やかに検証されたユーザーに開放されたシステムは乱用される危険性がある。 本稿では,HPCプラットフォームからの電力消費データを用いて,実行プログラムの特定を行う方法について述べる。 直感的には、実行中、プログラムはCPUとメモリアクティビティの様々なパターンを示す。 これらのパターンはシステムの消費電力に反映され、実行中のプログラムの識別に使用することができる。 我々はローレンス・バークレー国立研究所のHPCラックに様々な科学的ベンチマークを用いてアプローチを検証した。 これらの結果から,HPCラックの電力消費をモニタリングすることにより,ノイズシナリオにおいても,特定のプログラムが95%の精度で動作しているかどうかを確認できることがわかった。

Monitoring users on large computing platforms such as high performance computing (HPC) and cloud computing systems is non-trivial. Utilities such as process viewers provide limited insight into what users are running, due to granularity limitation, and other sources of data, such as system call tracing, can impose significant operational overhead. However, despite technical and procedural measures, instances of users abusing valuable HPC resources for personal gains have been documented in the past \cite{hpcbitmine}, and systems that are open to large numbers of loosely-verified users from around the world are at risk of abuse. In this paper, we show how electrical power consumption data from an HPC platform can be used to identify what programs are executed. The intuition is that during execution, programs exhibit various patterns of CPU and memory activity. These patterns are reflected in the power consumption of the system and can be used to identify programs running. We test our approach on an HPC rack at Lawrence Berkeley National Laboratory using a variety of scientific benchmarks. Among other interesting observations, our results show that by monitoring the power consumption of an HPC rack, it is possible to identify if particular programs are running with precision up to and recall of 95\% even in noisy scenarios.
翻訳日:2022-12-06 06:32:50 公開日:2020-05-06
# TAGNN:セッションベースのレコメンデーションのための注目グラフニューラルネットワーク

TAGNN: Target Attentive Graph Neural Networks for Session-based Recommendation ( http://arxiv.org/abs/2005.02844v1 )

ライセンス: Link先を確認
Feng Yu, Yanqiao Zhu, Qiang Liu, Shu Wu, Liang Wang, Tieniu Tan(参考訳) セッションベースのレコメンデーションは多くのウェブサイトで重要な役割を演じており、これは匿名セッションに基づいてユーザの行動を予測することを目的としている。 セッション内の項目の時間的遷移を調べることによって、セッションをシーケンスやグラフとしてモデル化する多くの研究が生まれている。 しかし、これらの方法は、予測対象の項目を考慮せずに、セッションを1つの固定表現ベクトルに圧縮する。 固定ベクトルは,対象項目の多様性やユーザの興味を考慮し,レコメンダモデルの表現能力を制限する。 本稿では,セッションベースレコメンデーションのための新しいターゲット注意グラフニューラルネットワーク(TAGNN)モデルを提案する。 TAGNNでは、ターゲット・アウェア・アテンションは様々なターゲット項目に関して異なるユーザ関心を適応的に活性化する。 学習した興味表現ベクトルは異なる対象項目によって変化し、モデルの表現性を大幅に改善する。 さらに、tagnnはグラフニューラルネットワークの力を利用してセッション内の豊富なアイテム遷移をキャプチャする。 実世界のデータセットで実施された包括的な実験は、最先端の手法よりも優れていることを示す。

Session-based recommendation nowadays plays a vital role in many websites, which aims to predict users' actions based on anonymous sessions. There have emerged many studies that model a session as a sequence or a graph via investigating temporal transitions of items in a session. However, these methods compress a session into one fixed representation vector without considering the target items to be predicted. The fixed vector will restrict the representation ability of the recommender model, considering the diversity of target items and users' interests. In this paper, we propose a novel target attentive graph neural network (TAGNN) model for session-based recommendation. In TAGNN, target-aware attention adaptively activates different user interests with respect to varied target items. The learned interest representation vector varies with different target items, greatly improving the expressiveness of the model. Moreover, TAGNN harnesses the power of graph neural networks to capture rich item transitions in sessions. Comprehensive experiments conducted on real-world datasets demonstrate its superiority over state-of-the-art methods.
翻訳日:2022-12-06 06:28:31 公開日:2020-05-06
# キーストロークダイナミクスを用いたストレス認識に基づくインサイダー脅威検出

Insider Threat Detection Based on Stress Recognition Using Keystroke Dynamics ( http://arxiv.org/abs/2005.02862v1 )

ライセンス: Link先を確認
Azamat Sultanov, Konstantin Kogos(参考訳) インサイダーの脅威は、企業による巨額の財務損失につながる情報セキュリティの分野において、最も差し迫った脅威の1つだ。 この脅威を検出するための提案手法の多くは高価で侵襲的な装置を必要とするため、実際にの使用は困難である。 本稿では,不正行為の際に侵入者がストレスを経験することを前提としたキーストローク力学を用いたストレス認識に基づく非侵襲的インサイダー脅威検出手法を提案する。 提案手法は教師なしと教師なしの両方の機械学習アルゴリズムを用いる。 結果が示すように、ストレスはインサイダー脅威検出に非常に価値のある情報を提供することができる。

Insider threat is one of the most pressing threats in the field of information security as it leads to huge financial losses by the companies. Most of the proposed methods for detecting this threat require expensive and invasive equipment, which makes them difficult to use in practice. In this paper, we present a non-invasive method for detecting insider threat based on stress recognition using keystroke dynamics assuming that intruder experiences stress during making illegal actions, which affects the behavioral characteristics. Proposed method uses both supervised and unsupervised machine learning algorithms. As the results show, stress can provide highly valuable information for insider threat detection.
翻訳日:2022-12-06 06:28:16 公開日:2020-05-06
# バイオプロセッシングにおけるラーマンスペクトルからの予測モデリングのための機械学習とディープラーニング手法

Machine Learning and Deep Learning methods for predictive modelling from Raman spectra in bioprocessing ( http://arxiv.org/abs/2005.02935v1 )

ライセンス: Link先を確認
Semion Rozov(参考訳) 化学処理やバイオプロセッシングでは、従来のオンラインセンサーは圧力や温度、ph、溶解o、co$_2$、細胞密度(vcd)などの基本的なプロセス変数のみを測定することが制限されている。 他の化学種の濃度測定は、通常はオフラインまたはオフラインのアプローチを必要とするため、より難しい。 このようなアプローチはオンラインセンシングに比べて侵襲的で遅い。 異なる分子は単色光との相互作用によって区別され、濃度に応じてラマンスペクトルの異なるプロファイルを生成することが知られている。 対象変数に対する基準測定の可用性を考えると、回帰法はラマンスペクトルのプロファイルと分析物の濃度の関係をモデル化することができる。 本研究は,機械学習と深層学習を用いた回帰作業の円滑化のためのラマンスペクトルの前処理手法と,これらの手法に基づく新しい回帰モデルの開発に焦点を当てた。 ほとんどのケースでは、予測誤差と予測ロバスト性の観点から従来のラマンモデルより優れていた。

In chemical processing and bioprocessing, conventional online sensors are limited to measure only basic process variables like pressure and temperature, pH, dissolved O and CO$_2$ and viable cell density (VCD). The concentration of other chemical species is more difficult to measure, as it usually requires an at-line or off-line approach. Such approaches are invasive and slow compared to on-line sensing. It is known that different molecules can be distinguished by their interaction with monochromatic light, producing different profiles for the resulting Raman spectrum, depending on the concentration. Given the availability of reference measurements for the target variable, regression methods can be used to model the relationship between the profile of the Raman spectra and the concentration of the analyte. This work focused on pretreatment methods of Raman spectra for the facilitation of the regression task using Machine Learning and Deep Learning methods, as well as the development of new regression models based on these methods. In the majority of cases, this allowed to outperform conventional Raman models in terms of prediction error and prediction robustness.
翻訳日:2022-12-06 06:28:06 公開日:2020-05-06
# トピックモデリング, UMAP, DiGraphs を用いたCovid-19 ツイートの探索解析

Exploratory Analysis of Covid-19 Tweets using Topic Modeling, UMAP, and DiGraphs ( http://arxiv.org/abs/2005.03082v1 )

ライセンス: Link先を確認
Catherine Ordun, Sanjay Purushotham, Edward Raff(参考訳) 本稿では,Covid19 ツイートのトピック,キーワード,特徴,情報拡散の速度,ネットワーク行動の5つの異なる評価手法について述べる。 第1に,パターンマッチングと第2に,潜在ディリクレ割り当て(lda)によるトピックモデリングを用いて,ケーススプレッドや医療従事者,個人保護具(ppe)に関する20のトピックを生成する。 米国のケースに特化しているトピックは、ホワイトハウスのコロナウイルスタスクフォースのライブブリーフィングの直後に上昇し始め、多くのTwitterユーザーが政府の発表に注意を払っていることを示している。 Covid19 Twitterの文献に報告されていない機械学習手法に貢献する。 第3の手法であるUniform Manifold Approximation and Projection (UMAP)は、異なるトピックのユニークなクラスタリング行動を特定し、コーパスにおける重要なテーマの理解を改善し、生成されたトピックの品質を評価する。 第4に、Twitter上でCovid19に関する情報がいかに速いかを理解するために、リツイート時間を計算した。 分析の結果,2020年3月のサンプルコーパスにおけるCovid19のリツイート時間は2.87時間であり,2013年3月のH7N9に関する中国のソーシャルメディアからのリツイートより約50分早くなった。 最後に、retweetのカスケードを理解するために、ユーザーの接続を高速から遅いリツイートまで可視化しました。 リツイートの時間が増加するにつれて、コネクションの密度も増加し、われわれのサンプルでは、Covid19リツイートの注目度を左右する別のユーザーが現れた。 この分析の最も単純な特徴の1つは、正規表現のような初期の記述的手法は、その後の分析で一貫して重要であると証明された高レベルなテーマをうまく識別できることである。

This paper illustrates five different techniques to assess the distinctiveness of topics, key terms and features, speed of information dissemination, and network behaviors for Covid19 tweets. First, we use pattern matching and second, topic modeling through Latent Dirichlet Allocation (LDA) to generate twenty different topics that discuss case spread, healthcare workers, and personal protective equipment (PPE). One topic specific to U.S. cases would start to uptick immediately after live White House Coronavirus Task Force briefings, implying that many Twitter users are paying attention to government announcements. We contribute machine learning methods not previously reported in the Covid19 Twitter literature. This includes our third method, Uniform Manifold Approximation and Projection (UMAP), that identifies unique clustering-behavior of distinct topics to improve our understanding of important themes in the corpus and help assess the quality of generated topics. Fourth, we calculated retweeting times to understand how fast information about Covid19 propagates on Twitter. Our analysis indicates that the median retweeting time of Covid19 for a sample corpus in March 2020 was 2.87 hours, approximately 50 minutes faster than repostings from Chinese social media about H7N9 in March 2013. Lastly, we sought to understand retweet cascades, by visualizing the connections of users over time from fast to slow retweeting. As the time to retweet increases, the density of connections also increase where in our sample, we found distinct users dominating the attention of Covid19 retweeters. One of the simplest highlights of this analysis is that early-stage descriptive methods like regular expressions can successfully identify high-level themes which were consistently verified as important through every subsequent analysis.
翻訳日:2022-12-06 06:27:47 公開日:2020-05-06
# 気象応用のためのニューラルネットワークの評価・チューニング・解釈

Evaluation, Tuning and Interpretation of Neural Networks for Meteorological Applications ( http://arxiv.org/abs/2005.03126v1 )

ライセンス: Link先を確認
Imme Ebert-Uphoff, Kyle A. Hilburn(参考訳) ニューラルネットワークは、気象学でリモートセンシングされた画像を利用する多くの新しい機会を開いた。 一般的な用途としては、画像分類、例えば熱帯サイクロンを含むかどうかの判定、画像翻訳、例えば受動チャネルのみを有する衛星のレーダ画像のエミュレートなどがある。 しかし、気象学におけるニューラルネットワークの利用については、評価、チューニング、解釈のベストプラクティスなど、まだ多くの疑問がある。 本稿では, 有効受容場の概念, 未利用気象性能測定, 合成実験, レイヤーワイド関連伝播などのNN解釈の方法など, 気象コミュニティでまだあまり注目されていない, ニューラルネットワーク開発のための戦略と実践的考察を紹介する。 また、ニューラルネットワークの解釈のプロセス全体を考慮し、反復的な科学者主導の発見プロセスとして認識し、研究者が選択できる個々のステップに分解する。 最後に、気象学におけるニューラルネットワークの解釈のほとんどは、画像分類タスクのためのネットワークに焦点を当てていますが、画像翻訳のためのネットワークも含むように焦点を広げています。

Neural networks have opened up many new opportunities to utilize remotely sensed images in meteorology. Common applications include image classification, e.g., to determine whether an image contains a tropical cyclone, and image translation, e.g., to emulate radar imagery for satellites that only have passive channels. However, there are yet many open questions regarding the use of neural networks in meteorology, such as best practices for evaluation, tuning and interpretation. This article highlights several strategies and practical considerations for neural network development that have not yet received much attention in the meteorological community, such as the concept of effective receptive fields, underutilized meteorological performance measures, and methods for NN interpretation, such as synthetic experiments and layer-wise relevance propagation. We also consider the process of neural network interpretation as a whole, recognizing it as an iterative scientist-driven discovery process, and breaking it down into individual steps that researchers can take. Finally, while most work on neural network interpretation in meteorology has so far focused on networks for image classification tasks, we expand the focus to also include networks for image translation.
翻訳日:2022-12-06 06:27:12 公開日:2020-05-06
# ポシビリズム理論の学習可能性について

On the Learnability of Possibilistic Theories ( http://arxiv.org/abs/2005.03157v1 )

ライセンス: Link先を確認
Cosimo Persia and Ana Ozaki(参考訳) 本研究では,Angluinの正確な学習モデルに基づき,確率論的理論の学習可能性について検討する。 我々は,メンバシップのみ,同値のみを想定し,いずれの種類の問合せも学習者に提示できる場合を考える。 そして、多くの問題に対して、古典論理の多項式時間学習性の結果が各確率拡張に転送可能であることを示す。 特に、我々の結果から、命題ホーン理論の確率的拡張は多項式時間で正確に学習可能であることが従う。 正確なモデルにおける多項式時間学習性は、メンバシップクエリで拡張された古典的おそらくほぼ正しいモデルに転送可能であるので、このモデルでも同様の結果が確立される。

We investigate learnability of possibilistic theories from entailments in light of Angluin's exact learning model. We consider cases in which only membership, only equivalence, and both kinds of queries can be posed by the learner. We then show that, for a large class of problems, polynomial time learnability results for classical logic can be transferred to the respective possibilistic extension. In particular, it follows from our results that the possibilistic extension of propositional Horn theories is exactly learnable in polynomial time. As polynomial time learnability in the exact model is transferable to the classical probably approximately correct model extended with membership queries, our work also establishes such results in this model.
翻訳日:2022-12-06 06:26:53 公開日:2020-05-06
# 半教師付き学習による単細胞転写データからの細胞型同定

Cell Type Identification from Single-Cell Transcriptomic Data via Semi-supervised Learning ( http://arxiv.org/abs/2005.03994v1 )

ライセンス: Link先を確認
Xishuang Dong, Shanta Chowdhury, Uboho Victor, Xiangfang Li, Lijun Qian(参考訳) シングルセルRNAシークエンシング(scRNAseq)データ解析の共通の目的は、シングルセル転写データからの細胞型同定である。 ニューラルネットワークは、cRNAseqデータからセルタイプを高性能に識別するために使用されている。 しかし、識別モデルを構築するには、正確で偏りのないアノテートタイプを持つ個々の細胞の大きなマウントが必要である。 残念なことに、マーカー遺伝子の手動検査を伴うため、scRNAseqデータのラベル付けは面倒で時間を要する。 この課題を克服するために,ラベルのないscrnaseq細胞と限定されたラベル付きscrnaseq細胞を用いた半教師付き学習モデルを提案する。 まず、scRNAseq細胞を「遺伝子文」に変換し、自然言語システムと遺伝子システムとの類似性から着想を得た。 次に、これらの文中の遺伝子は、データの疎さを減らすために遺伝子埋め込みとして表現される。 これらの組込みにより、共有ネットワーク、教師付きネットワーク、教師なしネットワークを含む再帰畳み込みニューラルネットワーク(rcnn)に基づく半教師付き学習モデルを実装する。 提案モデルは,個々の細胞型の基底真理を持つ大規模単細胞転写データセットであるmacosko2015を用いて評価した。 提案モデルでは, ラベル付きscRNAseq細胞と多数の未ラベルscRNAseq細胞を併用して, ラベル付きscRNAseq細胞を極端に限定的に学習することにより, 高い性能を達成できることが観察された。

Cell type identification from single-cell transcriptomic data is a common goal of single-cell RNA sequencing (scRNAseq) data analysis. Neural networks have been employed to identify cell types from scRNAseq data with high performance. However, it requires a large mount of individual cells with accurate and unbiased annotated types to build the identification models. Unfortunately, labeling the scRNAseq data is cumbersome and time-consuming as it involves manual inspection of marker genes. To overcome this challenge, we propose a semi-supervised learning model to use unlabeled scRNAseq cells and limited amount of labeled scRNAseq cells to implement cell identification. Firstly, we transform the scRNAseq cells to "gene sentences", which is inspired by similarities between natural language system and gene system. Then genes in these sentences are represented as gene embeddings to reduce data sparsity. With these embeddings, we implement a semi-supervised learning model based on recurrent convolutional neural networks (RCNN), which includes a shared network, a supervised network and an unsupervised network. The proposed model is evaluated on macosko2015, a large scale single-cell transcriptomic dataset with ground truth of individual cell types. It is observed that the proposed model is able to achieve encouraging performance by learning on very limited amount of labeled scRNAseq cells together with a large number of unlabeled scRNAseq cells.
翻訳日:2022-12-06 06:26:16 公開日:2020-05-06
# 深層マルチインテンス学習によるimuデータからのパーキンソン病振れの検出

Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using Deep Multiple-Instance Learning ( http://arxiv.org/abs/2005.04185v1 )

ライセンス: Link先を確認
Alexandros Papadopoulos, Konstantinos Kyritsis, Lisa Klingelhoefer, Sevasti Bostanjopoulou, K. Ray Chaudhuri, Anastasios Delopoulos(参考訳) パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を及ぼす徐々に進化する神経学的疾患である。 これらの症状の自動検出は、疾患の早期発症についての手がかりとなり、適切な標的を絞った介入によって患者の期待する臨床結果を改善することができる。 このポテンシャルにより、多くの研究者が広く利用可能なセンサーを使用して、震動、剛性、ブレイキネジアなどのPD症状を計測し定量化する手法を開発した。 しかし、これらのアプローチのほとんどは実験室や家庭などの制御された環境下で動作し、自由生活条件下での適用性を制限する。 本研究では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。 本稿では,加速度センサ信号セグメントの順序のないバッグと,専門家が提案する1つの震源アノテーションを対象とするマルチインスタンス学習手法を提案する。 提案手法は,深い特徴学習と学習可能なプールステージを組み合わせることで,学習可能なエンド・ツー・エンドでありながら,対象バッグ内のキーインスタンスを識別することができる。 我々は,本アルゴリズムを新たに導入した45人の被験者のデータセット上で検証した。 実験で得られた分類性能は良好であり,提案手法はwild記録の雑音環境を効率的にナビゲートできることが示唆された。

Parkinson's Disease (PD) is a slowly evolving neuro-logical disease that affects about 1% of the population above 60 years old, causing symptoms that are subtle at first, but whose intensity increases as the disease progresses. Automated detection of these symptoms could offer clues as to the early onset of the disease, thus improving the expected clinical outcomes of the patients via appropriately targeted interventions. This potential has led many researchers to develop methods that use widely available sensors to measure and quantify the presence of PD symptoms such as tremor, rigidity and braykinesia. However, most of these approaches operate under controlled settings, such as in lab or at home, thus limiting their applicability under free-living conditions. In this work, we present a method for automatically identifying tremorous episodes related to PD, based on IMU signals captured via a smartphone device. We propose a Multiple-Instance Learning approach, wherein a subject is represented as an unordered bag of accelerometer signal segments and a single, expert-provided, tremor annotation. Our method combines deep feature learning with a learnable pooling stage that is able to identify key instances within the subject bag, while still being trainable end-to-end. We validate our algorithm on a newly introduced dataset of 45 subjects, containing accelerometer signals collected entirely in-the-wild. The good classification performance obtained in the conducted experiments suggests that the proposed method can efficiently navigate the noisy environment of in-the-wild recordings.
翻訳日:2022-12-06 06:25:50 公開日:2020-05-06
# DeepHist:画像から画像への変換のための関節およびカラーヒストグラム層

DeepHist: Differentiable Joint and Color Histogram Layers for Image-to-Image Translation ( http://arxiv.org/abs/2005.03995v1 )

ライセンス: Link先を確認
Mor Avi-Aharon, Assaf Arbelle, and Tammy Riklin Raviv(参考訳) ヒストグラム層によるネットワーク拡張のための新しいDeep LearningフレームワークであるDeepHistを紹介し,画像から画像への変換問題に対処することによって,その強度を実証する。 具体的には、入力画像と基準色分布が与えられた場合、入力(ソース)の構造的外観(コンテンツ)と参照の色との出力画像を生成することを目的としている。 鍵となるアイデアは、出力画像のジョイントとカラーヒストグラムの異なる構成のための新しい技術である。 さらに、ソースと出力画像のジョイントヒストグラムに基づいて、出力と参照の色ヒストグラムとの間の地球移動者の距離と相互情報損失に基づいて色分布損失を定義する。 有望な結果は、カラー転送、画像のカラー化、エッジが$\rightarrow$ photoのタスクに示され、出力画像の色分布が制御される。 Pix2PixとCycyGANとの比較を示す。

We present the DeepHist - a novel Deep Learning framework for augmenting a network by histogram layers and demonstrate its strength by addressing image-to-image translation problems. Specifically, given an input image and a reference color distribution we aim to generate an output image with the structural appearance (content) of the input (source) yet with the colors of the reference. The key idea is a new technique for a differentiable construction of joint and color histograms of the output images. We further define a color distribution loss based on the Earth Mover's Distance between the output's and the reference's color histograms and a Mutual Information loss based on the joint histograms of the source and the output images. Promising results are shown for the tasks of color transfer, image colorization and edges $\rightarrow$ photo, where the color distribution of the output image is controlled. Comparison to Pix2Pix and CyclyGANs are shown.
翻訳日:2022-12-06 06:19:04 公開日:2020-05-06
# G\"odel's Two Uncompleteness Theoremsの簡潔で機械的な証明に向けて

Towards Concise, Machine-discovered Proofs of G\"odel's Two Incompleteness Theorems ( http://arxiv.org/abs/2005.02576v1 )

ライセンス: Link先を確認
Elijah Malaby, Bradley Dragun, John Licato(参考訳) AIの最近の進歩を自動推論に適用することへの関心が高まっており、一階述語、二階述語、メタ論理学のフォーマリズムを推論する上で有用なヒューリスティックを提供する可能性がある。 そこで本研究では,不規則な論理に容易に適応したり,新たな推論プロセスを統合するように設計された,自動定理のための新しいフレームワークMATRを提案する。 MATRは形式主義に依存しず、モジュール性が高く、プログラマフレンドリーである。 我々は、matrのハイレベルな設計と実装の詳細について説明する。 matrの有用性を示すために、g\"odelの不完全性定理の証明に適した形式化されたメタロジーを記述し、matrのメタロジーを用いて半自律的に第一不完全性定理と第二不完全性定理の両方の証明を生成する。

There is an increasing interest in applying recent advances in AI to automated reasoning, as it may provide useful heuristics in reasoning over formalisms in first-order, second-order, or even meta-logics. To facilitate this research, we present MATR, a new framework for automated theorem proving explicitly designed to easily adapt to unusual logics or integrate new reasoning processes. MATR is formalism-agnostic, highly modular, and programmer-friendly. We explain the high-level design of MATR as well as some details of its implementation. To demonstrate MATR's utility, we then describe a formalized metalogic suitable for proofs of G\"odel's Incompleteness Theorems, and report on our progress using our metalogic in MATR to semi-autonomously generate proofs of both the First and Second Incompleteness Theorems.
翻訳日:2022-12-06 06:18:48 公開日:2020-05-06
# SATソルバによる複数折り畳み式ボックスの開発

Search for developments of a box having multiple ways of folding by SAT solver ( http://arxiv.org/abs/2005.02645v1 )

ライセンス: Link先を確認
Riona Tadaki and Kazuyuki Amano(参考訳) ポリオミノを形成する単位四角形の縁を折って箱を作ることができる場合は、ポリオミノを展開と呼ぶ。 複数の方法でボックス(またはボックス)に折り畳むことができる開発があることが知られている。 本研究では,satソルバを用いて,そのような発展を見出すためのコンピュータ探索を行った。 その結果、エリア52のポリオミノを含む何千もの開発が、サイズ1 \times 2 \times 8$の5つの異なる方法で折り畳むことができることがわかった。

A polyomino is called a development if it can make a box by folding edges of unit squares forming the polyomino. It is known that there are developments that can fold into a box (or boxes) in multiple ways. In this work, we conducted a computer search for finding such developments by using a SAT solver. As a result, we found thousands of such developments including a polyomino of area 52 that can fold into a box of size $1 \times 2 \times 8$ in five different ways.
翻訳日:2022-12-06 06:18:31 公開日:2020-05-06
# 脳波の非対称性に基づく人間の共感の予測

Prediction of Human Empathy based on EEG Cortical Asymmetry ( http://arxiv.org/abs/2005.02824v1 )

ライセンス: Link先を確認
Andrea Kuijt and Maryam Alimardani(参考訳) 人間は感情を無視するデジタルデバイスと常に対話する。 しかし、人間とテクノロジーの相乗効果は、技術が人間の感情を識別し、反応させることができれば強化できる。 神経生理学的信号のような人間の感情の無意識的な表現に依存するモデルは、フィードバックのパーソナライズと相互作用の適応を約束する。 本研究は、脳活動に基づく人間の感情処理の研究において、予測的アプローチを採用することに焦点を当てた。 具体的には,脳の様々な領域における脳皮質非対称性に基づく自己報告ヒトの共感を予測することを提案する。 複数の線形回帰解析と二分法,多クラス分類の異なる予測モデルの評価を行った。 その結果、特定の周波数帯における脳振動の側方化は、自己報告の共感スコアの重要な予測因子であることがわかった。 また,脳波データに基づく共感の正確な予測には感情刺激は必須ではないことが示唆された。 本研究は共感のメカニズムの一般的な理解に寄与するだけでなく、神経心理学研究における仮説駆動研究と比較して予測的アプローチを適用する利点をより理解しやすくする。 さらに重要なことは、私たちの結果は、感情の表現や認識に困難を持つ人々を支援する脳とコンピュータのインターフェイスの開発に活用できるということです。

Humans constantly interact with digital devices that disregard their feelings. However, the synergy between human and technology can be strengthened if the technology is able to distinguish and react to human emotions. Models that rely on unconscious indications of human emotions, such as (neuro)physiological signals, hold promise in personalization of feedback and adaptation of the interaction. The current study elaborated on adopting a predictive approach in studying human emotional processing based on brain activity. More specifically, we investigated the proposition of predicting self-reported human empathy based on EEG cortical asymmetry in different areas of the brain. Different types of predictive models i.e. multiple linear regression analyses as well as binary and multiclass classifications were evaluated. Results showed that lateralization of brain oscillations at specific frequency bands is an important predictor of self-reported empathy scores. Additionally, prominent classification performance was found during resting-state which suggests that emotional stimulation is not required for accurate prediction of empathy -- as a personality trait -- based on EEG data. Our findings not only contribute to the general understanding of the mechanisms of empathy, but also facilitate a better grasp on the advantages of applying a predictive approach compared to hypothesis-driven studies in neuropsychological research. More importantly, our results could be employed in the development of brain-computer interfaces that assist people with difficulties in expressing or recognizing emotions.
翻訳日:2022-12-06 06:18:20 公開日:2020-05-06
# 多レベルモデルのグループ不均一性評価

Group Heterogeneity Assessment for Multilevel Models ( http://arxiv.org/abs/2005.02773v1 )

ライセンス: Link先を確認
Topi Paananen, Alejandro Catalina, Paul-Christian B\"urkner, Aki Vehtari(参考訳) 多くのデータセットは、例えば同じ観測単位の繰り返し測定のため、固有のマルチレベル構造を含んでいる。 この構造を考慮に入れることは、そのようなデータ上で行われる統計解析の正確性とキャリブレーションに不可欠である。 しかし、可能なモデル構成の多さは、実際にはマルチレベルモデルの使用を妨げる。 本研究では,データ内のグループ化変数のレベルの違いを効率的に評価するフレキシブルなフレームワークを提案する。 評価された群不均質性は、多レベルモデルで考慮すべき関連する群係数を選択するのに有用である。 実験結果から,シミュレーションデータと実データの両方において,関連するマルチレベルコンポーネントを確実に識別できることが確認された。

Many data sets contain an inherent multilevel structure, for example, because of repeated measurements of the same observational units. Taking this structure into account is critical for the accuracy and calibration of any statistical analysis performed on such data. However, the large number of possible model configurations hinders the use of multilevel models in practice. In this work, we propose a flexible framework for efficiently assessing differences between the levels of given grouping variables in the data. The assessed group heterogeneity is valuable in choosing the relevant group coefficients to consider in a multilevel model. Our empirical evaluations demonstrate that the framework can reliably identify relevant multilevel components in both simulated and real data sets.
翻訳日:2022-12-06 06:17:41 公開日:2020-05-06
# 実験設計におけるランダム化の最適性について:ミニマックス分散と設計ベース推論に対するランダム化の方法

On the Optimality of Randomization in Experimental Design: How to Randomize for Minimax Variance and Design-Based Inference ( http://arxiv.org/abs/2005.03151v1 )

ライセンス: Link先を確認
Nathan Kallus(参考訳) 条件平均値が与えられたセットで異なる場合の2本腕制御実験のミニマックス最適設計について検討する。 この集合が置換対称であるとき、最適設計は完全ランダム化であり、単一分割(つまり、分割の各側で処理ラベルのみをランダム化する設計)を使用することで、最小リスクは$n-1$である。 より一般に、最適設計は kallus (2018) の混合戦略最適設計 (msod) であることが示されている。 特筆すべきは、条件付き平均結果の集合が構造を持つとき(すなわち、置換対称でないとき)であっても、分散の最小最適化は依然として単一の分割を超えるランダム化を必要とする。 しかし、これは精度を目標としているため、フィッシャーの正確なテストによるランダム化(すなわち設計に基づく)推論がnullの違反を適切に検出するためにランダム化において十分な均一性を確保できないかもしれない。 そこで,このような一様性制約を受けるすべての設計において,最小値が最適である推論制約MSODを提案する。 途中、Morgan and Rubin (2012) の再ランダム化と Kallus (2018) の純粋ストラテジー最適設計 (PSOD) を比較した Johansson et al. (2020) について論じる。 そこでいくつかの誤りを指摘し、ランダム化が最小最適であり、kallus (2018) の "no free lunch" 定理と例が正しいと真っ直ぐに設定する。

I study the minimax-optimal design for a two-arm controlled experiment where conditional mean outcomes may vary in a given set. When this set is permutation symmetric, the optimal design is complete randomization, and using a single partition (i.e., the design that only randomizes the treatment labels for each side of the partition) has minimax risk larger by a factor of $n-1$. More generally, the optimal design is shown to be the mixed-strategy optimal design (MSOD) of Kallus (2018). Notably, even when the set of conditional mean outcomes has structure (i.e., is not permutation symmetric), being minimax-optimal for variance still requires randomization beyond a single partition. Nonetheless, since this targets precision, it may still not ensure sufficient uniformity in randomization to enable randomization (i.e., design-based) inference by Fisher's exact test to appropriately detect violations of null. I therefore propose the inference-constrained MSOD, which is minimax-optimal among all designs subject to such uniformity constraints. On the way, I discuss Johansson et al. (2020) who recently compared rerandomization of Morgan and Rubin (2012) and the pure-strategy optimal design (PSOD) of Kallus (2018). I point out some errors therein and set straight that randomization is minimax-optimal and that the "no free lunch" theorem and example in Kallus (2018) are correct.
翻訳日:2022-12-06 06:17:31 公開日:2020-05-06
# AutoScale:確率的変動下での終端エッジ推論のエネルギー効率の最適化

AutoScale: Optimizing Energy Efficiency of End-to-End Edge Inference under Stochastic Variance ( http://arxiv.org/abs/2005.02544v1 )

ライセンス: Link先を確認
Young Geun Kim and Carole-Jean Wu(参考訳) ディープラーニング推論はますますエッジで実行されています。 プログラミングとシステムスタックのサポートが成熟するにつれて、システムパフォーマンスエンベロープをプログラム可能なコプロセッサでスケールアップするモバイルシステム内のアクセラレーション機会が実現される。 したがって、モバイルユーザ向けに設計されたインテリジェントサービスは、CPU上での推論と、モバイルシステム上でのコプロセッサのいずれかの実行、あるいはクラウドや近くのローカルに接続されたシステムのような接続されたシステムを利用するかを選択できる。 これにより、サービスはパフォーマンスをスケールアウトし、エッジモバイルシステムのエネルギー効率を向上させることができる。 これにより、推論がどこで実行されるべきかを決めるという、新たな課題が生まれます。 このような実行のスケーリング決定は、無線ネットワークの信号強度の変動とリソースの干渉がリアルタイム推論のパフォーマンスとシステムエネルギー効率に大きく影響するモバイルクラウド実行の確率的性質とより複雑になる。 本稿では,エッジにおけるエネルギー効率の高いディープラーニング推論を実現するために,AutoScaleを提案する。 autoscaleは、カスタム設計の強化学習アルゴリズム上に構築された、適応的で軽量な実行スケーリングエンジンである。 確率的ランタイム分散に適応しながら、協調クラウドエッジ実行環境におけるニューラルネットワークと利用可能なシステムの特性を考慮して、最もエネルギー効率の高い推論実行目標を継続的に学習し、選択する。 実システムの実装と評価は、現実的な実行シナリオを考慮して、DNNのエッジ推論において、ベースラインのモバイルCPUとクラウドのオフロードに対して平均9.8倍と1.6倍のエネルギー効率の改善を実時間性能と精度の要件を満たしながら示している。

Deep learning inference is increasingly run at the edge. As the programming and system stack support becomes mature, it enables acceleration opportunities within a mobile system, where the system performance envelope is scaled up with a plethora of programmable co-processors. Thus, intelligent services designed for mobile users can choose between running inference on the CPU or any of the co-processors on the mobile system, or exploiting connected systems, such as the cloud or a nearby, locally connected system. By doing so, the services can scale out the performance and increase the energy efficiency of edge mobile systems. This gives rise to a new challenge - deciding when inference should run where. Such execution scaling decision becomes more complicated with the stochastic nature of mobile-cloud execution, where signal strength variations of the wireless networks and resource interference can significantly affect real-time inference performance and system energy efficiency. To enable accurate, energy-efficient deep learning inference at the edge, this paper proposes AutoScale. AutoScale is an adaptive and light-weight execution scaling engine built upon the custom-designed reinforcement learning algorithm. It continuously learns and selects the most energy-efficient inference execution target by taking into account characteristics of neural networks and available systems in the collaborative cloud-edge execution environment while adapting to the stochastic runtime variance. Real system implementation and evaluation, considering realistic execution scenarios, demonstrate an average of 9.8 and 1.6 times energy efficiency improvement for DNN edge inference over the baseline mobile CPU and cloud offloading, while meeting the real-time performance and accuracy requirement.
翻訳日:2022-12-06 06:17:00 公開日:2020-05-06
# 高速幾何表面に基づくライダーデータからの点雲のセグメンテーション

Fast Geometric Surface based Segmentation of Point Cloud from Lidar Data ( http://arxiv.org/abs/2005.02704v1 )

ライセンス: Link先を確認
Aritra Mukherjee, Sourya Dipta Das, Jasorsi Ghosh, Ananda S. Chowdhury, Sanjoy Kumar Saha(参考訳) 環境のマッピングは、ロボットナビゲーションと同時局在とマッピング(SLAM)にとって重要なタスクである。 LIDARは、地図構築に役立つ環境の高速で正確な3Dポイントクラウドマップを提供する。 しかし、ポイントクラウドでの数百万ポイントの処理は計算量的に高価なタスクになる。 本稿では,セグメント面をリアルタイムで生成する手法を提案し,これらを3dオブジェクトのモデリングに応用する。 まず,回転ライダーの単発データから効率的な地図作成のためのアルゴリズムを提案する。 高速なメッシュとサブサンプリングに基づいている。 これは回転するライダーセンサーの物理的設計と動作原理を利用する。 生成されたメッシュ表面は、正規を推定し、その均質性を考慮して分割される。 セグメンテーション面は、ロボット活動環境における物体の幾何学的正確なモデルを予測するための提案として使用できる。 提案手法は, 精度と速度の観点で有効性を強調するために, 一般的なポイントクラウドセグメンテーション手法と比較した。

Mapping the environment has been an important task for robot navigation and Simultaneous Localization And Mapping (SLAM). LIDAR provides a fast and accurate 3D point cloud map of the environment which helps in map building. However, processing millions of points in the point cloud becomes a computationally expensive task. In this paper, a methodology is presented to generate the segmented surfaces in real time and these can be used in modeling the 3D objects. At first an algorithm is proposed for efficient map building from single shot data of spinning Lidar. It is based on fast meshing and sub-sampling. It exploits the physical design and the working principle of the spinning Lidar sensor. The generated mesh surfaces are then segmented by estimating the normal and considering their homogeneity. The segmented surfaces can be used as proposals for predicting geometrically accurate model of objects in the robots activity environment. The proposed methodology is compared with some popular point cloud segmentation methods to highlight the efficacy in terms of accuracy and speed.
翻訳日:2022-12-06 06:08:31 公開日:2020-05-06
# 確率的色彩コンステンシー

Probabilistic Color Constancy ( http://arxiv.org/abs/2005.02730v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Uygar Tuna, Jarno Nikkanen and Moncef Gabbouj(参考訳) 本稿では,PCC(Probabilistic Color Constancy)と呼ばれる,教師なしのカラーコンスタンス手法を提案する。 画像のグラフに基づく表現を用いて,異なる画像領域の寄与度を重み付けしてシーンの照度を推定する枠組みを定義する。 それぞれの(スーパー)ピクセルの重さを推定するには、同じ色の(スーパー)ピクセルが同じように寄与し、より暗い(スーパー)ピクセルが寄与する、という2つの仮定に依存する。 結果のシステムは一つの大域的最適解を持つ。 提案手法は,INTEL-TAUデータセット上の最先端技術と比較して,競合性能を実現する。

In this paper, we propose a novel unsupervised color constancy method, called Probabilistic Color Constancy (PCC). We define a framework for estimating the illumination of a scene by weighting the contribution of different image regions using a graph-based representation of the image. To estimate the weight of each (super-)pixel, we rely on two assumptions: (Super-)pixels with similar colors contribute similarly and darker (super-)pixels contribute less. The resulting system has one global optimum solution. The proposed method achieves competitive performance, compared to the state-of-the-art, on INTEL-TAU dataset.
翻訳日:2022-12-06 06:07:58 公開日:2020-05-06
# ジョイントトータル変動を用いたグループワイズマルチモーダル画像登録

Groupwise Multimodal Image Registration using Joint Total Variation ( http://arxiv.org/abs/2005.02933v1 )

ライセンス: Link先を確認
Mikael Brudfors, Ya\"el Balbastre, John Ashburner(参考訳) 医用画像では、様々な構造や病理を明らかにするため、幅広いモダリティ(MRI、CT、PETなど)を取得することが一般的である。 スキャンやスキャニングセッションの間の患者の動きは避けられないため、登録は後続の画像分析の前に必須のステップであることが多い。 本稿では,このようなマルチモーダル画像登録のための統合総量変動に基づくコスト関数を提案する。 このコスト関数は、強い強度の非均一性に敏感でありながら、複数の画像の原則的にグループ的にアライメントできるという利点がある。 シミュレーションと実脳スキャンの両方を厳密に整列させるアルゴリズムの評価を行った。 この検証は、CT/PETのMRIアライメントに対する強い非均一性と低い登録誤差に対する堅牢性を示す。 実装はhttps://github.com/brudfors/coregistration-njtvで公開しています。

In medical imaging it is common practice to acquire a wide range of modalities (MRI, CT, PET, etc.), to highlight different structures or pathologies. As patient movement between scans or scanning session is unavoidable, registration is often an essential step before any subsequent image analysis. In this paper, we introduce a cost function based on joint total variation for such multimodal image registration. This cost function has the advantage of enabling principled, groupwise alignment of multiple images, whilst being insensitive to strong intensity non-uniformities. We evaluate our algorithm on rigidly aligning both simulated and real 3D brain scans. This validation shows robustness to strong intensity non-uniformities and low registration errors for CT/PET to MRI alignment. Our implementation is publicly available at https://github.com/brudfors/coregistration-njtv.
翻訳日:2022-12-06 06:07:29 公開日:2020-05-06
# グラフエンベディングによるエンティティ検索

Graph-Embedding Empowered Entity Retrieval ( http://arxiv.org/abs/2005.02843v1 )

ライセンス: Link先を確認
Emma J. Gerritse, Faegheh Hasibi, and Arjen P. de Vries(参考訳) 本研究では,グラフ埋め込みを用いて結果リストを再ランク付けすることにより,エンティティ検索における技術の現状を改善する。 グラフ埋め込みはエンティティ指向の検索タスクに有用であることを示す。 本研究では,知識グラフから(グラフ)埋め込みへのエンコーディングが,平易な単語埋め込みよりもエンティティ検索結果の有効性の向上に寄与することを示す。 本稿では,エンティティリンカの精度が全体の検索効率に与える影響を解析する。 我々はさらにクラスタ仮説を展開し、ランキングエンティティを含むユーザタスクにおいて、より広く使われている単語埋め込みよりもグラフ埋め込みの利点を解説する。

In this research, we improve upon the current state of the art in entity retrieval by re-ranking the result list using graph embeddings. The paper shows that graph embeddings are useful for entity-oriented search tasks. We demonstrate empirically that encoding information from the knowledge graph into (graph) embeddings contributes to a higher increase in effectiveness of entity retrieval results than using plain word embeddings. We analyze the impact of the accuracy of the entity linker on the overall retrieval effectiveness. Our analysis further deploys the cluster hypothesis to explain the observed advantages of graph embeddings over the more widely used word embeddings, for user tasks involving ranking entities.
翻訳日:2022-12-06 06:00:38 公開日:2020-05-06
# テキストにおける教師付き抗議検出のためのマルチタスクモデル

Multitask Models for Supervised Protests Detection in Texts ( http://arxiv.org/abs/2005.02954v1 )

ライセンス: Link先を確認
Benjamin J. Radford(参考訳) clef 2019 protestnewsの参加者は、大規模なニュースデータ内の政治的抗議に関連するテキストを識別する。 3つのタスクは、記事の分類、文の検出、イベント抽出である。 これら2、3つのタスクを同時に予測できるマルチタスクニューラルネットワークを適用します。 マルチタスクフレームワークにより、モデルは3つのタスクのトレーニングデータから関連する機能を学ぶことができる。 本論文は, 政治イベント自動符号化における最先端技術に近い性能を示すが, 研究設計の相違は直接比較が困難である。

The CLEF 2019 ProtestNews Lab tasks participants to identify text relating to political protests within larger corpora of news data. Three tasks include article classification, sentence detection, and event extraction. I apply multitask neural networks capable of producing predictions for two and three of these tasks simultaneously. The multitask framework allows the model to learn relevant features from the training data of all three tasks. This paper demonstrates performance near or above the reported state-of-the-art for automated political event coding though noted differences in research design make direct comparisons difficult.
翻訳日:2022-12-06 06:00:29 公開日:2020-05-06
# 森林と樹木をみる:軍事的州間高速道路紛争の検出と相互参照解決

Seeing the Forest and the Trees: Detection and Cross-Document Coreference Resolution of Militarized Interstate Disputes ( http://arxiv.org/abs/2005.02966v1 )

ライセンス: Link先を確認
Benjamin J. Radford(参考訳) テキスト中の社会的・政治的出来事を自動検出する以前の取り組みは、主に単一の文や文書に記述された出来事を特定することに焦点を当ててきた。 ドキュメントのコーパス内では、これらの自動システムは、複数の文やドキュメントにまたがる特異なイベントを認識するイベント参照をリンクできない。 イベントコア参照解決に関する計算言語学の別の文献は、既知の事象を文書内で相互に関連付けようとするものである。 テキスト中の特定の政治事象を識別し、共有イベントに基づいて関連テキストを相互にリンクする手法を評価するためのデータセットを提供する。 データセットであるHeadlines of Warは、Militarized Interstate Disputesデータセットに基づいて構築され、問題ステータスとコア参照インジケータでラベル付けされた見出しペアによって分類された見出しを提供する。 さらに、両方のタスクを達成できるモデルを紹介します。 マルチタスク畳み込みニューラルネットワークは、見出しのテキストと出版日に基づいてイベントとイベントのコリファレンスを認識できることが示されている。

Previous efforts to automate the detection of social and political events in text have primarily focused on identifying events described within single sentences or documents. Within a corpus of documents, these automated systems are unable to link event references -- recognize singular events across multiple sentences or documents. A separate literature in computational linguistics on event coreference resolution attempts to link known events to one another within (and across) documents. I provide a data set for evaluating methods to identify certain political events in text and to link related texts to one another based on shared events. The data set, Headlines of War, is built on the Militarized Interstate Disputes data set and offers headlines classified by dispute status and headline pairs labeled with coreference indicators. Additionally, I introduce a model capable of accomplishing both tasks. The multi-task convolutional neural network is shown to be capable of recognizing events and event coreferences given the headlines' texts and publication dates.
翻訳日:2022-12-06 06:00:18 公開日:2020-05-06
# 統合失調症の症状識別のための句の一貫性グラフに基づくテキストコヒーレンスの評価

Evaluating text coherence based on the graph of the consistency of phrases to identify symptoms of schizophrenia ( http://arxiv.org/abs/2005.03008v1 )

ライセンス: Link先を確認
Artem Kramov(参考訳) テキストコヒーレンス推定に基づく統合失調症症状の検出方法の相違について検討した。 句のレベルでのテキストの分析が提案されている。 句の一貫性のグラフに基づく手法は,テキストの意味的コヒーレンスとコヒーレンスを評価するために提案されている。 意味的コヒーレンス、凝集、その他の言語的特徴(語彙多様性、語彙密度)を考慮に入れ、モデル分類器の訓練のための特徴ベクトルを形成する。 分類器の訓練は英語インタビューのセットで行われてきた。 得られた結果から,各特徴がモデルの出力に与える影響を分析した。 その結果,精神疾患検出の異なるタスクにおいて,句の一貫性のグラフに基づく提案手法が有効であることが示唆された。

Different state-of-the-art methods of the detection of schizophrenia symptoms based on the estimation of text coherence have been analyzed. The analysis of a text at the level of phrases has been suggested. The method based on the graph of the consistency of phrases has been proposed to evaluate the semantic coherence and the cohesion of a text. The semantic coherence, cohesion, and other linguistic features (lexical diversity, lexical density) have been taken into account to form feature vectors for the training of a model-classifier. The training of the classifier has been performed on the set of English-language interviews. According to the retrieved results, the impact of each feature on the output of the model has been analyzed. The results obtained can indicate that the proposed method based on the graph of the consistency of phrases may be used in the different tasks of the detection of mental illness.
翻訳日:2022-12-06 05:59:58 公開日:2020-05-06
# EDD: 組み込みAIソリューションの効率的な微分可能なDNNアーキテクチャと実装共同研究

EDD: Efficient Differentiable DNN Architecture and Implementation Co-search for Embedded AI Solutions ( http://arxiv.org/abs/2005.02563v1 )

ライセンス: Link先を確認
Yuhong Li, Cong Hao, Xiaofan Zhang, Xinheng Liu, Yao Chen, Jinjun Xiong, Wen-mei Hwu, Deming Chen(参考訳) 高品質なAIソリューションは、AIアルゴリズムとそのハードウェア実装を共同で最適化する必要がある。 本研究では,完全同時かつ効率的なDNNアーキテクチャと実装共同研究手法を提案する。 本稿では,DNN探索変数とハードウェア実装変数を1つの解空間に融合することにより,共同探索問題を定式化し,アルゴリズムの精度とハードウェア実装品質を最大化する。 定式化は融合変数に対して微分可能であり、勾配降下アルゴリズムを適用して探索時間を大幅に短縮することができる。 この定式化は、異なる目的を持つ様々なデバイスにも適用できる。 実験では、3つの代表的DNNを探索し、再帰的アーキテクチャとパイプラインアーキテクチャの両方で低遅延GPU実装とFPGA実装をターゲットとしたEDD手法の有効性を実証した。 EDDによって生成された各モデルは、ImageNet上のニューラルアーキテクチャサーチ(NAS)メソッドで検索される既存のDNNモデルと同様の精度を達成するが、12GPU時間サーチで得られる優れた性能を持つ。 我々のDNNターゲットGPUは、Proxylessで報告された最先端ソリューションよりも1.40倍高速で、FPGAをターゲットにしたDNNは、DNNBuilderで報告された最先端ソリューションよりも1.45倍高いスループットを提供する。

High quality AI solutions require joint optimization of AI algorithms and their hardware implementations. In this work, we are the first to propose a fully simultaneous, efficient differentiable DNN architecture and implementation co-search (EDD) methodology. We formulate the co-search problem by fusing DNN search variables and hardware implementation variables into one solution space, and maximize both algorithm accuracy and hardware implementation quality. The formulation is differentiable with respect to the fused variables, so that gradient descent algorithm can be applied to greatly reduce the search time. The formulation is also applicable for various devices with different objectives. In the experiments, we demonstrate the effectiveness of our EDD methodology by searching for three representative DNNs, targeting low-latency GPU implementation and FPGA implementations with both recursive and pipelined architectures. Each model produced by EDD achieves similar accuracy as the best existing DNN models searched by neural architecture search (NAS) methods on ImageNet, but with superior performance obtained within 12 GPU-hour searches. Our DNN targeting GPU is 1.40x faster than the state-of-the-art solution reported in Proxyless, and our DNN targeting FPGA delivers 1.45x higher throughput than the state-of-the-art solution reported in DNNBuilder.
翻訳日:2022-12-06 05:59:27 公開日:2020-05-06
# 運転行動予測のためのオンラインパラメータ推定

Online Parameter Estimation for Human Driver Behavior Prediction ( http://arxiv.org/abs/2005.02597v1 )

ライセンス: Link先を確認
Raunak Bhattacharyya, Ransalu Senanayake, Kyle Brown, and Mykel Kochenderfer(参考訳) ドライバーモデルは、自動運転車の計画だけでなく、シミュレーションにおける安全性の検証にも有用である。 高パラメータ化ブラックボックスドライバモデルは、非常に表現力があり、ニュアンスな振る舞いを捉えることができる。 しかし、通常は解釈性に欠け、時には非現実的で危険な行動を示す。 ルールベースのモデルは解釈可能であり、"安全"な振る舞いを保証するように設計されているが、パラメータの少ないため表現力は低い。 本稿では、インテリジェントドライバモデルに適用されたオンラインパラメータ推定が、衝突のない軌道を提供しながら、ニュアンスな個人運転行動をキャプチャすることを示す。 本研究では,2つの実世界の運転データセットにおいて,粒子フィルタリングによるオンラインパラメータ推定問題と,ルールベースおよびブラックボックスドライバモデルに対するベンチマーク性能を解決する。 我々は,真理データ実証を行うためのドライバモデルの親密性を評価し,その結果の創発的運転行動の安全性を評価する。

Driver models are invaluable for planning in autonomous vehicles as well as validating their safety in simulation. Highly parameterized black-box driver models are very expressive, and can capture nuanced behavior. However, they usually lack interpretability and sometimes exhibit unrealistic-even dangerous-behavior. Rule-based models are interpretable, and can be designed to guarantee "safe" behavior, but are less expressive due to their low number of parameters. In this article, we show that online parameter estimation applied to the Intelligent Driver Model captures nuanced individual driving behavior while providing collision free trajectories. We solve the online parameter estimation problem using particle filtering, and benchmark performance against rule-based and black-box driver models on two real world driving data sets. We evaluate the closeness of our driver model to ground truth data demonstration and also assess the safety of the resulting emergent driving behavior.
翻訳日:2022-12-06 05:59:02 公開日:2020-05-06
# 深部強化学習によるロボットアーム制御とタスクトレーニング

Robotic Arm Control and Task Training through Deep Reinforcement Learning ( http://arxiv.org/abs/2005.02632v1 )

ライセンス: Link先を確認
Andrea Franceschetti, Elisa Tosello, Nicola Castaman and Stefano Ghidoni(参考訳) 本稿では,信頼領域の政策最適化と,正規化アドバンテージ関数を用いたディープqネットワークと,他のアルゴリズム,すなわち深い決定論的政策勾配とバニラ政策勾配との詳細な比較を行った。 比較では、ロボットアームにランダムなターゲットのポーズに到達したり、オブジェクトをピック&プレイするといった操作タスクをこなす場合、後者の方がパフォーマンスが良いことが示される。 シミュレーションと実世界の両方の実験が提供されている。 シミュレーションにより、アルゴリズムのハイパーパラメータを正確に推定し、適切なポリシーを正しく設計するために採用した手順を示す。 実世界の実験では、シミュレーションを正しく訓練すれば、ほとんど変化なしに実際の環境で警察が移動し、実行できることを示せます。

This paper proposes a detailed and extensive comparison of the Trust Region Policy Optimization and DeepQ-Network with Normalized Advantage Functions with respect to other state of the art algorithms, namely Deep Deterministic Policy Gradient and Vanilla Policy Gradient. Comparisons demonstrate that the former have better performances then the latter when asking robotic arms to accomplish manipulation tasks such as reaching a random target pose and pick &placing an object. Both simulated and real-world experiments are provided. Simulation lets us show the procedures that we adopted to precisely estimate the algorithms hyper-parameters and to correctly design good policies. Real-world experiments let show that our polices, if correctly trained on simulation, can be transferred and executed in a real environment with almost no changes.
翻訳日:2022-12-06 05:58:49 公開日:2020-05-06
# ランダムラインの消去とカリキュラム学習による近世国師寺文書の自動転写

Automated Transcription for Pre-Modern Japanese Kuzushiji Documents by Random Lines Erasure and Curriculum Learning ( http://arxiv.org/abs/2005.02669v1 )

ライセンス: Link先を確認
Anh Duc Le(参考訳) 日本の歴史文書のフルページ認識は,複雑なレイアウトや背景,カーソルやコネクテッド・キャラクタといったスタイルが難しいため,難しい課題となっている。 従来の手法のほとんどは、認識過程を文字分割と認識に分割した。 しかし、これらの方法は文字の書き起こしなしに文字境界ボックスやクラスのみを提供する。 本稿では,従来の人為的な認識システムを複数行からクズシジ文書の全ページに拡張する。 人為的な認識システムは、読み上げ過程における人間の目の動きをシミュレートする。 トレーニングデータの欠如に対して,テキスト行をランダムに消去し,文書を歪ませるランダムテキスト行消去手法を提案する。 本報告では,全ページ文書の認識システムの収束問題に対して,簡単なレベル(複数行の文書)から難しいレベル(全ページ文書)まで,認識システムを段階的に訓練するカリキュラムを採用。 ステップトレーニングアプローチとランダムテキストライン消去アプローチを,kaggleにおけるクズシジ認識コンペティションのデータセット上でテストした。 実験の結果,提案手法の有効性が示された。 これらの結果は、クズシジ認識競技の他の参加者と競合する。

Recognizing the full-page of Japanese historical documents is a challenging problem due to the complex layout/background and difficulty of writing styles, such as cursive and connected characters. Most of the previous methods divided the recognition process into character segmentation and recognition. However, those methods provide only character bounding boxes and classes without text transcription. In this paper, we enlarge our previous humaninspired recognition system from multiple lines to the full-page of Kuzushiji documents. The human-inspired recognition system simulates human eye movement during the reading process. For the lack of training data, we propose a random text line erasure approach that randomly erases text lines and distorts documents. For the convergence problem of the recognition system for fullpage documents, we employ curriculum learning that trains the recognition system step by step from the easy level (several text lines of documents) to the difficult level (full-page documents). We tested the step training approach and random text line erasure approach on the dataset of the Kuzushiji recognition competition on Kaggle. The results of the experiments demonstrate the effectiveness of our proposed approaches. These results are competitive with other participants of the Kuzushiji recognition competition.
翻訳日:2022-12-06 05:52:21 公開日:2020-05-06
# 点雲に基づくショウジョウバエの3次元運動物体検出

Drosophila-Inspired 3D Moving Object Detection Based on Point Clouds ( http://arxiv.org/abs/2005.02696v1 )

ライセンス: Link先を確認
Li Wang, Dawei Zhao, Tao Wu, Hao Fu, Zhiyu Wang, Liang Xiao, Xin Xu and Bin Dai(参考訳) 3次元移動物体検出は動的シーン解析において最も重要な課題の一つである。 本稿では,リダセンサを用いたショウジョウバエの3次元移動物体検出手法を提案する。 基本運動検出器の理論によれば,我々はショウジョウバエの浅い視覚神経経路に基づく運動検出器を開発した。 この検出器は物体の動きに敏感であり、背景ノイズを抑制することができる。 異なる接続モードを持つニューラル回路を設計することで,動き領域を粗い方法で探索し,各動き領域の点雲を抽出して移動物体提案を生成する。 改良された3dオブジェクト検出ネットワークを使用して、各提案のポイントクラウドを推定し、3dバウンディングボックスとオブジェクトカテゴリを効率的に生成する。 提案手法を広範に活用したKITTIベンチマークにおいて評価し,動作検出の課題に対する提案手法を用いて最先端性能を得た。

3D moving object detection is one of the most critical tasks in dynamic scene analysis. In this paper, we propose a novel Drosophila-inspired 3D moving object detection method using Lidar sensors. According to the theory of elementary motion detector, we have developed a motion detector based on the shallow visual neural pathway of Drosophila. This detector is sensitive to the movement of objects and can well suppress background noise. Designing neural circuits with different connection modes, the approach searches for motion areas in a coarse-to-fine fashion and extracts point clouds of each motion area to form moving object proposals. An improved 3D object detection network is then used to estimate the point clouds of each proposal and efficiently generates the 3D bounding boxes and the object categories. We evaluate the proposed approach on the widely-used KITTI benchmark, and state-of-the-art performance was obtained by using the proposed approach on the task of motion detection.
翻訳日:2022-12-06 05:52:05 公開日:2020-05-06
# 血管造影画像における解離大動脈の塗布用Webツールの設計と開発

Design and Development of a Web-based Tool for Inpainting of Dissected Aortae in Angiography Images ( http://arxiv.org/abs/2005.02760v1 )

ライセンス: Link先を確認
Alexander Prutsch, Antonio Pepe, Jan Egger(参考訳) 心臓画像検査は大動脈解離(AD)の診断と評価に重要なツールであり,大動脈の重篤な状態であり,大動脈破裂の寿命を延ばす可能性がある。 AD患者は,大動脈解離の診断後,大動脈拡大と疾患進行の持続的モニタリングが必要である。 医学研究から「健康な」画像対が欠如しているため、塗装技術の適用は、解離した大動脈から健康な大動脈への仮想回帰、すなわち疾患の起源を研究する間接的な方法によって、それらを生成するための代替のソースを提供する。 提案する塗装ツールは,大動脈解離の手術で訓練されたニューラルネットワークと,使いやすいユーザインターフェースを組み合わせたものだ。 この目的を達成するため、インペイントツールはStudierFenster(www.studierfenster.at)の3D画像ビューアに統合されている。 webアプリケーションとしてツールを設計することにより、ニューラルネットワークの使用を簡素化し、初期学習曲線を低減する。

Medical imaging is an important tool for the diagnosis and the evaluation of an aortic dissection (AD); a serious condition of the aorta, which could lead to a life-threatening aortic rupture. AD patients need life-long medical monitoring of the aortic enlargement and of the disease progression, subsequent to the diagnosis of the aortic dissection. Since there is a lack of 'healthy-dissected' image pairs from medical studies, the application of inpainting techniques offers an alternative source for generating them by doing a virtual regression from dissected aortae to healthy aortae; an indirect way to study the origin of the disease. The proposed inpainting tool combines a neural network, which was trained on the task of inpainting aortic dissections, with an easy-to-use user interface. To achieve this goal, the inpainting tool has been integrated within the 3D medical image viewer of StudierFenster (www.studierfenster.at). By designing the tool as a web application, we simplify the usage of the neural network and reduce the initial learning curve.
翻訳日:2022-12-06 05:51:51 公開日:2020-05-06
# パターン種における個体の自動検出と認識

Automatic Detection and Recognition of Individuals in Patterned Species ( http://arxiv.org/abs/2005.02905v1 )

ライセンス: Link先を確認
Gullal Singh Cheema, Saket Anand(参考訳) 野生動物監視アプリケーションに対して非侵襲的かつ費用対効果の高いアプローチを可能にするため、視覚動物バイオメトリックスは急速に人気を高めている。 カメラトラップの利用が広まり、大量の画像が収集され、視覚コンテンツの手動処理は管理が困難になっている。 本研究では,トラ,シマウマ,ジャガーなど,異なるパターンを持つ個体の自動検出と認識のための枠組みを開発する。 既存のほとんどのシステムは、主に動物をローカライズするための手動入力に依存しており、大きなデータセットにうまくスケールしない。 画像中の動物を効率的に検出するために,最近提案されているfaster-rcnnオブジェクト検出フレームワークを用いて,ぼかしや部分閉塞,照明,ポーズ変動に対する頑健性を維持しつつ検出プロセスの自動化を行う。 さらに,動物の側面のalexnetから特徴を抽出し,ロジスティック回帰(線形svm)分類器を訓練して個体を認識する。 筆者らは主に,カメラトラップタイガー画像データセットを用いて,画像の画質,動物のポーズ,スケール,ライティングなどさまざまな画像を含むフレームワークをテスト・評価した。 また,ゼブラ画像とジャガー画像の認識システムを評価し,他のパターン種への一般化を示す。 筆者らのフレームワークは,カメラトラップトレーラー画像の完全な検出結果と,最先端の認識技術と比較して,類似あるいは良好な個人認識性能を提供する。

Visual animal biometrics is rapidly gaining popularity as it enables a non-invasive and cost-effective approach for wildlife monitoring applications. Widespread usage of camera traps has led to large volumes of collected images, making manual processing of visual content hard to manage. In this work, we develop a framework for automatic detection and recognition of individuals in different patterned species like tigers, zebras and jaguars. Most existing systems primarily rely on manual input for localizing the animal, which does not scale well to large datasets. In order to automate the detection process while retaining robustness to blur, partial occlusion, illumination and pose variations, we use the recently proposed Faster-RCNN object detection framework to efficiently detect animals in images. We further extract features from AlexNet of the animal's flank and train a logistic regression (or Linear SVM) classifier to recognize the individuals. We primarily test and evaluate our framework on a camera trap tiger image dataset that contains images that vary in overall image quality, animal pose, scale and lighting. We also evaluate our recognition system on zebra and jaguar images to show generalization to other patterned species. Our framework gives perfect detection results in camera trapped tiger images and a similar or better individual recognition performance when compared with state-of-the-art recognition techniques.
翻訳日:2022-12-06 05:51:32 公開日:2020-05-06
# 人間の視覚記憶スキーマに基づく記憶可能な画像の生成

Generating Memorable Images Based on Human Visual Memory Schemas ( http://arxiv.org/abs/2005.02969v1 )

ライセンス: Link先を確認
Cameron Kyle-Davidson, Adrian G. Bors, Karla K. Evans(参考訳) 本研究では,人間の記憶可能性の2次元尺度を組み込んだGAN(Generative Adversarial Networks)を用いて,記憶不能あるいは記憶不能なシーン画像を生成することを提案する。 生成した画像の記憶性は、人間の観察者がイメージをメモリにエンコードするために使用する心的表現に対応する視覚記憶スキーマ(VMS)をモデル化することによって評価される。 VMSモデルは、人間の観測者によるメモリ実験の結果に基づいており、記憶可能性の2Dマップを提供する。 補助損失としてVMSマップ予測モデルを用いて,GANの潜伏空間に記憶可能性制約を課す。 記憶可能画像と記憶不能画像の相違を,独立計算による記憶可能画像と記憶不能画像の相違を評価するとともに,記憶可能画像が実感に与える影響を評価する。

This research study proposes using Generative Adversarial Networks (GAN) that incorporate a two-dimensional measure of human memorability to generate memorable or non-memorable images of scenes. The memorability of the generated images is evaluated by modelling Visual Memory Schemas (VMS), which correspond to mental representations that human observers use to encode an image into memory. The VMS model is based upon the results of memory experiments conducted on human observers, and provides a 2D map of memorability. We impose a memorability constraint upon the latent space of a GAN by employing a VMS map prediction model as an auxiliary loss. We assess the difference in memorability between images generated to be memorable or non-memorable through an independent computational measure of memorability, and additionally assess the effect of memorability on the realness of the generated images.
翻訳日:2022-12-06 05:50:52 公開日:2020-05-06
# 物体検出のためのスケール等化ピラミッド畳み込み

Scale-Equalizing Pyramid Convolution for Object Detection ( http://arxiv.org/abs/2005.03101v1 )

ライセンス: Link先を確認
Xinjiang Wang, Shilong Zhang, Zhuoran Yu, Litong Feng, Wayne Zhang(参考訳) 特徴ピラミッドは、異なるスケールで特徴を抽出する効率的な方法である。 本手法の開発は, 特徴ピラミッドの階層間相関にほとんど触れず, 文脈情報を異なるレベルで集約することに焦点を当てている。 初期のコンピュータビジョン手法では,空間次元とスケール次元の両方で特徴極端を同定することで,スケール不変な特徴を抽出した。 このことに触発されて、ピラミッドレベルの畳み込みが提案され、これはピラミッド畳み込みと呼ばれ、修正された3次元畳み込みである。 積み重ねられたピラミッド畳み込みは、3次元(スケールと空間)の特徴を直接抽出し、他の細心の注意深い機能融合モジュールよりも優れている。 3次元畳み込みの観点に基づいて、特徴ピラミッド全体から統計を収集する統合バッチ正規化をピラミッド畳み込みの後に自然に挿入する。 さらに,本論文では,レティナネットヘッドの設計とともに,ガウスピラミッドから特徴を抽出するのに最も適しており,その特性を特徴ピラミッドで満たすことが困難であることを示す。 この不一致を軽減するため、我々は、共有ピラミッド畳み込みカーネルを高レベル特徴マップのみで整列するスケール等化ピラミッド畳み込み(sepc)を構築する。 計算効率が良く、ほとんどの単一ステージオブジェクト検出器のヘッド設計と互換性があるため、SEPCモジュールは最先端の1ステージオブジェクト検出器において大幅なパフォーマンス向上(MS-COCO2017データセットでは4$AP増加)をもたらす。 ピラミッド畳み込みは、2段階の物体検出器でスタンドアロンモジュールとして機能し、$\sim2$apの性能を向上させることができる。 ソースコードはhttps://github.com/jshilong/SEPCで確認できる。

Feature pyramid has been an efficient method to extract features at different scales. Development over this method mainly focuses on aggregating contextual information at different levels while seldom touching the inter-level correlation in the feature pyramid. Early computer vision methods extracted scale-invariant features by locating the feature extrema in both spatial and scale dimension. Inspired by this, a convolution across the pyramid level is proposed in this study, which is termed pyramid convolution and is a modified 3-D convolution. Stacked pyramid convolutions directly extract 3-D (scale and spatial) features and outperforms other meticulously designed feature fusion modules. Based on the viewpoint of 3-D convolution, an integrated batch normalization that collects statistics from the whole feature pyramid is naturally inserted after the pyramid convolution. Furthermore, we also show that the naive pyramid convolution, together with the design of RetinaNet head, actually best applies for extracting features from a Gaussian pyramid, whose properties can hardly be satisfied by a feature pyramid. In order to alleviate this discrepancy, we build a scale-equalizing pyramid convolution (SEPC) that aligns the shared pyramid convolution kernel only at high-level feature maps. Being computationally efficient and compatible with the head design of most single-stage object detectors, the SEPC module brings significant performance improvement ($>4$AP increase on MS-COCO2017 dataset) in state-of-the-art one-stage object detectors, and a light version of SEPC also has $\sim3.5$AP gain with only around 7% inference time increase. The pyramid convolution also functions well as a stand-alone module in two-stage object detectors and is able to improve the performance by $\sim2$AP. The source code can be found at https://github.com/jshilong/SEPC.
翻訳日:2022-12-06 05:50:36 公開日:2020-05-06
# NTIRE 2020、画像の削除に挑戦:方法と結果

NTIRE 2020 Challenge on Image Demoireing: Methods and Results ( http://arxiv.org/abs/2005.03155v1 )

ライセンス: Link先を確認
Shanxin Yuan, Radu Timofte, Ales Leonardis, Gregory Slabaugh, Xiaotong Luo, Jiangtao Zhang, Yanyun Qu, Ming Hong, Yuan Xie, Cuihua Li, Dejia Xu, Yihao Chu, Qingyan Sun, Shuai Liu, Ziyao Zong, Nan Nan, Chenghua Li, Sangmin Kim, Hyungjoon Nam, Jisu Kim, Jechang Jeong, Manri Cheon, Sung-Jun Yoon, Byungyeon Kang, Junwoo Lee, Bolun Zheng, Xiaohong Liu, Linhui Dai, Jun Chen, Xi Cheng, Zhenyong Fu, Jian Yang, Chul Lee, An Gia Vien, Hyunkook Park, Sabari Nathan, M.Parisa Beham, S Mohamed Mansoor Roomi, Florian Lemarchand, Maxime Pelcat, Erwan Nogues, Densen Puthussery, Hrishikesh P S, Jiji C V, Ashish Sinha, Xuan Zhao(参考訳) 本稿では,画像復元・強調技術(ntire)ワークショップの新たなトレンドの一環として,cvpr 2020とともに実施した画像解体に関する課題について概説する。 画像からモアレパターンを取り除き、その下にあるクリーンなイメージを明らかにすることは難しい作業である。 チャレンジは2つのトラックに分けられた。 トラック1は、単一の画像からモアレパターンを取り除こうとする、単一の画像削除問題をターゲットにしている。 トラック2はバースト解体問題に焦点をあて、同じシーンの劣化したモワール画像のセットが入力として提供され、単一の解体画像を出力として生成することを目標とした。 提案手法は, 地上の真理清浄画像と参加者の手法による復元画像とのピーク信号-雑音比(PSNR)を用いて, その忠実度を評価した。 トラックには142名と99名の登録参加者がおり、最終試験段階では合計14名と6名の応募があった。 エントリは、現在の最先端のイメージとバーストイメージの破壊的問題にまたがる。

This paper reviews the Challenge on Image Demoireing that was part of the New Trends in Image Restoration and Enhancement (NTIRE) workshop, held in conjunction with CVPR 2020. Demoireing is a difficult task of removing moire patterns from an image to reveal an underlying clean image. The challenge was divided into two tracks. Track 1 targeted the single image demoireing problem, which seeks to remove moire patterns from a single image. Track 2 focused on the burst demoireing problem, where a set of degraded moire images of the same scene were provided as input, with the goal of producing a single demoired image as output. The methods were ranked in terms of their fidelity, measured using the peak signal-to-noise ratio (PSNR) between the ground truth clean images and the restored images produced by the participants' methods. The tracks had 142 and 99 registered participants, respectively, with a total of 14 and 6 submissions in the final testing stage. The entries span the current state-of-the-art in image and burst image demoireing problems.
翻訳日:2022-12-06 05:49:33 公開日:2020-05-06
# コンピューターの動作原理は、脳の動作原理よりもよく知っているだろうか?

Do we know the operating principles of our computers better than those of our brain? ( http://arxiv.org/abs/2005.05061v1 )

ライセンス: Link先を確認
J\'anos V\'egh and \'Ad\'am J. Berki(参考訳) 生物学的ニューラルネットワークの振る舞いを理解することへの関心の高まりと、異なる分野やスケールでのニューラルネットワークの利用の増加は、どちらもニューロモルフィックコンピューティングの仕組みを深く理解する必要がある。 他方では、これらの人工ニューロンのような要素をプログラムする必要があり、他方では、タスク中に協調し、コミュニケーションし、計算する大量の要素が必要であるため、従来の計算がそのようなシステムの実装にどの程度効率的に役立つかを精査する必要がある。 一部の電子部品は、いくつかの生物学的構造に驚くほど似ています。 しかし、異なる原則を使って機能するコンポーネントと組み合わせると、非常に効果の低いシステムになります。 本論文は, 従来の原理, 構成要素, 思考が生物系を模倣する限界にどのように影響するかを論じる。 我々は、生物学的ニューラルネットワークの驚くほど効率的な操作に近づくために、コンピューティングパラダイムにおいてどのような変化が必要なのかを説明する。

The increasing interest in understanding the behavior of the biological neural networks, and the increasing utilization of artificial neural networks in different fields and scales, both require a thorough understanding of how neuromorphic computing works. On the one side, the need to program those artificial neuron-like elements, and, on the other side, the necessity for a large number of such elements to cooperate, communicate and compute during tasks, need to be scrutinized to determine how efficiently conventional computing can assist in implementing such systems. Some electronic components bear a surprising resemblance to some biological structures. However, combining them with components that work using different principles can result in systems with very poor efficacy. The paper discusses how the conventional principles, components and thinking about computing limit mimicking the biological systems. We describe what changes will be necessary in the computing paradigms to get closer to the marvelously efficient operation of biological neural networks.
翻訳日:2022-12-06 05:43:04 公開日:2020-05-06
# CoMergerと複数オントロジを融合した知識構築に向けて:分割に基づくアプローチ

Towards Building Knowledge by Merging Multiple Ontologies with CoMerger: A Partitioning-based Approach ( http://arxiv.org/abs/2005.02659v1 )

ライセンス: Link先を確認
Samira Babalou, Birgitta K\"onig-Ries(参考訳) ontologiesはsemantic webでデータを整理する最重要の方法だ。 しばしば、複数の独立に開発されたオントロジーを組み合わせて、関心領域を完全に表現した知識グラフを得る必要がある。 既存のオントロジーの相補性は、それらをマージすることで活用できる。 既存のオントロジーマージのアプローチは、主にバイナリマージを実装している。 しかし、ドメイン間の関連するオントロジーの数とサイズが増加するにつれ、スケーラビリティは中心的な課題となる。 マルチオントロジーマージ技術は、この問題に対する潜在的な解決策を提供する。 スケーラブルな多重オントロジマージ手法であるCoMergerを提案する。 完全オントロジーを相互にマージする代わりに、効率的な処理のために、私たちは関連する概念を各オントロジーにまとめてパーティションにまとめ、まずそれらのパーティションにマージします。 よく知られているデータセットにおける実験結果は,このアプローチの実現可能性を確認し,二進戦略よりもその優越性を示す。 プロトタイプの実装は、ライブWebポータルを通じて自由にアクセスできる。

Ontologies are the prime way of organizing data in the Semantic Web. Often, it is necessary to combine several, independently developed ontologies to obtain a knowledge graph fully representing a domain of interest. The complementarity of existing ontologies can be leveraged by merging them. Existing approaches for ontology merging mostly implement a binary merge. However, with the growing number and size of relevant ontologies across domains, scalability becomes a central challenge. A multi-ontology merging technique offers a potential solution to this problem. We present CoMerger, a scalable multiple ontologies merging method. For efficient processing, rather than successively merging complete ontologies pairwise, we group related concepts across ontologies into partitions and merge first within and then across those partitions. The experimental results on well-known datasets confirm the feasibility of our approach and demonstrate its superiority over binary strategies. A prototypical implementation is freely accessible through a live web portal.
翻訳日:2022-12-06 05:42:48 公開日:2020-05-06
# 説明における心の理論の役割に向けて

Towards the Role of Theory of Mind in Explanation ( http://arxiv.org/abs/2005.02963v1 )

ライセンス: Link先を確認
Maayan Shvo, Toryn Q. Klassen, Sheila A. McIlraith(参考訳) 心の理論は一般的に、精神状態(信念、目標など)を自分自身や他者に与える能力として定義される。 社会科学から人工知能まで、多くの先行研究が、心の理論は、他のエージェントに説明を与えるか、エージェントの行動を説明することの中心である、と観察している。 本稿では,エージェントの信念とエージェントが自身の信念を再考するメカニズムの観点で説明の説明を提供することにより,これまでの研究をさらに発展させ,拡張する。 さらに,心の理論を利用した説明のためのデシデラタのセットを同定する。 これらのデシドラータは我々の信念に基づく説明の説明を知らせる。

Theory of Mind is commonly defined as the ability to attribute mental states (e.g., beliefs, goals) to oneself, and to others. A large body of previous work - from the social sciences to artificial intelligence - has observed that Theory of Mind capabilities are central to providing an explanation to another agent or when explaining that agent's behaviour. In this paper, we build and expand upon previous work by providing an account of explanation in terms of the beliefs of agents and the mechanism by which agents revise their beliefs given possible explanations. We further identify a set of desiderata for explanations that utilize Theory of Mind. These desiderata inform our belief-based account of explanation.
翻訳日:2022-12-06 05:42:21 公開日:2020-05-06
# メリーアーが多ければ多い! ランドマークに基づくゴール認識におけるランドマーク抽出アルゴリズムの効果評価

The More the Merrier?! Evaluating the Effect of Landmark Extraction Algorithms on Landmark-Based Goal Recognition ( http://arxiv.org/abs/2005.02986v1 )

ライセンス: Link先を確認
Kin Max Piamolini Gusm\~ao, Ramon Fraga Pereira, Felipe Meneguzzi(参考訳) 従来の計画領域を用いた目標と計画の認識に対する近年のアプローチは、計画のランドマークに基づくヒューリスティックスを用いて、認識時間と精度の両面で技術結果の状態を達成している。 このような迅速な認識を実現するために、これらのアプローチは効率的だが不完全なアルゴリズムを使用して、ある程度の精度で、計画領域や問題のためのランドマークのサブセットのみを抽出する。 本稿では,各計画問題に対するランドマークの大部分を抽出できる種々のランドマーク抽出アルゴリズムの使用による影響と効果について,徹底的なランドマーク抽出まで検討する。 ランドマークの全体集合の異なるパーセンテージを使用する場合、ランドマークに基づく様々なヒューリスティックを広範囲に評価する。 その結果、より多くのランドマークを持つことは必ずしも高い精度と低い拡散を達成するという意味ではなく、追加で抽出されたランドマークは必ずしもゴール認識タスクに役に立つとは限らない。

Recent approaches to goal and plan recognition using classical planning domains have achieved state of the art results in terms of both recognition time and accuracy by using heuristics based on planning landmarks. To achieve such fast recognition time these approaches use efficient, but incomplete, algorithms to extract only a subset of landmarks for planning domains and problems, at the cost of some accuracy. In this paper, we investigate the impact and effect of using various landmark extraction algorithms capable of extracting a larger proportion of the landmarks for each given planning problem, up to exhaustive landmark extraction. We perform an extensive empirical evaluation of various landmark-based heuristics when using different percentages of the full set of landmarks. Results show that having more landmarks does not necessarily mean achieving higher accuracy and lower spread, as the additional extracted landmarks may not necessarily increase be helpful towards the goal recognition task.
翻訳日:2022-12-06 05:42:10 公開日:2020-05-06
# 網膜におけるイメージセグメンテーションのモデル

A Model for Image Segmentation in Retina ( http://arxiv.org/abs/2005.02567v1 )

ライセンス: Link先を確認
Christopher Warner, Friedrich T. Sommer(参考訳) 従来のフィードフォワードフィルタモデルでは、網膜神経節ニューロンの速度応答を単純な刺激で再現することはできるが、なぜスパイク間の同期がポアソン発火(6])によって予測されるよりもはるかに高いのかは説明できない。 本稿では,周期的網膜スパイク列における同期が視覚入力のコンテクスト情報を伝達する可能性について検討する。 本稿では,個々の網膜スパイクのタイミングを位相モデルとした結合発振器の倉本モデルからなる画像セグメンテーションの計算モデルを提案する。 発振器間の位相結合は刺激構造によって形成され、受容野の局所的なコントラストが類似している場合、細胞は同期する。 本質的に、発振器ネットワークにおける緩和は、画像内の異なる点間の特徴的類似性を表すグラフを用いてグラフクラスタリング問題を解く。 我々は、Berkeley Image Segmentation Data Set (BSDS)で異なるモデルバージョンをテストした。 特徴グラフ(隣接行列、グラフラプラシアン、モジュラリティ)の標準表現によって設定された位相相互作用を持つネットワークは、独立センサのモデルであるベースラインよりもセグメント化性能が著しく向上しなかった。 対照的に、相間相互作用を持つネットワークは、特徴的類似性だけでなく、受容場間の幾何学的距離も考慮し、セグメンテーション性能がベースラインを大きく上回った。

While traditional feed-forward filter models can reproduce the rate responses of retinal ganglion neurons to simple stimuli, they cannot explain why synchrony between spikes is much higher than expected by Poisson firing [6], and can be sometimes rhythmic [25, 16]. Here we investigate the hypothesis that synchrony in periodic retinal spike trains could convey contextual information of the visual input, which is extracted by computations in the retinal network. We propose a computational model for image segmentation consisting of a Kuramoto model of coupled oscillators whose phases model the timing of individual retinal spikes. The phase couplings between oscillators are shaped by the stimulus structure, causing cells to synchronize if the local contrast in their receptive fields is similar. In essence, relaxation in the oscillator network solves a graph clustering problem with the graph representing feature similarity between different points in the image. We tested different model versions on the Berkeley Image Segmentation Data Set (BSDS). Networks with phase interactions set by standard representations of the feature graph (adjacency matrix, Graph Laplacian or modularity) failed to exhibit segmentation performance significantly over the baseline, a model of independent sensors. In contrast, a network with phase interactions that takes into account not only feature similarities but also geometric distances between receptive fields exhibited segmentation performance significantly above baseline.
翻訳日:2022-12-06 05:41:55 公開日:2020-05-06
# 段階的関係ネットワーク : 初歩的脳波学習に基づく直観的上肢運動想像力のデコード

Gradual Relation Network: Decoding Intuitive Upper Extremity Movement Imaginations Based on Few-Shot EEG Learning ( http://arxiv.org/abs/2005.02602v1 )

ライセンス: Link先を確認
Kyung-Hwan Shim, Ji-Hoon Jeong, Seong-Whan Lee(参考訳) brain-computer interface (bci) は、ユーザと外部デバイスを結ぶコミュニケーションツールである。 リアルタイムbci環境では、各ユーザと各セッションにキャリブレーション手順が特に必要である。 この手順は、実世界のシナリオにおけるBCIシステムの適用を妨げるかなりの時間を消費する。 そこで本研究では, 時間群とスペクトル群の組合せを徐々に考慮できる段階的関係ネットワーク (grn) を用いて, 直感的な上肢運動想像力 (mi) のデコードを行うための, メトリックベース・マイズショット学習手法を採用する。 25名から上腕・前腕・手部のmiデータを取得し,直観的上肢運動との関連を検討した。 オフライン分析による総合的な多クラス分類の結果は、それぞれ42.57%、55.60%、および80.85%の1-、5-、25-shot設定であった。 さらに,実時間ロボットアーム制御シナリオにおいて,マイデコーディングの直感的実現可能性を示すことができた。 5人の参加者が78%の成功率を達成した。 そこで,本研究では,人体部品に焦点をあててキャリブレーション時間を短縮したオンラインロボットアーム制御の実現可能性を示した。

Brain-computer interface (BCI) is a communication tool that connects users and external devices. In a real-time BCI environment, a calibration procedure is particularly necessary for each user and each session. This procedure consumes a significant amount of time that hinders the application of a BCI system in a real-world scenario. To avoid this problem, we adopt the metric based few-shot learning approach for decoding intuitive upper-extremity movement imagination (MI) using a gradual relation network (GRN) that can gradually consider the combination of temporal and spectral groups. We acquired the MI data of the upper-arm, forearm, and hand associated with intuitive upper-extremity movement from 25 subjects. The grand average multiclass classification results under offline analysis were 42.57%, 55.60%, and 80.85% in 1-, 5-, and 25-shot settings, respectively. In addition, we could demonstrate the feasibility of intuitive MI decoding using the few-shot approach in real-time robotic arm control scenarios. Five participants could achieve a success rate of 78% in the drinking task. Hence, we demonstrated the feasibility of the online robotic arm control with shortened calibration time by focusing on human body parts but also the accommodation of various untrained intuitive MI decoding based on the proposed GRN.
翻訳日:2022-12-06 05:41:32 公開日:2020-05-06
# cascadepsp: グローバルおよびローカルリファインメントによるクラス非依存・高分解能セグメンテーションに向けて

CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement ( http://arxiv.org/abs/2005.02551v1 )

ライセンス: Link先を確認
Ho Kei Cheng (HKUST), Jihoon Chung (HKUST), Yu-Wing Tai (Tencent), Chi-Keung Tang (HKUST)(参考訳) 最先端のセマンティックセグメンテーション手法は、固定解像度範囲内の画像にのみ訓練された。 これらのセグメンテーションは、低解像度セグメンテーションのbicubic upsamplingがオブジェクト境界に沿って高解像度の詳細を適切に捉えていないため、非常に高解像度な画像では不正確である。 本稿では,高分解能トレーニングデータを用いることなく,高分解能セグメンテーション問題に対処する新しい手法を提案する。 重要な洞察は、可能な限りローカル境界を洗練・修正するCascadePSPネットワークです。 ネットワークは低分解能セグメンテーションデータで訓練されているが、4K以上の高分解能画像に対しても適用可能である。 そこで我々は,CascadePSPが微細化することなく,新たな精細モジュールを用いて,画素精度のセグメンテーション境界を明らかにすることができることを示す。 したがって,本手法はクラス非依存とみなすことができる。 最後に,マルチクラスセグメンテーションにおけるシーン解析へのモデルの適用例を示す。

State-of-the-art semantic segmentation methods were almost exclusively trained on images within a fixed resolution range. These segmentations are inaccurate for very high-resolution images since using bicubic upsampling of low-resolution segmentation does not adequately capture high-resolution details along object boundaries. In this paper, we propose a novel approach to address the high-resolution segmentation problem without using any high-resolution training data. The key insight is our CascadePSP network which refines and corrects local boundaries whenever possible. Although our network is trained with low-resolution segmentation data, our method is applicable to any resolution even for very high-resolution images larger than 4K. We present quantitative and qualitative studies on different datasets to show that CascadePSP can reveal pixel-accurate segmentation boundaries using our novel refinement module without any finetuning. Thus, our method can be regarded as class-agnostic. Finally, we demonstrate the application of our model to scene parsing in multi-class segmentation.
翻訳日:2022-12-06 05:41:08 公開日:2020-05-06
# フレーム間地域相関を利用した効率的な行動認識

Exploiting Inter-Frame Regional Correlation for Efficient Action Recognition ( http://arxiv.org/abs/2005.02591v1 )

ライセンス: Link先を確認
Yuecong Xu, Jianfei Yang, Kezhi Mao, Jianxiong Yin and Simon See(参考訳) 時間的特徴抽出はビデオに基づく行動認識において重要な問題である。 光フローは時間的特徴を抽出する一般的な手法であり、連続フレーム間の画素レベルの相関情報をキャプチャする能力により優れた性能が得られる。 しかし、そのようなピクセルレベルの相関は、高い計算量と大きなストレージリソースのコストで抽出される。 本稿では,ある領域内でフレーム間相関を探索することにより,ACTF(Attentive Correlated Temporal Feature)と呼ばれる時間的特徴抽出手法を提案する。 提案するactfは,地域レベルでの連続フレーム間の双線形相関と線形相関を利用する。 提案手法は,光学フローの導入を回避しつつ,光学フロー法と同等以上の性能を実現することができる。 提案手法は,UCF101では96.3%,HMDB51ベンチマークでは76.3%の最先端性能を実現する。

Temporal feature extraction is an important issue in video-based action recognition. Optical flow is a popular method to extract temporal feature, which produces excellent performance thanks to its capacity of capturing pixel-level correlation information between consecutive frames. However, such a pixel-level correlation is extracted at the cost of high computational complexity and large storage resource. In this paper, we propose a novel temporal feature extraction method, named Attentive Correlated Temporal Feature (ACTF), by exploring inter-frame correlation within a certain region. The proposed ACTF exploits both bilinear and linear correlation between successive frames on the regional level. Our method has the advantage of achieving performance comparable to or better than optical flow-based methods while avoiding the introduction of optical flow. Experimental results demonstrate our proposed method achieves the state-of-the-art performances of 96.3% on UCF101 and 76.3% on HMDB51 benchmark datasets.
翻訳日:2022-12-06 05:40:51 公開日:2020-05-06
# 依存関係認識フィルタのプルーニング

Dependency Aware Filter Pruning ( http://arxiv.org/abs/2005.02634v1 )

ライセンス: Link先を確認
Kai Zhao, Xin-Yu Zhang, Qi Han, and Ming-Ming Cheng(参考訳) 畳み込みニューラルネットワーク(CNN)は通常過パラメータ化され、計算オーバーヘッドと推論時のメモリフットプリントが大幅に増加する。 重要でないフィルタを割ることは、推論コストを軽減する効果的な方法である。 この目的のために、重要でない畳み込みフィルタを特定することが効果的なフィルタプルーニングの鍵となる。 以前の作業では、重みのノルムまたは対応するバッチノルムスケーリング係数に従ってフィルタをプルーンする一方で、隣接するレイヤ間のシーケンシャルな依存性を無視する。 本稿では,隣接層間の依存性を考慮した規範に基づく重要度推定法をさらに開発する。 また,発散誘導正規化を動的に制御し,所望の発散を達成するための新しい機構を提案する。 このようにして、重要でないフィルタを特定し、特定のリソース予算内で最適なネットワークアーキテクチャをより原則的に探索することができる。 提案手法は, CIFAR, SVHN, ImageNetデータセット上で, 既存の強いベースラインに対して良好に動作することを示す。 トレーニングソースは、レビュープロセスの後に公開されます。

Convolutional neural networks (CNNs) are typically over-parameterized, bringing considerable computational overhead and memory footprint in inference. Pruning a proportion of unimportant filters is an efficient way to mitigate the inference cost. For this purpose, identifying unimportant convolutional filters is the key to effective filter pruning. Previous work prunes filters according to either their weight norms or the corresponding batch-norm scaling factors, while neglecting the sequential dependency between adjacent layers. In this paper, we further develop the norm-based importance estimation by taking the dependency between the adjacent layers into consideration. Besides, we propose a novel mechanism to dynamically control the sparsity-inducing regularization so as to achieve the desired sparsity. In this way, we can identify unimportant filters and search for the optimal network architecture within certain resource budgets in a more principled manner. Comprehensive experimental results demonstrate the proposed method performs favorably against the existing strong baseline on the CIFAR, SVHN, and ImageNet datasets. The training sources will be publicly available after the review process.
翻訳日:2022-12-06 05:40:36 公開日:2020-05-06
# 合成の形状:なぜ英語表面実現に合成データを使うべきか

Shape of synth to come: Why we should use synthetic data for English surface realization ( http://arxiv.org/abs/2005.02693v1 )

ライセンス: Link先を確認
Henry Elder and Robert Burke and Alexander O'Connor and Jennifer Foster(参考訳) 2018年と2019年のsurface realization共有タスクは自然言語生成共有タスクであり、ユニバーサル依存性のような木からいくつかの言語のsurface stringへのサーフェス実現アプローチを探求することを目的としている。 2018年の共有タスクでは、追加で合成されたデータでトレーニングされたシステムの絶対的なパフォーマンスにはほとんど違いがなく、2019年の共有タスクで合成データの使用を禁止する新しいルールが導入された。 2018年の共有タスクの結果とは対照的に、イングリッシュ2018データセットの実験では、前回の最先端システムにおいて、合成データの使用が実質的なポジティブな効果をもたらすことが示されている。 我々は、合成データの効果を分析し、その使用が禁止されるよりも奨励されるべきであると論じ、今後の研究努力がそうしたデータを活用するシステムを探究する。

The Surface Realization Shared Tasks of 2018 and 2019 were Natural Language Generation shared tasks with the goal of exploring approaches to surface realization from Universal-Dependency-like trees to surface strings for several languages. In the 2018 shared task there was very little difference in the absolute performance of systems trained with and without additional, synthetically created data, and a new rule prohibiting the use of synthetic data was introduced for the 2019 shared task. Contrary to the findings of the 2018 shared task, we show, in experiments on the English 2018 dataset, that the use of synthetic data can have a substantial positive effect - an improvement of almost 8 BLEU points for a previously state-of-the-art system. We analyse the effects of synthetic data, and we argue that its use should be encouraged rather than prohibited so that future research efforts continue to explore systems that can take advantage of such data.
翻訳日:2022-12-06 05:33:58 公開日:2020-05-06
# バイオメディカルテキストマイニングのためのBERTのマルチタスク学習に関する実証的研究

An Empirical Study of Multi-Task Learning on BERT for Biomedical Text Mining ( http://arxiv.org/abs/2005.02799v1 )

ライセンス: Link先を確認
Yifan Peng, Qingyu Chen, Zhiyong Lu(参考訳) マルチタスク学習(MTL)は自然言語処理アプリケーションにおいて顕著な成功を収めた。 本研究では, テキスト類似性, 関係抽出, 名前付きエンティティ認識, テキスト推論など, バイオメディカルおよび臨床自然言語処理の多様なタスクに対して, 複数のデコーダを用いたマルチタスク学習モデルを提案する。 実験の結果, MTL微調整モデルは, バイオメディカルドメインと臨床ドメインでそれぞれ2.0%, 1.3%, 最先端トランスフォーマーモデル(BERTとその変種)より優れていた。 ペアワイズ MTL はさらに、どのタスクが他のタスクを改善したり減ったりできるかをさらに詳細に示す。 これは、研究者が新しい問題に適したモデルを選ぶのに苦労している状況で特に役に立ちます。 コードとモデルはhttps://github.com/ncbi-nlp/bluebertで公開されている。

Multi-task learning (MTL) has achieved remarkable success in natural language processing applications. In this work, we study a multi-task learning model with multiple decoders on varieties of biomedical and clinical natural language processing tasks such as text similarity, relation extraction, named entity recognition, and text inference. Our empirical results demonstrate that the MTL fine-tuned models outperform state-of-the-art transformer models (e.g., BERT and its variants) by 2.0% and 1.3% in biomedical and clinical domains, respectively. Pairwise MTL further demonstrates more details about which tasks can improve or decrease others. This is particularly helpful in the context that researchers are in the hassle of choosing a suitable model for new problems. The code and models are publicly available at https://github.com/ncbi-nlp/bluebert
翻訳日:2022-12-06 05:33:27 公開日:2020-05-06
# TAG : コードコメント生成のための型補助ガイド

TAG : Type Auxiliary Guiding for Code Comment Generation ( http://arxiv.org/abs/2005.02835v1 )

ライセンス: Link先を確認
Ruichu Cai, Zhihao Liang, Boyan Xu, Zijian Li, Yuexing Hao and Yao Chen(参考訳) 既存の主要なコードコメント生成アプローチ structure-to-sequence frameworkは、例えば演算子、文字列など、コードの解釈の型情報を無視している。 しかし、既存のフレームワークに型情報を導入するのは、型情報間の階層的依存のため自明ではない。 上記の問題に対処するために、ソースコードをn-ary木として、各ノードに関連付けられた型情報を持つコードコメント生成タスク用の型補助型ガイドエンコーダ-デコーダフレームワークを提案する。 具体的には、ソースコードの適応的な要約を可能にするType-associated EncoderとType-restricted Decoderを特徴とする。 さらに,提案フレームワークの学習困難を解消するための階層的強化学習手法を提案する。 大規模評価は、自動評価指標とケーススタディの両方を用いて、我々のフレームワークの最先端性能を示す。

Existing leading code comment generation approaches with the structure-to-sequence framework ignores the type information of the interpretation of the code, e.g., operator, string, etc. However, introducing the type information into the existing framework is non-trivial due to the hierarchical dependence among the type information. In order to address the issues above, we propose a Type Auxiliary Guiding encoder-decoder framework for the code comment generation task which considers the source code as an N-ary tree with type information associated with each node. Specifically, our framework is featured with a Type-associated Encoder and a Type-restricted Decoder which enables adaptive summarization of the source code. We further propose a hierarchical reinforcement learning method to resolve the training difficulties of our proposed framework. Extensive evaluations demonstrate the state-of-the-art performance of our framework with both the auto-evaluated metrics and case studies.
翻訳日:2022-12-06 05:33:11 公開日:2020-05-06
# 補修と補修 -教師なしQAに対する質問応答ペア-

Harvesting and Refining Question-Answer Pairs for Unsupervised QA ( http://arxiv.org/abs/2005.02925v1 )

ライセンス: Link先を確認
Zhongli Li, Wenhui Wang, Li Dong, Furu Wei, Ke Xu(参考訳) 質問応答(qa)は、大規模データセットの可用性とニューラルモデルの有効性によって、大きな成功を収めている。 最近の研究は、これらの成功をほとんど、あるいは全くラベル付きデータなしで設定に拡張しようと試みている。 本研究では,教師なしQAを改善するための2つのアプローチを提案する。 まず,ウィキペディアから語彙的・構文的に異なる質問を抽出し,質問応答対(RefQA)の自動生成を行う。 第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。 我々は手動で注釈付きデータにアクセスすることなくBERTを微調整してSQuAD 1.1とNewsQAで実験を行う。 提案手法は,従来の教師なしアプローチを大きなマージンで上回り,初期の教師付きモデルと競合する。 また,数発の学習環境でのアプローチの有効性を示す。

Question Answering (QA) has shown great success thanks to the availability of large-scale datasets and the effectiveness of neural models. Recent research works have attempted to extend these successes to the settings with few or no labeled data available. In this work, we introduce two approaches to improve unsupervised QA. First, we harvest lexically and syntactically divergent questions from Wikipedia to automatically construct a corpus of question-answer pairs (named as RefQA). Second, we take advantage of the QA model to extract more appropriate answers, which iteratively refines data over RefQA. We conduct experiments on SQuAD 1.1, and NewsQA by fine-tuning BERT without access to manually annotated data. Our approach outperforms previous unsupervised approaches by a large margin and is competitive with early supervised models. We also show the effectiveness of our approach in the few-shot learning setting.
翻訳日:2022-12-06 05:32:36 公開日:2020-05-06
# 分布意味論の目標は何か?

What are the Goals of Distributional Semantics? ( http://arxiv.org/abs/2005.02982v1 )

ライセンス: Link先を確認
Guy Emerson(参考訳) 分散セマンティックモデルはNLPのメインステイとなり、下流タスクに有用な機能を提供する。 しかし、長期的な進歩を評価するには明確な長期的な目標が必要である。 本稿では,現在のモデルが様々な意味的課題にどのように対処できるかを考察し,幅広い言語学的視点から考察する。 異なるサブフィールドで提案されたモデル間の大きな違いを考えると、それらをどのように統合できるかを見るために幅広い視点が必要である。 言語的な洞察はモデルアーキテクチャの設計を導くことができるが、将来の進歩には言語表現性と計算的トラクタビリティの相反する要求のバランスが必要である、と私は結論付けている。

Distributional semantic models have become a mainstay in NLP, providing useful features for downstream tasks. However, assessing long-term progress requires explicit long-term goals. In this paper, I take a broad linguistic perspective, looking at how well current models can deal with various semantic challenges. Given stark differences between models proposed in different subfields, a broad perspective is needed to see how we could integrate them. I conclude that, while linguistic insights can guide the design of model architectures, future progress will require balancing the often conflicting demands of linguistic expressiveness and computational tractability.
翻訳日:2022-12-06 05:32:19 公開日:2020-05-06
# 依存構文解析木からヘッドレスmweを抽出する:パース、タグ付け、ジョイントモデリングアプローチ

Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging, and Joint Modeling Approaches ( http://arxiv.org/abs/2005.03035v1 )

ライセンス: Link先を確認
Tianze Shi, Lillian Lee(参考訳) 興味深い、頻繁なマルチワード式(MWE)は、真の内部構文上の優位性関係を持たないヘッドレスMWEであり、多くの名前の付いたエンティティ("Wells Fargo")や日付("Wells Fargo")、特定の生産的な構成("Blow for blow", "day after day")を含む。 それらの特別な地位と頻度にもかかわらず、現在の依存性アノテーション方式では、内部の構文的ヘッドのように平らな構造を扱い、現在のパーサーは、先頭構造と同じ方法でそれらを扱う必要がある。 一方、解析の文脈以外では、タグは一般的にMWEを特定するために使用されるが、タグは構造情報の恩恵を受ける。 この2つの共通戦略-パーシングとタグ付け-を経験的に比較し、フラットなMWEを予測する。 さらに,両戦略のスコアを結合した効率の良いジョイント復号アルゴリズムを提案する。 MWE-Aware English Dependency Corpus と 6 つの非英語依存ツリーバンクを用いた実験結果から,(1) フラット構造 MWE を識別するための解析よりもタグ付けの方が精度が高いこと,(2) 共同デコーダは2つの異なるビューを分解し,非BERT の特徴は高い精度をもたらすこと,(3) パーサーとタガー間の特徴共有の結果,多くの利得が得られたこと,などが示されている。

An interesting and frequent type of multi-word expression (MWE) is the headless MWE, for which there are no true internal syntactic dominance relations; examples include many named entities ("Wells Fargo") and dates ("July 5, 2020") as well as certain productive constructions ("blow for blow", "day after day"). Despite their special status and prevalence, current dependency-annotation schemes require treating such flat structures as if they had internal syntactic heads, and most current parsers handle them in the same fashion as headed constructions. Meanwhile, outside the context of parsing, taggers are typically used for identifying MWEs, but taggers might benefit from structural information. We empirically compare these two common strategies--parsing and tagging--for predicting flat MWEs. Additionally, we propose an efficient joint decoding algorithm that combines scores from both strategies. Experimental results on the MWE-Aware English Dependency Corpus and on six non-English dependency treebanks with frequent flat structures show that: (1) tagging is more accurate than parsing for identifying flat-structure MWEs, (2) our joint decoder reconciles the two different views and, for non-BERT features, leads to higher accuracies, and (3) most of the gains result from feature sharing between the parsers and taggers.
翻訳日:2022-12-06 05:31:54 公開日:2020-05-06
# UST: 自律運転における軌道予測のための時空間コンテキストの統合

UST: Unifying Spatio-Temporal Context for Trajectory Prediction in Autonomous Driving ( http://arxiv.org/abs/2005.02790v1 )

ライセンス: Link先を確認
Hao He, Hengchen Dai, Naiyan Wang(参考訳) 軌道予測は、交通参加者の行動や相互作用から潜在的な意図を推測する必要があるため、自動運転にとって常に困難な問題である。 それぞれの参加者は異なる環境や相互作用の下で異なる振る舞いをする可能性があるため、この問題は本質的に難しい。 この鍵は、空間的文脈と時間的文脈の両方からの影響を効果的にモデル化することである。 既存の作業は通常、これらの2つのタイプのコンテキストを別々にエンコードします。 本稿では,まず時間次元と空間次元を等しく扱い,時空間的文脈をモデル化する手法を提案する。 提案されたモジュールはシンプルで、数行のコードで簡単に実装できる。 時間的文脈にリカレントニューラルネットワークと空間的文脈に手作り構造を強く依存する既存の手法とは対照的に,本手法は時空間を自動的に分割して適応させることができる。 最後に、最近提案された2つの軌道予測データセットApolloScapeとArgoverseで提案したフレームワークをテストする。 提案手法は,そのシンプルさを維持しつつ,従来の最先端手法を実質的に上回っていることを示す。 これらの奨励的な結果は、我々のアプローチの優位性をさらに検証します。

Trajectory prediction has always been a challenging problem for autonomous driving, since it needs to infer the latent intention from the behaviors and interactions from traffic participants. This problem is intrinsically hard, because each participant may behave differently under different environments and interactions. This key is to effectively model the interlaced influence from both spatial context and temporal context. Existing work usually encodes these two types of context separately, which would lead to inferior modeling of the scenarios. In this paper, we first propose a unified approach to treat time and space dimensions equally for modeling spatio-temporal context. The proposed module is simple and easy to implement within several lines of codes. In contrast to existing methods which heavily rely on recurrent neural network for temporal context and hand-crafted structure for spatial context, our method could automatically partition the spatio-temporal space to adapt the data. Lastly, we test our proposed framework on two recently proposed trajectory prediction dataset ApolloScape and Argoverse. We show that the proposed method substantially outperforms the previous state-of-the-art methods while maintaining its simplicity. These encouraging results further validate the superiority of our approach.
翻訳日:2022-12-06 05:25:40 公開日:2020-05-06
# 構造的多視点表現学習によるコロナウイルス病2019(COVID-19)の診断

Diagnosis of Coronavirus Disease 2019 (COVID-19) with Structured Latent Multi-View Representation Learning ( http://arxiv.org/abs/2005.03227v1 )

ライセンス: Link先を確認
Hengyuan Kang, Liming Xia, Fuhua Yan, Zhibin Wan, Feng Shi, Huan Yuan, Huiting Jiang, Dijia Wu, He Sui, Changqing Zhang, and Dinggang Shen(参考訳) 最近、コロナウイルス病2019(COVID-19)の流行は世界中で急速に広まっている。 影響を受ける患者が多く、医師の負担が多いため、機械学習アルゴリズムによるコンピュータ支援診断が緊急に必要であり、臨床医の努力を大幅に削減し、診断プロセスを加速することができる。 胸部ct(ct)は疾患の診断に有用なツールとして認識されている。 本研究では,CT画像から抽出した一連の特徴を用いて,COVID-19の診断を行うことを提案する。 異なる視点からct画像を記述する複数の特徴を完全に探究するために、特徴の異なる側面からの情報を完全にエンコードできる統一潜在表現を学び、分離性のために有望なクラス構造を付与する。 特に、完全性は、後方ニューラルネットワーク群(それぞれ1種類の特徴に対して)で保証され、クラスラベルを使用することで、その表現は、COVID-19/Community- Acquired pneumonia (CAP)内でコンパクトにされ、また、異なる種類の肺炎の間で大きなマージンが保証される。 このようにして、我々のモデルは、高次元の機能をクラスに直接投影する場合と比較して、過度な適合を避けることができる。 実験結果から,提案手法はすべての比較手法より優れており,訓練データ数の変化による安定した性能が得られた。

Recently, the outbreak of Coronavirus Disease 2019 (COVID-19) has spread rapidly across the world. Due to the large number of affected patients and heavy labor for doctors, computer-aided diagnosis with machine learning algorithm is urgently needed, and could largely reduce the efforts of clinicians and accelerate the diagnosis process. Chest computed tomography (CT) has been recognized as an informative tool for diagnosis of the disease. In this study, we propose to conduct the diagnosis of COVID-19 with a series of features extracted from CT images. To fully explore multiple features describing CT images from different views, a unified latent representation is learned which can completely encode information from different aspects of features and is endowed with promising class structure for separability. Specifically, the completeness is guaranteed with a group of backward neural networks (each for one type of features), while by using class labels the representation is enforced to be compact within COVID-19/community-acquired pneumonia (CAP) and also a large margin is guaranteed between different types of pneumonia. In this way, our model can well avoid overfitting compared to the case of directly projecting highdimensional features into classes. Extensive experimental results show that the proposed method outperforms all comparison methods, and rather stable performances are observed when varying the numbers of training data.
翻訳日:2022-12-06 05:24:26 公開日:2020-05-06
# RF-DNAフィンガープリントを用いたレイリーフェディング条件下でのODMトランスミッタの分類

Preprint: Using RF-DNA Fingerprints To Classify OFDM Transmitters Under Rayleigh Fading Conditions ( http://arxiv.org/abs/2005.04184v1 )

ライセンス: Link先を確認
Mohamed Fadul, Donald Reising, T. Daniel Loveless, Abdul Ofoli(参考訳) モノのインターネット(モノのインターネット、Internet of Things)は、物理的世界やコンピュータシステムと対話できるインターネットに接続されたデバイスの集合体である。 IoTは2020年までにおよそ500億のデバイスで構成されると見積もられている。 この数字に加えて、iotセキュリティの必要性は、エッジデバイスの多くが通信リンクの暗号化に弱いものを使っているという事実によって悪化している。 IoTデバイスの約70%は、暗号化の形式を使用していないと推定されている。 従来の研究では、暗号化などのビットレベルセキュリティ機構を増強する手段として、物理層技術である特定エミッタ識別(SEI)が提案されている。 この研究は、rf-dnaフィンガープリンティングとして知られるseiアプローチの前にレイリーフェディングチャネル係数を推定するためのネルダーミード法を組み込んだものである。 この推定器の性能は信号対雑音比の劣化に対して評価され、最小二乗および最小二乗平均誤差チャネル推定器と比較される。 さらに、最小平均二乗誤差(MMSE)等化を用いたレイリーフェディングチャネル補正を行った受信信号から抽出したRF-DNA指紋を用いた分類結果を示す。 この研究は、ガボル係数の正規化等級および位相応答から生成されたRF-DNA指紋と2つの分類器を用いて無線識別を行う。 4つの802.11a Wi-Fi無線の識別は、2つのパスと5つのパスからなるレイリーフェディングチャネルを用いて、信号対雑音比18と21dB以上の平均90%以上の正確な分類を達成する。

The Internet of Things (IoT) is a collection of Internet connected devices capable of interacting with the physical world and computer systems. It is estimated that the IoT will consist of approximately fifty billion devices by the year 2020. In addition to the sheer numbers, the need for IoT security is exacerbated by the fact that many of the edge devices employ weak to no encryption of the communication link. It has been estimated that almost 70% of IoT devices use no form of encryption. Previous research has suggested the use of Specific Emitter Identification (SEI), a physical layer technique, as a means of augmenting bit-level security mechanism such as encryption. The work presented here integrates a Nelder-Mead based approach for estimating the Rayleigh fading channel coefficients prior to the SEI approach known as RF-DNA fingerprinting. The performance of this estimator is assessed for degrading signal-to-noise ratio and compared with least square and minimum mean squared error channel estimators. Additionally, this work presents classification results using RF-DNA fingerprints that were extracted from received signals that have undergone Rayleigh fading channel correction using Minimum Mean Squared Error (MMSE) equalization. This work also performs radio discrimination using RF-DNA fingerprints generated from the normalized magnitude-squared and phase response of Gabor coefficients as well as two classifiers. Discrimination of four 802.11a Wi-Fi radios achieves an average percent correct classification of 90% or better for signal-to-noise ratios of 18 and 21 dB or greater using a Rayleigh fading channel comprised of two and five paths, respectively.
翻訳日:2022-12-06 05:24:03 公開日:2020-05-06
# 意味的コード検索のための多視点アーキテクチャ

A Multi-Perspective Architecture for Semantic Code Search ( http://arxiv.org/abs/2005.06980v1 )

ライセンス: Link先を確認
Rajarshi Haldar, Lingfei Wu, Jinjun Xiong and Julia Hockenmaier(参考訳) コード片を対応する自然言語記述にマッチさせることができ、その逆もソフトウェアリポジトリへの自然言語検索インタフェースの基本となる。 本稿では,従来の一言語間テキストマッチングモデルに触発された,コード・テキストマッチングのための多言語横断型ニューラルフレームワークを提案する。 conalaデータセットを用いた実験により,提案手法は,従来の単一組込み空間にコードとテキストをマッピングする手法よりも,この言語間マッチングタスクの性能が向上することが示された。

The ability to match pieces of code to their corresponding natural language descriptions and vice versa is fundamental for natural language search interfaces to software repositories. In this paper, we propose a novel multi-perspective cross-lingual neural framework for code--text matching, inspired in part by a previous model for monolingual text-to-text matching, to capture both global and local similarities. Our experiments on the CoNaLa dataset show that our proposed model yields better performance on this cross-lingual text-to-code matching task than previous approaches that map code and text to a single joint embedding space.
翻訳日:2022-12-06 05:16:31 公開日:2020-05-06
# 連鎖木遺伝的アルゴリズムのための多因子最適化パラダイム

A Multifactorial Optimization Paradigm for Linkage Tree Genetic Algorithm ( http://arxiv.org/abs/2005.03090v1 )

ライセンス: Link先を確認
Huynh Thi Thanh Binh, Pham Dinh Thanh, Tran Ba Trung, Le Cong Thanh, Le Minh Hai Phong, Ananthram Swami, Bui Thu Lam(参考訳) Linkage Tree Genetic Algorithm (LTGA) は、問題変数間のリンク情報を用いて複雑な問題を解く効果的な進化的アルゴリズム(EA)である。 ltgaは様々なシングルタスク最適化でうまく動作し、標準遺伝的アルゴリズムと比較して有望な結果が得られる。 しかし、LTGAはマルチタスク最適化問題を扱うには適さない方法である。 一方、MFO(Multifactorial Optimization)は、知識伝達のプロセスを活用するために、統一表現に符号化された独立最適化問題を同時に解くことができる。 本稿では,LTGA と MFO の主な特徴を組み合わせることで,MF-LTGA (Multifactorial Linkage Tree Genetic Algorithm) を提案する。 MF-LTGAは複数の最適化タスクに同時に取り組むことができ、各タスクは共有表現から問題変数間の依存関係を学習する。 この知識は、探索空間における他のタスクを支援するための高品質な部分解を決定するのに役立つ。 さらに、mf-ltgaは関連する問題の知識伝達により収束を高速化する。 提案手法の有効性を,クラスタ化最短経路木問題とデセプティブトラップ関数という2つのベンチマーク問題に対して示す。 LTGAや既存の手法と比較して、MF-LTGAはソリューションの品質や計算時間に優れています。

Linkage Tree Genetic Algorithm (LTGA) is an effective Evolutionary Algorithm (EA) to solve complex problems using the linkage information between problem variables. LTGA performs well in various kinds of single-task optimization and yields promising results in comparison with the canonical genetic algorithm. However, LTGA is an unsuitable method for dealing with multi-task optimization problems. On the other hand, Multifactorial Optimization (MFO) can simultaneously solve independent optimization problems, which are encoded in a unified representation to take advantage of the process of knowledge transfer. In this paper, we introduce Multifactorial Linkage Tree Genetic Algorithm (MF-LTGA) by combining the main features of both LTGA and MFO. MF-LTGA is able to tackle multiple optimization tasks at the same time, each task learns the dependency between problem variables from the shared representation. This knowledge serves to determine the high-quality partial solutions for supporting other tasks in exploring the search space. Moreover, MF-LTGA speeds up convergence because of knowledge transfer of relevant problems. We demonstrate the effectiveness of the proposed algorithm on two benchmark problems: Clustered Shortest-Path Tree Problem and Deceptive Trap Function. In comparison to LTGA and existing methods, MF-LTGA outperforms in quality of the solution or in computation time.
翻訳日:2022-12-06 05:16:20 公開日:2020-05-06
# 事前確率シフトによる公正性の確保

Ensuring Fairness under Prior Probability Shifts ( http://arxiv.org/abs/2005.03474v1 )

ライセンス: Link先を確認
Arpita Biswas, Suvam Mukherjee(参考訳) 本稿では,事前確率シフトが存在する場合,テスト集合とトレーニング集合分布が異なる場合の公平分類の問題について検討する。 この現象は、レシビズム記録や医療費調査など、いくつかの実世界のデータセットの年次記録に見ることができる。 未確認の場合、そのようなシフトは、特定の集団サブグループに対して分類器の予測が不公平になる可能性がある。 比例平等(Proportional Equality, PE)と呼ばれる公平性の概念は、そのようなシフトを考慮に入れているが、PEの公平性を保証するための手順は分かっていなかった。 本研究では,上記の問題を包括的に解決する手法であるCAPEを提案する。 CAPEは、事前の確率シフトの下で公正な予測を保証するために、有病率推定技術、サンプリング、および分類器のアンサンブルを新たに利用している。 本稿では,CAPE が PE-fairness を保証するために最小化を試みている Prevalence difference (PD) と呼ばれる指標を提案する。 理論的には、この計量はいくつかの望ましい性質を示す。 人工データセットにおけるCAPEの有効性を実験的に評価した。 また,CAPEの性能を,CompAS(犯罪リスク評価)やMEPS(医療支出調査)のような現実のデータセット上でのいくつかの人気公正分類器と比較した。 結果は,CAPEがPEフェアの予測を確実にすると同時に,他のパフォーマンス指標でも良好に動作することを示す。

In this paper, we study the problem of fair classification in the presence of prior probability shifts, where the training set distribution differs from the test set. This phenomenon can be observed in the yearly records of several real-world datasets, such as recidivism records and medical expenditure surveys. If unaccounted for, such shifts can cause the predictions of a classifier to become unfair towards specific population subgroups. While the fairness notion called Proportional Equality (PE) accounts for such shifts, a procedure to ensure PE-fairness was unknown. In this work, we propose a method, called CAPE, which provides a comprehensive solution to the aforementioned problem. CAPE makes novel use of prevalence estimation techniques, sampling and an ensemble of classifiers to ensure fair predictions under prior probability shifts. We introduce a metric, called prevalence difference (PD), which CAPE attempts to minimize in order to ensure PE-fairness. We theoretically establish that this metric exhibits several desirable properties. We evaluate the efficacy of CAPE via a thorough empirical evaluation on synthetic datasets. We also compare the performance of CAPE with several popular fair classifiers on real-world datasets like COMPAS (criminal risk assessment) and MEPS (medical expenditure panel survey). The results indicate that CAPE ensures PE-fair predictions, while performing well on other performance metrics.
翻訳日:2022-12-06 05:15:42 公開日:2020-05-06
# カテゴリー型と数値型の混合データに対するグラフスペクトル特徴学習

Graph Spectral Feature Learning for Mixed Data of Categorical and Numerical Type ( http://arxiv.org/abs/2005.02817v1 )

ライセンス: Link先を確認
Saswata Sahoo and Souradip Chakraborty(参考訳) 数値型と分類型の混合型が存在する場合の特徴学習は、関連するモデリング問題にとって重要な問題である。 混合データ空間における単純な近傍クエリでは、数値変数と分類変数を別々に考慮し、適当な距離関数に基づいて組み合わせる。 カーネル学習やプリンシパルコンポーネントといった代替手段は、変数の混合タイプの相互依存構造を明示的に考慮していない。 本研究では,非有向グラフを用いた混合型変数間の確率的依存構造を明示的にモデル化する新しい手法を提案する。 グラフのスペクトル分解 ラプラシアンは望ましい特徴変換を提供する。 変換された特徴空間の固有スペクトルは、観測中の分離性とより顕著なクラスター性を示す。 本稿の主な特徴は、グラフィカルモデルを用いて教師なしフレームワークにおける混合特徴型の相互作用を捉えることである。 特徴学習戦略がもたらす意味を数値的に検証する

Feature learning in the presence of a mixed type of variables, numerical and categorical types, is an important issue for related modeling problems. For simple neighborhood queries under mixed data space, standard practice is to consider numerical and categorical variables separately and combining them based on some suitable distance functions. Alternatives, such as Kernel learning or Principal Component do not explicitly consider the inter-dependence structure among the mixed type of variables. In this work, we propose a novel strategy to explicitly model the probabilistic dependence structure among the mixed type of variables by an undirected graph. Spectral decomposition of the graph Laplacian provides the desired feature transformation. The Eigen spectrum of the transformed feature space shows increased separability and more prominent clusterability among the observations. The main novelty of our paper lies in capturing interactions of the mixed feature type in an unsupervised framework using a graphical model. We numerically validate the implications of the feature learning strategy
翻訳日:2022-12-06 05:14:02 公開日:2020-05-06
# 安定RKHSの数学的基礎

Mathematical foundations of stable RKHSs ( http://arxiv.org/abs/2005.02971v1 )

ライセンス: Link先を確認
Mauro Bisiacco and Gianluigi Pillonetto(参考訳) 再生カーネルヒルベルト空間(RKHS)は、線形システム識別にも人気が高まっている機械学習の鍵となる空間である。 特に、いわゆる安定 rkhss は絶対和可能なインパルス応答のモデル化に使うことができる。 正規化された最小二乗と組み合わせることで、入力出力データから動的システムを再構築することができる。 本稿では, 安定なRKHSの構造特性について述べる。 安定なカーネルと、絶対的に要約可能あるいは有限トレースなカーネルを含むような他の基本クラスとの関係は解明される。 これらの洞察は、機能空間のコンテキストにもたらされる。 まず、任意の安定な核が l2 の直交固有ベクトルの基底によって誘導される特徴写像を認めることが証明される。 このような機能を利用してインパルス応答をモデル化する古典的なシステム識別アプローチとの正確な接続も提供される。 次に、核固有ベクトルと固有値を定式化したrkhssに必要な十分安定条件を求める。 その結果,線形システム同定のための正規化スキームの安定性試験,インパルス応答モデリング,計算効率に影響を及ぼす安定なRKHSの数学的基礎が得られた。

Reproducing kernel Hilbert spaces (RKHSs) are key spaces for machine learning that are becoming popular also for linear system identification. In particular, the so-called stable RKHSs can be used to model absolutely summable impulse responses. In combination e.g. with regularized least squares they can then be used to reconstruct dynamic systems from input-output data. In this paper we provide new structural properties of stable RKHSs. The relation between stable kernels and other fundamental classes, like those containing absolutely summable or finite-trace kernels, is elucidated. These insights are then brought into the feature space context. First, it is proved that any stable kernel admits feature maps induced by a basis of orthogonal eigenvectors in l2. The exact connection with classical system identification approaches that exploit such kind of functions to model impulse responses is also provided. Then, the necessary and sufficient stability condition for RKHSs designed by formulating kernel eigenvectors and eigenvalues is obtained. Overall, our new results provide novel mathematical foundations of stable RKHSs with impact on stability tests, impulse responses modeling and computational efficiency of regularized schemes for linear system identification.
翻訳日:2022-12-06 05:07:18 公開日:2020-05-06
# グローバルおよび時系列アノテーションのための多次元連成モデル

Joint Multi-Dimensional Model for Global and Time-Series Annotations ( http://arxiv.org/abs/2005.03117v1 )

ライセンス: Link先を確認
Anil Ramakrishna, Rahul Gupta, Shrikanth Narayanan(参考訳) クラウドソーシングは、ラベルのないデータインスタンスのアノテーションを集める一般的なアプローチである。 それぞれのデータインスタンスに対して、複数の、しばしば無意味な、訓練されていない注釈子から大量のアノテーションを収集し、それらを組み合わせて、基礎的な真理を見積もる。 さらに、インフルエンスのような構成要素に対するアノテーションは、各インスタンスのヴァレンスやarousalといった多次元の注釈を付けて多次元化されることが多い。 しかし、ほとんどのアノテーション融合スキームはこの側面を無視し、各次元を別々にモデル化する。 本研究では,多次元アノテーション融合のための生成モデルを提案することで,より正確な基底真理推定に繋がる次元のモデル化を行う。 提案するモデルは,大域的および時系列的アノテーション融合問題に適用可能であり,アノテータによって歪んだ潜在変数として基底真理を扱う。 予測最大化アルゴリズムを用いてモデルパラメータを推定し、人間のアノテーションを用いた人工タスクと同様に、合成データと実感情コーパスを用いてその性能を評価する。

Crowdsourcing is a popular approach to collect annotations for unlabeled data instances. It involves collecting a large number of annotations from several, often naive untrained annotators for each data instance which are then combined to estimate the ground truth. Further, annotations for constructs such as affect are often multi-dimensional with annotators rating multiple dimensions, such as valence and arousal, for each instance. Most annotation fusion schemes however ignore this aspect and model each dimension separately. In this work we address this by proposing a generative model for multi-dimensional annotation fusion, which models the dimensions jointly leading to more accurate ground truth estimates. The model we propose is applicable to both global and time series annotation fusion problems and treats the ground truth as a latent variable distorted by the annotators. The model parameters are estimated using the Expectation-Maximization algorithm and we evaluate its performance using synthetic data and real emotion corpora as well as on an artificial task with human annotations
翻訳日:2022-12-06 05:07:01 公開日:2020-05-06
# 行順分類によるエンド・ツー・エンドレーンマーカー検出

End-to-End Lane Marker Detection via Row-wise Classification ( http://arxiv.org/abs/2005.08630v1 )

ライセンス: Link先を確認
Seungwoo Yoo, Heeseok Lee, Heesoo Myeong, Sungrack Yun, Hyoungwoo Park, Janghoon Cho, Duck Hoon Kim(参考訳) 自律運転では、信頼性が高く正確な車線マーカーの位置を検出することが重要な課題である。 従来, レーンマーカー検出問題に対する従来の手法では, 厚さのないラインセグメントの集合で表現されることが多いため, 高度な後処理は避けられない。 本稿では,画素レベルの高密度予測タスクにおいて,処理後のステップを必要とせず,エンドツーエンドで直接レーンマーカ頂点予測を行う手法を提案する。 具体的には,レーンマーカー検出問題を,レーンマーカーの固有形状を生かした行単位の分類タスクに変換するが,驚くべきことに,十分に探索されていない。 画像で左から右に拡がるレーンマーカーに関する十分な情報をコンパクトに抽出するために、水平要素を順次圧縮するために使用される新しい層を考案し、テスト時にargmax操作により最終レーンマーカー位置が簡単に得られるエンド・ツー・エンドレーンマーカー検出システムを実現する。 実験の結果,TuSimpleとCULaneの2つの人気レーンマーカー検出ベンチマークにおいて,最先端の手法を同等あるいは上回る手法の有効性が示された。

In autonomous driving, detecting reliable and accurate lane marker positions is a crucial yet challenging task. The conventional approaches for the lane marker detection problem perform a pixel-level dense prediction task followed by sophisticated post-processing that is inevitable since lane markers are typically represented by a collection of line segments without thickness. In this paper, we propose a method performing direct lane marker vertex prediction in an end-to-end manner, i.e., without any post-processing step that is required in the pixel-level dense prediction task. Specifically, we translate the lane marker detection problem into a row-wise classification task, which takes advantage of the innate shape of lane markers but, surprisingly, has not been explored well. In order to compactly extract sufficient information about lane markers which spread from the left to the right in an image, we devise a novel layer, which is utilized to successively compress horizontal components so enables an end-to-end lane marker detection system where the final lane marker positions are simply obtained via argmax operations in testing time. Experimental results demonstrate the effectiveness of the proposed method, which is on par or outperforms the state-of-the-art methods on two popular lane marker detection benchmarks, i.e., TuSimple and CULane.
翻訳日:2022-12-06 05:05:12 公開日:2020-05-06
# 関連項抽出による教師なしニューラルアスペクト探索

Unsupervised Neural Aspect Search with Related Terms Extraction ( http://arxiv.org/abs/2005.02771v1 )

ライセンス: Link先を確認
Timur Sokhin, Maria Khodorchenko, and Nikolay Butakov(参考訳) 自然言語処理において、アスペクト識別と項抽出のタスクは依然として困難である。 教師付きメソッドはスコアが高いが、ラベル付きデータセットがないため、現実世界のアプリケーションでそれを使うのは難しい。 教師なしアプローチはいくつかのタスクにおいてこれらの手法より優れているが、特にマルチアスペクト設定においてアスペクトと対応する用語の両方を抽出することは依然として困難である。 本研究では,畳み込み型マルチアテンション機構を備えた,新しい教師なしニューラルネットワークを提案する。ペア(検査,用語)を同時に抽出し,実世界のデータセット上での有効性を示す。 マルチスペクトル抽出の質を向上させるための特別な損失を適用する。 実験の結果, この損失により, このジョイント設定だけでなく, アスペクト予測のみにおいても精度が向上することが示された。

The tasks of aspect identification and term extraction remain challenging in natural language processing. While supervised methods achieve high scores, it is hard to use them in real-world applications due to the lack of labelled datasets. Unsupervised approaches outperform these methods on several tasks, but it is still a challenge to extract both an aspect and a corresponding term, particularly in the multi-aspect setting. In this work, we present a novel unsupervised neural network with convolutional multi-attention mechanism, that allows extracting pairs (aspect, term) simultaneously, and demonstrate the effectiveness on the real-world dataset. We apply a special loss aimed to improve the quality of multi-aspect extraction. The experimental study demonstrates, what with this loss we increase the precision not only on this joint setting but also on aspect prediction only.
翻訳日:2022-12-06 04:58:34 公開日:2020-05-06
# petra: 人追跡のための疎密な教師付きメモリモデル

PeTra: A Sparsely Supervised Memory Model for People Tracking ( http://arxiv.org/abs/2005.02990v1 )

ライセンス: Link先を確認
Shubham Toshniwal, Allyson Ettinger, Kevin Gimpel, and Karen Livescu(参考訳) 我々は,メモリスロット内のエンティティを追跡するメモリ指定ニューラルネットワークであるpetraを提案する。 PeTraは、GAP代名詞解決データセットからのスパースアノテーションを使用してトレーニングされ、より単純なアーキテクチャを使用してタスクの前のメモリモデルより優れている。 キーモデリングの選択を実証的に比較し、強力なパフォーマンスを維持しつつ、メモリモジュールの設計のいくつかの側面を単純化できることを見出した。 記憶モデルの人物追跡能力を測定するために (a)テキスト中のユニークなエンティティの数を数えた新しい診断評価を提案し、 b)PeTraのメモリログで追跡している人物の証拠を従来の手法と比較するため,小規模の人間による評価を行う。 PeTraは両方の評価に非常に効果的で、限られたアノテーションで訓練されているにもかかわらず、メモリ内の人々を追跡できる能力を示している。

We propose PeTra, a memory-augmented neural network designed to track entities in its memory slots. PeTra is trained using sparse annotation from the GAP pronoun resolution dataset and outperforms a prior memory model on the task while using a simpler architecture. We empirically compare key modeling choices, finding that we can simplify several aspects of the design of the memory module while retaining strong performance. To measure the people tracking capability of memory models, we (a) propose a new diagnostic evaluation based on counting the number of unique entities in text, and (b) conduct a small scale human evaluation to compare evidence of people tracking in the memory logs of PeTra relative to a previous approach. PeTra is highly effective in both evaluations, demonstrating its ability to track people in its memory despite being trained with limited annotation.
翻訳日:2022-12-06 04:58:03 公開日:2020-05-06
# 自動推論ツールによる自然言語推論タスクの提案

Probing the Natural Language Inference Task with Automated Reasoning Tools ( http://arxiv.org/abs/2005.02573v1 )

ライセンス: Link先を確認
Zaid Marji, Animesh Nighojkar, John Licato(参考訳) 自然言語推論(NLI)タスクは、現代のNLPにおいて重要なタスクであり、他の多くのタスクがどのタスクを再現できるかを広範囲に問う。 現在のNLIのベンチマークデータセットの最先端はディープラーニングに基づくものであるが、NLIタスクの論理構造を調べるために他のテクニックを使用することは価値がある。 我々は、機械指向の自然言語(Attempto Controlled English)がNLI文のパースにどの程度うまく使えるか、また、自動定理プローバーが結果の公式をどう解釈できるかをテストする。 性能を向上させるために,構文および意味変換規則のセットを開発した。 それらの性能を報告し、NLIと論理ベースのNLPについて考察する。

The Natural Language Inference (NLI) task is an important task in modern NLP, as it asks a broad question to which many other tasks may be reducible: Given a pair of sentences, does the first entail the second? Although the state-of-the-art on current benchmark datasets for NLI are deep learning-based, it is worthwhile to use other techniques to examine the logical structure of the NLI task. We do so by testing how well a machine-oriented controlled natural language (Attempto Controlled English) can be used to parse NLI sentences, and how well automated theorem provers can reason over the resulting formulae. To improve performance, we develop a set of syntactic and semantic transformation rules. We report their performance, and discuss implications for NLI and logic-based NLP.
翻訳日:2022-12-06 04:57:50 公開日:2020-05-06
# ユーザ中心でコンテンツ駆動型ソーシャルボットの構築

Building A User-Centric and Content-Driven Socialbot ( http://arxiv.org/abs/2005.02623v1 )

ライセンス: Link先を確認
Hao Fang(参考訳) 音声掲示板を構築するために,ソーシャルボット会話用に設計した対話戦略を収容可能なシステムアーキテクチャを開発した。 このアーキテクチャは、ユーザの発話を分析する多次元言語理解モジュールと、対話コンテキスト追跡および複雑な対話制御のための階層的ダイアログ管理フレームワークと、応答計画を実現し、音声合成のための調整を行う言語生成プロセスからなる。 さらに,様々な情報源からソーシャルチャットコンテンツを収集し,ソーシャルボットを駆動する新たな知識ベースを構築した。 システムの重要な貢献は、知識ベースとダイアログ管理の相乗効果、すなわち、対話制御を極めて効率的にする知識ベースを組織化するためのグラフ構造の使用である。 コンペ期間中にサウンドボードから収集したデータを用いて、ソーシャルボットの会話とユーザ評価の詳細な分析を行い、ソーシャルボットの評価方法に関する貴重な洞察を提供する。 さらに,会話中の個々の対話セグメントをスコアリングできるシステム評価と診断のための新しいアプローチについても検討した。 最後に,非構造化データに関連する話題について,ソーシャルボットが浅い会話に苦しむことを観察し,文書に基づく拡張型ソーシャルボット会話を可能にする問題について検討する。 機械読解とダイアログ制御技術を組み合わせるために,グラフを自動構築する手法とともに,グラフに基づく文書表現を提案する。 グラフベースの表現を使用して、ノードを検索したり、グラフのエッジに沿って移動することでダイアログ制御を行うことができる。 使用法を説明するために、ニュース記事のソーシャルボット会話のための混合開始型対話戦略を設計する。

To build Sounding Board, we develop a system architecture that is capable of accommodating dialog strategies that we designed for socialbot conversations. The architecture consists of a multi-dimensional language understanding module for analyzing user utterances, a hierarchical dialog management framework for dialog context tracking and complex dialog control, and a language generation process that realizes the response plan and makes adjustments for speech synthesis. Additionally, we construct a new knowledge base to power the socialbot by collecting social chat content from a variety of sources. An important contribution of the system is the synergy between the knowledge base and the dialog management, i.e., the use of a graph structure to organize the knowledge base that makes dialog control very efficient in bringing related content to the discussion. Using the data collected from Sounding Board during the competition, we carry out in-depth analyses of socialbot conversations and user ratings which provide valuable insights in evaluation methods for socialbots. We additionally investigate a new approach for system evaluation and diagnosis that allows scoring individual dialog segments in the conversation. Finally, observing that socialbots suffer from the issue of shallow conversations about topics associated with unstructured data, we study the problem of enabling extended socialbot conversations grounded on a document. To bring together machine reading and dialog control techniques, a graph-based document representation is proposed, together with methods for automatically constructing the graph. Using the graph-based representation, dialog control can be carried out by retrieving nodes or moving along edges in the graph. To illustrate the usage, a mixed-initiative dialog strategy is designed for socialbot conversations on news articles.
翻訳日:2022-12-06 04:57:37 公開日:2020-05-06
# モンテカルロ木探索とニューラルネットワークを用いた性能知識の学習・伝達・推薦

Learning, transferring, and recommending performance knowledge with Monte Carlo tree search and neural networks ( http://arxiv.org/abs/2005.03063v1 )

ライセンス: Link先を確認
Don M. Dini(参考訳) パフォーマンスを最適化するためのプログラムの変更は、人間の直感と経験に完全に依存する、エスカブルなタスクです。 さらに、大規模に運用している企業は、個々の個人がシステムを制御するコードを理解できない段階にあり、そのため、パフォーマンス向上のための変更が困難になる可能性がある。 本稿では,プログラムに推奨される変更を見つけるためのAI支援を提供する学習システムを提案する。 具体的には,モンテカルロ木探索(MCTS)フレームワークを用いて,評価フィードバック,遅延逆性能プログラミングドメインを効果的に定式化する方法を示す。 次に,木探索計算を迅速に行うための計算ゲームからの確立した手法を,推奨プログラム変更の高速化に応用できることを示した。 以前の問題のために構築されたmcts木から期待されるユーティリティの推定は、新しい問題にまたがる効果的なサンプリングポリシーを学習するために使用され、最適化知識の転送可能性を示している。 この定式化はApache Spark分散コンピューティング環境に適用され、リコメンデーションを見つけるのに検索ツリーを構築するのに必要な時間が最大10倍に短縮されるという予備的な結果が観察される。

Making changes to a program to optimize its performance is an unscalable task that relies entirely upon human intuition and experience. In addition, companies operating at large scale are at a stage where no single individual understands the code controlling its systems, and for this reason, making changes to improve performance can become intractably difficult. In this paper, a learning system is introduced that provides AI assistance for finding recommended changes to a program. Specifically, it is shown how the evaluative feedback, delayed-reward performance programming domain can be effectively formulated via the Monte Carlo tree search (MCTS) framework. It is then shown that established methods from computational games for using learning to expedite tree-search computation can be adapted to speed up computing recommended program alterations. Estimates of expected utility from MCTS trees built for previous problems are used to learn a sampling policy that remains effective across new problems, thus demonstrating transferability of optimization knowledge. This formulation is applied to the Apache Spark distributed computing environment, and a preliminary result is observed that the time required to build a search tree for finding recommendations is reduced by up to a factor of 10x.
翻訳日:2022-12-06 04:57:09 公開日:2020-05-06
# メタ学習による安全強化学習

Safe Reinforcement Learning through Meta-learned Instincts ( http://arxiv.org/abs/2005.03233v1 )

ライセンス: Link先を確認
Djordje Grbic and Sebastian Risi(参考訳) 強化学習の重要な目標は、自分自身や環境にダメージを与える可能性のある状況を避けながら、新しい目標に迅速に適応できるエージェントを作ることである。 エージェントが学ぶ方法の1つは、新しいポリシーを発見するのに必要な探索メカニズムである。 しかし、深層強化学習では、通常、行動空間にノイズを注入することで探索を行う。 多くのドメインでうまく機能する一方で、この設定はエージェントによる騒がしいアクションが環境において安全でない状態につながるという固有のリスクを持っています。 本稿では,メタ学習型本能ネットワーク(meta-learned instinctual networks, mlin)と呼ばれる新しいアプローチを紹介する。 このアプローチの核心は、強化学習と進化した「本能的」ネットワークを通じて訓練されたプラスチックネットワークであり、エージェントの寿命の間は変化せず、プラスチックネットワークのノイズ出力を調節することができる。 私たちは、エージェントがデプロイ中に新しいターゲットにアプローチすることを学ばなければならない、no-go zoneを備えた単純な2dナビゲーションタスクでアイデアをテストします。 MLINは標準的なメタトレーニングネットワークよりも優れており、エージェントはno-goゾーンのいずれかと衝突することなく、新しいターゲットへのナビゲートを学ぶことができる。 これらの結果から、直感的ネットワークによるメタ学習は、安全なAIのための有望な新しいアプローチであり、様々な分野におけるこの分野の進歩を可能にする可能性が示唆された。

An important goal in reinforcement learning is to create agents that can quickly adapt to new goals while avoiding situations that might cause damage to themselves or their environments. One way agents learn is through exploration mechanisms, which are needed to discover new policies. However, in deep reinforcement learning, exploration is normally done by injecting noise in the action space. While performing well in many domains, this setup has the inherent risk that the noisy actions performed by the agent lead to unsafe states in the environment. Here we introduce a novel approach called Meta-Learned Instinctual Networks (MLIN) that allows agents to safely learn during their lifetime while avoiding potentially hazardous states. At the core of the approach is a plastic network trained through reinforcement learning and an evolved "instinctual" network, which does not change during the agent's lifetime but can modulate the noisy output of the plastic network. We test our idea on a simple 2D navigation task with no-go zones, in which the agent has to learn to approach new targets during deployment. MLIN outperforms standard meta-trained networks and allows agents to learn to navigate to new targets without colliding with any of the no-go zones. These results suggest that meta-learning augmented with an instinctual network is a promising new approach for safe AI, which may enable progress in this area on a variety of different domains.
翻訳日:2022-12-06 04:56:50 公開日:2020-05-06
# 深層多様性学習

Deep Divergence Learning ( http://arxiv.org/abs/2005.02612v1 )

ライセンス: Link先を確認
Kubra Cilingir, Rachel Manzelli, Brian Kulis(参考訳) 古典線形距離学習法は、ニューラルネットワークを用いたデータの埋め込みを学習するためのディープメトリック学習法と、学習ユークリッド距離を分布上の発散のようなより一般的な発散測度に拡張するブレグマン発散学習法である。 本稿では,ニューラルネットワークを用いた関数型ブレグマン発散の学習とパラメータ化に基づく深部ブレグマン発散を導入し,これらの既存の作業ラインを統一・拡張する。 特に、分布を比較するための深層学習形式、カーネル計量学習、マハラノビス計量学習、モーメントマッチング関数が、対称条件におけるこれらの分岐の特別な場合として現れることを示す。 次に,一般関数型Bregman分散学習のためのディープラーニングフレームワークについて述べるとともに,本手法が既存の深度メトリック学習手法と比較して,ベンチマークデータセット上で優れた性能を示すことを示す。 また,半教師あり分散クラスタリング問題や教師なしデータ生成のための新しい損失関数など,新しいアプリケーションについても検討した。

Classical linear metric learning methods have recently been extended along two distinct lines: deep metric learning methods for learning embeddings of the data using neural networks, and Bregman divergence learning approaches for extending learning Euclidean distances to more general divergence measures such as divergences over distributions. In this paper, we introduce deep Bregman divergences, which are based on learning and parameterizing functional Bregman divergences using neural networks, and which unify and extend these existing lines of work. We show in particular how deep metric learning formulations, kernel metric learning, Mahalanobis metric learning, and moment-matching functions for comparing distributions arise as special cases of these divergences in the symmetric setting. We then describe a deep learning framework for learning general functional Bregman divergences, and show in experiments that this method yields superior performance on benchmark datasets as compared to existing deep metric learning approaches. We also discuss novel applications, including a semi-supervised distributional clustering problem, and a new loss function for unsupervised data generation.
翻訳日:2022-12-06 04:56:13 公開日:2020-05-06
# ポジティブ学習とラベルなし学習のための集団損失関数

Collective Loss Function for Positive and Unlabeled Learning ( http://arxiv.org/abs/2005.03228v1 )

ライセンス: Link先を確認
Chenhao Xie, Qiao Cheng, Jiaqing Liang, Lihan Chen, Yanghua Xiao(参考訳) 人々は否定的な例に明示的に露出することなくクラスを区別することを学ぶ。 それとは対照的に、従来の機械学習アルゴリズムは、しばしば否定的な例に依存している。 したがって、モデルを収束させる学習目標を設計し、明示的な負の信号なしで不偏の予測を行うことが重要である。 本稿では,ポジティブデータとラベルなしデータ(cpu)のみから学習するための総損失関数を提案する。 理論的には、PU学習の設定から損失関数を導出する。 ベンチマークと実世界のデータセットで集中的な実験を行う。 その結果,cPU は最先端の PU 学習手法よりも一貫して優れていた。

People learn to discriminate between classes without explicit exposure to negative examples. On the contrary, traditional machine learning algorithms often rely on negative examples, otherwise the model would be prone to collapse and always-true predictions. Therefore, it is crucial to design the learning objective which leads the model to converge and to perform predictions unbiasedly without explicit negative signals. In this paper, we propose a Collectively loss function to learn from only Positive and Unlabeled data (cPU). We theoretically elicit the loss function from the setting of PU learning. We perform intensive experiments on the benchmark and real-world datasets. The results show that cPU consistently outperforms the current state-of-the-art PU learning methods.
翻訳日:2022-12-06 04:49:52 公開日:2020-05-06
# Manifolds Disrepancyアライメントによるサブドメイン適応

Subdomain Adaptation with Manifolds Discrepancy Alignment ( http://arxiv.org/abs/2005.03229v1 )

ライセンス: Link先を確認
Pengfei Wei, Yiping Ke, Xinghua Qu, Tze-Yun Leong(参考訳) ドメインのばらつきを減らすことは、移行学習問題の鍵となるステップである。 既存の研究は、グローバルドメインの分散の最小化に焦点を当てている。 しかし、2つのドメインは複数の共有サブドメインから構成され、各サブドメインで異なる。 本稿では,転送におけるサブドメインの局所的発散を考慮に入れる。 具体的には,低次元多様体を用いてサブドメインを表現し,各多様体における局所データ分布の不一致を領域にまたがって整合させることを提案する。 多様体の局所分布差を測定するために, 多様体の最大平均離散度 (M3D) が開発された。 次に,データ多様体の発見とm3dの最小化を組み合わせるため,tmda(transfer with manifolds discrepancy alignment)と呼ばれる汎用フレームワークを提案する。 線形写像と非線形写像の両方を考慮したサブスペース学習におけるTMDAのインスタンス化を行う。 また、ディープラーニングフレームワークでTMDAをインスタンス化する。 TMDAは様々な伝達学習タスクにおいて有望な方法であることを示す。

Reducing domain divergence is a key step in transfer learning problems. Existing works focus on the minimization of global domain divergence. However, two domains may consist of several shared subdomains, and differ from each other in each subdomain. In this paper, we take the local divergence of subdomains into account in transfer. Specifically, we propose to use low-dimensional manifold to represent subdomain, and align the local data distribution discrepancy in each manifold across domains. A Manifold Maximum Mean Discrepancy (M3D) is developed to measure the local distribution discrepancy in each manifold. We then propose a general framework, called Transfer with Manifolds Discrepancy Alignment (TMDA), to couple the discovery of data manifolds with the minimization of M3D. We instantiate TMDA in the subspace learning case considering both the linear and nonlinear mappings. We also instantiate TMDA in the deep learning framework. Extensive experimental studies demonstrate that TMDA is a promising method for various transfer learning tasks.
翻訳日:2022-12-06 04:49:42 公開日:2020-05-06
# STEMのための大規模・オープンドメイン混合対話型ITS

A Large-Scale, Open-Domain, Mixed-Interface Dialogue-Based ITS for STEM ( http://arxiv.org/abs/2005.06616v1 )

ライセンス: Link先を確認
Iulian Vlad Serban, Varun Gupta, Ekaterina Kochmar, Dung D. Vu, Robert Belfer, Joelle Pineau, Aaron Courville, Laurent Charlin, Yoshua Bengio(参考訳) 我々は,大規模なオープンドメイン,複合インタフェース,対話型知的学習システム(ITS)を提案する。 korbitは、機械学習、自然言語処理、強化学習を使用して、インタラクティブでパーソナライズされたオンライン学習を提供する。 Korbitは、コンテンツ作成プロセスの自動化、標準化、簡素化により、何千もの被験者に簡単にスケールできるように設計されている。 他のITSとは異なり、教師はKorbitの新しい学習モジュールを数時間で開発することができる。 幅広いstem科目の学習を容易にするために、korbitはビデオ、対話型対話型エクササイズ、質問応答、概念図、数学的エクササイズ、ゲーミフィケーション要素を含む混合インターフェースを使用している。 korbitは、最先端のクラウドベースのマイクロサービスアーキテクチャを利用することで、数百万の学生にスケールできるように構築されている。 Korbitは2019年に最初のコースを機械学習で立ち上げ、その後7000人以上の学生が入学した。 korbitは、オープンドメインで高度にスケーラブルな設計だが、実世界の学生によるa/bテスト実験では、学生の学習結果と学生のモチベーションの両方が、典型的なオンラインコースと比べて大幅に改善されていることが示されている。

We present Korbit, a large-scale, open-domain, mixed-interface, dialogue-based intelligent tutoring system (ITS). Korbit uses machine learning, natural language processing and reinforcement learning to provide interactive, personalized learning online. Korbit has been designed to easily scale to thousands of subjects, by automating, standardizing and simplifying the content creation process. Unlike other ITS, a teacher can develop new learning modules for Korbit in a matter of hours. To facilitate learning across a widerange of STEM subjects, Korbit uses a mixed-interface, which includes videos, interactive dialogue-based exercises, question-answering, conceptual diagrams, mathematical exercises and gamification elements. Korbit has been built to scale to millions of students, by utilizing a state-of-the-art cloud-based micro-service architecture. Korbit launched its first course in 2019 on machine learning, and since then over 7,000 students have enrolled. Although Korbit was designed to be open-domain and highly scalable, A/B testing experiments with real-world students demonstrate that both student learning outcomes and student motivation are substantially improved compared to typical online courses.
翻訳日:2022-12-06 04:49:25 公開日:2020-05-06
# 移動医療サービスにおける車両経路とスケジューリング

Vehicle Routing and Scheduling for Regular Mobile Healthcare Services ( http://arxiv.org/abs/2005.02618v1 )

ライセンス: Link先を確認
Cosmin Pascaru, Paul Diac(参考訳) 我々は,車両のルーティングとスケジューリングという領域における,特定の実用的問題に対する解決策を提案する。 一般的なタスクは、リモートロケーションで定期的なサービスを提供できる最小の \emph{mobile resources} の割り当てを見つけることである。 これらの \emph{mobile resources} は単一の中央の場所に基づいている。 仕様は当初、進行中のプロジェクトの出発点である実際のアプリケーションのために定義されました。 特に、ルーマニアの都市周辺の農村部における健康問題を軽減することが目的である。 医療装備のバンは、郡都から毎日のルートを開始し、郡内の郡区で所定の数の検査を行い、同じ日に首都に戻るようにプログラムされている。 医療の観点からは、各バンには超音波スキャナが備わっており、妊娠中の女性を検査し、潜在的な問題を診断する計画である。 このプロジェクトは、現在ルーマニアを欧州連合(EU)で最も幼児死亡率の高い国と位置づけている。 目的に利用可能な最も関連するパラメータとデータのモデリングと、最適化されたソリューションを提供するアルゴリズムの設計と実装の2つのフェーズでソリューションを開発しました。 アウトプットスケジューリングの最も重要な指標は、郡区ごとの試験時間を提供するために必要なバンの数であり、その後に総走行時間や燃料消費量、異なるルートの数などが続く。 私たちのソリューションは2つの確率的アルゴリズムを実装しています。

We propose our solution to a particular practical problem in the domain of vehicle routing and scheduling. The generic task is finding the best allocation of the minimum number of \emph{mobile resources} that can provide periodical services in remote locations. These \emph{mobile resources} are based at a single central location. Specifications have been defined initially for a real-life application that is the starting point of an ongoing project. Particularly, the goal is to mitigate health problems in rural areas around a city in Romania. Medically equipped vans are programmed to start daily routes from county capital, provide a given number of examinations in townships within the county and return to the capital city in the same day. From the health care perspective, each van is equipped with an ultrasound scanner, and they are scheduled to investigate pregnant woman each trimester aiming to diagnose potential problems. The project is motivated by reports currently ranking Romania as the country with the highest infant mortality rate in the European Union. We developed our solution in two phases: modeling of the most relevant parameters and data available for our goal and then design and implement an algorithm that provides an optimized solution. The most important metric of an output scheduling is the number of vans that are necessary to provide a given amount of examination time per township, followed by total travel time or fuel consumption, number of different routes, and others. Our solution implements two probabilistic algorithms out of which we chose the one that performs the best.
翻訳日:2022-12-06 04:48:44 公開日:2020-05-06
# DeepRacing: 自律走行のためのパラメータ化された軌道

DeepRacing: Parameterized Trajectories for Autonomous Racing ( http://arxiv.org/abs/2005.05178v1 )

ライセンス: Link先を確認
Trent Weiss, Madhur Behl(参考訳) 現実的なF1環境での高速自律レースの課題を考察する。 DeepRacingは、新しいエンドツーエンドフレームワークであり、自律レースのためのアルゴリズムのトレーニングと評価のための仮想テストベッドである。 仮想テストベッドは、多くのフォーミュラ1ドライバーがトレーニングに使用する、Codemastersが開発した現実的なF1シリーズのビデオゲームを使って実装されている。 この仮想テストベッドは、スタンドアロンのc++ apiと人気のあるrobot operating system 2(ros2)フレームワークのバインディングとして、オープンソースライセンスでリリースされている。 このオープンソースapiにより、誰でもゲームエンジンコードをハックすることなく、f1ゲームの高忠実性物理とフォトリアリスティック機能をシミュレータとして使用できる。 このフレームワークを用いて、自律レースのためのいくつかのニューラルネットワーク手法を評価する。 具体的には、自動レースカーのステアリング・アクセラレーションコマンドを直接予測する完全エンドツーエンドモデルと、従来の制御アルゴリズムに残されるステアリング・スロットル角を選択するタスクを含む、車両の局所座標系で追従するウェイポイントのリストを予測するモデルについて検討する。 また、ディープニューラルネットワークをトレーニングし、ウェイポイントのリストではなく軌跡のパラメータ化表現を予測することによって、自律レースの新しい手法を提案する。 我々はこれらのモデルの性能をオープンソースシミュレータで評価し、軌道予測がエンドツーエンドの運転よりも優れていることを示す。 さらに、モデルが予測する制御値のルート平均二乗誤差であるエンドツーエンドモデルのオープンループ性能は、クローズドループの意味での駆動性能の増加、すなわちトラックを走行する実際の能力と必ずしも相関しないことを示した。 最後に,提案するパラメータ化軌道予測モデルがエンド・ツー・エンド制御とウェイポイント予測を上回っていることを示す。

We consider the challenging problem of high speed autonomous racing in a realistic Formula One environment. DeepRacing is a novel end-to-end framework, and a virtual testbed for training and evaluating algorithms for autonomous racing. The virtual testbed is implemented using the realistic F1 series of video games, developed by Codemasters, which many Formula One drivers use for training. This virtual testbed is released under an open-source license both as a standalone C++ API and as a binding to the popular Robot Operating System 2 (ROS2) framework. This open-source API allows anyone to use the high fidelity physics and photo-realistic capabilities of the F1 game as a simulator, and without hacking any game engine code. We use this framework to evaluate several neural network methodologies for autonomous racing. Specifically, we consider several fully end-to-end models that directly predict steering and acceleration commands for an autonomous race car as well as a model that predicts a list of waypoints to follow in the car's local coordinate system, with the task of selecting a steering/throttle angle left to a classical control algorithm. We also present a novel method of autonomous racing by training a deep neural network to predict a parameterized representation of a trajectory rather than a list of waypoints. We evaluate these models performance in our open-source simulator and show that trajectory prediction far outperforms end-to-end driving. Additionally, we show that open-loop performance for an end-to-end model, i.e. root-mean-square error for a model's predicted control values, does not necessarily correlate with increased driving performance in the closed-loop sense, i.e. actual ability to race around a track. Finally, we show that our proposed model of parameterized trajectory prediction outperforms both end-to-end control and waypoint prediction.
翻訳日:2022-12-06 04:48:12 公開日:2020-05-06
# Pseudo Visual Pivoting を用いた教師なしマルチモーダルニューラルマシン翻訳

Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting ( http://arxiv.org/abs/2005.03119v1 )

ライセンス: Link先を確認
Po-Yao Huang, Junjie Hu, Xiaojun Chang, Alexander Hauptmann(参考訳) 非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。 しかし、ソースターゲット文を潜在空間で関連付けることは依然として困難である。 異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は、教師なしマルチモーダルMT(MMT)において未探索である。 本稿では,教師なしMTにおいて,視覚的コンテンツを不明瞭化や遅延空間アライメントの促進に利用する方法について検討する。 本モデルでは,マルチモーダルなバックトランスレーションを用い,仮想視覚ピボットを特徴とし,共用多言語視覚意味埋め込み空間を学習し,視覚言語キャプションを付加的な弱い監督として取り入れる。 広範に使用されているMulti30Kデータセットの実験結果から,提案モデルは最先端の手法よりも大幅に改善され,テスト時に画像が利用できない場合の一般化が図られた。

Unsupervised machine translation (MT) has recently achieved impressive results with monolingual corpora only. However, it is still challenging to associate source-target sentences in the latent space. As people speak different languages biologically share similar visual systems, the potential of achieving better alignment through visual content is promising yet under-explored in unsupervised multimodal MT (MMT). In this paper, we investigate how to utilize visual content for disambiguation and promoting latent space alignment in unsupervised MMT. Our model employs multimodal back-translation and features pseudo visual pivoting in which we learn a shared multilingual visual-semantic embedding space and incorporate visually-pivoted captioning as additional weak supervision. The experimental results on the widely used Multi30K dataset show that the proposed model significantly improves over the state-of-the-art methods and generalizes well when the images are not available at the testing time.
翻訳日:2022-12-06 04:47:08 公開日:2020-05-06
# 一次聴覚皮質からの$\mu$-ECoGの低ランク非線形復号

Low-Rank Nonlinear Decoding of $\mu$-ECoG from the Primary Auditory Cortex ( http://arxiv.org/abs/2005.05053v1 )

ライセンス: Link先を確認
Melikasadat Emami, Mojtaba Sahraee-Ardakan, Parthe Pandit, Alyson K. Fletcher, Sundeep Rangan, Michael Trumpis, Brinnae Bent, Chia-Han Chiang, Jonathan Viventi(参考訳) 本稿では,マイクロ・エレクトロコルチコグラフィ(\mu$-ECoG)などの並列神経計測システムによる神経復号の問題点を考察する。 多数の配列要素を非常に高いサンプリングレートで持つシステムでは、生の測定データの寸法が大きい可能性がある。 この高次元データのニューラルデコーダの学習は、特にトレーニングサンプルの数が限られている場合、難しい。 この課題に対処するため,本研究では,第1隠れ層に低ランク構造を持つニューラルネットワークデコーダを提案する。 低ランクの制約はデコーダのパラメータ数を劇的に削減し、非線形デコーダマップのリッチクラスを可能にする。 低ランクデコーダは、覚醒ラットの一次聴覚野(a1)からの$\mu$-ecogデータに示される。 この復号問題は、聴覚野における神経反応の複雑さと、覚醒動物における共起信号の存在により特に困難である。 提案する低ランクデコーダは主成分分析(pca)などの標準次元低減手法を用いて, モデルを大きく上回っている。

This paper considers the problem of neural decoding from parallel neural measurements systems such as micro-electrocorticography ($\mu$-ECoG). In systems with large numbers of array elements at very high sampling rates, the dimension of the raw measurement data may be large. Learning neural decoders for this high-dimensional data can be challenging, particularly when the number of training samples is limited. To address this challenge, this work presents a novel neural network decoder with a low-rank structure in the first hidden layer. The low-rank constraints dramatically reduce the number of parameters in the decoder while still enabling a rich class of nonlinear decoder maps. The low-rank decoder is illustrated on $\mu$-ECoG data from the primary auditory cortex (A1) of awake rats. This decoding problem is particularly challenging due to the complexity of neural responses in the auditory cortex and the presence of confounding signals in awake animals. It is shown that the proposed low-rank decoder significantly outperforms models using standard dimensionality reduction techniques such as principal component analysis (PCA).
翻訳日:2022-12-06 04:40:44 公開日:2020-05-06
# 視覚・言語ナビゲーションにおける環境バイアスの診断

Diagnosing the Environment Bias in Vision-and-Language Navigation ( http://arxiv.org/abs/2005.03086v1 )

ライセンス: Link先を確認
Yubo Zhang, Hao Tan, Mohit Bansal(参考訳) 視覚言語ナビゲーション(vln)は、エージェントが自然言語命令に従い、与えられた環境を探索し、目的の場所に到達することを要求する。 これらのステップバイステップのナビゲーション命令は、エージェントが事前の知識を持たない新しい環境をナビゲートする場合に不可欠である。 VLNを研究する最近の研究は、目に見えない環境(トレーニングに使用されていない環境)でテストすると、顕著なパフォーマンス低下が観察され、ニューラルエージェントモデルがトレーニング環境に非常に偏っていることを示している。 この問題は、VLN研究における大きな課題の1つと考えられているが、まだ未研究であり、より明確な説明が必要である。 本研究では, この環境バイアスの原因を探るため, 環境再分割と機能置換による新しい診断実験を設計する。 本研究では,ResNetの機能によって伝達される低レベルの視覚的外観がエージェントモデルに直接影響を与え,その結果の環境バイアスに寄与することを示す。 本研究は,低レベルな視覚情報を含むいくつかの意味表現を探索し,これらの特徴から学習したエージェントを,未知のテスト環境に最適化する。 ベースラインエージェントモデルとそのトレーニング方法を変更せずに,複数のデータセット(すなわちr2r,r4r,cvdn)における視認と視認の間のパフォーマンスギャップを著しく低減し,従来の最先端モデルに対する競合的未認識結果を達成する。 私たちのコードと機能は、https://github.com/zhangybzbo/envbiasvlnで利用可能です。

Vision-and-Language Navigation (VLN) requires an agent to follow natural-language instructions, explore the given environments, and reach the desired target locations. These step-by-step navigational instructions are crucial when the agent is navigating new environments about which it has no prior knowledge. Most recent works that study VLN observe a significant performance drop when tested on unseen environments (i.e., environments not used in training), indicating that the neural agent models are highly biased towards training environments. Although this issue is considered as one of the major challenges in VLN research, it is still under-studied and needs a clearer explanation. In this work, we design novel diagnosis experiments via environment re-splitting and feature replacement, looking into possible reasons for this environment bias. We observe that neither the language nor the underlying navigational graph, but the low-level visual appearance conveyed by ResNet features directly affects the agent model and contributes to this environment bias in results. According to this observation, we explore several kinds of semantic representations that contain less low-level visual information, hence the agent learned with these features could be better generalized to unseen testing environments. Without modifying the baseline agent model and its training method, our explored semantic features significantly decrease the performance gaps between seen and unseen on multiple datasets (i.e. R2R, R4R, and CVDN) and achieve competitive unseen results to previous state-of-the-art models. Our code and features are available at: https://github.com/zhangybzbo/EnvBiasVLN
翻訳日:2022-12-06 04:40:27 公開日:2020-05-06
# タスク特化対話エージェントのアンサンブルによる弱教師付き神経応答選択

Weakly-Supervised Neural Response Selection from an Ensemble of Task-Specialised Dialogue Agents ( http://arxiv.org/abs/2005.03066v1 )

ライセンス: Link先を確認
Asir Saeed, Khai Mai, Pham Minh, Nguyen Tuan Duc, Danushka Bollegala(参考訳) さまざまな種類のエージェントを組み込んで人間と会話する対話エンジンが人気である。 しかし、会話は、選択された応答が会話をオンザフライで変えるという意味で動的であり、その後の発話に影響を与えるため、応答の選択が困難な問題となる。 本稿では,対話エージェントの異種集合が生成した応答から,会話履歴を考慮したベスト応答を選択する問題をモデル化し,emph{Neural Response Selection}法を提案する。 提案手法は, カリキュラム学習機構による自己予測を考慮し, 単一の会話の中でのコヒーレントな応答のセットを予測するように学習する。 提案手法は,対話システムにおけるユーザエクスペリエンスを著しく向上させるため,最も適切な応答を高精度に選択できることを示す。

Dialogue engines that incorporate different types of agents to converse with humans are popular. However, conversations are dynamic in the sense that a selected response will change the conversation on-the-fly, influencing the subsequent utterances in the conversation, which makes the response selection a challenging problem. We model the problem of selecting the best response from a set of responses generated by a heterogeneous set of dialogue agents by taking into account the conversational history, and propose a \emph{Neural Response Selection} method. The proposed method is trained to predict a coherent set of responses within a single conversation, considering its own predictions via a curriculum training mechanism. Our experimental results show that the proposed method can accurately select the most appropriate responses, thereby significantly improving the user experience in dialogue systems.
翻訳日:2022-12-06 04:40:00 公開日:2020-05-06
# インフォームドポリシー規則化による動的環境における適応探索戦略の学習

Learning Adaptive Exploration Strategies in Dynamic Environments Through Informed Policy Regularization ( http://arxiv.org/abs/2005.02934v1 )

ライセンス: Link先を確認
Pierre-Alexandre Kamienny, Matteo Pirotta, Alessandro Lazaric, Thibault Lavril, Nicolas Usunier, Ludovic Denoyer(参考訳) タスクが時間とともに変化する可能性のある動的環境に効果的に適応する探索・探索戦略の学習について検討する。 rnnベースのポリシーは原則としてそのような戦略を表現できるが、実際にはトレーニング時間は禁止され、学習プロセスはしばしば貧弱なソリューションに収束する。 本稿では,エージェントがタスクの記述(タスクidやタスクパラメータなど)をトレーニング時にアクセスするが,テスト時にはアクセスしない場合を考える。 本稿では,各タスクの報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化するアルゴリズムを提案する。 これにより、表現力を失うことなく、rnnベースのポリシーのトレーニングのサンプル複雑さが劇的に削減される。 その結果,未知タスクの情報収集と変化タスクの情報収集を効率的にバランスし,時間とともに報酬を最大化する探索戦略を学習した。 各エピソードでタスクが変化する可能性のあるさまざまな環境で、アルゴリズムのパフォーマンスをテストします。

We study the problem of learning exploration-exploitation strategies that effectively adapt to dynamic environments, where the task may change over time. While RNN-based policies could in principle represent such strategies, in practice their training time is prohibitive and the learning process often converges to poor solutions. In this paper, we consider the case where the agent has access to a description of the task (e.g., a task id or task parameters) at training time, but not at test time. We propose a novel algorithm that regularizes the training of an RNN-based policy using informed policies trained to maximize the reward in each task. This dramatically reduces the sample complexity of training RNN-based policies, without losing their representational power. As a result, our method learns exploration strategies that efficiently balance between gathering information about the unknown and changing task and maximizing the reward over time. We test the performance of our algorithm in a variety of environments where tasks may vary within each episode.
翻訳日:2022-12-06 04:39:15 公開日:2020-05-06
# 特徴ピラミッドデコーダによる固有対向ロバスト性向上

Enhancing Intrinsic Adversarial Robustness via Feature Pyramid Decoder ( http://arxiv.org/abs/2005.02552v1 )

ライセンス: Link先を確認
Guanlin Li, Shuya Ding, Jun Luo, Chang Liu(参考訳) 敵の訓練は特定の敵のサンプルに対する主要な防御戦略として採用されているが、一般化能力は限られており、時間的複雑さを伴っている。 本稿では,クリーンサンプルを一般化する能力を損なうことなく,ニューラルネットワークの頑健性を高めるための攻撃非依存な防御フレームワークを提案する。 当社の機能ピラミッドデコーダ(fpd)フレームワークは,すべてのブロック型畳み込みニューラルネットワーク(cnns)に適用する。 除音および画像復元モジュールをターゲットのCNNに移植し、分類層のリプシッツ定数も制限する。 さらに,マルチタスクと自己教師付き学習を併用した$\epsilon$-neighbourhoodノイズ画像を用いて,fpdエンハンスドcnnを訓練する2相戦略を提案する。 各種のホワイトボックス攻撃やブラックボックス攻撃に対して評価し, FPD強化CNNは, MNIST, SVHN, CALTECHの一般敵に対する十分な堅牢性を示す。 さらに,FPD強化CNNは,さらなる対人訓練を行う場合,非強化版よりも優れた性能を発揮する。

Whereas adversarial training is employed as the main defence strategy against specific adversarial samples, it has limited generalization capability and incurs excessive time complexity. In this paper, we propose an attack-agnostic defence framework to enhance the intrinsic robustness of neural networks, without jeopardizing the ability of generalizing clean samples. Our Feature Pyramid Decoder (FPD) framework applies to all block-based convolutional neural networks (CNNs). It implants denoising and image restoration modules into a targeted CNN, and it also constraints the Lipschitz constant of the classification layer. Moreover, we propose a two-phase strategy to train the FPD-enhanced CNN, utilizing $\epsilon$-neighbourhood noisy images with multi-task and self-supervised learning. Evaluated against a variety of white-box and black-box attacks, we demonstrate that FPD-enhanced CNNs gain sufficient robustness against general adversarial samples on MNIST, SVHN and CALTECH. In addition, if we further conduct adversarial training, the FPD-enhanced CNNs perform better than their non-enhanced versions.
翻訳日:2022-12-06 04:38:58 公開日:2020-05-06
# 確率ボトルネック:フレキシブル次元化のためのレートレスオートエンコーダ

Stochastic Bottleneck: Rateless Auto-Encoder for Flexible Dimensionality Reduction ( http://arxiv.org/abs/2005.02870v1 )

ライセンス: Link先を確認
Toshiaki Koike-Akino and Ye Wang(参考訳) 本研究では,可変歪みや寸法要求に対してシームレスに調整可能なフレキシブルな潜在次元を実現する,レートレスオートエンコーダ(rl-aes)の新たな概念を提案する。 提案したRL-AEでは、決定論的ボトルネックアーキテクチャの代わりに、重み付けされたドロップアウトで確率的に正規化される過完全表現をスパースAE(SAE)に類似した方法で使用する。 SAEと異なり、我々のRL-AEは、主成分分析(PCA)のように、潜伏変数が重要度によってソートされるように、潜伏表現ノード間で単調に減少する。 これは従来のPCAの非速度特性によって動機付けられ、最も重要でない主成分を廃棄して、歪みを優雅に劣化させる可変速度次元減少を実現する。 対照的に、従来のAEの潜伏変数はデータ再構成にも等しく重要であるため、AEモデルをトレーニングした後の次元をさらに小さくするために、単に捨てることはできない。 提案する確率的ボトルネックフレームワークは, トレーニング時に所定の遅延次元を必要とせず, 高い再構成性能でシームレスなレート適応を実現する。 提案したRL-AEは,従来のAEと比較して低歪みを実現しつつ,可変次元の低減を実現可能であることを実験的に実証した。

We propose a new concept of rateless auto-encoders (RL-AEs) that enable a flexible latent dimensionality, which can be seamlessly adjusted for varying distortion and dimensionality requirements. In the proposed RL-AEs, instead of a deterministic bottleneck architecture, we use an over-complete representation that is stochastically regularized with weighted dropouts, in a manner analogous to sparse AE (SAE). Unlike SAEs, our RL-AEs employ monotonically increasing dropout rates across the latent representation nodes such that the latent variables become sorted by importance like in principal component analysis (PCA). This is motivated by the rateless property of conventional PCA, where the least important principal components can be discarded to realize variable rate dimensionality reduction that gracefully degrades the distortion. In contrast, since the latent variables of conventional AEs are equally important for data reconstruction, they cannot be simply discarded to further reduce the dimensionality after the AE model is trained. Our proposed stochastic bottleneck framework enables seamless rate adaptation with high reconstruction performance, without requiring predetermined latent dimensionality at training. We experimentally demonstrate that the proposed RL-AEs can achieve variable dimensionality reduction while achieving low distortion compared to conventional AEs.
翻訳日:2022-12-06 04:38:03 公開日:2020-05-06
# ロバストCNNの周波数ベース説明に向けて

Towards Frequency-Based Explanation for Robust CNN ( http://arxiv.org/abs/2005.03141v1 )

ライセンス: Link先を確認
Zifan Wang, Yilin Yang, Ankit Shrivastava, Varun Rawal and Zihao Ding(参考訳) 透明畳み込みニューラルネットワーク(CNN)への現在の説明手法は、主に人間の理解可能な入力特徴とモデルの予測との接続を構築することに焦点を当て、入力の代替表現である周波数成分分解を見越す。 本稿では,入力データセットにおける周波数成分の分布とモデルがデータから学習する推論過程との関係について解析する。 さらに、モデルの予測に対する異なる周波数成分の寄与に関する定量化分析を行う。 モデルの小さな歪みに対する脆弱性は、そのモデルが、敵(ブラックボックスとホワイトボックス)の攻撃者のターゲット特徴である高周波特性に依存していることの結果であることを示している。 さらに,低周波成分と真のラベルとの相関関係が強くなると,モデルがより堅牢になることを示す。

Current explanation techniques towards a transparent Convolutional Neural Network (CNN) mainly focuses on building connections between the human-understandable input features with models' prediction, overlooking an alternative representation of the input, the frequency components decomposition. In this work, we present an analysis of the connection between the distribution of frequency components in the input dataset and the reasoning process the model learns from the data. We further provide quantification analysis about the contribution of different frequency components toward the model's prediction. We show that the vulnerability of the model against tiny distortions is a result of the model is relying on the high-frequency features, the target features of the adversarial (black and white-box) attackers, to make the prediction. We further show that if the model develops stronger association between the low-frequency component with true labels, the model is more robust, which is the explanation of why adversarially trained models are more robust against tiny distortions.
翻訳日:2022-12-06 04:37:38 公開日:2020-05-06