このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200102となっている論文です。

PDF登録状況(公開日: 20200102)

TitleAuthorsAbstract論文公表日・翻訳日
# アルゼンチンにおけるチャガス発生率の高い地域の検出

Detecting Areas of Potential High Prevalence of Chagas in Argentina ( http://arxiv.org/abs/2001.00604v1 )

ライセンス: Link先を確認
Antonio Vazquez Brust, Tomas Olego, German Rosati, Carolina Lang, Guillermo Bozzoli, Diego Weinberg, Roberto Chuit, Martin A. Minnoni, Carlos Sarraute(参考訳) 高空間的解離を伴うchagas病(chd)の有病率マップを示した。 これは、ChDと高い親和性と高い健康上の脆弱性を特徴とするGran Chacoエコリージョン外の領域(ChDの超越性)を検出することを目的としている。 そこで我々は,ChDの内因性領域と他国との連関度を定量化するアフィニティ指標(Affinity Index)を考案した。 また, 床, 屋根, 天井の主成分が病原体の存在に有利な地域を探索し, トリオ藻の生息環境について検討した。 健康脆弱性指数(health vulnerability index)という概念の下で包含できる,より一般的な性質の決定要因について検討した。 これらの決定要因は、健康提供者へのアクセスと、人口の異なるセグメントの社会経済的レベルと関連している。 最後に,親和性指標,健康脆弱性指数,人口密度を組み合わせたchppi(chagas potential exposure index)を構築した。 得られた地図を示し、議論する。 これらの地図は、公衆衛生の専門家、公衆衛生政策の決定者、およびChDの診断と治療へのアクセスを改善するための費用対効果戦略の開発を支援することを目的としている。

A map of potential prevalence of Chagas disease (ChD) with high spatial disaggregation is presented. It aims to detect areas outside the Gran Chaco ecoregion (hyperendemic for the ChD), characterized by high affinity with ChD and high health vulnerability. To quantify potential prevalence, we developed several indicators: an Affinity Index which quantifies the degree of linkage between endemic areas of ChD and the rest of the country. We also studied favorable habitability conditions for Triatoma infestans, looking for areas where the predominant materials of floors, roofs and internal ceilings favor the presence of the disease vector. We studied determinants of a more general nature that can be encompassed under the concept of Health Vulnerability Index. These determinants are associated with access to health providers and the socio-economic level of different segments of the population. Finally we constructed a Chagas Potential Prevalence Index (ChPPI) which combines the affinity index, the health vulnerability index, and the population density. We show and discuss the maps obtained. These maps are intended to assist public health specialists, decision makers of public health policies and public officials in the development of cost-effective strategies to improve access to diagnosis and treatment of ChD.
翻訳日:2023-06-09 03:41:11 公開日:2020-01-02
# プロフェッショナルコミュニケーションにおける計算手法

Computational Methods in Professional Communication ( http://arxiv.org/abs/2001.00565v1 )

ライセンス: Link先を確認
Andr\'e Calero Valdez and Lena Adam and Dennis Assenmacher and Laura Burbach and Malte Bonart and Lena Frischlich and Philipp Schaer(参考訳) 世界のデジタル化もまた、コミュニケーションプロセスのデジタル化につながっている。 従来の研究方法は、従来のアプローチで研究するにはボリューム、多様性、速度が大きすぎるため、デジタルワールドにおけるコミュニケーションを理解するのに不足している。 本稿では,公開・大規模コミュニケーション研究における計算手法とその利用と,それを専門的なコミュニケーション研究に適用する方法について述べる。 本論文は,各分野の専門家であるパネリストが計算手法を用いて現在の成果を提示し,これらの手法のプロフェッショナルコミュニケーションへの伝達可能性について論じるパネルの提案である。

The digitization of the world has also led to a digitization of communication processes. Traditional research methods fall short in understanding communication in digital worlds as the scope has become too large in volume, variety, and velocity to be studied using traditional approaches. In this paper, we present computational methods and their use in public and mass communication research and how those could be adapted to professional communication research. The paper is a proposal for a panel in which the panelists, each an expert in their field, will present their current work using computational methods and will discuss transferability of these methods to professional communication.
翻訳日:2023-06-09 03:40:43 公開日:2020-01-02
# スマートグループキャタリングによる食事データ取得のコスト

Cost of Dietary Data Acquisition with Smart Group Catering ( http://arxiv.org/abs/2001.00367v1 )

ライセンス: Link先を確認
Jiapeng Dong and Pengju Wang and Weiqiang Sun(参考訳) 食事データ管理の必要性は、食事摂取に対する認識が高まりつつある。 その結果、RFID(Radio Frequency Identification)またはCV(Computer Vision)ベースのソリューションを通じて食事データを収集するスマートキャンティーンの展開が増加している。 どちらの場合も人的労働が関与するため、データ品質には人的力の割り当てが不可欠である。 マンパワー要件が過小評価されている場合、データ品質は損なわれる。 本稿では,複数のスマート缶から収集した実データに基づく数値シミュレーションを用いて,食事データの品質と投資マンパワーの関係について検討した。 RFIDとCVベースのシステムでは,食事データ取得の長期的コストは人力に支配されていることがわかった。 本研究は、食事データ取得におけるコスト構成の包括的理解と、将来のコスト効果システムに対する有用な洞察を提供する。

The need for dietary data management is growing with public awareness of food intakes. As a result, there are increasing deployments of smart canteens where dietary data is collected through either Radio Frequency Identification (RFID) or Computer Vision(CV)-based solutions. As human labor is involved in both cases, manpower allocation is critical to data quality. Where manpower requirements are underestimated, data quality is compromised. This paper has studied the relation between the quality of dietary data and the manpower invested, using numerical simulations based on real data collected from multiple smart canteens. We found that in both RFID and CV-based systems, the long-term cost of dietary data acquisition is dominated by manpower. Our study provides a comprehensive understanding of the cost composition for dietary data acquisition and useful insights toward future cost effective systems.
翻訳日:2023-06-09 03:40:21 公開日:2020-01-02
# コンピュータサイエンスにおける単著者出版の終焉 : 引用ネットワーク分析

The Demise of Single-Authored Publications in Computer Science: A Citation Network Analysis ( http://arxiv.org/abs/2001.00350v1 )

ライセンス: Link先を確認
Brian K. Ryu(参考訳) 本研究は,1940年から2019年までのコンピュータ科学文献における単行本出版の役割を研究するために,dblp書誌データベースを分析した。 私は、この数年間に1冊の著作物の人口率、引用統計、PageRankスコアを計算して、人口統計とレセプションを調べた。 1940年代以降、人口比率とレセプションは減少を続けている。 単行本出版の全体的な衰退傾向は、他の科学分野で観察されたものと質的に一致しているが、自然科学では数十年遅れている。 さらに,出版物の範囲の1次近似としてページ長と参照数を用いて,単一著作物の範囲とボリュームを分析した。 どちらの指標も引用数と正の相関を示したが、単著者論文は他の出版物と比較してページ数や参照数に有意な差は見られず、単著者出版物の引用に影響を与える他の要因が存在することを示唆している。

In this study, I analyze the DBLP bibliographic database to study role of single author publications in the computer science literature between 1940 and 2019. I examine the demographics and reception by computing the population fraction, citation statistics, and PageRank scores of single author publications over the years. Both the population fraction and reception have been continuously declining since the 1940s. The overall decaying trend of single author publications is qualitatively consistent with those observed in other scientific disciplines, though the diminution is taking place several decades later than those in the natural sciences. Additionally, I analyze the scope and volume of single author publications, using page length and reference count as first-order approximations of the scope of publications. Although both metrics on average show positive correlations with citation count, single author papers show no significant difference in page or reference counts compared to the rest of the publications, suggesting that there exist other factors that impact the citations of single author publications.
翻訳日:2023-06-09 03:40:07 公開日:2020-01-02
# 最新のデジタル法医学画像ソフトウェアの特徴比較

A Feature Comparison of Modern Digital Forensic Imaging Software ( http://arxiv.org/abs/2001.00301v1 )

ライセンス: Link先を確認
Jiyoon Ham, Joshua I. James(参考訳) ディスクイメージングなどのデジタル法医学研究の基本過程は,デジタル調査が比較的若い頃に開発された。 デジタル法科学のプロセスと手続きが成熟するにつれて、データ処理と分析フェーズのリセットの柱であるこれらの基本的なツールは、ほとんど同じままであった。 この研究は、現代のデジタル法医学イメージングソフトウェアツールの研究である。 具体的には,最新のデジタル法医学的イメージングツールの特徴セットと,それらの開発とリリースサイクルについて検討し,基本的なツール開発のパターンを理解する。 この調査に基づいて,現在のデジタル調査の弱点を,基礎的ソフトウェア開発とメンテナンスの時間とともに明らかにする。 また、基本的なツールの改善方法についてもアドバイスしています。

Fundamental processes in digital forensic investigation, such as disk imaging, were developed when digital investigation was relatively young. As digital forensic processes and procedures matured, these fundamental tools, that are the pillars of the reset of the data processing and analysis phases of an investigation, largely stayed the same. This work is a study of modern digital forensic imaging software tools. Specifically, we will examine the feature sets of modern digital forensic imaging tools, as well as their development and release cycles to understand patterns of fundamental tool development. Based on this survey, we show the weakness in current digital investigation fundamental software development and maintenance over time. We also provide recommendations on how to improve fundamental tools.
翻訳日:2023-06-09 03:39:44 公開日:2020-01-02
# ダイヤモンドにおける実および仮想相関ストークス・アンチストークスラマン散乱の寿命と偏極

Lifetime and Polarization for Real and Virtual Correlated Stokes-anti-Stokes Raman Scattering in Diamond ( http://arxiv.org/abs/2001.00422v1 )

ライセンス: Link先を確認
Filomeno S. de Aguiar J\'unior (1), Marcelo F. Santos (2), Carlos H. Monken (1), and Ado Jorio (1) ((1) Departamento de F\'isica, ICEx, Universidade Federal de Minas Gerais, (2) Instituto de F\'isica, UFRJ)(参考訳) 実または仮想フォノン交換による相関ストークス(S)および反ストークス(SaS)光子(SaS過程)の生成は、多くの透明材料で報告されている。 本研究では,ダイヤモンド試料中のSaS光子対の偏光と時間相関について検討した。 我々は、S光子とaS光子が主に励起レーザーの同じ偏光を持つことを示した。 また,SaS対生成の減衰速度を測定するためのポンプ・アンド・プローブ実験を行い,実数と仮想(フォノン交換)プロセスの基本的な距離を推定した。 実プロセスでは、sas対生成の速度はフォノン寿命(2.8 \pm 0.3)$ ps で制御され、仮想プロセスはポンプレーザーパルスの約0.2 psの時間幅内でのみ行われる。 フェノロジーモデルを用いて, 実時間と仮想的なSaSプロセスのダイアレーションを, フォノン生成と崩壊の確率に基づいて説明する。

The production of correlated Stokes (S) and anti-Stokes (aS) photons (SaS process) mediated by real or virtual phonon exchange has been reported in many transparent materials. In this work, we investigate the polarization and time correlations of SaS photon pairs produced in a diamond sample. We demonstrate that both S and aS photons have mainly the same polarization of the excitation laser. We also perform a pump-and-probe experiment to measure the decay rate of the SaS pair production, evidencing the fundamental diference between the real and virtual (phonon exchange) processes. In real processes, the rate of SaS pair production is governed by the phonon lifetime of $(2.8 \pm 0.3)$ ps, while virtual processes only take place within the time width of the pump laser pulses of approximately 0.2 ps. We explain the diference between real and virtual SaS processes by a phenomenological model, based on probabilities of phonon creation and decay.
翻訳日:2023-01-16 04:54:52 公開日:2020-01-02
# 量子計量と質量によるKlein-Gordon方程式のボヘミア力学

Bohmian mechanics of Klein-Gordon equation via quantum metric and mass ( http://arxiv.org/abs/2001.00551v1 )

ライセンス: Link先を確認
S. Jalalzadeh and A. J. S. Capistrano(参考訳) 相対論的量子力学の因果論的解釈は、超光速、時間的後方移動、不正確な非相対論的極限の問題を持つ。 本稿では,ド・ブロリー,ボーム,タカバヤシの元々の考えに基づき,曲面時空の同時量子質量と量子計量を導入し,上記の問題のない正しい相対論的理論を得る。 \keywords{Bohmian mechanics; Klein-Gordon equation; 量子共形変換。

The causal stochastic interpretation of relativistic quantum mechanics has the problems of superluminal velocities, motion backward in time and the incorrect non-relativistic limit. In this paper, according to the original ideas of de Broglie, Bohm and Takabayasi, we have introduced simultaneous quantum mass and quantum metric of curved spacetime to obtain a correct relativistic theory free of mentioned problems. \keywords{Bohmian mechanics; Klein-Gordon equation; quantum conformal transformations.
翻訳日:2023-01-16 04:54:35 公開日:2020-01-02
# 共振キャビティを用いた狭帯域単一光子のスペクトル圧縮

Spectral Compression of Narrowband Single Photons with a Resonant Cavity ( http://arxiv.org/abs/2001.00423v1 )

ライセンス: Link先を確認
Mathias A. Seidler, Xi Jie Yeo, Alessandro Cer\`e, Christian Kurtsiefer(参考訳) 寒冷Rb-87原子雲中の4波長混合により発生する795nmの狭いスペクトル帯域を有する1光子のスペクトル圧縮方式を実験的に実証した。 このスキームは分散媒体としての非対称キャビティと単純な二項位相変調器に基づいており、原則として光学的損失を伴わない。 我々は、20.6MHzから8MHz未満までの圧縮を観測し、対応する原子遷移とほぼ一致する。

We experimentally demonstrate a spectral compression scheme for heralded single photons with narrow spectral bandwidth around 795 nm, generated through four-wave mixing in a cloud of cold Rb-87 atoms. The scheme is based on an asymmetric cavity as a dispersion medium and a simple binary phase modulator, and can be, in principle, without any optical losses. We observe a compression from 20.6 MHz to less than 8 MHz, almost matching the corresponding atomic transition.
翻訳日:2023-01-16 04:51:04 公開日:2020-01-02
# 高分散媒体における非線形光子ペア生成

Nonlinear Photon Pair Generation in a Highly Dispersive Medium ( http://arxiv.org/abs/2001.00524v1 )

ライセンス: Link先を確認
David J. Starling, Jacob Poirier, Michael Fanto, Jeffrey A. Steidle, Christopher C. Tison, Gregory A. Howland, Stefan F. Preble(参考訳) シリコンフォトニック集積回路における光子対生成は3次非線形性による4つの波混合に依存する。 位相マッチング要求と群速度分散のために、この方法は一般にte偏光を必要とする。 本稿では、線形非結合シリコン共振器におけるtm偏光子対の生成を、従来よりも1桁以上の分散率で示す。 我々は2.8kHz以上の測定値と、g^{(2)}(0) = 0.0442 \pm 0.0042$の2次相関を求める。 この方法は分散媒体における位相マッチングを可能にし、シリコンフォトニックデバイスにおける新しい絡み合い発生の道を開く。

Photon pair generation in silicon photonic integrated circuits relies on four wave mixing via the third order nonlinearity. Due to phase matching requirements and group velocity dispersion, this method has typically required TE polarized light. Here, we demonstrate TM polarized photon pair production in linearly uncoupled silicon resonators with more than an order of magnitude more dispersion than previous work. We achieve measured rates above 2.8 kHz and a heralded second order correlation of $g^{(2)}(0) = 0.0442 \pm 0.0042$. This method enables phase matching in dispersive media and paves the way for novel entanglement generation in silicon photonic devices.
翻訳日:2023-01-16 04:50:30 公開日:2020-01-02
# 高次二項最適化問題の圧縮擬似化

Compressed Quadratization of Higher Order Binary Optimization Problems ( http://arxiv.org/abs/2001.00658v1 )

ライセンス: Link先を確認
Avradip Mandal, Arnab Roy, Sarvagya Upadhyay and Hayato Ushijima-Mwesigwa(参考訳) 量子および量子インスパイアされたアニーラーの最近のハードウェア進歩は、汎用コンピュータと比較してnp-hard combinatorial optimization問題を解くための大幅なスピードアップを約束している。 これらの専用ハードウェアは、擬似非拘束バイナリ最適化(QUBO)問題のハードインスタンスを解くために構築されている。 変数数やハードウェアの精度に関しては、通常はリソース制約があり、イジング空間 {-1,1} やブール空間 {0,1} で動作します。 自然に発生する問題の多くは自然に高次である。 高階最適化問題の次数を減少させる既知の方法はローゼンバーグ多項式を用いる。 この方法はブール空間において、1つの余剰変数を導入して1項の次数を減らして機能する。 本研究では,イジング空間において,1項の次数還元には2変数の導入が必要であることを示す。 提案手法はイジング多項式をブール空間に変換し、既知のローゼンバーグ多項式を適用するのとは対照的に、イジング空間において直接作用する。 厳密な高次Ising問題に対しては、リソース制約付きQUBO問題をよりコンパクトに表現し、資源制約付きQUBOソルバの活用に不可欠である。

Recent hardware advances in quantum and quantum-inspired annealers promise substantial speedup for solving NP-hard combinatorial optimization problems compared to general-purpose computers. These special-purpose hardware are built for solving hard instances of Quadratic Unconstrained Binary Optimization (QUBO) problems. In terms of number of variables and precision of these hardware are usually resource-constrained and they work either in Ising space {-1,1} or in Boolean space {0,1}. Many naturally occurring problem instances are higher-order in nature. The known method to reduce the degree of a higher-order optimization problem uses Rosenberg's polynomial. The method works in Boolean space by reducing the degree of one term by introducing one extra variable. In this work, we prove that in Ising space the degree reduction of one term requires the introduction of two variables. Our proposed method of degree reduction works directly in Ising space, as opposed to converting an Ising polynomial to Boolean space and applying previously known Rosenberg's polynomial. For sparse higher-order Ising problems, this results in a more compact representation of the resultant QUBO problem, which is crucial for utilizing resource-constrained QUBO solvers.
翻訳日:2023-01-16 04:50:23 公開日:2020-01-02
# 大規模MIMOシステムにおける球デコードのための学習支援ディープパス予測

Learning-Aided Deep Path Prediction for Sphere Decoding in Large MIMO Systems ( http://arxiv.org/abs/2001.00342v1 )

ライセンス: Link先を確認
Doyeon Weon and Kyungchun Lee(参考訳) 本稿では,大規模多入力多重出力システムのための学習支援球面デコード(sd)方式,すなわち深経路予測に基づく球面デコード(dpp-sd)を提案する。 このスキームでは,木探索をSDで行う前に,サブツリー内の'deep'パスの最小値を予測するためにニューラルネットワーク(NN)を用いる。 NNの複雑さを軽減するために、元の受信信号とフルチャネル行列を使用するのではなく、次元の小さい入力ベクトルを用いる。 nnの出力、すなわち予測される最小パスメトリックは、サブツリー間の探索順序を決定するだけでなく、初期探索半径を最適化するために利用され、sdの計算複雑性を低減できる。 さらなる複雑性低減のために,予測最小経路メトリックに基づく初期終了スキームも提案されている。 シミュレーションの結果,DPP-SD方式は,性能がほぼ最適であるにもかかわらず,従来のSDアルゴリズムに比べて計算量を大幅に削減できることが示唆された。

In this paper, we propose a novel learning-aided sphere decoding (SD) scheme for large multiple-input--multiple-output systems, namely, deep path prediction-based sphere decoding (DPP-SD). In this scheme, we employ a neural network (NN) to predict the minimum metrics of the ``deep'' paths in sub-trees before commencing the tree search in SD. To reduce the complexity of the NN, we employ the input vector with a reduced dimension rather than using the original received signals and full channel matrix. The outputs of the NN, i.e., the predicted minimum path metrics, are exploited to determine the search order between the sub-trees, as well as to optimize the initial search radius, which may reduce the computational complexity of SD. For further complexity reduction, an early termination scheme based on the predicted minimum path metrics is also proposed. Our simulation results show that the proposed DPP-SD scheme provides a significant reduction in computational complexity compared with the conventional SD algorithm, despite achieving near-optimal performance.
翻訳日:2023-01-16 04:50:02 公開日:2020-01-02
# 時間空間ニューラルフィルタ:方向インフォームドエンド・ツー・エンドマルチチャネル音声分離

Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation ( http://arxiv.org/abs/2001.00391v1 )

ライセンス: Link先を確認
Rongzhi Gu and Yuexian Zou(参考訳) ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。 近年のディープラーニングに基づく近接トーク音声分離の進歩にもかかわらず、現実世界への応用は依然として未解決の課題である。 主な課題は、複雑な音響環境とリアルタイム処理の要件である。 そこで本研究では, 残響環境における複数話者混合音から目標音声波形を直接推定し, 話者の方向情報を支援する時間空間ニューラルフィルタを提案する。 まず, 複雑な環境によってもたらされる変動に対して, 対象と干渉源との時間的, スペクトル的, 空間的判別可能性の共同モデリングにより, 音響表現の完全性を高めることが鍵となる。 具体的には、時間的、スペクトル的、空間的、および設計された方向的特徴が統合され、結合音響表現が作成される。 第二に、レイテンシを低減するために、完全に畳み込みのオートエンコーダフレームワークを設計します。 すべての特徴計算はネットワーク層と操作によって実装され、分離手順を高速化する。 話者非依存のシナリオでは、シミュレーション残響データセット wsj0-2mix と wsj0-3mix で評価を行う。 実験により,提案手法は,より少ないパラメータと高速な処理速度で,最先端の深層学習に基づくマルチチャネルアプローチよりも優れた性能を示した。 さらに,提案する時間空間ニューラルフィルタは,話者数や未知数との混合を処理可能であり,既存の方向推定誤差であっても持続的な性能を示す。 コードとモデルはまもなくリリースされる。

Target speech separation refers to extracting the target speaker's speech from mixed signals. Despite the recent advances in deep learning based close-talk speech separation, the applications to real-world are still an open issue. Two main challenges are the complex acoustic environment and the real-time processing requirement. To address these challenges, we propose a temporal-spatial neural filter, which directly estimates the target speech waveform from multi-speaker mixture in reverberant environments, assisted with directional information of the speaker(s). Firstly, against variations brought by complex environment, the key idea is to increase the acoustic representation completeness through the jointly modeling of temporal, spectral and spatial discriminability between the target and interference source. Specifically, temporal, spectral, spatial along with the designed directional features are integrated to create a joint acoustic representation. Secondly, to reduce the latency, we design a fully-convolutional autoencoder framework, which is purely end-to-end and single-pass. All the feature computation is implemented by the network layers and operations to speed up the separation procedure. Evaluation is conducted on simulated reverberant dataset WSJ0-2mix and WSJ0-3mix under speaker-independent scenario. Experimental results demonstrate that the proposed method outperforms state-of-the-art deep learning based multi-channel approaches with fewer parameters and faster processing speed. Furthermore, the proposed temporal-spatial neural filter can handle mixtures with varying and unknown number of speakers and exhibits persistent performance even when existing a direction estimation error. Codes and models will be released soon.
翻訳日:2023-01-16 04:49:22 公開日:2020-01-02
# グラフ信号処理 - Part III: グラフトポロジからアプリケーションまで、グラフ上の機械学習

Graph Signal Processing -- Part III: Machine Learning on Graphs, from Graph Topology to Applications ( http://arxiv.org/abs/2001.00426v1 )

ライセンス: Link先を確認
Ljubisa Stankovic, Danilo Mandic, Milos Dakovic, Milos Brajovic, Bruno Scalzo, Shengxi Li, Anthony G. Constantinides(参考訳) グラフ上の現代のデータ分析アプリケーションは、グラフトポロジが未知の領域で運用されているため、その決定は問題解決に役立つ事前知識として機能するのではなく、問題定義の一部となる。 このモノグラフのパートIIIは、問題の物理学が既に可能なトポロジを示唆している場合から、データからグラフトポロジが学習されるほとんどの一般的なケースまで、グラフトポロジの学習方法に対処することから始まる。 特に強調されるのは、観測データの相関行列と精度行列に基づくグラフトポロジー定義であり、グラフ接続の滑らかさやスパース性といった、追加の事前知識と構造条件が組み合わさっている。 疎グラフ(少数のエッジを持つ)の学習には、最小限の縮小と選択演算子(LASSO)が、グラフ固有の変種であるグラフィカルLASSOとともに使用されている。 完全性については、LASSOの両変種は直感的に導出され、説明される。 グラフトポロジ学習パラダイムの詳細は、電気回路、線形熱伝達、社会的およびコンピュータネットワーク、スプリング質量システムなど、物理的によく定義されたグラフのいくつかの例を通じて提供される。 多くのグラフニューラルネットワーク(GNN)と畳み込みグラフネットワーク(GCN)が出現するにつれて、グラフ信号フィルタリングの観点から、GNNやGCNの主なトレンドについてもレビューしてきた。 格子構造グラフのテンソル表現は次に検討され、テンソル(多次元データアレイ)がグラフ信号の特別なクラスであることが示され、グラフ頂点は高次元の正則格子構造に存在する。 monographのこの部分は、金融データ処理と地下交通ネットワークモデリングの2つの新しい応用で締めくくっている。

Many modern data analytics applications on graphs operate on domains where graph topology is not known a priori, and hence its determination becomes part of the problem definition, rather than serving as prior knowledge which aids the problem solution. Part III of this monograph starts by addressing ways to learn graph topology, from the case where the physics of the problem already suggest a possible topology, through to most general cases where the graph topology is learned from the data. A particular emphasis is on graph topology definition based on the correlation and precision matrices of the observed data, combined with additional prior knowledge and structural conditions, such as the smoothness or sparsity of graph connections. For learning sparse graphs (with small number of edges), the least absolute shrinkage and selection operator, known as LASSO is employed, along with its graph specific variant, graphical LASSO. For completeness, both variants of LASSO are derived in an intuitive way, and explained. An in-depth elaboration of the graph topology learning paradigm is provided through several examples on physically well defined graphs, such as electric circuits, linear heat transfer, social and computer networks, and spring-mass systems. As many graph neural networks (GNN) and convolutional graph networks (GCN) are emerging, we have also reviewed the main trends in GNNs and GCNs, from the perspective of graph signal filtering. Tensor representation of lattice-structured graphs is next considered, and it is shown that tensors (multidimensional data arrays) are a special class of graph signals, whereby the graph vertices reside on a high-dimensional regular lattice structure. This part of monograph concludes with two emerging applications in financial data processing and underground transportation networks modeling.
翻訳日:2023-01-16 04:49:01 公開日:2020-01-02
# 大規模コーパスを用いたストリーミング音声認識に基づく注意

Attention based on-device streaming speech recognition with large speech corpus ( http://arxiv.org/abs/2001.00577v1 )

ライセンス: Link先を確認
Kwangyoun Kim, Kyungmin Lee, Dhananjaya Gowda, Junmo Park, Sungsoo Kim, Sichen Jin, Young-Yoon Lee, Jinsu Yeo, Daehyun Kim, Seokyeong Jung, Jungin Lee, Myoungji Han, Chanwoo Kim(参考訳) 本稿では,大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づく,オンデバイス自動音声認識(ASR)システムを提案する。 我々は,接続型時間分類器(CTC)とクロスエントロピー(CE)の併用トレーニング,最小単語誤り率(MWER)トレーニング,レイヤワイド事前学習,データ拡張手法を用いて,一般領域における単語認識率の約90%を達成した。 さらに,認識精度の低下を最小限に抑えつつ,反復的超低ランク近似(lra)法を用いてモデルを3.4倍以上小さく圧縮した。 8ビット量子化によりメモリフットプリントはさらに小さくなり、最終的なモデルサイズは39MB以下になった。 オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。

In this paper, we present a new on-device automatic speech recognition (ASR) system based on monotonic chunk-wise attention (MoChA) models trained with large (> 10K hours) corpus. We attained around 90% of a word recognition rate for general domain mainly by using joint training of connectionist temporal classifier (CTC) and cross entropy (CE) losses, minimum word error rate (MWER) training, layer-wise pre-training and data augmentation methods. In addition, we compressed our models by more than 3.4 times smaller using an iterative hyper low-rank approximation (LRA) method while minimizing the degradation in recognition accuracy. The memory footprint was further reduced with 8-bit quantization to bring down the final model size to lower than 39 MB. For on-demand adaptation, we fused the MoChA models with statistical n-gram models, and we could achieve a relatively 36% improvement on average in word error rate (WER) for target domains including the general domain.
翻訳日:2023-01-16 04:48:31 公開日:2020-01-02
# 深部注意畳み込みニューラルネットワークを用いたゼロショット強化学習

Zero-Shot Reinforcement Learning with Deep Attention Convolutional Neural Networks ( http://arxiv.org/abs/2001.00605v1 )

ライセンス: Link先を確認
Sahika Genc, Sunil Mallya, Sravan Bodapati, Tao Sun, Yunzhe Tao(参考訳) ニューラルネットワークモデルのシミュレーション・シミュレーション・シミュレーション・トゥ・実世界転送は困難である。 現実のギャップを埋めるためには、ドメイン適応、認識とダイナミクスの分離、各問題を個別に解決すること、エージェントパラメータと環境条件をランダム化して学習エージェントを様々な条件に公開することに焦点を当てたシミュレーションから現実への世界移動の先行手法が提案される。 これらの手法は許容できる性能を提供するが、自律運転やロボット操作といった特定のタスクにおける包括的シナリオに対するパラメータの大規模な変動を捉えるのに必要な計算複雑性が高い。 我々の重要な貢献は、特定の視覚センサ構成を持つディープ・アテンション・畳み込みニューラルネットワーク(DACNN)が、より低い計算複雑性で高いドメインとパラメータの変動を持つデータセットのトレーニングを行うことを理論的に証明し実証することである。 具体的には、ネットワークの重み付けはポリシー最適化によって学習され、最適なアクションにつながる局所的な依存関係に焦点が当てられ、一般化のために現実世界のチューニングを必要としない。 新しいアーキテクチャは,制御目標に対する知覚を適応させ,知覚ネットワークを事前学習することなくゼロショット学習を実現する。 新しいディープネットワークアーキテクチャがドメイン適応に与える影響を測定するために、自律運転をユースケースとして検討する。 シミュレーション・シミュレーション・シミュレーション・トゥ・リアル・シナリオの広範な実験を行い、現在の最先端モデルを含む複数のベースラインと比較した。

Simulation-to-simulation and simulation-to-real world transfer of neural network models have been a difficult problem. To close the reality gap, prior methods to simulation-to-real world transfer focused on domain adaptation, decoupling perception and dynamics and solving each problem separately, and randomization of agent parameters and environment conditions to expose the learning agent to a variety of conditions. While these methods provide acceptable performance, the computational complexity required to capture a large variation of parameters for comprehensive scenarios on a given task such as autonomous driving or robotic manipulation is high. Our key contribution is to theoretically prove and empirically demonstrate that a deep attention convolutional neural network (DACNN) with specific visual sensor configuration performs as well as training on a dataset with high domain and parameter variation at lower computational complexity. Specifically, the attention network weights are learned through policy optimization to focus on local dependencies that lead to optimal actions, and does not require tuning in real-world for generalization. Our new architecture adapts perception with respect to the control objective, resulting in zero-shot learning without pre-training a perception network. To measure the impact of our new deep network architecture on domain adaptation, we consider autonomous driving as a use case. We perform an extensive set of experiments in simulation-to-simulation and simulation-to-real scenarios to compare our approach to several baselines including the current state-of-art models.
翻訳日:2023-01-16 04:48:14 公開日:2020-01-02
# RGB画像からの可視光再構成

Physically Plausible Spectral Reconstruction from RGB Images ( http://arxiv.org/abs/2001.00558v1 )

ライセンス: Link先を確認
Yi-Tun Lin, Graham D. Finlayson(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いて,RGB画像から高スペクトル情報を再構成している。 さらに、このスペクトル再構成問題(sr)はしばしば良い(低い)誤差で解くことができる。 しかし、これらの手法は物理的に妥当ではない:すなわち、回復したスペクトルが下層のカメラの感度と再統合されたとき、その結果の予測RGBは実際のRGBと同じではなく、時にはこの差が大きい。 この問題は露出変化によってさらに複雑になる。 実際、ほとんどの学習ベースSRモデルは、固定露光設定を訓練しており、露光が変化すると性能が低下することを示している。 本稿では,CNN学習をどのように拡張して,物理的妥当性を強制し,露出の変化に伴う問題を緩和するかを示す。 我々のSRソリューションは、物理可視性を同時に確保しつつ、様々な露光条件下での最先端のスペクトル回復性能を向上させる。

Recently Convolutional Neural Networks (CNN) have been used to reconstruct hyperspectral information from RGB images. Moreover, this spectral reconstruction problem (SR) can often be solved with good (low) error. However, these methods are not physically plausible: that is when the recovered spectra are reintegrated with the underlying camera sensitivities, the resulting predicted RGB is not the same as the actual RGB, and sometimes this discrepancy can be large. The problem is further compounded by exposure change. Indeed, most learning-based SR models train for a fixed exposure setting and we show that this can result in poor performance when exposure varies. In this paper we show how CNN learning can be extended so that physical plausibility is enforced and the problem resulting from changing exposures is mitigated. Our SR solution improves the state-of-the-art spectral recovery performance under varying exposure conditions while simultaneously ensuring physical plausibility (the recovered spectra reintegrate to the input RGBs exactly).
翻訳日:2023-01-16 04:41:23 公開日:2020-01-02
# 分離可能なFIR-IIRフィルタを用いた機械学習イメージングコア

A Machine Learning Imaging Core using Separable FIR-IIR Filters ( http://arxiv.org/abs/2001.00630v1 )

ライセンス: Link先を確認
Masayoshi Asama, Leo F. Isikdogan, Sushma Rao, Bhavin V. Nayak, Gilad Michael(参考訳) 画素間画像変換を高効率で行うために設計された固定機能ニューラルネットワークハードウェアを提案する。 完全にトレーニング可能な固定トポロジーニューラルネットワークを使用して、さまざまな画像処理タスクを実行できるモデルを構築します。 我々のモデルは、圧縮スキップラインとハイブリッドFIR-IIRブロックを使用して、レイテンシとハードウェアフットプリントを削減する。 提案するMachine Learning Imaging CoreはMagICと呼ばれ,3mm^2(TSMC 16nm)のシリコン領域を用いる。 MagICはDDR帯域、SRAM、外部メモリを必要としない。 それぞれのMagICコアは56mW(215mW)を500MHzで消費し、エネルギー効率は23TOPS/W/mm^2である。 MagICは、画像パイプラインにおける多目的画像処理ブロックとして使用することができ、モバイルデバイスの電力とシリコン領域の限界内で、画像の劣化、デノナイズ、色化などの計算量の多い画像処理アプリケーションを近似することができる。

We propose fixed-function neural network hardware that is designed to perform pixel-to-pixel image transformations in a highly efficient way. We use a fully trainable, fixed-topology neural network to build a model that can perform a wide variety of image processing tasks. Our model uses compressed skip lines and hybrid FIR-IIR blocks to reduce the latency and hardware footprint. Our proposed Machine Learning Imaging Core, dubbed MagIC, uses a silicon area of ~3mm^2 (in TSMC 16nm), which is orders of magnitude smaller than a comparable pixel-wise dense prediction model. MagIC requires no DDR bandwidth, no SRAM, and practically no external memory. Each MagIC core consumes 56mW (215 mW max power) at 500MHz and achieves an energy-efficient throughput of 23TOPS/W/mm^2. MagIC can be used as a multi-purpose image processing block in an imaging pipeline, approximating compute-heavy image processing applications, such as image deblurring, denoising, and colorization, within the power and silicon area limits of mobile devices.
翻訳日:2023-01-16 04:41:05 公開日:2020-01-02
# DeepFocus: サンプル不変CNN型シャープネス関数を用いた少数のショット顕微鏡スライドオートフォーカス

DeepFocus: a Few-Shot Microscope Slide Auto-Focus using a Sample Invariant CNN-based Sharpness Function ( http://arxiv.org/abs/2001.00667v1 )

ライセンス: Link先を確認
Adrian Shajkofci, Michael Liebling(参考訳) オートフォーカス(af)法は生体顕微鏡で広く使われ、例えば撮影された物体が焦点から外れる時間経過を取得するために用いられる。 adアルゴリズムはサンプルを焦点平面に戻すための最適な距離を決定する。 現在のハードウェアベースの手法では、顕微鏡と画像に基づくアルゴリズムは、最も鋭い位置に収束するために多くの画像に依存するか、または各機器や画像の構成に特有のトレーニングデータとモデルを必要とする。 本稿では,マイクロManagerプラグインとして実装したAF手法であるDeepFocusを提案し,その畳み込みニューラルネットワークに基づくシャープネス関数を特徴付ける。 サンプル不変性により、我々のAFアルゴリズムは、幅広い光学顕微鏡で使用するために一度訓練されたモデルと、平らな(しかし任意の)テクスチャオブジェクトの単一の計器依存キャリブレーションスタック取得を用いて、最大3回以内の最適軸位置まで収束することができる。 合成データと実験データの両方で行った実験の結果, 平均精度は0.30×0.16マイクロメートル, 10x, NA 0.3の目的で測定された。 我々は、この性能と低画像数は、光感受性サンプルの取得時に光損傷を制限するのに役立つと予測している。

Autofocus (AF) methods are extensively used in biomicroscopy, for example to acquire timelapses, where the imaged objects tend to drift out of focus. AD algorithms determine an optimal distance by which to move the sample back into the focal plane. Current hardware-based methods require modifying the microscope and image-based algorithms either rely on many images to converge to the sharpest position or need training data and models specific to each instrument and imaging configuration. Here we propose DeepFocus, an AF method we implemented as a Micro-Manager plugin, and characterize its Convolutional neural network-based sharpness function, which we observed to be depth co-variant and sample-invariant. Sample invariance allows our AF algorithm to converge to an optimal axial position within as few as three iterations using a model trained once for use with a wide range of optical microscopes and a single instrument-dependent calibration stack acquisition of a flat (but arbitrary) textured object. From experiments carried out both on synthetic and experimental data, we observed an average precision, given 3 measured images, of 0.30 +- 0.16 micrometers with a 10x, NA 0.3 objective. We foresee that this performance and low image number will help limit photodamage during acquisitions with light-sensitive samples.
翻訳日:2023-01-16 04:40:46 公開日:2020-01-02
# ボゾン超流動によるp波フェルミ-フェルミ相互作用

Effective p-wave Fermi-Fermi Interaction Induced by Bosonic Superfluids ( http://arxiv.org/abs/2001.00420v1 )

ライセンス: Link先を確認
Yongzheng Wu, Zheng Yan, Zhi Lin, Jie Lou and Yan Chen(参考訳) 有限温度の正方格子上の2次元ボース・フェルミ混合体について,弱相互作用系における量子モンテカルロ法を用いて検討した。 ここでは、魅力的なBose-Hubbardモデルと自由スピンレスフェルミオンを考える。 ボゾンフェルミオン相互作用がなければ, 魅力的なボソンの崩壊状態の境界が得られる。 ボーソン-フェルミオン相互作用が存在する場合、フェルミオン間の効果的なp波相互作用は、ボーソンが超流動状態にある限り誘導される。 さらに, 低温下では複合フェルミオン対が出現することがわかった。

We study the two-dimensional Bose-Fermi mixture on square lattice at finite temperature by using the determinant quantum Monte Carlo method within the weakly interacting regime. Here we consider the attractive Bose-Hubbard model and free spinless fermions. In the absence of bosonfermion interactions, we obtain the boundary of the collapsed state of the attractive bosons. In the presence of boson-fermion interactions, an effective p-wave interaction between fermions will be induced as far as the bosons are in a superfluid state. Moreover, we find the emergence of the composite fermion pairs at low temperatures.
翻訳日:2023-01-16 04:39:07 公開日:2020-01-02
# EPR (Einstein, Podolsky, Rosen) 問題について

On some EPR (Einstein, Podolsky, Rosen) issues ( http://arxiv.org/abs/2001.00553v1 )

ライセンス: Link先を確認
Giuseppe Giuliani(参考訳) アインシュタイン=ポドルスキー=ローゼン(Einstein-Podolsky-Rosen)論文の批判的な再考は、EPRの議論が「物理的現実の要素」という概念を使わずに発展できることを示している。 哲学的な装飾を欠いたEPRの議論は、量子力学ができないこと、すなわち2つの非互換な物理量に定値を割り当てることを要求するために、明らかに減少する。 ベルによって構築された隠れ変数理論 - 型定理は、局所性条件が分離された2つの測定空間の間の統計的独立性を意味するという仮定に基づいて定式化される。 この仮定は、2つの測定間の統計的依存がそれらの間の因果関係を必要とするという追加の仮定で有効である。 この追加の仮定は、統計的依存が研究対象の物理的システムの本質的性質に起因する可能性があることを否定する。 したがって、隠れ変数理論は実験によって証明されないような制約で構築される。 量子力学的非局所性(英: Quantum mechanical non-locality)は、EPR-型の実験を記述するために呼び出されるものであり、この仮説(NDV仮説)と密接に関連している。 どちらの仮説もepr実験の記述にのみ用いられ、予測には用いられない。 したがって、絡み合った光子対に関する量子力学の予測力を低下させることなく、それらを落とすことができる。 さらに、両仮説は、絡み合った光子対を研究するために設計された標準実験装置の修正によって実験的に検証することができる。

A critical reconsideration of the EPR (Einstein-Podolsky-Rosen) paper shows that the EPR argument can be developed without using the concept of `element of physical reality', thus eliminating any philosophical element in the logical chains of the paper. Deprived of its philosophical ornament, the EPR argument plainly reduces to require what quantum mechanics can not do: to assign definite values to two incompatible physical quantities. Hidden variables theories built up according to Bell - type theorems are formulated on the basis of the assumption that the locality condition implies the statistical independence between two measurements space - like separated. This assumption is valid only with the additional one that statistical dependence between two measurements requires a causal connection between them. This additional assumption rules out the possibility that statistical dependence may due to an intrinsic property of the physical system under study. Therefore, hidden variables theories are built up with a restriction which leads them to be disproved by experiment. Quantum mechanical non - locality, invoked for describing EPR - type experiments, is strictly connected to the hypothesis (NDV hypothesis) according to which the twin photons of entangled pairs do not have a definite polarization before measurements. Both hypotheses are used only for describing EPR experiments and not for making predictions. Therefore, they can be dropped without reducing the predictive power of quantum mechanics concerning entangled photons pairs. Furthermore, both hypotheses can be experimentally tested by a modification of a standard experimental apparatus designed for studying entangled photons pairs.
翻訳日:2023-01-16 04:31:36 公開日:2020-01-02
# 有害を考慮したインフォーマルデータ変換

Informal Data Transformation Considered Harmful ( http://arxiv.org/abs/2001.00338v1 )

ライセンス: Link先を確認
Eric Daimler, Ryan Wisnesky(参考訳) In this paper we take the common position that AI systems are limited more by the integrity of the data they are learning from than the sophistication of their algorithms, and we take the uncommon position that the solution to achieving better data integrity in the enterprise is not to clean and validate data ex-post-facto whenever needed (the so-called data lake approach to data management, which can lead to data scientists spending 80% of their time cleaning data), but rather to formally and automatically guarantee that data integrity is preserved as it transformed (migrated, integrated, composed, queried, viewed, etc) throughout the enterprise, so that data and programs that depend on that data need not constantly be re-validated for every particular use.

In this paper we take the common position that AI systems are limited more by the integrity of the data they are learning from than the sophistication of their algorithms, and we take the uncommon position that the solution to achieving better data integrity in the enterprise is not to clean and validate data ex-post-facto whenever needed (the so-called data lake approach to data management, which can lead to data scientists spending 80% of their time cleaning data), but rather to formally and automatically guarantee that data integrity is preserved as it transformed (migrated, integrated, composed, queried, viewed, etc) throughout the enterprise, so that data and programs that depend on that data need not constantly be re-validated for every particular use.
翻訳日:2023-01-16 04:30:50 公開日:2020-01-02
# 音声病理検出のための位相情報

Phase-based Information for Voice Pathology Detection ( http://arxiv.org/abs/2001.00372v1 )

ライセンス: Link先を確認
Thomas Drugman, Thomas Dubuisson, Thierry Dutoit(参考訳) 音声処理の最近のほとんどのアプローチでは、等級スペクトルから情報を抽出する。 しかし、近年の知覚研究は相成分の重要性を強調している。 本研究の目的は,音声障害を自動的に検出するフェーズベース機能の可能性を検討することである。 グループ遅延関数は音節の不規則性を特徴付けるのに適切であることを示す。 また,音声の混合位相モデルについても考察した。 提案した位相特性を,等級スペクトルから導出した他のパラメータと比較した。 どちらのストリームも興味深い補完的であることが示されている。 さらに、フェーズベースの機能は大量の関連する情報を伝達し、高い識別性能をもたらすことが判明した。

In most current approaches of speech processing, information is extracted from the magnitude spectrum. However recent perceptual studies have underlined the importance of the phase component. The goal of this paper is to investigate the potential of using phase-based features for automatically detecting voice disorders. It is shown that group delay functions are appropriate for characterizing irregularities in the phonation. Besides the respect of the mixed-phase model of speech is discussed. The proposed phase-based features are evaluated and compared to other parameters derived from the magnitude spectrum. Both streams are shown to be interestingly complementary. Furthermore phase-based features turn out to convey a great amount of relevant information, leading to high discrimination performance.
翻訳日:2023-01-16 04:30:41 公開日:2020-01-02
# ピッチ修正技術の比較評価

A Comparative Evaluation of Pitch Modification Techniques ( http://arxiv.org/abs/2001.00579v1 )

ライセンス: Link先を確認
Thomas Drugman, Thierry Dutoit(参考訳) 本稿では,効率的な音声変換システムのための重要なモジュールとして,ピッチ修正の問題に対処する。 前報で提案した残差信号の決定論的+確率的モデルについて,TDPSOLA,HNM,STRAIGHTと比較した。 4つの方法は重要な主観的テストを通して比較される。 話者の性別とピッチ修正率の影響を分析した。 圧縮レベルが高いにもかかわらず、DSM法は他の方法、特に男性話者と重要な修正率に対して、類似またはより良い結果が得られることが示されている。 DSMは女性の声に対してSTRAIGHTより優れていることが判明した。

This paper addresses the problem of pitch modification, as an important module for an efficient voice transformation system. The Deterministic plus Stochastic Model of the residual signal we proposed in a previous work is compared to TDPSOLA, HNM and STRAIGHT. The four methods are compared through an important subjective test. The influence of the speaker gender and of the pitch modification ratio is analyzed. Despite its higher compression level, the DSM technique is shown to give similar or better results than other methods, especially for male speakers and important ratios of modification. The DSM turns out to be only outperformed by STRAIGHT for female voices.
翻訳日:2023-01-16 04:30:33 公開日:2020-01-02
# パラメトリック音声合成のための固有残響

Eigenresiduals for improved Parametric Speech Synthesis ( http://arxiv.org/abs/2001.00581v1 )

ライセンス: Link先を確認
Thomas Drugman, Geoffrey Wilfart, Thierry Dutoit(参考訳) 統計的パラメトリック音声合成器は、最近、自然音と柔軟な音声を作り出す能力を示した。 残念なことに、納品された品質は、音声が音声符号化されているため、典型的なバイラルに悩まされる。 本稿では,この望ましくない効果を低減すべく,新しい励起モデルを提案する。 本モデルは主成分分析により得られた正規直交基底におけるピッチ同期残差フレームの分解に基づく。 この基礎は限られた数の固有形容詞を含み、比較的小さな音声データベースで計算される。 HMMベースシンセサイザーにPCAベースの係数のストリームを追加し、合成中に発声励起を生成する。 従来の励起に比べて改良が報告され、合成エンジンのフットプリントは約1mb以下である。

Statistical parametric speech synthesizers have recently shown their ability to produce natural-sounding and flexible voices. Unfortunately the delivered quality suffers from a typical buzziness due to the fact that speech is vocoded. This paper proposes a new excitation model in order to reduce this undesirable effect. This model is based on the decomposition of pitch-synchronous residual frames on an orthonormal basis obtained by Principal Component Analysis. This basis contains a limited number of eigenresiduals and is computed on a relatively small speech database. A stream of PCA-based coefficients is added to our HMM-based synthesizer and allows to generate the voiced excitation during the synthesis. An improvement compared to the traditional excitation is reported while the synthesis engine footprint remains under about 1Mb.
翻訳日:2023-01-16 04:30:25 公開日:2020-01-02
# 励振に基づく音声品質分析と修正

Excitation-based Voice Quality Analysis and Modification ( http://arxiv.org/abs/2001.00582v1 )

ライセンス: Link先を確認
Thomas Drugman, Thierry Dutoit, Baris Bozkurt(参考訳) 本稿では,異なる声質の励起における違いについて検討する。 目標は2つある。 まず、同一話者が発声する3つの声質(モーダル、ソフト、ラウド)を含む大音量コーパスを分析し、励起から抽出した特徴の有意差を観察する。 分析から派生した修正規則を用いて、hmmに基づく音声合成に後処理として適用する音声品質変換システムを構築する。 システムは、納品された品質を維持しながら、効果的な変換を実現する。

This paper investigates the differences occuring in the excitation for different voice qualities. Its goal is two-fold. First a large corpus containing three voice qualities (modal, soft and loud) uttered by the same speaker is analyzed and significant differences in characteristics extracted from the excitation are observed. Secondly rules of modification derived from the analysis are used to build a voice quality transformation system applied as a post-process to HMM-based speech synthesis. The system is shown to effectively achieve the transformations while maintaining the delivered quality.
翻訳日:2023-01-16 04:30:16 公開日:2020-01-02
# 音声病理検出のための音源とフィルタの相互情報について

On the Mutual Information between Source and Filter Contributions for Voice Pathology Detection ( http://arxiv.org/abs/2001.00583v1 )

ライセンス: Link先を確認
Thomas Drugman, Thomas Dubuisson, Thierry Dutoit(参考訳) 本稿では,音声信号から直接音声病理を自動検出する問題に対処する。 そこで本研究では,声門音源推定を音声障害検出の手段として用いた。 音声や声帯信号に関連があるか,韻律に関連があるかによって,3つの特徴セットが提案される。 これらの特徴の関連性は相互情報に基づく尺度によって評価される。 これにより、後の分類器とは独立に、識別力と特徴間の冗長性の観点から直観的な解釈が可能になる。 音声病理の検出にはどの特徴が有益か補完的かについて議論した。

This paper addresses the problem of automatic detection of voice pathologies directly from the speech signal. For this, we investigate the use of the glottal source estimation as a means to detect voice disorders. Three sets of features are proposed, depending on whether they are related to the speech or the glottal signal, or to prosody. The relevancy of these features is assessed through mutual information-based measures. This allows an intuitive interpretation in terms of discrimation power and redundancy between the features, independently of any subsequent classifier. It is discussed which characteristics are interestingly informative or complementary for detecting voice pathologies.
翻訳日:2023-01-16 04:30:07 公開日:2020-01-02
# 話者認識型音声変換器

Speaker-aware speech-transformer ( http://arxiv.org/abs/2001.01557v1 )

ライセンス: Link先を確認
Zhiyun Fan, Jie Li, Shiyu Zhou, Bo Xu(参考訳) 近年,従来のハイブリッド音声認識(ASR)システムの代替として,エンドツーエンド(E2E)モデルが登場している。 しかし、訓練とテストの条件において、話者のミスマッチに苦しむ。 本稿では,音声変換器(ST)を学習プラットフォームとして使用し,E2Eモデルの話者認識訓練について検討する。 本稿では,話者注意モジュール(SAM)を備えた標準STである話者認識音声変換器(SAST)を提案する。 SAM は i-vector で構成された静的話者知識ブロック (SKB) を備えている。 各段階において、エンコーダ出力はブロック内のiベクターに付随し、重み付けされた複合話者埋め込みベクトルを生成し、モデルが話者変動を正規化するのに役立つ。 このような方法でトレーニングされたSASTモデルは、特定のトレーニングスピーカーとは独立して、未確認のテストスピーカーをより一般化する。 SAMの様々な要因について検討する。 AISHELL-1タスクの実験結果は、SASTが話者非依存(SI)ベースラインに対して相対的に6.5%のCER還元(CERR)を達成することを示している。 さらに,skbのi-vectorsがすべて音響訓練セット以外の異なるデータソースから来ている場合でも,sastは十分に機能することを示す。

Recently, end-to-end (E2E) models become a competitive alternative to the conventional hybrid automatic speech recognition (ASR) systems. However, they still suffer from speaker mismatch in training and testing condition. In this paper, we use Speech-Transformer (ST) as the study platform to investigate speaker aware training of E2E models. We propose a model called Speaker-Aware Speech-Transformer (SAST), which is a standard ST equipped with a speaker attention module (SAM). The SAM has a static speaker knowledge block (SKB) that is made of i-vectors. At each time step, the encoder output attends to the i-vectors in the block, and generates a weighted combined speaker embedding vector, which helps the model to normalize the speaker variations. The SAST model trained in this way becomes independent of specific training speakers and thus generalizes better to unseen testing speakers. We investigate different factors of SAM. Experimental results on the AISHELL-1 task show that SAST achieves a relative 6.5% CER reduction (CERR) over the speaker-independent (SI) baseline. Moreover, we demonstrate that SAST still works quite well even if the i-vectors in SKB all come from a different data source other than the acoustic training set.
翻訳日:2023-01-16 04:29:59 公開日:2020-01-02
# 画像セマンティックセグメンテーションのためのグラフFCN

Graph-FCN for image semantic segmentation ( http://arxiv.org/abs/2001.00335v1 )

ライセンス: Link先を確認
Yi Lu, Yaran Chen, Dongbin Zhao, Jianxin Chen(参考訳) 深層学習によるセマンティックセグメンテーションは画像中のピクセルの分類において大きな進歩を遂げた。 しかし,画像のセマンティクスセグメンテーションにおいて重要となる深層学習による高レベル特徴抽出では,局所的な位置情報は無視されることが多い。 この問題を回避するため,画像セマンティックセグメンテーションのための全畳み込みネットワーク(FCN)であるGraph-FCNを初期化したグラフモデルを提案する。 まず、画像グリッドデータを畳み込みネットワークによりグラフ構造データに拡張し、セマンティックセグメンテーション問題をグラフノード分類問題に変換する。 次に,グラフ畳み込みネットワークを適用し,このグラフノード分類問題を解く。 私たちが知る限り、画像意味のセグメンテーションにグラフ畳み込みネットワークを適用するのは、これが初めてです。 提案手法は,従来のFCNモデルと比較して,VOCデータセット(約1.34%の改善)上の平均結合(mIOU)における競合性能を実現する。

Semantic segmentation with deep learning has achieved great progress in classifying the pixels in the image. However, the local location information is usually ignored in the high-level feature extraction by the deep learning, which is important for image semantic segmentation. To avoid this problem, we propose a graph model initialized by a fully convolutional network (FCN) named Graph-FCN for image semantic segmentation. Firstly, the image grid data is extended to graph structure data by a convolutional network, which transforms the semantic segmentation problem into a graph node classification problem. Then we apply graph convolutional network to solve this graph node classification problem. As far as we know, it is the first time that we apply the graph convolutional network in image semantic segmentation. Our method achieves competitive performance in mean intersection over union (mIOU) on the VOC dataset(about 1.34% improvement), compared to the original FCN model.
翻訳日:2023-01-16 04:23:06 公開日:2020-01-02
# ビデオのシースルーにCNNのセグメンテーションを使おう

Using CNNs For Users Segmentation In Video See-Through Augmented Virtuality ( http://arxiv.org/abs/2001.00487v1 )

ライセンス: Link先を確認
Pierre-Olivier Pigny and Lionel Dominjon(参考訳) 本稿では,ユーザと他の参加者を統合するための深層学習手法を,ヘッドマウント映像シースルー拡張仮想シナリオに導入する予備的結果について述べる。 このようなシミュレーションでは,仮想環境における自己と社会的存在感,およびユーザパフォーマンスが向上する可能性が指摘されている。 本稿では,畳み込みニューラルネットワークを用いて,ユーザの視点から得られる立体的rgbビデオストリームにおけるユーザ本体のリアルタイム意味セグメンテーションを提案する。 本稿では,設計上の問題とシステム実装の詳細について述べ,拡張仮想性シミュレーションにおいて,そのようなニューラルネットワークを用いたユーザ体統合の実現可能性を示す。

In this paper, we present preliminary results on the use of deep learning techniques to integrate the users self-body and other participants into a head-mounted video see-through augmented virtuality scenario. It has been previously shown that seeing users bodies in such simulations may improve the feeling of both self and social presence in the virtual environment, as well as user performance. We propose to use a convolutional neural network for real time semantic segmentation of users bodies in the stereoscopic RGB video streams acquired from the perspective of the user. We describe design issues as well as implementation details of the system and demonstrate the feasibility of using such neural networks for merging users bodies in an augmented virtuality simulation.
翻訳日:2023-01-16 04:22:08 公開日:2020-01-02
# 運動学から動力学へ:人間の動きの映像フレームからの圧力と支持基盤の推定

From Kinematics To Dynamics: Estimating Center of Pressure and Base of Support from Video Frames of Human Motion ( http://arxiv.org/abs/2001.00657v1 )

ライセンス: Link先を確認
Jesse Scott, Christopher Funk, Bharadwaj Ravichandran, John H. Challis, Robert T. Collins, Yanxi Liu(参考訳) 人間のポーズ画像と被写体の物理的足圧の関係を理解するために,ビデオフレームから派生した2次元のポーズ(運動学)から足圧熱マップ(力学)を回帰するために,PressNetとPressNet-Simpleという2つのエンドツーエンドのディープラーニングアーキテクチャを提案し,検証した。 6人の被験者からなる5分間の長調大地運動シーケンスからなる813,050対の同期対からなる一意のビデオおよび足圧データセットを収集し、一対一のクロスバリデーションに使用する。 最初の実験では,1つの画像から信頼でき,反復可能な足圧予測を示し,コンピュータビジョンにおけるこのような複雑なクロスモダリティマッピング問題の最初のベースラインを設定した。 さらに,予測足圧分布からCenter of Pressure (CoP) と Base of Support (BoS) を計算,定量的に検証し,キネシオロジー,医学,スポーツ,ロボティクスに応用可能な画像から画像の安定度解析の重要成分を抽出した。

To gain an understanding of the relation between a given human pose image and the corresponding physical foot pressure of the human subject, we propose and validate two end-to-end deep learning architectures, PressNet and PressNet-Simple, to regress foot pressure heatmaps (dynamics) from 2D human pose (kinematics) derived from a video frame. A unique video and foot pressure data set of 813,050 synchronized pairs, composed of 5-minute long choreographed Taiji movement sequences of 6 subjects, is collected and used for leaving-one-subject-out cross validation. Our initial experimental results demonstrate reliable and repeatable foot pressure prediction from a single image, setting the first baseline for such a complex cross modality mapping problem in computer vision. Furthermore, we compute and quantitatively validate the Center of Pressure (CoP) and Base of Support (BoS) from predicted foot pressure distribution, obtaining key components in pose stability analysis from images with potential applications in kinesiology, medicine, sports and robotics.
翻訳日:2023-01-16 04:21:56 公開日:2020-01-02
# マイニング情報と偽ニュース:概念・方法・最近の進歩

Mining Disinformation and Fake News: Concepts, Methods, and Recent Advancements ( http://arxiv.org/abs/2001.00623v1 )

ライセンス: Link先を確認
Kai Shu, Suhang Wang, Dongwon Lee, and Huan Liu(参考訳) 近年、フェイクニュースなどの偽情報が爆発的な成長、特にソーシャルメディア上では世界的な現象となっている。 偽情報や偽ニュースの広まりは、有害な社会的影響を引き起こす可能性がある。 偽情報や偽ニュースの検出の最近の進歩にもかかわらず、複雑さ、多様性、マルチモダリティ、ファクトチェックやアノテーションのコストのため、いまだに自明ではない。 本章の目標は,(1)ソーシャルメディアにおける情報障害の種類の導入と差異・関連性の検証,(2)非情報のキャラクタリゼーション,検出,帰属のための非情報と戦うための重要かつ新興のタスクの記述,(3)限定されたラベル付きデータによる不正情報検出のための弱い監督アプローチの議論,などを通じて,課題や進歩を理解するための道を開くことにある。 本稿では,(1)情報障害の拡散におけるユーザ関与,(2)偽情報の検出・緩和技術,(3)倫理,ブロックチェーン,クリックベイトなどのトレンド問題,の3点について,最近の進展を示す章の概要を紹介する。 本書は, 研究者, 実践者, 学生にとって, 問題や課題を理解し, ニーズに応じた最先端のソリューションを学習し, ドメイン内の新たな研究課題を迅速に特定するための便利なエントリポイントになることを願っている。

In recent years, disinformation including fake news, has became a global phenomenon due to its explosive growth, particularly on social media. The wide spread of disinformation and fake news can cause detrimental societal effects. Despite the recent progress in detecting disinformation and fake news, it is still non-trivial due to its complexity, diversity, multi-modality, and costs of fact-checking or annotation. The goal of this chapter is to pave the way for appreciating the challenges and advancements via: (1) introducing the types of information disorder on social media and examine their differences and connections; (2) describing important and emerging tasks to combat disinformation for characterization, detection and attribution; and (3) discussing a weak supervision approach to detect disinformation with limited labeled data. We then provide an overview of the chapters in this book that represent the recent advancements in three related parts: (1) user engagements in the dissemination of information disorder; (2) techniques on detecting and mitigating disinformation; and (3) trending issues such as ethics, blockchain, clickbaits, etc. We hope this book to be a convenient entry point for researchers, practitioners, and students to understand the problems and challenges, learn state-of-the-art solutions for their specific needs, and quickly identify new research problems in their domains.
翻訳日:2023-01-16 04:21:31 公開日:2020-01-02
# Moli\`ereはなぜ彼の戯曲を書いたのか

Why Moli\`ere most likely did write his plays ( http://arxiv.org/abs/2001.01595v1 )

ライセンス: Link先を確認
Florian Cafiero and Jean-Baptiste Camps(参考訳) シェークスピアに関して、モリ・エアは教育を受けていないと思われる俳優で、彼に由来する傑作を書けなかったという議論が浮上している。 過去数十年間、ピエール・コルネイユが実際の著者になるという19世紀の論文は、主に計算言語学の新たな研究によって人気を博した。 これらの結果はstate-of-the-artアトリビューションメソッドによって再評価される。 モリジュールとコルネイユの時代の主要な作家による詩の喜劇のコーパスについて研究した。 レキシコン、韻律、語形、接尾辞、形態素数列、関数語の分析は、当時の主要な劇作家のうち別の作家がモリフエアの名前で署名された戯曲を書いたという手がかりを与えていない。

As for Shakespeare, a hard-fought debate has emerged about Moli\`ere, a supposedly uneducated actor who, according to some, could not have written the masterpieces attributed to him. In the past decades, the century-old thesis according to which Pierre Corneille would be their actual author has become popular, mostly because of new works in computational linguistics. These results are reassessed here through state-of-the-art attribution methods. We study a corpus of comedies in verse by major authors of Moli\`ere and Corneille's time. Analysis of lexicon, rhymes, word forms, affixes, morphosyntactic sequences, and function words do not give any clue that another author among the major playwrights of the time would have written the plays signed under the name Moli\`ere.
翻訳日:2023-01-16 04:21:07 公開日:2020-01-02
# 非対称ビームスプリッタを用いた量子強調干渉計

Quantum-enhanced interferometry with asymmetric beam splitters ( http://arxiv.org/abs/2001.00302v1 )

ライセンス: Link先を確認
Wei Zhong, Fan Wang, Lan Zhou, Peng Xu and Yu-Bo Sheng(参考訳) 本稿では,非対称ビームスプリッタを用いた2経路光干渉計の位相感度について検討する。 本稿では,ビームスプリッタの透過率と位相の最適条件を示し,パリティ対称性を持つ非古典的状態の一般クラスにおいて最も高い感度を得る。 さらに、コヒーレント状態と光子付加または光子減圧真空状態の組み合わせによるスキームが、コヒーレント状態と加圧真空状態の組み合わせを用いた最も著名なものよりも良いか悪いかという議論の的になっている問題に対処する。

In this paper, we investigate the phase sensitivities in two-path optical interferometry with asymmetric beam splitters. Here, we present the optimal conditions for the transmission ratio and the phase of the beam splitter to gain the highest sensitivities for a general class of non-classical states with parity symmetry. Additionally, we address the controversial question of whether the scheme with a combination of coherent state and photon-added or photon-subtracted squeezed vacuum state is better or worse than the most celebrated one using a combination of coherent state and squeezed vacuum state.
翻訳日:2023-01-16 04:20:51 公開日:2020-01-02
# 相関を用いた量子ビットの有効温度測定

Measuring effective temperatures of qubits using correlations ( http://arxiv.org/abs/2001.00323v1 )

ライセンス: Link先を確認
Anatoly Kulikov, Rohit Navarathna, Arkady Fedorov(参考訳) 純粋状態における量子ビットの初期化は、量子コンピュータ操作の前提条件である。 量子ビットは通常、パッシブ熱化やアクティブリセットプロトコルによって基底状態への冷却によって初期化される。 初期化を正確に定量化するには、刺激的な励起状態の人口が1%を超えない場合に十分な精度で励起状態の人口を測定するためのツールが必要である。 本稿では,2つの逐次測定値間の相関を利用して,量子ビットの励起状態を求める新しい手法を提案する。 提案手法を回路qedプラットフォームを用いて実験的に実装し,その性能を従来開発された手法と比較する。 他の手法とは異なり、本手法では高忠実度読み出しを必要とせず、キュービット部分空間以外のシステムの励起レベルを伴わない。 我々は最大0.01\%$の精度でスプリアスキュービットの個体数を実験的に測定した。 この精度により、量子ビットの「温度分光」を行うことで、デコヒーレンスの源に光を当てることができた。

Initialization of a qubit in a pure state is a prerequisite for quantum computer operation. Qubits are commonly initialized by cooling to their ground states through passive thermalization or by using active reset protocols. To accurately quantify the initialization one requires a tool to measure the excited state population with sufficient accuracy given that the spurious excited state population may not exceed a fraction of a percent. In this Letter we propose a new technique of finding the excited state population of a qubit using correlations between two sequential measurements. We experimentally implement the proposed technique using a circuit QED platform and compare its performance with previously developed techniques. Unlike other techniques, our method does not require high-fidelity readout and does not involve the excited levels of the system outside of the qubit subspace. We experimentally demonstrated measurement of the spurious qubit population with accuracy of up to $0.01\%$. This accuracy enabled us to perform "temperature spectroscopy" of the qubit which helps to shed light on sources of the decoherence.
翻訳日:2023-01-16 04:20:39 公開日:2020-01-02
# CTAセグメンテーションタスクにおける教師なし事前トレーニングのための合成血管構造生成

Synthetic vascular structure generation for unsupervised pre-training in CTA segmentation tasks ( http://arxiv.org/abs/2001.00666v1 )

ライセンス: Link先を確認
Nil Stolt Ans\'o(参考訳) 教師付き深層モデルのトレーニングを行うのに十分な計算トモグラフィー(CT)データセットは難しいことが多い。 貢献する問題の1つは、特にボリュームデータのために、基礎となる真理ラベルを作成するための手作業の量である。 本研究では,脳卒中患者の治療における洞察を提供するために,血管分割作業においてU-netアーキテクチャを訓練する。 そこで我々は,頭部のCTスキャンにブレンド可能な人工血管構造を生成する計算モデルを構築した。 ラベル付けに対する教師なしアプローチは、深いセグメンテーションモデルの事前学習に使用され、これは後に実例で微調整され、手ラベルデータセットでのみトレーニングされたモデルと比較して精度が向上する。

Large enough computed tomography (CT) data sets to train supervised deep models are often hard to come by. One contributing issue is the amount of manual labor that goes into creating ground truth labels, specially for volumetric data. In this research, we train a U-net architecture at a vessel segmentation task that can be used to provide insights when treating stroke patients. We create a computational model that generates synthetic vascular structures which can be blended into unlabeled CT scans of the head. This unsupervised approached to labelling is used to pre-train deep segmentation models, which are later fine-tuned on real examples to achieve an increase in accuracy compared to models trained exclusively on a hand-labeled data set.
翻訳日:2023-01-16 04:13:49 公開日:2020-01-02
# 依存情報と事前知識を用いた薬剤性疾患関連抽出

Chemical-induced Disease Relation Extraction with Dependency Information and Prior Knowledge ( http://arxiv.org/abs/2001.00295v1 )

ライセンス: Link先を確認
Huiwei Zhou, Shixian Ning, Yunlong Yang, Zhuang Liu, Chengkun Lang, Yingyu Lin(参考訳) バイオメディカル研究や医療の様々な分野において,CDR抽出が重要である。 今日では、実体対とその関係に関する三重項を含む多くの大規模生物医学知識ベース(kbs)が構築されている。 KBは生医学的関係抽出のための重要な資源である。 しかし、過去の研究は以前の知識にはほとんど注意を払わない。 さらに、依存関係ツリーには重要な構文情報と意味情報が含まれており、関係抽出の改善に役立つ。 ですから、効果的に利用する方法も研究に値するのです。 本稿では,CDR抽出のための新しいコンボリューションアテンションネットワーク(CAN)を提案する。 まず, 単語列, 依存方向, 依存関係タグを含む文中の化学物質対と疾患対間の最短依存経路(SDP)を抽出する。 次に、SDP上で畳み込み操作を行い、深いセマンティック依存機能を生成する。 その後、kbsから学習した知識表現に関連する各意味依存ベクトルの重要性/重み付けを学ぶために注意機構が用いられる。 最後に、依存関係情報と事前知識とを組み合わせるために、重み付けされた意味依存表現と知識表現との結合をsoftmax層に供給して分類する。 BioCreative V CDRデータセットの実験により,我々の手法は最先端システムと同等の性能を達成し,依存情報と先行知識の両方がCDR抽出タスクにおいて重要な役割を果たすことが示された。

Chemical-disease relation (CDR) extraction is significantly important to various areas of biomedical research and health care. Nowadays, many large-scale biomedical knowledge bases (KBs) containing triples about entity pairs and their relations have been built. KBs are important resources for biomedical relation extraction. However, previous research pays little attention to prior knowledge. In addition, the dependency tree contains important syntactic and semantic information, which helps to improve relation extraction. So how to effectively use it is also worth studying. In this paper, we propose a novel convolutional attention network (CAN) for CDR extraction. Firstly, we extract the shortest dependency path (SDP) between chemical and disease pairs in a sentence, which includes a sequence of words, dependency directions, and dependency relation tags. Then the convolution operations are performed on the SDP to produce deep semantic dependency features. After that, an attention mechanism is employed to learn the importance/weight of each semantic dependency vector related to knowledge representations learned from KBs. Finally, in order to combine dependency information and prior knowledge, the concatenation of weighted semantic dependency representations and knowledge representations is fed to the softmax layer for classification. Experiments on the BioCreative V CDR dataset show that our method achieves comparable performance with the state-of-the-art systems, and both dependency information and prior knowledge play important roles in CDR extraction task.
翻訳日:2023-01-16 04:13:31 公開日:2020-01-02
# ニューラルネットワーク翻訳のための凝集言語の形態的単語セグメンテーション

Morphological Word Segmentation on Agglutinative Languages for Neural Machine Translation ( http://arxiv.org/abs/2001.01589v1 )

ライセンス: Link先を確認
Yirong Pan, Xiao Li, Yating Yang and Rui Dong(参考訳) ニューラル機械翻訳(NMT)は近年,機械翻訳タスクにおいて顕著な性能を発揮している。 しかし、効率性を考慮すると、トップNの最高頻度単語のみを含む限定的な語彙がモデルトレーニングに用いられており、希少かつ未知の単語が多数存在する。 複雑な形態と大きな語彙を持つ低資源で形態的に豊かな凝集言語から翻訳するのは、かなり難しい。 本稿では,学習時の語彙サイズを低減しつつ,単語構造における言語的・意味的情報を保存するために形態的知識を組み込んだnmtのソース側での形態的単語分割手法を提案する。 これは、他の自然言語処理(nlp)タスクのために凝集言語で単語を分割する前処理ツールとして使うことができる。 実験結果から,本手法はトルコ・英語・ウイグル語・中国語の機械翻訳作業において,データの疎度と言語的複雑さを低減させるため,NMTモデルに適していることが明らかとなった。

Neural machine translation (NMT) has achieved impressive performance on machine translation task in recent years. However, in consideration of efficiency, a limited-size vocabulary that only contains the top-N highest frequency words are employed for model training, which leads to many rare and unknown words. It is rather difficult when translating from the low-resource and morphologically-rich agglutinative languages, which have complex morphology and large vocabulary. In this paper, we propose a morphological word segmentation method on the source-side for NMT that incorporates morphology knowledge to preserve the linguistic and semantic information in the word structure while reducing the vocabulary size at training time. It can be utilized as a preprocessing tool to segment the words in agglutinative languages for other natural language processing (NLP) tasks. Experimental results show that our morphologically motivated word segmentation method is better suitable for the NMT model, which achieves significant improvements on Turkish-English and Uyghur-Chinese machine translation tasks on account of reducing data sparseness and language complexity.
翻訳日:2023-01-16 04:12:54 公開日:2020-01-02
# 時空間アライメントネットワークの強化による映像サリエンシー予測

Video Saliency Prediction Using Enhanced Spatiotemporal Alignment Network ( http://arxiv.org/abs/2001.00292v1 )

ライセンス: Link先を確認
Jin Chen, Huihui Song, Kaihua Zhang, Bo Liu, Qingshan Liu(参考訳) 異なるフレームにまたがる様々な動きにより、正確なビデオサリエンシ予測(VSP)のための効果的な時空間表現を学習することは極めて困難である。 この問題に対処するために、主に2つの重要なサブネットワーク、MDAN(Multi-scale deformable convolutional alignment network)とBi-ConvLSTM(Bi-ConvLSTM)ネットワークを含む、VSPに適した効果的な時空間特徴アライメントネットワークを開発する。 MDANは、隣接するフレームの特徴を粗い方法で参照フレームに整列させることを学び、様々な動きをうまく扱えるようにした。 具体的には、MDANは、まず変形可能な畳み込み(Dconv)を活用して、フレーム間の低解像度特徴を整列させ、次に、高解像度特徴を整列するために整列した特徴を集約し、上から下へ徐々に機能を強化するピラミッド的特徴階層構造を持っている。 MDANの出力をBi-ConvLSTMに入力してさらなる拡張を行い、複雑なシーン変換下での注意方向シフト予測を効果的に導くために、前向きと後向きのタイミング方向に沿って有用な時間的情報をキャプチャする。 最後に、拡張された機能はデコードされ、予測された精度マップを生成する。 提案したモデルは複雑な後処理なしでエンドツーエンドで訓練される。 4つのVSPベンチマークデータセットの大規模な評価は,提案手法が最先端手法に対して良好な性能を発揮することを示す。 ソースコードとすべての結果がリリースされます。

Due to a variety of motions across different frames, it is highly challenging to learn an effective spatiotemporal representation for accurate video saliency prediction (VSP). To address this issue, we develop an effective spatiotemporal feature alignment network tailored to VSP, mainly including two key sub-networks: a multi-scale deformable convolutional alignment network (MDAN) and a bidirectional convolutional Long Short-Term Memory (Bi-ConvLSTM) network. The MDAN learns to align the features of the neighboring frames to the reference one in a coarse-to-fine manner, which can well handle various motions. Specifically, the MDAN owns a pyramidal feature hierarchy structure that first leverages deformable convolution (Dconv) to align the lower-resolution features across frames, and then aggregates the aligned features to align the higher-resolution features, progressively enhancing the features from top to bottom. The output of MDAN is then fed into the Bi-ConvLSTM for further enhancement, which captures the useful long-time temporal information along forward and backward timing directions to effectively guide attention orientation shift prediction under complex scene transformation. Finally, the enhanced features are decoded to generate the predicted saliency map. The proposed model is trained end-to-end without any intricate post processing. Extensive evaluations on four VSP benchmark datasets demonstrate that the proposed method achieves favorable performance against state-of-the-art methods. The source codes and all the results will be released.
翻訳日:2023-01-16 04:12:26 公開日:2020-01-02
# 自己教師付き時空間学習のためのビデオクローゼ法

Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning ( http://arxiv.org/abs/2001.00294v1 )

ライセンス: Link先を確認
Dezhao Luo, Chang Liu, Yu Zhou, Dongbao Yang, Can Ma, Qixiang Ye, Weiping Wang(参考訳) 本稿では,ビデオ・クローゼ・プロシージャ(VCP)と呼ばれる新しい自己教師型手法を提案する。 vcpはまずビデオクリップを保持して「ブランク」を生成し、その後、持たないクリップに時空間操作を適用することで「オプション」を作成する。 最後に、空白を"オプション"で満たし、クリップに適用される操作のカテゴリを予測して表現を学習する。 VCPは、自己教師型学習において、プロキシタスクまたはターゲットタスクとして機能する。 プロキシタスクとして、リッチな自己教師型表現をビデオクリップ操作(オプション)に変換し、柔軟性を高め、表現学習の複雑さを低減する。 対象タスクとして、学習した表現モデルを均一かつ解釈可能な方法で評価することができる。 VCPでは,時空間表現モデル(3D-CNN)を訓練し,行動認識や映像検索に応用する。 一般的なベンチマーク実験では、トレーニングされたモデルは最先端の自己教師モデルよりも大きなマージンを持つことが示されている。

We propose a novel self-supervised method, referred to as Video Cloze Procedure (VCP), to learn rich spatial-temporal representations. VCP first generates "blanks" by withholding video clips and then creates "options" by applying spatio-temporal operations on the withheld clips. Finally, it fills the blanks with "options" and learns representations by predicting the categories of operations applied on the clips. VCP can act as either a proxy task or a target task in self-supervised learning. As a proxy task, it converts rich self-supervised representations into video clip operations (options), which enhances the flexibility and reduces the complexity of representation learning. As a target task, it can assess learned representation models in a uniform and interpretable manner. With VCP, we train spatial-temporal representation models (3D-CNNs) and apply such models on action recognition and video retrieval tasks. Experiments on commonly used benchmarks show that the trained models outperform the state-of-the-art self-supervised models with significant margins.
翻訳日:2023-01-16 04:11:57 公開日:2020-01-02
# グラフ表現学習のためのディープラーニング

Deep Learning for Learning Graph Representations ( http://arxiv.org/abs/2001.00293v1 )

ライセンス: Link先を確認
Wenwu Zhu, Xin Wang, Peng Cui(参考訳) グラフデータのマイニングはコンピュータ科学においてポピュラーな研究トピックとなり、近年のネットワークデータの増加を踏まえ、学術と産業の両方で広く研究されている。 しかし、膨大な量のネットワークデータが効率的な分析に大きな課題をもたらしている。 これはグラフを低次元ベクトル空間にマッピングし、元のグラフ構造を保持しグラフ推論をサポートするグラフ表現の出現を動機付ける。 グラフの効率的な表現に関する研究は、深い理論的意義と重要な現実的な意味を持っているので、グラフ表現/ネットワーク埋め込みの基本的な考え方や、この章のいくつかの代表モデルを紹介する。

Mining graph data has become a popular research topic in computer science and has been widely studied in both academia and industry given the increasing amount of network data in the recent years. However, the huge amount of network data has posed great challenges for efficient analysis. This motivates the advent of graph representation which maps the graph into a low-dimension vector space, keeping original graph structure and supporting graph inference. The investigation on efficient representation of a graph has profound theoretical significance and important realistic meaning, we therefore introduce some basic ideas in graph representation/network embedding as well as some representative models in this chapter.
翻訳日:2023-01-16 04:04:19 公開日:2020-01-02
# ビジュアル機械学習:2次元粒子構造における固有ベクトル、クラドニパターンおよびコミュニティ検出による洞察

Visual Machine Learning: Insight through Eigenvectors, Chladni patterns and community detection in 2D particulate structures ( http://arxiv.org/abs/2001.00345v1 )

ライセンス: Link先を確認
Raj Kishore, S. Swayamjyoti, Shreeja Das, Ajay K. Gogineni, Zohar Nussinov, D. Solenov, Kisor K. Sahu(参考訳) 機械学習(ML)は、非常に幅広い分野や商業的取り組みにまたがる多様なアプリケーションを持つ強力なツールとして急速に現れつつある。 通常、MLは出力の照明的合理化をほとんど提供しないブラックボックスとして使用される。 本研究は,教師なしMLの基盤となる汎用的な直観をより理解し,物理的なシステムに焦点をあてることを目的としている。 ここでテストケースとして研究されるシステムは、6つの異なる2次元(2次元)粒子系から構成される。 この研究の成果は、教師なしML問題に対して汎用的であり、材料システムのみに限定されていない点に注意が必要である。 6つの研究システムの隣接(接続性)行列に3つの初歩的教師なしML技術を用いる。 (i)隣接行列の主固有値と固有ベクトルを用いる。 (ii)スペクトル分解、及び (iii)モジュラリティ機能を最大化するポッツモデルに基づくコミュニティ検出技術。 完全に古典的な問題を解く一方で、ML技術は量子力学解と明確に結びついている特徴を生み出すことを示した。 これらの特徴を分離することは、古典的非線形世界と量子力学的線形世界との深いつながりを理解するのに役立つ。

Machine learning (ML) is quickly emerging as a powerful tool with diverse applications across an extremely broad spectrum of disciplines and commercial endeavors. Typically, ML is used as a black box that provides little illuminating rationalization of its output. In the current work, we aim to better understand the generic intuition underlying unsupervised ML with a focus on physical systems. The systems that are studied here as test cases comprise of six different 2-dimensional (2-D) particulate systems of different complexities. It is noted that the findings of this study are generic to any unsupervised ML problem and are not restricted to materials systems alone. Three rudimentary unsupervised ML techniques are employed on the adjacency (connectivity) matrix of the six studied systems: (i) using principal eigenvalue and eigenvectors of the adjacency matrix, (ii) spectral decomposition, and (iii) a Potts model based community detection technique in which a modularity function is maximized. We demonstrate that, while solving a completely classical problem, ML technique produces features that are distinctly connected to quantum mechanical solutions. Dissecting these features help us to understand the deep connection between the classical non-linear world and the quantum mechanical linear world through the kaleidoscope of ML technique, which might have far reaching consequences both in the arena of physical sciences and ML.
翻訳日:2023-01-16 04:03:57 公開日:2020-01-02
# ロボットのハイブリッド制御のための連続離散強化学習

Continuous-Discrete Reinforcement Learning for Hybrid Control in Robotics ( http://arxiv.org/abs/2001.00449v1 )

ライセンス: Link先を確認
Michael Neunert, Abbas Abdolmaleki, Markus Wulfmeier, Thomas Lampe, Jost Tobias Springenberg, Roland Hafner, Francesco Romano, Jonas Buchli, Nicolas Heess, Martin Riedmiller(参考訳) 多くの実世界の制御問題は、制御モードの選択、ギアスイッチング、デジタル出力などの決定変数と、速度設定点、制御ゲイン、アナログ出力のような連続的な決定変数の両方を含む。 しかし、対応する最適制御あるいは強化学習問題を定義する際には、完全に連続的あるいは完全に離散的な作用空間で概ね近似される。 これらの単純化は、特定の種類のアクション空間しかサポートできない特定のアルゴリズムや解法に問題を調整することを目的としている。 あるいは、専門家ヒューリスティックスは、他の連続空間から離散的な作用を取り除くために用いられる。 そこで本研究では,分散動作と連続動作を同時に最適化するハイブリッド強化学習を用いて,ハイブリッド問題を「ネイティブ」形式で扱うことを提案する。 実験では,提案手法がネイティブなハイブリッド強化学習問題を効率的に解くことを実証した。 次に、シミュレーションとロボットハードウェアの両方において、おそらく不完全なエキスパート設計のヒューリスティックを取り除く利点を示す。 最後に、ハイブリッド強化学習は問題定義の再考を促す。 本研究では, メタアクションを付加することにより, 機械的な摩耗や破断の軽減や探索を改善するための, 制御問題の再構成を提案する。

Many real-world control problems involve both discrete decision variables - such as the choice of control modes, gear switching or digital outputs - as well as continuous decision variables - such as velocity setpoints, control gains or analogue outputs. However, when defining the corresponding optimal control or reinforcement learning problem, it is commonly approximated with fully continuous or fully discrete action spaces. These simplifications aim at tailoring the problem to a particular algorithm or solver which may only support one type of action space. Alternatively, expert heuristics are used to remove discrete actions from an otherwise continuous space. In contrast, we propose to treat hybrid problems in their 'native' form by solving them with hybrid reinforcement learning, which optimizes for discrete and continuous actions simultaneously. In our experiments, we first demonstrate that the proposed approach efficiently solves such natively hybrid reinforcement learning problems. We then show, both in simulation and on robotic hardware, the benefits of removing possibly imperfect expert-designed heuristics. Lastly, hybrid reinforcement learning encourages us to rethink problem definitions. We propose reformulating control problems, e.g. by adding meta actions, to improve exploration or reduce mechanical wear and tear.
翻訳日:2023-01-16 04:03:38 公開日:2020-01-02
# DAWSON: ドメイン適応型Fewショット生成フレームワーク

DAWSON: A Domain Adaptive Few Shot Generation Framework ( http://arxiv.org/abs/2001.00576v1 )

ライセンス: Link先を確認
Weixin Liang, Zixuan Liu and Can Liu(参考訳) 新たなドメインをゼロからGAN(Generative Adversarial Networks)にトレーニングするには,膨大な量のトレーニングデータとトレーニング期間が必要です。 そこで本稿では,メタ学習に基づくドメイン適応FewShot生成フレームワークであるDAWSONを提案する。 メタラーニング GAN を適用する上での大きな課題は、GAN の可能性が低いため、開発セット上での評価から、ジェネレータの勾配を得ることである。 この課題に対処するために、GANの2段階の訓練手順とメタ学習アルゴリズムの2段階の訓練手順を自然に組み合わせた代替的なGAN訓練手順を提案する。 DAWSONは、幅広いメタ学習アルゴリズムとアーキテクチャのバリエーションを持つ様々なGANをサポートするプラグイン・アンド・プレイフレームワークである。 DAWSONをベースとして,最初の数ショット音楽生成モデルであるMUSIC MATINEEを提案する。 実験の結果,MUSIC MATINEEは対象ドメインから数十曲しか歌わない新しいドメインに迅速に適応できることがわかった。 また、DAWSONは、MNISTデータセットに4つのサンプルだけで新しい桁を生成することができることを示す。 我々は、PyTorchとTensorflowの両方でDAWSONのソースコード実装を公開し、2つのジャンルの楽曲サンプルとLightningビデオを生成した。

Training a Generative Adversarial Networks (GAN) for a new domain from scratch requires an enormous amount of training data and days of training time. To this end, we propose DAWSON, a Domain Adaptive FewShot Generation FrameworkFor GANs based on meta-learning. A major challenge of applying meta-learning GANs is to obtain gradients for the generator from evaluating it on development sets due to the likelihood-free nature of GANs. To address this challenge, we propose an alternative GAN training procedure that naturally combines the two-step training procedure of GANs and the two-step training procedure of meta-learning algorithms. DAWSON is a plug-and-play framework that supports a broad family of meta-learning algorithms and various GANs with architectural-variants. Based on DAWSON, We also propose MUSIC MATINEE, which is the first few-shot music generation model. Our experiments show that MUSIC MATINEE could quickly adapt to new domains with only tens of songs from the target domains. We also show that DAWSON can learn to generate new digits with only four samples in the MNIST dataset. We release source codes implementation of DAWSON in both PyTorch and Tensorflow, generated music samples on two genres and the lightning video.
翻訳日:2023-01-16 04:02:49 公開日:2020-01-02
# Tumblr利用者の大規模ジェンダー・エイジ予測

Large-scale Gender/Age Prediction of Tumblr Users ( http://arxiv.org/abs/2001.00594v1 )

ライセンス: Link先を確認
Yao Zhan, Changwei Hu, Yifan Hu, Tejaswi Kasturi, Shanmugam Ramasamy, Matt Gillingham, Keith Yamamoto(参考訳) tumblrは、主要なコンテンツプロバイダーおよびソーシャルメディアとして、3億3100万の月間訪問、2億8000万のブログ、そして5330万の毎日の投稿を集めている。 tumblrの人気は、広告主がスポンサード投稿を通じて商品を宣伝する絶好の機会を提供する。 しかし、Tumblrは登録時に性別や年齢などのユーザー情報を必要としないため、特定の層グループを対象に広告をターゲットするのは難しい。 したがって、広告ターゲティングを促進するためには、投稿、画像、ソーシャルコネクションといったリッチコンテンツを用いて、ユーザのデモグラフィを予測することが不可欠である。 本稿では,ユーザの行動やコンテンツの特徴を考慮に入れた,年齢・性別予測のためのグラフベースおよび深層学習モデルを提案する。 グラフベースのモデルでは、ネットワーク埋め込みとラベル伝搬という2つのアプローチを考案し、接続機能を生成し、ユーザのデモグラフィを直接推測する。 深層学習モデルでは,畳み込みニューラルネットワーク(cnn)と多層パーセプトロン(mlp)を用いて,ユーザの年齢と性別を予測する。 Tumblrの日々の実際のデータセットにおいて、数億人のアクティブユーザと数十億人のフォロー関係を持つ実験結果から、我々のアプローチは、年齢の精度を81%、性別の精度を56%向上させることで、ベースラインモデルを大幅に上回ることを示した。

Tumblr, as a leading content provider and social media, attracts 371 million monthly visits, 280 million blogs and 53.3 million daily posts. The popularity of Tumblr provides great opportunities for advertisers to promote their products through sponsored posts. However, it is a challenging task to target specific demographic groups for ads, since Tumblr does not require user information like gender and ages during their registration. Hence, to promote ad targeting, it is essential to predict user's demography using rich content such as posts, images and social connections. In this paper, we propose graph based and deep learning models for age and gender predictions, which take into account user activities and content features. For graph based models, we come up with two approaches, network embedding and label propagation, to generate connection features as well as directly infer user's demography. For deep learning models, we leverage convolutional neural network (CNN) and multilayer perceptron (MLP) to prediction users' age and gender. Experimental results on real Tumblr daily dataset, with hundreds of millions of active users and billions of following relations, demonstrate that our approaches significantly outperform the baseline model, by improving the accuracy relatively by 81% for age, and the AUC and accuracy by 5\% for gender.
翻訳日:2023-01-16 04:02:27 公開日:2020-01-02
# 識別分類器から派生した生成的分類器を持つ不正入力を拒絶する

Reject Illegal Inputs with Generative Classifier Derived from Any Discriminative Classifier ( http://arxiv.org/abs/2001.00483v1 )

ライセンス: Link先を確認
Xin Wang(参考訳) 生成的分類器は、逆例や分散サンプルを含む不正な入力を検出することを約束されている。 Supervised Deep Infomax~(SDIM)は、生成型分類器を学習するためのスケーラブルなエンドツーエンドフレームワークである。 本稿ではSDIM-\emph{logit}と呼ばれるSDIMの修正を提案する。 sdim-\emph{logit} は、スクラッチから生成する生成型分類器を訓練する代わりに、任意の識別型分類器から生成されたロジットを入力とし、ロジット表現を生成する。 SDIM-\emph{logit} は損失のない識別分類器の性能を継承できる。 SDIM-\emph{logit} は無視できる数の追加パラメータを発生させ、ベース分類器を固定して効率的に訓練することができる。 我々は,プレチョンセン閾値よりも小さいクラス条件を持つテストサンプルを予測なしで拒否する \emph{classification with refused} を実行する。 敵対的な例、共通の汚職のあるサンプル、配布外サンプルなど、違法な入力の実験では、テストサンプルの一部を拒絶することができることが示され、SDIM-\emph{logit} は左テストセットのパフォーマンスを著しく改善する。

Generative classifiers have been shown promising to detect illegal inputs including adversarial examples and out-of-distribution samples. Supervised Deep Infomax~(SDIM) is a scalable end-to-end framework to learn generative classifiers. In this paper, we propose a modification of SDIM termed SDIM-\emph{logit}. Instead of training generative classifier from scratch, SDIM-\emph{logit} first takes as input the logits produced any given discriminative classifier, and generate logit representations; then a generative classifier is derived by imposing statistical constraints on logit representations. SDIM-\emph{logit} could inherit the performance of the discriminative classifier without loss. SDIM-\emph{logit} incurs a negligible number of additional parameters, and can be efficiently trained with base classifiers fixed. We perform \emph{classification with rejection}, where test samples whose class conditionals are smaller than pre-chosen thresholds will be rejected without predictions. Experiments on illegal inputs, including adversarial examples, samples with common corruptions, and out-of-distribution~(OOD) samples show that allowed to reject a portion of test samples, SDIM-\emph{logit} significantly improves the performance on the left test sets.
翻訳日:2023-01-16 03:55:33 公開日:2020-01-02
# 相関多変量時系列解析のための深部構造モデル

A Deep Structural Model for Analyzing Correlated Multivariate Time Series ( http://arxiv.org/abs/2001.00559v1 )

ライセンス: Link先を確認
Changwei Hu, Yifan Hu, Sungyong Seo(参考訳) 多変量時系列は実世界のアプリケーションで日常的に遭遇し、多くの場合、これらの時系列は強い相関関係にある。 本稿では,深層学習可能な構造時系列モデルを提案する。 (i)相関多変量時系列入力を処理し、 (2)傾向,季節性,事象成分を明示的に学習・抽出し,対象の時間的順序を予測する。 この傾向は1Dと2Dの時間的CNNとLSTM階層ニューラルネットを通して学習される。 CNN-LSTMアーキテクチャは使える (i)複数の相関時系列間の依存を自然にシームレスに活用する。 (二)傾向学習を改善するために重み付き差分特徴を抽出し、 (iii)長期連続パターンを記憶する。 季節成分は、フーリエ項の集合の非線形関数を介して近似され、イベント成分はイベント日付を符号化する回帰器の単純な線形関数によって学習される。 当社のモデルを,Amazon AWS Simple Storage Service (S3) と Elastic Compute Cloud (EC2) の請求の予測や,同じカテゴリの企業株の閉鎖価格など,さまざまな時系列データセットに関する包括的な実験を通じて,最先端のいくつかの手法と比較した。

Multivariate time series are routinely encountered in real-world applications, and in many cases, these time series are strongly correlated. In this paper, we present a deep learning structural time series model which can (i) handle correlated multivariate time series input, and (ii) forecast the targeted temporal sequence by explicitly learning/extracting the trend, seasonality, and event components. The trend is learned via a 1D and 2D temporal CNN and LSTM hierarchical neural net. The CNN-LSTM architecture can (i) seamlessly leverage the dependency among multiple correlated time series in a natural way, (ii) extract the weighted differencing feature for better trend learning, and (iii) memorize the long-term sequential pattern. The seasonality component is approximated via a non-liner function of a set of Fourier terms, and the event components are learned by a simple linear function of regressor encoding the event dates. We compare our model with several state-of-the-art methods through a comprehensive set of experiments on a variety of time series data sets, such as forecasts of Amazon AWS Simple Storage Service (S3) and Elastic Compute Cloud (EC2) billings, and the closing prices for corporate stocks in the same category.
翻訳日:2023-01-16 03:55:02 公開日:2020-01-02
# 因果機械学習における損失関数

A Loss-Function for Causal Machine-Learning ( http://arxiv.org/abs/2001.00629v1 )

ライセンス: Link先を確認
I-Sheng Yang(参考訳) 因果機械学習は、治療のネット効果(真のリフト)を予測することである。 治療群と対照群のデータを考慮すれば、標準的な教師付き学習問題に似ている。 残念ながら、データにポイントワイド真の値がないため、同様のよく定義された損失関数は存在しない。 現代の機械学習における多くの進歩は、そのような損失関数がないため直接適用できない。 この文脈で損失関数を定義する新しい手法を提案し、これは標準回帰問題における平均二乗誤差(MSE)と等しい。 損失関数は普遍的に適用可能であり、真のリフトを予測する任意のモデル/戦略の品質を評価する一般的な標準を提供する。 我々は、その新しい定義にもかかわらず、この損失関数に直接勾配降下を行い、最適に適合することを示す。 これにより、ディープニューラルネットワークなどのパラメータベースのモデルをトレーニングして、メタリーナー戦略を踏まずに因果的機械学習問題を解決する新しい方法が生まれます。

Causal machine-learning is about predicting the net-effect (true-lift) of treatments. Given the data of a treatment group and a control group, it is similar to a standard supervised-learning problem. Unfortunately, there is no similarly well-defined loss function due to the lack of point-wise true values in the data. Many advances in modern machine-learning are not directly applicable due to the absence of such loss function. We propose a novel method to define a loss function in this context, which is equal to mean-square-error (MSE) in a standard regression problem. Our loss function is universally applicable, thus providing a general standard to evaluate the quality of any model/strategy that predicts the true-lift. We demonstrate that despite its novel definition, one can still perform gradient descent directly on this loss function to find the best fit. This leads to a new way to train any parameter-based model, such as deep neural networks, to solve causal machine-learning problems without going through the meta-learner strategy.
翻訳日:2023-01-16 03:54:26 公開日:2020-01-02
# 決定木条件付けによる説明可能な外乱検出

Explainable outlier detection through decision tree conditioning ( http://arxiv.org/abs/2001.00636v1 )

ライセンス: Link先を確認
David Cortes(参考訳) 本研究は,ルールクエスト研究によって開発されたGritBotソフトウェアに基づいて,対象変数に対する1-d信頼区間と,これらの信頼区間に応じてフラグ付けされた潜在外乱区間を構成する変数に対して,教師付き決定木分割の評価と追従を行う。 この論理の下では、観測における変数の与えられた値がなぜ外れ値と見なされるのかを、同じ分岐に落ちた非外れ値観測の一般分布統計とともに決定木分岐条件を考慮し、人読み可能な説明を作成でき、ciの外にある値と対比することができる。 教師付き分割(supervised splits)は、生成された条件がスプリアスではなく、ターゲット変数と関連し、論理的なブレークポイントを持つことを保証するのに役立つ。

This work describes an outlier detection procedure (named "OutlierTree") loosely based on the GritBot software developed by RuleQuest research, which works by evaluating and following supervised decision tree splits on variables, in whose branches 1-d confidence intervals are constructed for the target variable and potential outliers flagged according to these confidence intervals. Under this logic, it's possible to produce human-readable explanations for why a given value of a variable in an observation can be considered as outlier, by considering the decision tree branch conditions along with general distribution statistics among the non-outlier observations that fell into the same branch, which can then be contrasted against the value which lies outside the CI. The supervised splits help to ensure that the generated conditions are not spurious, but rather related to the target variable and having logical breakpoints.
翻訳日:2023-01-16 03:53:50 公開日:2020-01-02
# 数ショットベイズ最適化のためのベイズタスク埋め込み

Bayesian task embedding for few-shot Bayesian optimization ( http://arxiv.org/abs/2001.00637v1 )

ライセンス: Link先を確認
Steven Atkinson and Sayan Ghosh and Natarajan Chennimalai-Kumar and Genghis Khan and Liping Wang(参考訳) 本稿では,定量的相互関係が未知な複数のシステムからのデータを取り込むベイズ最適化手法について述べる。 システムの一般的な(非実数値の)特徴はすべて、全てのシステムの応答面を同時に学習する単一のメタモデルへの入力として入力される連続的潜在変数と関連付けられている。 ベイズ推論は潜伏変数に関する適切な信念を決定するために用いられる。 本稿では,ベイジアン最適化タスクにおいて得られた確率的メタモデルがどのように用いられるかを説明し,その性能を従来のベイジアン最適化とゼロ,ワンショット,少数ショットで比較して,様々な合成および実世界の例で実装する。

We describe a method for Bayesian optimization by which one may incorporate data from multiple systems whose quantitative interrelationships are unknown a priori. All general (nonreal-valued) features of the systems are associated with continuous latent variables that enter as inputs into a single metamodel that simultaneously learns the response surfaces of all of the systems. Bayesian inference is used to determine appropriate beliefs regarding the latent variables. We explain how the resulting probabilistic metamodel may be used for Bayesian optimization tasks and demonstrate its implementation on a variety of synthetic and real-world examples, comparing its performance under zero-, one-, and few-shot settings against traditional Bayesian optimization, which usually requires substantially more data from the system of interest.
翻訳日:2023-01-16 03:53:32 公開日:2020-01-02
# ハイテク企業におけるDeep Technology Tracing

Deep Technology Tracing for High-tech Companies ( http://arxiv.org/abs/2001.08606v1 )

ライセンス: Link先を確認
Han Wu, Kun Zhang, Guangyi Lv, Qi Liu, Runlong Yu, Weihao Zhao, Enhong Chen and Jianhui Ma(参考訳) 技術革新とイノベーションは特にハイテク企業にとって極めて重要である。 しかし、将来の研究開発(r&d)のトレンドに影響を与える要因は複雑で多様であり、ハイテク企業の技術追跡を極めて困難にしている。 そこで本稿では,DTF(Deep Technology Forecasting)フレームワークという新たなデータ駆動型ソリューションを開発し,各ハイテク企業にカスタマイズされた最も可能な技術方向を自動的に見つける。 特に、DTFは3つのコンポーネントで構成されている。潜在的な競合認識(PCR)、協調技術認識(CTR)、ディープテクノロジートラクション(DTT)ニューラルネットワークである。 PCRとCTRは、それぞれ企業間の競争関係と技術間の協力関係を捉えることを目的としている。 別の例として、DTTは上記の関係を持つ企業と技術間の動的相互作用をモデル化するために設計されている。 最後に、実世界の特許データに基づいてDTFフレームワークを評価し、実験結果から、DTFが企業の将来的な技術強調に有効であることを示す。

Technological change and innovation are vitally important, especially for high-tech companies. However, factors influencing their future research and development (R&D) trends are both complicated and various, leading it a quite difficult task to make technology tracing for high-tech companies. To this end, in this paper, we develop a novel data-driven solution, i.e., Deep Technology Forecasting (DTF) framework, to automatically find the most possible technology directions customized to each high-tech company. Specially, DTF consists of three components: Potential Competitor Recognition (PCR), Collaborative Technology Recognition (CTR), and Deep Technology Tracing (DTT) neural network. For one thing, PCR and CTR aim to capture competitive relations among enterprises and collaborative relations among technologies, respectively. For another, DTT is designed for modeling dynamic interactions between companies and technologies with the above relations involved. Finally, we evaluate our DTF framework on real-world patent data, and the experimental results clearly prove that DTF can precisely help to prospect future technology emphasis of companies by exploiting hybrid factors.
翻訳日:2023-01-16 03:53:19 公開日:2020-01-02
# カーネル化サポートテンソルトレインマシン

Kernelized Support Tensor Train Machines ( http://arxiv.org/abs/2001.00360v1 )

ライセンス: Link先を確認
Cong Chen, Kim Batselier, Wenjian Yu, Ngai Wong(参考訳) 多次元データ構造であるtensorは最近、機械学習コミュニティで活用されている。 従来の機械学習アプローチはベクトルベースや行列ベースであり、テンソルデータを直接扱うことはできない。 本稿では, テンソルトレイン(TT)ベースのカーネル手法を初めて提案し, イメージ分類のための従来のサポートベクトルマシン(SVM)に適用する。 具体的には、テンソル入力を受け付け、固有のカーネル特性を保持するカーネル化サポートテンソルトレインマシンを提案する。 主な貢献は3つある。 まず,TT 構造を特徴空間内に保持する TT ベースの特徴マッピング手法を提案する。 第2に,TT内部の製品との整合性や情報保存を考慮しつつ,TTベースのカーネル機能を構築するための2つの方法を示す。 第3に,異なるデータモードに異なるカーネル関数を適用することができることを示す。 原理として,本手法は入力構造とカーネルマッピング方式の標準SVMをテンソル化する。 実世界のテンソルデータを用いて大規模な実験を行い,数サンプルの高次元入力による提案手法の優位性を実証した。

Tensor, a multi-dimensional data structure, has been exploited recently in the machine learning community. Traditional machine learning approaches are vector- or matrix-based, and cannot handle tensorial data directly. In this paper, we propose a tensor train (TT)-based kernel technique for the first time, and apply it to the conventional support vector machine (SVM) for image classification. Specifically, we propose a kernelized support tensor train machine that accepts tensorial input and preserves the intrinsic kernel property. The main contributions are threefold. First, we propose a TT-based feature mapping procedure that maintains the TT structure in the feature space. Second, we demonstrate two ways to construct the TT-based kernel function while considering consistency with the TT inner product and preservation of information. Third, we show that it is possible to apply different kernel functions on different data modes. In principle, our method tensorizes the standard SVM on its input structure and kernel mapping scheme. Extensive experiments are performed on real-world tensor data, which demonstrates the superiority of the proposed scheme under few-sample high-dimensional inputs.
翻訳日:2023-01-16 03:46:13 公開日:2020-01-02
# ニューラルネットワークにおける物理系の操作意味表現

Operationally meaningful representations of physical systems in neural networks ( http://arxiv.org/abs/2001.00593v1 )

ライセンス: Link先を確認
Hendrik Poulsen Nautrup, Tony Metger, Raban Iten, Sofiene Jerbi, Lea M. Trenkwalder, Henrik Wilming, Hans J. Briegel, Renato Renner(参考訳) 科学の発展のために、私たちはしばしば、システムに関する情報を有意義にエンコードする物理システムの抽象表現を構築します。 現在の機械学習技術で学んだ表現は、トレーニングデータに存在する統計的構造を反映しているが、これらの方法では、表現に対して明示的かつ運用上意味のある要求を指定できない。 本稿では,物理システムの異なる側面を扱うエージェントが,相互に可能な限り効率的に関連情報を伝達できる,という概念に基づくニューラルネットワークアーキテクチャを提案する。 これは、異なる実験環境で物理システムに関するステートメントを作成するのに役立つ異なるパラメータを分離する表現を生成する。 古典物理学と量子物理学の両方を例に挙げる。 例えば、我々のアーキテクチャは、量子相関を記述するパラメータから局所パラメータを分離する任意の2量子ビット系のコンパクト表現を見つける。 さらに,本手法を強化学習と組み合わせることで,エージェントが関連する変数を識別するために実験的な設定を探索する必要がある対話シナリオにおける表現学習を可能にすることを示す。

To make progress in science, we often build abstract representations of physical systems that meaningfully encode information about the systems. The representations learnt by most current machine learning techniques reflect statistical structure present in the training data; however, these methods do not allow us to specify explicit and operationally meaningful requirements on the representation. Here, we present a neural network architecture based on the notion that agents dealing with different aspects of a physical system should be able to communicate relevant information as efficiently as possible to one another. This produces representations that separate different parameters which are useful for making statements about the physical system in different experimental settings. We present examples involving both classical and quantum physics. For instance, our architecture finds a compact representation of an arbitrary two-qubit system that separates local parameters from parameters describing quantum correlations. We further show that this method can be combined with reinforcement learning to enable representation learning within interactive scenarios where agents need to explore experimental settings to identify relevant variables.
翻訳日:2023-01-16 03:45:41 公開日:2020-01-02
# 深部文字認識における関連課題に対するドメイン間およびドメイン内知識伝達

Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep Character Recognition ( http://arxiv.org/abs/2001.00448v1 )

ライセンス: Link先を確認
Nishai Kooverjee, Steven James, Terence van Zyl(参考訳) ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングする一般的なプラクティスであり、一般的にパフォーマンスを改善し、トレーニング時間を短縮する。 1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、転送学習(transfer learning)と呼ばれる。 本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。 我々は,異なる種類の知識伝達の振る舞いを調べるために,ソースタスクとターゲットタスクの相似性の異なる3種類の実験を行う。 パラメータと特徴の両方を転送し、それらの振る舞いを分析する。 この結果から,従来の機械学習手法を文字認識タスクに応用することで,大きなメリットが得られないことが示唆された。 これは、トランスファーラーニングを使用することが、すべてのケースでより良い実行モデルが前提となるとは限らないことを示唆する。

Pre-training a deep neural network on the ImageNet dataset is a common practice for training deep learning models, and generally yields improved performance and faster training times. The technique of pre-training on one task and then retraining on a new one is called transfer learning. In this paper we analyse the effectiveness of using deep transfer learning for character recognition tasks. We perform three sets of experiments with varying levels of similarity between source and target tasks to investigate the behaviour of different types of knowledge transfer. We transfer both parameters and features and analyse their behaviour. Our results demonstrate that no significant advantage is gained by using a transfer learning approach over a traditional machine learning approach for our character recognition tasks. This suggests that using transfer learning does not necessarily presuppose a better performing model in all cases.
翻訳日:2023-01-16 03:44:20 公開日:2020-01-02
# 議論ダイナミクスを用いた知識グラフの推論

Reasoning on Knowledge Graphs with Debate Dynamics ( http://arxiv.org/abs/2001.00461v1 )

ライセンス: Link先を確認
Marcel Hildebrandt, Jorge Andres Quintero Serna, Yunpu Ma, Martin Ringsquandl, Mitchell Joblin, Volker Tresp(参考訳) 本稿では,議論のダイナミクスに基づく知識グラフの自動推論手法を提案する。 主な目的は、知識グラフの経路である議論を抽出する2つの強化学習エージェント間の議論ゲームとして三重分類のタスクを、それぞれ真である事実(仮説)または偽である事実(仮説)を促進することにある。 これらの議論に基づいて、裁判官と呼ばれる二項分類器は、事実が真か偽かを決定する。 この2つのエージェントは、論文またはアンチテーゼの解釈可能な証拠を示す、スパースで敵対的な特徴生成器と見なすことができる。 他のブラックボックス方式とは対照的に、この議論によってユーザーは裁判官の決定を理解できる。 本研究の目的は,競合予測精度を保ちながら説明可能な手法を作成することにあるので,本手法を三重分類およびリンク予測タスクにベンチマークする。 その結果,本手法はベンチマークデータセットfb15k-237,wn18rr,hetionetのベースライン数を上回っていることがわかった。 また,調査を行い,抽出した引数がユーザにとって有益であることを確認する。

We propose a novel method for automatic reasoning on knowledge graphs based on debate dynamics. The main idea is to frame the task of triple classification as a debate game between two reinforcement learning agents which extract arguments -- paths in the knowledge graph -- with the goal to promote the fact being true (thesis) or the fact being false (antithesis), respectively. Based on these arguments, a binary classifier, called the judge, decides whether the fact is true or false. The two agents can be considered as sparse, adversarial feature generators that present interpretable evidence for either the thesis or the antithesis. In contrast to other black-box methods, the arguments allow users to get an understanding of the decision of the judge. Since the focus of this work is to create an explainable method that maintains a competitive predictive accuracy, we benchmark our method on the triple classification and link prediction task. Thereby, we find that our method outperforms several baselines on the benchmark datasets FB15k-237, WN18RR, and Hetionet. We also conduct a survey and find that the extracted arguments are informative for users.
翻訳日:2023-01-16 03:44:07 公開日:2020-01-02