このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201009となっている論文です。

PDF登録状況(公開日: 20201009)

TitleAuthorsAbstract論文公表日・翻訳日
# H+A*+Aの自己随伴性について

On the self-adjointness of H+A*+A ( http://arxiv.org/abs/2003.05412v4 )

ライセンス: Link先を確認
Andrea Posilicano(参考訳) H:D(H)\subseteq{\mathscr F}\to{\mathscr F}$を自己共役とし、$A:D(H)\to{\mathscr F}$(アニヒレータ作用素の役割を演じる)を$H$有界とする。 A$(つまり、生成作用素$A^{*}$が$H$の特異摂動である)上のいくつかの追加仮説を仮定すると、分解的クライン型公式の2倍の応用により、正規ハミルトニアン $H+A^{*}+A$ を $D(H)\cap D(\hat H)=\{0\}$ で自己随伴現実化 $\hat H$ を構築する。 我々は、$d(\hat h)$ の明示的な特徴付けを与え、resolvent difference $(-\hat h+z)^{-1}-(-h+z)^{-1}$ の式を与える。 さらに、$\hat H$ の記述の問題は、$H+A^{*}_{n}+A_{n}+E_{n}$ の列の(ノルムの)極限として考える。 $'s は$A$を近似する正規化作用素であり、$E_{n}$'s は有界作用素の再正規化に適している。 これらの結果は、クラインの分解式による自己随伴作用素の特異摂動の構成と、量子場論における再正規化可能なモデルの非摂動理論との関連性を示している。

Let $H:D(H)\subseteq{\mathscr F}\to{\mathscr F}$ be self-adjoint and let $A:D(H)\to{\mathscr F}$ (playing the role of the annihilator operator) be $H$-bounded. Assuming some additional hypotheses on $A$ (so that the creation operator $A^{*}$ is a singular perturbation of $H$), by a twofold application of a resolvent Krein-type formula, we build self-adjoint realizations $\hat H$ of the formal Hamiltonian $H+A^{*}+A$ with $D(H)\cap D(\hat H)=\{0\}$. We give an explicit characterization of $D(\hat H)$ and provide a formula for the resolvent difference $(-\hat H+z)^{-1}-(-H+z)^{-1}$. Moreover, we consider the problem of the description of $\hat H$ as a (norm resolvent) limit of sequences of the kind $H+A^{*}_{n}+A_{n}+E_{n}$, where the $A_{n}\!$'s are regularized operators approximating $A$ and the $E_{n}$'s are suitable renormalizing bounded operators. These results show the connection between the construction of singular perturbations of self-adjoint operators by Krein's resolvent formula and nonperturbative theory of renormalizable models in Quantum Field Theory; in particular, as an explicit example, we consider the Nelson model.
翻訳日:2023-05-29 11:11:32 公開日:2020-10-09
# 1次元および2次元光学格子における位相制御光PT対称性と非対称光回折

Phase-controlled Optical PT symmetry and asymmetric light diffraction in one- and two-dimensional optical lattices ( http://arxiv.org/abs/2003.11784v2 )

ライセンス: Link先を確認
Ali Akbar Naeimi, Elham Darabi, Ali Mortezapour and Ghasem Naeimi(参考訳) 本研究では,弱プローブ場の非対称光回折を1次元(1D)および2次元(2D)格子に低温原子を占有する新しい手法を提案する。 原子は立位波、2つの結合レーザー場とプローブによって二重ラムダ型構造に駆動される。 提案手法は,光学的パリティ時間対称性を1次元格子と2次元格子の両方で誘導した結果,非対称回折を生成できることを示す。 さらに, 相対位相の調整により, 非対称な回折パターンを動的に操作できることが実証された。 さらに, 1次元格子(格子)の場合, カップリング場の強度変化が回折の不均一分布における回折次数の強度に大きな影響を与えることが明らかとなった。

We propose a novel scheme for asymmetric light diffraction of a weak probe field into a one-dimensional (1D) and two-dimensional (2D) lattice occupied with cold atoms. The atoms are driven into the double lambda-type configuration by a standing wave, two coupling laser fields and a probe. Our study suggests the proposed scheme is capable of forming an asymmetric diffraction as a result of inducing optical parity-time symmetry in both 1D and 2D lattices. Moreover it is demonstrated that the asymmetric pattern of diffraction can be dynamically manipulated by means of adjusting the relative phase. Furthermore it is revealed that in the case of 1D lattice (grating), variation of the intensities of the coupling fields has a significant impact on the intensity of diffraction orders in the uneven distribution of diffraction.
翻訳日:2023-05-27 20:45:09 公開日:2020-10-09
# ランダム回路サンプリングによる量子超越性の境界

Boundaries of quantum supremacy via random circuit sampling ( http://arxiv.org/abs/2005.02464v2 )

ライセンス: Link先を確認
Alexander Zlokapa, Sergio Boixo, Daniel Lidar(参考訳) googleの最近の量子超越性実験は、量子コンピューティングが計算タスクであるランダム回路サンプリングを実行し、現代のスーパーコンピュータの実用的リーチを超えている転換点となった。 我々は、より多くの量子ビットとゲートを持つ回路に対する外挿において、観測された量子ランタイムの利点の制約を検討する。 量子ビットとゲートの数で実験忠実度が指数関数的に減少するため、数百個のゲートより深い回路に対する理論的古典的ランタイムの利点を示す一方、クロスエントロピーベンチマークの量子ランタイムは量子優位の領域を数百個のキュービットに制限する。 しかし、回路幅と深さにおける量子ランタイムのアドバンテージ境界は、誤差率の低減に関して指数関数的に増大し、本研究は、この線における継続進行の重要性を強調している。 測定誤差率の外挿は、計算可能な量子ランタイムがクロスエントロピーベンチマークで有利になる制限回路サイズが、表面コードや他の量子エラー補正手法の初期実装に対する期待とほぼ一致することを示唆している。 したがって、ランダム回路サンプリングによる量子超越性の境界は、近い将来にスケーラブルで誤り訂正量子コンピューティングの出現と偶然一致するかもしれない。

Google's recent quantum supremacy experiment heralded a transition point where quantum computing performed a computational task, random circuit sampling, that is beyond the practical reach of modern supercomputers. We examine the constraints of the observed quantum runtime advantage in an extrapolation to circuits with a larger number of qubits and gates. Due to the exponential decrease of the experimental fidelity with the number of qubits and gates, we demonstrate for current fidelities a theoretical classical runtime advantage for circuits deeper than a few hundred gates, while quantum runtimes for cross-entropy benchmarking limit the region of a quantum advantage to a few hundred qubits. However, the quantum runtime advantage boundary in circuit width and depth grows exponentially with respect to reduced error rates, and our work highlights the importance of continued progress along this line. Extrapolations of measured error rates suggest that the limiting circuit size for which a computationally feasible quantum runtime advantage in cross-entropy benchmarking can be achieved approximately coincides with expectations for early implementations of the surface code and other quantum error correction methods. Thus the boundaries of quantum supremacy via random circuit sampling may fortuitously coincide with the advent of scalable, error corrected quantum computing in the near term.
翻訳日:2023-05-21 02:40:50 公開日:2020-10-09
# 開量子系におけるコヒーレンスからのエルゴトロピー

Ergotropy from coherences in an open quantum system ( http://arxiv.org/abs/2005.08489v3 )

ライセンス: Link先を確認
Bar{\i}\c{s} \c{C}akmak(参考訳) 有限温度で熱浴に結合した量子ビットからなる開量子系の定常状態において、非ゼロエルゴトロピーを持つことが可能であることを示す。 我々のモデルのダイナミクスは、量子ビットが1つ以上の場合、エネルギー固有ベイシスにおけるコヒーレンスを持つ定常状態へと導かれる。 系は反転した集団を持たないが、コヒーレンスから仕事を抽出することが可能であり、高温限界において単位エネルギー当たりのエルゴトロピーが2つの量子ビットの場合のコヒーレンスの$l_1$ノルムに等しいことを解析的に示す。 さらに,コヒーレンスとエルゴトロピーのスケーリングを,初期状態の異なるシステム内の量子ビット数の関数として解析する。 その結果, 弱結合状態において, 散逸熱浴によって帯電する量子電池を設計できることが示唆された。

We show that it is possible to have non-zero ergotropy in the steady-states of an open quantum system consisting of qubits that are collectively coupled to a thermal bath at a finite temperature. The dynamics of our model leads the qubits into a steady-state that has coherences in the energy eigenbasis when the number of qubits in the system is more than one. We observe that even though the system do not have inverted populations, it is possible to extract work from the coherences and analytically show that in the high temperature limit, ergotropy per unit energy is equal to the $l_1$ norm of coherence for the two qubit case. Further, we analyze the scaling of coherence and ergotropy as a function of the number of qubits in the system for different initial states. Our results suggest that one can design a quantum battery that is charged by a dissipative thermal bath in the weak coupling regime.
翻訳日:2023-05-19 11:31:44 公開日:2020-10-09
# 境界拡散量子多体系におけるLiouvillian Gapと緩和時間との差の解消

Resolving Discrepancy between Liouvillian Gap and Relaxation Time in Boundary-Dissipated Quantum Many-Body Systems ( http://arxiv.org/abs/2006.10953v2 )

ライセンス: Link先を確認
Takashi Mori, Tatsuhiko Shirai(参考訳) リウビリアンスペクトルのギャップは量子散逸系の漸近減衰率を与え、したがってその逆は最も緩やかな緩和時間として同定されている。 この一般的な信念とは対照的に、境界拡散多体量子系における拡散輸送による緩和時間は、リウヴィリア固有ベクトルの初期状態における非小固有値を持つリウヴィリア固有ベクトルに対する超指数的に大きな膨張係数によって決定される。 この発見は、リウヴィリアギャップの逆転と散逸多体量子系の緩和時間の間の文献で報告された明らかな相違を解消する。

The gap of the Liouvillian spectrum gives the asymptotic decay rate of a quantum dissipative system, and therefore its inverse has been identified as the slowest relaxation time. In contrary to this common belief, we show that the relaxation time due to diffusive transports in a boundary dissipated many-body quantum system is determined not by the gap or low-lying eigenvalues of the Liouvillian but by superexponentially large expansion coefficients for Liouvillian eigenvectors with non-small eigenvalues at an initial state. This finding resolves an apparent discrepancy reported in the literature between the inverse of the Liouvillian gap and the relaxation time in dissipative many-body quantum systems.
翻訳日:2023-05-13 11:32:13 公開日:2020-10-09
# Kibble-Zurek quenches による量子臨界点の配置

Locating quantum critical points with Kibble-Zurek quenches ( http://arxiv.org/abs/2007.04991v2 )

ライセンス: Link先を確認
Micha{\l} Bia{\l}o\'nczyk, Bogdan Damski(参考訳) 本稿では,有限次クエンチェにおける非平衡感受性の研究に基づいて,量子臨界点を求めるためのスキームについて述べる。 このような2つのクエンチが反対方向に実行されると仮定し、臨界点の反対側で非平衡感受性のピークが形成されることを議論する。 その位置は遷移を駆動するパラメータのこれらの値によってマークされた間隔に狭められ、ピークが観測される。 そのような推定精度のクエンチ時間による普遍的スケーリングを導出し、2つの正確に解けるモデルで検証する。 これらの結果の実験的妥当性が期待される。

We describe a scheme for finding quantum critical points based on studies of a non-equilibrium susceptibility during finite-rate quenches taking the system from one phase to another. We assume that two such quenches are performed in opposite directions, and argue that they lead to formation of peaks of a non-equilibrium susceptibility on opposite sides of a critical point. Its position is then narrowed to the interval marked off by these values of the parameter driving the transition, at which the peaks are observed. Universal scaling with the quench time of precision of such an estimation is derived and verified in two exactly solvable models. Experimental relevance of these results is expected.
翻訳日:2023-05-10 21:16:42 公開日:2020-10-09
# 2量子ビット実験におけるニューラルネットワーク量子状態トモグラフィ

Neural network quantum state tomography in a two-qubit experiment ( http://arxiv.org/abs/2007.16185v3 )

ライセンス: Link先を確認
Marcel Neugebauer, Laurin Fischer, Alexander J\"ager, Stefanie Czischek, Selim Jochim, Matthias Weidem\"uller, Martin G\"arttner(参考訳) 2光子実験による測定データを用いて,ニューラルネットワーク量子状態に基づく効率的な量子状態トモグラフィ法の性能について検討した。 機械学習にインスパイアされた変分法は、量子シミュレータのスケーラブルな状態キャラクタリゼーションへの有望な経路を提供する。 これらの手法のパワーは合成データで実証されているが、実際の実験データへの応用は少ない。 2キュービットの絡み合った状態を生成する実験から得られたデータに適用して、これらのアプローチをベンチマークして比較する。 実験的な不完全性やノイズの存在下では、変分多様体を物理状態、すなわち正の半定密度行列に収束させ、再構成された状態の質を大幅に改善するが、学習手順をより要求する。 純粋状態の仮定のような追加的、おそらく不当な制約を含むと、学習が容易になるが、推定器にも偏りがある。

We study the performance of efficient quantum state tomography methods based on neural network quantum states using measured data from a two-photon experiment. Machine learning inspired variational methods provide a promising route towards scalable state characterization for quantum simulators. While the power of these methods has been demonstrated on synthetic data, applications to real experimental data remain scarce. We benchmark and compare several such approaches by applying them to measured data from an experiment producing two-qubit entangled states. We find that in the presence of experimental imperfections and noise, confining the variational manifold to physical states, i.e. to positive semi-definite density matrices, greatly improves the quality of the reconstructed states but renders the learning procedure more demanding. Including additional, possibly unjustified, constraints, such as assuming pure states, facilitates learning, but also biases the estimator.
翻訳日:2023-05-07 12:33:41 公開日:2020-10-09
# 2+1)dにおける純粋な$\mathbb{z}_3$ゲージ理論のテンソルネットワークによる変分モンテカルロシミュレーション

Variational Monte Carlo simulation with tensor networks of a pure $\mathbb{Z}_3$ gauge theory in (2+1)d ( http://arxiv.org/abs/2008.00882v2 )

ライセンス: Link先を確認
Patrick Emonts, Mari Carmen Ba\~nuls, J. Ignacio Cirac, Erez Zohar(参考訳) テンソルネットワーク状態の変動最小化は、格子ゲージ理論の低エネルギー状態の探索を可能にする。 しかし、高次元テンソルネットワーク状態の正確な数値評価は、一般には困難である。 E. Zohar, J. I. Cirac, Phys. Rev. D 97, 034510 (2018)] において、ゲージ付きガウス射影絡み合ったペア状態と変分モンテカルロ法を組み合わせることにより、物理的可観測物を効率的に計算できることが示されている。 本稿では,この手法を格子ゲージ理論の基底状態の数値的研究に利用できることを示す。 より具体的には、2つの空間次元で$\mathbb{Z}_3$ゲージ場を持つ純粋ゲージKogut-Susskind Hamiltonianに対するそのような縮約法に基づく変分モンテカルロ法を明示的に実施する。 これは、変分パラメータの数を増やす固有の方法を提供し、物理的フェルミオンを持つシステムに容易に拡張できる、この方法の最初の原理の証明である。

Variational minimization of tensor network states enables the exploration of low energy states of lattice gauge theories. However, the exact numerical evaluation of high-dimensional tensor network states remains challenging in general. In [E. Zohar, J. I. Cirac, Phys. Rev. D 97, 034510 (2018)] it was shown how, by combining gauged Gaussian projected entangled pair states with a variational Monte Carlo procedure, it is possible to efficiently compute physical observables. In this paper we demonstrate how this approach can be used to investigate numerically the ground state of a lattice gauge theory. More concretely, we explicitly carry out the variational Monte Carlo procedure based on such contraction methods for a pure gauge Kogut-Susskind Hamiltonian with a $\mathbb{Z}_3$ gauge field in two spatial dimensions. This is a first proof of principle to the method, which provides an inherent way to increase the number of variational parameters and can be readily extended to systems with physical fermions.
翻訳日:2023-05-07 06:37:06 公開日:2020-10-09
# 分散ハイブリッド化マグノニックセンサによるニオブキャビティ磁場スクリーニングの定量

Determination of Niobium Cavity Magnetic Field Screening via a Dispersively Hybridized Magnonic Sensor ( http://arxiv.org/abs/2008.05073v2 )

ライセンス: Link先を確認
Graeme Flower, Benjamin McAllister, Maxim Goryachev and Michael Tobar(参考訳) 超伝導キャビティ内の内部直流磁場を決定する方法を提案する。 この方法は、超伝導空洞の分散状態においてハイブリダイゼーションされた強磁性球面のキッテルモードの磁場と周波数の関係に依存する。 その結果, 超伝導Nb空洞の遮蔽レベルは, 完全な反磁性から非遮蔽に変化するため, 実験的に測定された。 2つのキャビティジオメトリ(シリンダーと単一ポスト再エンタントキャビティ)を試験した。 どちらも、超熱的臨界場であると予想される空洞に入る場の一貫した値を示した。 また, 捕捉された渦による外磁場の上昇・下降時の遮蔽磁場のヒステリシスも観察された。 第1臨界場以上の内部場の台地の形態で円筒空洞内の異常な挙動が観察され,その発生源について考察した。 測定手法は、超伝導材料の使用を計画するが内部磁場を正確に知る必要があるアクシオンダークマター探索の診断に有用である。

A method for determining the internal DC magnetic field inside a superconducting cavity is presented. The method relies on the relationship between magnetic field and frequency of the Kittel mode of a ferrimagnetic sphere, hybridised in the dispersive regime of the superconducting cavity. Results were used to experimentally determine the level of screening a superconducting Nb cavity provides as it changes from perfect diamagnetism to no screening. Two cavity geometries were tested, a cylinder and single post re-entrant cavity. Both demonstrated a consistent value of field that enters the cavity, expected to be the superheating critical field. Hysteresis in the screened field during ramp up and ramp down of the external magnetic field due to trapped vortices was also observed. Some abnormal behaviour was observed in the cylindrical cavity in the form of plateaus in the internal field above the first critical field, and we discuss the potential origin of this behaviour. The measurement approach would be a useful diagnostic for axion dark matter searches, which plan on using superconducting materials but need to know precisely the internal magnetic field.
翻訳日:2023-05-06 11:53:24 公開日:2020-10-09
# 需要不確実性下におけるサステナブル閉ループ型サプライチェーンネットワークの多目的最適化:遺伝的アルゴリズム

Multi-Objective Optimization for Sustainable Closed-Loop Supply Chain Network Under Demand Uncertainty: A Genetic Algorithm ( http://arxiv.org/abs/2009.06047v2 )

ライセンス: Link先を確認
Ahmad Sobhan Abir, Ishtiaq Ahmed Bhuiyan, Mohammad Arani, Md Mashum Billal(参考訳) サプライチェーン管理は、何十年もの間、洗練されたベンダー、製造業者、消費者ネットワークを通しての流れを管理する生産的な方法に集中してきた。 近年、エネルギーと物質レートはセクターの改善に大きく消費され、持続可能な開発が先進国や発展途上国の核となる問題となっている。 サプライチェーン・マネジメントの新たなアプローチは、サプライチェーン設計の環境問題とともに、顧客需要を可能な限り満たすための計画における信頼性の高い経済を維持するために提案されている。 本稿では,環境への悪影響を最小限に抑えるため,環境要因とともに金融を維持するために,持続的なサプライチェーンネットワークを最適化し,顧客へ送付する製品の総数を最大化し,信頼性を高めることを目的とする。 この状況は倉庫の信頼性に不確実性があると考えられている。 提案手法は, 総コストとCO2排出量を最小化し, 閉ループサプライチェーンの確立に対する取扱いの信頼性を最大化する多目的数学的モデルである。 2つの最適化手法として、多目的遺伝的アルゴリズム最適化法と重み付きサム法がある。 2つの結果はこのアプローチの最適性を示している。 また,オプティマを明瞭に識別するために,パレートフロントを用いた最適点を示した。 その結果, モデルの有効性と, 財務, 環境, 信頼性問題を維持するための方法の検証が認められた。

Supply chain management has been concentrated on productive ways to manage flows through a sophisticated vendor, manufacturer, and consumer networks for decades. Recently, energy and material rates have been greatly consumed to improve the sector, making sustainable development the core problem for advanced and developing countries. A new approach of supply chain management is proposed to maintain the economy along with the environment issue for the design of supply chain as well as the highest reliability in the planning horizon to fulfill customers demand as much as possible. This paper aims to optimize a new sustainable closed-loop supply chain network to maintain the financial along with the environmental factor to minimize the negative effect on the environment and maximize the average total number of products dispatched to customers to enhance reliability. The situation has been considered under demand uncertainty with warehouse reliability. This approach has been suggested the multi-objective mathematical model minimizing the total costs and total CO2 emissions and maximize the reliability in handling for establishing the closed-loop supply chain. Two optimization methods are used namely Multi-Objective Genetic Algorithm Optimization Method and Weighted Sum Method. Two results have shown the optimality of this approach. This paper also showed the optimal point using Pareto front for clear identification of optima. The results are approved to verify the efficiency of the model and the methods to maintain the financial, environmental, and reliability issues.
翻訳日:2023-05-02 08:32:51 公開日:2020-10-09
# 環フラストレート非エルミート型$xy$モデル

Ring-Frustrated Non-Hermitian $XY$ Model ( http://arxiv.org/abs/2010.04443v1 )

ライセンス: Link先を確認
Shihao Bi, Yan He, Peng Li(参考訳) 奇数の格子サイトを持つ非エルミート型XY閉鎖について検討する。 反強磁性カップリングと対称な非線形スピンカップリングの両方を考える。 エネルギースペクトルはパラメータ空間のある領域において実数であることが判明した。 以前の非エルミートモデルとは異なり、基底状態は人工的に特定された真空状態ではなく、この実エネルギースペクトル領域内に1つのモードが占有された状態である。 同時に、スピン配置のようなシンクによって作られる、隙間のない励起が現れる。 また、このシンク位相は非自明な位相不変量を持つ。

We study a non-Hermitian version of XY closed chain with odd number of lattice sites. We consider both anti-ferromagnetic coupling and also a symmetric non-collinear spin coupling. It is found that the energy spectrum is real in certain region of the parameter space. In contrast to previous non-Hermitian models, the ground state is a state with one mode occupied inside this real energy spectrum region, instead of the artificially identified vacuum state. At the same time, there appears a gapless excitation, which is made by kink like spin configurations. It is also found that this kink phase has non-trivial topological invariant.
翻訳日:2023-04-29 13:39:41 公開日:2020-10-09
# ランダム化環境における半量子鍵分布

Mediated semi-quantum key distribution in randomization-based environment ( http://arxiv.org/abs/2010.04441v1 )

ライセンス: Link先を確認
Yen-Jie chen, Tzonelih Hwang, and Chia-Wei Tsai(参考訳) 本稿では、2人の古典的ユーザがセキュアな鍵を確立するのに役立つ完全量子能力を持つ、信頼できない第三者(TP)によるランダム化環境における最初の半量子鍵分布を提案する。 ベル状態とベル状態の崩壊した量子ビット間の絡み合わせはRSQKDプロトコルの設計を容易にするために用いられる。

This paper proposes the first mediated semi-quantum key distribution in randomization-based environment with an untrusted third party(TP) who has the complete quantum capabilities to help two classical users to establish a secure key. The entanglement swapping between the collapsed qubits of Bell states and the Bell states is used to facilitate the design of the RSQKD protocol.
翻訳日:2023-04-29 13:39:32 公開日:2020-10-09
# オプティメカルシステムにおける機械的貯留層スペクトル密度の測定

Measurement of the mechanical reservoir spectral density in optomechanical system ( http://arxiv.org/abs/2010.04403v1 )

ライセンス: Link先を確認
Wen-Zhao Zhang, Xian-Ting Liang, Jiong Cheng, Ling Zhou(参考訳) メモリ環境に埋め込まれた量子システムの動的挙動を調べるためには, 貯留層スペクトル密度の知識を得ることが重要である。 しかし、そのような知識は通常、環境に関する前提前提に基づいている。 本稿では,光機械共振器の貯留層スペクトル密度について,スペクトル形状を仮定することなく重要な情報を得る手法を提案する。 これは、放出された光の光透過率を検出し分析することで達成される。 弱い光機械的単光子結合系では、出力光スペクトルと貯水池スペクトル密度の簡単な関係が確立される。 単一又は複数のデコヒーレンスチャネルにおいてスペクトル密度プロファイルを再構成する単純で効果的な方法を提供する。

To investigate the dynamical behavior of a quantum system embedded in a memory environment, it is crucial to obtain the knowledge of the reservoir spectral density. However, such knowledge is usually based on a priori assumptions about the environment. In this paper, we put forward a method to obtain key information about the reservoir spectral density of an optomechanical resonator without additional assumptions about the spectral shape. This is achieved by detecting and analysing the optical transmission rate of the emitted light. In the weak optomechanical singlephoton coupling regime, we establish a simple relation between the output light spectrum and the reservoir spectral density. This provide a straightforward and effective way for reconstructing the spectral density profile in single or even multiple decoherence channels.
翻訳日:2023-04-29 13:39:25 公開日:2020-10-09
# 非適応グローバー反復による量子近似計算

Quantum Approximate Counting with Nonadaptive Grover Iterations ( http://arxiv.org/abs/2010.04370v1 )

ライセンス: Link先を確認
Ramgopal Venkateswaran and Ryan O'Donnell(参考訳) 近似カウントは、関数 $f : [n] \to \{0,1\}$ へのクエリアクセスが与えられた問題を指しており、クエリ数を最小化しながら、$k = #\{x : f(x) = 1\}$ を 1+\epsilon$ (高い確率で) の係数内に見積もることを望んでいる。 量子設定では、近似カウントは$O\left(\min\left(\sqrt{N/\epsilon}, \sqrt{N/K}/\epsilon\right)\right)$クエリで行うことができる。 近年、この手法は「Grover iterations」のみを使用する単純なアルゴリズムで実現できることが示されているが、アルゴリズムはこれらの反復を適応的に実行する。 計算の単純さに関する懸念から、適応性に制限のあるGrover繰り返しを使用するアルゴリズムを考える。 我々は,非適応的なGrover反復のみを用いるアルゴリズムが$O\left(\sqrt{N/\epsilon}\right)$クエリ複雑性を達成可能であることを示す。

Approximate Counting refers to the problem where we are given query access to a function $f : [N] \to \{0,1\}$, and we wish to estimate $K = #\{x : f(x) = 1\}$ to within a factor of $1+\epsilon$ (with high probability), while minimizing the number of queries. In the quantum setting, Approximate Counting can be done with $O\left(\min\left(\sqrt{N/\epsilon}, \sqrt{N/K}/\epsilon\right)\right)$ queries. It has recently been shown that this can be achieved by a simple algorithm that only uses "Grover iterations"; however the algorithm performs these iterations adaptively. Motivated by concerns of computational simplicity, we consider algorithms that use Grover iterations with limited adaptivity. We show that algorithms using only nonadaptive Grover iterations can achieve $O\left(\sqrt{N/\epsilon}\right)$ query complexity, which is tight.
翻訳日:2023-04-29 13:38:41 公開日:2020-10-09
# アインシュタイン-ポドルスキー-ローゼンエンタングルメントと遠距離マクロメカニカル・マグノン系の非対称ステアリング

Einstein-Podolsky-Rosen entanglement and asymmetric steering between distant macroscopic mechanical and magnonic systems ( http://arxiv.org/abs/2010.04357v1 )

ライセンス: Link先を確認
Huatang Tan and Jie Li(参考訳) 約10ギガヘルツの周波数差を有する遠イットリウム鉄ガーネット(YIG)球体において, マクロメカニカル発振器とマグノンモードとのハイブリッドアインシュタイン-ポドルスキー-ローゼン(EPR)絡み合いチャネルを確立するための決定論的手法を提案する。 このシステムは、YIG球が配置される内部の遠方の電磁キャビティに一方向結合された駆動電気機械キャビティからなる。 電気機械的サブシステムにおけるサイドバンド分解機構をはるかに超えて、定常フォノン-マグノンEPRエンタングルメントを実現することができる。 これは、電気機械的エンタングルメントをマグノンに分配する仲介体である電気機械的キャビティの出力場を利用して、リモートフォノン-マグノンエンタングルメントを確立することで実現される。 EPRの絡み合いは十分に強く、フォノン-マグノン量子ステアリングは非対称な方法で達成できる。 この長距離マクロスコープハイブリッドEPRエンタングルメントとステアリングは、マクロスケールでの量子力学の基礎的なテストだけでなく、量子ネットワークやマグノニクスと電気力学に基づく片側デバイス非依存の量子暗号にも応用できる。

We propose a deterministic scheme for establishing hybrid Einstein-Podolsky-Rosen (EPR) entanglement channel between a macroscopic mechanical oscillator and a magnon mode in a distant yttrium-iron-garnet (YIG) sphere across about ten gigahertz of frequency difference. The system consists of a driven electromechanical cavity which is unidirectionally coupled to a distant electromagnonical cavity inside which a YIG sphere is placed. We find that far beyond the sideband-resolved regime in the electromechanical subsystem, stationary phonon-magnon EPR entanglement can be achieved. This is realized by utilizing the output field of the electromechanical cavity being an intermediary which distributes the electromechanical entanglement to the magnons, thus establishing a remote phonon-magnon entanglement. The EPR entanglement is strong enough such that phonon-magnon quantum steering can be attainable in an asymmetric manner. This long-distance macroscopic hybrid EPR entanglement and steering enable potential applications not only in fundamental tests of quantum mechanics at the macro scale, but also in quantum networking and one-sided device-independent quantum cryptography based on magnonics and electromechanics.
翻訳日:2023-04-29 13:38:20 公開日:2020-10-09
# 光格子におけるボース・アインシュタイン凝縮体の擬時間-逆対称性保護トポロジーボゴリューボフ励起

Pseudo-time-reversal-symmetry-protected topological Bogoliubov excitations of Bose-Einstein condensates in optical lattices ( http://arxiv.org/abs/2010.04342v1 )

ライセンス: Link先を確認
Junsen Wang, Wei Zheng and Youjin Deng(参考訳) 光学格子中のボース・アインシュタイン凝縮体のボゴリューボフ励起はフェルミオンのクラスaiiの位相絶縁体に似たバンドトポロジーを持つ。 クライン空間論の言語を用いて、この位相的性質は擬反ユニタリで平方が$-1$となる擬時間反転対称性によって保護され、関連するバルク位相不変量は$\mathbb Z_2$指数でもある。 我々は、パフィアン、擬時間反転分極、そして最も実際的なワニエ中心流に関する3つの等価な式を構築し、これらは全てフェルミオンの場合から採用され、擬似内積に関してここで定義される。 追加の擬単項および擬エルミート反転対称性が存在する場合、より単純な式が導出される。 次に、冷間原子プラットフォーム上で実現可能な2つのおもちゃモデルについて検討し、バルク境界対応を数値的に確認する。 本研究で開発されたクライン空間アプローチは、あらゆる種類の対称性保護位相ボソニックボゴリューボバンドを研究する普遍的形式論である。

Bogoliubov excitations of Bose-Einstein condensates in optical lattices may possess band topology in analogous to topological insulators in class AII of fermions. Using the language of the Krein-space theory, this topological property is shown to be protected by a pseudo-time-reversal symmetry that is pseudo-antiunitary and squares to $-1$, with the associated bulk topological invariant also being a $\mathbb Z_2$ index. We construct three equivalent expressions for it, relating to the Pfaffian, the pseudo-time-reversal polarization, and most practically, the Wannier center flow, all adopted from the fermionic case, defined here with respect to the pseudo inner product. In the presence of an additional pseudo-unitary and pseudo-Hermitian inversion symmetry, a simpler expression is derived. We then study two toy models feasible on cold atom platforms to numerically confirm the bulk-boundary correspondence. The Krein-space approach developed in this work is a universal formalism to study all kinds of symmetry-protected topological bosonic Bogoliubov bands.
翻訳日:2023-04-29 13:37:53 公開日:2020-10-09
# 匿名量子会議キーアグリーメント

Anonymous Quantum Conference Key Agreement ( http://arxiv.org/abs/2010.04534v1 )

ライセンス: Link先を確認
Frederik Hahn, Jarn de Jong and Anna Pappa(参考訳) カンファレンスキーアグリーメント(cka)は、複数の当事者が共有秘密鍵を確立するための暗号化作業である。 将来の量子ネットワークでは、秘密鍵を匿名で生成することは、共有鍵を秘密にし、同時に自身のアイデンティティを保護するために非常に重要である。 本稿では,一般的なプロトコルの匿名性を定義し,現実的なシナリオ下では確実に匿名であるCKAプロトコルを提案する。 我々は、ckaプロトコルの効率的なリソースとして提案されている共有greenberger-horne-zeilinger状態に基づいている。 マルチパーティの絡み合った状態に基づくセキュアで匿名なプロトコルの存在は、リソースとしての可能性に対する新たな洞察を与え、さらなるアプリケーションへの道を開く。

Conference Key Agreement (CKA) is a cryptographic effort of multiple parties to establish a shared secret key. In future quantum networks, generating secret keys in an anonymous way is of tremendous importance for parties that want to keep their shared key secret and at the same time protect their own identity. We provide a definition of anonymity for general protocols and present a CKA protocol that is provably anonymous under realistic adversarial scenarios. We base our protocol on shared Greenberger-Horne-Zeilinger states, which have been proposed as more efficient resources for CKA protocols, compared to bipartite entangled resources. The existence of secure and anonymous protocols based on multipartite entangled states provides a new insight on their potential as resources and paves the way for further applications.
翻訳日:2023-04-29 13:31:06 公開日:2020-10-09
# Group-2原子イオンに対する波長非感受性多種ゲート

A Wavelength-Insensitive, Multispecies Entangling Gate for Group-2 Atomic Ions ( http://arxiv.org/abs/2010.04526v1 )

ライセンス: Link先を確認
Brian C. Sawyer and Kenton R. Brown(参考訳) 同一または異種アルカリ土類原子イオン(^{40}\text{Ca}^+$, $^{88}\text{Sr}^+$, $^{138}\text{Ba}^+$, $^{226}\text{Ra}^+$)間の絡み合いを発生させる光学的手法を提案する。 また,多種間の絡み合いに最も軽い2つのgroup-2イオン(\text{be}^+$,$\text{mg}^+$)を含むように,この技術の簡単な拡張についても論じる。 この波長不感な幾何学的位相ゲートの鍵となる要素は、地上(S_{1/2}$)と準安定(D_{5/2}$)の電子状態が、$\sigma^z \sigma^z$光シフトエンタングゲート内の量子ビットレベルとして用いられることである。 本稿では,光子散乱と自発的発光のデコヒーレンスを含むこのゲートスキームの原理と基本的な誤差源の詳細な解析を行い,イオン対のソートのために光スペクトル(300 nmから2 $\mu \text{m}$)の大部分の固定レーザービーム強度における2量子ゲート誤差率と持続時間を計算する。 本手法の利点と欠点を従来の閉じ込めイオン絡みゲートと比較し,その量子情報処理およびシミュレーションへの応用について,等種多種イオン結晶を用いて論じる。

We propose an optical scheme for generating entanglement between co-trapped identical or dissimilar alkaline earth atomic ions ($^{40}\text{Ca}^+$, $^{88}\text{Sr}^+$, $^{138}\text{Ba}^+$, $^{226}\text{Ra}^+$) which exhibits fundamental error rates below $10^{-4}$ and can be implemented with a broad range of laser wavelengths spanning from ultraviolet to infrared. We also discuss straightforward extensions of this technique to include the two lightest Group-2 ions ($\text{Be}^+$, $\text{Mg}^+$) for multispecies entanglement. The key elements of this wavelength-insensitive geometric phase gate are the use of a ground ($S_{1/2}$) and a metastable ($D_{5/2}$) electronic state as the qubit levels within a $\sigma^z \sigma^z$ light-shift entangling gate. We present a detailed analysis of the principles and fundamental error sources for this gate scheme which includes photon scattering and spontaneous emission decoherence, calculating two-qubit-gate error rates and durations at fixed laser beam intensity over a large portion of the optical spectrum (300 nm to 2 $\mu \text{m}$) for an assortment of ion pairs. We contrast the advantages and disadvantages of this technique against previous trapped-ion entangling gates and discuss its applications to quantum information processing and simulation with like and multispecies ion crystals.
翻訳日:2023-04-29 13:30:32 公開日:2020-10-09
# 2状態問題における$\delta$-関数結合の遷移時間推定:解析的可解モデル

Transition time estimation for $\delta$-function coupling in two state problem: An analytically solvable model ( http://arxiv.org/abs/2010.04497v1 )

ライセンス: Link先を確認
Mayank Vashistha, Chinmoy Samanta, Aniruddha Chakraborty(参考訳) V_{12}=V_{21}=k_0 \delta(x)$で2つの定数ポテンシャルを結合する2状態散乱問題における遷移時間を計算するための簡単な方法を提案する。 遷移時の正確な解析式$\tau$ は導出される。 我々は、$\tau$が2番目の状態のポテンシャルエネルギーと入射エネルギーと結合強度に明確に依存していることに気付く。 また、初期エネルギーに依存する$\tau$の導出式から、結合ポテンシャルは単一状態の等価な記述において入射波に対して透明または不透明な媒質として振る舞うことができる。

We propose a simple method to calculate transition time in a two-state scattering problem, where two constant potentials are coupled by a delta function potential $V_{12}=V_{21}=k_0 \delta(x)$. The exact analytical expression for the time of transition $\tau$ is derived. We notice $\tau$ explicitly depends on the second state's potential energy along with the incident energy and coupling strength. We also observe from the derived expression of $\tau$ that depending on the initial energy, the coupling potential could behave like a transparent or opaque medium to the incident wave in a single state equivalent description.
翻訳日:2023-04-29 13:29:31 公開日:2020-10-09
# 位置依存効用質量と角周波数Schr\"odinger方程式の厳密解:量子化閉じ込めパラメータを持つ調和振動子モデル

Exact solution of the position-dependent effective mass and angular frequency Schr\"odinger equation: harmonic oscillator model with quantized confinement parameter ( http://arxiv.org/abs/2010.04477v1 )

ライセンス: Link先を確認
E.I. Jafarov, S.M. Nagiyev, R. Oste and J. Van der Jeugt(参考訳) 我々は,非相対論的量子調和振動子の閉じ込めたモデルの厳密な解を示し,有効質量と角周波数は位置に依存することを示した。 提案されたモデルの自由ハミルトニアンは、ベンダニエル-デューク運動エネルギー作用素の形式を持つ。 質量と角周波数の位置依存性は、調和振動子力定数$k$の均質性であり、したがって正の調和振動子ポテンシャルが保存される。 その結果、閉じ込めパラメータの量子化が観測される。 位置依存質量と角周波数を持つ制限調和振動子の離散エネルギースペクトルは有限であり、非等角形を持ち、閉じ込めパラメータに依存することが示されている。 位置依存質量と角周波数を持つ閉じ込められた振動子の定常状態の波動関数は、関連するルジャンドル多項式やゲゲンバウアー多項式で表される。 閉じ込めパラメータが$\infty$となる極限では、エネルギースペクトルと波動関数の両方がよく知られた等距離エネルギースペクトルに収束し、ヘルミート多項式で表される定常非相対論的調和振動子の波動関数となる。 位置依存的な有効質量と角周波数も、この制限の下で一定となる。

We present an exact solution of a confined model of the non-relativistic quantum harmonic oscillator, where the effective mass and the angular frequency are dependent on the position. The free Hamiltonian of the proposed model has the form of the BenDaniel--Duke kinetic energy operator. The position-dependency of the mass and the angular frequency is such that the homogeneous nature of the harmonic oscillator force constant $k$ and hence the regular harmonic oscillator potential is preserved. As a consequence thereof, a quantization of the confinement parameter is observed. It is shown that the discrete energy spectrum of the confined harmonic oscillator with position-dependent mass and angular frequency is finite, has a non-equidistant form and depends on the confinement parameter. The wave functions of the stationary states of the confined oscillator with position-dependent mass and angular frequency are expressed in terms of the associated Legendre or Gegenbauer polynomials. In the limit where the confinement parameter tends to $\infty$, both the energy spectrum and the wave functions converge to the well-known equidistant energy spectrum and the wave functions of the stationary non-relativistic harmonic oscillator expressed in terms of Hermite polynomials. The position-dependent effective mass and angular frequency also become constant under this limit.
翻訳日:2023-04-29 13:28:58 公開日:2020-10-09
# facebookの広告:イタリア移民の政治

Facebook Ads: Politics of Migration in Italy ( http://arxiv.org/abs/2010.04458v1 )

ライセンス: Link先を確認
Arthur Capozzi, Gianmarco De Francisci Morales, Yelena Mejova, Corrado Monti, Andre Panisson, Daniela Paolotti(参考訳) ターゲットとするオンライン広告は政治コミュニケーションの最前線にあり、選挙や問題に関する超ローカル広告キャンペーンを可能にする。 本研究では、イタリアにおける移民問題に関する広告を調べるために、政治広告監視(Facebook Ads Library)に新たなリソースを投入する。 イタリアの政治において重要な話題であり、近年はいくつかのポピュリスト運動に焦点を合わせており、ソーシャルメディアを有権者のエンゲージメントの強力なツールとして採用している者もいる。 実際、地理と人口統計(年齢と性別)の両面で、当事者が標的にしている証拠が見つかった。 例えば、移民に関する広告では5つ星のムーブメントが若いオーディエンスにリーチし、他のパーティーの広告ではこの問題に関する広告のオーディエンスが男性よりも多い。 また、選挙に関する広告量の増加や、一般視聴者へのシフトも顕著だ。 そこで本研究では,潜在的に脆弱な人々の話題に対する世論に影響を与えやすい政治広告のターゲティングを示すとともに,オンライン広告を公衆談話の監視に含めるよう研究コミュニティに促す。

Targeted online advertising is on the forefront of political communication, allowing hyper-local advertising campaigns around elections and issues. In this study, we employ a new resource for political ad monitoring -- Facebook Ads Library -- to examine advertising concerning the issue of immigration in Italy. A crucial topic in Italian politics, it has recently been a focus of several populist movements, some of which have adopted social media as a powerful tool for voter engagement. Indeed, we find evidence of targeting by the parties both in terms of geography and demographics (age and gender). For instance, Five Star Movement reaches a younger audience when advertising about immigration, while other parties' ads have a more male audience when advertising on this issue. We also notice a marked rise in advertising volume around elections, as well as a shift to more general audience. Thus, we illustrate political advertising targeting that likely has an impact on public opinion on a topic involving potentially vulnerable populations, and urge the research community to include online advertising in the monitoring of public discourse.
翻訳日:2023-04-29 13:28:37 公開日:2020-10-09
# 解釈可能かつ教師なし位相分類

Interpretable and unsupervised phase classification ( http://arxiv.org/abs/2010.04730v1 )

ライセンス: Link先を確認
Julian Arnold, Frank Sch\"afer, Martin \v{Z}onda, and Axel U. J. Lode(参考訳) 位相図への直接的な物理的洞察をもたらす完全な自動分類手法が、現在関心を集めている。 本稿では,その最適予測の解析的導出によって解釈可能な位相分類のための教師なし機械学習手法を示し,順序パラメータの自動構築手法を提案する。 これらの結果に基づき,平均入力特徴の差異に依存する,物理的に動機づけられたデータ駆動スキームを提案し,適用する。 この平均的手法は計算的に安価で直接解釈可能である。 一例として、スピンレスのファリコフ・キンボールモデルの物理的にリッチな基底状態相図を考える。

Fully automated classification methods that yield direct physical insights into phase diagrams are of current interest. Here, we demonstrate an unsupervised machine learning method for phase classification which is rendered interpretable via an analytical derivation of its optimal predictions and allows for an automated construction scheme for order parameters. Based on these findings, we propose and apply an alternative, physically-motivated, data-driven scheme which relies on the difference between mean input features. This mean-based method is computationally cheap and directly interpretable. As an example, we consider the physically rich ground-state phase diagram of the spinless Falicov-Kimball model.
翻訳日:2023-04-29 13:21:40 公開日:2020-10-09
# エネルギー関連マイクロモーメント・レコメンデーションを活用した消費習慣の再構築 : 事例研究

Reshaping consumption habits by exploiting energy-related micro-moment recommendations: A case study ( http://arxiv.org/abs/2010.04693v1 )

ライセンス: Link先を確認
Christos Sardianos and Iraklis Varlamis and Christos Chronis and George Dimitrakopoulos and Abdullah Alsalemi and Yassine Himeur and Faycal Bensaali and Abbes Amira(参考訳) 環境の変化とその影響は、過去10年間の人間の影響と自然生態学的プロセスによって引き起こされ、エネルギー消費行動のより持続可能なモデルに移行することは、今やこれまで以上に慎重であることが証明されている。 ユーザのエネルギー消費は、ユーザの日常的な消費習慣を形作る生活の時間的標準から導かれる。 この研究は、消費ログから繰り返し使用される消費パターンの検出に基づいている。 オフィス環境におけるセンサ, スマートメーター, アクチュエータのセットを使用し, 特定のユーザ習慣をターゲットとしたエネルギー消費削減システムの構造と運用について述べる。 エネルギー関連マイクロモーメントレコメンデーションの価値に関するこれまでの研究結果から, 実装システムは不要なエネルギー消費を回避する統合的なソリューションである。 メッセージングapiを使用することで、システムは適切な瞬間に適切な省エネアクションをユーザに推奨し、ユーザーの習慣を徐々に形作る。 このソリューションは、オフィス機器を制御する自動化の定義を可能にするhome assistantオープンソースプラットフォームに実装されている。 いくつかのシナリオによる実験的評価では、システムが第一にエネルギー消費を減らし、第二に、より持続可能なエネルギー消費習慣に促す可能性があるユーザーの行動をトリガーする。

The environmental change and its effects, caused by human influences and natural ecological processes over the last decade, prove that it is now more prudent than ever to transition to more sustainable models of energy consumption behaviors. User energy consumption is inductively derived from the time-to-time standards of living that shape the user's everyday consumption habits. This work builds on the detection of repeated usage consumption patterns from consumption logs. It presents the structure and operation of an energy consumption reduction system, which employs a set of sensors, smart-meters and actuators in an office environment and targets specific user habits. Using our previous research findings on the value of energy-related micro-moment recommendations, the implemented system is an integrated solution that avoids unnecessary energy consumption. With the use of a messaging API, the system recommends to the user the proper energy saving action at the right moment and gradually shapes user's habits. The solution has been implemented on the Home Assistant open source platform, which allows the definition of automations for controlling the office equipment. Experimental evaluation with several scenarios shows that the system manages first to reduce energy consumption, and second, to trigger users' actions that could potentially urge them to more sustainable energy consumption habits.
翻訳日:2023-04-29 13:21:32 公開日:2020-10-09
# ランダム状態技術

Random State Technology ( http://arxiv.org/abs/2010.04621v1 )

ライセンス: Link先を確認
Fengping Jin, Dennis Willsch, Madita Willsch, Hannes Lagemann, Kristel Michielsen, Hans De Raedt(参考訳) 我々は,ランダム状態の利用に基づく数値シミュレーション手法の数学的基礎を,自己完結的にレビューし,拡張する。 このシミュレーション技術のパワーと汎用性は、大きな単一粒子系の状態の密度、比熱、電流-電流相関、密度-密度相関、多体系の電子スピン共鳴スペクトルといった物理的に関係のある性質の計算によって示される。 本研究では, 雑音中規模量子プロセッサ上での量子超越性を実現するため, 数値シミュレーションや実験を解析できることを示すことにより, ランダム状態技術の新たな応用分野を探究する。 さらに,量子情報理論においてランダム状態技術の概念が有効であることを示す。

We review and extend, in a self-contained way, the mathematical foundations of numerical simulation methods that are based on the use of random states. The power and versatility of this simulation technology is illustrated by calculations of physically relevant properties such as the density of states of large single particle systems, the specific heat, current-current correlations, density-density correlations, and electron spin resonance spectra of many-body systems. We explore a new field of applications of the random state technology by showing that it can be used to analyze numerical simulations and experiments that aim to realize quantum supremacy on a noisy intermediate-scale quantum processor. Additionally, we show that concepts of the random state technology prove useful in quantum information theory.
翻訳日:2023-04-29 13:20:36 公開日:2020-10-09
# クラウド上でのデータベース(講義)ストリーム : パンデミック時の下級データベース講師の指導に関する経験報告

Database (Lecture) Streams on the Cloud: An Experience Report on Teaching an Undergrad Database Lecture during a Pandemic ( http://arxiv.org/abs/2010.07011v1 )

ライセンス: Link先を確認
Jens Dittrich, Marcel Maltry(参考訳) 本報告は,2020年夏期におけるサーランド大学におけるビッグデータ工学の授業実践に関する経験報告である。 私たちは、私たちの教えの哲学、使用するツール、何が機能し、何がうまくいかなかったかを説明します。 学生から非常に肯定的なフィードバックを受けながら、将来的には、他の講義にも同様の授業モデルを使い続けます。

This is an experience report on teaching the undergrad lecture Big Data Engineering at Saarland University in summer term 2020 online. We describe our teaching philosophy, the tools used, what worked and what did not work. As we received extremely positive feedback from the students, in the future, we will continue to use the same teaching model for other lectures.
翻訳日:2023-04-29 13:11:42 公開日:2020-10-09
# イエメン大学におけるeラーニングへの学生の対応

Students Readiness for E-learning in the Universities in Yemen ( http://arxiv.org/abs/2010.04830v1 )

ライセンス: Link先を確認
Adnan Sharaf Ali Yousef Al-Absi, Ivelina Peneva, Krasimir Yordzhev(参考訳) eラーニングは伝統的な教育の先進的なバージョンである。 これは、現代のコンピュータネットワークやマルチメディアのコミュニケーションメカニズム、音声、画像、グラフィック、電子図書館やwebポータルを検索するメカニズム、遠隔学習の文脈でも教室でも、学習の方法として定義されている。 ウェブ支援教育への移行に携わる人々は、行政スタッフ、教員、学生である。 それらはすべてニーズを持っていて、移行を促進するために、すべて特定の要件を満たすべきです。 本稿は,イエメン大学におけるeラーニングに対する学生の意識調査の結果を報告する。

The e-learning is an advanced version of traditional education. It is defined as a way of learning by using the communication mechanisms of modern computer networks and multimedia, including voice, image, and graphics and mechanisms to search electronic libraries, as well as web portals, whether in the context of distance learning or in the classroom. The people who engage in the transition to web-supported education are the administrative staff, the faculty, and the students. They all have their needs and they all should meet specific requirements in order to facilitate the transition. The article presents the results of questionnaire research of the students readiness for e-learning in Yemeni universities.
翻訳日:2023-04-29 13:10:58 公開日:2020-10-09
# デコヒーレンス:数値的研究

Decoherence: A Numerical Study ( http://arxiv.org/abs/2010.04803v1 )

ライセンス: Link先を確認
Chris Nagele, Oliver Janssen and Matthew Kleban(参考訳) 本研究では、相対論的量子場理論を環境に結合した測定装置に結合したシステムにおいて、量子デコヒーレンスを数値的に研究する。 測定装置と環境は、量子非相対論的粒子として扱われる。 この3成分系の波動関数に対するschr\"odinger方程式を完全対角化を用いて解く。 ヒルベルト空間の大きさに関する計算上の制限は、デバイスと環境が真に巨視的な自由度数からなるような領域を探索することを妨げるが、しかしながら、デコヒーレンスの明確な証拠がある: 環境を追跡した後、システムと測定装置を記述する密度行列は、ポインター状態のサブ空間で対角に近い行列へと急速に進化する。

We study quantum decoherence numerically in a system consisting of a relativistic quantum field theory coupled to a measuring device that is itself coupled to an environment. The measuring device and environment are treated as quantum, non-relativistic particles. We solve the Schr\"odinger equation for the wave function of this tripartite system using exact diagonalization. Although computational limitations on the size of the Hilbert space prevent us from exploring the regime where the device and environment consist of a truly macroscopic number of degrees of freedom, we nevertheless see clear evidence of decoherence: after tracing out the environment, the density matrix describing the system and measuring device evolves quickly towards a matrix that is close to diagonal in a subspace of pointer states.
翻訳日:2023-04-29 13:10:07 公開日:2020-10-09
# 光時計のライドバーグドレッシングによるスピンスクイーズに及ぼすランダム充填の影響

Impacts of random filling on spin squeezing via Rydberg dressing in optical clocks ( http://arxiv.org/abs/2010.04776v1 )

ライセンス: Link先を確認
Jacques Van Damme, Xin Zheng, Mark Saffman, Maxim G. Vavilov, and Shimon Kolkowitz(参考訳) ランダムな分数充填を有する光学格子時計におけるRydbergドレッシングによるスピンスクイーズの解析を行った。 我々は, 異なる格子構造における達成可能なクロックの安定性を比較し, 単位充填ツイーザクロックアレイや, 寸法の異なる分数充填格子クロックなどを比較した。 ライドバーグ装束スピンスクイージングの実験的実装を支援するために,近似解析式と適合関数という形での実用的考察と有用なツールを提供する。 我々は,1次元,2次元,3次元の光学格子を用いたRydbergドレッシングによるスピンスクイージングが,ランダムな分数充填の存在下での安定性を著しく向上することを示した。

We analyze spin squeezing via Rydberg dressing in optical lattice clocks with random fractional filling. We compare the achievable clock stability in different lattice geometries, including unity-filled tweezer clock arrays and fractionally filled lattice clocks with varying dimensionality. We provide practical considerations and useful tools in the form of approximate analytical expressions and fitting functions to aid in the experimental implementation of Rydberg-dressed spin squeezing. We demonstrate that spin squeezing via Rydberg dressing in one-, two-, and three-dimensional optical lattices can provide significant improvements in stability in the presence of random fractional filling.
翻訳日:2023-04-29 13:09:41 公開日:2020-10-09
# UK Biobank body MRIにおける解釈型ニューラルネットワーク回帰を用いた大規模バイオメトリ

Large-scale biometry with interpretable neural network regression on UK Biobank body MRI ( http://arxiv.org/abs/2002.06862v3 )

ライセンス: Link先を確認
Taro Langner, Robin Strand, H{\aa}kan Ahlstr\"om, Joel Kullberg(参考訳) 大規模な医学検査で、英国バイオバンクの研究は、MRI(MRI)で32,000人以上のボランティア参加者を画像化した。 各スキャンは広範なメタデータにリンクされ、画像化された解剖学的および関連する健康状態に関する包括的な医療調査を提供する。 研究の可能性にもかかわらず、この膨大なデータは、しばしば手入力に依存する評価方法の確立に挑戦している。 現在までに、循環器および代謝危険因子の基準値の範囲は不完全である。 この研究では、ネック・トゥ・クニー・ボディMRIから様々な生物学的指標を自動的に推測するために、画像に基づく回帰のためにニューラルネットワークを訓練した。 このアプローチでは、トレーニングのために手作業による介入や参照セグメンテーションへの直接アクセスは不要である。 検討対象は, 人体計測, 二重エネルギーX線吸収率(DXA), アトラス系セグメンテーション, 専用肝スキャンから得られた64変数である。 ResNet50では、標準化されたフレームワークは、クロスバリデーションにおいてターゲット値(中間R^2 > 0.97)によく適合する。 集計されたサリエンシマップの解釈は、ネットワークが特定の身体領域や手足を正しくターゲットし、異なるモダリティをエミュレートすることを学ぶことを示唆している。 いくつかの体組成指標において、予測の質は確立された金標準技術間で観察される変動範囲内である。

In a large-scale medical examination, the UK Biobank study has successfully imaged more than 32,000 volunteer participants with magnetic resonance imaging (MRI). Each scan is linked to extensive metadata, providing a comprehensive medical survey of imaged anatomy and related health states. Despite its potential for research, this vast amount of data presents a challenge to established methods of evaluation, which often rely on manual input. To date, the range of reference values for cardiovascular and metabolic risk factors is therefore incomplete. In this work, neural networks were trained for image-based regression to infer various biological metrics from the neck-to-knee body MRI automatically. The approach requires no manual intervention or direct access to reference segmentations for training. The examined fields span 64 variables derived from anthropometric measurements, dual-energy X-ray absorptiometry (DXA), atlas-based segmentations, and dedicated liver scans. With the ResNet50, the standardized framework achieves a close fit to the target values (median R^2 > 0.97) in cross-validation. Interpretation of aggregated saliency maps suggests that the network correctly targets specific body regions and limbs, and learned to emulate different modalities. On several body composition metrics, the quality of the predictions is within the range of variability observed between established gold standard techniques.
翻訳日:2022-12-31 12:45:18 公開日:2020-10-09
# DSACを用いたRGBおよびRGB-D画像からの視覚カメラ再ローカライゼーション

Visual Camera Re-Localization from RGB and RGB-D Images Using DSAC ( http://arxiv.org/abs/2002.12324v4 )

ライセンス: Link先を確認
Eric Brachmann and Carsten Rother(参考訳) 本稿では,既知の環境に対する単一入力画像から,カメラの位置と向きを推定する学習ベースシステムについて述べる。 システムは柔軟で、テスト時とトレーニング時に利用可能な情報の量であり、異なるアプリケーションに対応している。 入力画像はRGB-DやRGBでもよいし、環境の3Dモデルはトレーニングに利用できるが、必要ではない。 最小限の場合、我々のシステムは訓練時にRGB画像と地上の真実ポーズのみを必要とし、テスト時に1枚のRGB画像しか必要としない。 このフレームワークはディープニューラルネットワークと、完全に微分可能なポーズ最適化で構成されている。 ニューラルネットワークは、入力画像と環境の3Dシーン空間との間の密接な対応を、いわゆるシーン座標を予測する。 ポーズ最適化は、エンドツーエンドのトレーニングを容易にするために、微分可能なRANSAC(DSAC)を使用して、ポーズパラメータの堅牢なフィッティングを実装している。 DSAC++を拡張してDSAC*と呼ばれるこのシステムは、RGBベースの再ローカライゼーションのための様々な公開データセットの最先端精度と、RGB-Dベースの再ローカライゼーションのための競合精度を達成する。

We describe a learning-based system that estimates the camera position and orientation from a single input image relative to a known environment. The system is flexible w.r.t. the amount of information available at test and at training time, catering to different applications. Input images can be RGB-D or RGB, and a 3D model of the environment can be utilized for training but is not necessary. In the minimal case, our system requires only RGB images and ground truth poses at training time, and it requires only a single RGB image at test time. The framework consists of a deep neural network and fully differentiable pose optimization. The neural network predicts so called scene coordinates, i.e. dense correspondences between the input image and 3D scene space of the environment. The pose optimization implements robust fitting of pose parameters using differentiable RANSAC (DSAC) to facilitate end-to-end training. The system, an extension of DSAC++ and referred to as DSAC*, achieves state-of-the-art accuracy an various public datasets for RGB-based re-localization, and competitive accuracy for RGB-D-based re-localization.
翻訳日:2022-12-28 07:55:12 公開日:2020-10-09
# 逐次潜在表現学習によるエンドツーエンドの自律走行知覚

End-to-end Autonomous Driving Perception with Sequential Latent Representation Learning ( http://arxiv.org/abs/2003.12464v2 )

ライセンス: Link先を確認
Jianyu Chen, Zhuo Xu and Masayoshi Tomizuka(参考訳) 現在の自律運転システムは認識システムと意思決定システムから構成されている。 どちらも、多くの人間のヒューリスティックで構築された複数のサブシステムに分割されている。 エンドツーエンドのアプローチは、システムをクリーンアップし、人間のエンジニアリングの膨大な労力を回避し、データや計算資源を増やすことでより良いパフォーマンスを得る。 意思決定システムと比較して、知覚システムは、オンライン運転探索を必要としないため、エンドツーエンドのフレームワークで設計する方が適している。 本稿では,自律運転認識のためのエンドツーエンドアプローチを提案する。 逐次的潜在表現学習を通じて学習される知覚に有用な全ての関連する特徴を捉えるために潜在空間が導入された。 学習されたエンド・ツー・エンドの知覚モデルは、地図をオンラインに保存することなく、最小限の人間工学的努力だけで、検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。 提案手法は,カメラ画像とライダー点雲の両方をセンサ入力として,現実的な都市運転シミュレータで評価する。 この作業のコードとビデオは、githubリポジトリおよびプロジェクトのwebサイトから入手できます。

Current autonomous driving systems are composed of a perception system and a decision system. Both of them are divided into multiple subsystems built up with lots of human heuristics. An end-to-end approach might clean up the system and avoid huge efforts of human engineering, as well as obtain better performance with increasing data and computation resources. Compared to the decision system, the perception system is more suitable to be designed in an end-to-end framework, since it does not require online driving exploration. In this paper, we propose a novel end-to-end approach for autonomous driving perception. A latent space is introduced to capture all relevant features useful for perception, which is learned through sequential latent representation learning. The learned end-to-end perception model is able to solve the detection, tracking, localization and mapping problems altogether with only minimum human engineering efforts and without storing any maps online. The proposed method is evaluated in a realistic urban driving simulator, with both camera image and lidar point cloud as sensor inputs. The codes and videos of this work are available at our github repo and project website.
翻訳日:2022-12-21 10:15:28 公開日:2020-10-09
# 誤り訂正出力符号に基づくDNNの対向ロバスト性の改善

Challenging the adversarial robustness of DNNs based on error-correcting output codes ( http://arxiv.org/abs/2003.11855v2 )

ライセンス: Link先を確認
Bowen Zhang, Benedetta Tondi, Xixiang Lv and Mauro Barni(参考訳) 敵対的な例の存在とそれらが生成可能な容易性は、ディープラーニングシステムに関するセキュリティ上の懸念を提起し、研究者に適切な防御機構の開発を促す。 誤り訂正出力符号(ECOC)を採用したネットワークの利用は、最近ホワイトボックス設定における逆例の生成に対抗するために提案されている。 本稿では,ECOC法により達成された敵の強靭性について詳細な調査を行う。 私たちはECOCベースのようなマルチラベル分類アーキテクチャ用に設計された新しい敵攻撃を提案し、既存の2つの攻撃を適用します。 従来の分析結果とは対照的に,小対向摂動を導入することでECOCベースのネットワークを極めて容易に攻撃できることが判明した。 さらに、予測対象クラスの高い確率を達成するために、逆例を生成することができるため、予測信頼度を用いて検出することが困難となる。 本研究は, MNIST, CIFAR-10, GTSRB分類タスクで得られた実験結果から得られた。

The existence of adversarial examples and the easiness with which they can be generated raise several security concerns with regard to deep learning systems, pushing researchers to develop suitable defense mechanisms. The use of networks adopting error-correcting output codes (ECOC) has recently been proposed to counter the creation of adversarial examples in a white-box setting. In this paper, we carry out an in-depth investigation of the adversarial robustness achieved by the ECOC approach. We do so by proposing a new adversarial attack specifically designed for multi-label classification architectures, like the ECOC-based one, and by applying two existing attacks. In contrast to previous findings, our analysis reveals that ECOC-based networks can be attacked quite easily by introducing a small adversarial perturbation. Moreover, the adversarial examples can be generated in such a way to achieve high probabilities for the predicted target class, hence making it difficult to use the prediction confidence to detect them. Our findings are proven by means of experimental results obtained on MNIST, CIFAR-10 and GTSRB classification tasks.
翻訳日:2022-12-19 22:06:45 公開日:2020-10-09
# ミスマッチ画像パイプラインにおけるprnu指紋変動の実験的評価

Empirical Evaluation of PRNU Fingerprint Variation for Mismatched Imaging Pipelines ( http://arxiv.org/abs/2004.01929v2 )

ライセンス: Link先を確認
Sharad Joshi, Pawel Korus, Nitin Khanna, Nasir Memon(参考訳) PRNUをベースとしたカメラ指紋と画像パイプライン(例えば、異なるカメラISPやデジタル暗室ソフトウェア)の適合性を評価する。 この設定ではカメラ指紋が非無視的な変化を示しており、実世界のユースケースにおける検出統計の予期せぬ劣化につながる可能性がある。 標準のデジタルダークルームソフトウェアと最近のニューラルネットワークを含む13のパイプラインをテストした。 一致しないパイプラインからの指紋の相関は平均0.38に低下し、PCE検出統計は40%以上低下した。 誤差率の低下は、写真操作検出で一般的に使用される小さなパッチや、ニューラルネットワークが写真開発に使用される場合において最も強い。 固定された0.5%のFPR設定で、TPRは128pxと256pxのパッチに対して17ppt(パーセント)低下する。

We assess the variability of PRNU-based camera fingerprints with mismatched imaging pipelines (e.g., different camera ISP or digital darkroom software). We show that camera fingerprints exhibit non-negligible variations in this setup, which may lead to unexpected degradation of detection statistics in real-world use-cases. We tested 13 different pipelines, including standard digital darkroom software and recent neural-networks. We observed that correlation between fingerprints from mismatched pipelines drops on average to 0.38 and the PCE detection statistic drops by over 40%. The degradation in error rates is the strongest for small patches commonly used in photo manipulation detection, and when neural networks are used for photo development. At a fixed 0.5% FPR setting, the TPR drops by 17 ppt (percentage points) for 128 px and 256 px patches.
翻訳日:2022-12-16 23:29:37 公開日:2020-10-09
# 参照言語に基づく教師なしニューラルマシン翻訳

Reference Language based Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2004.02127v2 )

ライセンス: Link先を確認
Zuchao Li, Hai Zhao, Rui Wang, Masao Utiyama, Eiichiro Sumita(参考訳) 共通言語をより良い翻訳の補助として利用することは、機械翻訳において長い伝統があり、教師付き学習ベースの機械翻訳は、言語並列コーパスを対象とするソース言語がない場合に、よく使われているピボット言語によって提供される拡張を享受できる。 unmt(unsupervised neural machine translation)の台頭は、並列コーパスの呪いをほぼ完全に緩和するが、unmtは、コアバックトランスレーショントレーニングで利用可能な手掛かりの曖昧さのため、まだ不十分なパフォーマンスを受ける。 さらに、ソースターゲットパラダイムを超えて並列コーパスの使用を拡大することで、ピボット変換の考え方をさらに強化し、基準言語がソースと並列コーパスを共有するUNMT, RUNMTのための新しい参照言語ベースのフレームワークを提案するが、このコーパスは、提案された参照合意機構を通じてUNMTの再構築トレーニングを支援するのに十分な信号を示す。 実験の結果,提案手法は,1つの補助言語のみを用いた強いベースラインよりもUNMTの質を向上し,提案手法の有効性を実証し,コミュニティにとって良い出発点となることを示した。

Exploiting a common language as an auxiliary for better translation has a long tradition in machine translation and lets supervised learning-based machine translation enjoy the enhancement delivered by the well-used pivot language in the absence of a source language to target language parallel corpus. The rise of unsupervised neural machine translation (UNMT) almost completely relieves the parallel corpus curse, though UNMT is still subject to unsatisfactory performance due to the vagueness of the clues available for its core back-translation training. Further enriching the idea of pivot translation by extending the use of parallel corpora beyond the source-target paradigm, we propose a new reference language-based framework for UNMT, RUNMT, in which the reference language only shares a parallel corpus with the source, but this corpus still indicates a signal clear enough to help the reconstruction training of UNMT through a proposed reference agreement mechanism. Experimental results show that our methods improve the quality of UNMT over that of a strong baseline that uses only one auxiliary language, demonstrating the usefulness of the proposed reference language-based UNMT and establishing a good start for the community.
翻訳日:2022-12-16 12:44:35 公開日:2020-10-09
# 深層強化学習のアルゴリズム取引への応用

An Application of Deep Reinforcement Learning to Algorithmic Trading ( http://arxiv.org/abs/2004.06627v3 )

ライセンス: Link先を確認
Thibaut Th\'eate, Damien Ernst(参考訳) 本研究は,市場における取引活動中の任意の時点における最適な取引位置を決定するアルゴリズム的トレーディング問題を解決するために,深層強化学習(DRL)に基づく革新的なアプローチを提案する。 幅広い株式市場におけるシャープ比パフォーマンス指標を最大化するために、新たなdrl取引戦略を提案する。 トレーディング深層q-networkアルゴリズム(tdqn)を例にとると、この新しいトレーディング戦略は人気のあるdqnアルゴリズムに触発され、手元にある特定のアルゴリズム的トレーディング問題にかなり適応している。 得られた強化学習(rl)エージェントの訓練は、限られた株式市場の履歴データから人工的軌道の生成に完全に基づいている。 本研究は,貿易戦略の性能を客観的に評価するために,より厳密な業績評価手法を提案する。 新しいパフォーマンスアセスメントアプローチに従って、tdqn戦略に有望な結果が報告される。

This scientific research paper presents an innovative approach based on deep reinforcement learning (DRL) to solve the algorithmic trading problem of determining the optimal trading position at any point in time during a trading activity in stock markets. It proposes a novel DRL trading strategy so as to maximise the resulting Sharpe ratio performance indicator on a broad range of stock markets. Denominated the Trading Deep Q-Network algorithm (TDQN), this new trading strategy is inspired from the popular DQN algorithm and significantly adapted to the specific algorithmic trading problem at hand. The training of the resulting reinforcement learning (RL) agent is entirely based on the generation of artificial trajectories from a limited set of stock market historical data. In order to objectively assess the performance of trading strategies, the research paper also proposes a novel, more rigorous performance assessment methodology. Following this new performance assessment approach, promising results are reported for the TDQN strategy.
翻訳日:2022-12-15 23:21:28 公開日:2020-10-09
# DynaBERT: 適応幅と深さを持つ動的BERT

DynaBERT: Dynamic BERT with Adaptive Width and Depth ( http://arxiv.org/abs/2004.04037v2 )

ライセンス: Link先を確認
Lu Hou, Zhiqi Huang, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu(参考訳) BERTのような事前訓練された言語モデルは、多くの自然言語処理タスクで強力だが、計算とメモリの費用がかかる。 この問題を軽減するために、デプロイ前に特定のタスクのために圧縮するアプローチがある。 しかし、BERT圧縮に関する最近の研究は通常、大きなBERTモデルを一定のサイズに圧縮する。 様々なハードウェア性能を持つ異なるエッジデバイスの要求を完全に満たすことはできない。 本稿では,適応幅と深さを選択することで,サイズとレイテンシを柔軟に調整できる動的bertモデル(dynabert)を提案する。 DynaBERTのトレーニングプロセスは、まず幅適応BERTを訓練した後、フルサイズのモデルから小さなサブネットワークに知識を蒸留することにより、適応幅と深さの両方を許容する。 ネットワーク再接続は、より多くのサブネットワークによって共有されるより重要な注意頭とニューロンを維持するためにも使われる。 提案した動的BERT(もしくはRoBERTa)の最大サイズはBERTベース(またはRoBERTaベース)に匹敵する性能を示すとともに,幅や深さの幅が小さい場合には既存のBERT圧縮法より常に優れていることを示す。 コードはhttps://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERTで公開されている。

The pre-trained language models like BERT, though powerful in many natural language processing tasks, are both computation and memory expensive. To alleviate this problem, one approach is to compress them for specific tasks before deployment. However, recent works on BERT compression usually compress the large BERT model to a fixed smaller size. They can not fully satisfy the requirements of different edge devices with various hardware performances. In this paper, we propose a novel dynamic BERT model (abbreviated as DynaBERT), which can flexibly adjust the size and latency by selecting adaptive width and depth. The training process of DynaBERT includes first training a width-adaptive BERT and then allowing both adaptive width and depth, by distilling knowledge from the full-sized model to small sub-networks. Network rewiring is also used to keep the more important attention heads and neurons shared by more sub-networks. Comprehensive experiments under various efficiency constraints demonstrate that our proposed dynamic BERT (or RoBERTa) at its largest size has comparable performance as BERT-base (or RoBERTa-base), while at smaller widths and depths consistently outperforms existing BERT compression methods. Code is available at https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT.
翻訳日:2022-12-15 08:09:58 公開日:2020-10-09
# ask without tell: 文脈表現における潜在オントロジーの探索

Asking without Telling: Exploring Latent Ontologies in Contextual Representations ( http://arxiv.org/abs/2004.14513v2 )

ライセンス: Link先を確認
Julian Michael, Jan A. Botha, Ian Tenney(参考訳) ELMoやBERTのような事前訓練された文脈エンコーダの成功は、これらのモデルが何を学習するかに大きな関心をもたらしている。 もしそうなら、この構造はどのようにエンコードされますか? そこで本研究では,プローブの入力の潜在分類(あるいはオントロジー)を誘導する既存の分類器に基づく探索法を改良した,潜時サブクラス学習(lsl)を提案する。 粒度の細かい金ラベルにアクセスすることなく、LSLは入力表現から解釈可能で定量化可能な形で創発的構造を抽出する。 実験では、エルモにおけるパーソナリティの概念のような見慣れたカテゴリの強い証拠や、コア引数におけるきめ細かい意味的役割の選好のような新しい存在論的区別を見出した。 従来の手法では使用できない既存のアノテーションからの逸脱を含む,プリトレーニングエンコーダの創発的構造に関するユニークな新たな証拠を提供する。

The success of pretrained contextual encoders, such as ELMo and BERT, has brought a great deal of interest in what these models learn: do they, without explicit supervision, learn to encode meaningful notions of linguistic structure? If so, how is this structure encoded? To investigate this, we introduce latent subclass learning (LSL): a modification to existing classifier-based probing methods that induces a latent categorization (or ontology) of the probe's inputs. Without access to fine-grained gold labels, LSL extracts emergent structure from input representations in an interpretable and quantifiable form. In experiments, we find strong evidence of familiar categories, such as a notion of personhood in ELMo, as well as novel ontological distinctions, such as a preference for fine-grained semantic roles on core arguments. Our results provide unique new evidence of emergent structure in pretrained encoders, including departures from existing annotations which are inaccessible to earlier methods.
翻訳日:2022-12-08 14:01:24 公開日:2020-10-09
# ニューラルレスポンス生成のための実証的オフポリティトレーニング

Counterfactual Off-Policy Training for Neural Response Generation ( http://arxiv.org/abs/2004.14507v2 )

ライセンス: Link先を確認
Qingfu Zhu, Weinan Zhang, Ting Liu, William Yang Wang(参考訳) オープンドメイン対話生成は、潜在的応答の巨大なサイズのためにデータ不足に悩まされる。 本稿では,反実的推論による潜在的応答の探索を提案する。 観察された反応から、反実的推論モデルは、取るべき代替政策の結果を自動的に推測する。 後方視で合成した反事実応答は、スクラッチから合成した応答よりも高品質である。 対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高次領域の探索に役立つ。 dailydialogデータセットに関する実証研究によれば、このアプローチは従来の逆学習手法と同様にhredモデルを大きく上回っている。

Open-domain dialogue generation suffers from the data insufficiency problem due to the vast size of potential responses. In this paper, we propose to explore potential responses by counterfactual reasoning. Given an observed response, the counterfactual reasoning model automatically infers the outcome of an alternative policy that could have been taken. The resulting counterfactual response synthesized in hindsight is of higher quality than the response synthesized from scratch. Training on the counterfactual responses under the adversarial learning framework helps to explore the high-reward area of the potential response space. An empirical study on the DailyDialog dataset shows that our approach significantly outperforms the HRED model as well as the conventional adversarial learning approaches.
翻訳日:2022-12-08 10:07:49 公開日:2020-10-09
# パラフレージング対コアファーリング:同じコインの2つの側面

Paraphrasing vs Coreferring: Two Sides of the Same Coin ( http://arxiv.org/abs/2004.14979v2 )

ライセンス: Link先を確認
Yehudit Meged, Avi Caciularu, Vered Shwartz, Ido Dagan(参考訳) 2つの異なるnlpタスク間の潜在的相乗効果について検討し, 述語語彙の変動, 述語パラフレーズの同定, イベントコリファレンスの解決について検討した。 まず、イベントコリファレンスデータセットからのアノテーションを遠方の監督として使用し、ヒューリスティックに抽出された述語パラフレーズを再スコアします。 新しい得点は、元の得点法によって、ランキングにおいて平均18点以上の精度を得た。 次に、最先端のイベントコリファレンス解決モデルへの追加入力として、同じ再ランキング機能を使用して、モデルのパフォーマンスを控えめだが一貫したものにしました。 結果は、各タスクにデータとモデルを活用して他方のメリットを享受する、有望な方向性を示唆している。

We study the potential synergy between two different NLP tasks, both confronting predicate lexical variability: identifying predicate paraphrases, and event coreference resolution. First, we used annotations from an event coreference dataset as distant supervision to re-score heuristically-extracted predicate paraphrases. The new scoring gained more than 18 points in average precision upon their ranking by the original scoring method. Then, we used the same re-ranking features as additional inputs to a state-of-the-art event coreference resolution model, which yielded modest but consistent improvements to the model's performance. The results suggest a promising direction to leverage data and models for each of the tasks to the benefit of the other.
翻訳日:2022-12-08 04:43:10 公開日:2020-10-09
# データ拡張はNLPの一般化を改善するか?

Does Data Augmentation Improve Generalization in NLP? ( http://arxiv.org/abs/2004.15012v2 )

ライセンス: Link先を確認
Rohan Jha, Charles Lovering, Ellie Pavlick(参考訳) ニューラルモデルはしばしば、より一般的な特徴を導出するのではなく、表面的特徴を利用して優れたパフォーマンスを達成する。 この傾向を克服することは、表現学習やMLフェアネスといった分野における中心的な課題である。 最近の研究では、データ拡張、すなわち表面的特徴が失敗するトレーニング例の生成をモデルに強い特徴を優先させる手段として提案している。 私たちは、データ拡張がモデルをより弱いヒューリスティックに導くが、より強力な特徴を学習しないという仮説をテストするために、おもちゃの学習問題をいくつか設計する。 データ拡張は助けになる前に痛むことが多く、好まれる強い特徴が競合する弱い特徴よりも抽出するのが困難である場合、効果が低い。

Neural models often exploit superficial features to achieve good performance, rather than deriving more general features. Overcoming this tendency is a central challenge in areas such as representation learning and ML fairness. Recent work has proposed using data augmentation, i.e., generating training examples where the superficial features fail, as a means of encouraging models to prefer the stronger features. We design a series of toy learning problems to test the hypothesis that data augmentation leads models to unlearn weaker heuristics, but not to learn stronger features in their place. We find partial support for this hypothesis: Data augmentation often hurts before it helps, and it is less effective when the preferred strong feature is much more difficult to extract than the competing weak feature.
翻訳日:2022-12-08 04:41:03 公開日:2020-10-09
# PlotMachines:動的プロット状態トラッキングによるアウトラインコンディション生成

PlotMachines: Outline-Conditioned Generation with Dynamic Plot State Tracking ( http://arxiv.org/abs/2004.14967v2 )

ライセンス: Link先を確認
Hannah Rashkin, Asli Celikyilmaz, Yejin Choi, and Jianfeng Gao(参考訳) 本稿では,ストーリーに現れるキーキャラクタやイベントを記述した一組のフレーズのアウトラインとして,提供されたアウトラインと整合したコヒーレントな物語を生成するための,アウトライン条件付きストーリー生成のタスクを提案する。 このタスクは、入力がプロットの粗いスケッチのみを提供するため、モデルがアウトラインで提供されるキーポイントを織り込むことでストーリーを生成する必要があるため、難しい。 これにより、モデルが潜在プロットの動的状態を追跡し、完全なストーリーを生成しながらインプットアウトラインを条件にする必要がある。 PlotMachinesは、動的プロット状態を追跡することによってアウトラインをコヒーレントなストーリーに変換することを学習するニューラルネットワークモデルである。 さらに,PlotMachinesを高レベルな談話構造で強化し,モデルが物語の異なる部分に対応する筆記スタイルを学習できるようにした。 3つのフィクションとノンフィクションのデータセットに関する包括的な実験は、GPT-2やGroverのような大規模言語モデルは、その印象的な生成性能にもかかわらず、与えられたアウトラインに対する一貫性のある物語を生成するには不十分であり、より厳密で一貫したプロットで物語を構成するには動的プロット状態追跡が重要であることを示した。

We propose the task of outline-conditioned story generation: given an outline as a set of phrases that describe key characters and events to appear in a story, the task is to generate a coherent narrative that is consistent with the provided outline. This task is challenging as the input only provides a rough sketch of the plot, and thus, models need to generate a story by interweaving the key points provided in the outline. This requires the model to keep track of the dynamic states of the latent plot, conditioning on the input outline while generating the full story. We present PlotMachines, a neural narrative model that learns to transform an outline into a coherent story by tracking the dynamic plot states. In addition, we enrich PlotMachines with high-level discourse structure so that the model can learn different writing styles corresponding to different parts of the narrative. Comprehensive experiments over three fiction and non-fiction datasets demonstrate that large-scale language models, such as GPT-2 and Grover, despite their impressive generation performance, are not sufficient in generating coherent narratives for the given outline, and dynamic plot state tracking is important for composing narratives with tighter, more consistent plots.
翻訳日:2022-12-08 04:32:24 公開日:2020-10-09
# GAN(Generative Adversarial Networks)の課題,解決策,今後の方向性

Generative Adversarial Networks (GANs): Challenges, Solutions, and Future Directions ( http://arxiv.org/abs/2005.00065v3 )

ライセンス: Link先を確認
Divya Saxena, Jiannong Cao(参考訳) Generative Adversarial Networks (GANs) は、近年注目されている深層生成モデルの新しいクラスである。 GANは、画像、オーディオ、データに対して暗黙的に複雑で高次元の分布を学習する。 しかし、ネットワークアーキテクチャの不適切な設計、目的関数の使用、最適化アルゴリズムの選択などにより、モード崩壊、非収束、不安定といった GAN のトレーニングには大きな課題がある。 近年,これらの課題に対処するために,ネットワークアーキテクチャの再設計技術,新たな目的関数,代替最適化アルゴリズムに基づいて,GANの設計と最適化のためのいくつかのソリューションが検討されている。 私たちの知る限りでは、これらのソリューションの広範かつ体系的な開発に特に注目する既存の調査はありません。 本研究では,GANの課題に対処するために提案したGANの設計および最適化ソリューションの進歩に関する総合的な調査を行う。 まず,各設計・最適化手法における主要な研究課題を特定し,主要な研究課題によるソリューション構築のための新たな分類法を提案する。 分類法に従って,各解において提案される異なるGANの変種とその関係について,詳細な議論を行う。 最後に、得られた知見に基づいて、この急速に成長する分野における有望な研究方向性を示す。

Generative Adversarial Networks (GANs) is a novel class of deep generative models which has recently gained significant attention. GANs learns complex and high-dimensional distributions implicitly over images, audio, and data. However, there exists major challenges in training of GANs, i.e., mode collapse, non-convergence and instability, due to inappropriate design of network architecture, use of objective function and selection of optimization algorithm. Recently, to address these challenges, several solutions for better design and optimization of GANs have been investigated based on techniques of re-engineered network architectures, new objective functions and alternative optimization algorithms. To the best of our knowledge, there is no existing survey that has particularly focused on broad and systematic developments of these solutions. In this study, we perform a comprehensive survey of the advancements in GANs design and optimization solutions proposed to handle GANs challenges. We first identify key research issues within each design and optimization technique and then propose a new taxonomy to structure solutions by key research issues. In accordance with the taxonomy, we provide a detailed discussion on different GANs variants proposed within each solution and their relationships. Finally, based on the insights gained, we present the promising research directions in this rapidly growing field.
翻訳日:2022-12-08 03:38:51 公開日:2020-10-09
# 料理映像からの構造化手続き知識抽出のためのベンチマーク

A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos ( http://arxiv.org/abs/2005.00706v2 )

ライセンス: Link先を確認
Frank F. Xu, Lei Ji, Botian Shi, Junyi Du, Graham Neubig, Yonatan Bisk, Nan Duan(参考訳) 指導ビデオを見ることは、しばしば手順を学ぶために使われる。 ビデオキャプションは、そのような知識を自動的に収集する方法のひとつだ。 しかし、これは、彼らが学んだことのよりきめ細かい定量的尺度を持たない、間接的に総合的なマルチモーダルモデルの評価のみを提供する。 そこで本研究では,料理ビデオから抽出した構造化手続き知識のベンチマークを提案する。 この作業は既存のタスクを補完するが、動詞引数タプルの形で解釈可能な構造化知識を生成するモデルを必要とする。 注記付きオープンボキャブラリリソースには,356の教示調理ビデオと15,523のビデオクリップ/センテンスレベルのアノテーションが含まれています。 分析の結果,提案課題は難易度が高く,非教師付きセグメンテーションやセマンティック・ロール・ラベリング,視覚行動検出といった標準的なモデリング手法では,プロシージャのすべての動作を構造化形式で予測することが困難であった。

Watching instructional videos are often used to learn about procedures. Video captioning is one way of automatically collecting such knowledge. However, it provides only an indirect, overall evaluation of multimodal models with no finer-grained quantitative measure of what they have learned. We propose instead, a benchmark of structured procedural knowledge extracted from cooking videos. This work is complementary to existing tasks, but requires models to produce interpretable structured knowledge in the form of verb-argument tuples. Our manually annotated open-vocabulary resource includes 356 instructional cooking videos and 15,523 video clip/sentence-level annotations. Our analysis shows that the proposed task is challenging and standard modeling approaches like unsupervised segmentation, semantic role labeling, and visual action detection perform poorly when forced to predict every action of a procedure in a structured form.
翻訳日:2022-12-07 11:50:21 公開日:2020-10-09
# MASK:臨床テキストの識別を容易にする柔軟なフレームワーク

MASK: A flexible framework to facilitate de-identification of clinical texts ( http://arxiv.org/abs/2005.11687v2 )

ライセンス: Link先を確認
Nikola Milosevic, Gangamma Kalappa, Hesam Dadafarin, Mahmoud Azimaee, Goran Nenadic(参考訳) 医療記録と臨床要約には大量の重要な情報がテキスト形式で含まれており、治療、薬物、公衆衛生の研究を促進するのに役立つ。 しかし、これらの情報の多くは患者、家族、医療スタッフに関する個人的な情報を含んでいるため、共有されていない。 米国におけるHIPPA、カナダのPHIPPA、GDPRなどの規制は、この情報の保護、処理、配布を規制している。 この情報が特定され、個人情報が置き換えられたり、再発見されたりした場合は、研究コミュニティに配布することができる。 本稿では,非識別タスクを実行するためのソフトウェアパッケージであるmaskについて述べる。 ソフトウェアは、最先端技術を使って名前付きエンティティ認識を実行し、認識されたエンティティをマスクまたは修正することができる。 ユーザは、名前付きエンティティ認識アルゴリズム(現在実装されているCRFベースのテクニックの2つのバージョンと、事前訓練されたGLoVeとELMo埋め込みを備えたBiLSTMベースのニューラルネットワーク)とマスキングアルゴリズム(シフト日時、名前/位置の置き換え、完全再実行エンティティなど)を選択することができる。

Medical health records and clinical summaries contain a vast amount of important information in textual form that can help advancing research on treatments, drugs and public health. However, the majority of these information is not shared because they contain private information about patients, their families, or medical staff treating them. Regulations such as HIPPA in the US, PHIPPA in Canada and GDPR regulate the protection, processing and distribution of this information. In case this information is de-identified and personal information are replaced or redacted, they could be distributed to the research community. In this paper, we present MASK, a software package that is designed to perform the de-identification task. The software is able to perform named entity recognition using some of the state-of-the-art techniques and then mask or redact recognized entities. The user is able to select named entity recognition algorithm (currently implemented are two versions of CRF-based techniques and BiLSTM-based neural network with pre-trained GLoVe and ELMo embedding) and masking algorithm (e.g. shift dates, replace names/locations, totally redact entity).
翻訳日:2022-11-29 13:22:50 公開日:2020-10-09
# AP20-OLRチャレンジ:3つのタスクとそのベースライン

AP20-OLR Challenge: Three Tasks and Their Baselines ( http://arxiv.org/abs/2006.03473v4 )

ライセンス: Link先を確認
Zheng Li, Miao Zhao, Qingyang Hong, Lin Li, Zhiyuan Tang, Dong Wang, Liming Song and Cheng Yang(参考訳) 本稿では,APSIPA年次サミット・カンファレンス(APSIPA ASC)とともに,言語認識システムの性能向上を目指す第5回東洋言語認識チャレンジAP20-OLRを紹介する。 本稿では,データプロファイル,3つのタスク,対応するベースライン,評価原則について述べる。 AP20-OLRチャレンジには、より多くの言語、方言、およびNSFC M2ASRプロジェクトが提供する実生活データが含まれており、すべてのデータは参加者に無償で提供される。 今年の課題は,(1)チャンネル横断型LID,(2)方言識別,(3)うるさいLIDという3つの課題を伴う,実用的で困難な課題に焦点が当てられている。 KaldiとPytorchに基づいて、i-vectorとx-vectorシステムのレシピも3つのタスクのベースラインとして実行される。 これらのレシピはオンラインで公開され、参加者はLIDシステムを設定することができる。 3つのタスクのベースライン結果は、この課題におけるこれらのタスクが、より良いパフォーマンスを達成するためにより多くの努力を払う価値があることを示している。

This paper introduces the fifth oriental language recognition (OLR) challenge AP20-OLR, which intends to improve the performance of language recognition systems, along with APSIPA Annual Summit and Conference (APSIPA ASC). The data profile, three tasks, the corresponding baselines, and the evaluation principles are introduced in this paper. The AP20-OLR challenge includes more languages, dialects and real-life data provided by Speechocean and the NSFC M2ASR project, and all the data is free for participants. The challenge this year still focuses on practical and challenging problems, with three tasks: (1) cross-channel LID, (2) dialect identification and (3) noisy LID. Based on Kaldi and Pytorch, recipes for i-vector and x-vector systems are also conducted as baselines for the three tasks. These recipes will be online-published, and available for participants to configure LID systems. The baseline results on the three tasks demonstrate that those tasks in this challenge are worth paying more efforts to achieve better performance.
翻訳日:2022-11-25 12:40:55 公開日:2020-10-09
# 音声翻訳によるエンドツーエンド音声認識における言語間変換学習の改善

Improving Cross-Lingual Transfer Learning for End-to-End Speech Recognition with Speech Translation ( http://arxiv.org/abs/2006.05474v2 )

ライセンス: Link先を確認
Changhan Wang, Juan Pino, Jiatao Gu(参考訳) 高リソース言語からの伝達学習は、低リソース言語のためのエンドツーエンド自動音声認識(ASR)を改善する効率的な方法として知られている。 しかし、訓練済みまたは共同で訓練されたエンコーダ-デコーダモデルは、同じ言語のための言語モデリング(デコーダ)を共有していない。 本稿では,目的言語に関する追加知識を取り入れ,その対象言語からの変換を可能にする補助タスクとして,音声からテキストへの翻訳(st)を導入する。 具体的には、まず高出力のASR文字をターゲットとする低リソース言語に翻訳し、STモデルを訓練する。 STとターゲットASRは同じアテンションベースのエンコーダデコーダアーキテクチャと語彙を共有している。 前者のタスクは後者に対して完全に事前訓練されたモデルを提供し、24.6%のワードエラー率(WER)をベースライン(高リソースのASRからの直接転送)に還元する。 人間の翻訳によるSTの訓練は必要ないことを示す。 機械翻訳(MT)で訓練されたSTは、一貫した利得をもたらす。 ターゲットのASRに転送される場合、500K MTのサンプルのみを活用することで、人間のラベルを使用する場合よりもパフォーマンスが向上する。 低リソースmt(200k例)からの擬似ラベルであっても、st-enhanced transferは8.9%の直接転送削減をもたらす。

Transfer learning from high-resource languages is known to be an efficient way to improve end-to-end automatic speech recognition (ASR) for low-resource languages. Pre-trained or jointly trained encoder-decoder models, however, do not share the language modeling (decoder) for the same language, which is likely to be inefficient for distant target languages. We introduce speech-to-text translation (ST) as an auxiliary task to incorporate additional knowledge of the target language and enable transferring from that target language. Specifically, we first translate high-resource ASR transcripts into a target low-resource language, with which a ST model is trained. Both ST and target ASR share the same attention-based encoder-decoder architecture and vocabulary. The former task then provides a fully pre-trained model for the latter, bringing up to 24.6% word error rate (WER) reduction to the baseline (direct transfer from high-resource ASR). We show that training ST with human translations is not necessary. ST trained with machine translation (MT) pseudo-labels brings consistent gains. It can even outperform those using human labels when transferred to target ASR by leveraging only 500K MT examples. Even with pseudo-labels from low-resource MT (200K examples), ST-enhanced transfer brings up to 8.9% WER reduction to direct transfer.
翻訳日:2022-11-23 15:19:51 公開日:2020-10-09
# ニューラルネットワーク分類器の分布ロバスト性向上のためのt分布に基づく演算子

A t-distribution based operator for enhancing out of distribution robustness of neural network classifiers ( http://arxiv.org/abs/2006.05389v3 )

ライセンス: Link先を確認
Niccol\`o Antonello, Philip N. Garner(参考訳) ニューラルネットワーク(NN)分類器は、トレーニング中に現れていないサンプル(分布外サンプル)に極端な確率を割り当てることができ、誤った予測と信頼できない予測をもたらす。 この不必要な振る舞いの原因の1つは、後方確率をゼロかユニティかに押し上げる標準ソフトマックス作用素を使用することであり、不確かさをモデル化できない。 ソフトマックス作用素の統計的導出は、与えられたクラスに対する潜在変数の分布が既知の分散を持つガウス的であるという仮定に依存する。 しかし、同じ導出で異なる仮定を使い、他の分布の族からも得ることが可能である。 これにより、より好ましい性質を持つ新規作用素の導出が可能になる。 ここでは、不確実性をよりよく記述できる$t$-distributionsを用いて導出される新しい演算子を提案する。 この新しい演算子を採用する分類器は、分布サンプルより頑健であり、標準のsoftmax演算子を使用するnnよりも優れていることが示されている。 これらの拡張は、NNアーキテクチャに最小限の変更を加えることで達成できる。

Neural Network (NN) classifiers can assign extreme probabilities to samples that have not appeared during training (out-of-distribution samples) resulting in erroneous and unreliable predictions. One of the causes for this unwanted behaviour lies in the use of the standard softmax operator which pushes the posterior probabilities to be either zero or unity hence failing to model uncertainty. The statistical derivation of the softmax operator relies on the assumption that the distributions of the latent variables for a given class are Gaussian with known variance. However, it is possible to use different assumptions in the same derivation and attain from other families of distributions as well. This allows derivation of novel operators with more favourable properties. Here, a novel operator is proposed that is derived using $t$-distributions which are capable of providing a better description of uncertainty. It is shown that classifiers that adopt this novel operator can be more robust to out of distribution samples, often outperforming NNs that use the standard softmax operator. These enhancements can be reached with minimal changes to the NN architecture.
翻訳日:2022-11-23 13:24:13 公開日:2020-10-09
# 量子ロバストフィット

Quantum Robust Fitting ( http://arxiv.org/abs/2006.06986v3 )

ライセンス: Link先を確認
Tat-Jun Chin, David Suter, Shin-Fang Chng, James Quach(参考訳) 多くのコンピュータビジョンアプリケーションは、現実世界の不完全な測定から構造を復元する必要がある。 この課題は、幾何学的モデルを雑音および異常値汚染データに頑健に適合させることによってしばしば解決される。 しかし、近年の理論解析により、コンピュータビジョンにおけるロバストフィットの多くの一般的な定式化は、扱いやすい解や近似には適さないことが示されている。 本稿では,ロバストフィットのための量子コンピュータの利用について検討する。 そこで本研究では,ブール関数のフーリエ解析から着想を得たロバストなフィッティング定式化の実用性を検討した。 次に,量子アルゴリズムを検証して定式化を解き,古典的アルゴリズム上で可能な計算速度を解析する。 そこで本研究では,コンピュータビジョンに対するロバスト適合性の最初の量子処理法を提案する。

Many computer vision applications need to recover structure from imperfect measurements of the real world. The task is often solved by robustly fitting a geometric model onto noisy and outlier-contaminated data. However, recent theoretical analyses indicate that many commonly used formulations of robust fitting in computer vision are not amenable to tractable solution and approximation. In this paper, we explore the usage of quantum computers for robust fitting. To do so, we examine and establish the practical usefulness of a robust fitting formulation inspired by Fourier analysis of Boolean functions. We then investigate a quantum algorithm to solve the formulation and analyse the computational speed-up possible over the classical algorithm. Our work thus proposes one of the first quantum treatments of robust fitting for computer vision.
翻訳日:2022-11-22 04:18:03 公開日:2020-10-09
# 内部アンサンブルネットワーク:有効正規化器としての平均アンサンブル

Inner Ensemble Networks: Average Ensemble as an Effective Regularizer ( http://arxiv.org/abs/2006.08305v2 )

ライセンス: Link先を確認
Abduallah Mohamed, Muhammed Mohaimin Sadiq, Ehab AlBadawy, Mohamed Elhoseiny, Christian Claudel(参考訳) モデル複雑性を増大させることなく、ニューラルネットワーク自体内の分散を低減できる内部アンサンブルネットワーク(IEN)を導入する。 iensはトレーニング段階でアンサンブルパラメータを使用してネットワーク分散を低減している。 テストフェーズでは、これらのパラメータは強化されたパフォーマンスを変更することなく削除される。 IENは、通常の深度モデルの分散を1/m^{L-1}$の係数で減らし、$m$は内部アンサンブルの数、$L$はモデルの深さである。 また,IENは,落差や最大値といった他の類似のアプローチと比較して,より分散低減につながることを実証的,理論的に示す。 その結果、通常の深層モデルと比較して誤差率が1.7\%から17.3\%に減少した。 また,従来のアプローチよりもニューラルネットワーク検索 (nas) 法の方が ien が好まれていた。 コードはhttps://github.com/abduallahmohamed/inner_ensemble_netsで入手できる。

We introduce Inner Ensemble Networks (IENs) which reduce the variance within the neural network itself without an increase in the model complexity. IENs utilize ensemble parameters during the training phase to reduce the network variance. While in the testing phase, these parameters are removed without a change in the enhanced performance. IENs reduce the variance of an ordinary deep model by a factor of $1/m^{L-1}$, where $m$ is the number of inner ensembles and $L$ is the depth of the model. Also, we show empirically and theoretically that IENs lead to a greater variance reduction in comparison with other similar approaches such as dropout and maxout. Our results show a decrease of error rates between 1.7\% and 17.3\% in comparison with an ordinary deep model. We also show that IEN was preferred by Neural Architecture Search (NAS) methods over prior approaches. Code is available at https://github.com/abduallahmohamed/inner_ensemble_nets.
翻訳日:2022-11-21 03:06:43 公開日:2020-10-09
# Entity-Boosted Two-Tower Neural Network を用いたユーザフレンドリーなメディケイトマッピング

Towards User Friendly Medication Mapping Using Entity-Boosted Two-Tower Neural Network ( http://arxiv.org/abs/2007.00492v2 )

ライセンス: Link先を確認
Shaoqing Yuan, Parminder Bhatia, Busra Celikkaya, Haiyang Liu, Kyunghwan Choi(参考訳) 近年の医療機関連携の進歩は、科学文献やソーシャルメディアデータの分野でも応用されている。 しかし、医療設定における遠隔医療やAlexaなどの会話エージェントの採用により、医療名推論は重要な課題となっている。 医薬品名推論は、フリーフォームテキストから正規化された医薬品リストのコンセプトにユーザーフレンドリーな薬名をマッピングするタスクである。 これは、医療従事者からの医療用語の使用と、一般からの利用者との会話の違いによるものである。 まず、記述薬句(DMP)を標準薬名(SMN)にマッピングすることから始める。 各患者の処方薬を考えると、私たちは薬を好みの方法で言及する柔軟性を患者に提供したいと考えています。 薬剤局から得た処方薬リストの薬品リストを発注することで,smnをdmpにマップするランキング問題としてアプローチする。 さらに,中間層の出力を利用して薬剤クラスタリングを行った。 医学的推論モデル (MIM) を用いて, 最先端の結果を得る。 医療機関の注意に基づく注意を組み込むことにより,ランキングモデルをさらに改善した。

Recent advancements in medical entity linking have been applied in the area of scientific literature and social media data. However, with the adoption of telemedicine and conversational agents such as Alexa in healthcare settings, medical name inference has become an important task. Medication name inference is the task of mapping user friendly medication names from a free-form text to a concept in a normalized medication list. This is challenging due to the differences in the use of medical terminology from health care professionals and user conversations coming from the lay public. We begin with mapping descriptive medication phrases (DMP) to standard medication names (SMN). Given the prescriptions of each patient, we want to provide them with the flexibility of referring to the medication in their preferred ways. We approach this as a ranking problem which maps SMN to DMP by ordering the list of medications in the patient's prescription list obtained from pharmacies. Furthermore, we leveraged the output of intermediate layers and performed medication clustering. We present the Medication Inference Model (MIM) achieving state-of-the-art results. By incorporating medical entities based attention, we have obtained further improvement for ranking models.
翻訳日:2022-11-19 18:57:25 公開日:2020-10-09
# 非線形svmの近似線形時間トレーニングのためのsvm-perfの量子拡張

A quantum extension of SVM-perf for training nonlinear SVMs in almost linear time ( http://arxiv.org/abs/2006.10299v3 )

ライセンス: Link先を確認
Jonathan Allcock and Chang-Yu Hsieh(参考訳) 古典入力データを量子状態の振幅にエンコードする特徴空間学習のための非線形サポートベクトルマシン(svm)を学習するための量子アルゴリズムを提案する。 Joachimsの古典的なSVM-perfアルゴリズムに基づいて、我々のアルゴリズムは、トレーニングの例数$m$(多変数因子まで)を線形にスケールし、標準ソフトマージン$\ell_1$-SVMモデルに適用するランニングタイムを持つ。 対照的に、古典的なSVM-perfは線形SVMと非線形SVMの両方で顕著な性能を示してきたが、その効率は、線形SVMに対してのみ線形$m$のスケーリングを実現している。 同様に、以前提案された量子アルゴリズムは、m$の超線形スケーリングを持つか、ソフトマージン$\ell_1$-svmモデルの望ましい特性を欠くハードマージンや最小二乗$\ell_2$-svmのような異なるsvmモデルに適用する。 我々は古典的にアルゴリズムをシミュレートし、漸近的に大規模なデータセットに限らず、実際にうまく動作することを示す。

We propose a quantum algorithm for training nonlinear support vector machines (SVM) for feature space learning where classical input data is encoded in the amplitudes of quantum states. Based on the classical SVM-perf algorithm of Joachims, our algorithm has a running time which scales linearly in the number of training examples $m$ (up to polylogarithmic factors) and applies to the standard soft-margin $\ell_1$-SVM model. In contrast, while classical SVM-perf has demonstrated impressive performance on both linear and nonlinear SVMs, its efficiency is guaranteed only in certain cases: it achieves linear $m$ scaling only for linear SVMs, where classification is performed in the original input data space, or for the special cases of low-rank or shift-invariant kernels. Similarly, previously proposed quantum algorithms either have super-linear scaling in $m$, or else apply to different SVM models such as the hard-margin or least squares $\ell_2$-SVM which lack certain desirable properties of the soft-margin $\ell_1$-SVM model. We classically simulate our algorithm and give evidence that it can perform well in practice, and not only for asymptotically large data sets.
翻訳日:2022-11-19 14:28:10 公開日:2020-10-09
# 動的グラフの深層学習のための時間グラフネットワーク

Temporal Graph Networks for Deep Learning on Dynamic Graphs ( http://arxiv.org/abs/2006.10637v3 )

ライセンス: Link先を確認
Emanuele Rossi, Ben Chamberlain, Fabrizio Frasca, Davide Eynard, Federico Monti, Michael Bronstein(参考訳) グラフニューラルネットワーク(GNN)は、生物学や粒子物理学、ソーシャルネットワーク、レコメンデーションシステムなど、幅広い問題から生じる複雑な関係や相互作用のシステムを学ぶ能力によって、最近ますます人気が高まっている。 グラフ上のディープラーニングにはさまざまなモデルがあるが、ある種の動的性質(例えば、時間とともに進化する機能や接続性)を示すグラフを扱うためのアプローチは、今のところ提案されていない。 本稿では,時系列グラフネットワーク(TGN)について述べる。TGNは時間イベントのシーケンスとして表される動的グラフの深層学習のための汎用的で効率的なフレームワークである。 メモリモジュールとグラフベースの演算子を組み合わせた新しい組み合わせにより、TGNは、計算効率が向上した以前のアプローチを大幅に上回ることができる。 さらに、動的グラフを学習するためのいくつかの過去のモデルが、フレームワークの特定のインスタンスとしてキャスト可能であることを示す。 我々は,様々なコンポーネントの詳細なアブレーション研究を行い,動的グラフの帰納的および帰納的予測タスクにおいて最先端のパフォーマンスを実現する最良の構成を考案する。

Graph Neural Networks (GNNs) have recently become increasingly popular due to their ability to learn complex systems of relations or interactions arising in a broad spectrum of problems ranging from biology and particle physics to social networks and recommendation systems. Despite the plethora of different models for deep learning on graphs, few approaches have been proposed thus far for dealing with graphs that present some sort of dynamic nature (e.g. evolving features or connectivity over time). In this paper, we present Temporal Graph Networks (TGNs), a generic, efficient framework for deep learning on dynamic graphs represented as sequences of timed events. Thanks to a novel combination of memory modules and graph-based operators, TGNs are able to significantly outperform previous approaches being at the same time more computationally efficient. We furthermore show that several previous models for learning on dynamic graphs can be cast as specific instances of our framework. We perform a detailed ablation study of different components of our framework and devise the best configuration that achieves state-of-the-art performance on several transductive and inductive prediction tasks for dynamic graphs.
翻訳日:2022-11-19 12:57:58 公開日:2020-10-09
# 肺結節のフォローアップ容積予測による腫瘍増殖の学習

Learning Tumor Growth via Follow-Up Volume Prediction for Lung Nodules ( http://arxiv.org/abs/2006.13890v2 )

ライセンス: Link先を確認
Yamin Li, Jiancheng Yang, Yi Xu, Jingwei Xu, Xiaodan Ye, Guangyu Tao, Xueqian Xie, Guixue Liu(参考訳) フォローアップは肺癌の肺結節管理において重要な役割を担っている。 専門的コンセンサスによる画像診断ガイドラインは,放射線科医が各患者に対して臨床判断を行うのに役立つ。 しかし,腫瘍増殖は複雑であり,形態学的特徴から低リスクの腫瘍から高リスク結節を成層することは困難である。 一方,畳み込みニューラルネットワーク(cnns)を用いた最近の深層学習は結節の悪性度スコアを予測し,臨床医にブラックボックス予測のみを提供する。 そこで我々は,高品質な視覚的外観を持つ肺結節の成長を予測し,基準線観測から任意の時間間隔で正確な定量的結果を得る,Nodule Follow-Up Prediction Network (NoFoNet) という統合フレームワークを提案する。 WarpNetで各ボクセルの将来の変位場を予測することで実現した。 TextureNetはさらにWarpNet出力のテクスチャ詳細を洗練するために開発されている。 また、時間認識と形状認識の表現学習を促進するために、テンポラルエンコーディングモジュールやワープセグメンテーションロスなどの手法も導入する。 提案手法の有効性を検証するため,2つの医療センターから社内追跡データセットを構築した。 NoFoNetは、視覚的品質の観点から、U-Netによる直接予測を著しく上回る。 有望な結果から,肺結節管理へのコンピュータ介入の可能性が示唆された。

Follow-up serves an important role in the management of pulmonary nodules for lung cancer. Imaging diagnostic guidelines with expert consensus have been made to help radiologists make clinical decision for each patient. However, tumor growth is such a complicated process that it is difficult to stratify high-risk nodules from low-risk ones based on morphologic characteristics. On the other hand, recent deep learning studies using convolutional neural networks (CNNs) to predict the malignancy score of nodules, only provides clinicians with black-box predictions. To this end, we propose a unified framework, named Nodule Follow-Up Prediction Network (NoFoNet), which predicts the growth of pulmonary nodules with high-quality visual appearances and accurate quantitative results, given any time interval from baseline observations. It is achieved by predicting future displacement field of each voxel with a WarpNet. A TextureNet is further developed to refine textural details of WarpNet outputs. We also introduce techniques including Temporal Encoding Module and Warp Segmentation Loss to encourage time-aware and shape-aware representation learning. We build an in-house follow-up dataset from two medical centers to validate the effectiveness of the proposed method. NoFoNet significantly outperforms direct prediction by a U-Net in terms of visual quality; more importantly, it demonstrates accurate differentiating performance between high- and low-risk nodules. Our promising results suggest the potentials in computer aided intervention for lung nodule management.
翻訳日:2022-11-17 12:43:33 公開日:2020-10-09
# 新型コロナウイルスのリアルタイム対応に関する質問に答える

Answering Questions on COVID-19 in Real-Time ( http://arxiv.org/abs/2006.15830v2 )

ライセンス: Link先を確認
Jinhyuk Lee, Sean S. Yi, Minbyul Jeong, Mujeen Sung, Wonjin Yoon, Yonghwa Choi, Miyoung Ko, Jaewoo Kang(参考訳) 新型コロナウイルスの感染拡大が世界中に波及し、研究者らは効果的に戦おうとしている。 戦いが難しい理由のひとつは、情報と知識の不足にある。 本研究では,生物医学的テキストマイニングとqa技術を組み合わせたq&aシステムであるcovid-19ask(q&a)を作成し,質問への回答をリアルタイムに提供することで,この知識真空の縮小に寄与する取り組みについて概説する。 また、情報検索(IR)手法を利用して、QAモデルに相補的なエンティティレベルの回答を提供する。 covidAskの評価は、CDCやWHOなど、さまざまなソースからの情報をベースとした、COVID-19 Questionsと呼ばれる手作業によるデータセットを使用して行われる。 私たちのシステムは、新型コロナウイルスだけでなく、将来のパンデミックにも、研究者が知識や情報を探すのに役立つことを期待しています。

The recent outbreak of the novel coronavirus is wreaking havoc on the world and researchers are struggling to effectively combat it. One reason why the fight is difficult is due to the lack of information and knowledge. In this work, we outline our effort to contribute to shrinking this knowledge vacuum by creating covidAsk, a question answering (QA) system that combines biomedical text mining and QA techniques to provide answers to questions in real-time. Our system also leverages information retrieval (IR) approaches to provide entity-level answers that are complementary to QA models. Evaluation of covidAsk is carried out by using a manually created dataset called COVID-19 Questions which is based on information from various sources, including the CDC and the WHO. We hope our system will be able to aid researchers in their search for knowledge and information not only for COVID-19, but for future pandemics as well.
翻訳日:2022-11-15 13:10:30 公開日:2020-10-09
# 新型コロナウイルス「Twitter Chatter」の薬物言及の特徴

Characterizing drug mentions in COVID-19 Twitter Chatter ( http://arxiv.org/abs/2007.10276v2 )

ライセンス: Link先を確認
Ramya Tekumalla, Juan M. Banda(参考訳) 新型コロナウイルスの世界的なパンデミックとして分類されて以来、ウイルスを治療し封じ込めようとする試みが数多く行われている。 新型コロナウイルスに推奨される特定の抗ウイルス剤はないが、症状を治療できる薬剤はいくつかある。 この研究で、私たちは4億2400万ツイートのcovid-19チャットの大規模なtwitterデータセットを発掘し、薬物の言及に関する談話を特定しました。 一見単純なタスクのように見えるが、Twitterでの言語使用の非公式な性質のため、このタスクを支援するために従来の自動メソッドとともに機械学習の必要性を実証する。 これらの補完手法を適用することで、ソーシャルメディアデータを扱う際に必要となるタスクのミススペル処理を前処理ステップとして、約15%の追加データを復元することができる。

Since the classification of COVID-19 as a global pandemic, there have been many attempts to treat and contain the virus. Although there is no specific antiviral treatment recommended for COVID-19, there are several drugs that can potentially help with symptoms. In this work, we mined a large twitter dataset of 424 million tweets of COVID-19 chatter to identify discourse around drug mentions. While seemingly a straightforward task, due to the informal nature of language use in Twitter, we demonstrate the need of machine learning alongside traditional automated methods to aid in this task. By applying these complementary methods, we are able to recover almost 15% additional data, making misspelling handling a needed task as a pre-processing step when dealing with social media data.
翻訳日:2022-11-08 14:26:14 公開日:2020-10-09
# 動的プログラミングによるメタ連続学習

Meta Continual Learning via Dynamic Programming ( http://arxiv.org/abs/2008.02219v2 )

ライセンス: Link先を確認
R. Krishnan, Prasanna Balaprakash(参考訳) メタ連続学習アルゴリズムは、シーケンシャルに観察される同様のタスクに直面した時にモデルを訓練することを求める。 有望な方法論的進歩にもかかわらず、一般化や破滅的な忘れなど学習課題の分析を可能にする理論的枠組みが欠如している。 そこで我々はメタ連続学習(MCL)の新しい理論的アプローチを開発し、動的プログラミングを用いて学習力学を数学的にモデル化し、MCL問題に対する最適条件を確立する。 さらに, この理論フレームワークを用いて, 確率的漸進型交互最適化を適用し, 一般化と破滅的忘れのバランスをとる動的プログラミングに基づくMCL法を提案する。 MCLベンチマークデータセットでは,提案手法は既存の最先端手法よりも精度が高いか,あるいは同等であることを示す。

Meta continual learning algorithms seek to train a model when faced with similar tasks observed in a sequential manner. Despite promising methodological advancements, there is a lack of theoretical frameworks that enable analysis of learning challenges such as generalization and catastrophic forgetting. To that end, we develop a new theoretical approach for meta continual learning~(MCL) where we mathematically model the learning dynamics using dynamic programming, and we establish conditions of optimality for the MCL problem. Moreover, using the theoretical framework, we derive a new dynamic-programming-based MCL method that adopts stochastic-gradient-driven alternating optimization to balance generalization and catastrophic forgetting. We show that, on MCL benchmark data sets, our theoretically grounded method achieves accuracy better than or comparable to that of existing state-of-the-art methods.
翻訳日:2022-11-02 17:55:29 公開日:2020-10-09
# exemplar の最も近い平均を用いたクラスインクリメンタルオブジェクト検出に向けて

Towards Class-incremental Object Detection with Nearest Mean of Exemplars ( http://arxiv.org/abs/2008.08336v3 )

ライセンス: Link先を確認
Sheng Ren, Yan He, Neal N. Xiong and Kehua Guo(参考訳) インクリメンタル学習はオンライン学習の一形態である。 増分学習は深層学習モデルのパラメータや構造を変更し、新しい知識を学習しながら古い知識を忘れないようにすることができる。 破滅的な忘れ方を防ぐことは、インクリメンタル学習の最も重要なタスクです。 しかし、現在の漸進的な学習は1種類の入力に限られることが多い。 例えば、入力画像が同じタイプであれば、現在のインクリメンタルモデルは古い知識を忘れずに新しい知識を学習することができる。 しかし、入力グラフィックにいくつかのカテゴリが追加された場合、現在のモデルは正しく処理できず、精度は大幅に低下する。 そこで本研究では,プロトタイプベクトルを同定し,ベクトル距離を増大させることでモデルのパラメータを段階的に調整し,破滅的な忘れをせずに新たな知識を学習する手法を提案する。 提案手法の有効性を示す実験を行った。

Incremental learning is a form of online learning. Incremental learning can modify the parameters and structure of the deep learning model so that the model does not forget the old knowledge while learning new knowledge. Preventing catastrophic forgetting is the most important task of incremental learning. However, the current incremental learning is often only for one type of input. For example, if the input images are of the same type, the current incremental model can learn new knowledge while not forgetting old knowledge. However, if several categories are added to the input graphics, the current model will not be able to deal with it correctly, and the accuracy will drop significantly. Therefore, this paper proposes a kind of incremental method, which adjusts the parameters of the model by identifying the prototype vector and increasing the distance of the vector, so that the model can learn new knowledge without catastrophic forgetting. Experiments show the effectiveness of our proposed method.
翻訳日:2022-10-27 11:59:24 公開日:2020-10-09
# プロファイルの学習:Few-Shotラーニングのためのユーザメタプロファイリングネットワーク

Learning to Profile: User Meta-Profile Network for Few-Shot Learning ( http://arxiv.org/abs/2008.12258v2 )

ライセンス: Link先を確認
Hao Gong and Qifang Zhao and Tianyu Li and Derek Cho and DuyKhuong Nguyen(参考訳) メタラーニングアプローチは、ビジョンと言語領域で大きな成功を収めている。 しかし,大規模産業用メタラーニングの実践を論じる研究はほとんどない。 eコマース企業は、より優れたユーザエクスペリエンスを提供するために、表現の学習に多くの努力を費やしてきましたが、このような取り組みは、このステップでは止められません。 強いプロファイルの学習に加えて、学習した表現を効果的に転送する方法に関する課題も同時に提起される。 本稿では3つの側面からこれらの課題に対処するための貢献を紹介する。 1)メタラーニングモデル:eコマースユーザ行動データを用いた表現学習の文脈において,知識伝達と高速適応のためのマッチングネットワークと関係ネットワークのアイデアを拡張するメタラーニングネットワークというメタラーニングフレームワークを提案する。 2) エンコーディング戦略: 大規模長期連続行動データの忠実度を維持するため, モデルを効果的にエンコードできるタイムヒートマップ符号化戦略を提案する。 3)深層ネットワークアーキテクチャ:マルチタスク学習アーキテクチャと組み合わされたマルチモーダルモデルを用いて,クロスドメイン知識学習とラベル問題に対処する。 さらに, 工業モデルは, 精度の点で優れた性能を持つだけでなく, 極端な条件下でのロバスト性や不確実性も向上するべきである。 我々は,様々な極端なシナリオ,すなわち分散外検出,データ不足,クラス不均衡シナリオにおいて,広範囲な制御実験を行い,モデルの性能を評価する。 Meta-Profile Networkはベースラインモデルと比較してモデル性能が大幅に改善されている。

Meta-learning approaches have shown great success in vision and language domains. However, few studies discuss the practice of meta-learning for large-scale industrial applications. Although e-commerce companies have spent many efforts on learning representations to provide a better user experience, we argue that such efforts cannot be stopped at this step. In addition to learning a strong profile, the challenging question about how to effectively transfer the learned representation is raised simultaneously. This paper introduces the contributions that we made to address these challenges from three aspects. 1) Meta-learning model: In the context of representation learning with e-commerce user behavior data, we propose a meta-learning framework called the Meta-Profile Network, which extends the ideas of matching network and relation network for knowledge transfer and fast adaptation; 2) Encoding strategy: To keep high fidelity of large-scale long-term sequential behavior data, we propose a time-heatmap encoding strategy that allows the model to encode data effectively; 3) Deep network architecture: A multi-modal model combined with multi-task learning architecture is utilized to address the cross-domain knowledge learning and insufficient label problems. Moreover, we argue that an industrial model should not only have good performance in terms of accuracy, but also have better robustness and uncertainty performance under extreme conditions. We evaluate the performance of our model with extensive control experiments in various extreme scenarios, i.e. out-of-distribution detection, data insufficiency and class imbalance scenarios. The Meta-Profile Network shows significant improvement in the model performance when compared to baseline models.
翻訳日:2022-10-26 22:03:33 公開日:2020-10-09
# 新型コロナウイルス感染症診断における深層機械学習アルゴリズムの比較

A comparison of deep machine learning algorithms in COVID-19 disease diagnosis ( http://arxiv.org/abs/2008.11639v2 )

ライセンス: Link先を確認
Samir S. Yadav, Jasminder Kaur Sandhu, Mininath R. Bendre, Pratap S. Vikhe, Amandeep Kaur(参考訳) この研究の目的は、画像認識の問題を解決するためにディープニューラルネットワークモデルを使用することである。 近年では、すべての人が、新型コロナウイルス感染症(COVID-19 disease)と呼ばれる有害なウイルスによって脅かされている。 新型コロナウイルスの流行は世界中の多くの国の経済に影響を及ぼす。 新型コロナウイルス(covid-19)患者の早期発見は、社会への拡散や危害を避ける上で非常に不可欠だ。 病理検査とクロマトグラフィー(CT)スキャンは、新型コロナウイルスの診断に有用である。 しかし、これらのテストには多数の偽陽性などの欠点があり、これらのテストのコストは非常に高い。 そのため、有害な新型コロナウイルス(COVID-19)の発見には、簡単で正確で安価な方法を見つける必要がある。 胸部X線は、この疾患の検出に有用である。 そのため、この作業胸部では、現代の機械学習技術を用いて、新型コロナウイルスの疑いのある患者の診断にX線画像を用いている。 結果の分析を行い、画像認識問題におけるディープラーニングアルゴリズムの有効性について結論を導いた。

The aim of the work is to use deep neural network models for solving the problem of image recognition. These days, every human being is threatened by a harmful coronavirus disease, also called COVID-19 disease. The spread of coronavirus affects the economy of many countries in the world. To find COVID-19 patients early is very essential to avoid the spread and harm to society. Pathological tests and Chromatography(CT) scans are helpful for the diagnosis of COVID-19. However, these tests are having drawbacks such as a large number of false positives, and cost of these tests are so expensive. Hence, it requires finding an easy, accurate, and less expensive way for the detection of the harmful COVID-19 disease. Chest-x-ray can be useful for the detection of this disease. Therefore, in this work chest, x-ray images are used for the diagnosis of suspected COVID-19 patients using modern machine learning techniques. The analysis of the results is carried out and conclusions are made about the effectiveness of deep machine learning algorithms in image recognition problems.
翻訳日:2022-10-25 03:33:28 公開日:2020-10-09
# ベンチマーク分析によるFederated Person Re-identificationのパフォーマンス最適化

Performance Optimization for Federated Person Re-identification via Benchmark Analysis ( http://arxiv.org/abs/2008.11560v2 )

ライセンス: Link先を確認
Weiming Zhuang, Yonggang Wen, Xuesen Zhang, Xin Gan, Daiying Yin, Dongzhan Zhou, Shuai Zhang, Shuai Yi(参考訳) フェデレーション学習(Federated Learning)は、分散型クライアント間で共有モデルを学習する、プライバシ保護機械学習技術である。 これは、コンピュータビジョンの重要なタスクである個人再識別に関するプライバシーの懸念を軽減することができる。 本研究では,人間再同定(FedReID)にフェデレート学習を実装し,実世界のシナリオにおける統計的不均一性の影響を最適化する。 我々は最初にFedReIDの性能を調べるために新しいベンチマークを構築した。 本ベンチマークは,(1)異なる領域から異なるボリュームのデータセットを抽出し,現実の異種状況をシミュレートし,(2)2つのシナリオ,(3)FedReIDの強化されたフェデレーションアルゴリズムからなる。 ベンチマーク分析によれば、フェデレーション・バイ・データセットのシナリオで表されるクライアント-エッジ-クラウドアーキテクチャは、federidのクライアント-サーバアーキテクチャよりも優れたパフォーマンスを示している。 また、モデルアグリゲーションの不均衡による大規模なデータセットのパフォーマンス低下や収束の課題など、現実世界のシナリオにおけるfeedreidのボトルネックも明らかにしている。 次に,(1)不均衡重み問題に対処するために,各トレーニングラウンドにおけるクライアントのモデル変化の規模に応じて動的に重み付けを変更する新しい手法を提案し,(2)収束を容易にするために知識蒸留法を適用し,公開データセット上でクライアントモデルから生成された知識を用いてサーバモデルを洗練する。 実験の結果、我々の戦略は全てのデータセットにおいて優れた性能でより優れた収束を実現することができることが示された。 私たちの研究はコミュニティに、現実のシナリオにおけるより多くのコンピュータビジョンタスクに対するフェデレーション学習の実装をさらに探求するきっかけになると考えています。

Federated learning is a privacy-preserving machine learning technique that learns a shared model across decentralized clients. It can alleviate privacy concerns of personal re-identification, an important computer vision task. In this work, we implement federated learning to person re-identification (FedReID) and optimize its performance affected by statistical heterogeneity in the real-world scenario. We first construct a new benchmark to investigate the performance of FedReID. This benchmark consists of (1) nine datasets with different volumes sourced from different domains to simulate the heterogeneous situation in reality, (2) two federated scenarios, and (3) an enhanced federated algorithm for FedReID. The benchmark analysis shows that the client-edge-cloud architecture, represented by the federated-by-dataset scenario, has better performance than client-server architecture in FedReID. It also reveals the bottlenecks of FedReID under the real-world scenario, including poor performance of large datasets caused by unbalanced weights in model aggregation and challenges in convergence. Then we propose two optimization methods: (1) To address the unbalanced weight problem, we propose a new method to dynamically change the weights according to the scale of model changes in clients in each training round; (2) To facilitate convergence, we adopt knowledge distillation to refine the server model with knowledge generated from client models on a public dataset. Experiment results demonstrate that our strategies can achieve much better convergence with superior performance on all datasets. We believe that our work will inspire the community to further explore the implementation of federated learning on more computer vision tasks in real-world scenarios.
翻訳日:2022-10-24 21:29:35 公開日:2020-10-09
# WaveGrad:波形生成のための勾配推定

WaveGrad: Estimating Gradients for Waveform Generation ( http://arxiv.org/abs/2009.00713v2 )

ライセンス: Link先を確認
Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, William Chan(参考訳) 本稿では,データ密度の勾配を推定する波形生成条件モデルであるWaveGradを紹介する。 このモデルは、スコアマッチングと拡散確率モデルに関する先行研究に基づいて構築されている。 ガウス白色ノイズ信号から始まり、メルスペクトログラムに条件づけられた勾配ベースのサンプラーを介して反復的に信号を精錬する。 WaveGradは、改善ステップの数を調整することで、サンプル品質の推論速度を自然な方法で交換し、オーディオ品質の観点から非自己回帰モデルと自己回帰モデルのギャップを埋める。 6回の反復で高忠実度音声サンプルを生成することができることがわかった。 実験により、WaveGradは高忠実度オーディオを生成し、対向的な非自己回帰ベースラインを上回り、より少ないシーケンシャルな操作で強い可能性ベースの自己回帰ベースラインをマッチングする。 オーディオサンプルはhttps://wavegrad.github.io/で入手できる。

This paper introduces WaveGrad, a conditional model for waveform generation which estimates gradients of the data density. The model is built on prior work on score matching and diffusion probabilistic models. It starts from a Gaussian white noise signal and iteratively refines the signal via a gradient-based sampler conditioned on the mel-spectrogram. WaveGrad offers a natural way to trade inference speed for sample quality by adjusting the number of refinement steps, and bridges the gap between non-autoregressive and autoregressive models in terms of audio quality. We find that it can generate high fidelity audio samples using as few as six iterations. Experiments reveal WaveGrad to generate high fidelity audio, outperforming adversarial non-autoregressive baselines and matching a strong likelihood-based autoregressive baseline using fewer sequential operations. Audio samples are available at https://wavegrad.github.io/.
翻訳日:2022-10-22 18:53:23 公開日:2020-10-09
# EfficientSeg: 効率的なセマンティックセグメンテーションネットワーク

EfficientSeg: An Efficient Semantic Segmentation Network ( http://arxiv.org/abs/2009.06469v2 )

ライセンス: Link先を確認
Vahit Bugra Yesilkaynak, Yusuf H. Sahin, Gozde Unal(参考訳) 事前トレーニングされた重みとデータが少ないディープニューラルネットワークトレーニングは、より多くのトレーニングイテレーションを必要とすることが示されている。 より深いモデルが、セマンティックセグメンテーションタスクの浅いモデルよりも成功していることも知られている。 そこで我々は,U-Netの改良と拡張性を備えたアーキテクチャであるEfficientSegを導入する。 同一パラメータ数 (51.5% mIoU) を用いて, Minicity データセットと U-Net ベースラインスコア (40% mIoU) の効率性を評価した。 最も成功したモデルは58.1% mIoUスコアを取得し、ECCV 2020 VIPriors Challengeのセマンティックセグメンテーショントラックで4位を獲得した。

Deep neural network training without pre-trained weights and few data is shown to need more training iterations. It is also known that, deeper models are more successful than their shallow counterparts for semantic segmentation task. Thus, we introduce EfficientSeg architecture, a modified and scalable version of U-Net, which can be efficiently trained despite its depth. We evaluated EfficientSeg architecture on Minicity dataset and outperformed U-Net baseline score (40% mIoU) using the same parameter count (51.5% mIoU). Our most successful model obtained 58.1% mIoU score and got the fourth place in semantic segmentation track of ECCV 2020 VIPriors challenge.
翻訳日:2022-10-18 12:34:18 公開日:2020-10-09
# 教師なし対話構造誘導のための構造的注意

Structured Attention for Unsupervised Dialogue Structure Induction ( http://arxiv.org/abs/2009.08552v2 )

ライセンス: Link先を確認
Liang Qiu, Yizhou Zhao, Weiyan Shi, Yuan Liang, Feng Shi, Tao Yuan, Zhou Yu, Song-Chun Zhu(参考訳) 1つまたは1つの対話から有意義な構造表現を誘導することは、計算言語学において重要だが挑戦的なタスクである。 この分野での進歩は対話システムの設計と談話分析に不可欠である。 文法的推論を解くために拡張することもできる。 本研究では,構造化された注意層を離散的潜在状態を持つ可変リカレントニューラルネットワーク(vrnn)モデルに統合し,教師なしの方法で対話構造を学ぶことを提案する。 バニラVRNNと比較して、構造化された注意は、構造的帰納バイアスを強制しながら、ソース文の埋め込みの異なる部分にフォーカスすることができる。 実験により、構造化された注意を持つVRNNは、この対話コーパスを生成するために使用されるテンプレートに似た意味構造を学ぶ。 マルチパーティ対話データセットでは,話者や住所を識別する対話的構造を学習し,明示的な人間的アノテーションを伴わずに対話を自動的に分離する。

Inducing a meaningful structural representation from one or a set of dialogues is a crucial but challenging task in computational linguistics. Advancement made in this area is critical for dialogue system design and discourse analysis. It can also be extended to solve grammatical inference. In this work, we propose to incorporate structured attention layers into a Variational Recurrent Neural Network (VRNN) model with discrete latent states to learn dialogue structure in an unsupervised fashion. Compared to a vanilla VRNN, structured attention enables a model to focus on different parts of the source sentence embeddings while enforcing a structural inductive bias. Experiments show that on two-party dialogue datasets, VRNN with structured attention learns semantic structures that are similar to templates used to generate this dialogue corpus. While on multi-party dialogue datasets, our model learns an interactive structure demonstrating its capability of distinguishing speakers or addresses, automatically disentangling dialogues without explicit human annotation.
翻訳日:2022-10-17 08:15:57 公開日:2020-10-09
# MARS:マルチドメイン深層学習モデルを用いた人間の活動認識のための仮想・リアルウェアラブルセンサ

MARS: Mixed Virtual and Real Wearable Sensors for Human Activity Recognition with Multi-Domain Deep Learning Model ( http://arxiv.org/abs/2009.09404v2 )

ライセンス: Link先を確認
Ling Pei, Songpengcheng Xia, Lei Chu, Fanyi Xiao, Qi Wu, Wenxian Yu, Robert Qiu(参考訳) モノのインターネット(IoT)の急速な発展とともに、ウェアラブル慣性計測ユニット(IMU)を用いたヒューマンアクティビティ認識(HAR)は多くの研究分野において有望な技術となっている。 近年,深層学習に基づく手法は,HARシステムにおける複雑なデータの理解と解析を行う新しい方法である。 しかし,これらの手法の性能は収集したデータの品質と量に大きく依存している。 本稿では,仮想IMUに基づく大規模データベースの構築を革新的に提案し,その上で3つの技術部分からなる多分野ディープラーニングフレームワークを導入することにより,技術的問題に対処する。 まず,混成畳み込みニューラルネットワーク(CNN)を用いたノイズの多いIMUデータから,単一フレームの人間活動について半教師付き形式で学習することを提案する。 第2部では、抽出されたデータ特徴を不確実性認識一貫性の原則に従って融合し、特徴の重要性を重み付けて不確実性を低減する。 トランスファーラーニングは、トレーニングデータセットの多様性と多様性を高め、提案手法におけるトレーニングおよび特徴伝達のプロセスに有用である、豊富な合成ヒトのポーズを含む、新たにリリースされたArchive of Motion Capture as Surface Shapes (AMASS)データセットに基づいて、最後の部分で実行される。 本手法の有効性と有効性は,real deep inertial poser (dip) データセットで実証された。 実験の結果,提案手法は数回の反復で驚くほど収束し,競合する全ての手法より優れていた。

Together with the rapid development of the Internet of Things (IoT), human activity recognition (HAR) using wearable Inertial Measurement Units (IMUs) becomes a promising technology for many research areas. Recently, deep learning-based methods pave a new way of understanding and performing analysis of the complex data in the HAR system. However, the performance of these methods is mostly based on the quality and quantity of the collected data. In this paper, we innovatively propose to build a large database based on virtual IMUs and then address technical issues by introducing a multiple-domain deep learning framework consisting of three technical parts. In the first part, we propose to learn the single-frame human activity from the noisy IMU data with hybrid convolutional neural networks (CNNs) in the semi-supervised form. For the second part, the extracted data features are fused according to the principle of uncertainty-aware consistency, which reduces the uncertainty by weighting the importance of the features. The transfer learning is performed in the last part based on the newly released Archive of Motion Capture as Surface Shapes (AMASS) dataset, containing abundant synthetic human poses, which enhances the variety and diversity of the training dataset and is beneficial for the process of training and feature transfer in the proposed method. The efficiency and effectiveness of the proposed method have been demonstrated in the real deep inertial poser (DIP) dataset. The experimental results show that the proposed methods can surprisingly converge within a few iterations and outperform all competing methods.
翻訳日:2022-10-16 13:02:24 公開日:2020-10-09
# Aristotelian Rescoring を用いたニューラルストーリー生成のためのコンテンツ計画

Content Planning for Neural Story Generation with Aristotelian Rescoring ( http://arxiv.org/abs/2009.09870v2 )

ライセンス: Link先を確認
Seraphina Goldfarb-Tarrant, Tuhin Chakrabarty, Ralph Weischedel, Nanyun Peng(参考訳) 大きな言語モデルから生成される長文の物語テキストは、人間の文章の流麗な擬人化を管理するが、局所的な文レベルでのみであり、構造や全体的結束が欠如している。 本稿では,高品質なコンテンツプランニングによってストーリー生成の問題の多くに対処できると仮定し,ストーリー生成をガイドするための優れたプロット構造を学習する方法に焦点を当てたシステムを提案する。 aristotle's poeticsに詳述したように、プロット生成言語モデルと、それぞれが優れたストーリーライティングの側面を実装したリカリングモデルのアンサンブルを利用する。 より原則化されたプロット構造で書かれたストーリーは、コンテンツプランを含まないベースラインよりも、与えられたプロンプトと高い品質の両方に関係している、ということが分かりました。

Long-form narrative text generated from large language models manages a fluent impersonation of human writing, but only at the local sentence level, and lacks structure or global cohesion. We posit that many of the problems of story generation can be addressed via high-quality content planning, and present a system that focuses on how to learn good plot structures to guide story generation. We utilize a plot-generation language model along with an ensemble of rescoring models that each implement an aspect of good story-writing as detailed in Aristotle's Poetics. We find that stories written with our more principled plot-structure are both more relevant to a given prompt and higher quality than baselines that do not content plan, or that plan in an unprincipled way.
翻訳日:2022-10-16 04:08:03 公開日:2020-10-09
# Ape210K: 数学語問題の大規模かつテンプレートリッチなデータセット

Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems ( http://arxiv.org/abs/2009.11506v2 )

ライセンス: Link先を確認
Wei Zhao, Mingyue Shang, Yang Liu, Liang Wang, Jingming Liu(参考訳) 近年,自動算数語の問題解決が注目されている。 以前の研究で使用された評価データセットは、スケールと多様性に関して重大な制限がある。 本稿では,Ape210Kという大規模かつテンプレートに富んだ単語問題データセットを新たにリリースする。 210Kの中国の小学校レベルの数学問題で構成されており、これは最大のデータセットMath23Kの9倍の大きさである。 各問題は金の答えと解を得るのに必要な方程式の両方を含んでいる。 Ape210Kは56Kテンプレートで、Math23Kの25倍の多様性がある。 Ape210Kを解くには、自然言語だけでなく常識知識も必要である。 Ape210Kは算術語問題解決システムのためのベンチマークになるだろう。 実験によると、math23kデータセットの最先端のモデルは、ape210kでは性能が悪い。 本稿では,既存モデルのmath23kデータセットを3.2%上回り,ap210kデータセットの強いベースラインとして機能するseq2seqモデルを提案する。 このギャップは、人間と私たちのベースラインモデルの間でも重要なものであり、さらなる研究努力を求めている。 Ape210Kデータセットをhttps://github.com/yuantiku/ape210kで公開しています。

Automatic math word problem solving has attracted growing attention in recent years. The evaluation datasets used by previous works have serious limitations in terms of scale and diversity. In this paper, we release a new large-scale and template-rich math word problem dataset named Ape210K. It consists of 210K Chinese elementary school-level math problems, which is 9 times the size of the largest public dataset Math23K. Each problem contains both the gold answer and the equations needed to derive the answer. Ape210K is also of greater diversity with 56K templates, which is 25 times more than Math23K. Our analysis shows that solving Ape210K requires not only natural language understanding but also commonsense knowledge. We expect Ape210K to be a benchmark for math word problem solving systems. Experiments indicate that state-of-the-art models on the Math23K dataset perform poorly on Ape210K. We propose a copy-augmented and feature-enriched sequence to sequence (seq2seq) model, which outperforms existing models by 3.2% on the Math23K dataset and serves as a strong baseline of the Ape210K dataset. The gap is still significant between human and our baseline model, calling for further research efforts. We make Ape210K dataset publicly available at https://github.com/yuantiku/ape210k
翻訳日:2022-10-15 04:50:08 公開日:2020-10-09
# ベトナムにおけるソーシャルメディアテキストのテキスト増補に関する実証的研究

Empirical Study of Text Augmentation on Social Media Text in Vietnamese ( http://arxiv.org/abs/2009.12319v2 )

ライセンス: Link先を確認
Son T. Luu, Kiet Van Nguyen and Ngan Luu-Thuy Nguyen(参考訳) テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。 実際には、ソーシャルネットワークサイトのユーザーコメントに関するデータは、完全には現れていない。 したがって、ソーシャルネットワーク上でユーザコメントに関するデータを収集する場合、通常、データは1つのラベルに歪められ、データセットが不均衡になり、モデルの能力が低下する。 データ拡張技術はデータセットのクラス間の不均衡問題を解決するために適用され、予測モデルの精度が向上する。 本稿では,ベトナム語ソーシャルテキストにおけるvlsp2019ヘイトスピーチ検出と,ベトナム人学生の感情分析のためのフィードバックコーパスであるuit - vsfcについて拡張手法を行った。 増強の結果は両コーパスのf1-macroスコアで約1.5%増加した。

In the text classification problem, the imbalance of labels in datasets affect the performance of the text-classification models. Practically, the data about user comments on social networking sites not altogether appeared - the administrators often only allow positive comments and hide negative comments. Thus, when collecting the data about user comments on the social network, the data is usually skewed about one label, which leads the dataset to become imbalanced and deteriorate the model's ability. The data augmentation techniques are applied to solve the imbalance problem between classes of the dataset, increasing the prediction model's accuracy. In this paper, we performed augmentation techniques on the VLSP2019 Hate Speech Detection on Vietnamese social texts and the UIT - VSFC: Vietnamese Students' Feedback Corpus for Sentiment Analysis. The result of augmentation increases by about 1.5% in the F1-macro score on both corpora.
翻訳日:2022-10-14 22:59:27 公開日:2020-10-09
# 皮膚病変解析におけるAIの進歩

AI Progress in Skin Lesion Analysis ( http://arxiv.org/abs/2009.13323v2 )

ライセンス: Link先を確認
Philippe M. Burlina, William Paul, Phil A. Mathew, Neil J. Joshi, Alison W. Rebman, John N. Aucott(参考訳) 急性ライム病のエリテマ・ミグランス発疹,特にヘルペス・ゾスター(毛糸),ティナ・コーポリス,エリテマ・マルチフォーム,セル炎,昆虫の噛み傷,あるいは噛み傷などの疾患の皮膚病変の検出におけるAIの使用の進歩について検討した。 本研究は,これらの応用における重要な課題,特に,暗い肌の個体における皮膚画像の欠如に関するaiバイアスの問題,画像中の正常な肌に比べて,興味のある病変や部位を正確に検出,区切ることができること,および低ショット学習(訓練画像のpaucityによる配置分類)について論じる。 これらの問題の解決には、非常に望ましい要件、例えばデライン化(delineation) -- 同様のタイプの病変の曖昧化や、改善された診断 -- から、あるいはAI脱バイアス(de-biasing)のように、皮膚病変分析のためのクリニックに公正なAI技術が展開できるようにするために必要なものまで、さまざまである。 特にローショット学習の問題点として、ベースラインアルゴリズムと比較して、スキン解析アルゴリズムが優雅に劣化し、なおかつ低ショットで良好な性能を保っていることを報告する: クラス毎に10のトレーニング例を用いると、ベースラインDLアルゴリズムの性能は56.41%の精度で著しく低下し、最高のローショットアルゴリズムは85.26%の精度が得られる。

We examine progress in the use of AI for detecting skin lesions, with particular emphasis on the erythema migrans rash of acute Lyme disease, and other lesions, such as those from conditions like herpes zoster (shingles), tinea corporis, erythema multiforme, cellulitis, insect bites, or tick bites. We discuss important challenges for these applications, in particular the problems of AI bias regarding the lack of skin images in dark skinned individuals, being able to accurately detect, delineate, and segment lesions or regions of interest compared to normal skin in images, and low shot learning (addressing classification with a paucity of training images). Solving these problems ranges from being highly desirable requirements -- e.g. for delineation, which may be useful to disambiguate between similar types of lesions, and perform improved diagnostics -- or required, as is the case for AI de-biasing, to allow for the deployment of fair AI techniques in the clinic for skin lesion analysis. For the problem of low shot learning in particular, we report skin analysis algorithms that gracefully degrade and still perform well at low shots, when compared to baseline algorithms: when using a little as 10 training exemplars per class, the baseline DL algorithm performance significantly degrades, with accuracy of 56.41%, close to chance, whereas the best performing low shot algorithm yields an accuracy of 85.26%.
翻訳日:2022-10-13 21:40:17 公開日:2020-10-09
# リーダ:より高速なワードベクターシリアライゼーションのための長さのプリフィックス

Leader: Prefixing a Length for Faster Word Vector Serialization ( http://arxiv.org/abs/2009.13699v2 )

ライセンス: Link先を確認
Brian Lester(参考訳) 競合する2つのファイルフォーマットは、事前訓練された単語埋め込みを配布するデファクトスタンダードとなっている。 どちらも、そのフォーマットで配布される最も人気のある事前学習された埋め込みから名付けられた。 GloVeフォーマットは、巨大なファイルサイズと遅い読み込みに悩まされる、完全にテキストベースのフォーマットであり、 word2vecフォーマットは、単語のテキスト表現とベクトル自体のバイナリ表現を混ぜた、より小さなバイナリフォーマットである。 両方のフォーマットには、私たちがリーダーフォーマットと呼ぶ新しいフォーマットで解決する問題があります。 バイナリフォーマットが提供するファイルサイズを小さく保ちながら、より高速な読み込みのためのワード長プレフィックスを含めます。 また、さまざまな単語ベクトルフォーマットの読み書きを容易にするミニマリストライブラリや、トレーニング済みの埋め込みを新しいリーダフォーマットに変換するツールも作成しました。

Two competing file formats have become the de facto standards for distributing pre-trained word embeddings. Both are named after the most popular pre-trained embeddings that are distributed in that format. The GloVe format is an entirely text based format that suffers from huge file sizes and slow reads, and the word2vec format is a smaller binary format that mixes a textual representation of words with a binary representation of the vectors themselves. Both formats have problems that we solve with a new format we call the Leader format. We include a word length prefix for faster reads while maintaining the smaller file size a binary format offers. We also created a minimalist library to facilitate the reading and writing of various word vector formats, as well as tools for converting pre-trained embeddings to our new Leader format.
翻訳日:2022-10-13 06:10:46 公開日:2020-10-09
# 表現の多様性を高めるための複数単語埋め込み

Multiple Word Embeddings for Increased Diversity of Representation ( http://arxiv.org/abs/2009.14394v2 )

ライセンス: Link先を確認
Brian Lester, Daniel Pressel, Amy Hemmeter, Sagnik Ray Choudhury and Srinivas Bangalore(参考訳) 自然言語処理(nlp)の最先端モデルの多くは、コンテキスト内の単語の表現を生成し、手元のタスク用に微調整された、大規模で事前学習されたコンテキスト言語モデル上に構築されたニューラルモデルである。 これらの「コンテキスト埋め込み」によって得られる改善は計算コストが高い。 本研究では,実行時間の増加を無視して,強力なベースライン上での性能を実質的にかつ一貫して向上させる,シンプルな手法について検討する。 単語の表現を強化するために、複数の事前学習された埋め込みを結合する。 この結合技術は多くのタスク、データセット、モデルタイプにわたって機能することを示す。 我々は,事前学習された組込みの類似性と語彙のカバレッジの側面を分析し,異なる訓練済み組込み間の表現的多様性が,この手法が機能する理由の原動力であることを見出した。 TensorFlowとPyTorchの両方で、私たちのモデルのオープンソース実装を提供しています。

Most state-of-the-art models in natural language processing (NLP) are neural models built on top of large, pre-trained, contextual language models that generate representations of words in context and are fine-tuned for the task at hand. The improvements afforded by these "contextual embeddings" come with a high computational cost. In this work, we explore a simple technique that substantially and consistently improves performance over a strong baseline with negligible increase in run time. We concatenate multiple pre-trained embeddings to strengthen our representation of words. We show that this concatenation technique works across many tasks, datasets, and model types. We analyze aspects of pre-trained embedding similarity and vocabulary coverage and find that the representational diversity between different pre-trained embeddings is the driving force of why this technique works. We provide open source implementations of our models in both TensorFlow and PyTorch.
翻訳日:2022-10-12 23:27:05 公開日:2020-10-09
# TaxiNLI:NLUの丘を乗り越える

TaxiNLI: Taking a Ride up the NLU Hill ( http://arxiv.org/abs/2009.14505v3 )

ライセンス: Link先を確認
Pratik Joshi, Somak Aditya, Aalok Sathe, Monojit Choudhury(参考訳) トレーニング済みのTransformerベースのニューラルアーキテクチャは、自然言語推論(NLI)タスクにおける最先端のパフォーマンスを一貫して達成している。 NLIの例は多種多様な言語的、論理的、推論的な現象を含んでいるため、どの概念が訓練されたシステムによって学習され、どのようにして強力な一般化を達成できるかは定かではない。 そこで本研究では,NLIタスクに関連するカテゴリの分類階層を提案する。 我々は、MNLIデータセット(Williams et al., 2018)から10kのサンプルをこれらの分類学的ラベルと組み合わせた新しいデータセットであるTAXINLIを紹介する。 TAXINLIに関する様々な実験を通して、特定の分類学的カテゴリにおいて、SOTAニューラルモデルはほぼ完璧な精度(以前のモデルよりも大きなジャンプ)を達成したが、いくつかのカテゴリは依然として困難である。 我々の研究は、現在のNLIシステムとデータセットのギャップを、体系的な推論カテゴリのプレゼンテーションと分析を通じて示す、成長する文献の体系に追加します。

Pre-trained Transformer-based neural architectures have consistently achieved state-of-the-art performance in the Natural Language Inference (NLI) task. Since NLI examples encompass a variety of linguistic, logical, and reasoning phenomena, it remains unclear as to which specific concepts are learnt by the trained systems and where they can achieve strong generalization. To investigate this question, we propose a taxonomic hierarchy of categories that are relevant for the NLI task. We introduce TAXINLI, a new dataset, that has 10k examples from the MNLI dataset (Williams et al., 2018) with these taxonomic labels. Through various experiments on TAXINLI, we observe that whereas for certain taxonomic categories SOTA neural models have achieved near perfect accuracies - a large jump over the previous models - some categories still remain difficult. Our work adds to the growing body of literature that shows the gaps in the current NLI systems and datasets through a systematic presentation and analysis of reasoning categories.
翻訳日:2022-10-12 22:25:04 公開日:2020-10-09
# 交互投影によるスパース3次元データのマッピング

Mapping of Sparse 3D Data using Alternating Projection ( http://arxiv.org/abs/2010.02516v2 )

ライセンス: Link先を確認
Siddhant Ranade, Xin Yu, Shantnu Kakkar, Pedro Miraldo, Srikumar Ramalingam(参考訳) テクスチャなしでスパース3Dスキャンを登録するための新しい手法を提案する。 KinectFusion や Iterative Closest Points (ICP) のような既存の手法は、高密度の点雲に強く依存しているが、このタスクは、RGBデータのないスパース条件下では特に困難である。 スパーステクスチャレスデータは高品質な境界信号を持っておらず、コーナー、ジャンクション、境界線からの対応の使用を禁止している。 さらに、スパースデータの場合、2つの連続したスキャンで同じポイントがキャプチャされると仮定するのは誤りである。 異なるアプローチを採用し、まず多数のラインセグメントを使用してポイントクラウドを再パラメータ化します。 この再パラメータ化されたデータには、登録タスクの解決を可能にする多くのライン交叉(および対応しない)制約が存在します。 交差制約と剛性制約の同時満足度として登録を定式化した2段階交互投影アルゴリズムを提案する。 提案手法はkinectとlidarのデータセットで他のトップスコーリングアルゴリズムよりも優れている。 kinectでは、100倍のダウンサンプリングされたスパースデータを使用し、フルレゾリューションデータで動作する競合する方法よりも優れています。

We propose a novel technique to register sparse 3D scans in the absence of texture. While existing methods such as KinectFusion or Iterative Closest Points (ICP) heavily rely on dense point clouds, this task is particularly challenging under sparse conditions without RGB data. Sparse texture-less data does not come with high-quality boundary signal, and this prohibits the use of correspondences from corners, junctions, or boundary lines. Moreover, in the case of sparse data, it is incorrect to assume that the same point will be captured in two consecutive scans. We take a different approach and first re-parameterize the point-cloud using a large number of line segments. In this re-parameterized data, there exists a large number of line intersection (and not correspondence) constraints that allow us to solve the registration task. We propose the use of a two-step alternating projection algorithm by formulating the registration as the simultaneous satisfaction of intersection and rigidity constraints. The proposed approach outperforms other top-scoring algorithms on both Kinect and LiDAR datasets. In Kinect, we can use 100X downsampled sparse data and still outperform competing methods operating on full-resolution data.
翻訳日:2022-10-11 04:07:21 公開日:2020-10-09
# 創発的な言語の文法

The Grammar of Emergent Languages ( http://arxiv.org/abs/2010.02069v2 )

ライセンス: Link先を確認
Oskar van der Wal, Silvan de Boer, Elia Bruni and Dieuwke Hupkes(参考訳) 本稿では,自然言語解析のために考案されたunsupervised grammar induction (ugi) 手法を用いて,参照ゲームに出現する言語の構文特性について考察する。 提案手法は創発的言語を分析するのに適しており、また、典型的な参照ゲーム設定で出現する言語が構文構造を示すかどうか、また、エージェントが使用可能なシンボルの最大メッセージ長と数にどの程度依存しているかについて検討する。 実験により, 構造形成には一定のメッセージ長と語彙サイズが必要であるが, 人間の言語に類似した構文特性を得るためには, より洗練されたゲームシナリオが必要であることが示された。 UGI技術は創発的言語を解析するための標準ツールキットの一部であり、将来の研究者のためにそのような分析を容易にする包括的ライブラリをリリースすべきである。

In this paper, we consider the syntactic properties of languages emerged in referential games, using unsupervised grammar induction (UGI) techniques originally designed to analyse natural language. We show that the considered UGI techniques are appropriate to analyse emergent languages and we then study if the languages that emerge in a typical referential game setup exhibit syntactic structure, and to what extent this depends on the maximum message length and number of symbols that the agents are allowed to use. Our experiments demonstrate that a certain message length and vocabulary size are required for structure to emerge, but they also illustrate that more sophisticated game scenarios are required to obtain syntactic properties more akin to those observed in human language. We argue that UGI techniques should be part of the standard toolkit for analysing emergent languages and release a comprehensive library to facilitate such analysis for future researchers.
翻訳日:2022-10-10 20:12:57 公開日:2020-10-09
# オープンワールド知識グラフ補完のための確率的ケースベース推論

Probabilistic Case-based Reasoning for Open-World Knowledge Graph Completion ( http://arxiv.org/abs/2010.03548v2 )

ライセンス: Link先を確認
Rajarshi Das, Ameya Godbole, Nicholas Monath, Manzil Zaheer, Andrew McCallum(参考訳) ケースベース推論(CBR)システムは、与えられた問題に類似した「ケース」を検索することで、新しい問題を解決する。 そのようなシステムが高い精度を達成できれば、その単純さ、解釈性、拡張性により魅力的である。 本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。 提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。 我々の確率論的モデルは、与えられたエンティティに関するクエリに答えるためにパスが有効である可能性を推定する。 このモデルのパラメータは単純なパス統計を用いて効率的に計算でき、反復最適化は不要である。 我々のモデルは非パラメトリックであり、KBに新しい実体と関係が加えられるにつれて動的に成長する。 いくつかのベンチマークデータセットでは、我々のアプローチは他のルール学習手法よりも大幅に優れており、最先端の埋め込みベースのアプローチと互換性がある。 さらに、新しいエンティティがオンライン形式で到着し、最先端のアプローチを著しく上回り、最高のオフライン手法とほぼ一致する「オープンワールド」環境で、我々のモデルの有効性を実証する。 コードはhttps://github.com/ameyagodbole/prob-cbrで利用可能

A case-based reasoning (CBR) system solves a new problem by retrieving `cases' that are similar to the given problem. If such a system can achieve high accuracy, it is appealing owing to its simplicity, interpretability, and scalability. In this paper, we demonstrate that such a system is achievable for reasoning in knowledge-bases (KBs). Our approach predicts attributes for an entity by gathering reasoning paths from similar entities in the KB. Our probabilistic model estimates the likelihood that a path is effective at answering a query about the given entity. The parameters of our model can be efficiently computed using simple path statistics and require no iterative optimization. Our model is non-parametric, growing dynamically as new entities and relations are added to the KB. On several benchmark datasets our approach significantly outperforms other rule learning approaches and performs comparably to state-of-the-art embedding-based approaches. Furthermore, we demonstrate the effectiveness of our model in an "open-world" setting where new entities arrive in an online fashion, significantly outperforming state-of-the-art approaches and nearly matching the best offline method. Code available at https://github.com/ameyagodbole/Prob-CBR
翻訳日:2022-10-09 23:30:38 公開日:2020-10-09
# TeaForN:N-gramで教師を強制する

TeaForN: Teacher-Forcing with N-grams ( http://arxiv.org/abs/2010.03494v2 )

ライセンス: Link先を確認
Sebastian Goodman, Nan Ding, Radu Soricut(参考訳) 教師の強制力で訓練されたシーケンス生成モデルは、露出バイアスや時間経過による差異の欠如に関連する問題に悩まされる。 提案手法であるTeacher-Forcing with N-grams (TeaForN) は,Nの予測ステップに基づくモデルパラメータの更新を可能にする二次時間軸に沿ってデコードするように訓練されたNデコーダのスタックを用いて,これらの問題を直接的に解決する。 TeaForNは幅広い種類のデコーダアーキテクチャで使用することができ、標準的な教師強制設定から最小限の変更を必要とする。 経験的に、TeaForNは1つの機械学習ベンチマーク、WMT 2014 English- French、および2つのNews Summarizationベンチマーク、CNN/DailymailとGigawordで生成品質を向上させる。

Sequence generation models trained with teacher-forcing suffer from issues related to exposure bias and lack of differentiability across timesteps. Our proposed method, Teacher-Forcing with N-grams (TeaForN), addresses both these problems directly, through the use of a stack of N decoders trained to decode along a secondary time axis that allows model parameter updates based on N prediction steps. TeaForN can be used with a wide class of decoder architectures and requires minimal modifications from a standard teacher-forcing setup. Empirically, we show that TeaForN boosts generation quality on one Machine Translation benchmark, WMT 2014 English-French, and two News Summarization benchmarks, CNN/Dailymail and Gigaword.
翻訳日:2022-10-09 23:20:10 公開日:2020-10-09
# 潜在空間学習による条件付き生成モデリング

Conditional Generative Modeling via Learning the Latent Space ( http://arxiv.org/abs/2010.03132v2 )

ライセンス: Link先を確認
Sameera Ramasinghe, Kanchana Ranasinghe, Salman Khan, Nick Barnes, and Stephen Gould(参考訳) ディープラーニングはいくつかの機械学習タスクで魅力的な結果を得たが、ほとんどのモデルは推論において決定論的であり、その応用は単一モード設定に制限されている。 回帰コスト関数の族を最小化しながら、潜在変数を用いて一般化可能な学習パターンをモデル化する多モーダル空間における条件生成のための新しい汎用フレームワークを提案する。 推論では、潜在変数は複数の出力モードに対応する最適な解を見つけるために最適化される。 既存の生成解と比較すると,マルチモーダル空間において,提案手法は高速で安定な収束を示し,下流タスクに対するより良い表現を学ぶことができる。 重要なのは、さまざまなタスクでドメインの専門知識を使いながら、さまざまなアウトプットを生成することで、高度にエンジニアリングされたパイプラインを破ることができる、シンプルなジェネリックモデルを提供することだ。 私たちのコードはリリースされます。

Although deep learning has achieved appealing results on several machine learning tasks, most of the models are deterministic at inference, limiting their application to single-modal settings. We propose a novel general-purpose framework for conditional generation in multimodal spaces, that uses latent variables to model generalizable learning patterns while minimizing a family of regression cost functions. At inference, the latent variables are optimized to find optimal solutions corresponding to multiple output modes. Compared to existing generative solutions, in multimodal spaces, our approach demonstrates faster and stable convergence, and can learn better representations for downstream tasks. Importantly, it provides a simple generic model that can beat highly engineered pipelines tailored using domain expertise on a variety of tasks, while generating diverse outputs. Our codes will be released.
翻訳日:2022-10-09 22:26:27 公開日:2020-10-09
# すべての虐待を検知! 普遍的虐待言語検出モデルに向けて

Detect All Abuse! Toward Universal Abusive Language Detection Models ( http://arxiv.org/abs/2010.03776v2 )

ライセンス: Link先を確認
Kunze Wang, Dong Lu, Soyeon Caren Han, Siqu Long, Josiah Poon(参考訳) オンライン虐待言語検出(ALD)は近年重要度が高まっている社会問題となっている。 オンラインaldの以前のいくつかの作品は、twitterのような単一のドメインで単一の乱用言語問題を解決することに重点を置いており、一般的なaldタスクやドメインへの転送に成功していない。 本稿では,複数のドメインにまたがる複数のALDタスクに対処可能な新しい汎用ALDフレームワークMACASを紹介する。 汎用フレームワークは、乱用言語のターゲットとコンテンツの側面を表現するマルチスペクトル乱用言語埋め込みを対象とし、ユーザの言語行動を分析するテキストグラフ埋め込みを適用する。 そこで我々は,多面的な乱用言語を受け入れるために,クロスアテンションゲートフロー機構を提案する。 定量的・質的評価の結果,我々のaldアルゴリズムは,乱用言語と異なるオンラインコミュニティドメインの複数の側面をカバーする7つのaldデータセットにまたがる6つの最先端aldアルゴリズムに匹敵する,あるいは匹敵することを示した。

Online abusive language detection (ALD) has become a societal issue of increasing importance in recent years. Several previous works in online ALD focused on solving a single abusive language problem in a single domain, like Twitter, and have not been successfully transferable to the general ALD task or domain. In this paper, we introduce a new generic ALD framework, MACAS, which is capable of addressing several types of ALD tasks across different domains. Our generic framework covers multi-aspect abusive language embeddings that represent the target and content aspects of abusive language and applies a textual graph embedding that analyses the user's linguistic behaviour. Then, we propose and use the cross-attention gate flow mechanism to embrace multiple aspects of abusive language. Quantitative and qualitative evaluation results show that our ALD algorithm rivals or exceeds the six state-of-the-art ALD algorithms across seven ALD datasets covering multiple aspects of abusive language and different online community domains.
翻訳日:2022-10-09 12:06:53 公開日:2020-10-09
# 近最適比較に基づくクラスタリング

Near-Optimal Comparison Based Clustering ( http://arxiv.org/abs/2010.03918v2 )

ライセンス: Link先を確認
Micha\"el Perrot and Pascal Mattia Esser and Debarghya Ghoshdastidar(参考訳) クラスタリングの目標は、類似のオブジェクトを意味のあるパーティションにグループ化することです。 このプロセスは、オブジェクト間の明示的な類似性測度が与えられるときによく理解される。 しかし、この情報が手軽に入手できなければ、その代わりに「対象 i は k よりも j に類似している」といった順序比較のみを観察する。 本稿では, 半定値プログラミング(SDP)に基づくクラスタリング手法を使用する前に, 比較からペアワイズ類似度行列を推定する。 提案手法は, ほぼ最適数のパッシブ比較を用いて, 植え込みクラスタリングを正確に復元できることを理論的に示す。 我々は理論的な知見を実証的に検証し,実データに対する方法のよい振る舞いを示す。

The goal of clustering is to group similar objects into meaningful partitions. This process is well understood when an explicit similarity measure between the objects is given. However, far less is known when this information is not readily available and, instead, one only observes ordinal comparisons such as "object i is more similar to j than to k." In this paper, we tackle this problem using a two-step procedure: we estimate a pairwise similarity matrix from the comparisons before using a clustering method based on semi-definite programming (SDP). We theoretically show that our approach can exactly recover a planted clustering using a near-optimal number of passive comparisons. We empirically validate our theoretical findings and demonstrate the good behaviour of our method on real data.
翻訳日:2022-10-09 11:31:23 公開日:2020-10-09
# コンパクト言語モデルにおける事前学習データ量の重要性について

On the importance of pre-training data volume for compact language models ( http://arxiv.org/abs/2010.03813v2 )

ライセンス: Link先を確認
Vincent Micheli, Martin d'Hoffschmidt, Fran\c{c}ois Fleuret(参考訳) 言語モデリングの最近の進歩は、計算集約的で資源需要の高い最先端のモデルに繋がった。 持続可能な実践に向けた取り組みとして,データボリュームの事前トレーニングがコンパクト言語モデルに与える影響について検討する。 複数のBERTベースのモデルは、徐々に増大するフランス語のテキストに基づいて訓練される。 フランスの質問応答データセット(fquad)を微調整することで、100mbのテキストでパフォーマンスの良いモデルが得られることを観察した。 さらに, 従来より低量の事前学習データにおいて, タスク固有コーパスの中間訓練ステップが大幅に改善されないことを示す。

Recent advances in language modeling have led to computationally intensive and resource-demanding state-of-the-art models. In an effort towards sustainable practices, we study the impact of pre-training data volume on compact language models. Multiple BERT-based models are trained on gradually increasing amounts of French text. Through fine-tuning on the French Question Answering Dataset (FQuAD), we observe that well-performing models are obtained with as little as 100 MB of text. In addition, we show that past critically low amounts of pre-training data, an intermediate pre-training step on the task-specific corpus does not yield substantial improvements.
翻訳日:2022-10-09 11:14:07 公開日:2020-10-09
# 強化学習における内在的象徴的報酬の学習

Learning Intrinsic Symbolic Rewards in Reinforcement Learning ( http://arxiv.org/abs/2010.03694v2 )

ライセンス: Link先を確認
Hassam Sheikh, Shauharda Khadka, Santiago Miret, Somdeb Majumdar(参考訳) 疎外目標に対する効果的な政策学習は、深層強化学習(RL)において重要な課題である。 一般的なアプローチは、タスク学習性を改善するためにタスク関連の密集した報酬を設計することである。 このような報酬は容易に解釈できるが、ヒューリスティックスやドメインの専門知識に依存している。 ニューラルネットワークを訓練して高密度サロゲート報酬を発見するという代替アプローチは、ヒューリスティックスは避けるが、高次元のブラックボックスソリューションで、解釈性はほとんどない。 本稿では,低次元のシンボルツリーの形で高密度報酬を発見する手法を提案する。 木は単純な機能演算子を使用してエージェントの観察結果をスカラー報酬にマッピングし、ニューラルネットワークポリシーのポリシー勾配学習を監督する。 本手法をmujocoにおける連続的アクション空間とatariおよびpygame環境における離散的アクション空間上でテストする。 得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。 特に、検討されたすべての環境において、現代のニューラルネットワークに基づく報酬発見アルゴリズムを広く利用している。

Learning effective policies for sparse objectives is a key challenge in Deep Reinforcement Learning (RL). A common approach is to design task-related dense rewards to improve task learnability. While such rewards are easily interpreted, they rely on heuristics and domain expertise. Alternate approaches that train neural networks to discover dense surrogate rewards avoid heuristics, but are high-dimensional, black-box solutions offering little interpretability. In this paper, we present a method that discovers dense rewards in the form of low-dimensional symbolic trees - thus making them more tractable for analysis. The trees use simple functional operators to map an agent's observations to a scalar reward, which then supervises the policy gradient learning of a neural network policy. We test our method on continuous action spaces in Mujoco and discrete action spaces in Atari and Pygame environments. We show that the discovered dense rewards are an effective signal for an RL policy to solve the benchmark tasks. Notably, we significantly outperform a widely used, contemporary neural-network based reward-discovery algorithm in all environments considered.
翻訳日:2022-10-09 11:12:39 公開日:2020-10-09
# BERTering RAMS: BERTはすでにイベント引数についてどのくらい知っているか? --RAMSデータセットに関する研究

BERTering RAMS: What and How Much does BERT Already Know About Event Arguments? -- A Study on the RAMS Dataset ( http://arxiv.org/abs/2010.04098v2 )

ライセンス: Link先を確認
Varun Gangal, Eduard Hovy(参考訳) 注意マップに基づく調査フレームワーク(Clark et al., 2019)を用いて、RAMSデータセット(Ebner et al., 2020)上では、BERTの注目ヘッドは、トレーニングやドメインの微調整を伴わないイベント引数を検出できる、わずかながらはるかに高い精度で、Placeが17.77%、Artifactが51.61%まで変化していることを観察した。 次に、これらの頭部の線形結合は、利用可能な全イベント引数検出監督の約11%と推定され、いくつかの役割においてパフォーマンスを良く押し上げることができる(最高2つは被害者(68.29%の精度)と人工物(58.82%の精度)。 さらに,提案手法がクロス文イベントの議論にどの程度有効かを検討する。 そこで本研究では,文内引数とは別個に,文間引数検出のための「ベストヘッド」を分離する手法を提案する。 このように推定される頭部は、他の文にすでに議論が存在するという非現実的な仮定の下でのみ、共同で推定される等価量よりも優れたクロス文性能を有する。 最後に、金の議論と役割の間の語彙周波数に基づく関係から、我々の数がどのようにして生じるかを明らかにする。 我々は,金の引数をランダムに生成した"nonce"ワードに置き換えることで,逆テスト例を生成する手法であるNONCEを提案する。 学習線形の組み合わせはnonceにロバストであるが、個々のベストヘッドはより敏感である。

Using the attention map based probing frame-work from (Clark et al., 2019), we observe that, on the RAMS dataset (Ebner et al., 2020), BERT's attention heads have modest but well above-chance ability to spot event arguments sans any training or domain finetuning, vary-ing from a low of 17.77% for Place to a high of 51.61% for Artifact. Next, we find that linear combinations of these heads, estimated with approx 11% of available total event argument detection supervision, can push performance well-higher for some roles - highest two being Victim (68.29% Accuracy) and Artifact(58.82% Accuracy). Furthermore, we investigate how well our methods do for cross-sentence event arguments. We propose a procedure to isolate "best heads" for cross-sentence argument detection separately of those for intra-sentence arguments. The heads thus estimated have superior cross-sentence performance compared to their jointly estimated equivalents, albeit only under the unrealistic assumption that we already know the argument is present in an-other sentence. Lastly, we seek to isolate to what extent our numbers stem from lexical frequency based associations between gold arguments and roles. We propose NONCE, a scheme to create adversarial test examples by replacing gold arguments with randomly generated "nonce" words. We find that learnt linear combinations are robust to NONCE, though individual best heads can be more sensitive.
翻訳日:2022-10-09 11:03:32 公開日:2020-10-09
# 深部オートエンコーダによるキルヒホフ板の曲げ・振動・座屈解析

Deep Autoencoder based Energy Method for the Bending, Vibration, and Buckling Analysis of Kirchhoff Plates ( http://arxiv.org/abs/2010.05698v1 )

ライセンス: Link先を確認
Xiaoying Zhuang, Hongwei Guo, Naif Alajlan, Timon Rabczuk(参考訳) 本稿では,キルヒホフ板の曲げ・振動・座屈解析を行うため,daem(deep autoencoder based energy method)を提案する。 DAEMはDAEMの高次連続性を生かし、教師なし特徴学習法を生成する1つのフレームワークにおいて、ディープオートエンコーダと最小全電位原理を統合する。 DAEMは、特定のタイプのフィードフォワードディープニューラルネットワーク(DNN)であり、機能近似としても機能する。 DAEMは,ロバストな特徴抽出能力により,フィールド変数,自然周波数,臨界座屈荷重係数などのエネルギー系全体のパターンをより効率的に同定することができる。 目的は全ポテンシャルエネルギーを最小化することである。 daemは、物理領域内のランダムな生成点に基づいて教師なし学習を行い、全ポテンシャルエネルギーを全点で最小化する。 振動・座屈解析では、レイリーの原理に基づいて損失関数を構築し、基本周波数と臨界座屈荷重を抽出する。 連続性条件を満たし, 曲げ解析下での勾配消失・爆発問題を緩和する機械モデルのスケールド双曲的タンジェント活性化関数を提案する。 DAEMを簡単に実装でき、PytorchライブラリとLBFGSオプティマイザを採用した。 DAEM構成に関する総合的な研究は、様々なジオメトリ、負荷条件、境界条件を持ついくつかの数値例に対して行われた。

In this paper, we present a deep autoencoder based energy method (DAEM) for the bending, vibration and buckling analysis of Kirchhoff plates. The DAEM exploits the higher order continuity of the DAEM and integrates a deep autoencoder and the minimum total potential principle in one framework yielding an unsupervised feature learning method. The DAEM is a specific type of feedforward deep neural network (DNN) and can also serve as function approximator. With robust feature extraction capacity, the DAEM can more efficiently identify patterns behind the whole energy system, such as the field variables, natural frequency and critical buckling load factor studied in this paper. The objective function is to minimize the total potential energy. The DAEM performs unsupervised learning based on random generated points inside the physical domain so that the total potential energy is minimized at all points. For vibration and buckling analysis, the loss function is constructed based on Rayleigh's principle and the fundamental frequency and the critical buckling load is extracted. A scaled hyperbolic tangent activation function for the underlying mechanical model is presented which meets the continuity requirement and alleviates the gradient vanishing/explosive problems under bending analysis. The DAEM can be easily implemented and we employed the Pytorch library and the LBFGS optimizer. A comprehensive study of the DAEM configuration is performed for several numerical examples with various geometries, load conditions, and boundary conditions.
翻訳日:2022-10-09 06:38:36 公開日:2020-10-09
# AI Chiller:BMSと環境データの融合によるビッグデータ分析によるHVACシステム構築の省エネのためのオープンIoTクラウドベースの機械学習フレームワーク

AI Chiller: An Open IoT Cloud Based Machine Learning Framework for the Energy Saving of Building HVAC System via Big Data Analytics on the Fusion of BMS and Environmental Data ( http://arxiv.org/abs/2011.01047v1 )

ライセンス: Link先を確認
Yong Yu(参考訳) 建物における省エネルギーと二酸化炭素排出量削減は気候変動対策の鍵となる手段の一つである。 暖房、換気、空調(hvac)システムは、構築された環境におけるエネルギー消費量の大部分を占めており、その内、冷却プラントが最上位を占めている。 シラーシステムの電力消費の最適化は、機械工学と建築サービス領域で広く研究されてきた。 多くの作品は、ドメイン知識から物理モデルを採用する。 ビッグデータとAIの進歩により、最適化問題への機械学習の採用が人気を集めている。 多くの研究やプロジェクトは省エネのためにこの方向に向かうが、最適化問題への応用は依然として難しい課題である。 この作業は、省エネのベンチマーク方法、全体的あるいは個人的モデリングの使用方法、最適化の実施方法、初期配置におけるデータパターンの強化が必須であること、段階的に増加する変更戦略を使用する必要がある理由、といった問題に対するフレームワークの概略を目的としている。 歴史的データの解析結果と実データに関する実証実験について述べる。

Energy saving and carbon emission reduction in buildings is one of the key measures in combating climate change. Heating, Ventilation, and Air Conditioning (HVAC) system account for the majority of the energy consumption in the built environment, and among which, the chiller plant constitutes the top portion. The optimization of chiller system power consumption had been extensively studied in the mechanical engineering and building service domains. Many works employ physical models from the domain knowledge. With the advance of big data and AI, the adoption of machine learning into the optimization problems becomes popular. Although many research works and projects turn to this direction for energy saving, the application into the optimization problem remains a challenging task. This work is targeted to outline a framework for such problems on how the energy saving should be benchmarked, if holistic or individually modeling should be used, how the optimization is to be conducted, why data pattern augmentation at the initial deployment is a must, why the gradually increasing changes strategy must be used. Results of analysis on historical data and empirical experiment on live data are presented.
翻訳日:2022-10-09 06:38:11 公開日:2020-10-09
# 新しい遺伝子型からフェノタイプを予測するクロスレベル情報伝達ネットワーク:癌精密医療への応用

A Cross-Level Information Transmission Network for Predicting Phenotype from New Genotype: Application to Cancer Precision Medicine ( http://arxiv.org/abs/2010.04824v1 )

ライセンス: Link先を確認
Di He, Lei Xie(参考訳) 生物学と生態学における未解決の根本的な問題は、環境摂動(例えば薬物処理)下で生物の新しい遺伝的構成(遺伝子型)から観察可能な形質(表現型)を予測することである。 複数の omics データの出現は新しい機会を提供するが、遺伝子型-表現型関係の予測モデリングにおいて大きな課題を課す。 第一に、ゲノムデータの高次元性とラベル付きデータの欠如により、既存の教師付き学習技術は成功しないことが多い。 第二に、異なるリソースから異質なオミクスデータを統合することは難しい課題である。 最後に、DNAから表現型への情報伝達は、RNA、タンパク質、代謝物などの複数の中間レベルを含む。 高レベルの特徴(例えば遺伝子発現)は、通常低レベルの特徴(例えば体性突然変異)よりも強い識別力を持つ。 上記の問題に対処するため、我々は新しいクロスレベル情報伝送ネットワーク(CLEIT)フレームワークを提案した。 CLEITは、生物学的システムの非対称な多レベル組織を明示的にモデル化することを目的としている。 ドメイン適応にインスパイアされたCLEITは、まず高レベルのドメインの潜在表現を学び、それを使って低レベルのドメインの表現学習を対照的な損失の形で改善する。 さらに、CLEITの一般化性を向上させるために、ラベルのない異種オミクスデータを活用するためのトレーニング済み微調整手法を採用する。 そこで本研究では,CLEITの遺伝子解析による体細胞突然変異に対する抗癌剤感受性の予測における効果と性能の向上について述べる。

An unsolved fundamental problem in biology and ecology is to predict observable traits (phenotypes) from a new genetic constitution (genotype) of an organism under environmental perturbations (e.g., drug treatment). The emergence of multiple omics data provides new opportunities but imposes great challenges in the predictive modeling of genotype-phenotype associations. Firstly, the high-dimensionality of genomics data and the lack of labeled data often make the existing supervised learning techniques less successful. Secondly, it is a challenging task to integrate heterogeneous omics data from different resources. Finally, the information transmission from DNA to phenotype involves multiple intermediate levels of RNA, protein, metabolite, etc. The higher-level features (e.g., gene expression) usually have stronger discriminative power than the lower level features (e.g., somatic mutation). To address above issues, we proposed a novel Cross-LEvel Information Transmission network (CLEIT) framework. CLEIT aims to explicitly model the asymmetrical multi-level organization of the biological system. Inspired by domain adaptation, CLEIT first learns the latent representation of high-level domain then uses it as ground-truth embedding to improve the representation learning of the low-level domain in the form of contrastive loss. In addition, we adopt a pre-training-fine-tuning approach to leveraging the unlabeled heterogeneous omics data to improve the generalizability of CLEIT. We demonstrate the effectiveness and performance boost of CLEIT in predicting anti-cancer drug sensitivity from somatic mutations via the assistance of gene expressions when compared with state-of-the-art methods.
翻訳日:2022-10-09 06:35:50 公開日:2020-10-09
# 目標キャンセル防止負荷係数の最適化

Optimization of loading factor preventing target cancellation ( http://arxiv.org/abs/2010.07010v1 )

ライセンス: Link先を確認
Boris N. Oreshkin and Peter A. Bakulev(参考訳) サンプル行列反転に基づく適応アルゴリズムは、干渉共分散の事前の不確かさを克服するためにレーダーターゲット検出で使用される重要なアルゴリズムのクラスに属する。 サンプル行列反転問題は一般に不調である。 さらに、有用な信号による経験的共分散行列の汚染により、この種の適応アルゴリズムの性能が著しく低下する。 レーダー文献ではサンプル共分散負荷としても知られている正則化は、元の問題の悪条件化と、所望の信号による経験的共分散の汚染の両方に対処できる。 しかし、共分散行列と有用な信号の浸透モデルの構造について強い仮定をしなければ、負荷係数の最適値は導出できない。 本稿では,実験信号の干渉と雑音比(sinr)に対する最大化に基づく負荷係数最適化のための反復アルゴリズムを提案する。 提案する解は, 経験的共分散行列と信号浸透モデルの構造について, いかなる仮定にも依存しない。 また,提案手法の有効性を示すシミュレーション例を示した。

Adaptive algorithms based on sample matrix inversion belong to an important class of algorithms used in radar target detection to overcome prior uncertainty of interference covariance. Sample matrix inversion problem is generally ill conditioned. Moreover, the contamination of the empirical covariance matrix by the useful signal leads to significant degradation of performance of this class of adaptive algorithms. Regularization, also known in radar literature as sample covariance loading, can be used to combat both ill conditioning of the original problem and contamination of the empirical covariance by the desired signal. However, the optimum value of loading factor cannot be derived unless strong assumptions are made regarding the structure of covariance matrix and useful signal penetration model. In this paper an iterative algorithm for loading factor optimization based on the maximization of empirical signal to interference plus noise ratio (SINR) is proposed. The proposed solution does not rely on any assumptions regarding the structure of empirical covariance matrix and signal penetration model. The paper also presents simulation examples showing the effectiveness of the proposed solution.
翻訳日:2022-10-09 06:35:14 公開日:2020-10-09
# 複数再構成可能なインテリジェントサーフェスを有する無線ネットワークにおける位相構成学習

Phase Configuration Learning in Wireless Networks with Multiple Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2010.04376v1 )

ライセンス: Link先を確認
George C. Alexandropoulos and Sumudu Samarakoon and Mehdi Bennis and Merouane Debbah(参考訳) 再構成可能なインテリジェントサーフェス(RIS)は、近年、低コストで、ハードウェア効率が高く、スケーラブルで、電磁波伝搬の動的制御を提供する技術として注目されている。 彼らの考えでは、パッシブで無線通信環境の様々な障害に対する密集した展開は、それらを再構成可能な特性を持つネットワークエンティティに変換する革命的な手段として捉えられ、多様な通信目的のために環境知能を高める。 RISを内蔵した無線通信における大きな課題の1つは、複数のRISの低オーバーヘッドな動的構成である。 本稿では,複数のrisを補助する2つのノード間の典型的な通信ペアを考察し,risの位相配置に対する低複雑さ教師あり学習手法を考案する。 各RISの単位要素の群で共通の可変位相を仮定することにより、位置決め値または瞬時チャネル係数でトレーニングできる多層パーセプトロンニューラルネットワーク(NN)アーキテクチャを提案する。 我々は,risの集中的および個人的トレーニングと連合について検討し,その計算要件を評価した。 最適位相構成法との比較を含むシミュレーション結果から, RISにおける個別NNの導入によるリンク予算性能向上のメリットが示された。

Reconfigurable Intelligent Surfaces (RISs) are recently gaining remarkable attention as a low-cost, hardware-efficient, and highly scalable technology capable of offering dynamic control of electro-magnetic wave propagation. Their envisioned dense deployment over various obstacles of the, otherwise passive, wireless communication environment has been considered as a revolutionary means to transform them into network entities with reconfigurable properties, providing increased environmental intelligence for diverse communication objectives. One of the major challenges with RIS-empowered wireless communications is the low-overhead dynamic configuration of multiple RISs, which according to the current hardware designs have very limited computing and storage capabilities. In this paper, we consider a typical communication pair between two nodes that is assisted by a plurality of RISs, and devise low-complexity supervised learning approaches for the RISs' phase configurations. By assuming common tunable phases in groups of each RIS's unit elements, we present multi-layer perceptron Neural Network (NN) architectures that can be trained either with positioning values or the instantaneous channel coefficients. We investigate centralized and individual training of the RISs, as well as their federation, and assess their computational requirements. Our simulation results, including comparisons with the optimal phase configuration scheme, showcase the benefits of adopting individual NNs at RISs for the link budget performance boosting.
翻訳日:2022-10-09 06:34:45 公開日:2020-10-09
# epidemioptim:疫学モデルにおける制御ポリシーの最適化のためのツールボックス

EpidemiOptim: A Toolbox for the Optimization of Control Policies in Epidemiological Models ( http://arxiv.org/abs/2010.04452v1 )

ライセンス: Link先を確認
C\'edric Colas, Boris Hejblum, S\'ebastien Rouillon, Rodolphe Thi\'ebaut, Pierre-Yves Oudeyer, Cl\'ement Moulin-Frier and M\'elanie Prague(参考訳) 疫学者は、薬品や非薬品の介入(接触制限、ロックダウン、ワクチン接種など)に基づくコントロール戦略を提案するために、流行のダイナミクスをモデル化する。 このような戦略を手作業で設計するのは、可能な介入の数と長期的な効果を予測するのが難しいため、ささいなことではない。 このタスクは、高度な強化学習のような最先端の機械学習アルゴリズムが大きな価値をもたらすような最適化問題として考えられる。 しかしながら、各ドメインの特異性 -- 流行モデルや最適化問題を解決する - には、異なる専門分野の研究者間の強力なコラボレーションが必要である。 これは、疫学と最適化の研究者間のコラボレーションを促進するPythonツールボックスです。 EpidemiOptimは、疫学モデルとコスト関数を、最適化実践者(OpenAI Gym)が一般的に使用する標準インターフェースを介して最適化問題に変換する。 深層ニューラルネットワーク(DQN)と進化的アルゴリズム(NSGA-II)を用いたQ-Learningに基づく強化学習アルゴリズムはすでに実装されている。 本研究では,COVID-19に対するセフェミオプティベーション・エフェデミオプティベーション(SEIR)モデルを用いて,死傷率と経済不況の最適化の下での動的オンオフロックダウン制御のための最適ポリシーを求める。 EpidemiOptimとそのインタラクティブな視覚化プラットフォームをJupyterのノートブック、疫学者、最適化実践者など(経済学者など)は、疫学モデルやコスト関数、最適化アルゴリズムを簡単に比較して、健康意思決定者が行う重要な選択に対処することができる。

Epidemiologists model the dynamics of epidemics in order to propose control strategies based on pharmaceutical and non-pharmaceutical interventions (contact limitation, lock down, vaccination, etc). Hand-designing such strategies is not trivial because of the number of possible interventions and the difficulty to predict long-term effects. This task can be cast as an optimization problem where state-of-the-art machine learning algorithms such as deep reinforcement learning, might bring significant value. However, the specificity of each domain -- epidemic modelling or solving optimization problem -- requires strong collaborations between researchers from different fields of expertise. This is why we introduce EpidemiOptim, a Python toolbox that facilitates collaborations between researchers in epidemiology and optimization. EpidemiOptim turns epidemiological models and cost functions into optimization problems via a standard interface commonly used by optimization practitioners (OpenAI Gym). Reinforcement learning algorithms based on Q-Learning with deep neural networks (DQN) and evolutionary algorithms (NSGA-II) are already implemented. We illustrate the use of EpidemiOptim to find optimal policies for dynamical on-off lock-down control under the optimization of death toll and economic recess using a Susceptible-Exposed-Infectious-Removed (SEIR) model for COVID-19. Using EpidemiOptim and its interactive visualization platform in Jupyter notebooks, epidemiologists, optimization practitioners and others (e.g. economists) can easily compare epidemiological models, costs functions and optimization algorithms to address important choices to be made by health decision-makers.
翻訳日:2022-10-09 06:34:24 公開日:2020-10-09
# 次元化による多様体上の適応的およびモーメント法

Adaptive and Momentum Methods on Manifolds Through Trivializations ( http://arxiv.org/abs/2010.04617v1 )

ライセンス: Link先を確認
Mario Lezcano-Casado(参考訳) 適応メソッドは、適応項が不変でないため、多様体への直接一般化を持たない。 多様体上のモーメント法は、多様体の曲率から生じる効率の問題に悩まされる。 任意の多様体に対する適応法と運動量法を一般化する枠組みを導入し、すべての微分可能多様体に対して、ほとんどすべての多様体をカバーする放射凸開集合が存在することを指摘した。 放射凸であるので、この集合は $\mathbb{R}^n$ に微分同型である。 これは任意の適応的および運動量に基づくアルゴリズムを任意の多様体のほとんどすべての多様体をカバーする集合に自然な一般化を与える。 また,これらの手法をリトラクション付き勾配降下手法の文脈に拡張する方法を示す。 その実装のために、5つの行列乗算だけを必要とする行列の指数関数に近似を導入し、GPUでは特に効率的である。 実際、このアルゴリズムの族は、多様体上の運動量と適応的方法の不正確な使用によって生じる数値的ギャップを閉じている。 同時に、このファミリーの最も効率的なアルゴリズムは、指数写像を通して初期点の接空間に問題を還元することで与えられる。

Adaptive methods do not have a direct generalization to manifolds as the adaptive term is not invariant. Momentum methods on manifolds suffer from efficiency problems stemming from the curvature of the manifold. We introduce a framework to generalize adaptive and momentum methods to arbitrary manifolds by noting that for every differentiable manifold, there exists a radially convex open set that covers almost all the manifold. Being radially convex, this set is diffeomorphic to $\mathbb{R}^n$. This gives a natural generalization of any adaptive and momentum-based algorithm to a set that covers almost all the manifold in an arbitrary manifolds. We also show how to extend these methods to the context of gradient descent methods with a retraction. For its implementation, we bring an approximation to the exponential of matrices that needs just of 5 matrix multiplications, making it particularly efficient on GPUs. In practice, we see that this family of algorithms closes the numerical gap created by an incorrect use of momentum and adaptive methods on manifolds. At the same time, we see that the most efficient algorithm of this family is given by simply pulling back the problem to the tangent space at the initial point via the exponential map.
翻訳日:2022-10-09 06:33:39 公開日:2020-10-09
# オンラインオフラインモデルを用いた手書き品質解析

Handwriting Quality Analysis using Online-Offline Models ( http://arxiv.org/abs/2010.06693v1 )

ライセンス: Link先を確認
Yahia Hamdi, Hanen Akouaydi, Houcine Boubaker, Adel M. Alimi(参考訳) 本研究は,小学生(3~8歳)の筆跡学習の過程でフィードバックを提供する,先進的なデジタル教育ツールの開発を可能にする,革新的なeラーニングプロジェクトの一部である。 本稿では,子どもの筆跡品質分析のための新しい手法について述べる。 間違いを自動的に検知し、子どもの執筆にリアルタイムのオンラインフィードバックを与え、教師が児童の執筆スキルを理解し、評価するのを助ける。 提案手法は, 5つの基準値, 方向, ストローク順, 基準線に対する位置, トレースのキネマティクスを補正する。 類似度検出(SD)と差分距離(DD)測定を用いたベータ楕円モデル(BEM)、フーリエ記述モデル(FDM)、Support Vector Machine(SVM)比較エンジンによる知覚畳み込みニューラルネットワーク(CNN)の3つのモデルの組み合わせに基づいて、手書き品質を分析し、自動的にフィードバックを与える。 私たちの作品の原点の一部は、検討された手書き文字の動的、幾何学的、視覚的表現を補完するシステムアーキテクチャと、様々な手書きスタイルやアラビア語、ラテン文字、数字、記号描画といった複数のスクリプト言語に適応した効率的な特徴にある。 このアプリケーションは、学習者、教育者、専門家、教師にそれぞれ専用の2つのインタラクティブインターフェースを提供し、弟子の特異性に容易に適応できるようにする。 この枠組みの評価はチュニジア小学校に400人の児童を擁するデータベースによって強化された。 提案フレームワークは,触覚デジタルデバイスを用いた手書き学習プロセスを通じて,教師や子どもにポジティブなフィードバックを提供することにより,その効率と頑健性を示す。

This work is part of an innovative e-learning project allowing the development of an advanced digital educational tool that provides feedback during the process of learning handwriting for young school children (three to eight years old). In this paper, we describe a new method for children handwriting quality analysis. It automatically detects mistakes, gives real-time on-line feedback for children's writing, and helps teachers comprehend and evaluate children's writing skills. The proposed method adjudges five main criteria shape, direction, stroke order, position respect to the reference lines, and kinematics of the trace. It analyzes the handwriting quality and automatically gives feedback based on the combination of three extracted models: Beta-Elliptic Model (BEM) using similarity detection (SD) and dissimilarity distance (DD) measure, Fourier Descriptor Model (FDM), and perceptive Convolutional Neural Network (CNN) with Support Vector Machine (SVM) comparison engine. The originality of our work lies partly in the system architecture which apprehends complementary dynamic, geometric, and visual representation of the examined handwritten scripts and in the efficient selected features adapted to various handwriting styles and multiple script languages such as Arabic, Latin, digits, and symbol drawing. The application offers two interactive interfaces respectively dedicated to learners, educators, experts or teachers and allows them to adapt it easily to the specificity of their disciples. The evaluation of our framework is enhanced by a database collected in Tunisia primary school with 400 children. Experimental results show the efficiency and robustness of our suggested framework that helps teachers and children by offering positive feedback throughout the handwriting learning process using tactile digital devices.
翻訳日:2022-10-09 06:27:42 公開日:2020-10-09
# ロジスティック回帰のためのスパースネットワーク漸近

Sparse network asymptotics for logistic regression ( http://arxiv.org/abs/2010.04703v1 )

ライセンス: Link先を確認
Bryan S. Graham(参考訳) N$の消費者がM$の異なる製品を買うかどうかを選択する二部構成のネットワークを考えてみよう。 本稿では,i-buys-j 購入決定の配列である $\left[Y_{ij}\right]_{1\leq i\leq N,1\leq j\leq M}$ の,漸近的順序の下での消費者および製品属性の既知の関数に対するロジスティック回帰特性について考察する。 (i)$N$、$M$ともに大きく成長し、 (ii)消費者1人当たりの購入品数の平均は有限である。 この後者の仮定は、購入のネットワークが希薄であることを意味している: 購入可能なすべての購入のごく一部のみが実際に作成されている(実世界の多くの設定と一致している)。 スパースネットワーク漸近法の下では、ロジット合成対数様のスコアの拡張ホーフディング型分散分解における第一項と最後の項は等順序である。 対照的に、高密度ネットワーク漸近では、最後の項は漸近的に無視される。 ロジスティック回帰係数の漸近正規性は、三角形の配列に対する Martingale Central limit theorem (CLT) を用いて示される。 密接な場合とは異なり、ここで導かれる正規性の結果はネットワークグラフの縮退にも従う。 相対的に、データセットにダイアディックな依存が存在しない場合、希少なイベントやiidデータによるロジスティック回帰の挙動に関する最近の結果に特化している。 スパースネットワーク漸近性は、分散推定器を提案するため、実際はより良い推論をもたらす可能性がある (i)追加のサンプリング変動源を組み込んだもの (ii)dyadicの依存度は様々である。

Consider a bipartite network where $N$ consumers choose to buy or not to buy $M$ different products. This paper considers the properties of the logistic regression of the $N\times M$ array of i-buys-j purchase decisions, $\left[Y_{ij}\right]_{1\leq i\leq N,1\leq j\leq M}$, onto known functions of consumer and product attributes under asymptotic sequences where (i) both $N$ and $M$ grow large and (ii) the average number of products purchased per consumer is finite in the limit. This latter assumption implies that the network of purchases is sparse: only a (very) small fraction of all possible purchases are actually made (concordant with many real-world settings). Under sparse network asymptotics, the first and last terms in an extended Hoeffding-type variance decomposition of the score of the logit composite log-likelihood are of equal order. In contrast, under dense network asymptotics, the last term is asymptotically negligible. Asymptotic normality of the logistic regression coefficients is shown using a martingale central limit theorem (CLT) for triangular arrays. Unlike in the dense case, the normality result derived here also holds under degeneracy of the network graphon. Relatedly, when there happens to be no dyadic dependence in the dataset in hand, it specializes to recently derived results on the behavior of logistic regression with rare events and iid data. Sparse network asymptotics may lead to better inference in practice since they suggest variance estimators which (i) incorporate additional sources of sampling variation and (ii) are valid under varying degrees of dyadic dependence.
翻訳日:2022-10-09 06:27:10 公開日:2020-10-09
# Locomoteへの学習: 深層強化学習における環境設計の意義を理解する

Learning to Locomote: Understanding How Environment Design Matters for Deep Reinforcement Learning ( http://arxiv.org/abs/2010.04304v1 )

ライセンス: Link先を確認
Daniele Reda, Tianxin Tao, Michiel van de Panne(参考訳) locomoteへの学習は、物理ベースのアニメーションと深層強化学習(rl)において最も一般的なタスクの1つである。 学習されたポリシーは、RL環境とRLアルゴリズムによって具現化されているように、解決すべき問題の産物である。 RLアルゴリズムに多大な関心が向けられているが、RL環境の設計選択の影響についてはあまり知られていない。 本稿では,環境設計が重要な課題であることを示すとともに,多くのRL結果の脆性にどのように寄与するかを示す。 具体的には, 状態表現, 初期状態分布, 報酬構造, 制御周波数, エピソード終了手順, カリキュラム使用, 動作空間, トルク制限に関する選択について検討する。 このような選択に関する議論を刺激することを目指しており、例えばlocomoteへの学習など、アニメーションに関心のある継続的なアクション制御問題に適用するときにrlの成功に大きな影響を与えている。

Learning to locomote is one of the most common tasks in physics-based animation and deep reinforcement learning (RL). A learned policy is the product of the problem to be solved, as embodied by the RL environment, and the RL algorithm. While enormous attention has been devoted to RL algorithms, much less is known about the impact of design choices for the RL environment. In this paper, we show that environment design matters in significant ways and document how it can contribute to the brittle nature of many RL results. Specifically, we examine choices related to state representations, initial state distributions, reward structure, control frequency, episode termination procedures, curriculum usage, the action space, and the torque limits. We aim to stimulate discussion around such choices, which in practice strongly impact the success of RL when applied to continuous-action control problems of interest to animation, such as learning to locomote.
翻訳日:2022-10-09 06:26:27 公開日:2020-10-09
# 差分プライバシーを用いた潜在ディリクレ配置モデルトレーニング

Latent Dirichlet Allocation Model Training with Differential Privacy ( http://arxiv.org/abs/2010.04391v1 )

ライセンス: Link先を確認
Fangyuan Zhao, Xuebin Ren, Shusen Yang, Qing Han, Peng Zhao, and Xinyu Yang(参考訳) Latent Dirichlet Allocation (LDA) はテキストデータの隠れセマンティックな発見のための一般的なトピックモデリング手法であり、様々なアプリケーションにおけるテキスト解析の基本的なツールとして機能する。 しかし、LDAモデルとLDAのトレーニングプロセスは、トレーニングデータにテキスト情報を公開して、プライバシー上の懸念を生じさせる可能性がある。 LDAのプライバシ問題に対処するために,Collapsed Gibbs Sampling (CGS) に基づくメインストリームLDAトレーニングアルゴリズムのプライバシ保護を体系的に検討し,典型的なトレーニングシナリオに対するいくつかの差分プライベートLDAアルゴリズムを提案する。 特に,CGSをベースとしたLDAトレーニングにおける固有の差分プライバシー保証に関する最初の理論的解析を行い,さらに,CGSトレーニングにおける中間統計量からのデータ推測を防止できる集中型プライバシ保存アルゴリズム(HDP-LDA)を提案する。 また,クラウドソースデータに基づくローカルプライベートなLDAトレーニングアルゴリズム(LP-LDA)を提案し,個々のデータコントリビュータに対して局所的な差分プライバシーを提供する。 さらに、LP-LDAをOLP-LDAとしてオンライン版に拡張し、ストリーミング環境でローカルプライベートなミニバッチ上でLDAトレーニングを行う。 提案したプライバシー保護型LDAトレーニングアルゴリズムの有効性と効率の両立を総合解析および実験により検証した。

Latent Dirichlet Allocation (LDA) is a popular topic modeling technique for hidden semantic discovery of text data and serves as a fundamental tool for text analysis in various applications. However, the LDA model as well as the training process of LDA may expose the text information in the training data, thus bringing significant privacy concerns. To address the privacy issue in LDA, we systematically investigate the privacy protection of the main-stream LDA training algorithm based on Collapsed Gibbs Sampling (CGS) and propose several differentially private LDA algorithms for typical training scenarios. In particular, we present the first theoretical analysis on the inherent differential privacy guarantee of CGS based LDA training and further propose a centralized privacy-preserving algorithm (HDP-LDA) that can prevent data inference from the intermediate statistics in the CGS training. Also, we propose a locally private LDA training algorithm (LP-LDA) on crowdsourced data to provide local differential privacy for individual data contributors. Furthermore, we extend LP-LDA to an online version as OLP-LDA to achieve LDA training on locally private mini-batches in a streaming setting. Extensive analysis and experiment results validate both the effectiveness and efficiency of our proposed privacy-preserving LDA training algorithms.
翻訳日:2022-10-09 06:26:12 公開日:2020-10-09
# マルチコアシステムにおける負荷分散と並列性最適化のための頂点カットベースフレームワーク

A Vertex Cut based Framework for Load Balancing and Parallelism Optimization in Multi-core Systems ( http://arxiv.org/abs/2010.04414v1 )

ライセンス: Link先を確認
Guixiang Ma, Yao Xiao, Theodore L. Willke, Nesreen K. Ahmed, Shahin Nazarian, Paul Bogdan(参考訳) 機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。これらのモデルによるメモリと計算資源の消費の急速な増加は、それらに依存する複雑な新興アプリケーションの実行をスケールするために、マルチコア並列システムの使用を要求する。 しかしながら、高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに苦しむことが多い。 本稿では,マルチコアシステムにおけるデータ通信を削減し,アプリケーションのスケーラビリティと性能を向上させるフレームワークを提案する。 我々は,クラスタ間のデータ通信とワークロードバランスを考慮して,LLVM IRグラフをクラスタに分割するための頂点カットフレームワークを設計する。 まず,上位プログラムをLLVM IRにコンパイルしてLLVMグラフを構築し,基本ブロックの実行順序と各メモリ操作の実行時間を求め,動的LLVMトレースにおけるデータ依存性を分析する。 次に, 重みのバランスの取れた頂点カットとして問題を定式化し, この問題を解決するために4つの異なる欲望アルゴリズムが提案されている, 汎用的で柔軟な枠組みを提案する。 最後に,頂点カットアルゴリズムから生成されたクラスタをマルチコアプラットフォームにマップするために,線形時間複雑性のメモリ中心のランタイムマッピングを提案する。 当社の最高のアルゴリズムであるwb-libraは,マルチコアプラットフォーム上で動作する8クラスタと1024クラスタに対して,既存の最先端アプローチよりも1.56xと1.86xのパフォーマンス向上を実現しています。

High-level applications, such as machine learning, are evolving from simple models based on multilayer perceptrons for simple image recognition to much deeper and more complex neural networks for self-driving vehicle control systems.The rapid increase in the consumption of memory and computational resources by these models demands the use of multi-core parallel systems to scale the execution of the complex emerging applications that depend on them. However, parallel programs running on high-performance computers often suffer from data communication bottlenecks, limited memory bandwidth, and synchronization overhead due to irregular critical sections. In this paper, we propose a framework to reduce the data communication and improve the scalability and performance of these applications in multi-core systems. We design a vertex cut framework for partitioning LLVM IR graphs into clusters while taking into consideration the data communication and workload balance among clusters. First, we construct LLVM graphs by compiling high-level programs into LLVM IR, instrumenting code to obtain the execution order of basic blocks and the execution time for each memory operation, and analyze data dependencies in dynamic LLVM traces. Next, we formulate the problem as Weight Balanced $p$-way Vertex Cut, and propose a generic and flexible framework, wherein four different greedy algorithms are proposed for solving this problem. Lastly, we propose a memory-centric run-time mapping of the linear time complexity to map clusters generated from the vertex cut algorithms onto a multi-core platform. We conclude that our best algorithm, WB-Libra, provides performance improvements of 1.56x and 1.86x over existing state-of-the-art approaches for 8 and 1024 clusters running on a multi-core platform, respectively.
翻訳日:2022-10-09 06:25:19 公開日:2020-10-09
# 教師の深層顔機能を利用したクラスタリングによる教育ビデオ推薦

A Clustering-Based Method for Automatic Educational Video Recommendation Using Deep Face-Features of Lecturers ( http://arxiv.org/abs/2010.04676v1 )

ライセンス: Link先を確認
Paulo R. C. Mendes, Eduardo S. Vieira, \'Alan L. V. Guedes, Antonio J. G. Busson, and S\'ergio Colcher(参考訳) 教育ビデオベース内で特定のコンテンツを発見してアクセスすることは、主にビデオコンテンツの豊富さとその多様性のために難しい課題である。 リコメンダシステムは、しばしばコンテンツを見つけて選択する能力を高めるために使用される。 しかし、リコメンデーションメカニズム、特にテキスト情報に基づくものは、手動で作成したキーワードの誤りや不正確な音声認識など、いくつかの制限がある。 本稿では,講師の深い顔特徴を識別せずに教育ビデオ推薦を作成する方法を提案する。 より正確には、教師なしの顔クラスタリング機構を使用して、講師の存在に基づくビデオ間の関係を作成する。 そして,参照として選択した教育ビデオに対して,同じ講師の存在を検知した動画を推薦する。 また,これらの推奨ビデオのランク付けは,参照した講師の視聴時間に基づいて行う。 このタスクでは、mAPの99.165%を達成しました。

Discovering and accessing specific content within educational video bases is a challenging task, mainly because of the abundance of video content and its diversity. Recommender systems are often used to enhance the ability to find and select content. But, recommendation mechanisms, especially those based on textual information, exhibit some limitations, such as being error-prone to manually created keywords or due to imprecise speech recognition. This paper presents a method for generating educational video recommendation using deep face-features of lecturers without identifying them. More precisely, we use an unsupervised face clustering mechanism to create relations among the videos based on the lecturer's presence. Then, for a selected educational video taken as a reference, we recommend the ones where the presence of the same lecturers is detected. Moreover, we rank these recommended videos based on the amount of time the referenced lecturers were present. For this task, we achieved a mAP value of 99.165%.
翻訳日:2022-10-09 06:24:33 公開日:2020-10-09
# エンタープライズネットワークにおけるスケーラブルおよび動的IP類似性のためのグラフニューラルネットワークアプローチ

A Graph Neural Network Approach for Scalable and Dynamic IP Similarity in Enterprise Networks ( http://arxiv.org/abs/2010.04777v1 )

ライセンス: Link先を確認
Hazem M. Soliman and Geoff Salmon and Dusan Sovilij and Mohan Rao(参考訳) IPアドレス間の類似性を測定することは、企業ネットワークの日々の運用において重要な課題である。 IP類似度尺度に依存するアプリケーションは、セキュリティアラート間の相関測定、振る舞いモデリングのベースラインの構築、ネットワーク障害のデバッグ、永続的な攻撃の追跡などである。 しかし、IPは定義によって自然な類似度尺度を持たない。 ディープラーニングアーキテクチャは、データから直接IPの数値表現を学習することができ、計算された表現に様々な距離測度を適用できるので、有望なソリューションである。 現在の研究は、IP埋め込みの学習に自然言語処理(NLP)技術を利用している。 しかし、これらのアプローチはトレーニング中に見られないOoV(out-of-vocabulary)IPを扱う適切な方法を持たない。 本稿では,適応型グラフニューラルネットワーク(GNN)アーキテクチャを用いた新しいIP埋め込み手法を提案する。 このアプローチには、生のデータ、スケーラビリティ、そして最も重要なインダクション、すなわち、これまで見つからなかったIP間の類似性を計測できるという利点がある。 企業ネットワークのデータを利用することで、トレーニングフェーズで遭遇することのないマシンが存在する場合でも、ローカルdnsサーバとルートdnsサーバの類似性を識別することができる。

Measuring similarity between IP addresses is an important task in the daily operations of any enterprise network. Applications that depend on an IP similarity measure include measuring correlation between security alerts, building baselines for behavioral modelling, debugging network failures and tracking persistent attacks. However, IPs do not have a natural similarity measure by definition. Deep Learning architectures are a promising solution here since they are able to learn numerical representations for IPs directly from data, allowing various distance measures to be applied on the calculated representations. Current works have utilized Natural Language Processing (NLP) techniques for learning IP embeddings. However, these approaches have no proper way to handle out-of-vocabulary (OOV) IPs not seen during training. In this paper, we propose a novel approach for IP embedding using an adapted graph neural network (GNN) architecture. This approach has the advantages of working on the raw data, scalability and, most importantly, induction, i.e. the ability to measure similarity between previously unseen IPs. Using data from an enterprise network, our approach is able to identify similarities between local DNS servers and root DNS servers even though some of these machines are never encountered during the training phase.
翻訳日:2022-10-09 06:24:03 公開日:2020-10-09
# 周期変動オートエンコーダと並列ウェーブガンを用いた音声変換チャレンジ2020のベースラインシステム

Baseline System of Voice Conversion Challenge 2020 with Cyclic Variational Autoencoder and Parallel WaveGAN ( http://arxiv.org/abs/2010.04429v1 )

ライセンス: Link先を確認
Patrick Lumban Tobing, Yi-Chiao Wu, Tomoki Toda(参考訳) 本稿では,循環型変分オートエンコーダ(cyclevae)と並列ウェーブガン(pwg)、すなわちcyclevaepwgを用いた音声変換チャレンジ(vcc)2020のベースラインシステムについて述べる。 cyclevaeはノンパラレルvaeに基づく音声変換であり、変換された音響特徴を利用して最適化中に周期的に再構成されたスペクトルを検討する。 一方、PWGは非自己回帰型ニューラルボコーダであり、高品質で高速な波形生成のための生成対向ネットワークに基づいている。 実際にcyclevaepwgシステムは、タスク1(イントラリンガル)とタスク2(クロスリンガル)の両方の統一モデルを使用して、vcc 2020データセットで簡単に開発することができます。 VCC 2020の結果は、CycleVAEPWGベースラインが以下のことを証明している。 1)自然度の平均世論スコア(MOS)は2.87で、話者類似率(Sim)は1タスクで75.37%である。 2)mosが2.56、simが56.46%、タスク2が56.46%、自然性がほぼ平均、話者の類似度が平均以上である。

In this paper, we present a description of the baseline system of Voice Conversion Challenge (VCC) 2020 with a cyclic variational autoencoder (CycleVAE) and Parallel WaveGAN (PWG), i.e., CycleVAEPWG. CycleVAE is a nonparallel VAE-based voice conversion that utilizes converted acoustic features to consider cyclically reconstructed spectra during optimization. On the other hand, PWG is a non-autoregressive neural vocoder that is based on a generative adversarial network for a high-quality and fast waveform generator. In practice, the CycleVAEPWG system can be straightforwardly developed with the VCC 2020 dataset using a unified model for both Task 1 (intralingual) and Task 2 (cross-lingual), where our open-source implementation is available at https://github.com/bigpon/vcc20_baseline_cyclevae. The results of VCC 2020 have demonstrated that the CycleVAEPWG baseline achieves the following: 1) a mean opinion score (MOS) of 2.87 in naturalness and a speaker similarity percentage (Sim) of 75.37% for Task 1, and 2) a MOS of 2.56 and a Sim of 56.46% for Task 2, showing an approximately or nearly average score for naturalness and an above average score for speaker similarity.
翻訳日:2022-10-09 06:18:19 公開日:2020-10-09
# 音声変換チャレンジ2020のためのnu音声変換システム : シーケンス-シーケンスモデルと自己回帰型ニューラルボコーダの有効性について

The NU Voice Conversion System for the Voice Conversion Challenge 2020: On the Effectiveness of Sequence-to-sequence Models and Autoregressive Neural Vocoders ( http://arxiv.org/abs/2010.04446v1 )

ライセンス: Link先を確認
Wen-Chin Huang, Patrick Lumban Tobing, Yi-Chiao Wu, Kazuhiro Kobayashi, Tomoki Toda(参考訳) 本稿では,名古屋大学におけるVoice Conversion Challenge 2020(VCC2020)のための音声変換システムについて述べる。 本稿では,最近のVCにおける2つの重要な技術,Sequence-to-Sequence(seq2seq)モデルとAutoregressive(AR)ニューラルボコーダの有効性について検討する。 タスク1では、トランスフォーマーベースのseq2seq vcモデルであるvoice transformer networkを採用し、非並列データに取り組むために合成並列データで拡張し、タスク2では、フレームベースのサイクリック変分オートエンコーダ(cyclevae)を使用して、音声波形のスペクトル特性とar wavenet vocoderを、追加の微調整でモデル化した。 ベースラインシステムとの比較により,seq2seqモデリングは変換の類似性を向上させることができ,arボコーダの使用により変換音声の自然性が向上することを確認した。

In this paper, we present the voice conversion (VC) systems developed at Nagoya University (NU) for the Voice Conversion Challenge 2020 (VCC2020). We aim to determine the effectiveness of two recent significant technologies in VC: sequence-to-sequence (seq2seq) models and autoregressive (AR) neural vocoders. Two respective systems were developed for the two tasks in the challenge: for task 1, we adopted the Voice Transformer Network, a Transformer-based seq2seq VC model, and extended it with synthetic parallel data to tackle nonparallel data; for task 2, we used the frame-based cyclic variational autoencoder (CycleVAE) to model the spectral features of a speech waveform and the AR WaveNet vocoder with additional fine-tuning. By comparing with the baseline systems, we confirmed that the seq2seq modeling can improve the conversion similarity and that the use of AR vocoders can improve the naturalness of the converted speech.
翻訳日:2022-10-09 06:17:54 公開日:2020-10-09
# MMGSD:1次元および2次元変形可能な物体の対応マッチングのための多モードガウス形状記述子

MMGSD: Multi-Modal Gaussian Shape Descriptors for Correspondence Matching in 1D and 2D Deformable Objects ( http://arxiv.org/abs/2010.04339v1 )

ライセンス: Link先を確認
Aditya Ganapathi, Priya Sundaresan, Brijen Thananjeyan, Ashwin Balakrishna, Daniel Seita, Ryan Hoque, Joseph E. Gonzalez, Ken Goldberg(参考訳) 変形可能な物体の画像間の画素対応を異なる構成で学習する。 SIFT、SURF、ORBといった従来の対応マッチング手法は、きめ細かい操作に十分なコンテキスト情報を提供できない。 我々は,多モードガウス形状記述子 (MMGSD) を提案する。これは,高密度オブジェクト記述子からのアイデアを拡張し,異なるオブジェクト構成間のすべての対称対応を予測する,変形可能なオブジェクトの視覚表現である。 MMGSDは、合成データから自己指導的に学習され、測定可能な不確実性を伴う対応型ヒートマップを生成する。 シミュレーションでは、MMGSDは正方形の布と編んだ合成ナイロンロープに対して32.4と31.3のRMSEを達成できることが示されている。 その結果, 分布連続性を強制するMMGSDとは対照的に, コントラスト学習, 対称画素ワイドコントラスト損失(SPCL)に基づくベースラインに対する平均47.7%の改善が示された。

We explore learning pixelwise correspondences between images of deformable objects in different configurations. Traditional correspondence matching approaches such as SIFT, SURF, and ORB can fail to provide sufficient contextual information for fine-grained manipulation. We propose Multi-Modal Gaussian Shape Descriptor (MMGSD), a new visual representation of deformable objects which extends ideas from dense object descriptors to predict all symmetric correspondences between different object configurations. MMGSD is learned in a self-supervised manner from synthetic data and produces correspondence heatmaps with measurable uncertainty. In simulation, experiments suggest that MMGSD can achieve an RMSE of 32.4 and 31.3 for square cloth and braided synthetic nylon rope respectively. The results demonstrate an average of 47.7% improvement over a provided baseline based on contrastive learning, symmetric pixel-wise contrastive loss (SPCL), as opposed to MMGSD which enforces distributional continuity.
翻訳日:2022-10-09 06:17:34 公開日:2020-10-09
# マルチタスク深層学習を用いたWHO 2016サブタイピングとグリオーマの自動セグメンテーション

WHO 2016 subtyping and automated segmentation of glioma using multi-task deep learning ( http://arxiv.org/abs/2010.04425v1 )

ライセンス: Link先を確認
Sebastian R. van der Voort, Fatih Incekara, Maarten M.J. Wijnenga, Georgios Kapsas, Renske Gahrmann, Joost W. Schouten, Rishi Nandoe Tewarie, Geert J. Lycklama, Philip C. De Witt Hamer, Roelant S. Eijgelaar, Pim J. French, Hendrikus J. Dubbink, Arnaud J.P.E. Vincent, Wiro J. Niessen, Martin J. van den Bent, Marion Smits, Stefan Klein(参考訳) グリオーマの正確な特徴は臨床意思決定に不可欠である。 腫瘍のデライン化は、初期決定段階でも望ましいが、時間のかかる作業である。 最新のgpu機能を活用して,3d,構造的,術前のmriスキャンを用いて,腫瘍を分割しながら,腫瘍のidh変異状況,1p/19q共欠状態,グレードを予測可能な,単一のマルチタスク畳み込みニューラルネットワークを開発した。 これまでに16施設のグリオーマ患者1508名を含む最も多種多様な患者コホートを用いて,本法を訓練した。 我々は13の異なる施設から240人の患者を独立したデータセットで分析し、IDH-AUC 0.90, 1p/19q-AUC 0.85, grade-AUC 0.81, mean whole tumor DICE score 0.84を得た。 そこで本手法は,複数の臨床的パラメータを非侵襲的に予測し,より広い臨床集団に適応する。

Accurate characterization of glioma is crucial for clinical decision making. A delineation of the tumor is also desirable in the initial decision stages but is a time-consuming task. Leveraging the latest GPU capabilities, we developed a single multi-task convolutional neural network that uses the full 3D, structural, pre-operative MRI scans to can predict the IDH mutation status, the 1p/19q co-deletion status, and the grade of a tumor, while simultaneously segmenting the tumor. We trained our method using the largest, most diverse patient cohort to date containing 1508 glioma patients from 16 institutes. We tested our method on an independent dataset of 240 patients from 13 different institutes, and achieved an IDH-AUC of 0.90, 1p/19q-AUC of 0.85, grade-AUC of 0.81, and a mean whole tumor DICE score of 0.84. Thus, our method non-invasively predicts multiple, clinically relevant parameters and generalizes well to the broader clinical population.
翻訳日:2022-10-09 06:16:42 公開日:2020-10-09
# 容器セグメンテーションのためのマルチスケール特徴抽出と相互作用の再考

Rethinking the Extraction and Interaction of Multi-Scale Features for Vessel Segmentation ( http://arxiv.org/abs/2010.04428v1 )

ライセンス: Link先を確認
Yicheng Wu, Chengwei Pan, Shuqi Wang, Ming Zhang, Yong Xia, Yizhou Yu(参考訳) 血管の形態的特性の分析は、多くの心血管疾患や眼科疾患のコンピュータ診断において重要な役割を担っている。 広範囲に研究されているが、特に細い血管や毛細血管などの血管の分断は、主に局所的特徴とグローバル的特徴との効果的な相互作用が欠如しているために困難である。 本稿では,2次元基底画像と3次元CTアンギオグラフィー(CTA)スキャンで網膜血管と主要動脈を分割する,PC-Netと呼ばれる新しいディープラーニングモデルを提案する。 PC-Netでは、ピラミッド圧縮励起(PSE)モジュールが各畳み込みブロックに空間情報を導入し、より効果的なマルチスケール特徴を抽出する能力を高め、粗く細いデコーダ(CF)モジュールは従来のデコーダに取って代わり、細い容器の細部を拡大し、ピクセルを分類しにくくする。 我々は,Digital Retinal Images for Vessel extract (DRIVE)データベースと社内3D大動脈(3MA)データベースを用いたPC-Netの評価を行った。 提案したPSEモジュールとCFモジュールの有効性を示すだけでなく,提案したPC-Netは網膜血管の分節(AUC:98.31%)と大動脈(AUC:98.35%)を両データベースでそれぞれ新たな状態に設定することが示唆された。

Analyzing the morphological attributes of blood vessels plays a critical role in the computer-aided diagnosis of many cardiovascular and ophthalmologic diseases. Although being extensively studied, segmentation of blood vessels, particularly thin vessels and capillaries, remains challenging mainly due to the lack of an effective interaction between local and global features. In this paper, we propose a novel deep learning model called PC-Net to segment retinal vessels and major arteries in 2D fundus image and 3D computed tomography angiography (CTA) scans, respectively. In PC-Net, the pyramid squeeze-and-excitation (PSE) module introduces spatial information to each convolutional block, boosting its ability to extract more effective multi-scale features, and the coarse-to-fine (CF) module replaces the conventional decoder to enhance the details of thin vessels and process hard-to-classify pixels again. We evaluated our PC-Net on the Digital Retinal Images for Vessel Extraction (DRIVE) database and an in-house 3D major artery (3MA) database against several recent methods. Our results not only demonstrate the effectiveness of the proposed PSE module and CF module, but also suggest that our proposed PC-Net sets new state of the art in the segmentation of retinal vessels (AUC: 98.31%) and major arteries (AUC: 98.35%) on both databases, respectively.
翻訳日:2022-10-09 06:16:19 公開日:2020-10-09
# 非負行列因子分解による超スペクトルアンミキシング

Hyperspectral Unmixing via Nonnegative Matrix Factorization with Handcrafted and Learnt Priors ( http://arxiv.org/abs/2010.04611v1 )

ライセンス: Link先を確認
Min Zhao, Tiande Gao, Jie Chen, Wei Chen(参考訳) 今日では、非負行列分解(NMF)に基づく手法がブラインドスペクトルのアンミックスに広く適用されている。 適切な正規化器をNMFに導入することは、解を数学的に制限し、画像のスペクトル特性と空間特性を物理的に活用するために重要である。 一般に、適切に手作りの正規化器と関連する複素最適化問題を解くことは非自明なタスクである。 本研究では,データから手作りレギュラライザと学習者レギュラライザを併用したnmfベースのアンミックスフレームワークを提案する。 我々は,種々の画像デノイザを用いて関連する部分問題に対処できる存在量の学習前処理をプラグインし,l_2,1-ノルム正則化器を存在量行列に適用し,スパース・アンミックス結果を促進させる。 提案されたフレームワークは柔軟で拡張可能である。 本手法の有効性を確認するために合成データと実空力データの両方を行った。

Nowadays, nonnegative matrix factorization (NMF) based methods have been widely applied to blind spectral unmixing. Introducing proper regularizers to NMF is crucial for mathematically constraining the solutions and physically exploiting spectral and spatial properties of images. Generally, properly handcrafting regularizers and solving the associated complex optimization problem are non-trivial tasks. In our work, we propose an NMF based unmixing framework which jointly uses a handcrafting regularizer and a learnt regularizer from data. we plug learnt priors of abundances where the associated subproblem can be addressed using various image denoisers, and we consider an l_2,1-norm regularizer to the abundance matrix to promote sparse unmixing results. The proposed framework is flexible and extendable. Both synthetic data and real airborne data are conducted to confirm the effectiveness of our method.
翻訳日:2022-10-09 06:15:52 公開日:2020-10-09
# GANを用いた顕微鏡画像のリアルタイム超解像

Attaining Real-Time Super-Resolution for Microscopic Images Using GAN ( http://arxiv.org/abs/2010.04634v1 )

ライセンス: Link先を確認
Vibhu Bhatia, Yatender Kumar(参考訳) 過去数年間、いくつかのディープラーニングモデル、特に生成型逆ネットワークは、シングルイメージスーパーレゾリューション(sisr)のタスクで多くの注目を集めてきた。 これらの手法は、与えられた低解像度(LR)画像から高解像度(SR)画像を単一ステップで生成し、最先端の性能を達成するエンドツーエンドのフレームワークの構築に重点を置いている。 本稿では,標準的なGPUを用いた超解像顕微鏡をリアルタイムに実行するための,既存のディープラーニングに基づく手法の改善に焦点をあてる。 そこで本研究では,まず,gpuによる並列処理を活用し,ネットワークトレーニングプロセスを高速化するタイリング戦略を提案する。 さらに、生成器のアーキテクチャとSRGANの判別器の簡単な変更を提案する。 その後,我々のモデルが生成する出力に対する品質と実行時間を比較し,ローエンドベンチトップやモバイル顕微鏡など,さまざまな領域でアプリケーションを公開する。 最後に、異なる領域に対して高分解能HR出力を生成するためのトレーニングネットワークの可能性を検討する。

In the last few years, several deep learning models, especially Generative Adversarial Networks have received a lot of attention for the task of Single Image Super-Resolution (SISR). These methods focus on building an end-to-end framework, which produce a high resolution(SR) image from a given low resolution(LR) image in a single step to achieve state-of-the-art performance. This paper focuses on improving an existing deep-learning based method to perform Super-Resolution Microscopy in real-time using a standard GPU. For this, we first propose a tiling strategy, which takes advantage of parallelism provided by a GPU to speed up the network training process. Further, we suggest simple changes to the architecture of the generator and the discriminator of SRGAN. Subsequently, We compare the quality and the running time for the outputs produced by our model, opening its applications in different areas like low-end benchtop and even mobile microscopy. Finally, we explore the possibility of the trained network to produce High-Resolution HR outputs for different domains.
翻訳日:2022-10-09 06:15:34 公開日:2020-10-09
# 多層継手カーネル化距離に基づく深層ドメイン適応

Deep Adversarial Domain Adaptation Based on Multi-layer Joint Kernelized Distance ( http://arxiv.org/abs/2010.05696v1 )

ライセンス: Link先を確認
Sitong Mao, Jiaxin Chen, Xiao Shen, Fu-lai Chung(参考訳) ドメイン適応(Domain adapt)とは、ソースデータから学習したモデルを、同じカテゴリだが異なる分布を持つターゲットデータに適用する学習シナリオを指す。 広く適用されているが、ソースデータとターゲットデータとの分布差は適応性能に大きく影響する。 近年,敵対的学習と特徴的適応性を用いてこの問題に対処している。 本稿では,多層共役核距離測定値に基づく深層対向領域適応モデルを提案する。 ディープネットワークから抽出した抽象的特徴を利用して、$m$thカテゴリとして予測される$j$th目標データと$m'$thカテゴリのすべてのソースデータとの間の多層合同カーネル化距離(mjkd)を算出する。 MJKDに基づいて、各カテゴリでクラスバランスの選択戦略を使用して、最も正しく分類される可能性が高いターゲットデータを選択し、それらの擬似ラベルを用いてラベル付きデータとして扱う。 そして、敵アーキテクチャを用いて、新たに生成されたラベル付きトレーニングデータと残りのターゲットデータとを互いに近接させる。 このようにして、ターゲットデータ自体がドメイン適応性を高めるために貴重な情報を提供する。 また, 提案手法の解析を行い, 実験結果から, 提案手法が多くの最先端手法よりも優れた性能が得られることを示した。

Domain adaptation refers to the learning scenario that a model learned from the source data is applied on the target data which have the same categories but different distribution. While it has been widely applied, the distribution discrepancy between source data and target data can substantially affect the adaptation performance. The problem has been recently addressed by employing adversarial learning and distinctive adaptation performance has been reported. In this paper, a deep adversarial domain adaptation model based on a multi-layer joint kernelized distance metric is proposed. By utilizing the abstract features extracted from deep networks, the multi-layer joint kernelized distance (MJKD) between the $j$th target data predicted as the $m$th category and all the source data of the $m'$th category is computed. Base on MJKD, a class-balanced selection strategy is utilized in each category to select target data that are most likely to be classified correctly and treat them as labeled data using their pseudo labels. Then an adversarial architecture is used to draw the newly generated labeled training data and the remaining target data close to each other. In this way, the target data itself provide valuable information to enhance the domain adaptation. An analysis of the proposed method is also given and the experimental results demonstrate that the proposed method can achieve a better performance than a number of state-of-the-art methods.
翻訳日:2022-10-09 06:08:18 公開日:2020-10-09
# Kroneckerの製品近似曲線を用いたHintsight Experience Replay

Hindsight Experience Replay with Kronecker Product Approximate Curvature ( http://arxiv.org/abs/2010.06142v1 )

ライセンス: Link先を確認
Dhuruva Priyan G M, Abhik Singla, Shalabh Bhatnagar(参考訳) hindsight experience replay (her) はスパース報酬環境に関連する強化学習タスクを解決する効率的なアルゴリズムの1つであるが、サンプル効率が低下し、収束が遅くなるため、効果的に実行できない。 自然勾配はモデルパラメータをよりよく収束させることでこれらの課題を解決します。 トレーニングパフォーマンスを崩壊させる悪い行動を取るのを避けます。 しかし、ニューラルネットワークのパラメータの更新には高価な計算が必要であるため、トレーニング時間が増加する。 提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決する。 ddpgの一般的な障害モードは、学習されたq-関数がq-値を劇的に過大評価し始め、q-関数のエラーを悪用するためポリシーを破る。 HER に Twin Delayed Deep Deterministic Policy Gradients (TD3) を含めることでこの問題を解決する。 TD3は1つではなく2つのQ関数を学習し、ターゲットアクションにノイズを加えることで、Q関数のエラーを利用するポリシーを難しくする。 実験はOpenAis Mujoco環境の助けを借りて行われた。 これらの環境における結果から、我々のアルゴリズム(tdher+kfac)は、ほとんどのシナリオにおいてより良い性能を示す。

Hindsight Experience Replay (HER) is one of the efficient algorithm to solve Reinforcement Learning tasks related to sparse rewarded environments.But due to its reduced sample efficiency and slower convergence HER fails to perform effectively. Natural gradients solves these challenges by converging the model parameters better. It avoids taking bad actions that collapse the training performance. However updating parameters in neural networks requires expensive computation and thus increase in training time. Our proposed method solves the above mentioned challenges with better sample efficiency and faster convergence with increased success rate. A common failure mode for DDPG is that the learned Q-function begins to dramatically overestimate Q-values, which then leads to the policy breaking, because it exploits the errors in the Q-function. We solve this issue by including Twin Delayed Deep Deterministic Policy Gradients(TD3) in HER. TD3 learns two Q-functions instead of one and it adds noise tothe target action, to make it harder for the policy to exploit Q-function errors. The experiments are done with the help of OpenAis Mujoco environments. Results on these environments show that our algorithm (TDHER+KFAC) performs better inmost of the scenarios
翻訳日:2022-10-09 06:07:56 公開日:2020-10-09
# 検索とリファイン:模範に基づくニューラルコメント生成

Retrieve and Refine: Exemplar-based Neural Comment Generation ( http://arxiv.org/abs/2010.04459v1 )

ライセンス: Link先を確認
Bolin Wei, Yongmin Li, Ge Li, Xin Xia, Zhi Jin(参考訳) ソースコードの自然言語記述を自動的に生成することを目的としたコードコメント生成は、ソフトウェア開発における重要な課題である。 従来のコメント生成方法は、手書きのテンプレートや情報検索(IR)技術を使ってソースコードの要約を生成する。 近年,大規模並列コードコーパスからコメント生成パターンを学習するために,高評価のエンコーダ・デコーダ深層学習フレームワークを用いたニューラルネットワークベースの手法が注目されている。 しかし、これらの新興手法はコード関連の情報のみを入力とする。 ソフトウェア開発のプロセスではソフトウェアの再利用が一般的であり、同様のコードスニペットのコメントがコメント生成に役立ちます。 本稿では,irベースとテンプレートベースのアプローチに着想を得て,類似するコードスニペットの既存のコメントを例示として,コメント生成を導くニューラルコメント生成手法を提案する。 具体的には、コードの一部を考えると、ir技術を使って同様のコードスニペットを取得し、そのコメントを例示として扱う。 次に、与えられたコード、ast、その類似コード、およびその類似コードを入力として取り、その情報を利用してソースコードと類似コード間の意味的類似性に基づいてターゲットコメント生成を支援する新しいseq2seqニューラルネットワークを設計する。 我々は,約2mのサンプルを含む大規模javaコーパスのアプローチを評価し,実験結果から,本モデルが最先端手法をかなり上回っていることを実証した。

Code comment generation which aims to automatically generate natural language descriptions for source code, is a crucial task in the field of automatic software development. Traditional comment generation methods use manually-crafted templates or information retrieval (IR) techniques to generate summaries for source code. In recent years, neural network-based methods which leveraged acclaimed encoder-decoder deep learning framework to learn comment generation patterns from a large-scale parallel code corpus, have achieved impressive results. However, these emerging methods only take code-related information as input. Software reuse is common in the process of software development, meaning that comments of similar code snippets are helpful for comment generation. Inspired by the IR-based and template-based approaches, in this paper, we propose a neural comment generation approach where we use the existing comments of similar code snippets as exemplars to guide comment generation. Specifically, given a piece of code, we first use an IR technique to retrieve a similar code snippet and treat its comment as an exemplar. Then we design a novel seq2seq neural network that takes the given code, its AST, its similar code, and its exemplar as input, and leverages the information from the exemplar to assist in the target comment generation based on the semantic similarity between the source code and the similar code. We evaluate our approach on a large-scale Java corpus, which contains about 2M samples, and experimental results demonstrate that our model outperforms the state-of-the-art methods by a substantial margin.
翻訳日:2022-10-09 06:07:33 公開日:2020-10-09
# 内在的・外在的説明可能性の統合:人間-ロボットインタラクションにおけるニューラルネットワーク理解の意義

Integrating Intrinsic and Extrinsic Explainability: The Relevance of Understanding Neural Networks for Human-Robot Interaction ( http://arxiv.org/abs/2010.04602v1 )

ライセンス: Link先を確認
Tom Weber, Stefan Wermter(参考訳) 説明可能な人工知能(XAI)は、インテリジェントで自律的なシステムの信頼と受容を促進するのに役立つ。 さらに、エージェントの行動に対するモチベーションを理解することは、ロボットと人間のコラボレーションをより良くより成功させる。 しかし、人間がロボットの説明から利益を得るだけでなく、ロボット自体も人間に与えられた説明から利益を得ることができる。 現在、深層ニューラルネットワークとブラックボックスモデルを説明することに注意が払われている。 しかし、これらのアプローチの多くはヒューマノイドロボットには適用されない。 そこで本稿では,xai法を説明可能な神経ロボティクスに適用する現在の課題について述べる。 さらに、オープンソースヒューマノイドロボットプラットフォームであるNICOを導入し、ロボット自体による本質的な説明と環境が提供する外生的な説明との相互作用によって、効率的なロボット動作を実現する方法について述べる。

Explainable artificial intelligence (XAI) can help foster trust in and acceptance of intelligent and autonomous systems. Moreover, understanding the motivation for an agent's behavior results in better and more successful collaborations between robots and humans. However, not only can humans benefit from a robot's explanation but the robot itself can also benefit from explanations given to him. Currently, most attention is paid to explaining deep neural networks and black-box models. However, a lot of these approaches are not applicable to humanoid robots. Therefore, in this position paper, current problems with adapting XAI methods to explainable neurorobotics are described. Furthermore, NICO, an open-source humanoid robot platform, is introduced and how the interaction of intrinsic explanations by the robot itself and extrinsic explanations provided by the environment enable efficient robotic behavior.
翻訳日:2022-10-09 06:07:07 公開日:2020-10-09
# 子どもの医療体験改善のためのソーシャルHRIを目指して

Towards Social HRI for Improving Children's Healthcare Experiences ( http://arxiv.org/abs/2010.04652v1 )

ライセンス: Link先を確認
Mary Ellen Foster and Ronald P. A. Petrick(参考訳) 本稿では, 小児の痛みや苦痛を伴う治療を, 臨床現場で支援するソーシャルロボットの開発を目的とした新しい研究プロジェクトについて述べる。 これまでロボットは、このタスクのために試行されてきたが、将来有望な初期結果を得て、システムは遠隔操作され、柔軟性と堅牢性を制限する傾向にある。 このプロジェクトは、ロボットシステムにおける行動選択のコアコンポーネントとして認識計画技術を使用し、人間と対話するための物理的、感覚的、社会的行動を含む計画を生成する。 ロボットは、子供、親、介護者、医療専門家との適切な、かつ安全な対話が求められるタスク環境で運用される。 自律型ソーシャルロボットの開発における技術的な課題に加えて、プロジェクトはすべての参加者グループによる共同設計技術を取り入れたものとなり、最終ロボットシステムは2段階の臨床試験で評価される。

This paper describes a new research project that aims to develop a social robot designed to help children cope with painful and distressing medical procedures in a clinical setting. While robots have previously been trialled for this task, with promising initial results, the systems have tended to be teleoperated, limiting their flexibility and robustness. This project will use epistemic planning techniques as a core component for action selection in the robot system, in order to generate plans that include physical, sensory, and social actions for interacting with humans. The robot will operate in a task environment where appropriate and safe interaction with children, parents/caregivers, and healthcare professionals is required. In addition to addressing the core technical challenge of building an autonomous social robot, the project will incorporate co-design techniques involving all participant groups, and the final robot system will be evaluated in a two-site clinical trial.
翻訳日:2022-10-09 06:06:53 公開日:2020-10-09
# ヒューマンエージェントチームにおける時間的不確かさのモデル化

Modeling Human Temporal Uncertainty in Human-Agent Teams ( http://arxiv.org/abs/2010.04849v1 )

ライセンス: Link先を確認
Maya Abo Dominguez, William La, James C. Boerkoel Jr(参考訳) 自動化されたスケジューリングは、ロボットと人間のチームメイトとの効率的で直感的なインタラクションを促進する上で、非常に有用なツールになり得る。 しかし、現在の自動スケジューリングのギャップは、人間のチームメイトが導入するタイミングの不確実性を最もよく表現する方法が理解されていないことである。 本稿では,クラウドワーカーの集団から人為的タイミングの不確実性のモデルを構築するために,オンライン人間ロボット協調パッケージングゲームの設計により,このギャップに対処する試みを行う。 重み付き分布は人間の時間的不確実性の最良のモデルであり、Log-Normal分布は我々の実験データに最も適している。 我々は,これらの結果と協調的なオンラインゲームが,ロボットの流速を改善するためのスケジューリングの今後の探索にどのように役立つかについて議論する。

Automated scheduling is potentially a very useful tool for facilitating efficient, intuitive interactions between a robot and a human teammate. However, a current gapin automated scheduling is that it is not well understood how to best represent the timing uncertainty that human teammates introduce. This paper attempts to address this gap by designing an online human-robot collaborative packaging game that we use to build a model of human timing uncertainty from a population of crowd-workers. We conclude that heavy-tailed distributions are the best models of human temporal uncertainty, with a Log-Normal distribution achieving the best fit to our experimental data. We discuss how these results along with our collaborative online game will inform and facilitate future explorations into scheduling for improved human-robot fluency.
翻訳日:2022-10-09 06:06:38 公開日:2020-10-09
# トップダウンとボトムアップによる表構造認識

Table Structure Recognition using Top-Down and Bottom-Up Cues ( http://arxiv.org/abs/2010.04565v1 )

ライセンス: Link先を確認
Sachin Raja, Ajoy Mondal, and C. V. Jawahar(参考訳) テーブルはドキュメントイメージ内の情報豊富な構造化オブジェクトである。 文書画像中のグラフィックオブジェクトとしてテーブルをローカライズする作業は行われているが、テーブル構造認識には限られた試みしか存在しない。 構造認識に関する文献の多くは、PDF文書からのメタ機能抽出や、画像から低レベルのレイアウト特徴を抽出する光学文字認識(OCR)モデルに依存している。 しかし,表のレイアウトやテキスト構造に大きな違いがある場合,OCRのメタ機能やエラーが欠如しているため,これらの手法はうまく一般化できない。 我々の研究では、メタ機能やOCRに依存しない複雑な構造、高密度なコンテンツ、さまざまなレイアウトを持つテーブルに焦点を当てています。 本稿では,細胞検出と相互作用モジュールを組み合わせることにより,細胞を局所化し,他の検出された細胞との行と列の関連を予測できるテーブル構造認識手法を提案する。 細胞検出のための損失関数に、構造的制約を付加的な差分成分として組み込む。 ICDAR-2013, ICDAR-2019 (cTDaR) Archival, UNLV, SciTSR, SciTSR-COMP, TableBank, PubTabNet という,公開可能な実世界のデータセットに対して,我々の手法を実証的に検証した。 我々の試みは、テーブルの視覚的理解にトップダウン(テーブル細胞検出)とボトムアップ(構造認識)を組み合わせたテーブル構造認識の新しい方向を開く。

Tables are information-rich structured objects in document images. While significant work has been done in localizing tables as graphic objects in document images, only limited attempts exist on table structure recognition. Most existing literature on structure recognition depends on extraction of meta-features from the PDF document or on the optical character recognition (OCR) models to extract low-level layout features from the image. However, these methods fail to generalize well because of the absence of meta-features or errors made by the OCR when there is a significant variance in table layouts and text organization. In our work, we focus on tables that have complex structures, dense content, and varying layouts with no dependency on meta-features and/or OCR. We present an approach for table structure recognition that combines cell detection and interaction modules to localize the cells and predict their row and column associations with other detected cells. We incorporate structural constraints as additional differential components to the loss function for cell detection. We empirically validate our method on the publicly available real-world datasets - ICDAR-2013, ICDAR-2019 (cTDaR) archival, UNLV, SciTSR, SciTSR-COMP, TableBank, and PubTabNet. Our attempt opens up a new direction for table structure recognition by combining top-down (table cells detection) and bottom-up (structure recognition) cues in visually understanding the tables.
翻訳日:2022-10-09 06:00:36 公開日:2020-10-09
# 遺伝・臨床データを用いた解剖の予測モデル

Predictive Modeling of Anatomy with Genetic and Clinical Data ( http://arxiv.org/abs/2010.04757v1 )

ライセンス: Link先を確認
Adrian V. Dalca, Ramesh Sridharan, Mert R. Sabuncu, Polina Golland(参考訳) 本報告では, 患者の解剖学的変化を予測するための半パラメトリック生成モデルについて述べる。 このような予測モデリングは、ボクセルレベルの研究と縦型バイオマーカー評価の両方において、新しい分析を促進することを約束する。 個体群全体の回帰と非パラメトリックモデルの組み合わせにより, 個体の遺伝的, 臨床的指標に基づいて, 解剖学的変化を捉える。 古典的相関や縦断解析とは対照的に,単体観測による新しい観測の予測に焦点をあてる。 我々はadniコホートにおける追跡解剖学的スキャンの予測を実証し、患者のスキャンと予測される被検体特異的な健康的解剖学的軌跡を比較する新しい分析アプローチを示す。 コードはhttps://github.com/adalca/voxelorbで入手できる。

We present a semi-parametric generative model for predicting anatomy of a patient in subsequent scans following a single baseline image. Such predictive modeling promises to facilitate novel analyses in both voxel-level studies and longitudinal biomarker evaluation. We capture anatomical change through a combination of population-wide regression and a non-parametric model of the subject's health based on individual genetic and clinical indicators. In contrast to classical correlation and longitudinal analysis, we focus on predicting new observations from a single subject observation. We demonstrate prediction of follow-up anatomical scans in the ADNI cohort, and illustrate a novel analysis approach that compares a patient's scans to the predicted subject-specific healthy anatomical trajectory. The code is available at https://github.com/adalca/voxelorb.
翻訳日:2022-10-09 05:59:50 公開日:2020-10-09
# クラスター活性化マッピングと医用画像への応用

Cluster Activation Mapping with Applications to Medical Imaging ( http://arxiv.org/abs/2010.04794v1 )

ライセンス: Link先を確認
Sarah Ryan, Nichole Carlson, Harris Butler, Tasha Fingerlin, Lisa Maier, Fuyong Xing(参考訳) ディープクラスタリングにおけるオープンな疑問は、イメージ内の何がクラスタ割り当てを生成するのかを理解する方法だ。 この視覚的理解は、深層学習のような本質的に複雑なアルゴリズムの結果を信頼できるものにするためには不可欠である。 本研究では、教師なしの深層クラスタリングフレームワークとScore-CAMの修正を組み合わせたCluster Activation Mapping(CLAM)を生成する新しい手法を開発した。 肺のctスキャンに基づいてシミュレーションを行い, サルコイドーシス集団の3次元ctスキャンに応用し, ct画像による新しいサルコイドーシスのクラスターを同定した。

An open question in deep clustering is how to understand what in the image is creating the cluster assignments. This visual understanding is essential to be able to trust the results of an inherently complex algorithm like deep learning, especially when the derived cluster assignments may be used to inform decision-making or create new disease sub-types. In this work, we developed novel methodology to generate CLuster Activation Mapping (CLAM) which combines an unsupervised deep clustering framework with a modification of Score-CAM, an approach for discriminative localization in the supervised setting. We evaluated our approach using a simulation study based on computed tomography scans of the lung, and applied it to 3D CT scans from a sarcoidosis population to identify new clusters of sarcoidosis based purely on CT scan presentation.
翻訳日:2022-10-09 05:59:37 公開日:2020-10-09
# 条件結合型GANを用いた分光アイリスマッチング

Cross-Spectral Iris Matching Using Conditional Coupled GAN ( http://arxiv.org/abs/2010.11689v1 )

ライセンス: Link先を確認
Moktari Mostofa, Fariborz Taherkhani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) クロススペクトル虹彩認識は、個人のアイデンティティを認証するための有望な生体計測手法として出現している。 しかし、異なるスペクトル帯域で取得したアイリス画像のマッチングは、NIRで取得したアイリス画像と視覚光(VIS)スペクトルのスペクトルギャップにより、単一帯域近赤外線(NIR)マッチングと比較して大きな性能劣化を示す。 研究者は最近、より正確な認識性能のために不変な代表的特徴を回復するためのディープラーニングベースのアプローチに焦点を当てているが、既存の手法は商用アプリケーションに必要な期待される精度を達成できない。 そこで本稿では,visとnirのiris画像を低次元埋め込み領域に投影し,それらの相互関係を探索することにより,クロススペクトルiris認識のための条件付き結合生成逆ネットワーク(cpgan)アーキテクチャを提案する。 条件付きCpGANフレームワークは、一対のGANベースのネットワークで構成されており、ひとつは可視領域の画像を検索し、もう一つはNIR領域の画像を検索する。 両方のネットワークは、データを共通の埋め込み部分空間にマッピングし、同じ対象の2つのイリスモジュラリティから特徴ベクトル間の最大対の類似性を保証する。 提案手法の有用性を証明するため,PolyUデータセットを用いて得られた実験結果を,既存の最先端のクロススペクトル認識法と比較した。

Cross-spectral iris recognition is emerging as a promising biometric approach to authenticating the identity of individuals. However, matching iris images acquired at different spectral bands shows significant performance degradation when compared to single-band near-infrared (NIR) matching due to the spectral gap between iris images obtained in the NIR and visual-light (VIS) spectra. Although researchers have recently focused on deep-learning-based approaches to recover invariant representative features for more accurate recognition performance, the existing methods cannot achieve the expected accuracy required for commercial applications. Hence, in this paper, we propose a conditional coupled generative adversarial network (CpGAN) architecture for cross-spectral iris recognition by projecting the VIS and NIR iris images into a low-dimensional embedding domain to explore the hidden relationship between them. The conditional CpGAN framework consists of a pair of GAN-based networks, one responsible for retrieving images in the visible domain and other responsible for retrieving images in the NIR domain. Both networks try to map the data into a common embedding subspace to ensure maximum pair-wise similarity between the feature vectors from the two iris modalities of the same subject. To prove the usefulness of our proposed approach, extensive experimental results obtained on the PolyU dataset are compared to existing state-of-the-art cross-spectral recognition methods.
翻訳日:2022-10-09 05:58:53 公開日:2020-10-09
# 機械学習パイプラインによる体系的文献のスケールアップ

Scaling Systematic Literature Reviews with Machine Learning Pipelines ( http://arxiv.org/abs/2010.04665v1 )

ライセンス: Link先を確認
Seraphina Goldfarb-Tarrant, Alexander Robertson, Jasmina Lazic, Theodora Tsouloufi, Louise Donnison, Karen Smyth(参考訳) 大量の科学文書からのデータ抽出を伴う体系的レビューは、機械学習の応用にとって理想的な方法である。 それらは科学や慈善の多くの分野に不可欠であるが、非常に時間がかかり、専門家を必要とする。 ドキュメントの検索はAPIとスクレイパーで行うことができ、関連するドキュメントの選択はバイナリ分類で行うことができ、データの抽出はシーケンスラベリング分類で行うことができる。 この分野の自動化の約束にもかかわらず、これらのタスクを自動化する様々な方法を調べる研究はほとんどない。 これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。 我々は,少量のデータにうまく機能し,訓練データに代表されない国のデータに一般化する分類器の能力をテストする。 我々は、アノテーションの難易度が異なるさまざまなタイプのデータ抽出と、抽出を行うための5つの異なるニューラルネットワークをテストする。 2週間の人間-専門家のアノテーションだけで、パイプラインシステム全体の驚くほどの正確さと一般化が得られます。これは、レビュー全体を手作業で行うのに要する時間の15%に過ぎず、追加の労力なしで、繰り返して新しいデータに拡張することができます。

Systematic reviews, which entail the extraction of data from large numbers of scientific documents, are an ideal avenue for the application of machine learning. They are vital to many fields of science and philanthropy, but are very time-consuming and require experts. Yet the three main stages of a systematic review are easily done automatically: searching for documents can be done via APIs and scrapers, selection of relevant documents can be done via binary classification, and extraction of data can be done via sequence-labelling classification. Despite the promise of automation for this field, little research exists that examines the various ways to automate each of these tasks. We construct a pipeline that automates each of these aspects, and experiment with many human-time vs. system quality trade-offs. We test the ability of classifiers to work well on small amounts of data and to generalise to data from countries not represented in the training data. We test different types of data extraction with varying difficulty in annotation, and five different neural architectures to do the extraction. We find that we can get surprising accuracy and generalisability of the whole pipeline system with only 2 weeks of human-expert annotation, which is only 15% of the time it takes to do the whole review manually and can be repeated and extended to new data with no additional effort.
翻訳日:2022-10-09 05:58:28 公開日:2020-10-09
# ランダム決定木を用いた実験室検査およびX線データによるCovid-19患者の予後予測

Prognosis Prediction in Covid-19 Patients from Lab Tests and X-ray Data through Randomized Decision Trees ( http://arxiv.org/abs/2010.04420v1 )

ライセンス: Link先を確認
Alfonso Emilio Gerevini, Roberto Maroldi, Matteo Olivato, Luca Putelli, Ivan Serina(参考訳) AIと機械学習は、Covid-19との戦いを支援する強力なツールを提供する。 本稿では,コビッド19の入院患者の予後を予測するための機械学習に基づく研究と具体的ツールを提案する。 特に,いくつかの人口統計情報,胸部x線検査値,臨床所見に基づいて,入院時に患者が死亡するリスクを予測する課題について検討した。 当社の機械学習モデルは、2000人以上の患者からのデータを使って、トレーニングおよびテストされた意思決定ツリーのアンサンブルを使用します。 モデルの実験的評価は,課題解決における優れた性能を示す。

AI and Machine Learning can offer powerful tools to help in the fight against Covid-19. In this paper we present a study and a concrete tool based on machine learning to predict the prognosis of hospitalised patients with Covid-19. In particular we address the task of predicting the risk of death of a patient at different times of the hospitalisation, on the base of some demographic information, chest X-ray scores and several laboratory findings. Our machine learning models use ensembles of decision trees trained and tested using data from more than 2000 patients. An experimental evaluation of the models shows good performance in solving the addressed task.
翻訳日:2022-10-09 05:57:32 公開日:2020-10-09
# 質量分析予測にグラフニューラルネットワークを用いる

Using Graph Neural Networks for Mass Spectrometry Prediction ( http://arxiv.org/abs/2010.04661v1 )

ライセンス: Link先を確認
Hao Zhu, Liping Liu, Soha Hassoun(参考訳) マス・スペクトロメトリー(MS)を用いた細胞代謝産物の検出と定量化は、すでに多くの生物学的・生物医学的応用において大きな可能性を示している。 メタボロミクスにおける最大の課題はアノテーションであり、測定されたスペクトルは化学的なアイデンティティが割り当てられる。 進歩にもかかわらず、現在の方法は測定されたスペクトルに対する限定的な注釈を提供する。 本稿では,グラフニューラルネットワーク(gnns)を用いてスペクトルの予測を行う。 私たちのモデルへの入力は分子グラフです。 モデルはNIST 17 LC-MSデータセットでトレーニングされ、テストされる。 分子指紋を入力として利用するニューラルネットワークモデルNEIMSとの比較を行った。 この結果から,GNNモデルの方がNEIMSよりも高性能であることが示唆された。 重要なことは、ランク付けの結果が候補の集合の大きさと対象分子との類似性に大きく依存していることを示し、この領域に対して一貫した、良好な評価プロトコルの必要性を強調している。

Detecting and quantifying products of cellular metabolism using Mass Spectrometry (MS) has already shown great promise in many biological and biomedical applications. The biggest challenge in metabolomics is annotation, where measured spectra are assigned chemical identities. Despite advances, current methods provide limited annotation for measured spectra. Here, we explore using graph neural networks (GNNs) to predict the spectra. The input to our model is a molecular graph. The model is trained and tested on the NIST 17 LC-MS dataset. We compare our results to NEIMS, a neural network model that utilizes molecular fingerprints as inputs. Our results show that GNN-based models offer higher performance than NEIMS. Importantly, we show that ranking results heavily depend on the candidate set size and on the similarity of the candidates to the target molecule, thus highlighting the need for consistent, well-characterized evaluation protocols for this domain.
翻訳日:2022-10-09 05:57:22 公開日:2020-10-09
# 不確実性フローによるロバストインスタンス追跡

Robust Instance Tracking via Uncertainty Flow ( http://arxiv.org/abs/2010.04367v1 )

ライセンス: Link先を確認
Jianing Qian, Junyu Nan, Siddharth Ancha, Brian Okorn, David Held(参考訳) 現在の最先端のトラッカーは、しばしば邪魔と大きなオブジェクトの外観変更のために失敗する。 本研究では,トラッキングロバスト性を改善するためのofdense光フローについて検討する。 我々の主な洞察は、フロー推定にも誤りがあるため、ロバストなトラッキングのためにフローの不確実性の推定を組み込む必要があるということである。 本稿では,外見と流れの不確実性情報を組み合わせた新しい追跡フレームワークを提案する。 我々のフレームワークがトラッキングロバスト性を改善し、新たな最先端結果をもたらすことを実験的に検証した。 さらに,ロバスト追跡における流れの不確かさの重要性を実験的に示した。

Current state-of-the-art trackers often fail due to distractorsand large object appearance changes. In this work, we explore the use ofdense optical flow to improve tracking robustness. Our main insight is that, because flow estimation can also have errors, we need to incorporate an estimate of flow uncertainty for robust tracking. We present a novel tracking framework which combines appearance and flow uncertainty information to track objects in challenging scenarios. We experimentally verify that our framework improves tracking robustness, leading to new state-of-the-art results. Further, our experimental ablations shows the importance of flow uncertainty for robust tracking.
翻訳日:2022-10-09 05:50:48 公開日:2020-10-09
# ビデオ予測のための深部シーケンス学習:離散的・決定論的から連続的・確率的へ

Deep Sequence Learning for Video Anticipation: From Discrete and Deterministic to Continuous and Stochastic ( http://arxiv.org/abs/2010.04368v1 )

ライセンス: Link先を確認
Sadegh Aliakbarian(参考訳) ビデオ予測は、限られた部分的な観察を与えられた1/複数未来表現を予測するタスクである。 これは、限られた観察によって、将来の表現が極めて曖昧であるという事実から、難しい課題である。 タスクの性質に基づいて、ビデオ予測は、予測される未来における詳細レベルと決定論のレベルという2つの視点から考えることができる。 本研究では, 決定論的未来における粗い表現を予測し, 確率過程の連続的, きめ細かい未来表現を予測することから始める。 前者の例はビデオアクション予測であり、あるアクションラベルを部分的に観察されたビデオで予測することに興味があり、後者の例は、部分的に観察されたビデオで与えられる人間の動作の多種多様な継続を予測している。 特に、この論文では、ビデオ予測の文学にいくつかの貢献をしています。

Video anticipation is the task of predicting one/multiple future representation(s) given limited, partial observation. This is a challenging task due to the fact that given limited observation, the future representation can be highly ambiguous. Based on the nature of the task, video anticipation can be considered from two viewpoints: the level of details and the level of determinism in the predicted future. In this research, we start from anticipating a coarse representation of a deterministic future and then move towards predicting continuous and fine-grained future representations of a stochastic process. The example of the former is video action anticipation in which we are interested in predicting one action label given a partially observed video and the example of the latter is forecasting multiple diverse continuations of human motion given partially observed one. In particular, in this thesis, we make several contributions to the literature of video anticipation...
翻訳日:2022-10-09 05:50:40 公開日:2020-10-09
# ファッション画像設計のためのディープラーニングに基づくインタラクティブスケッチシステム

A deep learning based interactive sketching system for fashion images design ( http://arxiv.org/abs/2010.04413v1 )

ライセンス: Link先を確認
Yao Li, Xianggang Yu, Xiaoguang Han, Nianjuan Jiang, Kui Jia, Jiangbo Lu(参考訳) 本研究では,ファッションスケッチとテクスチャ情報から,多様な高品質な衣料品のイメージをデザインするインタラクティブシステムを提案する。 このシステムの主な課題は、ユーザが提供するテクスチャ情報に従って、高品質で詳細なテクスチャを生成することである。 以前はテクスチャパッチの表現を主に使用し、小さなテクスチャパッチを衣服全体のイメージにマッピングしようとしていたため、高品質な詳細を生成できなかった。 対照的に、本質的な画像分解に触発されて、このタスクをテクスチャ合成とシェーディング強化に分解する。 特に、テクスチャ化された衣料画像を合成する新しい二色エッジテクスチャ表現と、グレースケールエッジに基づいてシェーディングをレンダリングするシェーディングエンハンサーを提案する。 両色のエッジ表現は、シンプルだが効果的なテクスチャキューと色制約を提供しており、詳細をよりよく再構築することができる。 さらに、レンダリングシェーディングにより、合成された衣服画像がより鮮明になる。

In this work, we propose an interactive system to design diverse high-quality garment images from fashion sketches and the texture information. The major challenge behind this system is to generate high-quality and detailed texture according to the user-provided texture information. Prior works mainly use the texture patch representation and try to map a small texture patch to a whole garment image, hence unable to generate high-quality details. In contrast, inspired by intrinsic image decomposition, we decompose this task into texture synthesis and shading enhancement. In particular, we propose a novel bi-colored edge texture representation to synthesize textured garment images and a shading enhancer to render shading based on the grayscale edges. The bi-colored edge representation provides simple but effective texture cues and color constraints, so that the details can be better reconstructed. Moreover, with the rendered shading, the synthesized garment image becomes more vivid.
翻訳日:2022-10-09 05:50:26 公開日:2020-10-09
# 無人システム用拡張YOLOv3による長距離微小顔検出

Long-distance tiny face detection based on enhanced YOLOv3 for unmanned system ( http://arxiv.org/abs/2010.04421v1 )

ライセンス: Link先を確認
Jia-Yi Chang, Yan-Feng Lu, Ya-Jun Liu, Bo Zhou, Hong Qiao(参考訳) 無人システムに適用されるリモートの小さな顔検出は、面倒な作業だ。 検出器は比較的長い距離のために十分なコンテキスト意味情報を得ることができない。 受信した微妙な特徴は、顔検出の精度を低下させ、堅牢にする。 小型顔の長距離検出の問題を解決するために,無人プラットフォームのためのyolov3アルゴリズムに基づく拡張ネットワークモデル(yolov3-c)を提案する。 このモデルでは,特徴ピラミッドネットワークのマルチスケール機能を導入し,その特徴を融合させて,出力の予測特徴マップを調整し,ターゲットの小さな顔に対するアルゴリズム全体の感度を向上させる。 拡張モデルにより,長距離群集や高密度群集の場合の顔検出精度が向上する。 実験評価の結果, 提案するyolov3-cは, 遠隔微小顔検出における他の検出装置と比較して高いパーフォーマンスを示した。 提案手法は,小さな顔検出タスクにおいて,最先端のYOLOv4[1]と同等の性能を達成できることに留意すべきである。

Remote tiny face detection applied in unmanned system is a challeng-ing work. The detector cannot obtain sufficient context semantic information due to the relatively long distance. The received poor fine-grained features make the face detection less accurate and robust. To solve the problem of long-distance detection of tiny faces, we propose an enhanced network model (YOLOv3-C) based on the YOLOv3 algorithm for unmanned platform. In this model, we bring in multi-scale features from feature pyramid networks and make the features fu-sion to adjust prediction feature map of the output, which improves the sensitivity of the entire algorithm for tiny target faces. The enhanced model improves the accuracy of tiny face detection in the cases of long-distance and high-density crowds. The experimental evaluation results demonstrated the superior perfor-mance of the proposed YOLOv3-C in comparison with other relevant detectors in remote tiny face detection. It is worth mentioning that our proposed method achieves comparable performance with the state of the art YOLOv4[1] in the tiny face detection tasks.
翻訳日:2022-10-09 05:50:09 公開日:2020-10-09
# gundapusunil at semeval-2020 task 8: multimodal memotion analysis

gundapusunil at SemEval-2020 Task 8: Multimodal Memotion Analysis ( http://arxiv.org/abs/2010.04470v1 )

ライセンス: Link先を確認
Sunil Gundapu, Radhika Mamidi(参考訳) インターネットやソーシャルメディアにおける最近の技術進歩は、より高速で効率的なコミュニケーションプラットフォームの進化をもたらした。 これらのプラットフォームには、視覚、テキスト、音声メディアが含まれており、インターネットミームと呼ばれるユニークな社会現象をもたらした。 インターネットミームは、ウィッティ、キャッチー、または皮肉なテキスト記述を持つ画像の形式である。 本稿では,コンピュータビジョンと自然言語処理を組み合わせた深層ニューラルネットワークを用いたマルチモーダル感情分析システムを提案する。 我々の目標は、テキストが肯定的あるいは否定的な感情を表現するかどうかを予測する通常の感情分析目標とは異なる。代わりに、インターネットミームを肯定的、否定的、中立的なものに分類し、表現されるユーモアの種類を特定し、特定の効果が表現されている範囲を定量化する。 CNN と LSTM を用いてシステムを構築し,ベースラインスコアを上回った。

Recent technological advancements in the Internet and Social media usage have resulted in the evolution of faster and efficient platforms of communication. These platforms include visual, textual and speech mediums and have brought a unique social phenomenon called Internet memes. Internet memes are in the form of images with witty, catchy, or sarcastic text descriptions. In this paper, we present a multi-modal sentiment analysis system using deep neural networks combining Computer Vision and Natural Language Processing. Our aim is different than the normal sentiment analysis goal of predicting whether a text expresses positive or negative sentiment; instead, we aim to classify the Internet meme as a positive, negative, or neutral, identify the type of humor expressed and quantify the extent to which a particular effect is being expressed. Our system has been developed using CNN and LSTM and outperformed the baseline score.
翻訳日:2022-10-09 05:49:56 公開日:2020-10-09
# ゼロショット物体検出のための背景学習型カスケード

Background Learnable Cascade for Zero-Shot Object Detection ( http://arxiv.org/abs/2010.04502v1 )

ライセンス: Link先を確認
Ye Zheng, Ruoran Huang, Chuanqi Han, Xi Huang, Li Cui(参考訳) ゼロショット検出(ZSD)は、見えない物体の局所化と認識を同時に行うために、大規模物体検出に不可欠である。 ZSDには、背景と見えないオブジェクト間のあいまいさの軽減や、視覚的概念と意味的概念の整合性の改善など、いくつかの課題がある。 本稿では,zsd性能を向上させるために,バックグラウンド学習型カスケード(blc)という新しいフレームワークを提案する。 BLCの主な貢献は以下のとおりである。 i)ZSDの視覚と意味の整合性を段階的に改善する多段カスケード構造Cascade Semantic R-CNNを提案する。 (ii)意味的情報フロー構造を開発し,カスケード意味的rcnnの各ステージ間を直接追加することで,意味的特徴学習をさらに改善する。 3) 背景学習可能な領域提案ネットワーク(BLRPN)を提案することにより,背景クラスに適した単語ベクトルを学習し,この学習ベクトルをカスケードセマンティックR CNNで使用する。 BLCは最先端手法よりもMS-COCOの大幅な性能向上を図っている。

Zero-shot detection (ZSD) is crucial to large-scale object detection with the aim of simultaneously localizing and recognizing unseen objects. There remain several challenges for ZSD, including reducing the ambiguity between background and unseen objects as well as improving the alignment between visual and semantic concept. In this work, we propose a novel framework named Background Learnable Cascade (BLC) to improve ZSD performance. The major contributions for BLC are as follows: (i) we propose a multi-stage cascade structure named Cascade Semantic R-CNN to progressively refine the alignment between visual and semantic of ZSD; (ii) we develop the semantic information flow structure and directly add it between each stage in Cascade Semantic RCNN to further improve the semantic feature learning; (iii) we propose the background learnable region proposal network (BLRPN) to learn an appropriate word vector for background class and use this learned vector in Cascade Semantic R CNN, this design makes \Background Learnable" and reduces the confusion between background and unseen classes. Our extensive experiments show BLC obtains significantly performance improvements for MS-COCO over state-of-the-art methods.
翻訳日:2022-10-09 05:49:43 公開日:2020-10-09
# 制御可能な連続視線指示

Controllable Continuous Gaze Redirection ( http://arxiv.org/abs/2010.04513v1 )

ライセンス: Link先を確認
Weihao Xia, Yujiu Yang, Jing-Hao Xue, Wensen Feng(参考訳) 本研究では,制御可能な視線リダイレクトのための新しいフレームワークであるInterpGazeについて述べる。 異なる属性の2つの視線画像が与えられた場合、我々の目標は、1人の視線を基準画像に描かれた任意の視線方向にリダイレクトするか、または連続的な中間結果を生成することである。 そこで我々は,エンコーダ,コントローラ,デコーダという3つの協調的なコンポーネントを含むモデルを設計した。 エンコーダは画像を不規則で階層的に構成された潜在空間にマッピングする。 コントローラは、制御ベクトルを変更することにより、潜在ベクトルの大きさを対応する属性の所望の強度に調整する。 デコーダは、所望の表現を属性空間から画像空間に変換する。 視線方向の全空間をカバーするため,様々な方向の高品質な視線画像データセットを導入し,関連する分野の研究者にも有益である。 複数のベースライン法との比較により,提案手法は画質とリダイレクト精度の点で最先端手法よりも優れていることがわかった。

In this work, we present interpGaze, a novel framework for controllable gaze redirection that achieves both precise redirection and continuous interpolation. Given two gaze images with different attributes, our goal is to redirect the eye gaze of one person into any gaze direction depicted in the reference image or to generate continuous intermediate results. To accomplish this, we design a model including three cooperative components: an encoder, a controller and a decoder. The encoder maps images into a well-disentangled and hierarchically-organized latent space. The controller adjusts the magnitudes of latent vectors to the desired strength of corresponding attributes by altering a control vector. The decoder converts the desired representations from the attribute space to the image space. To facilitate covering the full space of gaze directions, we introduce a high-quality gaze image dataset with a large range of directions, which also benefits researchers in related areas. Extensive experimental validation and comparisons to several baseline methods show that the proposed interpGaze outperforms state-of-the-art methods in terms of image quality and redirection precision.
翻訳日:2022-10-09 05:49:21 公開日:2020-10-09
# 自分のベストコンペティターになれる! 多分岐逆数知識伝達

Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge Transfer ( http://arxiv.org/abs/2010.04516v1 )

ライセンス: Link先を確認
Mahdi Ghorbani, Fahimeh Fooladgar, Shohreh Kasaei(参考訳) 深層ニューラルネットワークアーキテクチャは、シーン理解タスクにおいて著しく改善されている。 効率的なモデルを使用することは、限られたリソースデバイスにとって最も重要な制約のひとつだ。 近年,計算負荷とメモリ消費を低減させる圧縮手法がいくつか提案されている。 その中でも、プルーニングと量子化の手法は、モデルパラメータを圧縮することで、性能の重大な低下を示す。 知識蒸留法は, 煩雑なネットワークを監督する軽量ネットワークの訓練に重点を置いて, コンパクトモデルの性能を向上させる。 提案手法では, 自己蒸留法として知られるモデルの一次流上に複数の枝を構築し, ネットワーク内での知識蒸留を行った。 そのため、知識蒸留政策や敵対的学習戦略とともに、知識を相互に伝達するサブニューラルネットワークモデルのアンサンブルが提案されている。 したがって、サブモデルのアンサンブルは差別モデルに対して逆向きに訓練される。 さらに、それらの知識は4つの異なる損失関数によってアンサンブル内で伝達される。 提案手法は, 画像分類とエンコーダ・デコーダアーキテクチャの両方に応用され, 計算オーバーヘッドを増大させることなく, 小型でコンパクトなモデルの性能を向上させる。 主な課題であるデータセットに対する大規模な実験結果から,提案したネットワークは,同じパラメータ数と計算コストの精度で一次モデルを上回る性能を示した。 その結果, 先行する自己蒸留法に比べて, 提案モデルが大幅に改善されていることがわかった。 提案モデルの有効性はエンコーダ・デコーダモデルにも示されている。

Deep neural network architectures have attained remarkable improvements in scene understanding tasks. Utilizing an efficient model is one of the most important constraints for limited-resource devices. Recently, several compression methods have been proposed to diminish the heavy computational burden and memory consumption. Among them, the pruning and quantizing methods exhibit a critical drop in performances by compressing the model parameters. While the knowledge distillation methods improve the performance of compact models by focusing on training lightweight networks with the supervision of cumbersome networks. In the proposed method, the knowledge distillation has been performed within the network by constructing multiple branches over the primary stream of the model, known as the self-distillation method. Therefore, the ensemble of sub-neural network models has been proposed to transfer the knowledge among themselves with the knowledge distillation policies as well as an adversarial learning strategy. Hence, The proposed ensemble of sub-models is trained against a discriminator model adversarially. Besides, their knowledge is transferred within the ensemble by four different loss functions. The proposed method has been devoted to both lightweight image classification and encoder-decoder architectures to boost the performance of small and compact models without incurring extra computational overhead at the inference process. Extensive experimental results on the main challenging datasets show that the proposed network outperforms the primary model in terms of accuracy at the same number of parameters and computational cost. The obtained results show that the proposed model has achieved significant improvement over earlier ideas of self-distillation methods. The effectiveness of the proposed models has also been illustrated in the encoder-decoder model.
翻訳日:2022-10-09 05:49:07 公開日:2020-10-09
# 畳み込みニューラルネットワークを用いたリアルタイム顔認識

Real Time Face Recognition Using Convoluted Neural Networks ( http://arxiv.org/abs/2010.04517v1 )

ライセンス: Link先を確認
Rohith Pudari, Sunil Bhutada, Sai Pavan Mudavath(参考訳) 顔認識は、顔を識別するプロセスのひとつであり、認証システム、監視システム、法執行機関など、さまざまな応用がある。 畳み込みニューラルネットワークは顔認識に最適であることが証明されている。 core-ml apiを用いて顔を検出し、特定の人物を認識するために訓練されたcoreMLモデルを介して抽出された顔を処理する。 データセットの作成は、認識対象者の顔映像を数百枚の人物画像に変換することによって行われる。

Face Recognition is one of the process of identifying people using their face, it has various applications like authentication systems, surveillance systems and law enforcement. Convolutional Neural Networks are proved to be best for facial recognition. Detecting faces using core-ml api and processing the extracted face through a coreML model, which is trained to recognize specific persons. The creation of dataset is done by converting face videos of the persons to be recognized into Hundreds of images of person, which is further used for training and validation of the model to provide accurate real-time results.
翻訳日:2022-10-09 05:48:46 公開日:2020-10-09
# ニューラルネットワークモデルによる歴史的辞書符号の解法

Solving Historical Dictionary Codes with a Neural Language Model ( http://arxiv.org/abs/2010.04746v1 )

ライセンス: Link先を確認
Christopher Chu, Raphael Valenti, Kevin Knight(参考訳) 復号格子を構築し、その格子をニューラルネットワークモデルで探索することにより、難解な単語ベースの置換符号を解く。 我々は1700年代後半から1800年代初期にかけて、アメリカ陸軍将軍ジェームズ・ウィルキンソンとスペイン王室の代理人の間で交わされた暗号化された手紙に我々の方法を適用した。 暗号ワードトークンの75.1%を正しく解読することができる。

We solve difficult word-based substitution codes by constructing a decoding lattice and searching that lattice with a neural language model. We apply our method to a set of enciphered letters exchanged between US Army General James Wilkinson and agents of the Spanish Crown in the late 1700s and early 1800s, obtained from the US Library of Congress. We are able to decipher 75.1% of the cipher-word tokens correctly.
翻訳日:2022-10-09 05:42:30 公開日:2020-10-09
# MEEP: ヒューマン・ヒューマン・ダイアログコレクションとエンドツーエンドエージェントトレーニングのためのオープンソースプラットフォーム

MEEP: An Open-Source Platform for Human-Human Dialog Collection and End-to-End Agent Training ( http://arxiv.org/abs/2010.04747v1 )

ライセンス: Link先を確認
Arkady Arkhangorodsky, Amittai Axelrod, Christopher Chu, Scot Fang, Yiqi Huang, Ajay Nagesh, Xing Shi, Boliang Zhang and Kevin Knight(参考訳) 我々は新しいタスク指向対話プラットフォーム(MEEP)を作成し、エージェントは発話やAPI呼び出しに関してかなりの自由を与えられるが、プッシュボタン環境内では動作しない。 人間の対話コーパスを収集し、エンドツーエンドで自動エージェントを訓練するための設備を含む。 ユーザが旅行先を指定するダイアログアシスタントでMEEPを実演する。

We create a new task-oriented dialog platform (MEEP) where agents are given considerable freedom in terms of utterances and API calls, but are constrained to work within a push-button environment. We include facilities for collecting human-human dialog corpora, and for training automatic agents in an end-to-end fashion. We demonstrate MEEP with a dialog assistant that lets users specify trip destinations.
翻訳日:2022-10-09 05:42:22 公開日:2020-10-09
# 潜在変数モデルを用いたクロス言語形容詞規則性の検討

Investigating Cross-Linguistic Adjective Ordering Tendencies with a Latent-Variable Model ( http://arxiv.org/abs/2010.04755v1 )

ライセンス: Link先を確認
Jun Yen Leung, Guy Emerson, Ryan Cotterell(参考訳) 言語全体では、複数の連続した形容詞が名詞(例えば「大きな赤い犬」)を修飾し、特定のマークのない順序規則に従う。 説明的説明が提出されているが、この領域での作業の多くは、コーパスデータではなく、主にネイティブ話者の直感的な判断に依存している。 学習言語とテスト言語が異なる場合でも,24言語にまたがる形容詞を正確に順序付けできる潜在変数モデルという形で,多言語形容詞順序付けの最初のコーパス駆動モデルを提案する。 この新しい統計モデルを用いて、普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い収束証拠を提供する。

Across languages, multiple consecutive adjectives modifying a noun (e.g. "the big red dog") follow certain unmarked ordering rules. While explanatory accounts have been put forward, much of the work done in this area has relied primarily on the intuitive judgment of native speakers, rather than on corpus data. We present the first purely corpus-driven model of multi-lingual adjective ordering in the form of a latent-variable model that can accurately order adjectives across 24 different languages, even when the training and testing languages are different. We utilize this novel statistical model to provide strong converging evidence for the existence of universal, cross-linguistic, hierarchical adjective ordering tendencies.
翻訳日:2022-10-09 05:42:14 公開日:2020-10-09
# SNLIトレーニングデータは、拡張データよりも優れた一般化を得られない

Counterfactually-Augmented SNLI Training Data Does Not Yield Better Generalization Than Unaugmented Data ( http://arxiv.org/abs/2010.04762v1 )

ライセンス: Link先を確認
William Huang, Haokun Liu, and Samuel R. Bowman(参考訳) モデルがアノテーションのアーティファクトを利用して、標準のクラウドソースベンチマークで最先端のパフォーマンスを実現していることを示している – クラウドワーカーから収集されたデータセットが、評価タスクを生成する - 同じタスクのドメイン外の例では、依然として失敗している。 最近の研究は、反ファクト的に拡張されたデータ - シードサンプルの集合を最小限に編集して反ファクトラベルを得るデータ - を使うことで、これらのベンチマークに関連するトレーニングデータを拡張し、より堅牢な分類器を構築し、より一般化する。 しかし、Khashabi et al. (2020) は、このような拡張はデータセットのサイズと収集コストを制御する際に、理解的なタスクを読むことにはほとんど利益をもたらすことを見出した。 我々は、英語の自然言語推論データを用いてモデルの一般化と堅牢性をテストすることにより、同様の大きさの非推論データセットよりも、対置型snliデータセットでトレーニングされたモデルの方が汎用性が低く、対置型拡張がパフォーマンスを損なう可能性があり、例に挑むのにロバストでないモデルが得られることを発見した。 標準的なクラウドソーシング技術による自然言語理解データのカウンターファクト改善は、トレーニングデータ収集の効果的な方法とは思えず、この一般的な作業ラインの実現にはさらなる革新が必要である。

A growing body of work shows that models exploit annotation artifacts to achieve state-of-the-art performance on standard crowdsourced benchmarks---datasets collected from crowdworkers to create an evaluation task---while still failing on out-of-domain examples for the same task. Recent work has explored the use of counterfactually-augmented data---data built by minimally editing a set of seed examples to yield counterfactual labels---to augment training data associated with these benchmarks and build more robust classifiers that generalize better. However, Khashabi et al. (2020) find that this type of augmentation yields little benefit on reading comprehension tasks when controlling for dataset size and cost of collection. We build upon this work by using English natural language inference data to test model generalization and robustness and find that models trained on a counterfactually-augmented SNLI dataset do not generalize better than unaugmented datasets of similar size and that counterfactual augmentation can hurt performance, yielding models that are less robust to challenge examples. Counterfactual augmentation of natural language understanding data through standard crowdsourcing techniques does not appear to be an effective way of collecting training data and further innovation is required to make this general line of work viable.
翻訳日:2022-10-09 05:41:58 公開日:2020-10-09
# 単なる説明は、kitna balancehai? --多言語コミュニティのための音声対応銀行サービスの構築について

Mere account mein kitna balance hai? -- On building voice enabled Banking Services for Multilingual Communities ( http://arxiv.org/abs/2010.16411v1 )

ライセンス: Link先を確認
Akshat Gupta, Sai Krishna Rallabandi and Alan W Black(参考訳) 音声と言語処理の飛躍的な進歩により、言語技術は日々の生活に近づいた。 音声技術は、デジタル化のあらゆる側面を横切る水平対応層として機能する可能性を秘めている。 特にパンデミックのようなシナリオで農村社会にとって有益である。 本研究は,多言語社会のための音声対応型銀行サービスの構築に向けた最初の探索的取り組みを示す。 多言語コミュニティにおける一般的な銀行取引の音声対話には、コードミキシングが特徴である。 コード混合は、ある言語からの語彙項目が他の言語の発話に埋め込まれる現象である。 したがって、銀行アプリケーション用にデプロイされた音声システムは、そのようなコンテンツを処理できるべきである。 本研究では,音声に基づく意図認識システム構築のための様々な学習戦略について検討する。 本研究は,アロサウルスライブラリーを用いた近似音響電話ユニットのNaive Bayes分類器を用いて行った。

Tremendous progress in speech and language processing has brought language technologies closer to daily human life. Voice technology has the potential to act as a horizontal enabling layer across all aspects of digitization. It is especially beneficial to rural communities in scenarios like a pandemic. In this work we present our initial exploratory work towards one such direction -- building voice enabled banking services for multilingual societies. Speech interaction for typical banking transactions in multilingual communities involves the presence of filled pauses and is characterized by Code Mixing. Code Mixing is a phenomenon where lexical items from one language are embedded in the utterance of another. Therefore speech systems deployed for banking applications should be able to process such content. In our work we investigate various training strategies for building speech based intent recognition systems. We present our results using a Naive Bayes classifier on approximate acoustic phone units using the Allosaurus library.
翻訳日:2022-10-09 05:41:09 公開日:2020-10-09
# AMR-to-Text生成のためのオンラインバックパッシング

Online Back-Parsing for AMR-to-Text Generation ( http://arxiv.org/abs/2010.04520v1 )

ライセンス: Link先を確認
Xuefeng Bai, Linfeng Song and Yue Zhang(参考訳) AMR-to-text生成は、入力されたAMRグラフと同じ意味のテキストを復元することを目的としている。 現在の研究では、AMRグラフをより良く表現するための強力なグラフエンコーダが開発されており、標準言語モデリングに基づくデコーダが出力を生成するために使用されている。 テキスト生成中にターゲット文に投影されたAMRグラフを予測するデコーダを提案する。 その結果、出力は標準デコーダよりも入力の意味を保存できることがわかった。 2つのamrベンチマーク実験では,グラフトランスフォーマタを用いた前回の最先端システムよりも優れた性能を示す。

AMR-to-text generation aims to recover a text containing the same meaning as an input AMR graph. Current research develops increasingly powerful graph encoders to better represent AMR graphs, with decoders based on standard language modeling being used to generate outputs. We propose a decoder that back predicts projected AMR graphs on the target sentence during text generation. As the result, our outputs can better preserve the input meaning than standard decoders. Experiments on two AMR benchmarks show the superiority of our model over the previous state-of-the-art system based on graph Transformer.
翻訳日:2022-10-09 05:33:09 公開日:2020-10-09
# テキスト要約で何を得たか?

What Have We Achieved on Text Summarization? ( http://arxiv.org/abs/2010.04529v1 )

ライセンス: Link先を確認
Dandan Huang, Leyang Cui, Sen Yang, Guangsheng Bao, Kun Wang, Jun Xie, Yue Zhang(参考訳) 深層学習は、長年にわたって報告されたROUGEスコアを調査・改善し、テキスト要約を著しく改善した。 しかし、自動要約と人間専門家による要約の間にはギャップが残っている。 要約システムの強みと細かな構文・意味レベルでの限界についてより理解を深めるため,多次元品質基準(MQM)を参考にし,手動で10の代表的な要約モデル上で8つの主要な誤り源を定量化する。 主に、私たちはそれを見つけます。 1) 類似の条件下では,抽出要約器は,信頼度及び事実整合性の強さにより,抽象的要約器よりも一般的に優れている。 2)コピー,カバレッジ,ハイブリッド抽出/アブストレーションといったマイルストーン技術は,特定の改善をもたらすだけでなく,制限も示す。 3)事前学習技術,特にシーケンス・ツー・シーケンス事前学習は,テキスト要約の改善に極めて有効であり,BARTが最適である。

Deep learning has led to significant improvement in text summarization with various methods investigated and improved ROUGE scores reported over the years. However, gaps still exist between summaries produced by automatic summarizers and human professionals. Aiming to gain more understanding of summarization systems with respect to their strengths and limits on a fine-grained syntactic and semantic level, we consult the Multidimensional Quality Metric(MQM) and quantify 8 major sources of errors on 10 representative summarization models manually. Primarily, we find that 1) under similar settings, extractive summarizers are in general better than their abstractive counterparts thanks to strength in faithfulness and factual-consistency; 2) milestone techniques such as copy, coverage and hybrid extractive/abstractive methods do bring specific improvements but also demonstrate limitations; 3) pre-training techniques, and in particular sequence-to-sequence pre-training, are highly effective for improving text summarization, with BART giving the best results.
翻訳日:2022-10-09 05:32:59 公開日:2020-10-09
# ニューラルテキスト分類のためのマルチソース弱スーパービジョン

Denoising Multi-Source Weak Supervision for Neural Text Classification ( http://arxiv.org/abs/2010.04582v1 )

ライセンス: Link先を確認
Wendi Ren, Yinghao Li, Hanting Su, David Kartchner, Cassie Mitchell, Chao Zhang(参考訳) 本研究では,ラベル付きデータを用いずにニューラルネットワーク分類器を学習する問題について検討する。 規則によって引き起こされる弱いラベルはしばしば騒がしく不完全であるため、この問題は難しい。 これら2つの課題に対処するために,条件付きソフトアテンション機構を用いて音源の信頼性を推定するラベルデノイザを設計し,規則付弱ラベルを集約することでラベルノイズを低減する。 識別された擬似ラベルは神経分類器を監督し、未一致のサンプルのソフトラベルを予測し、ルールカバレッジの問題に対処する。 我々は、感情、話題、関係分類の5つのベンチマークでモデルを評価する。 その結果,本モデルは最先端の弱教師付き手法と半教師付き手法を一貫して上回り,ラベル付きデータなしでも完全教師付き手法と同等の性能を発揮することがわかった。 私たちのコードはhttps://github.com/weakrules/Denoise-multi-weak-sourcesにある。

We study the problem of learning neural text classifiers without using any labeled data, but only easy-to-provide rules as multiple weak supervision sources. This problem is challenging because rule-induced weak labels are often noisy and incomplete. To address these two challenges, we design a label denoiser, which estimates the source reliability using a conditional soft attention mechanism and then reduces label noise by aggregating rule-annotated weak labels. The denoised pseudo labels then supervise a neural classifier to predicts soft labels for unmatched samples, which address the rule coverage issue. We evaluate our model on five benchmarks for sentiment, topic, and relation classifications. The results show that our model outperforms state-of-the-art weakly-supervised and semi-supervised methods consistently, and achieves comparable performance with fully-supervised methods even without any labeled data. Our code can be found at https://github.com/weakrules/Denoise-multi-weak-sources.
翻訳日:2022-10-09 05:32:43 公開日:2020-10-09
# リカレントバブリング:限られた入力データから文法の獲得を評価する

Recurrent babbling: evaluating the acquisition of grammar from limited input data ( http://arxiv.org/abs/2010.04637v1 )

ライセンス: Link先を確認
Ludovica Pannitto and Aur\'elie Herbelot(参考訳) リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、生の言語入力から構文の様々な側面を捉えている。 しかし、これまでのほとんどの実験では、学習は非現実的なコーパスの上で行われ、それは子供が露出するデータの種類や量を反映しない。 本稿では,子ども向け入力のリアルサイズのサブセット上で,長期短期記憶ネットワーク(lstm)を訓練することで,この状況を改善する。 ネットワークの振る舞いは時間とともに分析され、モデルが生成したアウトプット("バブリング")の文法的抽象化のレベルを、公開された言語と比較して定量化する新しい方法論を用いている。 LSTMは、学習が進むにつれて、新しい構造を抽象化する。

Recurrent Neural Networks (RNNs) have been shown to capture various aspects of syntax from raw linguistic input. In most previous experiments, however, learning happens over unrealistic corpora, which do not reflect the type and amount of data a child would be exposed to. This paper remedies this state of affairs by training a Long Short-Term Memory network (LSTM) over a realistically sized subset of child-directed input. The behaviour of the network is analysed over time using a novel methodology which consists in quantifying the level of grammatical abstraction in the model's generated output (its "babbling"), compared to the language it has been exposed to. We show that the LSTM indeed abstracts new structuresas learning proceeds.
翻訳日:2022-10-09 05:32:26 公開日:2020-10-09
# 高次セマンティックロールラベリング

High-order Semantic Role Labeling ( http://arxiv.org/abs/2010.04641v1 )

ライセンス: Link先を確認
Zuchao Li, Hai Zhao, Rui Wang, Kevin Parnow(参考訳) 意味的役割ラベリングは、主に述語、引数、それらの意味的関係を識別するために使用される。 モデリング手法の限界と事前同定された述語の状態により、従来の研究は述語と議論の関係と論語間の関係に焦点を合わせてきたが、述語間の相関は長い間無視されてきた。 高次特徴と構造学習は、ニューラルネットワーク時代以前の相関のモデル化において非常に一般的であった。 本稿では,神経意味的役割ラベリングモデルのための高次グラフ構造を提案する。このモデルでは,孤立した述語-指示ペアだけでなく,述語-指示ペア間の相互作用も明示的に考慮できる。 CoNLL-2009ベンチマークの7言語に対する実験結果から、高次構造学習技術は強力なSRLモデルに有益であり、新たな最先端結果を達成するために、我々のベースラインをさらに強化することを示した。

Semantic role labeling is primarily used to identify predicates, arguments, and their semantic relationships. Due to the limitations of modeling methods and the conditions of pre-identified predicates, previous work has focused on the relationships between predicates and arguments and the correlations between arguments at most, while the correlations between predicates have been neglected for a long time. High-order features and structure learning were very common in modeling such correlations before the neural network era. In this paper, we introduce a high-order graph structure for the neural semantic role labeling model, which enables the model to explicitly consider not only the isolated predicate-argument pairs but also the interaction between the predicate-argument pairs. Experimental results on 7 languages of the CoNLL-2009 benchmark show that the high-order structural learning techniques are beneficial to the strong performing SRL models and further boost our baseline to achieve new state-of-the-art results.
翻訳日:2022-10-09 05:31:52 公開日:2020-10-09
# 非決定論的スタックRNNを用いた文脈自由言語学習

Learning Context-Free Languages with Nondeterministic Stack RNNs ( http://arxiv.org/abs/2010.04674v1 )

ライセンス: Link先を確認
Brian DuSell and David Chiang(参考訳) 我々は,非決定論的プッシュダウンオートマトンをシミュレートするlangのアルゴリズムに基づいて,指数関数的なスタック構成を同時かつ気軽にエンコードする,微分可能なスタックデータ構造を提案する。 我々は、このデータ構造とリカレントニューラルネットワーク(RNN)コントローラの組み合わせを非決定論的スタックRNNと呼んでいる。 我々は,本モデルと各種形式言語上の既存のスタックRNNを比較し,決定論的タスクのアルゴリズム的振る舞いにより確実に収束し,本質的に非決定論的タスクのクロスエントロピーを低くすることを示した。

We present a differentiable stack data structure that simultaneously and tractably encodes an exponential number of stack configurations, based on Lang's algorithm for simulating nondeterministic pushdown automata. We call the combination of this data structure with a recurrent neural network (RNN) controller a Nondeterministic Stack RNN. We compare our model against existing stack RNNs on various formal languages, demonstrating that our model converges more reliably to algorithmic behavior on deterministic tasks, and achieves lower cross-entropy on inherently nondeterministic tasks.
翻訳日:2022-10-09 05:31:23 公開日:2020-10-09
# 不確実性に関する不確実性:経済政策不確実性の仮定・注釈・テキスト測定の考察

Uncertainty over Uncertainty: Investigating the Assumptions, Annotations, and Text Measurements of Economic Policy Uncertainty ( http://arxiv.org/abs/2010.04706v1 )

ライセンス: Link先を確認
Katherine A. Keith, Christoph Teichmann, Brendan O'Connor, Edgar Meij(参考訳) 方法と応用は科学、特にテキスト・アズ・データ分野において、厳密には関係がない。 本稿では、ニュース中のキーワード発生から経済政策の不確実性を測定する定評のある経済指標であるテキスト・アズ・データ・アプリケーションについて検討する。 この指数は、企業投資、雇用、過剰な市場リターンと相関していることが示されており、民間部門とアカデミックの両方に実質的な影響を与えている。 しかし、原著者の注釈やテキストの測定を再考し、拡張するにつれて、興味深いテキスト・アズ・データ・方法論研究の疑問が浮かび上がっている。 2) 代替テキスト測定は相互に相関し, 外部予測妥当性の尺度と関係があるか? 本研究では,(1) 経済政策の不確実性に関する注釈の不一致は,言語におけるあいまいさに起因しうること,(2) キーワードマッチングから教師付き機械学習分類器への測定を切り替えることにより,相関が低くなり,指標の有効性が示唆される。

Methods and applications are inextricably linked in science, and in particular in the domain of text-as-data. In this paper, we examine one such text-as-data application, an established economic index that measures economic policy uncertainty from keyword occurrences in news. This index, which is shown to correlate with firm investment, employment, and excess market returns, has had substantive impact in both the private sector and academia. Yet, as we revisit and extend the original authors' annotations and text measurements we find interesting text-as-data methodological research questions: (1) Are annotator disagreements a reflection of ambiguity in language? (2) Do alternative text measurements correlate with one another and with measures of external predictive validity? We find for this application (1) some annotator disagreements of economic policy uncertainty can be attributed to ambiguity in language, and (2) switching measurements from keyword-matching to supervised machine learning classifiers results in low correlation, a concerning implication for the validity of the index.
翻訳日:2022-10-09 05:31:13 公開日:2020-10-09
# 発音辞書なしで中国語を発音する学習

Learning to Pronounce Chinese Without a Pronunciation Dictionary ( http://arxiv.org/abs/2010.04744v1 )

ライセンス: Link先を確認
Christopher Chu, Scot Fang and Kevin Knight(参考訳) 発音辞書を使わずに中国語の文章を中国語で発音するプログラムを実演する。 漢字と中国語のピン音の非並列ストリームから、文字と発音の多対多のマッピングを確立する。 教師なしの方法を用いて、プログラムは文章を効果的に音声に解読する。 トークンレベルの文字と音節の精度は89%であり、前処理の22%を超える。

We demonstrate a program that learns to pronounce Chinese text in Mandarin, without a pronunciation dictionary. From non-parallel streams of Chinese characters and Chinese pinyin syllables, it establishes a many-to-many mapping between characters and pronunciations. Using unsupervised methods, the program effectively deciphers writing into speech. Its token-level character-to-syllable accuracy is 89%, which significantly exceeds the 22% accuracy of prior work.
翻訳日:2022-10-09 05:30:53 公開日:2020-10-09
# Langsmith: インタラクティブな学術テキストリビジョンシステム

Langsmith: An Interactive Academic Text Revision System ( http://arxiv.org/abs/2010.04332v1 )

ライセンス: Link先を確認
Takumi Ito, Tatsuki Kuribayashi, Masatoshi Hidaka, Jun Suzuki, Kentaro Inui(参考訳) 学術コミュニティにおける現在の多様性と包括的取り組みにもかかわらず、英語の非ネイティブなコマンドを持つ研究者は、英語で論文を書く際にも大きな障害に直面している。 本稿では、経験の浅い非ネイティブ研究者が特に自然言語処理(NLP)分野において英語論文を書くのを支援するLangsmithエディタを提案する。 本システムでは,不完全で粗雑な句や文に基づいて,著者に流麗で学術的な文を提案できる。 このシステムは、ヒューマンライターとコンピュータ化されたリビジョンシステムとの相互作用を促進する。 実験の結果,ラングスミスは非ネイティブな英語話者の学生が英語で論文を書くのを助けることがわかった。 このシステムはhttps://emnlp-demo.editor.comで入手できる。 langsmith.co.jp/

Despite the current diversity and inclusion initiatives in the academic community, researchers with a non-native command of English still face significant obstacles when writing papers in English. This paper presents the Langsmith editor, which assists inexperienced, non-native researchers to write English papers, especially in the natural language processing (NLP) field. Our system can suggest fluent, academic-style sentences to writers based on their rough, incomplete phrases or sentences. The system also encourages interaction between human writers and the computerized revision system. The experimental results demonstrated that Langsmith helps non-native English-speaker students write papers in English. The system is available at https://emnlp-demo.editor. langsmith.co.jp/.
翻訳日:2022-10-09 05:24:31 公開日:2020-10-09
# 計算効率の良い名前付きエンティティ認識タグのための制約付きデコーディング

Constrained Decoding for Computationally Efficient Named Entity Recognition Taggers ( http://arxiv.org/abs/2010.04362v1 )

ライセンス: Link先を確認
Brian Lester, Daniel Pressel, Amy Hemmeter, Sagnik Ray Choudhury, Srinivas Bangalore(参考訳) 名前付きエンティティ認識(ner)の現在の最先端モデルは、条件付きランダムフィールド(crf)を最終層とするニューラルモデルである。 エンティティは、それらをスパンにデコードするために、特別な構造を持つトーケンラベルとして表現される。 現在の作業は、スパン符号化方式の仕組みに関する事前の知識を避け、どのトランジッションが違法で、どれがグローバルコヒーレンスを促進することができないcrf学習に依存している。 出力を制約して不正な遷移を抑制することで、統計的に重要でないF1の違いでCRFの2倍の速さでタグを訓練し、CRFの必要性を効果的に排除できることがわかった。 我々はタグ共起のダイナミクスを分析し、これらの制約がいつ最も効果的かを説明し、PyTorchとTensorFlowの両方でタグのオープンソース実装を提供する。

Current state-of-the-art models for named entity recognition (NER) are neural models with a conditional random field (CRF) as the final layer. Entities are represented as per-token labels with a special structure in order to decode them into spans. Current work eschews prior knowledge of how the span encoding scheme works and relies on the CRF learning which transitions are illegal and which are not to facilitate global coherence. We find that by constraining the output to suppress illegal transitions we can train a tagger with a cross-entropy loss twice as fast as a CRF with differences in F1 that are statistically insignificant, effectively eliminating the need for a CRF. We analyze the dynamics of tag co-occurrence to explain when these constraints are most effective and provide open source implementations of our tagger in both PyTorch and TensorFlow.
翻訳日:2022-10-09 05:24:21 公開日:2020-10-09
# iobes: Span-Level処理のためのライブラリ

iobes: A Library for Span-Level Processing ( http://arxiv.org/abs/2010.04373v1 )

ライセンス: Link先を確認
Brian Lester(参考訳) 名前付きエンティティ認識やスロットフィリングなど、自然言語処理における多くのタスクは、特定のテキストのスパンの識別とラベル付けを含む。 一般的なモデルを活用するために、これらのタスクはしばしばシーケンスラベリングタスクとして再キャストされる。 各トークンにはラベルが与えられ、これらのラベルには b- や i- などの特別なトークンがプレフィックスされている。 モデルが各トークンにラベルを割り当てた後、これらのプレフィックスを使用してトークンをスパンに分類する。 これらのアノテーションを適切に解析することは、公平で同等のメトリクスを生成するために重要であるが、その重要性にもかかわらず、スパンラベリングを扱うのに役立つ、使いやすく、標準化され、プログラム的に統合可能なライブラリは存在しない。 これに対処するため、我々はオープンソースのライブラリであるiobesを紹介します。 iobesはトークンレベルの決定を表すスパンの解析、変換、処理に使用される。

Many tasks in natural language processing, such as named entity recognition and slot-filling, involve identifying and labeling specific spans of text. In order to leverage common models, these tasks are often recast as sequence labeling tasks. Each token is given a label and these labels are prefixed with special tokens such as B- or I-. After a model assigns labels to each token, these prefixes are used to group the tokens into spans. Properly parsing these annotations is critical for producing fair and comparable metrics; however, despite its importance, there is not an easy-to-use, standardized, programmatically integratable library to help work with span labeling. To remedy this, we introduce our open-source library, iobes. iobes is used for parsing, converting, and processing spans represented as token level decisions.
翻訳日:2022-10-09 05:24:05 公開日:2020-10-09
# 編集に基づく教師なし要約のための言語モデルを用いたQ学習

Q-learning with Language Model for Edit-based Unsupervised Summarization ( http://arxiv.org/abs/2010.04379v1 )

ライセンス: Link先を確認
Ryosuke Kohita, Akifumi Wachi, Yang Zhao, Ryuki Tachibana(参考訳) 非教師なしの手法は、並列コーパスが不要な抽象的なテキスト要約を約束する。 しかし、その性能はまだ満足には程遠いため、有望なソリューションに関する研究が進行中である。 本稿では,編集ベースの要約を用いたq-learningに基づく新しいアプローチを提案する。 この方法は2つのキーモジュールを組み合わせてエディターエージェントと言語モデル変換器(EALM)を形成する。 エージェントは編集アクション(例えば、削除、保持、置換)を予測し、次にLMコンバータはアクション信号に基づいて決定的に要約を生成する。 Q-learningはエージェントを訓練して適切な編集アクションを生成する。 実験の結果、ealmは従来のエンコーダ-デコーダベースの手法と比較して、真にゼロのペアデータ(検証セットなし)でも競合性能を発揮できた。 課題をQ-ラーニングとして定義することで,競争的手法の開発だけでなく,教師なし要約のための強化学習の最新の技術も開発できる。 また,質的分析を行い,教師なし要約に関する今後の研究への洞察を提供する。

Unsupervised methods are promising for abstractive text summarization in that the parallel corpora is not required. However, their performance is still far from being satisfied, therefore research on promising solutions is on-going. In this paper, we propose a new approach based on Q-learning with an edit-based summarization. The method combines two key modules to form an Editorial Agent and Language Model converter (EALM). The agent predicts edit actions (e.t., delete, keep, and replace), and then the LM converter deterministically generates a summary on the basis of the action signals. Q-learning is leveraged to train the agent to produce proper edit actions. Experimental results show that EALM delivered competitive performance compared with the previous encoder-decoder-based methods, even with truly zero paired data (i.e., no validation set). Defining the task as Q-learning enables us not only to develop a competitive method but also to make the latest techniques in reinforcement learning available for unsupervised summarization. We also conduct qualitative analysis, providing insights into future study on unsupervised summarizers.
翻訳日:2022-10-09 05:23:51 公開日:2020-10-09
# ニューラルネットワーク翻訳のためのトークンレベル適応トレーニング

Token-level Adaptive Training for Neural Machine Translation ( http://arxiv.org/abs/2010.04380v1 )

ライセンス: Link先を確認
Shuhao Gu, Jinchao Zhang, Fandong Meng, Yang Feng, Wanying Xie, Jie Zhou, Dong Yu(参考訳) 自然言語にはトークン不均衡現象があり、異なるトークンが異なる周波数で現れるため、ニューラルネットワーク翻訳(nmt)におけるトークンの学習の難しさが異なる。 バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して自明な等重の目的を持ち、金のトークン分布と比較して、より高周波のトークンと低周波のトークンを生成する傾向にある。 しかし、低周波トークンは翻訳品質に影響を及ぼす重要な意味情報を持つことがある。 本稿では,トークン周波数に基づく目標トークンレベルの適応目標について検討し,目標トークン毎の適切な重み付けを行う。 我々は,これらの意味的かつ比較的低周波な単語は,モデルがこれらのトークンにもっと注意を払うよう促すために,より大きな重みを付けることができることを目標とした。 提案手法は,ZH-EN,EN-RO,EN-DEの翻訳タスク,特に1.68,1.02,0.52BLEUの低周波トークンを含む文の翻訳品質を,ベースラインと比較して向上させる。 さらに分析した結果,翻訳の語彙的多様性も向上できることがわかった。

There exists a token imbalance phenomenon in natural language as different tokens appear with different frequencies, which leads to different learning difficulties for tokens in Neural Machine Translation (NMT). The vanilla NMT model usually adopts trivial equal-weighted objectives for target tokens with different frequencies and tends to generate more high-frequency tokens and less low-frequency tokens compared with the golden token distribution. However, low-frequency tokens may carry critical semantic information that will affect the translation quality once they are neglected. In this paper, we explored target token-level adaptive objectives based on token frequencies to assign appropriate weights for each target token during training. We aimed that those meaningful but relatively low-frequency words could be assigned with larger weights in objectives to encourage the model to pay more attention to these tokens. Our method yields consistent improvements in translation quality on ZH-EN, EN-RO, and EN-DE translation tasks, especially on sentences that contain more low-frequency tokens where we can get 1.68, 1.02, and 0.52 BLEU increases compared with baseline, respectively. Further analyses show that our method can also improve the lexical diversity of translation.
翻訳日:2022-10-09 05:23:34 公開日:2020-10-09
# AMR-to-Text生成のための軽量動的グラフ畳み込みネットワーク

Lightweight, Dynamic Graph Convolutional Networks for AMR-to-Text Generation ( http://arxiv.org/abs/2010.04383v1 )

ライセンス: Link先を確認
Yan Zhang, Zhijiang Guo, Zhiyang Teng, Wei Lu, Shay B. Cohen, Zuozhu Liu, Lidong Bing(参考訳) AMRからテキストへの生成は抽象的意味表現構造(AMR)をテキストに変換するために使われる。 このタスクの重要な課題は、効率的なグラフ表現を効率的に学習することである。 以前は、Graph Convolution Networks (GCN) は入力AMRをエンコードするために使われていたが、バニラGCNは非ローカル情報をキャプチャすることができず、また、ローカル(一階)情報集約スキームに従う。 これらの問題を考慮するには、より複雑な相互作用を捉えるために、より大きく深いGCNモデルが必要である。 本稿では,高次情報を入力グラフから合成することにより,よりリッチな非局所的相互作用を捉える軽量動的グラフ畳み込みネットワーク(LDGCN)を提案する。 さらに,グループグラフの畳み込みと重み付き畳み込みに基づく2つの新しいパラメータ保存戦略を開発し,メモリ使用量とモデル複雑性を低減する。 これらの戦略の助けを借りて、モデルのキャパシティを維持しながら、より少ないパラメータでモデルをトレーニングすることができます。 ldgcnsがamr-to-text生成のための2つのベンチマークデータセットで最先端モデルを上回ることが実験によって証明された。

AMR-to-text generation is used to transduce Abstract Meaning Representation structures (AMR) into text. A key challenge in this task is to efficiently learn effective graph representations. Previously, Graph Convolution Networks (GCNs) were used to encode input AMRs, however, vanilla GCNs are not able to capture non-local information and additionally, they follow a local (first-order) information aggregation scheme. To account for these issues, larger and deeper GCN models are required to capture more complex interactions. In this paper, we introduce a dynamic fusion mechanism, proposing Lightweight Dynamic Graph Convolutional Networks (LDGCNs) that capture richer non-local interactions by synthesizing higher order information from the input graphs. We further develop two novel parameter saving strategies based on the group graph convolutions and weight tied convolutions to reduce memory usage and model complexity. With the help of these strategies, we are able to train a model with fewer parameters while maintaining the model capacity. Experiments demonstrate that LDGCNs outperform state-of-the-art models on two benchmark datasets for AMR-to-text generation with significantly fewer parameters.
翻訳日:2022-10-09 05:23:13 公開日:2020-10-09
# SemEval-2020 Task 9: Syntactic Semantic LSTM Architecture for SENTIment Analysis of Code-MIXed Data (英語)

gundapusunil at SemEval-2020 Task 9: Syntactic Semantic LSTM Architecture for SENTIment Analysis of Code-MIXed Data ( http://arxiv.org/abs/2010.04395v1 )

ライセンス: Link先を確認
Sunil Gundapu, Radhika Mamidi(参考訳) 複数の言語の語彙と構文を同一発話内で混合する現象をコード混合と呼ぶ。 これは多言語社会においてより顕著である。 本稿では,semment analysis for code-mixed social media text のための semeval 2020 タスク9 のためのシステムを開発した。 本システムはまず,ソーシャルメディアテキストの埋め込みを2種類生成する。 1つ目は文字レベルの情報をエンコードして語彙外エントリを処理する文字レベルの埋め込みであり、もう1つは形態や意味をキャプチャするためのFastTextワード埋め込みである。 これら2つの埋め込みはLSTMネットワークに渡され、システムはベースラインモデルより優れていた。

The phenomenon of mixing the vocabulary and syntax of multiple languages within the same utterance is called Code-Mixing. This is more evident in multilingual societies. In this paper, we have developed a system for SemEval 2020: Task 9 on Sentiment Analysis for Code-Mixed Social Media Text. Our system first generates two types of embeddings for the social media text. In those, the first one is character level embeddings to encode the character level information and to handle the out-of-vocabulary entries and the second one is FastText word embeddings for capturing morphology and semantics. These two embeddings were passed to the LSTM network and the system outperformed the baseline model.
翻訳日:2022-10-09 05:22:53 公開日:2020-10-09
# ニューラルマシン翻訳のための不確実性認識意味拡張

Uncertainty-Aware Semantic Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2010.04411v1 )

ライセンス: Link先を確認
Xiangpeng Wei and Heng Yu and Yue Hu and Rongxiang Weng and Luxi Xing and Weihua Luo(参考訳) シーケンス・ツー・シーケンス生成タスクとして、ニューラルネットワーク翻訳(NMT)は本質的に本質的な不確実性を含む。 しかし、NMTの主流となる手法は、モデルトレーニングのための並列コーパスからのみ観測されるが、推論時に同じ意味の下で適切なバリエーションを扱う必要がある。 これにより、トレーニングと推論フェーズの間のデータ分布のばらつきが生じる。 そこで本研究では,複数の意味的同値な原文間の普遍的意味情報を明示的に捉え,より優れた翻訳のためにこの情報を用いて隠れ表現を拡張できる不確実性認識意味拡張法を提案する。 各種翻訳タスクの広範囲な実験により,本手法は強いベースラインと既存手法を著しく上回っていることが明らかとなった。

As a sequence-to-sequence generation task, neural machine translation (NMT) naturally contains intrinsic uncertainty, where a single sentence in one language has multiple valid counterparts in the other. However, the dominant methods for NMT only observe one of them from the parallel corpora for the model training but have to deal with adequate variations under the same meaning at inference. This leads to a discrepancy of the data distribution between the training and the inference phases. To address this problem, we propose uncertainty-aware semantic augmentation, which explicitly captures the universal semantic information among multiple semantically-equivalent source sentences and enhances the hidden representations with this information for better translations. Extensive experiments on various translation tasks reveal that our approach significantly outperforms the strong baselines and the existing methods.
翻訳日:2022-10-09 05:22:41 公開日:2020-10-09
# 英語telugu符号混合データにおける単語レベル言語識別

Word Level Language Identification in English Telugu Code Mixed Data ( http://arxiv.org/abs/2010.04482v1 )

ライセンス: Link先を確認
Sunil Gundapu, Radhika Mamidi(参考訳) 多言語または社会言語構成では、ICS(Intra-sentential Code Switching)やCM(Code Mixing)が頻繁に見られる。 世界では、ほとんどの人は複数の言語を知っています。 CMの利用は特にソーシャルメディアプラットフォームで顕著である。 さらに、ICSは技術、健康、法律の文脈において特に重要であり、今後の発展を伝えることは母国語では困難である。 ダイアログシステム、機械翻訳、意味解析、浅い解析などのアプリケーションで。 CMとコードスイッチングは深刻な課題である。 コード混合データのさらなる進歩のために、必要なステップは言語識別である。 本稿では,nave bayes分類器,ランダムフォレスト分類器,条件付き確率場(crf),hidden markovモデル(hmm)の言語識別モデルについて検討する。 コード混合言語における資源の可読性を考慮して,単語レベル言語識別のためのcrfモデルとhmmモデルを提案した。 ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。

In a multilingual or sociolingual configuration Intra-sentential Code Switching (ICS) or Code Mixing (CM) is frequently observed nowadays. In the world, most of the people know more than one language. CM usage is especially apparent in social media platforms. Moreover, ICS is particularly significant in the context of technology, health, and law where conveying the upcoming developments are difficult in one's native language. In applications like dialog systems, machine translation, semantic parsing, shallow parsing, etc. CM and Code Switching pose serious challenges. To do any further advancement in code-mixed data, the necessary step is Language Identification. In this paper, we present a study of various models - Nave Bayes Classifier, Random Forest Classifier, Conditional Random Field (CRF), and Hidden Markov Model (HMM) for Language Identification in English - Telugu Code Mixed Data. Considering the paucity of resources in code mixed languages, we proposed the CRF model and HMM model for word level language identification. Our best performing system is CRF-based with an f1-score of 0.91.
翻訳日:2022-10-09 05:22:15 公開日:2020-10-09
# 胸部疾患検出のための側方拡張ネットワーク

Contralaterally Enhanced Networks for Thoracic Disease Detection ( http://arxiv.org/abs/2010.04483v1 )

ライセンス: Link先を確認
Gangming Zhao and Chaowei Fang and Guanbin Li and Licheng Jiao and Yizhou Yu(参考訳) 胸部x線における疾患の同定と同定は、正常領域と異常領域の視覚コントラストの低下と、他の重複組織による歪みのため、非常に困難である。 興味深い現象は、胸郭、肺野、気管支管など、胸部の左右に多くの類似した構造が存在することである。 このような類似性は、広義の放射線学者の経験から、胸部X線における疾患の同定に利用することができる。 既存の検出手法の性能向上を目的として, 対側文脈情報を活用し, 疾患プロポーザルの特徴表現を増強する深層エンド・ツー・エンドモジュールを提案する。 まず、脊椎ラインの指導のもと、空間トランスフォーマネットワークを用いて局所的な対側パッチを抽出し、疾患提案に有用なコンテキスト情報を提供する。 次に,加法と減算操作の両方に基づいて,特定のモジュールを構築し,疾患プロポーザルと対側パッチの特徴を融合させる。 本手法は,完全かつ弱制御された疾患検出フレームワークに統合できる。 31,000枚の画像を含む注記付きプライベート胸部x線データセット上で33.17 ap50を達成する。 NIH胸部X線データを用いた実験により, 弱体化疾患における最先端の成績が得られた。

Identifying and locating diseases in chest X-rays are very challenging, due to the low visual contrast between normal and abnormal regions, and distortions caused by other overlapping tissues. An interesting phenomenon is that there exist many similar structures in the left and right parts of the chest, such as ribs, lung fields and bronchial tubes. This kind of similarities can be used to identify diseases in chest X-rays, according to the experience of broad-certificated radiologists. Aimed at improving the performance of existing detection methods, we propose a deep end-to-end module to exploit the contralateral context information for enhancing feature representations of disease proposals. First of all, under the guidance of the spine line, the spatial transformer network is employed to extract local contralateral patches, which can provide valuable context information for disease proposals. Then, we build up a specific module, based on both additive and subtractive operations, to fuse the features of the disease proposal and the contralateral patch. Our method can be integrated into both fully and weakly supervised disease detection frameworks. It achieves 33.17 AP50 on a carefully annotated private chest X-ray dataset which contains 31,000 images. Experiments on the NIH chest X-ray dataset indicate that our method achieves state-of-the-art performance in weakly-supervised disease localization.
翻訳日:2022-10-09 05:15:05 公開日:2020-10-09
# 最も適切な機械学習方法を選択するシックル細胞病診断支援--顕微鏡画像からの細胞形態解析のための汎用的かつ解釈可能なアプローチに向けて

Sickle-cell disease diagnosis support selecting the most appropriate machinelearning method: Towards a general and interpretable approach for cellmorphology analysis from microscopy images ( http://arxiv.org/abs/2010.04511v1 )

ライセンス: Link先を確認
Nata\v{s}a Petrovi\'c, Gabriel Moy\`a-Alcover, Antoni Jaume-i-Cap\'o, Manuel Gonz\'alez-Hidalgo(参考訳) 本研究では,赤血球の末梢血スメア画像を用いた診断支援において,最先端技術に基づいて分類方法と特徴を選択する手法を提案する。 本症例では,シックル細胞病患者のサンプルを用い,他の症例に一般化した。 また,提案手法の動作を信頼するために,解釈可能性も分析した。 高い機能品質を確保するため,顕微鏡画像の事前処理と分割を行った。 血液細胞から特徴を抽出するために文献で用いられる手法と,その形態を分類するために機械学習法を適用した。 次に,特徴抽出フェーズで得られたデータから最適なパラメータを探索した。 そして、ランダム化とグリッド検索を用いて、各分類器の最適なパラメータを見つけました。 科学的進歩のために,各分類器のパラメータ,実装されたコードライブラリ,生データとの混乱行列を公表し,検証のために公開のerythrocytesidbデータセットを用いた。 また,分類のための最も重要な特徴の選択方法を定義し,複雑さとトレーニング時間を減らし,不透明なモデルにおける解釈可能性の目的を明らかにした。 最後に, 最善の分類法と最先端の分類法を比較し, 解釈可能なモデル分類器を用いても良好な結果を得た。

In this work we propose an approach to select the classification method and features, based on the state-of-the-art, with best performance for diagnostic support through peripheral blood smear images of red blood cells. In our case we used samples of patients with sickle-cell disease which can be generalized for other study cases. To trust the behavior of the proposed system, we also analyzed the interpretability. We pre-processed and segmented microscopic images, to ensure high feature quality. We applied the methods used in the literature to extract the features from blood cells and the machine learning methods to classify their morphology. Next, we searched for their best parameters from the resulting data in the feature extraction phase. Then, we found the best parameters for every classifier using Randomized and Grid search. For the sake of scientific progress, we published parameters for each classifier, the implemented code library, the confusion matrices with the raw data, and we used the public erythrocytesIDB dataset for validation. We also defined how to select the most important features for classification to decrease the complexity and the training time, and for interpretability purpose in opaque models. Finally, comparing the best performing classification methods with the state-of-the-art, we obtained better results even with interpretable model classifiers.
翻訳日:2022-10-09 05:14:44 公開日:2020-10-09
# MPEG Iフレームの量子化DCT係数に対するディープラーニングに基づく予測モデルによる画質向上

Video Quality Enhancement Using Deep Learning-Based Prediction Models for Quantized DCT Coefficients in MPEG I-frames ( http://arxiv.org/abs/2010.05760v1 )

ライセンス: Link先を確認
Antonio J G Busson, Paulo R C Mendes, Daniel de S Moraes, \'Alvaro M da Veiga, \'Alan L V Guedes and S\'ergio Colcher(参考訳) 最近の研究は、JPEG/MPEG圧縮技術による顕著な歪みを低減するために、いくつかのタイプの畳み込みニューラルネットワーク(CNN)をうまく応用している。 その多くは、空間領域上の処理に基づいて構築される。 本稿では、低品質Iフレームから受信した量子化されたDCT係数を読み出し、深層学習モデルを用いて、欠落した係数を予測し、同じフレームを高画質で再構成するMPEGビデオデコーダを提案する。 ビデオデータセットを用いた実験では、10のQF(Quality Factor)に対応する量子化されたDCT係数のフレームから、QFが20に少し近い品質のフレームへと改善できた。

Recent works have successfully applied some types of Convolutional Neural Networks (CNNs) to reduce the noticeable distortion resulting from the lossy JPEG/MPEG compression technique. Most of them are built upon the processing made on the spatial domain. In this work, we propose a MPEG video decoder that is purely based on the frequency-to-frequency domain: it reads the quantized DCT coefficients received from a low-quality I-frames bitstream and, using a deep learning-based model, predicts the missing coefficients in order to recompose the same frames with enhanced quality. In experiments with a video dataset, our best model was able to improve from frames with quantized DCT coefficients corresponding to a Quality Factor (QF) of 10 to enhanced quality frames with QF slightly near to 20.
翻訳日:2022-10-09 05:14:06 公開日:2020-10-09
# メタデータ負債の支払い:トピックモデルを用いた概念表現の学習

Paying down metadata debt: learning the representation of concepts using topic models ( http://arxiv.org/abs/2010.04836v1 )

ライセンス: Link先を確認
Jiahao Chen and Manuela Veloso(参考訳) メタデータ負債と呼ばれるデータ管理問題を導入し、データ概念とそれらの論理表現のマッピングを識別する。 このマッピングは,低ランクな行列因数分解に基づく半教師付きトピックモデルを用いて,低ランクでノイズの多いラベルを考慮し,局所化と解釈性を改善するために,疎度なペナルティと組み合わせて学習する方法について述べる。 我々は,トピックと概念ラベル間の明示的な関連を構築できるゲージ変換手法を導入し,トピックに意味を割り当てる。 また,この話題モデルを,既知のラベルの補間,既存のラベルの誤りの可能性評価,欠落した機能の予測など,半教師付き学習タスクに使用する方法を示す。 kaggle.comの25,000以上のデータセットから主題タグを予測する際に、このトピックモデルの結果を示し、意味的に意味のある特徴を学習する能力を示す。

We introduce a data management problem called metadata debt, to identify the mapping between data concepts and their logical representations. We describe how this mapping can be learned using semisupervised topic models based on low-rank matrix factorizations that account for missing and noisy labels, coupled with sparsity penalties to improve localization and interpretability. We introduce a gauge transformation approach that allows us to construct explicit associations between topics and concept labels, and thus assign meaning to topics. We also show how to use this topic model for semisupervised learning tasks like extrapolating from known labels, evaluating possible errors in existing labels, and predicting missing features. We show results from this topic model in predicting subject tags on over 25,000 datasets from Kaggle.com, demonstrating the ability to learn semantically meaningful features.
翻訳日:2022-10-09 05:13:30 公開日:2020-10-09
# 強化学習による文書レベルのニューラルマシン翻訳のための動的文脈選択

Dynamic Context Selection for Document-level Neural Machine Translation via Reinforcement Learning ( http://arxiv.org/abs/2010.04314v1 )

ライセンス: Link先を確認
Xiaomian Kang, Yang Zhao, Jiajun Zhang, Chengqing Zong(参考訳) ドキュメントレベルのニューラルマシン翻訳は、魅力的な改善をもたらした。 しかし、既存の手法の多くは、ほぼ全ての文脈文を固定範囲で使用する。 彼らは異なる元文には異なる大きさの文脈が必要であるという事実を無視する。 この問題に対処するために,文書レベルの翻訳モデルがより有用な文脈文を活用し,より優れた翻訳を生成するために,動的文脈を選択する効果的な手法を提案する。 具体的には、翻訳モジュールに依存しない選択モジュールを導入し、各候補コンテキスト文をスコアリングする。 次に,可変数の文脈文を明示的に選択し,それを翻訳モジュールに入力するための2つの戦略を提案する。 強化学習を通じて2つのモジュールをエンドツーエンドでトレーニングします。 動的文脈文の選択と活用を促進するために,新しい報酬を提案する。 実験により,異なる文に対する適応的文脈文の選択が可能となり,文書レベルの翻訳手法の性能が大幅に向上することを示す。

Document-level neural machine translation has yielded attractive improvements. However, majority of existing methods roughly use all context sentences in a fixed scope. They neglect the fact that different source sentences need different sizes of context. To address this problem, we propose an effective approach to select dynamic context so that the document-level translation model can utilize the more useful selected context sentences to produce better translations. Specifically, we introduce a selection module that is independent of the translation module to score each candidate context sentence. Then, we propose two strategies to explicitly select a variable number of context sentences and feed them into the translation module. We train the two modules end-to-end via reinforcement learning. A novel reward is proposed to encourage the selection and utilization of dynamic context sentences. Experiments demonstrate that our approach can select adaptive context sentences for different source sentences, and significantly improves the performance of document-level translation methods.
翻訳日:2022-10-09 05:13:14 公開日:2020-10-09
# 差分プライバシーにおけるポストプロセッシングのバイアスとばらつき

Bias and Variance of Post-processing in Differential Privacy ( http://arxiv.org/abs/2010.04327v1 )

ライセンス: Link先を確認
Keyu Zhu, Pascal Van Hentenryck, Ferdinando Fioretto(参考訳) 処理後の免疫は差分プライバシの基本特性であり、プライバシの保証に影響を与えることなく、差分プライベート出力の結果に任意のデータ非依存変換を適用することができる。 クエリ出力がドメインの制約を満たす必要がある場合、後処理を使用してプライバシ保護出力を実行可能な領域に投影することができる。 さらに、実現可能な領域が凸である場合には、広く採用されている後処理ステップのクラスも保証され、精度が向上する。 ポストプロセッシングは国勢調査データリリース、エネルギーシステム、モビリティなど多くのアプリケーションでうまく適用されている。 しかし、そのノイズ分布への影響はよく理解されていない:ポストプロセッシングはバイアスをもたらし、ばらつきを増大させるとしばしば主張される。 本稿では,後処理の特性を理解するための第一歩を踏み出す。 国勢調査データの公開を考慮し、理論上も実証上も広く採用されているポストプロセッシング機能の振る舞いについて検討する。

Post-processing immunity is a fundamental property of differential privacy: it enables the application of arbitrary data-independent transformations to the results of differentially private outputs without affecting their privacy guarantees. When query outputs must satisfy domain constraints, post-processing can be used to project the privacy-preserving outputs onto the feasible region. Moreover, when the feasible region is convex, a widely adopted class of post-processing steps is also guaranteed to improve accuracy. Post-processing has been applied successfully in many applications including census data-release, energy systems, and mobility. However, its effects on the noise distribution is poorly understood: It is often argued that post-processing may introduce bias and increase variance. This paper takes a first step towards understanding the properties of post-processing. It considers the release of census data and examines, both theoretically and empirically, the behavior of a widely adopted class of post-processing functions.
翻訳日:2022-10-09 05:07:29 公開日:2020-10-09
# GitEvolve: GitHubリポジトリの進化を予測する

GitEvolve: Predicting the Evolution of GitHub Repositories ( http://arxiv.org/abs/2010.04366v1 )

ライセンス: Link先を確認
Honglu Zhou, Hareesh Ravi, Carlos M. Muniz, Vahid Azizi, Linda Ness, Gerard de Melo, Mubbasir Kapadia(参考訳) ソフトウェア開発は、GitHubのようなプラットフォームの出現とともに、ますますオープンで協力的になりつつある。 その重要な役割を考えると、ソーシャルプラットフォームとしてのGitHubのダイナミクスをよりよく理解し、モデル化する必要がある。 以前の研究は、twitterやfacebookのような従来のソーシャルネットワークサイトのダイナミクスをほとんど考慮していた。 我々は、GitHubリポジトリの進化を予測するシステムGitEvolveと、ユーザがそれらと対話するさまざまな方法を提案する。 この目的のために、シードイベントを与えられたエンド・ツー・エンドのマルチタスクシーケンシャル・ディープ・ニューラル・ネットワークを開発し、次にどのユーザーグループが所定のリポジトリと対話するのか、その相互作用の種類、いつ発生するのかを同時に予測する。 学習を容易にするために,グラフベースの表現学習を用いてリポジトリ間の関係を符号化する。 一般的な関心をモデル化してユーザをグループにマップし、人気を予測し、推論中に目に見えないユーザに一般化する。 データセット内のリポジトリのさまざまなレベルのアクティビティをモデル化するために、人工イベントタイプを導入する。 提案したマルチタスクアーキテクチャは汎用的であり、他のソーシャルネットワークで情報拡散をモデル化するために拡張することができる。 実験では,複数の指標とベースラインを用いて,提案モデルの有効性を実証した。 モデルの人気予測能力と傾向予測能力の質的分析は、その適用性を示している。

Software development is becoming increasingly open and collaborative with the advent of platforms such as GitHub. Given its crucial role, there is a need to better understand and model the dynamics of GitHub as a social platform. Previous work has mostly considered the dynamics of traditional social networking sites like Twitter and Facebook. We propose GitEvolve, a system to predict the evolution of GitHub repositories and the different ways by which users interact with them. To this end, we develop an end-to-end multi-task sequential deep neural network that given some seed events, simultaneously predicts which user-group is next going to interact with a given repository, what the type of the interaction is, and when it happens. To facilitate learning, we use graph based representation learning to encode relationship between repositories. We map users to groups by modelling common interests to better predict popularity and to generalize to unseen users during inference. We introduce an artificial event type to better model varying levels of activity of repositories in the dataset. The proposed multi-task architecture is generic and can be extended to model information diffusion in other social networks. In a series of experiments, we demonstrate the effectiveness of the proposed model, using multiple metrics and baselines. Qualitative analysis of the model's ability to predict popularity and forecast trends proves its applicability.
翻訳日:2022-10-09 05:06:54 公開日:2020-10-09
# 自己統制型AIを目指して : 金融サービスにおけるAIモデルガバナンスの課題と機会

Towards Self-Regulating AI: Challenges and Opportunities of AI Model Governance in Financial Services ( http://arxiv.org/abs/2010.04827v1 )

ライセンス: Link先を確認
Eren Kurshan and Hongda Shen and Jiahao Chen(参考訳) aiシステムは金融サービスで幅広い応用分野を見つけてきた。 より広く、ますます重要な決定への関与は、コンプライアンスと効果的なモデルガバナンスの必要性を増大させてきました。 現在のガバナンスプラクティスは、従来の金融アプリケーションやモデリングフレームワークから進化しています。 彼らはしばしば、仮定の不確実性や明示的なプログラミングの欠如など、AI特性の根本的な違いに悩まされる。 AIモデルガバナンスは、しばしば複雑なレビューフローを伴い、手動のステップに大きく依存する。 その結果、有効性、コスト、複雑さ、スピードにおいて深刻な課題に直面します。 さらに、AIモデルの複雑さが前例のないペースで増加すると、現在のプラクティスの持続可能性に関する疑問が持ち上がる。 本稿では,金融サービス産業におけるAIモデルガバナンスの課題に焦点を当てる。 今後の展望として、ロバスト性とコンプライアンスの自己規制強化に向けたシステムレベルフレームワークを提案する。 このアプローチは、自動化と監視、管理、緩和機能の統合による潜在的なソリューションの機会の実現を目的としています。 提案されたフレームワークは、デプロイ中のモデルリスクを管理するためのモデルガバナンスとリスク管理の改善も提供する。

AI systems have found a wide range of application areas in financial services. Their involvement in broader and increasingly critical decisions has escalated the need for compliance and effective model governance. Current governance practices have evolved from more traditional financial applications and modeling frameworks. They often struggle with the fundamental differences in AI characteristics such as uncertainty in the assumptions, and the lack of explicit programming. AI model governance frequently involves complex review flows and relies heavily on manual steps. As a result, it faces serious challenges in effectiveness, cost, complexity, and speed. Furthermore, the unprecedented rate of growth in the AI model complexity raises questions on the sustainability of the current practices. This paper focuses on the challenges of AI model governance in the financial services industry. As a part of the outlook, we present a system-level framework towards increased self-regulation for robustness and compliance. This approach aims to enable potential solution opportunities through increased automation and the integration of monitoring, management, and mitigation capabilities. The proposed framework also provides model governance and risk management improved capabilities to manage model risk during deployment.
翻訳日:2022-10-09 05:06:34 公開日:2020-10-09
# 大規模なランダム化実験で機械学習がより効果的に学習し記憶する

Large-scale randomized experiment reveals machine learning helps people learn and remember more effectively ( http://arxiv.org/abs/2010.04430v1 )

ライセンス: Link先を確認
Utkarsh Upadhyay and Graham Lancashire and Christoph Moser and Manuel Gomez-Rodriguez(参考訳) 機械学習は一般的に、人工知能が必要なタスクで最終的に人間を置き換えるモデルやアルゴリズムの開発に注力している。 この作業では、人間を置き換えるのではなく、人々が事実を学習し記憶する方法を改善するための機械学習の可能性を明らかにすることに重点を置いています。 そこで我々は,モビリティ分野の人気のある学習アプリから,何千人もの学習者が参加して,大規模ランダム化制御試験を行う。 学習の時間と頻度を制御した結果,学習セッションを機械学習を用いて最適化した学習者は,学習セッションを2つの代替ヒューリスティックを用いて生成した学習者よりも67%長くなることがわかった。 ランダム化制御試験では、機械学習を使って学習セッションを最適化した学習者が、4~7日以内にアプリに戻る確率が$sim$50%高いことも分かりました。

Machine learning has typically focused on developing models and algorithms that would ultimately replace humans at tasks where intelligence is required. In this work, rather than replacing humans, we focus on unveiling the potential of machine learning to improve how people learn and remember factual material. To this end, we perform a large-scale randomized controlled trial with thousands of learners from a popular learning app in the area of mobility. After controlling for the length and frequency of study, we find that learners whose study sessions are optimized using machine learning remember the content over $\sim$67% longer than those whose study sessions are generated using two alternative heuristics. Our randomized controlled trial also reveals that the learners whose study sessions are optimized using machine learning are $\sim$50% more likely to return to the app within 4-7 days.
翻訳日:2022-10-09 05:05:42 公開日:2020-10-09
# Node-Edge共進化による異種グラフのメタグラフアテンション

Meta Graph Attention on Heterogeneous Graph with Node-Edge Co-evolution ( http://arxiv.org/abs/2010.04554v1 )

ライセンス: Link先を確認
Yucheng Lin, Huiting Hong, Xiaoqing Yang, Xiaodi Yang, Pinghua Gong, Jieping Ye(参考訳) グラフニューラルネットワークは構造化データのモデリングにおいて重要なツールとなっている。 多くの実世界のシステムでは、ノード/エッジの不均一性、静的ノード/エッジ属性、時空ノード/エッジ機能など、複雑な隠れ情報が存在する可能性がある。 しかし、既存の手法のほとんどは情報の一部のみを考慮に入れている。 本稿では,ノード状態とエッジ状態の共進化を伴う異種グラフにメタグラフを注目する共進化型メタグラフニューラルネットワーク(comgnn)を提案する。 さらに,ノードとエッジの時空間パターンをモデル化するために,CoMGNN(ST-CoMGNN)の時空間適応を提案する。 2つの大規模な実世界のデータセットで実験を行う。 実験の結果,我々のモデルは最先端の手法を著しく上回っており,異なる側面から多様な情報をエンコーディングする効果が示された。

Graph neural networks have become an important tool for modeling structured data. In many real-world systems, intricate hidden information may exist, e.g., heterogeneity in nodes/edges, static node/edge attributes, and spatiotemporal node/edge features. However, most existing methods only take part of the information into consideration. In this paper, we present the Co-evolved Meta Graph Neural Network (CoMGNN), which applies meta graph attention to heterogeneous graphs with co-evolution of node and edge states. We further propose a spatiotemporal adaption of CoMGNN (ST-CoMGNN) for modeling spatiotemporal patterns on nodes and edges. We conduct experiments on two large-scale real-world datasets. Experimental results show that our models significantly outperform the state-of-the-art methods, demonstrating the effectiveness of encoding diverse information from different aspects.
翻訳日:2022-10-09 05:05:28 公開日:2020-10-09
# 深層学習用オピオイド服用患者におけるオピオイド使用障害のリスクの同定

Identifying Risk of Opioid Use Disorder for Patients Taking Opioid Medications with Deep Learning ( http://arxiv.org/abs/2010.04589v1 )

ライセンス: Link先を確認
Xinyu Dong, Jianyuan Deng, Sina Rashidian, Kayley Abell-Hart, Wei Hou, Richard N Rosenthal, Mary Saltz, Joel Saltz, Fusheng Wang(参考訳) 米国ではオピオイドが流行しており、毎年12歳以上で1000万人以上のオピオイド誤用者がいた。 オピオイド使用障害(OUD)のリスクが高い患者を同定することは、OUDのリスクを低減する早期臨床介入に役立つ。 本研究の目的は,オピオイド処方患者のうちオード患者を,機械学習と深層学習による電子健康記録分析により予測することである。 これは、OUDの診断をよりよく理解し、オピオイドの流行に関する新たな洞察を提供するのに役立つだろう。 2008年1月1日から2017年12月31日までにCerner Health Factsデータベースから活性オピオイド成分を含む薬剤を処方された患者の電子健康記録を抽出した。 長期記憶(LSTM)モデルは,近年の5回の出会いに基づいて,今後オピオイド使用障害のリスクを予測するために応用され,ロジスティック回帰,ランダムフォレスト,決定木,デンスニューラルネットワークと比較された。 予測性能はF-1スコア,精度,リコール,AUROCを用いて評価した。 時間的深層学習モデルでは,F1スコアが0.8023,AUCROCが0.9369,他の手法よりも優れた予測結果が得られた。 このモデルは、oud関連薬とバイタルサインを予測の重要な特徴として識別することができる。 lstmに基づく時間的深層学習モデルは、電子健康記録の過去履歴を用いたオピオイド使用障害の予測に有効であり、ドメイン知識は最小限である。 オピオイドの流行に対する早期介入と予防のための臨床決定支援を改善する可能性を秘めている。

The United States is experiencing an opioid epidemic, and there were more than 10 million opioid misusers aged 12 or older each year. Identifying patients at high risk of Opioid Use Disorder (OUD) can help to make early clinical interventions to reduce the risk of OUD. Our goal is to predict OUD patients among opioid prescription users through analyzing electronic health records with machine learning and deep learning methods. This will help us to better understand the diagnoses of OUD, providing new insights on opioid epidemic. Electronic health records of patients who have been prescribed with medications containing active opioid ingredients were extracted from Cerner Health Facts database between January 1, 2008 and December 31, 2017. Long Short-Term Memory (LSTM) models were applied to predict opioid use disorder risk in the future based on recent five encounters, and compared to Logistic Regression, Random Forest, Decision Tree and Dense Neural Network. Prediction performance was assessed using F-1 score, precision, recall, and AUROC. Our temporal deep learning model provided promising prediction results which outperformed other methods, with a F1 score of 0.8023 and AUCROC of 0.9369. The model can identify OUD related medications and vital signs as important features for the prediction. LSTM based temporal deep learning model is effective on predicting opioid use disorder using a patient past history of electronic health records, with minimal domain knowledge. It has potential to improve clinical decision support for early intervention and prevention to combat the opioid epidemic.
翻訳日:2022-10-09 05:05:14 公開日:2020-10-09
# 電力グリッドの確率的状態推定と予測のための物理インフォームドガウス過程回帰

Physics-Informed Gaussian Process Regression for Probabilistic States Estimation and Forecasting in Power Grids ( http://arxiv.org/abs/2010.04591v1 )

ライセンス: Link先を確認
Tong Ma and David Alonso Barajas-Solano and Ramakrishna Tipireddy and Alexandre M. Tartakovsky(参考訳) 電力網の効率的な運転にはリアルタイム状態推定と予測が重要である。 本稿では, 物理式ガウス過程回帰法(phi-gpr法)を提案し, スパース測定を用いた三発電機電力系統の位相角, 角速度, 風力の確率的予測と推定に用いた。 標準データ駆動型ガウス過程回帰(GPR)では、観測データの限界確率を最大化することにより、先行統計のパラメータ化モデルに適合するが、PhI-GPRでは、パワーグリッドダイナミクスを規定する確率方程式を解くことにより、先行統計を計算する。 風力発電が支配する電力網システムの短期予測は、風力の確率的性質と機械式風力の不確実性によって複雑である。 ここで、パワーグリッド力学はスイング方程式に支配されていると仮定し、スイング方程式(特に機械風力)の未知項をランダムな過程として扱い、これらの方程式を確率微分方程式に変換する。 モンテカルロシミュレーション法を用いて電力グリッドシステムの平均と分散に対するこれらの方程式を解く。 本研究では,phi-gpr法によって,観測状態と観測状態の両方を正確に予測し,推定できることを実証する。 本稿では,PhI-GPRが標準データ駆動型GPRに匹敵する予測を提供し,両者の予測が自己回帰統合移動平均(ARIMA)予測よりもかなり正確であることを示す。 また,ARIMA予測はPhI-GPR予測よりも観測頻度や測定誤差に敏感であることを示す。

Real-time state estimation and forecasting is critical for efficient operation of power grids. In this paper, a physics-informed Gaussian process regression (PhI-GPR) method is presented and used for probabilistic forecasting and estimating the phase angle, angular speed, and wind mechanical power of a three-generator power grid system using sparse measurements. In standard data-driven Gaussian process regression (GPR), parameterized models for the prior statistics are fit by maximizing the marginal likelihood of observed data, whereas in PhI-GPR, we compute the prior statistics by solving stochastic equations governing power grid dynamics. The short-term forecast of a power grid system dominated by wind generation is complicated by the stochastic nature of the wind and the resulting uncertain mechanical wind power. Here, we assume that the power-grid dynamic is governed by the swing equations, and we treat the unknown terms in the swing equations (specifically, the mechanical wind power) as random processes, which turns these equations into stochastic differential equations. We solve these equations for the mean and variance of the power grid system using the Monte Carlo simulations method. We demonstrate that the proposed PhI-GPR method can accurately forecast and estimate both observed and unobserved states, including the mean behavior and associated uncertainty. For observed states, we show that PhI-GPR provides a forecast comparable to the standard data-driven GPR, with both forecasts being significantly more accurate than the autoregressive integrated moving average (ARIMA) forecast. We also show that the ARIMA forecast is much more sensitive to observation frequency and measurement errors than the PhI-GPR forecast.
翻訳日:2022-10-09 05:04:46 公開日:2020-10-09
# 顔マスクアシスタント:携帯電話による顔マスクサービスステージの検出

Face Mask Assistant: Detection of Face Mask Service Stage Based on Mobile Phone ( http://arxiv.org/abs/2010.06421v1 )

ライセンス: Link先を確認
Yuzhen Chen, Menghan Hu, Chunjun Hua, Guangtao Zhai, Jian Zhang, Qingli Li, Simon X. Yang(参考訳) 2019年12月に大規模に発生して以来、covid-19(covid-19)は世界中に広がり、世界中で大きな損失をもたらした。 確認されたケースも死亡例も比較的恐ろしい数に達している。 新型コロナウイルスの原因であるシンドロームウイルス2(SARS-CoV-2)は、小さな呼吸液滴によって伝達される。 ソースの広がりを抑制するため、マスクを着用することは便利で効果的な手段である。 多くの場合、マスクを頻繁に使うが、短時間で使う。 マスクのどのサービスステージが属しているかわからない問題を解決することを目的として,携帯電話による検出システムを提案する。 まず,顔マスクのマイクロフォトのGLCMから4つの特徴を抽出する。 次に、knアルゴリズムを用いて3値検出システムを実現する。 検証実験の結果,テストデータセット上での精度は82.87%(標準偏差=8.5%)に達した。 今後の作業では、検出対象をより多くのマスクタイプに拡大する予定です。 この研究は、提案された移動顕微鏡システムを、マスク使用の補助として使用できることを示し、新型コロナウイルスとの戦いにおいて肯定的な役割を果たす可能性がある。

Coronavirus Disease 2019 (COVID-19) has spread all over the world since it broke out massively in December 2019, which has caused a large loss to the whole world. Both the confirmed cases and death cases have reached a relatively frightening number. Syndrome coronaviruses 2 (SARS-CoV-2), the cause of COVID-19, can be transmitted by small respiratory droplets. To curb its spread at the source, wearing masks is a convenient and effective measure. In most cases, people use face masks in a high-frequent but short-time way. Aimed at solving the problem that we don't know which service stage of the mask belongs to, we propose a detection system based on the mobile phone. We first extract four features from the GLCMs of the face mask's micro-photos. Next, a three-result detection system is accomplished by using KNN algorithm. The results of validation experiments show that our system can reach a precision of 82.87% (standard deviation=8.5%) on the testing dataset. In future work, we plan to expand the detection objects to more mask types. This work demonstrates that the proposed mobile microscope system can be used as an assistant for face mask being used, which may play a positive role in fighting against COVID-19.
翻訳日:2022-10-09 04:58:25 公開日:2020-10-09
# セルフアテンションネットワークはdyck-n言語をどのように認識できるか?

How Can Self-Attention Networks Recognize Dyck-n Languages? ( http://arxiv.org/abs/2010.04303v1 )

ライセンス: Link先を確認
Javid Ebrahimi, Dhruv Gelda, Wei Zhang(参考訳) dyck-n (\mathcal{d}_n$) 言語とセルフアテンション (sa) ネットワークの認識に焦点を当てている。 本稿では,SA の2つの変種と開始記号 (SA$^+$) と0の変種 (SA$^-$) を比較した。 その結果、sa$^+$はより長いシーケンスとより深い依存関係に一般化できることがわかった。 しかし、$\mathcal{d}_2$ に対して、sa$^-$ は長い列で完全に分解するのに対し、sa$^+$ の精度は58.82$\%$である。 我々は、$\text{SA}{^+}$で学習した注目マップを解釈可能で、スタックベースの言語認識器と互換性がある。 驚くべきことに、SAネットワークの性能はLSTMと同等であり、SAが再帰せずに階層を学習できることの証拠となる。

We focus on the recognition of Dyck-n ($\mathcal{D}_n$) languages with self-attention (SA) networks, which has been deemed to be a difficult task for these networks. We compare the performance of two variants of SA, one with a starting symbol (SA$^+$) and one without (SA$^-$). Our results show that SA$^+$ is able to generalize to longer sequences and deeper dependencies. For $\mathcal{D}_2$, we find that SA$^-$ completely breaks down on long sequences whereas the accuracy of SA$^+$ is 58.82$\%$. We find attention maps learned by $\text{SA}{^+}$ to be amenable to interpretation and compatible with a stack-based language recognizer. Surprisingly, the performance of SA networks is at par with LSTMs, which provides evidence on the ability of SA to learn hierarchies without recursion.
翻訳日:2022-10-09 04:58:09 公開日:2020-10-09
# WNUT-2020 Task 2: Ensembling and Adversarial Training を用いた Informative COVID-19 ツイートのロバスト同定

NutCracker at WNUT-2020 Task 2: Robustly Identifying Informative COVID-19 Tweets using Ensembling and Adversarial Training ( http://arxiv.org/abs/2010.04335v1 )

ライセンス: Link先を確認
Priyanshu Kumar and Aadarsh Singh(参考訳) 我々は、新型コロナウイルスのツイートを識別するために、COVID-Twitter-BERTとRoBERTaモデルを実験した。 さらに、モデルを堅牢にするために、敵のトレーニングを実験します。 COVID-Twitter-BERTとRoBERTaのアンサンブルは、WNUT-2020 Task 2のテストデータから0.9096のF1スコアを取得し、リーダーボードで1位となった。 敵対的訓練を用いて訓練されたモデルのアンサンブルも同様の結果をもたらす。

We experiment with COVID-Twitter-BERT and RoBERTa models to identify informative COVID-19 tweets. We further experiment with adversarial training to make our models robust. The ensemble of COVID-Twitter-BERT and RoBERTa obtains a F1-score of 0.9096 (on the positive class) on the test data of WNUT-2020 Task 2 and ranks 1st on the leaderboard. The ensemble of the models trained using adversarial training also produces similar result.
翻訳日:2022-10-09 04:57:49 公開日:2020-10-09
# hate is the new infodemic: twitterにおけるヘイトスピーチ拡散のトピック認識モデル

Hate is the New Infodemic: A Topic-aware Modeling of Hate Speech Diffusion on Twitter ( http://arxiv.org/abs/2010.04377v1 )

ライセンス: Link先を確認
Sarah Masud, Subhabrata Dutta, Sakshi Makkar, Chhavi Jain, Vikram Goyal, Amitava Das, Tanmoy Chakraborty(参考訳) オンラインヘイトスピーチ、特にTwitterのようなマイクロブログプラットフォームは、おそらく過去10年で最も深刻な問題だ。 いくつかの国は、悪意のある憎悪キャンペーンに激怒した憎悪犯罪の急増を報告している。 ヘイトスピーチの検出は新興研究分野の1つであるが、情報ネットワークにおけるトピック依存ヘイトの生成と拡散は未調査のままである。 本研究では、Twitter上でヘイトスピーチの発生を誘発するユーザー行動の探索と、リツイートによる拡散方法に焦点を当てる。 われわれは、ツイート、リツイート、ユーザー活動履歴、フォロワーネットワークの大規模なデータセットをクロールし、4100万以上のユニークユーザーから1億6100万以上のツイートを集めた。 また、オンラインで発行された600万以上の現代ニュース記事も収集しています。 これらのダイナミクスを管理する情報の異なる信号の特徴付けを行う。 本解析では,ヘイトの存在下での拡散ダイナミクスと通常の情報拡散を区別する。 これにより、実世界の知識を持つトピック認識環境でモデリング問題を定式化する動機付けとなる。 任意のハッシュタグに対するヘイトスピーチの開始を予測するために,複数の特徴量モデルを提案し,マクロF1スコア0.65を達成した。 一方、Twitter上でのリツイートのダイナミクスを予測するために、スケールされたドット積の注意を使って外因性の影響を組み込んだ新しいニューラルネットワークであるRETINAを提案する。 RETINAは0.85のマクロF1スコアを達成し、複数の最先端モデルを上回っている。 我々の分析では、既存の拡散モデルと比較して、ヘイトフルコンテンツのリツイートダイナミクスを予測するRETINAの最上位のパワーを明らかにしている。

Online hate speech, particularly over microblogging platforms like Twitter, has emerged as arguably the most severe issue of the past decade. Several countries have reported a steep rise in hate crimes infuriated by malicious hate campaigns. While the detection of hate speech is one of the emerging research areas, the generation and spread of topic-dependent hate in the information network remain under-explored. In this work, we focus on exploring user behaviour, which triggers the genesis of hate speech on Twitter and how it diffuses via retweets. We crawl a large-scale dataset of tweets, retweets, user activity history, and follower networks, comprising over 161 million tweets from more than $41$ million unique users. We also collect over 600k contemporary news articles published online. We characterize different signals of information that govern these dynamics. Our analyses differentiate the diffusion dynamics in the presence of hate from usual information diffusion. This motivates us to formulate the modelling problem in a topic-aware setting with real-world knowledge. For predicting the initiation of hate speech for any given hashtag, we propose multiple feature-rich models, with the best performing one achieving a macro F1 score of 0.65. Meanwhile, to predict the retweet dynamics on Twitter, we propose RETINA, a novel neural architecture that incorporates exogenous influence using scaled dot-product attention. RETINA achieves a macro F1-score of 0.85, outperforming multiple state-of-the-art models. Our analysis reveals the superlative power of RETINA to predict the retweet dynamics of hateful content compared to the existing diffusion models.
翻訳日:2022-10-09 04:57:37 公開日:2020-10-09
# ブラジルポルトガル語のソーシャルメディアにおける有害言語検出:新しいデータセットと多言語分析

Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis ( http://arxiv.org/abs/2010.04543v1 )

ライセンス: Link先を確認
Jo\~ao A. Leite and Diego F. Silva and Kalina Bontcheva and Carolina Scarton(参考訳) ヘイトスピーチと有毒なコメントは、ソーシャルメディアプラットフォームユーザーの共通の関心事である。 これらのコメントは、幸運にも、これらのプラットフォームの少数派であるが、それでも害を引き起こすことができる。 したがって,これらのコメントの特定はソーシャルメディアにおける毒性の拡散を研究・防止するための重要な課題である。 有毒なコメントを自動的に検出する以前の作業は、主に英語が中心で、ブラジルポルトガル語のような言語ではほとんど行われなかった。 本稿では,ブラジルのポルトガル語に対して,有毒か非有毒か,あるいは異なる種類の有毒かを示すツイートを添付した大規模データセットを提案する。 我々は,複数の人口集団をカバーする候補を選択することを目的としたデータセット収集とアノテーションプロセスを提案する。 最先端のBERTモデルはバイナリケースでのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。 また,近年の多言語化の進展にも拘わらず,より正確なモデルを作成するためには,大規模単言語データが必要であることも示している。 エラー分析とマルチラベル分類による実験は、データにあまり現れない特定の種類の有害なコメントを分類することの難しさを示し、異なる種類の毒性を認識したモデルを開発する必要性を強調している。

Hate speech and toxic comments are a common concern of social media platform users. Although these comments are, fortunately, the minority in these platforms, they are still capable of causing harm. Therefore, identifying these comments is an important task for studying and preventing the proliferation of toxicity in social media. Previous work in automatically detecting toxic comments focus mainly in English, with very few work in languages like Brazilian Portuguese. In this paper, we propose a new large-scale dataset for Brazilian Portuguese with tweets annotated as either toxic or non-toxic or in different types of toxicity. We present our dataset collection and annotation process, where we aimed to select candidates covering multiple demographic groups. State-of-the-art BERT models were able to achieve 76% macro-F1 score using monolingual data in the binary case. We also show that large-scale monolingual data is still needed to create more accurate models, despite recent advances in multilingual approaches. An error analysis and experiments with multi-label classification show the difficulty of classifying certain types of toxic comments that appear less frequently in our data and highlights the need to develop models that are aware of different categories of toxicity.
翻訳日:2022-10-09 04:57:13 公開日:2020-10-09
# 解釈可能なテキスト分類のための次元縮小による因果特徴抽出

Causal Feature Selection with Dimension Reduction for Interpretable Text Classification ( http://arxiv.org/abs/2010.04609v1 )

ライセンス: Link先を確認
Guohou Shan, James Foulds, Shimei Pan(参考訳) クラスラベルと相関するが直接引き起こさないテキスト特徴は、時には予測に役立ちますが、洞察に富むものではないかもしれません。 従来の相関に基づく特徴選択の代替として、因果推論はより原理的で意味のあるテキスト特徴とラベルの関係を明らかにする可能性がある。 本稿では,研究者がテキストデータ,例えばソーシャルサイエンスアプリケーションについて洞察を得るのを助けるために,テキスト特徴選択のためのマッチングに基づく因果推論手法のクラスについて検討する。 文書分類で使用される特徴はしばしば高次元であるが、因果的特徴選択法は高次元空間において無益であることが知られているプロペンシティスコアマッチング(psm)を用いる。 本稿では,テキスト特徴選択を改善するために,因果推論と次元縮小を組み合わせた新しい因果特徴選択フレームワークを提案する。 合成データと実世界のデータの両方に関する実験は, 分類と解釈可能性の向上における手法の有望さを示している。

Text features that are correlated with class labels, but do not directly cause them, are sometimesuseful for prediction, but they may not be insightful. As an alternative to traditional correlation-basedfeature selection, causal inference could reveal more principled, meaningful relationships betweentext features and labels. To help researchers gain insight into text data, e.g. for social scienceapplications, in this paper we investigate a class of matching-based causal inference methods fortext feature selection. Features used in document classification are often high dimensional, howeverexisting causal feature selection methods use Propensity Score Matching (PSM) which is known to beless effective in high-dimensional spaces. We propose a new causal feature selection framework thatcombines dimension reduction with causal inference to improve text feature selection. Experiments onboth synthetic and real-world data demonstrate the promise of our methods in improving classificationand enhancing interpretability.
翻訳日:2022-10-09 04:56:51 公開日:2020-10-09
# スケーラブルな多目的パスファインディングベンチマークスイート

Scalable Many-Objective Pathfinding Benchmark Suite ( http://arxiv.org/abs/2010.04501v1 )

ライセンス: Link先を確認
Jens Weise, Sanaz Mostaghim(参考訳) パスフィニングとしても知られるルートプランニングは、ロジスティクス、モバイルロボティクス、その他のアプリケーションにおいて重要な要素の1つである。 しかし、現在の経路計画アルゴリズムのほとんどは、最大3つの目的しか考慮していない。 本稿では,実世界のデータに基づくルーティングアプリケーションの重要な特徴を網羅した,スケーラブルな多目的ベンチマーク問題を提案する。 我々は, 距離, 走行時間, 事故による遅延, 曲率, 標高などの経路特性を表す5つの目的関数を定義した。 我々は、このテスト問題に対するいくつかの異なるインスタンスを分析し、問題の困難を分析するための真のpareto-frontを提供する。 3つのよく知られた進化的多目的アルゴリズムを適用する。 このテストベンチマークは実世界のルーティング問題に容易に転送できるため、openstreetmapデータからルーティング問題を構築できる。 3つの最適化アルゴリズムを評価し、そのような現実世界のアプリケーションに対して有望な結果を提供できることを観察する。 提案するベンチマークは、スケーラブルな多目的経路計画最適化問題であり、研究者やエンジニアが多目的アプローチを評価することができる。

Route planning also known as pathfinding is one of the key elements in logistics, mobile robotics and other applications, where engineers face many conflicting objectives. However, most of the current route planning algorithms consider only up to three objectives. In this paper, we propose a scalable many-objective benchmark problem covering most of the important features for routing applications based on real-world data. We define five objective functions representing distance, traveling time, delays caused by accidents, and two route specific features such as curvature and elevation. We analyse several different instances for this test problem and provide their true Pareto-front to analyse the problem difficulties. We apply three well-known evolutionary multi-objective algorithms. Since this test benchmark can be easily transferred to real-world routing problems, we construct a routing problem from OpenStreetMap data. We evaluate the three optimisation algorithms and observe that we are able to provide promising results for such a real-world application. The proposed benchmark represents a scalable many-objective route planning optimisation problem enabling researchers and engineers to evaluate their many-objective approaches.
翻訳日:2022-10-09 04:55:55 公開日:2020-10-09
# Kallus (2020) と Mo, Qi, Liu (2020): 政策学習のための新しい目標

Discussion of Kallus (2020) and Mo, Qi, and Liu (2020): New Objectives for Policy Learning ( http://arxiv.org/abs/2010.04805v1 )

ライセンス: Link先を確認
Sijia Li, Xiudi Li, Alex Luedtke(参考訳) 本稿では,Nathan Kallus の "More efficient policy learning via optimal retargeting" や Weibin Mo , Zhengling Qi , Yufeng Liu の "Learning optimal distributionally robust individualized treatment rules" で提案された政策学習のための新たな目的関数について論じる。 我々は、再ターゲティングフレームワーク内で作業する場合に、値関数の曲率を考慮に入れることが重要であることを示し、2つの方法を紹介する。 また、分散ロバストなポリシーを学ぶ際に、キャリブレーションデータを活用するためのより効率的なアプローチについても述べる。

We discuss the thought-provoking new objective functions for policy learning that were proposed in "More efficient policy learning via optimal retargeting" by Nathan Kallus and "Learning optimal distributionally robust individualized treatment rules" by Weibin Mo, Zhengling Qi, and Yufeng Liu. We show that it is important to take the curvature of the value function into account when working within the retargeting framework, and we introduce two ways to do so. We also describe more efficient approaches for leveraging calibration data when learning distributionally robust policies.
翻訳日:2022-10-09 04:49:19 公開日:2020-10-09
# Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient Estimator

Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient Estimator ( http://arxiv.org/abs/2010.04838v1 )

ライセンス: Link先を確認
Max B. Paulus, Chris J. Maddison, Andreas Krause(参考訳) 離散潜在変数を持つモデルにおける勾配推定は、最も単純で偏りのない推定子は高い分散を持つ傾向があるため、難しい問題である。 これに対抗するために、現代の推定器はバイアスを導入し、複数の関数評価に依存するか、学習された入力依存のベースラインを使用する。 したがって、最小のチューニングが必要で、計算コストが低く、平均二乗誤差が低い推定器が必要となる。 本稿では,人気のグンベルソフトマックス推定器のストレートスルー変異の分散を,機能評価数を増加させることなくラオ黒化により低減できることを示す。 これにより平均二乗誤差が低減される。 その結果,2つの教師なし潜在変数モデルにおいて分散の低減,収束の高速化,性能の向上が期待できる。

Gradient estimation in models with discrete latent variables is a challenging problem, because the simplest unbiased estimators tend to have high variance. To counteract this, modern estimators either introduce bias, rely on multiple function evaluations, or use learned, input-dependent baselines. Thus, there is a need for estimators that require minimal tuning, are computationally cheap, and have low mean squared error. In this paper, we show that the variance of the straight-through variant of the popular Gumbel-Softmax estimator can be reduced through Rao-Blackwellization without increasing the number of function evaluations. This provably reduces the mean squared error. We empirically demonstrate that this leads to variance reduction, faster convergence, and generally improved performance in two unsupervised latent variable models.
翻訳日:2022-10-09 04:48:50 公開日:2020-10-09
# 製品リスク評価 : ベイズ的ネットワークアプローチ

Product risk assessment: a Bayesian network approach ( http://arxiv.org/abs/2010.06698v1 )

ライセンス: Link先を確認
Joshua Hunte, Martin Neil, Norman Fenton(参考訳) 製品リスクアセスメント(product risk assessment)とは、洗濯機からテディベアまであらゆる種類の製品が、消費者が安全に使用できるかどうかを判断する総合的なプロセスである。 製品リスクアセスメントにはいくつかの方法があり、英国とEUの規制当局が使用する主要な手法であるRAPEX(英語版)などがある。 しかし,その普及にもかかわらず,不確実性を扱うための限定的なアプローチや,テストデータの使用と解釈のための因果的説明を組み込むことができないなど,RAPEXのいくつかの制限を指摘した。 対照的に、ベイジアンネットワーク(BNs)は、医療や金融などの分野のリスクアセスメントに既に使われている不確実性と因果性をモデル化するための厳密で規範的な手法である。 本稿では,製品リスク評価のための体系的手法を改良したbnモデルを提案する。 提案手法を用いて,テディベアのリスクアセスメントと,テストデータがなく,製品インスタンス数も不明な新たな未確認ケトルのリスクアセスメントを実証する。 RAPEX法の結果を再現できるが,BN法の方が強力で柔軟であることを示す。

Product risk assessment is the overall process of determining whether a product, which could be anything from a type of washing machine to a type of teddy bear, is judged safe for consumers to use. There are several methods used for product risk assessment, including RAPEX, which is the primary method used by regulators in the UK and EU. However, despite its widespread use, we identify several limitations of RAPEX including a limited approach to handling uncertainty and the inability to incorporate causal explanations for using and interpreting test data. In contrast, Bayesian Networks (BNs) are a rigorous, normative method for modelling uncertainty and causality which are already used for risk assessment in domains such as medicine and finance, as well as critical systems generally. This article proposes a BN model that provides an improved systematic method for product risk assessment that resolves the identified limitations with RAPEX. We use our proposed method to demonstrate risk assessments for a teddy bear and a new uncertified kettle for which there is no testing data and the number of product instances is unknown. We show that, while we can replicate the results of the RAPEX method, the BN approach is more powerful and flexible.
翻訳日:2022-10-09 04:48:35 公開日:2020-10-09
# Google Edge TPUにおけるリアルタイムマスク検出

Real-time Mask Detection on Google Edge TPU ( http://arxiv.org/abs/2010.04427v1 )

ライセンス: Link先を確認
Keondo Park, Wonyoung Jang, Woochul Lee, Kisung Nam, Kihong Seong, Kyuwook Chai, Wen-Syan Li(参考訳) 新型コロナウイルス(covid-19)の流行後、フロントライン労働者のリスクを減らすため、マスクを着用しているかどうかを自動的に検出することが重要になっている。 さらに、ローカルでユーザデータを処理することは、プライバシとネットワーク帯域の問題を解決する優れた方法です。 本稿では,Google Edge TPUを含む市販開発ボードであるCoral Dev Boardにも展開可能な,特定のエリアの人がマスクを着用しているかどうかを検出するための軽量モデルを提案する。 本手法はmobilenetv2 plus ssdに基づくオブジェクト検出ネットワークと整数専用ハードウェアのための量子化スキームを組み合わせたものである。 その結果、Edge TPUの軽量モデルは、浮動小数点デバイスに匹敵する精度を維持しながら、リアルタイム実行に適するレイテンシが大幅に低い。

After the COVID-19 outbreak, it has become important to automatically detect whether people are wearing masks in order to reduce risk of front-line workers. In addition, processing user data locally is a great way to address both privacy and network bandwidth issues. In this paper, we present a light-weighted model for detecting whether people in a particular area wear masks, which can also be deployed on Coral Dev Board, a commercially available development board containing Google Edge TPU. Our approach combines the object detecting network based on MobileNetV2 plus SSD and the quantization scheme for integer-only hardware. As a result, the lighter model in the Edge TPU has a significantly lower latency which is more appropriate for real-time execution while maintaining accuracy comparable to a floating point device.
翻訳日:2022-10-09 04:47:09 公開日:2020-10-09
# 手続き型コンテンツ生成のための深層学習

Deep Learning for Procedural Content Generation ( http://arxiv.org/abs/2010.04548v1 )

ライセンス: Link先を確認
Jialin Liu, Sam Snodgrass, Ahmed Khalifa, Sebastian Risi, Georgios N. Yannakakis, Julian Togelius(参考訳) ビデオゲームにおける手続き的コンテンツ生成には長い歴史がある。 検索ベース,ソルバベース,ルールベース,文法ベースといった既存の手続き型コンテンツ生成手法は,レベル,マップ,キャラクタモデル,テクスチャなど,さまざまなコンテンツタイプに適用されている。 ゲームにおけるコンテンツ生成を中心とした研究分野は10年以上存在してきた。 最近では、深層学習は、ゲームに適用可能な、コンテンツ制作における顕著な発明の動力となっている。 最先端のディープラーニング手法を独自に適用するものもあるが、従来の手法と組み合わせたり、インタラクティブな環境で適用するものもある。 本稿では,ゲームコンテンツの直接的又は間接的生成に応用された様々な深層学習手法を調査し,コンテンツ生成目的に使用できるが,今日では滅多に用いられない深層学習手法について検討し,手続き的コンテンツ生成における深層学習の限界と今後の方向性について考察する。

Procedural content generation in video games has a long history. Existing procedural content generation methods, such as search-based, solver-based, rule-based and grammar-based methods have been applied to various content types such as levels, maps, character models, and textures. A research field centered on content generation in games has existed for more than a decade. More recently, deep learning has powered a remarkable range of inventions in content production, which are applicable to games. While some cutting-edge deep learning methods are applied on their own, others are applied in combination with more traditional methods, or in an interactive setting. This article surveys the various deep learning methods that have been applied to generate game content directly or indirectly, discusses deep learning methods that could be used for content generation purposes but are rarely used today, and envisages some limitations and potential future directions of deep learning for procedural content generation.
翻訳日:2022-10-09 04:40:00 公開日:2020-10-09
# 情報制約ポリシーによる深層rl:継続的制御における一般化

Deep RL With Information Constrained Policies: Generalization in Continuous Control ( http://arxiv.org/abs/2010.04646v1 )

ライセンス: Link先を確認
Tyler Malloy, Chris R. Sims, Tim Klinger, Miao Liu, Matthew Riemer, Gerald Tesauro(参考訳) 生物学的エージェントは、情報を処理し保存する能力が非常に限られているにもかかわらず、知的に学習し、行動する。 現実世界の問題の多くは、人工知能エージェントにとって難しいタスクである継続的制御を伴う。 本稿では,情報の流れに対する自然な制約が,連続制御タスクにおいて人工エージェントに作用する可能性について考察する。 我々は,学習方針の複雑さに関する情報理論的制約の観点から,モデルフリー強化学習(RL)の設定とアプローチの形式化に注力する。 我々は,速度歪み理論の適用から,我々のアプローチが原則的に現れることを示す。 我々は,新しいcapability-limited actor-critic (clac) アルゴリズムを実装し, soft actor critic (sac) や mutual information reinforcement learning (mirl) アルゴリズムのようなrlアルゴリズムの幅広いファミリー内に配置する。 連続制御タスクを用いた実験により、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の間の一般化を改善することを示した。 これはclacモデルで実現され、同様の方法による高いサンプル効率を示す。

Biological agents learn and act intelligently in spite of a highly limited capacity to process and store information. Many real-world problems involve continuous control, which represents a difficult task for artificial intelligence agents. In this paper we explore the potential learning advantages a natural constraint on information flow might confer onto artificial agents in continuous control tasks. We focus on the model-free reinforcement learning (RL) setting and formalize our approach in terms of an information-theoretic constraint on the complexity of learned policies. We show that our approach emerges in a principled fashion from the application of rate-distortion theory. We implement a novel Capacity-Limited Actor-Critic (CLAC) algorithm and situate it within a broader family of RL algorithms such as the Soft Actor Critic (SAC) and Mutual Information Reinforcement Learning (MIRL) algorithm. Our experiments using continuous control tasks show that compared to alternative approaches, CLAC offers improvements in generalization between training and modified test environments. This is achieved in the CLAC model while displaying the high sample efficiency of similar methods.
翻訳日:2022-10-09 04:39:43 公開日:2020-10-09
# 個人化メタ強化学習のための政策多様性の特徴付け

Characterizing Policy Divergence for Personalized Meta-Reinforcement Learning ( http://arxiv.org/abs/2010.04816v1 )

ライセンス: Link先を確認
Michael Zhang(参考訳) 費用のかかる探査と限られた軌道データからのモチベーションが豊富にあるが、特にパーソナライズされた設定に関して、少数ショット強化学習(rl)による新しい環境への迅速な適応は難しい課題である。 本稿では,異なる特性を持つ複数のエンティティの集合に対して,個々のエンティティが一意な遷移ダイナミクスを持つ異なる環境をパラメータ化するような最適ポリシーを推奨する問題を考える。 メタラーニングにおける既存の文献に着想を得て,特定の環境がパーソナライズされた設定において互いにより類似しているという概念に着目し,勾配適応時の妥当性によって過去の経験を優先するモデルフリーなメタラーニングアルゴリズムを提案する。 提案アルゴリズムは,逆強化学習における手法による過去の政策分岐を特徴付けることを含み,そのような指標が過去の政策パラメータを,それらが配置された環境によって効果的に識別できることを示す。 パーソナライゼーションをより効果的に研究するために、トレーニングエピソード間の環境多様性を具体化するためのナビゲーションテストベッドを導入し、パーソナライズされた設定における数ショット強化学習よりもメタラーニングの方が優れていることを示す。

Despite ample motivation from costly exploration and limited trajectory data, rapidly adapting to new environments with few-shot reinforcement learning (RL) can remain a challenging task, especially with respect to personalized settings. Here, we consider the problem of recommending optimal policies to a set of multiple entities each with potentially different characteristics, such that individual entities may parameterize distinct environments with unique transition dynamics. Inspired by existing literature in meta-learning, we extend previous work by focusing on the notion that certain environments are more similar to each other than others in personalized settings, and propose a model-free meta-learning algorithm that prioritizes past experiences by relevance during gradient-based adaptation. Our algorithm involves characterizing past policy divergence through methods in inverse reinforcement learning, and we illustrate how such metrics are able to effectively distinguish past policy parameters by the environment they were deployed in, leading to more effective fast adaptation during test time. To study personalization more effectively we introduce a navigation testbed to specifically incorporate environment diversity across training episodes, and demonstrate that our approach outperforms meta-learning alternatives with respect to few-shot reinforcement learning in personalized settings.
翻訳日:2022-10-09 04:39:26 公開日:2020-10-09
# ハッシュロート畳み込みニューラルネットワークを用いた連続学習

Continual learning using hash-routed convolutional neural networks ( http://arxiv.org/abs/2010.05880v1 )

ライセンス: Link先を確認
Ahmad Berjaoui(参考訳) 継続的な学習は、機械学習パラダイムをデータ中心からモデル中心へとシフトさせる可能性がある。 継続的学習モデルは、不要な成長を避けながら、意味的に異なるデータセットを扱うために効率的にスケールする必要がある。 本稿では,データを動的に流れる畳み込み単位群であるハッシュ型畳み込みニューラルネットワークを提案する。 特徴マップを特徴ハッシュを用いて比較し、類似したデータを同じユニットにルーティングする。 ハッシュロートネットワークは、経路特性により優れた塑性を提供し、直交的特徴ハッシュを用いて安定した特徴を生成する。 各ユニットは別々に進化し、新しいユニットを追加できる(必要に応じてのみ使用できる)。 ハッシュロートネットワークは、生データを保存せず、勾配降下のみを用いて訓練することなく、様々な典型的な連続学習ベンチマークで優れた性能を発揮する。 その結果を奨励する教師付きタスクのための継続的学習フレームワークの提供に加えて,教師なし学習や強化学習にも利用できる。

Continual learning could shift the machine learning paradigm from data centric to model centric. A continual learning model needs to scale efficiently to handle semantically different datasets, while avoiding unnecessary growth. We introduce hash-routed convolutional neural networks: a group of convolutional units where data flows dynamically. Feature maps are compared using feature hashing and similar data is routed to the same units. A hash-routed network provides excellent plasticity thanks to its routed nature, while generating stable features through the use of orthogonal feature hashing. Each unit evolves separately and new units can be added (to be used only when necessary). Hash-routed networks achieve excellent performance across a variety of typical continual learning benchmarks without storing raw data and train using only gradient descent. Besides providing a continual learning framework for supervised tasks with encouraging results, our model can be used for unsupervised or reinforcement learning.
翻訳日:2022-10-09 04:39:03 公開日:2020-10-09
# 機能分類器としてのニューラルネットワーク

Neural Networks as Functional Classifiers ( http://arxiv.org/abs/2010.04305v1 )

ライセンス: Link先を確認
Barinder Thind, Kevin Multani, Jiguo Cao(参考訳) 近年、予測方法論の世界ではかなりの革新が起きている。 これは、さまざまな分類競争における機械学習アプローチの相対的な支配によって明らかである。 これらのアルゴリズムは多変量問題に優れてきたが、機能的データ分析の分野では休眠状態のままである。 我々は、分類問題のために、注目すべき深層学習手法を機能データ領域に拡張する。 本手法の有効性を,分光データの分類などの多くの分類応用において強調する。 さらに,本手法を関数線形モデルや他の従来の分類法と比較するシミュレーション研究を通じて,分類器の性能を実証する。

In recent years, there has been considerable innovation in the world of predictive methodologies. This is evident by the relative domination of machine learning approaches in various classification competitions. While these algorithms have excelled at multivariate problems, they have remained dormant in the realm of functional data analysis. We extend notable deep learning methodologies to the domain of functional data for the purpose of classification problems. We highlight the effectiveness of our method in a number of classification applications such as classification of spectrographic data. Moreover, we demonstrate the performance of our classifier through simulation studies in which we compare our approach to the functional linear model and other conventional classification methods.
翻訳日:2022-10-09 04:38:49 公開日:2020-10-09
# 非定常カーネル学習のためのスパーススペクトル歪入力法

Sparse Spectrum Warped Input Measures for Nonstationary Kernel Learning ( http://arxiv.org/abs/2010.04315v1 )

ライセンス: Link先を確認
Anthony Tompkins, Rafael Oliveira, Fabio Ramos(参考訳) 非定常カーネルを学習するための明示的、入力依存、測定値のウォーピングの一般的な形式を確立する。 定常カーネルはユビキタスで使いやすいが、入力に対する滑らかさの異なる関数への適応に苦労している。 提案する学習アルゴリズムは、標準定常核の滑らかさを制御する条件付きガウス測度として入力をワープする。 この構造により、データ内の非定常パターンをキャプチャし、直感的な帰納バイアスを与えます。 得られた方法はスパーススペクトルガウス過程に基づいており、閉形式解を可能にし、より複雑なパターンを捉えるために積み重ねられた構造に拡張可能である。 この方法は、合成および実世界のデータセット上の関連するアルゴリズムと共に広範囲に検証される。 我々は,小・大規模データ体制の学習問題において,ワーピング関数のパラメータ数に顕著な効率性を示す。

We establish a general form of explicit, input-dependent, measure-valued warpings for learning nonstationary kernels. While stationary kernels are ubiquitous and simple to use, they struggle to adapt to functions that vary in smoothness with respect to the input. The proposed learning algorithm warps inputs as conditional Gaussian measures that control the smoothness of a standard stationary kernel. This construction allows us to capture non-stationary patterns in the data and provides intuitive inductive bias. The resulting method is based on sparse spectrum Gaussian processes, enabling closed-form solutions, and is extensible to a stacked construction to capture more complex patterns. The method is extensively validated alongside related algorithms on synthetic and real world datasets. We demonstrate a remarkable efficiency in the number of parameters of the warping functions in learning problems with both small and large data regimes.
翻訳日:2022-10-09 04:38:42 公開日:2020-10-09
# 空間回帰のためのFew-shot Learning

Few-shot Learning for Spatial Regression ( http://arxiv.org/abs/2010.04360v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Yusuke Tanaka(参考訳) 空間回帰のための数ショット学習法を提案する。 ガウス過程(GP)は空間回帰にうまく使われてきたが、高い予測性能を達成するためには目標タスクにおいて多くの観測が必要である。 本モデルは,各領域の様々な属性の空間的データセットを用いて訓練し,観測された少数のデータから未知の属性の値を予測する。 我々のモデルでは、ニューラルネットワークを用いて与えられた小さなデータからタスク表現を推論する。 次に、タスク固有の特性がタスク表現によって制御されるGPフレームワークを用いて、空間値をニューラルネットワークにより予測する。 GPフレームワークにより、小さなデータに適応した予測を解析的に得ることができる。 目的関数に適応した予測を使用することで、新しく与えられた小さなデータに適応することで、テスト予測性能が向上するように、効率的に効果的にモデルを訓練することができる。 本研究では,提案手法が空間データセットを用いた既存のメタ学習手法よりも優れた予測性能を実現することを示す。

We propose a few-shot learning method for spatial regression. Although Gaussian processes (GPs) have been successfully used for spatial regression, they require many observations in the target task to achieve a high predictive performance. Our model is trained using spatial datasets on various attributes in various regions, and predicts values on unseen attributes in unseen regions given a few observed data. With our model, a task representation is inferred from given small data using a neural network. Then, spatial values are predicted by neural networks with a GP framework, in which task-specific properties are controlled by the task representations. The GP framework allows us to analytically obtain predictions that are adapted to small data. By using the adapted predictions in the objective function, we can train our model efficiently and effectively so that the test predictive performance improves when adapted to newly given small data. In our experiments, we demonstrate that the proposed method achieves better predictive performance than existing meta-learning methods using spatial datasets.
翻訳日:2022-10-09 04:38:32 公開日:2020-10-09
# コスト認識学習によるモデル探索

Model Exploration with Cost-Aware Learning ( http://arxiv.org/abs/2010.04512v1 )

ライセンス: Link先を確認
Namid Stillman, Igor Balazs, Sabine Hauert(参考訳) 非コンスタントなコストを明示的に考慮したアクティブな学習ルーチンの拡張を提案する。 この研究は既知のコストと未知のコストの両方を考慮し、総コストの最小化を考慮せず、サンプル空間の高コスト領域を探索できる学習者のための「epsilon-frugal」という用語を導入している。 機械学習データセットの拡張を実演し,学習者が既知のコストとランダムサンプリングの両方で優れることを示した。

We present an extension to active learning routines in which non-constant costs are explicitly considered. This work considers both known and unknown costs and introduces the term \epsilon-frugal for learners that do not only consider minimizing total costs but are also able to explore high cost regions of the sample space. We demonstrate our extension on a well-known machine learning dataset and find that out \epsilon-frugal learners outperform both learners with known costs and random sampling.
翻訳日:2022-10-09 04:38:17 公開日:2020-10-09
# HyperSAGE: ハイパーグラフによる帰納的表現学習の一般化

HyperSAGE: Generalizing Inductive Representation Learning on Hypergraphs ( http://arxiv.org/abs/2010.04558v1 )

ライセンス: Link先を確認
Devanshu Arya, Deepak K. Gupta, Stevan Rudinac and Marcel Worring(参考訳) グラフは機械学習で使用される最もユビキタスな構造化データ表現である。 しかし、それらはノード間の対関係のみをモデル化し、多くの実世界のデータセットに見られる高次関係を符号化するように設計されていない。 このような複雑な関係をモデル化するために、ハイパーグラフは自然な表現であることが証明されている。 ハイパーグラフにおけるノード表現の学習は、グラフよりも複雑で、2つのレベル(すべてのハイパーエッジとハイパーエッジ)で情報伝達を行う。 現在のほとんどのアプローチは、既存の幾何学的深層学習アルゴリズムのために、まずハイパーグラフ構造をグラフに変換する。 この変換は、情報損失とハイパーグラフの表現力の準最適利用につながる。 2段階のニューラルメッセージパッシング戦略を用いて、ハイパーグラフを介して情報を正確かつ効率的に伝播する新しいハイパーグラフ学習フレームワークHyperSAGEを提案する。 HyperSAGEの柔軟な設計は、近隣情報を集約する様々な方法を促進する。 トランスダクティブな関連作品の大半とは異なり、一般的なgraphsageメソッドにインスパイアされた私たちのアプローチは、インダクティブです。 このように、未確認のノードでも使用することができ、進化や部分的に観察されるハイパーグラフのような問題へのデプロイを容易にする。 広範な実験を通じて,ハイパーセージが代表的なベンチマークデータセットで最先端のハイパーグラフ学習手法を上回っていることを示す。 また,HyperSAGEの表現力の向上は,ノード表現の学習において,代替よりも安定であることを示す。

Graphs are the most ubiquitous form of structured data representation used in machine learning. They model, however, only pairwise relations between nodes and are not designed for encoding the higher-order relations found in many real-world datasets. To model such complex relations, hypergraphs have proven to be a natural representation. Learning the node representations in a hypergraph is more complex than in a graph as it involves information propagation at two levels: within every hyperedge and across the hyperedges. Most current approaches first transform a hypergraph structure to a graph for use in existing geometric deep learning algorithms. This transformation leads to information loss, and sub-optimal exploitation of the hypergraph's expressive power. We present HyperSAGE, a novel hypergraph learning framework that uses a two-level neural message passing strategy to accurately and efficiently propagate information through hypergraphs. The flexible design of HyperSAGE facilitates different ways of aggregating neighborhood information. Unlike the majority of related work which is transductive, our approach, inspired by the popular GraphSAGE method, is inductive. Thus, it can also be used on previously unseen nodes, facilitating deployment in problems such as evolving or partially observed hypergraphs. Through extensive experimentation, we show that HyperSAGE outperforms state-of-the-art hypergraph learning methods on representative benchmark datasets. We also demonstrate that the higher expressive power of HyperSAGE makes it more stable in learning node representations as compared to the alternatives.
翻訳日:2022-10-09 04:37:49 公開日:2020-10-09
# 潜在木を用いた文生成のための再帰的トップダウン生産

Recursive Top-Down Production for Sentence Generation with Latent Trees ( http://arxiv.org/abs/2010.04704v1 )

ライセンス: Link先を確認
Shawn Tan and Yikang Shen and Timothy J. O'Donnell and Alessandro Sordoni and Aaron Courville(参考訳) 自然および合成言語に対する文脈自由文法の帰納的生産特性をモデル化する。 この目的のために我々は,潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。これにより,潜伏木モデルの下でN$のトークン列の確率を計算し,再帰的ニューラル関数を最大化することができる。 筆者らは2つの合成タスクにおいて,SCAN (Lake and Baroni, 2017) と英語質問生成 (McCoy et al., 2020) の2つの性能を示す。 また,マルチ30kデータセット(elliott et al., 2016)におけるドイツ語英訳の実験結果を提示し,モデルがスキャンタスクとドイツ語英訳タスクで学習する誘導木構造を定性的に解析する。

We model the recursive production property of context-free grammars for natural and synthetic languages. To this end, we present a dynamic programming algorithm that marginalises over latent binary tree structures with $N$ leaves, allowing us to compute the likelihood of a sequence of $N$ tokens under a latent tree model, which we maximise to train a recursive neural function. We demonstrate performance on two synthetic tasks: SCAN (Lake and Baroni, 2017), where it outperforms previous models on the LENGTH split, and English question formation (McCoy et al., 2020), where it performs comparably to decoders with the ground-truth tree structure. We also present experimental results on German-English translation on the Multi30k dataset (Elliott et al., 2016), and qualitatively analyse the induced tree structures our model learns for the SCAN tasks and the German-English translation task.
翻訳日:2022-10-09 04:31:36 公開日:2020-10-09
# リーマン多様体による共形レトロフィッティング:事前訓練された埋め込みへのタスク固有グラフの蒸留

Conformal retrofitting via Riemannian manifolds: distilling task-specific graphs into pretrained embeddings ( http://arxiv.org/abs/2010.04842v1 )

ライセンス: Link先を確認
Justin Dieter and Arun Tejasvi Chaganty(参考訳) 事前学習された(言語)埋め込みは、多くの機械学習アプリケーションの中心となる、単語のようなエンティティのタスクに依存しない機能表現である。 これらの表現は、これらのエンティティのサブセット上のグラフとしてエンコードされたタスク固有のドメイン知識を含むメソッドのクラスであるリトロフィッティングによって強化することができる。 しかし、既存のレトロフィッティングアルゴリズムは2つの制限に直面している: 欠落した実体との関係を表現できないことによって観察されたグラフを過剰に適合させる; そしてそれらはユークリッド多様体への埋め込みを学ぶだけで観察されたグラフを不適合にする。 これらの問題を2つの重要な貢献で解決します (i)我々は,事前学習された埋め込みから局所幾何を保存する新しい正規化子,コンフォメーション正規化子を提案する。 (ii) グラフ全体を表現することができる非ユークリッド多様体に事前訓練された埋め込みを写像することを学ぶ新しいリーマンフィードフォワード層。 wordnetの実験を通じて、共形正規化器は、既存の(ユークリッドのみの)方法でさえ、欠落しているエンティティのリンク予測を過剰に満たさないこと、そして--リーマンのフィードフォワード層と共に----これらを上回る非ユークリッド埋め込みを導くことを実証する。

Pretrained (language) embeddings are versatile, task-agnostic feature representations of entities, like words, that are central to many machine learning applications. These representations can be enriched through retrofitting, a class of methods that incorporate task-specific domain knowledge encoded as a graph over a subset of these entities. However, existing retrofitting algorithms face two limitations: they overfit the observed graph by failing to represent relationships with missing entities; and they underfit the observed graph by only learning embeddings in Euclidean manifolds, which cannot faithfully represent even simple tree-structured or cyclic graphs. We address these problems with two key contributions: (i) we propose a novel regularizer, a conformality regularizer, that preserves local geometry from the pretrained embeddings---enabling generalization to missing entities and (ii) a new Riemannian feedforward layer that learns to map pre-trained embeddings onto a non-Euclidean manifold that can better represent the entire graph. Through experiments on WordNet, we demonstrate that the conformality regularizer prevents even existing (Euclidean-only) methods from overfitting on link prediction for missing entities, and---together with the Riemannian feedforward layer---learns non-Euclidean embeddings that outperform them.
翻訳日:2022-10-09 04:31:18 公開日:2020-10-09
# DeepStreet: ディープラーニングによる都市路面ネットワーク生成モジュール

DeepStreet: A deep learning powered urban street network generation module ( http://arxiv.org/abs/2010.04365v1 )

ライセンス: Link先を確認
Zhou Fang, Tianren Yang, Ying Jin(参考訳) 前例のない都市化の波を経験した国では、高速で高品質な街路設計が必要である。 本研究は,都市の街路設計に局所的な特徴を応用可能な,街路網の自動生成のための新しい深層学習型アプローチであるDeepStreet(DS)を提案する。 DSは畳み込みニューラルネットワーク(CNN)によって駆動され、近辺のエリアに基づいて道路の補間を可能にする。 具体的には、CNNはまず、OpenStreetMapからソースされた既存のストリートネットワークのパターンだけでなく、ローカルな特徴を検出し、認識し、キャプチャするように訓練されている。 訓練されたcnnにより、dsは周辺のストリートネットワークで条件付けられた事前定義された領域におけるストリートネットワークの将来の拡張パターンを予測できる。 本研究は,バルセロナ市アイサンプレ地区の周辺地域を対象として,中心市街地の街路網や不規則道路アライメントといった象徴的なグリッドを用いた都市交通計画の例である。 その結果,(1)バルセロナの複雑な街路パターンの検知と自己クラスタ化が可能であること,(2)格子状と不規則な街路ネットワークの両方を予測できることがわかった。 dsは、既存の街路網と新しく生成された街路網の一貫性を保ちながら、都市路網を効率的に設計するための新しいツールとして大きな可能性を秘めている。 さらに、生成したネットワークは、特に急速に発展している都市において、地域計画策定の指針となる。

In countries experiencing unprecedented waves of urbanization, there is a need for rapid and high quality urban street design. Our study presents a novel deep learning powered approach, DeepStreet (DS), for automatic street network generation that can be applied to the urban street design with local characteristics. DS is driven by a Convolutional Neural Network (CNN) that enables the interpolation of streets based on the areas of immediate vicinity. Specifically, the CNN is firstly trained to detect, recognize and capture the local features as well as the patterns of the existing street network sourced from the OpenStreetMap. With the trained CNN, DS is able to predict street networks' future expansion patterns within the predefined region conditioned on its surrounding street networks. To test the performance of DS, we apply it to an area in and around the Eixample area in the City of Barcelona, a well known example in the fields of urban and transport planning with iconic grid like street networks in the centre and irregular road alignments farther afield. The results show that DS can (1) detect and self cluster different types of complex street patterns in Barcelona; (2) predict both gridiron and irregular street and road networks. DS proves to have a great potential as a novel tool for designers to efficiently design the urban street network that well maintains the consistency across the existing and newly generated urban street network. Furthermore, the generated networks can serve as a benchmark to guide the local plan-making especially in rapidly developing cities.
翻訳日:2022-10-09 04:30:49 公開日:2020-10-09
# Pose Guidance Network を用いた3次元顔再構成の学習

Learning 3D Face Reconstruction with a Pose Guidance Network ( http://arxiv.org/abs/2010.04384v1 )

ライセンス: Link先を確認
Pengpeng Liu, Xintong Han, Michael Lyu, Irwin King, Jia Xu(参考訳) ポーズ誘導ネットワーク(PGN)を用いた単眼3次元顔再構成学習のための自己指導型学習手法を提案する。 まず,事前のパラメトリック3次元顔学習法におけるポーズ推定のボトルネックを明らかにし,ポーズパラメータ推定に3次元顔ランドマークを利用する方法を提案する。 特別に設計されたpgnでは、完全にラベル付き3dランドマークとラベルなしの顔画像で両方の顔から学習できます。 さらに,同一人物の複数のフレームに埋め込まれた顔形状情報を活用し,単一の画像から3次元顔形状を後退させる不適切な性質を緩和する自己教師付き学習方式も拡張した。 これら3つの洞察は、パラメトリックモデル学習とデータ駆動学習技術の補完的な強みを組み合わせた単一のアプローチを生み出す。 AFLW2000-3D, Florence, およびFaceWarehouseのデータセットについて厳密な評価を行い, 提案手法がすべての指標に対して最先端であることを示す。

We present a self-supervised learning approach to learning monocular 3D face reconstruction with a pose guidance network (PGN). First, we unveil the bottleneck of pose estimation in prior parametric 3D face learning methods, and propose to utilize 3D face landmarks for estimating pose parameters. With our specially designed PGN, our model can learn from both faces with fully labeled 3D landmarks and unlimited unlabeled in-the-wild face images. Our network is further augmented with a self-supervised learning scheme, which exploits face geometry information embedded in multiple frames of the same person, to alleviate the ill-posed nature of regressing 3D face geometry from a single image. These three insights yield a single approach that combines the complementary strengths of parametric model learning and data-driven learning techniques. We conduct a rigorous evaluation on the challenging AFLW2000-3D, Florence and FaceWarehouse datasets, and show that our method outperforms the state-of-the-art for all metrics.
翻訳日:2022-10-09 04:30:22 公開日:2020-10-09
# 計画インテリジェンスを深層学習に組み込む:道路ネットワーク設計のための計画支援ツール

Incorporating planning intelligence into deep learning: A planning support tool for street network design ( http://arxiv.org/abs/2010.04536v1 )

ライセンス: Link先を確認
Zhou Fang, Ying Jin, Tianren Yang(参考訳) アドホックな計画形成におけるディープラーニングの応用は、都市に関する専門知識と人工知能を統合することの難しさによって制限されている。 本稿では,コンテキスト認識,サンプルベース,ユーザガイドによる街路ネットワーク生成を自動化するために,深層ニューラルネットワークの新たな補完的利用と計画指導を提案する。 モデルテストは、計画知識(例えば道路合流点や周辺型)をモデルトレーニングに組み込むことで、より現実的なストリート構成の予測につながることを示唆している。 さらに、この新しいツールはプロと一般のユーザーの両方に、比較とさらなる評価のためのベンチマーク提案を体系的かつ直感的に探求する機会を提供する。

Deep learning applications in shaping ad hoc planning proposals are limited by the difficulty in integrating professional knowledge about cities with artificial intelligence. We propose a novel, complementary use of deep neural networks and planning guidance to automate street network generation that can be context-aware, example-based and user-guided. The model tests suggest that the incorporation of planning knowledge (e.g., road junctions and neighborhood types) in the model training leads to a more realistic prediction of street configurations. Furthermore, the new tool provides both professional and lay users an opportunity to systematically and intuitively explore benchmark proposals for comparisons and further evaluations.
翻訳日:2022-10-09 04:29:55 公開日:2020-10-09
# 画像認識のための新しいANN構造

A Novel ANN Structure for Image Recognition ( http://arxiv.org/abs/2010.04586v1 )

ライセンス: Link先を確認
Shilpa Mayannavar, Uday Wali, and V M Aparanji(参考訳) 本稿では,画像認識のためのニューラルモデルであるARN(Multi-layer Auto Resonance Networks)を提案する。 ノードと呼ばれるarnのニューロンは、入射パターンにラッチし、入力が「被覆」内にあるときに共鳴する。 共鳴により、ニューロンは耐雑音性と調節性を持つ。 ノードのカバレッジは、入ってくるパターンを近似する機能を提供する。 そのラッチ特性により、既存のトレーニングネットワークを妨害することなく、エピソードイベントに応答することができる。 これらのネットワークは様々な分野の問題を解決することができるが、十分に検討されていない。 本稿では,2層arnを用いた画像分類・識別システムの実装について述べる。 MNISTデータセットの認識精度は、ニューロンの2つの層と1つの数値あたり50個のサンプルで達成されており、クラウドインフラストラクチャのエッジでのコンピューティングに有用である。

The paper presents Multi-layer Auto Resonance Networks (ARN), a new neural model, for image recognition. Neurons in ARN, called Nodes, latch on to an incoming pattern and resonate when the input is within its 'coverage.' Resonance allows the neuron to be noise tolerant and tunable. Coverage of nodes gives them an ability to approximate the incoming pattern. Its latching characteristics allow it to respond to episodic events without disturbing the existing trained network. These networks are capable of addressing problems in varied fields but have not been sufficiently explored. Implementation of an image classification and identification system using two-layer ARN is discussed in this paper. Recognition accuracy of 94% has been achieved for MNIST dataset with only two layers of neurons and just 50 samples per numeral, making it useful in computing at the edge of cloud infrastructure.
翻訳日:2022-10-09 04:29:43 公開日:2020-10-09
# HENIN:ソーシャルメディアにおける説明可能なサイバーバブル検出のための異種ニューラルネットワーク学習

HENIN: Learning Heterogeneous Neural Interaction Networks for Explainable Cyberbullying Detection on Social Media ( http://arxiv.org/abs/2010.04576v1 )

ライセンス: Link先を確認
Hsin-Yu Chen, Cheng-Te Li(参考訳) サイバーいじめの計算検出において、既存の研究は主にソーシャルメディアセッションのテキスト分析のみに依存する汎用分類器の構築に重点を置いていた。 実験的な成功にもかかわらず、重要な欠落点はモデル説明可能性であり、なぜ特定のメディアセッションがサイバーいじめとして検出されるのかを論じる。 そこで本稿では,サイバーバブル検出のための新しいディープモデルであるヘテロジニアスニューラルネットワーク(HENIN)を提案する。 heninには以下のコンポーネントが含まれている: コメントエンコーダ、post-comment co-attentionサブネットワーク、セッションセッションおよびpost-postインタラクション抽出器。 実際のデータセットで実施された大規模な実験は、HENINの有望なパフォーマンスを示すだけでなく、メディアセッションがなぜサイバーいじめであるかを理解するための明確なコメントも強調している。

In the computational detection of cyberbullying, existing work largely focused on building generic classifiers that rely exclusively on text analysis of social media sessions. Despite their empirical success, we argue that a critical missing piece is the model explainability, i.e., why a particular piece of media session is detected as cyberbullying. In this paper, therefore, we propose a novel deep model, HEterogeneous Neural Interaction Networks (HENIN), for explainable cyberbullying detection. HENIN contains the following components: a comment encoder, a post-comment co-attention sub-network, and session-session and post-post interaction extractors. Extensive experiments conducted on real datasets exhibit not only the promising performance of HENIN, but also highlight evidential comments so that one can understand why a media session is identified as cyberbullying.
翻訳日:2022-10-09 04:29:30 公開日:2020-10-09
# グラフマッチングのための高次関係構築とマイニング

High-Order Relation Construction and Mining for Graph Matching ( http://arxiv.org/abs/2010.04348v1 )

ライセンス: Link先を確認
Hui Xu, Liyao Xiang, Youmin Le, Xiaoying Gan, Yuting Jia, Luoyi Fu, Xinbing Wang(参考訳) グラフマッチングペア 2つ以上のグラフにまたがる対応するノード。 問題は、特に大きなグラフにおいて、グラフ全体の構造的類似性を捉えるのが難しいためである。 本稿では,大規模グラフのマッチングに高次情報を導入することを提案する。 高次グラフマッチングネットワーク(high-order graph matching network, hgmn)と呼ばれる新しいグラフマッチング手法を導入し、局所構造対応だけでなく、グラフ間のハイパーエッジ関係も学習する。 我々は,反復線グラフがノードの整合性においてグラフ畳み込みネットワークよりも表現力が高いことを理論的に証明する。 実用的な制約を課すことで、HGMNは大規模グラフにスケーラブルになる。 実験結果から,HGMNは最先端技術よりも正確なマッチング結果を得ることで,異なるグラフ間の構造的類似性を効果的に把握できることが判明した。

Graph matching pairs corresponding nodes across two or more graphs. The problem is difficult as it is hard to capture the structural similarity across graphs, especially on large graphs. We propose to incorporate high-order information for matching large-scale graphs. Iterated line graphs are introduced for the first time to describe such high-order information, based on which we present a new graph matching method, called High-order Graph Matching Network (HGMN), to learn not only the local structural correspondence, but also the hyperedge relations across graphs. We theoretically prove that iterated line graphs are more expressive than graph convolution networks in terms of aligning nodes. By imposing practical constraints, HGMN is made scalable to large-scale graphs. Experimental results on a variety of settings have shown that, HGMN acquires more accurate matching results than the state-of-the-art, verifying our method effectively captures the structural similarity across different graphs.
翻訳日:2022-10-09 04:29:15 公開日:2020-10-09
# eacoに基づくヒューマノイドロボットのためのバイオインスパイア二足歩行制御

Bioinspired Bipedal Locomotion Control for Humanoid Robotics Based on EACO ( http://arxiv.org/abs/2010.04463v1 )

ライセンス: Link先を確認
Jingan Yang, Yang Peng(参考訳) 人間や他の脚ロボットと同じくらい効率的に、かつ安定して歩けるロボットを構築するために、人間型ロボットや他の脚型ロボットへのリアルタイム応用において、遺伝的およびクロスオーバー演算子を備えた強化されたアリコロニー最適化(eaco)アルゴリズムを開発した。 本研究は,マルコフ連鎖を用いて予測収束率を推定することにより,人型ロボットに適用したEACOのグローバル検索能力と収束率をリアルタイムで向上させる。 さらに、ACO、実コードGA、ニューラルネットワーク~(NN)、粒子群最適化〜(PSO)から、歩行合成、パラメータ化可能な軌道の動的モデリング、ヒューマノイドロボットの歩行最適化を含む複雑なロボットシステムまで、幅広い問題にEACOアルゴリズムを注視した。 本手法は, 早期収束確率の検出, 固有停止に成功し, eacoベースのヒューマノイドロボットシステムの収束速度を促進できることを示すとともに, 高度最適化課題の解法としての有効性と効果を実証した。 EACO最適化手法を用いて, 速度0.47m/sの信頼性と歩行速度を向上した。 これらの知見は、EACOの固有の停滞と収束率の低下を理解し、対処する上で重要な意味を持ち、ヒューマノイドロボットの遺伝的構造と制御最適化に関する新たな知見を提供する。

To construct a robot that can walk as efficiently and steadily as humans or other legged animals, we develop an enhanced elitist-mutated ant colony optimization~(EACO) algorithm with genetic and crossover operators in real-time applications to humanoid robotics or other legged robots. This work presents promoting global search capability and convergence rate of the EACO applied to humanoid robots in real-time by estimating the expected convergence rate using Markov chain. Furthermore, we put a special focus on the EACO algorithm on a wide range of problems, from ACO, real-coded GAs, GAs with neural networks~(NNs), particle swarm optimization~(PSO) to complex robotics systems including gait synthesis, dynamic modeling of parameterizable trajectories and gait optimization of humanoid robotics. The experimental results illustrate the capability of this method to discover the premature convergence probability, tackle successfully inherent stagnation, and promote the convergence rate of the EACO-based humanoid robotics systems and demonstrated the applicability and the effectiveness of our strategy for solving sophisticated optimization tasks. We found reliable and fast walking gaits with a velocity of up to 0.47m/s using the EACO optimization strategy. These findings have significant implications for understanding and tackling inherent stagnation and poor convergence rate of the EACO and provide new insight into the genetic architectures and control optimization of humanoid robotics.
翻訳日:2022-10-09 04:22:47 公開日:2020-10-09
# プラグアンドプレイ対話モデル

Plug-and-Play Conversational Models ( http://arxiv.org/abs/2010.04344v1 )

ライセンス: Link先を確認
Andrea Madotto, Etsuko Ishii, Zhaojiang Lin, Sumanth Dathathri, Pascale Fung(参考訳) コヒーレントで流動的な応答を生成する対話モデルに向けて、かなりの進歩があったが、Redditのような大きな対話データセット上で、大きな言語モデルをトレーニングすることが多い。 これらの大きな会話モデルは生成した応答の制御をほとんど行わず、この制御はモデルを微調整するために使用できる属性固有生成のための注釈付き会話データセットが存在しない場合にさらに制限される。 本稿ではまず,対話固有のデータセットを必要とせず,大規模モデルの微調整に依存しない,制御可能な応答生成のためのプラグアンドプレイ手法を提案し,評価する。 復号処理は有効であるが,対話的使用には適さない対話型モデルをレンダリングすることにより,計算オーバーヘッドがかなり大きくなる。 これを克服するために、デコード時にさらなる計算を必要とせず、また大きな言語モデルの微調整も必要としないアプローチを導入する。 我々は,自動的および人間的評価を通じて,複数の望ましい属性について,生成した対話的応答を高度に制御できることを実証する。

There has been considerable progress made towards conversational models that generate coherent and fluent responses; however, this often involves training large language models on large dialogue datasets, such as Reddit. These large conversational models provide little control over the generated responses, and this control is further limited in the absence of annotated conversational datasets for attribute specific generation that can be used for fine-tuning the model. In this paper, we first propose and evaluate plug-and-play methods for controllable response generation, which does not require dialogue specific datasets and does not rely on fine-tuning a large model. While effective, the decoding procedure induces considerable computational overhead, rendering the conversational model unsuitable for interactive usage. To overcome this, we introduce an approach that does not require further computation at decoding time, while also does not require any fine-tuning of a large language model. We demonstrate, through extensive automatic and human evaluation, a high degree of control over the generated conversational responses with regard to multiple desired attributes, while being fluent.
翻訳日:2022-10-09 04:22:22 公開日:2020-10-09
# 接地文脈修飾器による実時間変色生成

Pragmatically Informative Color Generation by Grounding Contextual Modifiers ( http://arxiv.org/abs/2010.04372v1 )

ライセンス: Link先を確認
Zhengxuan Wu, Desmond C. Ong(参考訳) 文脈情報における接地言語は、きめ細かい自然言語理解に不可欠である。 文脈修飾器の接地に関わる重要なタスクは色生成である。 基準色 "green" と修飾色 "bluey" が与えられたとき、どのようにして "bluey green" を表すことができる色を生成するのか? 本稿では、この色生成タスクを話者とリスナー間の再帰ゲームとして定式化する計算実用モデルを提案する。 本モデルでは,本モデルでは,聴取者が提案する推測を実践的話者が原因として,聴取者が元の参照を回復するのを助けるために,最大情報量で修正色を生成する。 本稿では,実用的情報を取り込むことによって,実利的な推論や大きな連続空間からの色彩表現の柔軟性に欠ける他の最先端ディープラーニングモデルと比較して,性能が大幅に向上することを示す。 本モデルでは,トレーニング中に基準色が認識されないテストケースでは絶対98%,トレーニング中に基準色と修正子の両方が認識されないテストケースでは絶対40%向上する。

Grounding language in contextual information is crucial for fine-grained natural language understanding. One important task that involves grounding contextual modifiers is color generation. Given a reference color "green", and a modifier "bluey", how does one generate a color that could represent "bluey green"? We propose a computational pragmatics model that formulates this color generation task as a recursive game between speakers and listeners. In our model, a pragmatic speaker reasons about the inferences that a listener would make, and thus generates a modified color that is maximally informative to help the listener recover the original referents. In this paper, we show that incorporating pragmatic information provides significant improvements in performance compared with other state-of-the-art deep learning models where pragmatic inference and flexibility in representing colors from a large continuous space are lacking. Our model has an absolute 98% increase in performance for the test cases where the reference colors are unseen during training, and an absolute 40% increase in performance for the test cases where both the reference colors and the modifiers are unseen during training.
翻訳日:2022-10-09 04:22:05 公開日:2020-10-09
# ChrEn: 絶滅危惧言語再生のためのチェロキー英語機械翻訳

ChrEn: Cherokee-English Machine Translation for Endangered Language Revitalization ( http://arxiv.org/abs/2010.04791v1 )

ライセンス: Link先を確認
Shiyue Zhang, Benjamin Frey, Mohit Bansal(参考訳) チェロキー語(英: Cherokee)は、チェロキー族によって話される言語である。 チェロキー文化はその言語に深く埋め込まれている。 しかし、世界ではチェロキー語話者が約2,000人しか残っておらず、毎年減少している。 この絶滅危惧言語を救うために、チェロキーと英語の機械翻訳研究を容易にするために、チェロキーと英語の並列データセットであるchrenを紹介する。 いくつかの一般的な機械翻訳言語と比較すると、ChrEnは非常に低リソースであり、総文数は14kである。 並列データをドメイン内とドメイン外の両方の評価を容易にする方法で分割します。 半教師付き学習を可能にするため、5kチェロキー単言語データも収集した。 これらのデータセットに加えて、チェロキー語・英語・チェロキー語機械翻訳システムを提案する。 SMT(フレーズベース)とNMT(RNNベースとTransformerベース)、教師付き対半教師付き(言語モデル、バックトランスレーション、BERT/Multilingual-BERT)、他4言語との多言語共同学習などを比較した。 ドメイン内15.8/12.7 BLEUとドメイン外のChr-En/EnChr翻訳6.5/5.0 BLEUが最適です。 私たちのデータ、コード、デモはhttps://github.com/ZhangShiyue/ChrEnで公開されます。

Cherokee is a highly endangered Native American language spoken by the Cherokee people. The Cherokee culture is deeply embedded in its language. However, there are approximately only 2,000 fluent first language Cherokee speakers remaining in the world, and the number is declining every year. To help save this endangered language, we introduce ChrEn, a Cherokee-English parallel dataset, to facilitate machine translation research between Cherokee and English. Compared to some popular machine translation language pairs, ChrEn is extremely low-resource, only containing 14k sentence pairs in total. We split our parallel data in ways that facilitate both in-domain and out-of-domain evaluation. We also collect 5k Cherokee monolingual data to enable semi-supervised learning. Besides these datasets, we propose several Cherokee-English and English-Cherokee machine translation systems. We compare SMT (phrase-based) versus NMT (RNN-based and Transformer-based) systems; supervised versus semi-supervised (via language model, back-translation, and BERT/Multilingual-BERT) methods; as well as transfer learning versus multilingual joint training with 4 other languages. Our best results are 15.8/12.7 BLEU for in-domain and 6.5/5.0 BLEU for out-of-domain Chr-En/EnChr translations, respectively, and we hope that our dataset and systems will encourage future work by the community for Cherokee language revitalization. Our data, code, and demo will be publicly available at https://github.com/ZhangShiyue/ChrEn
翻訳日:2022-10-09 04:21:45 公開日:2020-10-09
# 生成変換器モデルのタスクレベル対話構成について

On Task-Level Dialogue Composition of Generative Transformer Model ( http://arxiv.org/abs/2010.04826v1 )

ライセンス: Link先を確認
Prasanna Parthasarathi and Arvind Neelakantan and Sharan Narang(参考訳) タスク指向対話システムは、映画のチケットを予約したり、会話を通じて食べ物を注文したりといったタスクをユーザが達成するのに役立つ。 ディープニューラルネットワークによってパラメータ化された生成モデルは、そのようなシステムにおける次回応答生成に広く使われている。 ユーザが同じ会話の中で複数のタスクを達成したいと考えるのは自然なことだが、生成モデルが複数のタスクを構成する能力は十分に研究されていない。 本研究は,トランスフォーマー生成モデルにおける複数のタスクを構成する能力向上に向けたヒューマン・ヒューマン・タスク指向対話の訓練の効果について検討することから始める。 そこで本研究では,(1)人間と人間の単独タスク対話から学習のための複合タスク対話データを作成すること,(2)補助的損失を用いてエンコーダ表現を単一タスク対話に不変にすること,の2つの方法を提案する。 実験の結果,1つのタスク対話から複数のタスクを構成する学習において,トランスフォーマーモデルの高度な変種でさえも困難であることがわかった。

Task-oriented dialogue systems help users accomplish tasks such as booking a movie ticket and ordering food via conversation. Generative models parameterized by a deep neural network are widely used for next turn response generation in such systems. It is natural for users of the system to want to accomplish multiple tasks within the same conversation, but the ability of generative models to compose multiple tasks is not well studied. In this work, we begin by studying the effect of training human-human task-oriented dialogues towards improving the ability to compose multiple tasks on Transformer generative models. To that end, we propose and explore two solutions: (1) creating synthetic multiple task dialogue data for training from human-human single task dialogue and (2) forcing the encoder representation to be invariant to single and multiple task dialogues using an auxiliary loss. The results from our experiments highlight the difficulty of even the sophisticated variant of transformer model in learning to compose multiple tasks from single task dialogues.
翻訳日:2022-10-09 04:21:17 公開日:2020-10-09
# リパラメトリゼーション勾配勾配勾配

Reparametrizing gradient descent ( http://arxiv.org/abs/2010.04786v1 )

ライセンス: Link先を確認
David Sprunger(参考訳) 本研究では,ノルム適応勾配降下と呼ぶ最適化アルゴリズムを提案する。 このアルゴリズムはadamやadagradといった他の勾配に基づく最適化アルゴリズムと似ており、各イテレーションでの確率的勾配降下の学習速度に適応している。 しかしながら、観測された勾配の統計的性質を用いるのではなく、ノルム適応勾配降下は、多くの次元におけるニュートン-ラフソン法と同様に、標準勾配降下更新ステップの効果の1次推定に依存する。 我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。 根を求めることは、非負の損失関数によって測定される十分な容量を持つモデルの場合、根は大域的最適値と一致するという事実によって正当化できる。 本研究は,本アルゴリズムを用いた実験をいくつか紹介する。これらの実験では,規範適応降下は回帰設定において特に強いが,分類器の訓練も可能である。

In this work, we propose an optimization algorithm which we call norm-adapted gradient descent. This algorithm is similar to other gradient-based optimization algorithms like Adam or Adagrad in that it adapts the learning rate of stochastic gradient descent at each iteration. However, rather than using statistical properties of observed gradients, norm-adapted gradient descent relies on a first-order estimate of the effect of a standard gradient descent update step, much like the Newton-Raphson method in many dimensions. Our algorithm can also be compared to quasi-Newton methods, but we seek roots rather than stationary points. Seeking roots can be justified by the fact that for models with sufficient capacity measured by nonnegative loss functions, roots coincide with global optima. This work presents several experiments where we have used our algorithm; in these results, it appears norm-adapted descent is particularly strong in regression settings but is also capable of training classifiers.
翻訳日:2022-10-09 04:20:36 公開日:2020-10-09
# 数を計測する: 噂のスタンス分類の場合

Measuring What Counts: The case of Rumour Stance Classification ( http://arxiv.org/abs/2010.04532v1 )

ライセンス: Link先を確認
Carolina Scarton and Diego F. Silva and Kalina Bontcheva(参考訳) スタンス分類は、ユーザーがオンラインの噂を信じるかどうかを理解する強力なツールとなる。 このタスクは、ある噂に対する回答のスタンス、すなわちサポート、否定、質問、コメントを自動的に予測することを目的としている。 多数の方法が提案され、2017年と2019年にrumoureval共有タスクで比較された。 その結果、自然に発生する噂の姿勢データが極めて不均衡であるため、これは難しい問題であることがわかった。 本稿では,これらの共有タスクで使用される評価指標について考察する。 我々は,2つのRumourEvalタスクに課されたシステムを再評価し,2つの広く採用されているメトリクス(精度とマクロF1)が,大半に対して高度に歪んだ精度のシステムを好むため,噂定位分類の4クラス不均衡タスクに対して堅牢ではないことを示す。 この問題を克服するために,噂の姿勢検出のための新しい評価指標を提案する。 これらは不均衡なデータに対して堅牢なだけでなく、最も有意義な2つのマイノリティクラス(サポートと否定)を認識できるより高いシステムもスコア付けする。

Stance classification can be a powerful tool for understanding whether and which users believe in online rumours. The task aims to automatically predict the stance of replies towards a given rumour, namely support, deny, question, or comment. Numerous methods have been proposed and their performance compared in the RumourEval shared tasks in 2017 and 2019. Results demonstrated that this is a challenging problem since naturally occurring rumour stance data is highly imbalanced. This paper specifically questions the evaluation metrics used in these shared tasks. We re-evaluate the systems submitted to the two RumourEval tasks and show that the two widely adopted metrics -- accuracy and macro-F1 -- are not robust for the four-class imbalanced task of rumour stance classification, as they wrongly favour systems with highly skewed accuracy towards the majority class. To overcome this problem, we propose new evaluation metrics for rumour stance detection. These are not only robust to imbalanced data but also score higher systems that are capable of recognising the two most informative minority classes (support and deny).
翻訳日:2022-10-09 04:19:54 公開日:2020-10-09
# LaND: 障害から学ぶこと

LaND: Learning to Navigate from Disengagements ( http://arxiv.org/abs/2010.04689v1 )

ライセンス: Link先を確認
Gregory Kahn, Pieter Abbeel, Sergey Levine(参考訳) 自律移動ロボットを現実のシナリオでテストすることは、自律ナビゲーションシステムの開発に必要な側面である。 ロボットが望ましくない操作を行うため、ヒューマンセーフティモニターがロボットの自律性システムを離脱するたびに、自律性開発者は自律性システムを改善するための洞察を得る。 しかし、これらの離脱はシステムがどこで失敗するかを示すだけでなく、トラブルシューティングに役立つだけでなく、ロボットがナビゲートを学べる直接的な学習信号を提供すると信じている。 本研究では,学習者に対する学習支援のための強化学習手法,LaNDを提案する。 LaNDは現在の知覚的観察から、どのアクションが解離につながるかを予測するニューラルネットワークモデルを学び、テスト時計画で解離を回避するアクションを実行する。 以上の結果から,LaNDは多種多様な現実世界の歩道環境を学習し,模倣学習と強化学習の両方に優れることを示した。 ビデオ、コード、その他の資料は、我々のWebサイトhttps://sites.google.com/view/sidewalk-learningで入手できる。

Consistently testing autonomous mobile robots in real world scenarios is a necessary aspect of developing autonomous navigation systems. Each time the human safety monitor disengages the robot's autonomy system due to the robot performing an undesirable maneuver, the autonomy developers gain insight into how to improve the autonomy system. However, we believe that these disengagements not only show where the system fails, which is useful for troubleshooting, but also provide a direct learning signal by which the robot can learn to navigate. We present a reinforcement learning approach for learning to navigate from disengagements, or LaND. LaND learns a neural network model that predicts which actions lead to disengagements given the current sensory observation, and then at test time plans and executes actions that avoid disengagements. Our results demonstrate LaND can successfully learn to navigate in diverse, real world sidewalk environments, outperforming both imitation learning and reinforcement learning approaches. Videos, code, and other material are available on our website https://sites.google.com/view/sidewalk-learning
翻訳日:2022-10-09 04:14:26 公開日:2020-10-09
# 人間の理性の評価と特徴付け

Evaluating and Characterizing Human Rationales ( http://arxiv.org/abs/2010.04736v1 )

ライセンス: Link先を確認
Samuel Carton, Anirudh Rathore, Chenhao Tan(参考訳) 機械生成論理の質を評価する2つの主要なアプローチは以下のとおりである。 1) 金本位制としての人間の合理性 2)モデルの振る舞いに合理性がどう影響するかに基づく自動メトリクス。 しかし、オープンな疑問は、これらの自動メトリクスが人間の理性にどう影響するかである。 さまざまなデータセットやモデルを分析した結果、人間の合理性は必ずしもこれらの指標でうまく機能しないことがわかった。 この発見を解き放つために,モデル依存のベースライン性能を考慮した改善指標を提案する。 次に,モデルのリトレーニングに基づく2つの手法と,不適切性や冗長性などの特性を明らかにするために「忠実度曲線」を用いる方法を提案する。 我々の研究は合理性を評価・特徴付けるための有効な提案に繋がる。

Two main approaches for evaluating the quality of machine-generated rationales are: 1) using human rationales as a gold standard; and 2) automated metrics based on how rationales affect model behavior. An open question, however, is how human rationales fare with these automatic metrics. Analyzing a variety of datasets and models, we find that human rationales do not necessarily perform well on these metrics. To unpack this finding, we propose improved metrics to account for model-dependent baseline performance. We then propose two methods to further characterize rationale quality, one based on model retraining and one on using "fidelity curves" to reveal properties such as irrelevance and redundancy. Our work leads to actionable suggestions for evaluating and characterizing rationales.
翻訳日:2022-10-09 04:13:04 公開日:2020-10-09
# 進化的多制約最適化における制約関係の検討

Investigating Constraint Relationship in Evolutionary Many-Constraint Optimization ( http://arxiv.org/abs/2010.04445v1 )

ライセンス: Link先を確認
Mengjun Ming, Rui Wang, Tao Zhang(参考訳) 本稿では、ペアワイズ制約間の関係を考慮した進化的多制約最適化における広範な制約の処理に寄与する。 矛盾する関係では、ある制約の関数値は、別の制約の値が減少するにつれて増加する。 調和関係において、一方の制約の改善は他方の制約の同時改善によって報われる。 独立した関係では、一方の制約に対する調整は他方の調整に影響を与えることはない。 異なる特徴に基づいて制約関係の同定方法について議論し,多制約最適化問題(MCOP)の簡易化に寄与する。 さらに、関係の推移性は、新しい一対の制約の中での関係性を決定する目的でさらに議論される。

This paper contributes to the treatment of extensive constraints in evolutionary many-constraint optimization through consideration of the relationships between pair-wise constraints. In a conflicting relationship, the functional value of one constraint increases as the value in another constraint decreases. In a harmonious relationship, the improvement in one constraint is rewarded with simultaneous improvement in the other constraint. In an independent relationship, the adjustment to one constraint never affects the adjustment to the other. Based on the different features, methods for identifying constraint relationships are discussed, helping to simplify many-constraint optimization problems (MCOPs). Additionally, the transitivity of the relationships is further discussed at the aim of determining the relationship in a new pair of constraints.
翻訳日:2022-10-09 04:12:00 公開日:2020-10-09
# 実験条件の違いでN400振幅はどの程度説明できるのか?

How well does surprisal explain N400 amplitude under different experimental conditions? ( http://arxiv.org/abs/2010.04844v1 )

ライセンス: Link先を確認
James A. Michaelov and Benjamin K. Bergen(参考訳) 我々は,人間の言語処理の難しさの神経指標であるN400を予測するために,単語susprisalがどの程度用いられるかを検討する。 これを実現するために、我々はN400の神経言語学的研究から刺激の素因を計算するためにリカレントニューラルネットワークを使用する。 我々は,N400の振幅を広範囲に予測でき,その反応の根底にある神経認知過程に関する貴重な知見を得られない症例を見出した。

We investigate the extent to which word surprisal can be used to predict a neural measure of human language processing difficulty - the N400. To do this, we use recurrent neural networks to calculate the surprisal of stimuli from previously published neurolinguistic studies of the N400. We find that surprisal can predict N400 amplitude in a wide range of cases, and the cases where it cannot do so provide valuable insight into the neurocognitive processes underlying the response.
翻訳日:2022-10-09 04:11:33 公開日:2020-10-09
# ニューラルランダム射影:初期課題から入力類似性問題へ

Neural Random Projection: From the Initial Task To the Input Similarity Problem ( http://arxiv.org/abs/2010.04555v1 )

ライセンス: Link先を確認
Alan Savushkin, Nikita Benkovich and Dmitry Golubev(参考訳) 本稿では,ニューラルネットワークを用いた入力データの類似性を評価するために,暗黙データ表現のための新しい手法を提案する。 表現に勾配を用いる従来のアプローチとは対照的に、ニューラルネットワークの最後に隠されたレイヤからの出力のみを利用し、後向きのステップを使用しない。 提案手法は初期タスクを明示的に考慮し,ベクトル表現のサイズと計算時間を大幅に削減する。 キーポイントはレイヤ間の情報損失の最小化です。 一般的に、ニューラルネットワークは、問題とは無関係な情報を破棄するので、最後の隠蔽層表現は入力類似性タスクでは役に立たない。 本研究では、ニューロン間の相関と最後の隠蔽層の大きさの不足という、情報損失の主な原因について考察する。 ニューロン間の相関を減少させるために,各層に対して直交重み初期化を行い,トレーニング中の重みの直交性を確保するために損失関数を変更する。 さらに,アクティベーション関数は相関性を高める可能性を示唆する。 この問題を解決するために,Dropout を用いたBatch-Normalization を改良した。 直交重み行列を用いることで、そのようなニューラルネットワークをランダム射影法の適用として考慮し、最後の隠蔽層の大きさの低い境界推定値を得ることができる。 MNISTと物理検査データセットの実験を行った。 どちらの実験でも、まずラベルの集合を2つの解離部分集合に分割し、二項分類問題のためにニューラルネットワークを訓練し、このモデルを用いて入力データ間の類似度を測定し、隠れクラスを定義する。 提案手法は, 計算時間と入力表現の大きさの両方を削減しつつ, 入力類似性タスクにおいて競合的な結果が得られることを示す。

In this paper, we propose a novel approach for implicit data representation to evaluate similarity of input data using a trained neural network. In contrast to the previous approach, which uses gradients for representation, we utilize only the outputs from the last hidden layer of a neural network and do not use a backward step. The proposed technique explicitly takes into account the initial task and significantly reduces the size of the vector representation, as well as the computation time. The key point is minimization of information loss between layers. Generally, a neural network discards information that is not related to the problem, which makes the last hidden layer representation useless for input similarity task. In this work, we consider two main causes of information loss: correlation between neurons and insufficient size of the last hidden layer. To reduce the correlation between neurons we use orthogonal weight initialization for each layer and modify the loss function to ensure orthogonality of the weights during training. Moreover, we show that activation functions can potentially increase correlation. To solve this problem, we apply modified Batch-Normalization with Dropout. Using orthogonal weight matrices allow us to consider such neural networks as an application of the Random Projection method and get a lower bound estimate for the size of the last hidden layer. We perform experiments on MNIST and physical examination datasets. In both experiments, initially, we split a set of labels into two disjoint subsets to train a neural network for binary classification problem, and then use this model to measure similarity between input data and define hidden classes. Our experimental results show that the proposed approach achieves competitive results on the input similarity task while reducing both computation time and the size of the input representation.
翻訳日:2022-10-09 04:11:22 公開日:2020-10-09
# ドメイン特化セマンティックモデル評価のためのトップランク焦点適応投票コレクション

Top-Rank-Focused Adaptive Vote Collection for the Evaluation of Domain-Specific Semantic Models ( http://arxiv.org/abs/2010.04486v1 )

ライセンス: Link先を確認
Pierangelo Lombardo, Alessio Boiardi, Luca Colombo, Angelo Schiavone, Nicol\`o Tamagnone(参考訳) セマンティクスモデルのドメイン固有応用の成長は、教師なし組込み学習アルゴリズムの最近の成果によって加速され、ドメイン固有評価データセットを要求する。 多くの場合、コンテンツベースのレコメンデーターが主要な例として、これらのモデルは、特定の概念に対する意味的関連性に基づいて単語やテキストをランク付けする必要がある。 この作業では、これらの要件に対処するために3倍の貢献をします。 一 利用可能な資源に合わせた関係性に基づく評価データセットの適応的な対数比較に基づいて構築のためのプロトコルを定め、上位評価において特に正確であるように最適化する。 (ii)上位階層の意義を考慮に入れ,上述のデータセットを通じて意味モデルを評価するために,適切な指標,よく知られたランキング相関係数の拡張を定義する。 最後に (iii)semantic-driven pairwise comparisonsをシミュレートする確率的推移モデルを定義し,提案するデータセット構築プロトコルの有効性を確認した。

The growth of domain-specific applications of semantic models, boosted by the recent achievements of unsupervised embedding learning algorithms, demands domain-specific evaluation datasets. In many cases, content-based recommenders being a prime example, these models are required to rank words or texts according to their semantic relatedness to a given concept, with particular focus on top ranks. In this work, we give a threefold contribution to address these requirements: (i) we define a protocol for the construction, based on adaptive pairwise comparisons, of a relatedness-based evaluation dataset tailored on the available resources and optimized to be particularly accurate in top-rank evaluation; (ii) we define appropriate metrics, extensions of well-known ranking correlation coefficients, to evaluate a semantic model via the aforementioned dataset by taking into account the greater significance of top ranks. Finally, (iii) we define a stochastic transitivity model to simulate semantic-driven pairwise comparisons, which confirms the effectiveness of the proposed dataset construction protocol.
翻訳日:2022-10-09 04:05:05 公開日:2020-10-09
# torch-points3d: 3dポイントクラウド上で再現可能なディープラーニングのためのモジュール型マルチタスクフレームワーク

Torch-Points3D: A Modular Multi-Task Frameworkfor Reproducible Deep Learning on 3D Point Clouds ( http://arxiv.org/abs/2010.04642v1 )

ライセンス: Link先を確認
Thomas Chaton, Nicolas Chaulet, Sofiane Horache, Loic Landrieu(参考訳) 我々は,深層ネットワークを利用した3dデータの利用を容易にするオープンソースフレームワークであるtorch-points3dを紹介する。 そのモジュラーデザイン、効率的な実装、ユーザーフレンドリーなインターフェースは、研究と製品化のための関連するツールになります。 われわれの目標は、複数のQOLを超えて、3Dディープラーニング研究における透明性と再現性の向上を標準化し、参入障壁を低くすることである。 本稿では、torch-points3dの設計原則と、複数の最先端アルゴリズムと複数のデータセットとタスクにわたる推論スキームの広範なベンチマークについて述べる。 Torch-Points3Dのモジュラリティにより、全てのメソッドが同じ条件で評価される公平で厳密な実験プロトコルを設計できる。 Torch-Points3Dリポジトリ :https://github.com/nicolas-chaulet/torch-points3d

We introduce Torch-Points3D, an open-source framework designed to facilitate the use of deep networks on3D data. Its modular design, efficient implementation, and user-friendly interfaces make it a relevant tool for research and productization alike. Beyond multiple quality-of-life features, our goal is to standardize a higher level of transparency and reproducibility in 3D deep learning research, and to lower its barrier to entry. In this paper, we present the design principles of Torch-Points3D, as well as extensive benchmarks of multiple state-of-the-art algorithms and inference schemes across several datasets and tasks. The modularity of Torch-Points3D allows us to design fair and rigorous experimental protocols in which all methods are evaluated in the same conditions. The Torch-Points3D repository :https://github.com/nicolas-chaulet/torch-points3d
翻訳日:2022-10-09 04:04:47 公開日:2020-10-09
# 不均衡データを扱う:バイナリクラス問題に対するケーススタディ

Handling Imbalanced Data: A Case Study for Binary Class Problems ( http://arxiv.org/abs/2010.04326v1 )

ライセンス: Link先を確認
Richmond Addo Danquah(参考訳) これまでの数年間、分類問題の解決における主要な問題は、不均衡データの問題である。 機械学習アルゴリズムの大部分がデフォルトですべてのデータがバランスが取れていると仮定しているため、アルゴリズムはデータサンプルクラスの分布を考慮していない。 結果は満足できない傾向にあり、大多数のサンプルクラス分布に偏っている。 これは、データの不均衡を処理せずに不均衡データを使用して構築されたモデルを使用することによる結果が、実際と理論の両方において誤解を招く可能性があることを意味する。 多くの研究者は、合成的マイノリティオーバーサンプリング技術(smote)と適応的合成(adasyn)サンプリング手法の適用に注目しており、これらの手法の背後にあるアルゴリズムを計算された例で説明できていない。 本稿では,合成オーバーサンプリング技術と手動で合成データポイントを計算することで,アルゴリズムの理解を深める。 我々は,これらの合成オーバーサンプリング手法を,不均衡比とサンプルサイズが異なる二項分類問題に適用する。

For several years till date, the major issues in terms of solving for classification problems are the issues of Imbalanced data. Because majority of the machine learning algorithms by default assumes all data are balanced, the algorithms do not take into consideration the distribution of the data sample class. The results tend to be unsatisfactory and skewed towards the majority sample class distribution. This implies that the consequences as a result of using a model built using an Imbalanced data without handling for the Imbalance in the data could be misleading both in practice and theory. Most researchers have focused on the application of Synthetic Minority Oversampling Technique (SMOTE) and Adaptive Synthetic (ADASYN) Sampling Approach in handling data Imbalance independently in their works and have failed to better explain the algorithms behind these techniques with computed examples. This paper focuses on both synthetic oversampling techniques and manually computes synthetic data points to enhance easy comprehension of the algorithms. We analyze the application of these synthetic oversampling techniques on binary classification problems with different Imbalanced ratios and sample sizes.
翻訳日:2022-10-09 04:04:31 公開日:2020-10-09
# CryptoCredit: フェアモデルのセキュアなトレーニング

CryptoCredit: Securely Training Fair Models ( http://arxiv.org/abs/2010.04840v1 )

ライセンス: Link先を確認
Leo de Castro and Jiahao Chen and Antigoni Polychroniadou(参考訳) 意思決定を規制するモデルを開発する場合、年齢、人種、性別といった繊細な機能は使用できず、バイアスを避けるためにモデル開発者から曖昧にされなければならない。 しかし、残りの機能は、感度の高い機能との相関性をテストする必要がある。 モデル開発者が線形回帰モデルとロジスティック回帰モデルをトレーニングし、明快な特徴を明かすことなく、可能なバイアスをテストできるように、完全に準同型な暗号化スキームを使ってこのジレンマを解決します。 そこで本研究では,回帰テストの実施方法を実証し,本手法が実用的であることを成人所得データを用いて示す。

When developing models for regulated decision making, sensitive features like age, race and gender cannot be used and must be obscured from model developers to prevent bias. However, the remaining features still need to be tested for correlation with sensitive features, which can only be done with the knowledge of those features. We resolve this dilemma using a fully homomorphic encryption scheme, allowing model developers to train linear regression and logistic regression models and test them for possible bias without ever revealing the sensitive features in the clear. We demonstrate how it can be applied to leave-one-out regression testing, and show using the adult income data set that our method is practical to run.
翻訳日:2022-10-09 04:03:03 公開日:2020-10-09
# マルチタスクと連続学習における線形モード接続

Linear Mode Connectivity in Multitask and Continual Learning ( http://arxiv.org/abs/2010.04495v1 )

ライセンス: Link先を確認
Seyed Iman Mirzadeh, Mehrdad Farajtabar, Dilan Gorur, Razvan Pascanu, Hassan Ghasemzadeh(参考訳) 連続(逐次)のトレーニングとマルチタスク(同時)のトレーニングは、しばしば同じ全体的な目的を解決しようとする。 トレーニング体制の主な違いは、連続的な学習が一度にひとつのタスクにしかアクセスできないことにある。 つまり、次のタスクで見つかるソリューションは、もはや以前のタスクではうまく動作しません。 しかし、2つの訓練体制が到達した異なるミニマの関係はよく理解されていない。 なぜ違うのか? 2つの異なるスキームによって達成されるパフォーマンスの違いを説明することのできるローカルな構造はありますか? 最近の研究で、同じタスクの異なるミニマが典型的には低誤差の非常に単純な曲線で連結していることが示され、マルチタスクと連続解が同様に連結であるかどうかを考察する。 我々は、実際にそのような接続は確実に達成でき、さらに興味深いことに、両方に同じ初期化を条件に、線形パスによって実現可能であることを実証的に見出した。 この観察を徹底的に分析し,継続的な学習プロセスにおけるその意義について考察する。 さらに,この知見を活かして,逐次学習したミニマをマルチタスクソリューションとして振る舞うように制約する効果的なアルゴリズムを提案する。 本手法は,様々な視覚ベンチマークにおいて,最先端の連続学習アルゴリズムよりも優れていることを示す。

Continual (sequential) training and multitask (simultaneous) training are often attempting to solve the same overall objective: to find a solution that performs well on all considered tasks. The main difference is in the training regimes, where continual learning can only have access to one task at a time, which for neural networks typically leads to catastrophic forgetting. That is, the solution found for a subsequent task does not perform well on the previous ones anymore. However, the relationship between the different minima that the two training regimes arrive at is not well understood. What sets them apart? Is there a local structure that could explain the difference in performance achieved by the two different schemes? Motivated by recent work showing that different minima of the same task are typically connected by very simple curves of low error, we investigate whether multitask and continual solutions are similarly connected. We empirically find that indeed such connectivity can be reliably achieved and, more interestingly, it can be done by a linear path, conditioned on having the same initialization for both. We thoroughly analyze this observation and discuss its significance for the continual learning process. Furthermore, we exploit this finding to propose an effective algorithm that constrains the sequentially learned minima to behave as the multitask solution. We show that our method outperforms several state of the art continual learning algorithms on various vision benchmarks.
翻訳日:2022-10-09 04:02:28 公開日:2020-10-09
# 音声言語理解のためのスタイル調整事前学習とパラメータ最適化

Style Attuned Pre-training and Parameter Efficient Fine-tuning for Spoken Language Understanding ( http://arxiv.org/abs/2010.04355v1 )

ライセンス: Link先を確認
Jin Cao, Jun Wang, Wael Hamza, Kelly Vanee, Shang-Wen Li(参考訳) ニューラルモデルは、音声言語理解(SLU)問題の解読に最先端の結果をもたらすが、これらのモデルは、トレーニングにかなりの量のドメイン固有のラベル付き例を必要とする。 BERTのような事前学習された言語モデルは、ラベルのないコーパスから学習してSLUを解くことで膨大な量の知識を捉えることが示されているが、知識の符号化は暗黙的であり、下流のタスクに非依存である。 このようなエンコーディングはパラメータの使用においてモデルの非効率をもたらす: ドメインごとに全く新しいモデルが必要である。 これらの課題に対処するために,clm(conversational language modeling)事前学習タスクとライトエンコーダアーキテクチャからなる新しいsluフレームワークを提案する。 CLM事前トレーニングでは、ASRエラーの存在下で会話スタイルで言語表現をキャプチャすることができる。 光エンコーダアーキテクチャは、共有事前学習されたネットワークを、一般に符号化された知識のマッピングからSLUの特定のドメインに分離し、光エンコーダのみでドメイン適応を行うことができ、効率が向上する。 このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット(ATIS、SNIPS)上での最先端のSLU結果のパフォーマンスにマッチし、タスク毎に4.4%のパラメータしか追加できません。

Neural models have yielded state-of-the-art results in deciphering spoken language understanding (SLU) problems; however, these models require a significant amount of domain-specific labeled examples for training, which is prohibitively expensive. While pre-trained language models like BERT have been shown to capture a massive amount of knowledge by learning from unlabeled corpora and solve SLU using fewer labeled examples for adaption, the encoding of knowledge is implicit and agnostic to downstream tasks. Such encoding results in model inefficiencies in parameter usage: an entirely new model is required for every domain. To address these challenges, we introduce a novel SLU framework, comprising a conversational language modeling (CLM) pre-training task and a light encoder architecture. The CLM pre-training enables networks to capture the representation of the language in conversation style with the presence of ASR errors. The light encoder architecture separates the shared pre-trained networks from the mappings of generally encoded knowledge to specific domains of SLU, allowing for the domain adaptation to be performed solely at the light encoder and thus increasing efficiency. With the framework, we match the performance of state-of-the-art SLU results on Alexa internal datasets and on two public ones (ATIS, SNIPS), adding only 4.4% parameters per task.
翻訳日:2022-10-09 03:54:10 公開日:2020-10-09
# Mark-Evaluate: 人口推定法による言語生成の評価

Mark-Evaluate: Assessing Language Generation using Population Estimation Methods ( http://arxiv.org/abs/2010.04606v1 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido and Christoph Meinel(参考訳) 本研究では,生態学において広く用いられている集団推定法に基づく言語生成を評価するための指標群を提案する。 より具体的には、過去数十年にわたって適用されてきたマークキャプチャーと最大様相の手法を用いて、野生の閉鎖人口の大きさを推定する。 本稿では,1つの評価値を取得するME$_\text{Petersen}$とME$_\text{CAPTURE}$と2つの評価値を返すME$_\text{Schnabel}$という3つの新しい指標を提案する。 合成実験では、我々の手法は品質と多様性の低下に敏感である。 さらに,本手法は,非条件言語生成,機械翻訳,テキスト要約など,いくつかの課題における既存の指標よりも高い相関関係を示す。

We propose a family of metrics to assess language generation derived from population estimation methods widely used in ecology. More specifically, we use mark-recapture and maximum-likelihood methods that have been applied over the past several decades to estimate the size of closed populations in the wild. We propose three novel metrics: ME$_\text{Petersen}$ and ME$_\text{CAPTURE}$, which retrieve a single-valued assessment, and ME$_\text{Schnabel}$ which returns a double-valued metric to assess the evaluation set in terms of quality and diversity, separately. In synthetic experiments, our family of methods is sensitive to drops in quality and diversity. Moreover, our methods show a higher correlation to human evaluation than existing metrics on several challenging tasks, namely unconditional language generation, machine translation, and text summarization.
翻訳日:2022-10-09 03:53:28 公開日:2020-10-09
# マルチチャネル生成言語モデル:チャネル内およびチャネル間における可能なすべての因子化の学習

Multichannel Generative Language Model: Learning All Possible Factorizations Within and Across Channels ( http://arxiv.org/abs/2010.04438v1 )

ライセンス: Link先を確認
Harris Chan, Jamie Kiros, William Chan(参考訳) チャネルは、基礎となる意味の視点または変換に対応する。 英語とフランス語のパラレルな文は、同じ意味を表現しているが、それぞれの言語に対応する2つの異なるチャンネルを通して表現される。 本稿では,多チャンネル生成言語モデル(MGLM)を提案する。 MGLMはチャネル上の生成結合分布モデルである。 MGLMは、全てのチャネル内および至る所で可能なすべての因数分解をマーシャリゼーションする。 mglmは、無条件生成、条件生成(1チャンネルが観測され、他のチャネルが生成される)、および部分的に観測された生成(不完全な観測が全てのチャネルに広がる)を含む柔軟な推論を行う。 英語、フランス語、チェコ語、ドイツ語を含むMulti30Kデータセットを実験した。 非条件, 条件, 部分条件生成による実験を実演する。 生成ジョイント分布から無条件にサンプリングした質的サンプルを提供する。 また、品質多様性のトレードオフを定量的に分析し、MGLMが従来のバイリンガル識別モデルより優れていることを示す。

A channel corresponds to a viewpoint or transformation of an underlying meaning. A pair of parallel sentences in English and French express the same underlying meaning, but through two separate channels corresponding to their languages. In this work, we present the Multichannel Generative Language Model (MGLM). MGLM is a generative joint distribution model over channels. MGLM marginalizes over all possible factorizations within and across all channels. MGLM endows flexible inference, including unconditional generation, conditional generation (where 1 channel is observed and other channels are generated), and partially observed generation (where incomplete observations are spread across all the channels). We experiment with the Multi30K dataset containing English, French, Czech, and German. We demonstrate experiments with unconditional, conditional, and partially conditional generation. We provide qualitative samples sampled unconditionally from the generative joint distribution. We also quantitatively analyze the quality-diversity trade-offs and find MGLM outperforms traditional bilingual discriminative models.
翻訳日:2022-10-09 03:52:58 公開日:2020-10-09