このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200319となっている論文です。

PDF登録状況(公開日: 20200319)

TitleAuthorsAbstract論文公表日・翻訳日
# 共変高調波発振器問題に対する明示的波動関数を持つフォック状態の完全集合の解析

Analysis on Complete Set of Fock States with Explicit Wavefunctions for the Covariant Harmonic Oscillator Problem ( http://arxiv.org/abs/2002.08467v2 )

ライセンス: Link先を確認
Suzana Bedi\'c and Otto C. W. Kong(参考訳) 初期のローレンツ共変高調波発振器の処理は、フルフォック空間とのローレンツ対称性の整合やそれらの汎函数表現の発散問題など、様々な困難に照らされた。 これらの問題を避けるための完全な解決策をここで提示する。 フォック状態の完全集合は、対応する明示的波動関数とそれらの内積積分とともに、任意の発散問題から解放され、ローレンツ対称性は追加の制約を課さずに完全に維持される。 ローレンツ群の表現としてのミンコフスキー時空の観点から動機付けられた、基礎となる対称性群の擬ユニタリ表現の単純な選択により、一般に定式化されておらず、注意深い詳細で示されてはいるものの、自然な非ユニタリフォック空間像が得られる。 ローレンツ対称性の有限次元既約表現の適切な基底状態波動関数の直接導出から、後者とフォック状態波動関数の関係も明示的に示される。 さらに、非正のノルムを持つ状態を含む全体像は、ローレンツ共変量子力学のバージョンとして一貫した物理像を与えることができる。 通常のフォン・ノイマン測度に対する確率解釈は問題ではなく、すべての波動関数が 'time' 変数の定値に制限されているのは、通常の時間独立量子力学のそれと同じである。 相空間のシンプレクティック幾何学からのダイナミクスの観点からのさらなる理解は、まもなく議論される。

The earlier treatments of Lorentz covariant harmonic oscillator have brought to light various difficulties, such as reconciling Lorentz symmetry with the full Fock space, and divergence issues with their functional representations. We present here a full solution avoiding those problems. The complete set of Fock states is obtained, together with the corresponding explicit wavefunction and their inner product integrals free from any divergence problem and the Lorentz symmetry fully maintained without additional constraints imposed. By a simple choice of the pseudo-unitary representation of the underlying symmetry group, motivated from the perspective of the Minkowski spacetime as a representation for the Lorentz group, we obtain the natural non-unitary Fock space picture commonly considered though not formulated and presented in the careful details given here. From a direct derivation of the appropriate basis state wavefunctions of the finite-dimensional irreducible representations of the Lorentz symmetry, the relation between the latter and the Fock state wavefunctions is also explicitly shown. Moreover, the full picture including the states with non-positive norm may give consistent physics picture as a version of Lorentz covariant quantum mechanics. Probability interpretation for the usual von Neumann measurements is not a problem as all wavefunctions restricted to a definite value for the `time' variable are just like those of the usual time independent quantum mechanics. A further understanding from a perspective of the dynamics from the symplectic geometry of the phase space is shortly discussed.
翻訳日:2023-06-04 18:26:07 公開日:2020-03-19
# 二次駆動型kerr共振器の古典臨界ダイナミクス

Classical critical dynamics in quadratically driven Kerr resonators ( http://arxiv.org/abs/2002.06174v2 )

ライセンス: Link先を確認
Wouter Verstraelen and Michiel Wouters(参考訳) 二光子駆動を持つ駆動散逸性ケラ格子は、ここで研究されたパラメータ系に対する熱イジングモデルの普遍性クラスに属する対称性を破る相転移を示す実験系として知られている。 本研究では,このシステムの有限サイズのスケーリングを行い,動的臨界指数は古典シミュレーションにおけるメトロポリスダイナミクスに対応する$z\approx2.18$と適合することが判明した。 さらに、リウヴィリアンギャップは同じ指数でスケールし、閉じた系の量子相転移におけるハミルトニアンギャップのスケーリングと同様であることを示した。

Driven-dissipative kerr lattices with two-photon driving are experimentally relevant systems known to exhibit a symmetry-breaking phase transition, which belongs to the universality class of the thermal Ising model for the parameter regime studied here. In this work, we perform finite-size scaling of this system as it is quenched to the transition and the dynamical critical exponent is found to be compatible with $z\approx2.18$ corresponding with metropolis dynamics in classical simulations. Furthermore, we show that the Liouvillian gap scales with the same exponent, similar to scaling of the Hamiltonian gap at quantum phase transitions in closed systems.
翻訳日:2023-06-03 16:52:54 公開日:2020-03-19
# 可変アモルファス超電導材料と予測不可能な量子デバイス

Flexible Amorphous Superconducting Materials and Quantum Devices with Unexpected Tunability ( http://arxiv.org/abs/2002.10297v2 )

ライセンス: Link先を確認
Mohammad Suleiman, Emanuele G. Dalla Torre and Yachin Ivry(参考訳) 超伝導では、電子は現代の多くの量子技術の鍵となるユニークなマクロ的な集合量子挙動を示す。 この電子の挙動は、物質中の原子の相関運動への結合と、外部磁場を完全に遮蔽する同期された方向運動から大きく生じる。 したがって、原子間距離と物質幾何は基本的な超伝導特性に影響を与えることが期待される。 これらのパラメータはひずみで調整できるが、超伝導体の剛性によって歪の応用が妨げられ、デバイス関連温度で増加する。 ここでは、フレキシブルな接着テープ上に超伝導アモルファス合金膜を堆積させることにより、フレキシブルで折り畳み可能な超伝導材料と機能性量子ナノ構造を示す。 具体的には、フレキシブル超伝導膜、ナノワイヤおよび量子干渉デバイス(squid)を、磁場、電流、温度および曲げ条件で作製した。 単一のフラックス量子を表すSQUID干渉周期性は、折りたたみ曲率で予期せぬチューニング性を示す。 このチューナビリティは、主に幾何学、磁場不均一性、ひずみの影響について、超伝導の基礎を再検討する必要がある。 我々の研究は、新しい磁気デバイスと、局所的な調整性を備えた量子テクノロジープラットフォームへの道を開いた。

In superconductivity, electrons exhibit unique macroscopic collective quantum behavior that is the key for many modern quantum technologies. This electron behavior stems vastly from coupling to a correlated motion of atoms in the material, as well as from synchronized directional movement that screens external magnetic fields perfectly. Hence, the inter-atomic distance and material geometry are expected to affect fundamental superconductive characteristics. These parameters are tunable with strain, but strain application is hindered by the rigidity of superconductors, which in turn increases at device-relevant temperatures. Here, we present flexible, foldable and transferable superconducting materials, and functional quantum nanostructures by depositing superconductive amorphous-alloy films on a flexible adhesive tape. Specifically, flexible superconducting films, nanowires and quantum interference devices (SQUIDs) were fabricated and characterized under variable magnetic-field, current, temperature and flexure conditions. The SQUID interference periodicity, which represents a single flux quantum, exhibits unexpected tunability with folding curvature. This tunability raises a need for a relook at the fundamentals of superconductivity, mainly with respect to effects of geometry, magnetic-field inhomogeneity and strain. Our work paves the way for novel magnetic devices and quantum-technology platforms with local tunability.
翻訳日:2023-06-02 05:17:56 公開日:2020-03-19
# qcpb理論における環境変数に基づくハイゼンベルクの不確かさ関係の修正

A revision for Heisenberg uncertainty relation based on environment variable in the QCPB theory ( http://arxiv.org/abs/2003.07203v2 )

ライセンス: Link先を確認
Gen Wang(参考訳) EPRは、量子力学は現実の不完全な記述であると主張した。 これまでのところ、ハイゼンベルクの不確実性原理とその拡張は、より優れた近似推定を保持する不等式であり、正確な推定と環境変数はいかなる公式にも現れていない。 不確実性原理に制約された可観測量の不確定性を持つ。 この問題は、量子力学の下に深い現実が隠されているかどうかを、各測定の結果を常に確実性で予測できるより基本的な理論によって説明するために、QCPBがこの問題に答えようとしている。 QCPB理論の結果として、量子幾何性関係(QGR)と呼ばれる等式を幾何的に提案し、基本理論QCPBに基づく不確実性関係を修正し、各測定の結果を確実性で予測する現実の完全な記述を正に与え、一方、不確実性関係は、この量子幾何的確実性等式からの導出にすぎない。 様々な数学的または物理的構造を持つ異なる多様体の量子等式の測定を扱う。 そこで, 環境変数をQCPBの幾何学構造関数として考慮し, 環境変数を物理過程に結合することにより, 環境問題を自然に解決した。 観測可能環境と環境の間に絡み合い項が存在することを示す。 実際、QCPBは環境が避けられない影響を引き起こす測定にどのように影響するかをうまく説明しています。 逆に、量子力学は不完全である。 当然のことながら、QCPBはそうした現実を完全に記述するための新しい方法である。

The EPR argued that quantum mechanics is an incomplete description of reality. So far, the Heisenberg uncertainty principle and its extensions are all still inequalities form which hold the superior approximate estimations, a precise estimation and environmental variables have never appeared in any formula. With the indeterminism of observable quantities constrained by the uncertainty principle. The question arises whether there might be some deeper reality hidden beneath quantum mechanics, to be described by a more fundamental theory that can always predict the outcome of each measurement with certainty, this paper by using the QCPB attempts to answer this question. As a result of the QCPB theory, we geometrically propose an equality called quantum geomertainty relation (QGR) to modify the uncertainty relation based on the fundamental theory QCPB to positively give a complete description of reality that predicts the outcome of each measurement with certainty, meanwhile, the uncertainty relation is just a derivation from this quantum geometric certainty equality. It deals with the measurement in quantum equality for different manifolds equipped with various mathematical or physical structure. Accordingly, the environment joins the physical process, by taking environment variable as a geometric structure function in the QCPB into consideration, it has naturally solved the environment problem for the measurements. We demonstrate that entanglement term exists between the observable and the environment. Actually, the QCPB nicely explains how the environment has an effect on the measurement which causes the unavoidable influences. Conversely, we state that quantum mechanics is incomplete assuredly. Doubtlessly, the QCPB is surely a new way for such complete description of reality.
翻訳日:2023-05-29 06:15:12 公開日:2020-03-19
# ガウスプローブを用いた2つの共役パラメータ推定のためのアクセシブル精度

Accessible precisions for estimating two conjugate parameters using Gaussian probes ( http://arxiv.org/abs/2003.07095v2 )

ライセンス: Link先を確認
Syed M. Assad, Jiamin Li, Yuhong Liu, Ningbo Zhao, Wen Zhao, Ping Koy Lam, Z. Y. Ou, Xiaoying Li(参考訳) ガウスプローブを用いた変位チャネル内の共役パラメータの同時推定のための精度限界の解析を行った。 初期資源として一組のスクイズド状態を持ち、チャネルを探索する前にリソース上でパッシブリニア操作のみを許可した場合に、最高の達成可能な推定精度を調べるために、holevo cram\'er-rao を計算します。 解析により最適測定方式が明らかになり,第2共役パラメータの精度が固定されたときに,1つのパラメータの最適精度を定量化することができる。 共役パラメータ対を等しい精度で推定するために,50:50ビームスプリッタ上の2つのスクイーズ状態と直交スクイーズ二次値を組み合わせた最適プローブが得られた。 各パラメータに異なる重要性が付加される場合、最適混合比は50:50未満となる。 代わりに、利用可能なスクイーズと2つのパラメータ間の相対的重要性の単純な関数に従う。

We analyse the precision limits for simultaneous estimation of a pair of conjugate parameters in a displacement channel using Gaussian probes. Having a set of squeezed states as an initial resource, we compute the Holevo Cram\'er-Rao bound to investigate the best achievable estimation precisions if only passive linear operations are allowed to be performed on the resource prior to probing the channel. The analysis reveals the optimal measurement scheme and allows us to quantify the best precision for one parameter when the precision of the second conjugate parameter is fixed. To estimate the conjugate parameter pair with equal precision, our analysis shows that the optimal probe is obtained by combining two squeezed states with orthogonal squeezing quadratures on a 50:50 beam splitter. If different importance are attached to each parameter, then the optimal mixing ratio is no longer 50:50. Instead it follows a simple function of the available squeezing and the relative importance between the two parameters.
翻訳日:2023-05-29 00:35:13 公開日:2020-03-19
# 量子センサのクラスの能力について

On the capability of a class of quantum sensors ( http://arxiv.org/abs/2003.08679v1 )

ライセンス: Link先を確認
Qi Yu, Yuanlong Wang, Daoyi Dong, Ian R. Petersen(参考訳) 量子センサーは、量子または古典物理システムにおいて重要な情報を抽出するための非常に高い感度と精度を提供する。 根本的な問題は、量子センサの所定の構造とセンサ上の許容可能な測定のためのシステムにおいて、未知のパラメータを一意に推論できるかどうかである。 本稿では,単一の量子ビットまたは2つの量子ビットからなる量子センサの能力について検討する。 量子センサはスピンチェーンシステムに結合され、システム内の未知のパラメータに関する情報を抽出する。 初期化・測定方式を与えられた場合, 1量子ビット量子センサでは2量子ビット量子センサでは未知のパラメータを効果的に推定できないことを証明するため, 類似性変換法とグロブナー基底法を用いる。 この研究は、量子センサーの量子ビット数を増加させることで、量子センサーの能力を高めるための実現可能な方法であることを実証している。

Quantum sensors may provide extremely high sensitivity and precision to extract key information in a quantum or classical physical system. A fundamental question is whether a quantum sensor is capable of uniquely inferring unknown parameters in a system for a given structure of the quantum sensor and admissible measurement on the sensor. In this paper, we investigate the capability of a class of quantum sensors which consist of either a single qubit or two qubits. A quantum sensor is coupled to a spin chain system to extract information of unknown parameters in the system. With given initialisation and measurement schemes, we employ the similarity transformation approach and the Grobner basis method to prove that a single-qubit quantum sensor cannot effectively estimate the unknown parameters in the spin chain system while the two-qubit quantum sensor can. The work demonstrates that it is a feasible method to enhance the capability of quantum sensors by increasing the number of qubits in the quantum sensors for some practical applications.
翻訳日:2023-05-28 18:02:00 公開日:2020-03-19
# スカラー粒子の1+3次元における特異光円錐相互作用

Singular light cone interactions of scalar particles in 1+3 dimensions ( http://arxiv.org/abs/2003.08677v1 )

ライセンス: Link先を確認
Matthias Lienert and Markus N\"oth(参考訳) ここでは、ボソン交換ではなく、光円錐に沿って直接相互作用するスカラー粒子の固定数を記述する積分方程式を、ベーテ・サルペーター方程式のような有界状態方程式と同様に考える。 この方程式は多重時間波動関数 $\psi(x_1,...,x_N)$ と $x_i=(t_i,\mathbf{x}_i) \in \mathbb{R}^4$ を重要な概念とする。 時間のカットオフを仮定すると、最初の時点ですべてのデータに対してユニークなソリューションがあることを証明します。 このカットオフは、時空対称性に違反することなく初期時間が自然に発生するビッグバン特異点を持つ特定の曲線時空に対する積分方程式を考えることによって正当化される。 我々の研究の主な特徴は、光円錐に沿ったデルタ分布に反映されたミンコフスキー距離で相互作用が起こるという非常に特異なケースを扱っていることである。 また、その存在と特異性は任意の数$N \geq 2$の粒子へと拡張する。 全体として、1+3次元の相互作用する相対論的量子力学の厳密な例を示す。

Here we consider an integral equation describing a fixed number of scalar particles which interact not through boson exchange but directly along light cones, similarly as in bound state equations such as the Bethe-Salpeter equation. The equation involves a multi-time wave function $\psi(x_1,...,x_N)$ with $x_i=(t_i,\mathbf{x}_i) \in \mathbb{R}^4$ as a crucial concept. Assuming a cutoff in time, we prove that it has a unique solution for all data at the initial time. The cutoff is justified by considering the integral equation for a particular curved spacetime with a Big Bang singularity where an initial time occurs naturally without violating any spacetime symmetries. The main feature of our work is that we treat the highly singular case that interactions occur exactly at zero Minkowski distance, reflected by a delta distribution along the light cone. We also extend the existence and uniqueness result to an arbitrary number $N \geq 2$ of particles. Overall, we provide a rigorous example for a certain type of interacting relativistic quantum dynamics in 1+3 spacetime dimensions.
翻訳日:2023-05-28 18:01:34 公開日:2020-03-19
# heisenberg-weyl observables を用いた oam トモグラフィ

OAM tomography with Heisenberg-Weyl observables ( http://arxiv.org/abs/2003.08668v1 )

ライセンス: Link先を確認
Alexandra Maria Palici, Tudor-Alexandru Isdraila, Stefan Ataman, Radu Ionicioiu(参考訳) 軌道角運動量(OAM)を持つ光子は優れた量子ビットであり、長距離量子通信、$d$Dのテレポーテーション、高分解能イメージング、メトロジーなど様々な用途で広く利用されている。 これらのプロトコルはすべて、空間光変調器とモードフィルタを含む複雑な測定を必要とするOAM状態を特徴づけるために量子トモグラフィーに依存している。 oam状態の測定と特性化を単純化するために、最近のトモグラフィープロトコル [asadian et al., \pra {\bf 94}, 010301 (2016)] を適用する。 次元$d$次元のOAMトモグラフィーのスキームでは、モード量子ビット(つまり2次元システム)上の一連の測定しか必要としない。 これは、OAM状態上で一般化されたパウリ演算子を$X_d, Z_d$で実行する能力によって、OAM測定の現在の複雑さを置き換える。 我々のスキームは原則として他の自由度に適応することができ、より複雑なquditトモグラフィへの道を開くことができる。

Photons carrying orbital angular momentum (OAM) are excellent qudits and are widely used in several applications, such as long distance quantum communication, $d$-dimensional teleportation and high-resolution imaging and metrology. All these protocols rely on quantum tomography to characterise the OAM state, which currently requires complex measurements involving spatial light modulators and mode filters. To simplify the measurement and characterisation of OAM states, here we apply a recent tomography protocol [Asadian et al., \pra {\bf 94}, 010301 (2016)]. Our scheme for OAM tomography in $d$ dimensions requires only a set of measurements on a mode qubit, i.e., a 2-dimensional system. This replaces the current complexity of OAM measurements by the ability to perform generalized Pauli operators $X_d, Z_d$ on OAM states. Our scheme can be adapted in principle to other degrees of freedom, thus opening the way for more complex qudit tomography.
翻訳日:2023-05-28 18:01:16 公開日:2020-03-19
# 量子絡み合いの分布:原理と応用

Distribution of quantum entanglement: Principles and applications ( http://arxiv.org/abs/2003.08657v1 )

ライセンス: Link先を確認
Tanjung Krisnanda(参考訳) 量子エンタングルメント(quantum entanglement)は、現在量子情報と通信科学において重要な部分となっている量子粒子間の相関の形式である。 例えば、量子暗号、量子テレポーテーション、量子コンピューティングなどの量子処理タスクを有効にまたは強化することが示されている。 しかし、量子エンタングルメントは環境散乱体との相互作用によってデコヒーレンスを起こしやすいため、高価な資源となる。 したがって、その創造を理解することが重要である。 私たちは、分離している主粒子間で量子の絡み合いを分散したいという状況に注意を向けています。 この場合、それらの間を通信するか、連続的に通信する補助的なシステムを使う必要がある。 Cubittらによれば、エンタングルメントを分散するためには、アシラリー系を主粒子と絡めてはならない。 これは、連接粒子の場合において実験的に実証されており、分散エンタングルメント上の境界が連接量子不協和によって与えられることが現在知られている。 一方で、自然界に豊富に存在するにもかかわらず、連続的な相互作用を伴う設定についてはほとんど理解されていない。 この論文の主な焦点は、アシラリー粒子との連続的な相互作用を通じて量子絡み合いの分布を研究することである。 本稿では, 絡み合い分布に必要な条件, 分散量に関連する要因, 最大絡み合いゲインを達成するための速度限界について述べる。 最後に、私たちの仕事から利益を享受できる注目すべきアプリケーションをいくつか紹介します。 これには、光学鏡の量子的性質、光合成生物、重力相互作用の間接的な探索が含まれる。

Quantum entanglement is a form of correlation between quantum particles that has now become a crucial part in quantum information and communication science. For example, it has been shown to enable or enhance quantum processing tasks such as quantum cryptography, quantum teleportation, and quantum computing. However, quantum entanglement is prone to decoherence as a result of interactions with environmental scatterers, making it an expensive resource. Therefore, it is crucial to understand its creation. We centre our attention to a situation where one would like to distribute quantum entanglement between principal particles that are apart. In this case, it is necessary to use ancillary systems that are communicated between them or interact with them continuously. Cubitt et al. showed that the ancillary systems need not be entangled with the principal particles in order to distribute entanglement. This has been demonstrated experimentally in the case of communicated ancillary particles and it is now known that the bound on the distributed entanglement is given by a communicated quantum discord. On the other hand, little is understood about the setting with continuous interactions, despite its abundant occurrence in nature. The main focus of this thesis is to study the distribution of quantum entanglement via continuous interactions with ancillary particles, which I will call mediators. I will present my work regarding the necessary conditions for entanglement distribution, the factors that are relevant for the distributed amount, and the speed limit to achieving maximum entanglement gain. Finally, I present some notable applications that can benefit from our work. This includes, among others, indirect probing of the quantum nature of optomechanical mirrors, photosynthetic organisms, and gravitational interactions.
翻訳日:2023-05-28 18:00:57 公開日:2020-03-19
# コインレス離散時間量子ウォークにおける2次位相絶縁体

Second-order topological insulator in a coinless discrete-time quantum walk ( http://arxiv.org/abs/2003.08637v1 )

ライセンス: Link先を確認
Ya Meng, Gang Chen, and Suotang Jia(参考訳) 高階位相絶縁体は、エキゾチックなバルク境界対応原理を示すだけでなく、量子コンピューティングにおいて重要な応用を持つ。 しかし、量子ウォークでは達成されていない。 本稿では,ゼロ次元のコーナー状態を持つ2次位相絶縁体をシミュレートするために,コインレス離散時間量子ウォークを構築する。 コーナー状態とエッジ状態の両方が、多段階離散時間量子ウォーク後のウォーカーの確率分布を通して観測できることを示す。 さらに,静的障害を導入することで,位相的コーナー状態のロバスト性を示す。 最後に,この離散時間量子ウォークを3次元集積フォトニック回路で実現するための実験的実装を提案する。 本研究は離散時間量子ウォークを用いたエキゾチックな高次位相問題を探索するための新しい経路を提供する。

Higher-order topological insulators not only exhibit exotic bulk-boundary correspondence principle, but also have an important application in quantum computing. However, they have never been achieved in quantum walk. In this paper, we construct a two-dimensional coinless discrete-time quantum walk to simulate second-order topological insulator with zero-dimensional corner states. We show that both of the corner and edge states can be observed through the probability distribution of the walker after multi-step discrete-time quantum walks. Furthermore, we demonstrate the robustness of the topological corner states by introducing the static disorder. Finally, we propose a possible experimental implementation to realize this discrete-time quantum walk in a three-dimensional integrated photonic circuits. Our work offers a new route to explore exotic higher-order topological matters using discrete-time quantum walks.
翻訳日:2023-05-28 18:00:30 公開日:2020-03-19
# 非マルコフ量子系における減衰率関数の逆系同定法

An inverse-system method for identification of damping rate functions in non-Markovian quantum systems ( http://arxiv.org/abs/2003.08617v1 )

ライセンス: Link先を確認
Shibei Xue, Lingyu Tan, Rebing Wu, Min Jiang, Ian R. Petersen(参考訳) 複雑な量子環境の同定は量子工学の核であり、量子システムの正確な制御を目的として体系的に環境モデルを構築している。 本稿では,非マルコフ環境を記述する減衰率関数を時間畳み込みなしマスター方程式で同定する逆系法を提案する。 環境に関する情報にアクセスするため、有限レベル量子システムを環境に結合し、システムの局所観測可能量の時間トレースを測定する。 十分な測定結果を用いて、異なる散逸チャネルに対して複数の減衰率関数を同時に推定できるアルゴリズムを設計する。 さらに、減衰率関数の識別性はシステムの可逆性に対応し、識別性に必要な条件も与えられることを示した。 本手法の有効性は,原子および3スピン鎖非マルコフ系の例で示される。

Identification of complicated quantum environments lies in the core of quantum engineering, which systematically constructs an environment model with the aim of accurate control of quantum systems. In this paper, we present an inverse-system method to identify damping rate functions which describe non-Markovian environments in time-convolution-less master equations. To access information on the environment, we couple a finite-level quantum system to the environment and measure time traces of local observables of the system. By using sufficient measurement results, an algorithm is designed, which can simultaneously estimate multiple damping rate functions for different dissipative channels. Further, we show that identifiability for the damping rate functions corresponds to the invertibility of the system and a necessary condition for identifiability is also given. The effectiveness of our method is shown in examples of an atom and three-spin-chain non-Markovian systems.
翻訳日:2023-05-28 18:00:16 公開日:2020-03-19
# オンライン自己開示における文化の役割研究のためのオープンモデル

An Open Model for Researching the Role of Culture in Online Self-Disclosure ( http://arxiv.org/abs/2003.08942v1 )

ライセンス: Link先を確認
Christine Bauer and Katharina Sophie Schmid and Christine Strauss(参考訳) 消費者の個人情報(PI)の分析は、消費者について学ぶ上で重要な情報源である。 オンライン環境では、多くの消費者がpiを豊富に公開している。 それでも、人々はPIを開示することで、維持したいプライバシレベルを管理します。 さらに、消費者のオンライン自己開示(OSD)は文化によって異なることが研究で示されている。 したがって、インテリジェントシステムは、消費者からのデータを収集、処理、保存、保護する際の文化的問題を考慮すべきである。 しかし、既存の研究は2つの文化の比較に依存しており、価値ある洞察を提供するが、全体像を描いていない。 プライバシ計算理論に基づいた,文化osd研究のためのオープンリサーチモデルを提案する。 オープンリサーチモデルは、6つの文化的次元、6つの予測因子、24の構造化命題を含む。 文化的osd現象を体系的に説明するための基礎を提供する包括的アプローチを表している。

The analysis of consumers' personal information (PI) is a significant source to learn about consumers. In online settings, many consumers disclose PI abundantly -- this is particularly true for information provided on social network services. Still, people manage the privacy level they want to maintain by disclosing by disclosing PI accordingly. In addition, studies have shown that consumers' online self-disclosure (OSD) differs across cultures. Therefore, intelligent systems should consider cultural issues when collecting, processing, storing or protecting data from consumers. However, existing studies typically rely on a comparison of two cultures, providing valuable insights but not drawing a comprehensive picture. We introduce an open research model for cultural OSD research, based on the privacy calculus theory. Our open research model incorporates six cultural dimensions, six predictors, and 24 structured propositions. It represents a comprehensive approach that provides a basis to explain possible cultural OSD phenomena in a systematic way.
翻訳日:2023-05-28 17:50:57 公開日:2020-03-19
# スケーラブル統合単一光子源

Scalable integrated single-photon source ( http://arxiv.org/abs/2003.08919v1 )

ライセンス: Link先を確認
Ravitej Uppu (1), Freja T. Pedersen (1), Ying Wang (1), Cecilie T. Olesen (1), Camille Papon (1), Xiaoyan Zhou (1), Leonardo Midolo (1), Sven Scholz (2), Andreas D. Wieck (2), Arne Ludwig (2), Peter Lodahl (1)(参考訳) フォトニック量子ビットは、分散量子ネットワークにデプロイ可能な量子情報処理のキーイネーラである。 オンデマンドかつ真にスケーラブルな単一光子源は、高忠実なフォトニック量子演算を可能にする必須成分である。 主な課題は、ソースのスケールアップに必要な生成効率と光子識別性の急なベンチマークに到達するために、ノイズと非一貫性のプロセスを克服することである。 量子ドットを用いた「オンチップ」平面型ナノフォトニック導波路回路における決定論的単一光子源の実現について報告する。 この装置は、光子間の相互の不一致性を観測不能に減少させることなく、100ドル以上の長い光子を生成する。 1秒あたりの総生成レートは、"オンチップ"のソース効率が8,4 %$であるのに応じて1,22 万光子である。 これらの単一光子源の仕様は、ボソンサンプリングのためにベンチマークされ、量子優位の仕組みへのスケーリングを可能にする。

Photonic qubits are key enablers for quantum-information processing deployable across a distributed quantum network. An on-demand and truly scalable source of indistinguishable single photons is the essential component enabling high-fidelity photonic quantum operations. A main challenge is to overcome noise and decoherence processes in order to reach the steep benchmarks on generation efficiency and photon indistinguishability required for scaling up the source. We report on the realization of a deterministic single-photon source featuring near-unity indistinguishability using a quantum dot in an 'on-chip' planar nanophotonic waveguide circuit. The device produces long strings of $>100$ single photons without any observable decrease in the mutual indistinguishability between photons. A total generation rate of $122$ million photons per second is achieved corresponding to an 'on-chip' source efficiency of $84 \%$. These specifications of the single-photon source are benchmarked for boson sampling and found to enable scaling into the regime of quantum advantage.
翻訳日:2023-05-28 17:50:45 公開日:2020-03-19
# CHSH不等式違反による多部交絡の特性評価

Characterizing multipartite entanglement by violation of CHSH inequalities ( http://arxiv.org/abs/2003.08881v1 )

ライセンス: Link先を確認
Ming Li, Huihui Qin, Chengjie Zhang, Shuqian Shen, Shao-Ming Fei, Heng Fan(参考訳) 高次元および多部量子システムの絡み合いは、量子情報処理において有望な視点を提供する。 しかし、このような絡み合いの特徴付けと測定は大きな課題である。 ここでは、最大量子平均値と2次元部分空間におけるペアワイズ量子ビット状態に対するchsh不等式の古典境界の間の重なりを考える。 任意の高次元マルチパーティライト系における純状態の共起は、これらの重なり合いによって等価に表現できることを示す。 ここでは、任意の高次元多部状態から2量子状態への射影を考える。 本研究は,CHSH不等式に違反した2ビットサブ状態の非局所性について検討する。 これらの違反から、最大量子平均値とCHSH不等式の古典的境界との重なり合いから、高次元の多粒子状態の収束がこれらの重なり合いによって正確に表現できることが示される。 さらに、純状態に対して厳密な任意の量子状態に対する収束の低い境界を導出する。 下限は、ペアワイズ量子ビット状態間の非局所分布に制限を課すだけでなく、二成分の絡み合いの蒸留に十分な条件を与える。 このような非局所性に基づいて, 真の三部体絡み検出の有効な基準と, 真の三部体絡み検出の基準も提示した。

Entanglement of high-dimensional and multipartite quantum systems offer promising perspectives in quantum information processing. However, the characterization and measure of such kind of entanglement is of great challenge. Here we consider the overlaps between the maximal quantum mean values and the classical bound of the CHSH inequalities for pairwise-qubit states in two-dimensional subspaces. We show that the concurrence of a pure state in any high-dimensional multipartite system can be equivalently represented by these overlaps. Here we consider the projections of an arbitrary high-dimensional multipartite state to two-qubit states. We investigate the non-localities of these projected two-qubit sub-states by their violations of CHSH inequalities. From these violations, the overlaps between the maximal quantum mean values and the classical bound of the CHSH inequality, we show that the concurrence of a high-dimensional multipartite pure state can be exactly expressed by these overlaps. We further derive a lower bound of the concurrence for any quantum states, which is tight for pure states. The lower bound not only imposes restriction on the non-locality distributions among the pairwise qubit states, but also supplies a sufficient condition for distillation of bipartite entanglement. Effective criteria for detecting genuine tripartite entanglement and the lower bound of concurrence for genuine tripartite entanglement are also presented based on such non-localities.
翻訳日:2023-05-28 17:49:41 公開日:2020-03-19
# 中国における生体医学研究者の心血管リスクと作業ストレス--観察・ビッグデータ研究プロトコル

Cardiovascular risk and work stress in biomedical researchers in China: An observational, big data study protocol ( http://arxiv.org/abs/2003.08800v1 )

ライセンス: Link先を確認
Fang Zhu, Qian Zhang, Hao Chen, Guocheng Shi, Chen Wen, Zhongqun Zhu, and Huiwen Chen(参考訳) 導入:インターネット技術はデータ収集と統合を強化し、公衆衛生研究に広く利用されている。 バイオメディカル研究者の行動や健康をさらに調査するためにこの技術を応用する必要がある。 ブラウザベースの拡張が研究者や臨床医によって開発され、研究者の行動と心理データの収集と分析が促進された。 本議定書は,(1)中国におけるバイオメディカル研究者の健康状態の解明,仕事ストレス,仕事満足度,役割コンフリクト,役割あいまいさ,家族支援の評価,(2)仕事と行動と健康の関係の同定,(3)行動と精神状態の関連性の調査を目的とした観察的研究である。 本研究は, 職業, 職場環境, 家族支援が, 生命医学研究者の精神的, 身体的健康に及ぼす影響の理解に寄与する。 方法と分析:これは有望な観察研究であり、全ての候補者は中国から採用される。 参加者はインターネットブラウザに拡張機能をインストールし、PubMedにアクセスしているときにデータを収集する。 webベースの調査は6ヶ月毎にユーザインターフェースに送信され、社会デポグラフィー変数、知覚ストレス尺度、仕事満足度尺度、役割競合とあいまいさ尺度、家族サポート尺度が含まれる。 機械学習アルゴリズムは、毎日のアクセス中に生成されたデータを分析する。 倫理と普及:本研究は上海小児医療センターの倫理委員会(参照番号scmcirb-k2018082)から倫理的承認を得た。 研究結果は、査読された出版物やカンファレンスのプレゼンテーションを通じて広められる。

Introduction: Internet technologies could strengthen data collection and integration and have been used extensively in public health research. It is necessary to apply this technology to further investigate the behaviour and health of biomedical researchers. A browser-based extension was developed by researchers and clinicians to promote the collection and analysis of researchers' behavioural and psychological data. This protocol illustrates an observational study aimed at (1) characterising the health status of biomedical researchers in China and assessing work stress, job satisfaction, role conflict, role ambiguity, and family support; (2) identifying the association between work, behaviour, and health; and (3) investigating the association between behaviour and mental status. Our findings will contribute to the understanding of the influences of job, work environment, and family support on the mental and physical health of biomedical researchers. Methods and analysis: This is a prospective observational study; all candidates will be recruited from China. Participants will install an extension on their Internet browsers, which will collect data when they are accessing PubMed. A web-based survey will be sent to the user interfaces every 6 months that will involve sociodemographic variables, perceived stress scale, job satisfaction scale, role conflict and ambiguity scale, and family support scale. Machine-learning algorithms will analyse the data generated during daily access. Ethics and dissemination: This study received ethical approval from the ethics committee of the Shanghai Children's Medical Centre (reference number SCMCIRB-K2018082). Study results will be disseminated through peer-reviewed publications and conference presentations.
翻訳日:2023-05-28 17:49:21 公開日:2020-03-19
# Rydbergドレッシングによる原子-光子スピン交換衝突

Atom-Photon Spin-Exchange Collisions Mediated by Rydberg Dressing ( http://arxiv.org/abs/2003.08709v1 )

ライセンス: Link先を確認
Fan Yang, Yong-Chun Liu, Li You(参考訳) 我々は、Rydberg型原子アンサンブルを伝播する光子が、スピン状態を1つの原子と交換できることを示した。 このようなスピン交換衝突は、相互作用強度に依存する散発的特徴とコヒーレント特徴の両方を示す。 強い相互作用のために、衝突は系を原子と光子の絡み合った暗黒状態へと放散的に駆動する。 弱い相互作用系では、散乱は多重光子入力パルス内の単一光子のスピンをコヒーレントに反転させ、一般的な単光子減算過程を示す。 この過程の解析により、抽出された光子の効率と純度の間の普遍的なトレードオフが明らかとなり、これは幅広い種類の単光子サブトラクタに適用できる。 新たな位相整合条件下での散乱速度の調整により,このようなトレードオフを最適化できることを示す。

We show that photons propagating through a Rydberg-dressed atomic ensemble can exchange its spin state with a single atom. Such a spin-exchange collision exhibits both dissipative and coherent features, depending on the interaction strength. For strong interaction, the collision dissipatively drives the system into an entangled dark state of the photon with an atom. In the weak interaction regime, the scattering coherently flips the spin of a single photon in the multi-photon input pulse, demonstrating a generic single-photon subtracting process. An analytic analysis of this process reveals a universal trade-off between efficiency and purity of the extracted photon, which applies to a wide class of single-photon subtractors. We show that such a trade-off can be optimized by adjusting the scattering rate under a novel phase-matching condition.
翻訳日:2023-05-28 17:48:31 公開日:2020-03-19
# Dis-Empowerment Online: プライバシ共有の知覚と方法優先に関する調査

Dis-Empowerment Online: An Investigation of Privacy-Sharing Perceptions & Method Preferences ( http://arxiv.org/abs/2003.08990v1 )

ライセンス: Link先を確認
Kovila P.L. Coopamootoo(参考訳) ユーザーはオンライン技術を通じて権限を与えられるとしばしば主張されるが、プライバシーの非エンパワーメントの一般的な感覚もある。 プライバシと共有の権限のオンライン化,およびプライバシテクノロジの利用について,n=907参加者による全国横断的なオンライン調査を通じて検討した。 プライバシーのエンパワーメントの認識は、意味、能力、選択の次元をまたいだ共有の認識とは異なる。 米国、英国、ドイツでは、プライバシーメソッドの嗜好の類似点と相違点が見られます。 また、プライバシー保護の非技術的手法が最も好まれている方法であるのに対し、より先進的でスタンドアロンのプライバシー技術は最優先である。 . プライバシ非エンパワメントの認識をオンラインのプライバシ行動のパターンにマッピングし,プライバシテクノロジ利用の類似性と差異を明らかにすることにより,プライバシテクノロジの将来研究と設計のための重要な基盤を提供する。 この発見は、よりユーザ中心のプライバシ技術を開発するために、複数の分野にまたがって使用することができる。

While it is often claimed that users are empowered via online technologies, there is also a general feeling of privacy dis-empowerment. We investigate the perception of privacy and sharing empowerment online, as well as the use of privacy technologies, via a cross-national online study with N=907 participants. We find that perception of privacy empowerment differs from that of sharing across dimensions of meaningfulness, competence and choice. We find similarities and differences in privacy method preference between the US, UK and Germany. We also find that non-technology methods of privacy protection are among the most preferred methods, while more advanced and standalone privacy technologies are least preferred.. By mapping the perception of privacy dis-empowerment into patterns of privacy behavior online, and clarifying the similarities and distinctions in privacy technology use, this paper provides an important foundation for future research and the design of privacy technologies. The findings may be used across disciplines to develop more user-centric privacy technologies, that support and enable the user.
翻訳日:2023-05-28 17:40:39 公開日:2020-03-19
# 1次元ディラックダンクル発振器の代数的アプローチ

Algebraic approach for the one-dimensional Dirac-Dunkl oscillator ( http://arxiv.org/abs/2003.08975v1 )

ライセンス: Link先を確認
D. Ojeda-Guill\'en, R. D. Mota, M. Salazar-Ram\'irez, V. D. Granados(参考訳) 1+1)$次元ディラック・モシンスキー発振器はダンクル微分によって標準微分を変化させることで拡張する。 一般論として、dirac-dunkl発振器がパリティ不変であるためには、スピノル成分の一方は偶数でなければならず、もう一方のスピノル成分は奇数でなければならない。 スピノル成分ごとに微分方程式を分離し、これらの関数の一方が偶数で他方の関数が奇数である場合に、適切な$su(1,1)$代数的実現を導入する。 固有関数とエネルギースペクトルは$su(1,1)$既約表現理論を用いて得られる。 最後に、dunklパラメータをゼロにすることで、結果が標準dirac-moshinsky発振器の値に減少することを示す。

We extend the $(1+1)$-dimensional Dirac-Moshinsky oscillator by changing the standard derivative by the Dunkl derivative. We demonstrate in a general way that for the Dirac-Dunkl oscillator be parity invariant, one of the spinor component must be even, and the other spinor component must be odd, and vice versa. We decouple the differential equations for each of the spinor component and introduce an appropriate $su(1,1)$ algebraic realization for the cases when one of these functions is even and the other function is odd. The eigenfunctions and the energy spectrum are obtained by using the $su(1,1)$ irreducible representation theory. Finally, by setting the Dunkl parameter to vanish, we show that our results reduce to those of the standard Dirac-Moshinsky oscillator.
翻訳日:2023-05-28 17:40:19 公開日:2020-03-19
# 農業ビジョン:農業パターン分析のための大規模空中画像データベース

Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern Analysis ( http://arxiv.org/abs/2001.01306v2 )

ライセンス: Link先を確認
Mang Tik Chiu, Xingqian Xu, Yunchao Wei, Zilong Huang, Alexander Schwing, Robert Brunner, Hrant Khachatrian, Hovnatan Karapetyan, Ivan Dozier, Greg Rose, David Wilson, Adrian Tudor, Naira Hovakimyan, Thomas S. Huang, Honghui Shi(参考訳) 視覚認識タスクにおける深層学習の成功は、様々な研究分野の進歩を促している。 特に農業への応用に注目が集まっている。 それにもかかわらず、農地での視覚パターン認識には膨大な経済価値が伴うが、適切な農業画像データセットがないため、コンピュータビジョンと作物科学を融合する進歩はほとんどない。 一方、農業の問題はコンピュータビジョンに新たな課題をもたらす。 例えば、空中の農地画像のセマンティックセグメンテーションは、極端にアノテーションの間隔を持つ非常に大きな画像に対して推測を必要とする。 これらの課題は、ほとんどの一般的なオブジェクトデータセットには存在せず、他の多くの空中画像データセットよりも困難であることを示す。 農業におけるコンピュータビジョンの研究を促進するために,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセット「農業ビジョン」を提案する。 国内3,432の農地から94,986個の高品質の空中画像を収集し,各画像はRGBと近赤外(NIR)チャネルで構成され,解像度は1ピクセルあたり10cmである。 農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。 航空農業のセマンティックセグメンテーションのパイロット研究として,一般的なセマンティックセグメンテーションモデルを用いた総合的な実験を行い,航空農業のパターン認識のための効果的なモデルを提案する。 我々の実験は、コンピュータビジョンと農業コミュニティの両方に農業ビジョンがもたらすいくつかの課題を実証している。 このデータセットの今後のバージョンには、さらに空中画像、異常パターン、画像チャネルが含まれる。 詳しくはhttps://www.agriculture-vision.comを参照。

The success of deep learning in visual recognition tasks has driven advancements in multiple fields of research. Particularly, increasing attention has been drawn towards its application in agriculture. Nevertheless, while visual pattern recognition on farmlands carries enormous economic values, little progress has been made to merge computer vision and crop sciences due to the lack of suitable agricultural image datasets. Meanwhile, problems in agriculture also pose new challenges in computer vision. For example, semantic segmentation of aerial farmland images requires inference over extremely large-size images with extreme annotation sparsity. These challenges are not present in most of the common object datasets, and we show that they are more challenging than many other aerial image datasets. To encourage research in computer vision for agriculture, we present Agriculture-Vision: a large-scale aerial farmland image dataset for semantic segmentation of agricultural patterns. We collected 94,986 high-quality aerial images from 3,432 farmlands across the US, where each image consists of RGB and Near-infrared (NIR) channels with resolution as high as 10 cm per pixel. We annotate nine types of field anomaly patterns that are most important to farmers. As a pilot study of aerial agricultural semantic segmentation, we perform comprehensive experiments using popular semantic segmentation models; we also propose an effective model designed for aerial agricultural pattern recognition. Our experiments demonstrate several challenges Agriculture-Vision poses to both the computer vision and agriculture communities. Future versions of this dataset will include even more aerial images, anomaly patterns and image channels. More information at https://www.agriculture-vision.com.
翻訳日:2023-01-14 07:52:40 公開日:2020-03-19
# 小さいパラメータを持たない局所化への再正規化

Renormalization to localization without a small parameter ( http://arxiv.org/abs/2001.06493v2 )

ライセンス: Link先を確認
A. G. Kutlin and I. M. Khaymovich(参考訳) ユークリッド間距離のみに依存する等方性ホッピングポテンシャルを持つランダム空間粒子のD次元モデルにおける波動関数の局在特性について検討した。 一般にユークリッドランダム行列モデルと呼ばれるこのモデルの一般性のため、振動モードの研究、人工原子系、液体とガラス、超低温ガス、光子局在現象などの様々な物理的文脈において自然に生じる。 既知のバーリン・レヴィトフ再正規化群アプローチを一般化し、そのようなモデルにおいて局所化に十分な普遍条件を定式化し、ユークリッド確率行列と対角障害を持つ変換不変な長距離格子モデルの間の波動関数空間減衰の著しい等価性を調べる。

We study the wave function localization properties in a d-dimensional model of randomly spaced particles with isotropic hopping potential depending solely on Euclidean interparticle distances. Due to the generality of this model usually called the Euclidean random matrix model, it arises naturally in various physical contexts such as studies of vibrational modes, artificial atomic systems, liquids and glasses, ultracold gases and photon localization phenomena. We generalize the known Burin-Levitov renormalization group approach, formulate universal conditions sufficient for localization in such models and inspect a striking equivalence of the wave function spatial decay between Euclidean random matrices and translation-invariant long-range lattice models with a diagonal disorder.
翻訳日:2023-01-10 13:19:01 公開日:2020-03-19
# ファイングラインド動作認識のためのマルチモーダルドメイン適応

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition ( http://arxiv.org/abs/2001.09691v2 )

ライセンス: Link先を確認
Jonathan Munro and Dima Damen(参考訳) きめ細かいアクション認識データセットは環境バイアスを示し、複数のビデオシーケンスが限られた環境から取得される。 ある環境でモデルをトレーニングし、別の環境にデプロイすると、避けられないドメインシフトのためにパフォーマンスが低下する。 unsupervised domain adaptation (uda)アプローチは、ソースドメインとターゲットドメインの間の敵対的トレーニングを頻繁に活用している。 しかし、これらのアプローチは、各領域におけるビデオのマルチモーダルな性質を探求していない。 本研究では, 対向アライメントに加えて, UDA の自己教師付きアライメントアプローチとして, モダリティの対応を利用する。 大規模データセットEPIC-Kitchensの3つのキッチンに対して,アクション認識によく使用される2つのモード(RGBと光フロー)を用いて,アプローチを検証した。 マルチモーダルな自己スーパービジョンだけで、ソースのみのトレーニングよりもパフォーマンスが平均2.4%向上することを示す。 そして,本手法が他のuda法を3%上回ることを示すマルチモーダル・セルフスーパービジョンと,敵対的トレーニングを組み合わせる。

Fine-grained action recognition datasets exhibit environmental bias, where multiple video sequences are captured from a limited number of environments. Training a model in one environment and deploying in another results in a drop in performance due to an unavoidable domain shift. Unsupervised Domain Adaptation (UDA) approaches have frequently utilised adversarial training between the source and target domains. However, these approaches have not explored the multi-modal nature of video within each domain. In this work we exploit the correspondence of modalities as a self-supervised alignment approach for UDA in addition to adversarial alignment. We test our approach on three kitchens from our large-scale dataset, EPIC-Kitchens, using two modalities commonly employed for action recognition: RGB and Optical Flow. We show that multi-modal self-supervision alone improves the performance over source-only training by 2.4% on average. We then combine adversarial training with multi-modal self-supervision, showing that our approach outperforms other UDA methods by 3%.
翻訳日:2023-01-06 08:15:43 公開日:2020-03-19
# 野生における偽顔検出のためのグローバルテクスチャ強調

Global Texture Enhancement for Fake Face Detection in the Wild ( http://arxiv.org/abs/2002.00133v3 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Philip Torr(参考訳) GAN(Generative Adversarial Networks)は、人間を騙し易い現実的な偽の顔画像を生成することができるが、逆に、一般的な畳み込みニューラルネットワーク(CNN)判別器は、偽/実画像の識別において99.9%以上の精度を達成できる。 本稿では,偽の顔と実の顔のテクスチャが実際の顔と大きく異なること,第2に,グローバルなテクスチャ統計は画像編集や,異なるGANやデータセットからの偽の顔への転送に頑健である,という2つの重要な観察結果を得た。 上記の観察結果に動機づけられ,グローバルイメージテクスチャ表現をロバストな偽画像検出に活用したgram-netという新しいアーキテクチャを提案する。 いくつかのデータセットにおける実験結果は、gram-netが既存のアプローチを上回っていることを示している。 特にggram-netは、ダウンサンプリング、jpeg圧縮、ぼかし、ノイズなど、画像編集に対してより堅牢です。 さらに重要なことは、Gram-NetはトレーニングフェーズにないGANモデルから偽の顔を検出し、偽の自然画像を検出するのに十分な性能を発揮することです。

Generative Adversarial Networks (GANs) can generate realistic fake face images that can easily fool human beings.On the contrary, a common Convolutional Neural Network(CNN) discriminator can achieve more than 99.9% accuracyin discerning fake/real images. In this paper, we conduct an empirical study on fake/real faces, and have two important observations: firstly, the texture of fake faces is substantially different from real ones; secondly, global texture statistics are more robust to image editing and transferable to fake faces from different GANs and datasets. Motivated by the above observations, we propose a new architecture coined as Gram-Net, which leverages global image texture representations for robust fake image detection. Experimental results on several datasets demonstrate that our Gram-Net outperforms existing approaches. Especially, our Gram-Netis more robust to image editings, e.g. down-sampling, JPEG compression, blur, and noise. More importantly, our Gram-Net generalizes significantly better in detecting fake faces from GAN models not seen in the training phase and can perform decently in detecting fake natural images.
翻訳日:2023-01-05 00:54:24 公開日:2020-03-19
# ganのコピー&ペースト:シェードサムネイルからの顔幻覚

Copy and Paste GAN: Face Hallucination from Shaded Thumbnails ( http://arxiv.org/abs/2002.10650v3 )

ライセンス: Link先を確認
Yang Zhang, Ivor Tsang, Yawei Luo, Changhui Hu, Xiaobo Lu, Xin Yu(参考訳) 畳み込みニューラルネットワーク(CNN)に基づく既存の顔幻覚法は、通常の照明条件下での低分解能(LR)面において優れた性能を発揮する。 しかし、LR面が低あるいは一様でない照明条件下で捕捉されると、その性能は劇的に低下する。 本稿では、高解像度(HR)顔画像の高解像度化を図り、低域および非均一な照明を補正するコピー・ペースト生成支援ネットワーク(CPGAN)を提案する。 この目的のために,CPGANには内部および外部のコピーとペーストネット(CPnet)という2つの重要なコンポーネントを開発している。 特に、我々の内部cpnetは、入力画像に存在する顔情報を利用して顔の詳細を高め、外部cpnetは、照明補償のために外部hr顔を利用する。 これにより、外部誘導顔画像からの照明を効果的に捉えるために、新たな照明補償損失が生じる。 さらに,本手法は照明をオフセットし,粗い方法で顔の詳細を交互にアップサンプリングすることにより,LR入力と外部HR入力との一致の曖昧さを軽減する。 広汎な実験により,本手法は一様照明条件下で真正のHR顔像を呈示し,定性的かつ定量的に最先端の手法より優れていることが示された。

Existing face hallucination methods based on convolutional neural networks (CNN) have achieved impressive performance on low-resolution (LR) faces in a normal illumination condition. However, their performance degrades dramatically when LR faces are captured in low or non-uniform illumination conditions. This paper proposes a Copy and Paste Generative Adversarial Network (CPGAN) to recover authentic high-resolution (HR) face images while compensating for low and non-uniform illumination. To this end, we develop two key components in our CPGAN: internal and external Copy and Paste nets (CPnets). Specifically, our internal CPnet exploits facial information residing in the input image to enhance facial details; while our external CPnet leverages an external HR face for illumination compensation. A new illumination compensation loss is thus developed to capture illumination from the external guided face image effectively. Furthermore, our method offsets illumination and upsamples facial details alternately in a coarse-to-fine fashion, thus alleviating the correspondence ambiguity between LR inputs and external HR inputs. Extensive experiments demonstrate that our method manifests authentic HR face images in a uniform illumination condition and outperforms state-of-the-art methods qualitatively and quantitatively.
翻訳日:2022-12-28 21:47:33 公開日:2020-03-19
# ResNets、NeuralODEs、CT-RNNsは、特にニューラルレギュレータネットワークである

ResNets, NeuralODEs and CT-RNNs are Particular Neural Regulatory Networks ( http://arxiv.org/abs/2002.12776v3 )

ライセンス: Link先を確認
Radu Grosu(参考訳) 本稿では、ResNets、NeuralODEs、CT-RNNsが、C.elegans nematodeなどの小型種や大型種の網膜で遭遇する非スパイキングニューロンの生体物理モデルである、特定の神経調節ネットワーク(NRNs)であることを示す。 ResNets、NeuralODEs、CT-RNNと比較すると、NRNはシナプス計算にさらに乗算項を持ち、それぞれの入力に適応することができる。 この柔軟性により、NRNはNeuralODEやCT-RNNよりも簡潔になり、M$はトレーニングセットのサイズに比例する。 さらに、NeuralODEsとCT-RNNはResNetsよりも簡潔な$N$であり、$N$は出力の計算に必要な積分ステップの数である$F(x)$は与えられた入力の$x$に対して、NRNはResNetsより簡潔な$M\,{\cdot}\,N$である。 与えられた近似タスクに対して、このかなりの簡潔さは、非常に小さく、従って理解可能なnrnを学習することを可能にする。nrnは、活性化、抑制、シーケンシャル化、相互排他、同期といった遺伝子制御ネットワークと共有する、確立されたアーキテクチャモチーフの観点から説明できる。 我々の知る限りでは、この論文は、ディープニューラルネットワークに関する主要な研究と、生物学と神経科学の分野を定量的に比較した初めてのものである。

This paper shows that ResNets, NeuralODEs, and CT-RNNs, are particular neural regulatory networks (NRNs), a biophysical model for the nonspiking neurons encountered in small species, such as the C.elegans nematode, and in the retina of large species. Compared to ResNets, NeuralODEs and CT-RNNs, NRNs have an additional multiplicative term in their synaptic computation, allowing them to adapt to each particular input. This additional flexibility makes NRNs $M$ times more succinct than NeuralODEs and CT-RNNs, where $M$ is proportional to the size of the training set. Moreover, as NeuralODEs and CT-RNNs are $N$ times more succinct than ResNets, where $N$ is the number of integration steps required to compute the output $F(x)$ for a given input $x$, NRNs are in total $M\,{\cdot}\,N$ more succinct than ResNets. For a given approximation task, this considerable succinctness allows to learn a very small and therefore understandable NRN, whose behavior can be explained in terms of well established architectural motifs, that NRNs share with gene regulatory networks, such as, activation, inhibition, sequentialization, mutual exclusion, and synchronization. To the best of our knowledge, this paper unifies for the first time the mainstream work on deep neural networks with the one in biology and neuroscience in a quantitative fashion.
翻訳日:2022-12-28 15:54:00 公開日:2020-03-19
# 非負行列因子分解における二階定常性への収束:証明可能かつ同時に

Convergence to Second-Order Stationarity for Non-negative Matrix Factorization: Provably and Concurrently ( http://arxiv.org/abs/2002.11323v2 )

ライセンス: Link先を確認
Ioannis Panageas, Stratis Skoulakis, Antonios Varvitsiotis, and Xiao Wang(参考訳) 非負行列分解(NMF)は、機械学習(音楽解析、文書クラスタリング、音声ソース分離など)における多くの応用において、基本的な非凸最適化問題である。 広範な研究を受けたにもかかわらず、局所的な最小値に確実に収束できる自然アルゴリズムが存在するか否かはよく分かっていない。 その理由の一部は、目的が対称であり、勾配がリプシッツではないからである。 本稿では,サドル点(第2次ではない第1次定常点)を並列かつ確実に回避する乗法的重み更新型力学(セミナルリー・ソンアルゴリズムの修正)を定義する。 本手法は,非負のオルサント上の標準NMFの定式化を,(スケールした)単純体上の新しい定式化に還元することにより,安定性などの動的システムからのツールを組み合わせる。 本手法の重要な利点は並列処理環境の実装を可能にする並列更新を使うことである。

Non-negative matrix factorization (NMF) is a fundamental non-convex optimization problem with numerous applications in Machine Learning (music analysis, document clustering, speech-source separation etc). Despite having received extensive study, it is poorly understood whether or not there exist natural algorithms that can provably converge to a local minimum. Part of the reason is because the objective is heavily symmetric and its gradient is not Lipschitz. In this paper we define a multiplicative weight update type dynamics (modification of the seminal Lee-Seung algorithm) that runs concurrently and provably avoids saddle points (first order stationary points that are not second order). Our techniques combine tools from dynamical systems such as stability and exploit the geometry of the NMF objective by reducing the standard NMF formulation over the non-negative orthant to a new formulation over (a scaled) simplex. An important advantage of our method is the use of concurrent updates, which permits implementations in parallel computing environments.
翻訳日:2022-12-28 14:33:17 公開日:2020-03-19
# 音響特徴から脳波特徴を生成する

Generating EEG features from Acoustic features ( http://arxiv.org/abs/2003.00007v2 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Yan Han, Ahmed H Tewfik(参考訳) 本稿では,rnn(recurrent neural network)に基づく回帰モデルとgan(generative adversarial network)を用いた音響特徴からの脳波予測について述べる。 各種脳波特徴を音響的特徴から予測する。 脳波を用いた音声合成の問題点と比較し,脳波を用いた音声合成では,脳波を用いた音声合成では,脳波を用いた音声合成よりも低根平均二乗誤差 (RMSE) の音響特徴から脳波特性が生成できることを実証した。

In this paper we demonstrate predicting electroencephalograpgy (EEG) features from acoustic features using recurrent neural network (RNN) based regression model and generative adversarial network (GAN). We predict various types of EEG features from acoustic features. We compare our results with the previously studied problem on speech synthesis using EEG and our results demonstrate that EEG features can be generated from acoustic features with lower root mean square error (RMSE), normalized RMSE values compared to generating acoustic features from EEG features (ie: speech synthesis using EEG) when tested using the same data sets.
翻訳日:2022-12-27 20:25:12 公開日:2020-03-19
# 癌におけるサブジェクト間およびサブジェクト内変動に対する多様性の欠如

Heterogeneity Loss to Handle Intersubject and Intrasubject Variability in Cancer ( http://arxiv.org/abs/2003.03295v2 )

ライセンス: Link先を確認
Shubham Goswami, Suril Mehta, Dhruva Sahrawat, Anubha Gupta, Ritu Gupta(参考訳) 発展途上国は、近代的な設備と熟練した医師を持つ十分な数の病院を欠いている。 したがって、これらの国の人口のかなりの割合、特に農村部では、専門的かつタイムリーな医療施設を利用できない。 近年,人工知能(AI)手法のクラスである深層学習(DL)モデルは,医学領域において顕著な成果を上げている。 これらのAI手法は、開発途上国に安価な医療ソリューションとして大きな支援を提供することができる。 本研究は, 血液がん診断の応用に焦点をあてた。 しかし, がん研究におけるDLモデルへの課題は, 適切なトレーニングのための大規模なデータの有効性の欠如と, 取得特性, セッション, 被検者レベル(対象者, 対象者を含む)の異なるレベルでの不均一性を捉えることの難しさである。 これらの課題はDLモデルを過度に適合させる傾向があるため、予測対象データの一般化に欠ける。 本稿では,b-cell acute lymphoblastic leukemia (b-all) の深層学習による診断における問題点について述べる。 そこで本研究では,被験者レベルの不均一性を捉えた不均質性損失を提案する。 また、B-ALL分類のためのC-NMC 2019データセットにおける最良の結果である、未確認(テスト)対象データに対して、重み付きF_1$95.26%のスコアを与える7-foldでトレーニングされたモデルに対して、より良い分類を提供するのに役立ちます。

Developing nations lack adequate number of hospitals with modern equipment and skilled doctors. Hence, a significant proportion of these nations' population, particularly in rural areas, is not able to avail specialized and timely healthcare facilities. In recent years, deep learning (DL) models, a class of artificial intelligence (AI) methods, have shown impressive results in medical domain. These AI methods can provide immense support to developing nations as affordable healthcare solutions. This work is focused on one such application of blood cancer diagnosis. However, there are some challenges to DL models in cancer research because of the unavailability of a large data for adequate training and the difficulty of capturing heterogeneity in data at different levels ranging from acquisition characteristics, session, to subject-level (within subjects and across subjects). These challenges render DL models prone to overfitting and hence, models lack generalization on prospective subjects' data. In this work, we address these problems in the application of B-cell Acute Lymphoblastic Leukemia (B-ALL) diagnosis using deep learning. We propose heterogeneity loss that captures subject-level heterogeneity, thereby, forcing the neural network to learn subject-independent features. We also propose an unorthodox ensemble strategy that helps us in providing improved classification over models trained on 7-folds giving a weighted-$F_1$ score of 95.26% on unseen (test) subjects' data that are, so far, the best results on the C-NMC 2019 dataset for B-ALL classification.
翻訳日:2022-12-26 01:22:02 公開日:2020-03-19
# プログレッシブ・ディバイサル・ネットワークを用いた知覚的超解像

Perceptual Image Super-Resolution with Progressive Adversarial Network ( http://arxiv.org/abs/2003.03756v4 )

ライセンス: Link先を確認
Lone Wong, Deli Zhao, Shaohua Wan, Bo Zhang(参考訳) Single Image Super-Resolution (SISR) は、小型の低画質画像の解像度を単一の画像から改善することを目的としている。 消費者電子製品が日常的に普及するにつれ、この話題はますます魅力的になっている。 本稿では,現在最先端のアルゴリズムの性能を制限している理由として,次元の呪いを論じる。 この問題に対処するために,ドメイン固有画像の超解像化の難しさに対処できるプログレッシブ・アドバーサリアル・ネットワーク(PAN)を提案する。 PANの鍵となる原理は、最適化すべき損失として距離ベースの復元誤差を適用せず、従って次元の呪いの制限がなくなることである。 忠実な再構築の精度を維持するために、我々はU-Netと進歩的なニューラルアーキテクチャの進化を利用する。 エンコーダの低レベル機能は、U-Netでテクスチャの詳細を強化するためにデコーダに転送できる。 プログレッシブ成長は画像解像度を徐々に高め、回収された画像の精度を維持する。 さらに,高忠実度出力を得るためには,強力なStyleGANの枠組みを活用して対角学習を行う。 次元の呪いがなければ、我々のモデルは目覚ましいフォトリアリスティックな細部と歪みの少ない大型画像を超解ける。 広範な実験により, 定量的および定性的に, 最先端のアルゴリズムに勝ることを示す。

Single Image Super-Resolution (SISR) aims to improve resolution of small-size low-quality image from a single one. With popularity of consumer electronics in our daily life, this topic has become more and more attractive. In this paper, we argue that the curse of dimensionality is the underlying reason of limiting the performance of state-of-the-art algorithms. To address this issue, we propose Progressive Adversarial Network (PAN) that is capable of coping with this difficulty for domain-specific image super-resolution. The key principle of PAN is that we do not apply any distance-based reconstruction errors as the loss to be optimized, thus free from the restriction of the curse of dimensionality. To maintain faithful reconstruction precision, we resort to U-Net and progressive growing of neural architecture. The low-level features in encoder can be transferred into decoder to enhance textural details with U-Net. Progressive growing enhances image resolution gradually, thereby preserving precision of recovered image. Moreover, to obtain high-fidelity outputs, we leverage the framework of the powerful StyleGAN to perform adversarial learning. Without the curse of dimensionality, our model can super-resolve large-size images with remarkable photo-realistic details and few distortions. Extensive experiments demonstrate the superiority of our algorithm over state-of-the-arts both quantitatively and qualitatively.
翻訳日:2022-12-25 14:44:54 公開日:2020-03-19
# 機械学習の因果解釈可能性-問題、方法、評価

Causal Interpretability for Machine Learning -- Problems, Methods and Evaluation ( http://arxiv.org/abs/2003.03934v3 )

ライセンス: Link先を確認
Raha Moraffah, Mansooreh Karami, Ruocheng Guo, Adrienne Raglin, Huan Liu(参考訳) 機械学習モデルは、無数のアプリケーションで大きな成果を上げてきた。 しかし、これらのモデルのほとんどはブラックボックスであり、どのように意思決定されるかは不明である。 これにより、モデルは信頼できず、信頼できない。 これらのモデルの意思決定プロセスに関する洞察を提供するため、様々な解釈可能なモデルが提案されている。 さらに、より人間にやさしい説明を生み出すために、最近の解釈可能性に関する研究は、「なぜこのモデルはそのような決定をするのか」や「モデルによってなされた決定を引き起こす特定の特徴なのか」といった因果関係に関する質問に答えようとしている。 この研究では、因果的疑問に答えようとするモデルを因果的解釈可能なモデルと呼ぶ。 既存の調査は、従来の解釈可能性の概念と方法論をカバーしている。 本稿では,問題や手法の側面から,因果解釈可能なモデルに関する包括的調査を行う。 さらに、この調査は、解釈可能性を測定するための既存の評価基準に関する深い洞察を提供し、各評価基準が適合するシナリオを理解するのに役立つ。

Machine learning models have had discernible achievements in a myriad of applications. However, most of these models are black-boxes, and it is obscure how the decisions are made by them. This makes the models unreliable and untrustworthy. To provide insights into the decision making processes of these models, a variety of traditional interpretable models have been proposed. Moreover, to generate more human-friendly explanations, recent work on interpretability tries to answer questions related to causality such as "Why does this model makes such decisions?" or "Was it a specific feature that caused the decision made by the model?". In this work, models that aim to answer causal questions are referred to as causal interpretable models. The existing surveys have covered concepts and methodologies of traditional interpretability. In this work, we present a comprehensive survey on causal interpretable models from the aspects of the problems and methods. In addition, this survey provides in-depth insights into the existing evaluation metrics for measuring interpretability, which can help practitioners understand for what scenarios each evaluation metric is suitable.
翻訳日:2022-12-25 07:57:45 公開日:2020-03-19
# ニューラルネットワークと支持ベクトルマシンを用いたストロークの2つのタイヤ予測

Two Tier Prediction of Stroke Using Artificial Neural Networks and Support Vector Machines ( http://arxiv.org/abs/2003.08354v2 )

ライセンス: Link先を確認
Jerrin Thomas Panachakel and Jeena R.S(参考訳) 脳血管障害(CVA)または脳卒中は、脳への血液供給の障害による脳機能の急激な喪失である。 統計的には、脳卒中は2番目の死因である。 これは、脳卒中を予測するための2層システムを提案する動機となりました。第1層は、脳卒中を患う人の可能性を予測するために、Artificial Neural Network(ANN)を使用します。 ANNは、脳卒中患者数人の脳卒中リスクファクターの値を用いて訓練されている。 ひとたび脳卒中リスクが高いと分類されると、s/heは彼の神経MRI(磁気共鳴画像)を分析して脳卒中の可能性を予測するティア2分類テストを行う。 tier-2は、特徴抽出に非負行列因子化とハラリックテクスチャ機能、分類にSVM分類器を使用する。 精度はtier-1では96.67%,tier-2では70%であった。

Cerebrovascular accident (CVA) or stroke is the rapid loss of brain function due to disturbance in the blood supply to the brain. Statistically, stroke is the second leading cause of death. This has motivated us to suggest a two-tier system for predicting stroke; the first tier makes use of Artificial Neural Network (ANN) to predict the chances of a person suffering from stroke. The ANN is trained the using the values of various risk factors of stroke of several patients who had stroke. Once a person is classified as having a high risk of stroke, s/he undergoes another the tier-2 classification test where his/her neuro MRI (Magnetic resonance imaging) is analysed to predict the chances of stroke. The tier-2 uses Non-negative Matrix Factorization and Haralick Textural features for feature extraction and SVM classifier for classification. We have obtained an accuracy of 96.67% in tier-1 and an accuracy of 70% in tier-2.
翻訳日:2022-12-22 21:02:18 公開日:2020-03-19
# バイオセンサーモデルのための教師学習ドメイン適応

Teacher-Student Domain Adaptation for Biosensor Models ( http://arxiv.org/abs/2003.07896v2 )

ライセンス: Link先を確認
Lawrence G. Phillips, David B. Grimes, Yihan Jessie Li(参考訳) 本稿では,ソース領域からのデータが豊富である場合,対象領域からのラベル付きデータが限定的あるいは存在しない場合,少量のソースターゲットデータを利用可能とする,ドメイン適応へのアプローチを提案する。 本手法は, 消費者級携帯型バイオセンサーのデータに基づいて, 医療状況を検出する深層学習モデルの開発を目的としている。 この領域の重要な問題、すなわち、バイオセンサーから大量の臨床ラベル付きデータを取得することの難しさ、および臨床ラベルに影響を与えるノイズと曖昧さに対処する。 この考え方は、データが豊富であるセンサモーダルからラベル付き記録の大規模なデータセット上で表現的モデルを事前訓練し、ターゲットモーダル上の予測が元のモーダルからペア化された例に類似するように、モデルの下層を適応させることである。 プレトレーニングモデルの予測は,臨床生が提供したラベルよりもかなり優れた学習信号を提供し,本手法は,教師による深層学習の単純適用と,合成データセットへのドメイン適応のラベル付きバージョンの両方において,現実の睡眠時無呼吸のケーススタディにおいて,著しく優れていることを示す。 ラベルに必要なデータ量を削減し,ラベルの必要性を回避することにより,バイオセンサーの高性能深層学習モデル開発に伴うコストを削減できる。

We present an approach to domain adaptation, addressing the case where data from the source domain is abundant, labelled data from the target domain is limited or non-existent, and a small amount of paired source-target data is available. The method is designed for developing deep learning models that detect the presence of medical conditions based on data from consumer-grade portable biosensors. It addresses some of the key problems in this area, namely, the difficulty of acquiring large quantities of clinically labelled data from the biosensor, and the noise and ambiguity that can affect the clinical labels. The idea is to pre-train an expressive model on a large dataset of labelled recordings from a sensor modality for which data is abundant, and then to adapt the model's lower layers so that its predictions on the target modality are similar to the original model's on paired examples from the source modality. We show that the pre-trained model's predictions provide a substantially better learning signal than the clinician-provided labels, and that this teacher-student technique significantly outperforms both a naive application of supervised deep learning and a label-supervised version of domain adaptation on a synthetic dataset and in a real-world case study on sleep apnea. By reducing the volume of data required and obviating the need for labels, our approach should reduce the cost associated with developing high-performance deep learning models for biosensors.
翻訳日:2022-12-22 20:47:12 公開日:2020-03-19
# 顔面形態からみたPitt-Hopkins症候群の検出

Detection of Pitt-Hopkins Syndrome based on morphological facial features ( http://arxiv.org/abs/2003.08229v2 )

ライセンス: Link先を確認
Elena D'Amato, Constantino Carlos Reyes-Aldasoro, Maria Felicia Faienza, Marcella Zollino(参考訳) 本研究は、遺伝的障害のpit-hopkins症候群(pths)と健康な個体を識別する自動手法について述べる。 入力データとして、この手法は制約のない正面顔写真を受け取り、顔は向き付けグラディエントのヒストグラムで示される。 この手法の前処理ステップは、一貫した次元の一連の顔画像を生成するために、色正規化、スケールダウン、回転、クロッピングからなる。 顔のランドマークは、グラデーションブースティングによって学習された回帰関数のカスケードを通じて自動的に各顔に配置され、初期近似から形状を推定する。 この初期推定値に比例してインデックスされたスパースピクセルの強度を用いてランドマークを決定する。 ランドマークから、口の相対的な幅や鼻の角度など、慎重に選択された幾何学的特徴のセットを抽出する。 これらの特徴は、PTHSの2つの集団と健康管理の統計的差異を調べるために使用される。 pthsと55の正常なコントロールを持つ71名を対象に実験を行った。 鼻と口に関する2つの幾何学的特徴は,両群間の統計的差異を示した。

This work describes an automatic methodology to discriminate between individuals with the genetic disorder Pitt-Hopkins syndrome (PTHS), and healthy individuals. As input data, the methodology accepts unconstrained frontal facial photographs, from which faces are located with Histograms of Oriented Gradients features descriptors. Pre-processing steps of the methodology consist of colour normalisation, scaling down, rotation, and cropping in order to produce a series of images of faces with consistent dimensions. Sixty eight facial landmarks are automatically located on each face through a cascade of regression functions learnt via gradient boosting to estimate the shape from an initial approximation. The intensities of a sparse set of pixels indexed relative to this initial estimate are used to determine the landmarks. A set of carefully selected geometric features, for example, relative width of the mouth, or angle of the nose, are extracted from the landmarks. The features are used to investigate the statistical differences between the two populations of PTHS and healthy controls. The methodology was tested on 71 individuals with PTHS and 55 healthy controls. Two geometric features related to the nose and mouth showed statistical difference between the two populations.
翻訳日:2022-12-22 12:41:35 公開日:2020-03-19
# クラス応答を用いた軽度PET腫瘍検出

Weakly Supervised PET Tumor Detection Using Class Response ( http://arxiv.org/abs/2003.08337v2 )

ライセンス: Link先を確認
Amine Amyar, Romain Modzelewski, Pierre Vera, Vincent Morard, and Su Ruan(参考訳) 医用画像の最大の課題の1つは、データと注釈付きデータの欠如である。 u-netのような古典的なセグメンテーション手法は有用であるが、注釈付きデータの欠如により制限されていることが証明されている。 弱い教師付き学習を使うことは,この問題に対処する上で有望な方法であるが,画像の変動が大きいため,一つのモデルで異なる種類の病変を効率的に検出・発見する訓練を行うことは困難である。 本稿では,ポジトロン・エミッション・トモグラフィー(PET)画像において,画像レベルでのクラスラベルのみを用いて,異なる種類の病変を特定する手法を提案する。 まず、単純な畳み込みニューラルネットワーク分類器を訓練し、2次元MIP画像上で癌の種類を予測する。 そして、予め知識のあるマルチタスク学習アプローチでバックプロパゲーションされ修正されたクラスアクティベーションマップを使用して、腫瘍の擬似局在を生成し、腫瘍検出マスクを生成する。 最後に,2次元画像から生成したマスクを用いて3次元画像中の腫瘍を検出する。 提案手法の利点は,PET画像の2次元像のみを用いて3次元画像中の腫瘍体積全体を検出することであり,非常に有望な結果を示すことである。 PETスキャンで非常に効率的な腫瘍を見つけるためのツールとして使用できるが、これは医師にとって時間を要する作業である。 また,提案手法は,その成果を活かして放射線検査を行うことができることを示した。

One of the most challenges in medical imaging is the lack of data and annotated data. It is proven that classical segmentation methods such as U-NET are useful but still limited due to the lack of annotated data. Using a weakly supervised learning is a promising way to address this problem, however, it is challenging to train one model to detect and locate efficiently different type of lesions due to the huge variation in images. In this paper, we present a novel approach to locate different type of lesions in positron emission tomography (PET) images using only a class label at the image-level. First, a simple convolutional neural network classifier is trained to predict the type of cancer on two 2D MIP images. Then, a pseudo-localization of the tumor is generated using class activation maps, back-propagated and corrected in a multitask learning approach with prior knowledge, resulting in a tumor detection mask. Finally, we use the mask generated from the two 2D images to detect the tumor in the 3D image. The advantage of our proposed method consists of detecting the whole tumor volume in 3D images, using only two 2D images of PET image, and showing a very promising results. It can be used as a tool to locate very efficiently tumors in a PET scan, which is a time-consuming task for physicians. In addition, we show that our proposed method can be used to conduct a radiomics study with state of the art results.
翻訳日:2022-12-22 09:59:26 公開日:2020-03-19
# 超低分解能rfパワー加速度計による入院患者ベッド出口の警報

Super Low Resolution RF Powered Accelerometers for Alerting on Hospitalized Patient Bed Exits ( http://arxiv.org/abs/2003.08530v1 )

ライセンス: Link先を確認
Michael Chesser, Asangi Jayatilaka, Renuka Visvanathan, Christophe Fumeaux, Alanson Sample, Damith C. Ranasinghe(参考訳) 転倒は重篤な結果となり、高齢者を介護する急性病院や老人ホームで流行している。 ほとんどの滝は寝室やベッドの近くで起こる。 転倒のリスクを軽減する技術介入は、ベッドエクイットのイベントを自動的に監視し、その後医療関係者にタイムリーな監督を提供するよう警告する。 患者活動に関連する周波数領域情報は, 主に低頻度で存在している。 そこで我々は,従来のMEMS加速度計と比較して,低分解能加速度センサの応用の可能性を認識した。 その結果,無線周波数識別(RFID)技術を用いて,病院のガウンなどの衣服への便利な統合の可能性について検討した。 我々は,受動加速度センサを用いたRFIDセンサ---ID-Sensor-の設計と構築を行った。 センサ設計により、患者の上半身の動きに応じてユニークなrfidタグ識別子の変化率から超低解像度の加速度データを導出することができる。 RFIDのみのデータストリームから学習する2つの畳み込みニューラルネットワークアーキテクチャについて検討し,従来の浅層分類器と工学的特徴との比較を行った。 入院高齢者23例の成績を検討した。 私たちは初めて、そして最高の知識のために、そのことを証明します。 一 RF駆動IDセンサデータストリームに埋め込まれた低分解能加速度データにより、活動認識の実践可能な方法を提供できること。 二 完全畳み込みネットワークアーキテクチャを用いて、生のRFIDのみのデータストリームから、高度に識別可能な特徴を効率的に学習することができる。

Falls have serious consequences and are prevalent in acute hospitals and nursing homes caring for older people. Most falls occur in bedrooms and near the bed. Technological interventions to mitigate the risk of falling aim to automatically monitor bed-exit events and subsequently alert healthcare personnel to provide timely supervisions. We observe that frequency-domain information related to patient activities exist predominantly in very low frequencies. Therefore, we recognise the potential to employ a low resolution acceleration sensing modality in contrast to powering and sensing with a conventional MEMS (Micro Electro Mechanical System) accelerometer. Consequently, we investigate a batteryless sensing modality with low cost wirelessly powered Radio Frequency Identification (RFID) technology with the potential for convenient integration into clothing, such as hospital gowns. We design and build a passive accelerometer-based RFID sensor embodiment---ID-Sensor---for our study. The sensor design allows deriving ultra low resolution acceleration data from the rate of change of unique RFID tag identifiers in accordance with the movement of a patient's upper body. We investigate two convolutional neural network architectures for learning from raw RFID-only data streams and compare performance with a traditional shallow classifier with engineered features. We evaluate performance with 23 hospitalized older patients. We demonstrate, for the first time and to the best of knowledge, that: i) the low resolution acceleration data embedded in the RF powered ID-Sensor data stream can provide a practicable method for activity recognition; and ii) highly discriminative features can be efficiently learned from the raw RFID-only data stream using a fully convolutional network architecture.
翻訳日:2022-12-22 05:06:32 公開日:2020-03-19
# mmWaveセルラーネットワークにおけるスペクトル共有のためのハイブリッドモデルとデータ駆動アプローチ

A Hybrid Model-based and Data-driven Approach to Spectrum Sharing in mmWave Cellular Networks ( http://arxiv.org/abs/2003.08611v1 )

ライセンス: Link先を確認
Hossein S. Ghadikolaei, Hadi Ghauch, Gabor Fodor, Mikael Skoglund, and Carlo Fischione(参考訳) ミリ波帯におけるオペレータ間スペクトル共有は、オペレータ間干渉の増加を犠牲にして、スペクトル利用を大幅に増加させ、個々のユーザ機器により大きな帯域を提供する可能性を秘めている。 残念なことに、従来のモデルベースのスペクトル共有スキームは、待ち時間とプロトコルのオーバーヘッドという観点で、オペレータ間協調機構について理想主義的な仮定をする一方で、チャネル状態情報に敏感である。 本稿では,モデルベースビームフォーミングとユーザアソシエーションがデータ駆動モデルの改良によって補完されるハイブリッドモデルベースおよびデータ駆動マルチオペレータスペクトル共有機構を提案する。 私たちのソリューションは、モデルベースのアプローチと同じ計算複雑性を持つが、信号のオーバーヘッドを大幅に減らすという大きな利点がある。 チャネル状態情報と量子化されたコードブックベースのビームフォーミングが学習とスペクトル共有性能に与える影響について論じる。 提案手法は,操作間協調とチャネル状態情報取得における現実的な仮定の下でのスペクトル利用を著しく改善することを示す。

Inter-operator spectrum sharing in millimeter-wave bands has the potential of substantially increasing the spectrum utilization and providing a larger bandwidth to individual user equipment at the expense of increasing inter-operator interference. Unfortunately, traditional model-based spectrum sharing schemes make idealistic assumptions about inter-operator coordination mechanisms in terms of latency and protocol overhead, while being sensitive to missing channel state information. In this paper, we propose hybrid model-based and data-driven multi-operator spectrum sharing mechanisms, which incorporate model-based beamforming and user association complemented by data-driven model refinements. Our solution has the same computational complexity as a model-based approach but has the major advantage of having substantially less signaling overhead. We discuss how limited channel state information and quantized codebook-based beamforming affect the learning and the spectrum sharing performance. We show that the proposed hybrid sharing scheme significantly improves spectrum utilization under realistic assumptions on inter-operator coordination and channel state information acquisition.
翻訳日:2022-12-22 05:06:11 公開日:2020-03-19
# ウェーブレット特徴とディープニューラルネットワークを用いた想像音声の復号

Decoding Imagined Speech using Wavelet Features and Deep Neural Networks ( http://arxiv.org/abs/2003.10433v1 )

ライセンス: Link先を確認
Jerrin Thomas Panachakel, A.G. Ramakrishnan and A.G. Ramakrishnan(参考訳) 本稿では, 深層ニューラルネットワークを用いて予測音声の分類を行い, 分類精度を大幅に向上させる手法を提案する。 提案手法では,脳の特定の領域上の脳波チャネルのみを用いて分類を行い,それぞれのチャネルから特徴ベクトルを導出する。 これにより、分類器をトレーニングするためのデータが増え、ディープラーニングアプローチの使用が可能になります。 各チャネルからウェーブレットおよび時間領域の特徴を抽出する。 各試験試験の最終クラスラベルは、試験で考慮された個々のチャンネルの分類結果に過半数投票を適用することで得られる。 このアプローチは、想像された音声のKaraOneデータセット内の11のプロンプトを分類するために使用される。 提案したアーキテクチャとデータ処理のアプローチにより,57.15%の平均分類精度が向上し,最先端の結果よりも約35%向上した。

This paper proposes a novel approach that uses deep neural networks for classifying imagined speech, significantly increasing the classification accuracy. The proposed approach employs only the EEG channels over specific areas of the brain for classification, and derives distinct feature vectors from each of those channels. This gives us more data to train a classifier, enabling us to use deep learning approaches. Wavelet and temporal domain features are extracted from each channel. The final class label of each test trial is obtained by applying a majority voting on the classification results of the individual channels considered in the trial. This approach is used for classifying all the 11 prompts in the KaraOne dataset of imagined speech. The proposed architecture and the approach of treating the data have resulted in an average classification accuracy of 57.15%, which is an improvement of around 35% over the state-of-the-art results.
翻訳日:2022-12-22 05:05:28 公開日:2020-03-19
# 機械学習による2次元材料の応用依存設計原理の発見

Machine Learning Enabled Discovery of Application Dependent Design Principles for Two-dimensional Materials ( http://arxiv.org/abs/2003.13418v1 )

ライセンス: Link先を確認
Victor Venturi and Holden Parks and Zeeshan Ahmad and Venkatasubramanian Viswanathan(参考訳) 高性能候補2D材料の大規模探索は、いくつかの単純な記述子(通常は第一原理密度汎関数理論計算)の計算に限られる。 本研究では,結晶グラフ畳み込みニューラルネットワークを平面周期性を持つ系に拡張・一般化し,熱力学的,機械的,電子的性質を予測するためのモデルのアンサンブルを訓練することにより,この問題を軽減する。 この手法の有用性を実証するために, 機械的にロバストな複合材料と太陽光発電の2つの応用について, 約45,000の構造物のスクリーニングを行った。 提案手法に関する不確実性の解析は,ニューラルネットワークのアンサンブルがよく校正されており,精度の高い第一原理密度汎関数理論計算による誤差と同等であることを示している。 モデルのアンサンブルにより、予測の信頼性を測り、アプリケーションの効果的な性能を示す可能性が最も高い候補を見つけることができます。 スクリーニングに用いたデータセットは組合せ的に生成されるため、調査対象の構造の性質に影響を与え、リバースエンジニアリングによる将来の材料発見のための生成モデルベースとして機能する革新的な手法、構造および構成設計原則を用いて、調査も可能である。 例えば、鉛とスズを併用した有機-無機ペロブスカイトが太陽電池の応用に良い候補になる傾向があることを発見したのです。

The large-scale search for high-performing candidate 2D materials is limited to calculating a few simple descriptors, usually with first-principles density functional theory calculations. In this work, we alleviate this issue by extending and generalizing crystal graph convolutional neural networks to systems with planar periodicity, and train an ensemble of models to predict thermodynamic, mechanical, and electronic properties. To demonstrate the utility of this approach, we carry out a screening of nearly 45,000 structures for two largely disjoint applications: namely, mechanically robust composites and photovoltaics. An analysis of the uncertainty associated with our methods indicates the ensemble of neural networks is well-calibrated and has errors comparable with those from accurate first-principles density functional theory calculations. The ensemble of models allows us to gauge the confidence of our predictions, and to find the candidates most likely to exhibit effective performance in their applications. Since the datasets used in our screening were combinatorically generated, we are also able to investigate, using an innovative method, structural and compositional design principles that impact the properties of the structures surveyed and which can act as a generative model basis for future material discovery through reverse engineering. Our approach allowed us to recover some well-accepted design principles: for instance, we find that hybrid organic-inorganic perovskites with lead and tin tend to be good candidates for solar cell applications.
翻訳日:2022-12-22 05:05:13 公開日:2020-03-19
# Blockchainがバイオメトリックスに到達 - 概念,テンプレート保護への応用,トレンド

Blockchain meets Biometrics: Concepts, Application to Template Protection, and Trends ( http://arxiv.org/abs/2003.09262v1 )

ライセンス: Link先を確認
Oscar Delgado-Mohatar, Julian Fierrez, Ruben Tolosana and Ruben Vera-Rodriguez(参考訳) ブロックチェーン技術は、バイオメトリックテンプレートに格納された機密データとプライベートデータを安全かつ管理するための優れたアーキテクチャと実用的なツールを提供するが、コストはかかる。 ブロックチェーンとバイオメトリックスの統合における機会と課題について論じるとともに、バイオメトリックスにおける重要な問題であるバイオメトリックスストレージとプロテクションに重点を置いている。 統合に関わる重要なトレードオフ、すなわちレイテンシ、処理時間、経済コスト、バイオメトリックパフォーマンスは、研究目的でgithubで公開されているethereumブロックチェーンプラットフォーム上のスマートコントラクトの実装を通じて実験的に研究されている。

Blockchain technologies provide excellent architectures and practical tools for securing and managing the sensitive and private data stored in biometric templates, but at a cost. We discuss opportunities and challenges in the integration of blockchain and biometrics, with emphasis in biometric template storage and protection, a key problem in biometrics still largely unsolved. Key tradeoffs involved in that integration, namely, latency, processing time, economic cost, and biometric performance are experimentally studied through the implementation of a smart contract on the Ethereum blockchain platform, which is publicly available in github for research purposes.
翻訳日:2022-12-22 05:01:39 公開日:2020-03-19
# 侵入検知システムのためのハイブリッドモデル

Hybrid Model For Intrusion Detection Systems ( http://arxiv.org/abs/2003.08585v1 )

ライセンス: Link先を確認
Baha Rababah, Srija Srivastava(参考訳) ネットワークトラフィックの増加に対する新たな攻撃の増加に伴い、機密データやお金の喪失を避けるために、悪意のある行為を即座に警告することは困難になっている。 これは、侵入検知をネットワークセキュリティにおける主要な関心領域の1つにしている。 異常に基づくネットワーク侵入検出技術は最もよく用いられる手法の1つである。 これらのテクニックをテストするために使用されるデータセットによって、精度が異なる。 ほとんどの場合、このデータセットは実際のネットワークトラフィックを表していません。 これを考慮すると、現在の現実世界のネットワークトラフィック(CICIDS2017)とKDD 99(NSL-KDD)の2つのデータセットでテストする場合、侵入検知システムで使用されるさまざまな機械学習アルゴリズムの分析を含む。 両データセットの異なる侵入検知システムの解析の後、本プロジェクトは侵入検知システムのための新しいハイブリッドモデルを開発することを目的とした。 この新しいハイブリッドアプローチでは、決定木とランダムフォレストアルゴリズムを組み合わせることで、85.2%の精度と、nsl-kddデータセットの86.2%の精度を実現し、98%の精度とcicids2017データセットの98%の精度を達成している。

With the increasing number of new attacks on ever growing network traffic, it is becoming challenging to alert immediately any malicious activities to avoid loss of sensitive data and money. This is making intrusion detection as one of the major areas of concern in network security. Anomaly based network intrusion detection technique is one of the most commonly used technique. Depending upon the dataset used to test those techniques, the accuracy varies. Most of the times this dataset does not represent the real network traffic. Considering this, this project involves analysis of different machine learning algorithms used in intrusion detection systems, when tested upon two datasets which are similar to current real world network traffic(CICIDS2017) and an improvement of KDD 99 (NSL-KDD). After the analysis of different intrusion detection systems on both the datasets, this project aimed to develop a new hybrid model for intrusion detection systems. This new hybrid approach combines decision tree and random forest algorithms using stacking scheme to achieve an accuracy of 85.2% and precision of 86.2% for NSL-KDD dataset, and achieve an accuracy of 98% and precision of 98% for CICIDS2017 dataset.
翻訳日:2022-12-22 05:01:01 公開日:2020-03-19
# Conjugate SMOによる高速SVMトレーニング

Faster SVM Training via Conjugate SMO ( http://arxiv.org/abs/2003.08719v1 )

ライセンス: Link先を確認
Alberto Torres-Barr\'an and Carlos Ala\'iz and Jos\'e R. Dorronsoro(参考訳) 共役Descent 法に基づく分類と回帰SVMの学習のためのSMOアルゴリズムの改良版を提案する。 この新しいアプローチは、各イテレーションの計算コストをわずかに増加させるだけであるが、通常、与えられた精度に収束するために必要なイテレーションの数が大幅に減少する。 さらに、この新しい共役SMOの繰り返しの収束と、カーネル行列が正定値であるときの線形速度を証明した。 We have implemented Conjugate SMO in the LIBSVM library and showed experimentally that it is faster for many hyper-parameter configurations, are often be better option than second order SMO when performed a grid-search for SVM tuning。

We propose an improved version of the SMO algorithm for training classification and regression SVMs, based on a Conjugate Descent procedure. This new approach only involves a modest increase on the computational cost of each iteration but, in turn, usually results in a substantial decrease in the number of iterations required to converge to a given precision. Besides, we prove convergence of the iterates of this new Conjugate SMO as well as a linear rate when the kernel matrix is positive definite. We have implemented Conjugate SMO within the LIBSVM library and show experimentally that it is faster for many hyper-parameter configurations, being often a better option than second order SMO when performing a grid-search for SVM tuning.
翻訳日:2022-12-22 05:00:40 公開日:2020-03-19
# 変形および剛体操作の視覚行動計画のための潜在空間ロードマップ

Latent Space Roadmap for Visual Action Planning of Deformable and Rigid Object Manipulation ( http://arxiv.org/abs/2003.08974v1 )

ライセンス: Link先を確認
Martina Lippi, Petra Poklukar, Michael C. Welle, Anastasiia Varava, Hang Yin, Alessandro Marino and Danica Kragic(参考訳) 本稿では,変形可能なオブジェクトの操作などの高次元状態空間を用いた複雑な操作タスクの視覚行動計画フレームワークを提案する。 計画は画像を埋め込んだ低次元の潜在状態空間で実行される。 我々は、潜在システムのダイナミクスをグローバルに捉えたグラフベースの構造である潜在空間ロードマップ(lsr)を定義し、実装する。 私たちのフレームワークは、画像のシーケンスとしてビジュアルプランを生成するvisual foresight module(vfm)と、それらの間のアクションを予測するaction proposal network(apn)の2つの主要なコンポーネントで構成されています。 本手法は,実ロボットによるtシャツ折り畳み作業だけでなく,シミュレーションボックス積み重ね作業にも有効であることを示す。

We present a framework for visual action planning of complex manipulation tasks with high-dimensional state spaces such as manipulation of deformable objects. Planning is performed in a low-dimensional latent state space that embeds images. We define and implement a Latent Space Roadmap (LSR) which is a graph-based structure that globally captures the latent system dynamics. Our framework consists of two main components: a Visual Foresight Module (VFM) that generates a visual plan as a sequence of images, and an Action Proposal Network (APN) that predicts the actions between them. We show the effectiveness of the method on a simulated box stacking task as well as a T-shirt folding task performed with a real robot.
翻訳日:2022-12-22 05:00:26 公開日:2020-03-19
# DRST:高密度光場再構成のための深部残留せん断変形

DRST: Deep Residual Shearlet Transform for Densely Sampled Light Field Reconstruction ( http://arxiv.org/abs/2003.08865v1 )

ライセンス: Link先を確認
Yuan Gao, Robert Bregovic, Reinhard Koch and Atanas Gotchev(参考訳) image-based rendering (ibr) approach using shearlet transform (st) は、集束光場(dslf)再構成の最も効果的な方法の1つである。 STベースのDSLF再構成は、一般に時間を要する画像領域とシャーレット領域の間の数十の変換を含む、シャーレット領域におけるエピポーラ・プラン画像(EPI)スパース正規化の反復しきい値アルゴリズムに依存する。 この制限を克服するために,Deep Residual Shearlet Transform (DRST)と呼ばれる新しい学習ベースST手法を提案する。 具体的には、入力スパースサンプリング EPI に対して、DRST は深い完全畳み込みニューラルネットワーク (CNN) を用いて、シャーレット領域のシャーレット係数の残差を予測し、画像領域の密サンプリング EPI を再構成する。 DRSTネットワークは、精巧に設計されたマスクを活用することでのみ、Sparsely-Sampled Light Field (SSLF)データに基づいて訓練される。 中等距離の異なる3つの実世界の光場評価データセット(8-16ピクセル)の実験結果から,DSLF再構成のための非学習ベースST法よりも,学習ベースDRSTアプローチの方が優れていることが示された。 さらに、DRSTは少なくともSTの2.4倍のスピードアップを提供する。

The Image-Based Rendering (IBR) approach using Shearlet Transform (ST) is one of the most effective methods for Densely-Sampled Light Field (DSLF) reconstruction. The ST-based DSLF reconstruction typically relies on an iterative thresholding algorithm for Epipolar-Plane Image (EPI) sparse regularization in shearlet domain, involving dozens of transformations between image domain and shearlet domain, which are in general time-consuming. To overcome this limitation, a novel learning-based ST approach, referred to as Deep Residual Shearlet Transform (DRST), is proposed in this paper. Specifically, for an input sparsely-sampled EPI, DRST employs a deep fully Convolutional Neural Network (CNN) to predict the residuals of the shearlet coefficients in shearlet domain in order to reconstruct a densely-sampled EPI in image domain. The DRST network is trained on synthetic Sparsely-Sampled Light Field (SSLF) data only by leveraging elaborately-designed masks. Experimental results on three challenging real-world light field evaluation datasets with varying moderate disparity ranges (8 - 16 pixels) demonstrate the superiority of the proposed learning-based DRST approach over the non-learning-based ST method for DSLF reconstruction. Moreover, DRST provides a 2.4x speedup over ST, at least.
翻訳日:2022-12-22 04:59:55 公開日:2020-03-19
# 3次記憶センター臨床ルーチンコーホートにおけるmri分類アルゴリズムの精度

Accuracy of MRI Classification Algorithms in a Tertiary Memory Center Clinical Routine Cohort ( http://arxiv.org/abs/2003.09260v1 )

ライセンス: Link先を確認
Alexandre Morin (ARAMIS), Jorge Samper-Gonz\'alez (ARAMIS), Anne Bertrand (ARAMIS), Sebastian Stroer, Didier Dormont (ICM, ARAMIS), Aline Mendes, Pierrick Coup\'e, Jamila Ahdidan, Marcel L\'evy (IM2A), Dalila Samri, Harald Hampel, Bruno Dubois (APM), Marc Teichmann (FRONTlab), St\'ephane Epelbaum (ARAMIS), Olivier Colliot (ARAMIS)(参考訳) 背景:automated volumetry software(avs)は最近、神経放射線科医に広く利用できるようになった。 AVSによるMRI容積検査は、局所萎縮を同定することにより認知症の診断を支援する可能性がある。 さらに、機械学習技術を用いた自動分類器が、診断支援のための有望なアプローチとして最近登場した。 AVSと自動分類器の性能は, 主に研究データセットの人工的な設定で評価されている。OBJECTIVE:我々の目的は, 単一の記憶センターコホートから認知障害を有する239人の患者を対象に, 記憶クリニックの臨床ルーチンにおける2つのAVSと自動分類器の性能を評価することであった。 臨床用T1強調MRIを用いて, 分類性能について検討した。 1) AVS (volBrain と Neuroreader$^{TM}$) を用いた単変量ボリューム 2) AVSボリューム(SVM-AVS)または全グレーマター(SVM-WGM)を使用するSVM自動分類器のサポート。 3)神経放射線科医2名による読影 性能指標は、バランスのとれた診断精度であった。 基準基準は, 臨床, 生物学的 (脳脊髄液) および画像データを用いた3名の神経科医によるコンセンサス診断であり, 国際基準に準じた。 SVM-AVS分類器(52%から85%)を使用すると精度が向上し、SVM-WGM(52~90%)に近かった。 神経放射線医による視覚分類はSVM-AVSとSVM-WGM.CONCLUSIONにより異なる:記憶クリニックの日常的な実践では、AVSが提供する容積測定は適度な精度しか得られない。 自動分類器は精度を向上し、診断を助けるのに役立つ。

BACKGROUND:Automated volumetry software (AVS) has recently become widely available to neuroradiologists. MRI volumetry with AVS may support the diagnosis of dementias by identifying regional atrophy. Moreover, automatic classifiers using machine learning techniques have recently emerged as promising approaches to assist diagnosis. However, the performance of both AVS and automatic classifiers has been evaluated mostly in the artificial setting of research datasets.OBJECTIVE:Our aim was to evaluate the performance of two AVS and an automatic classifier in the clinical routine condition of a memory clinic.METHODS:We studied 239 patients with cognitive troubles from a single memory center cohort. Using clinical routine T1-weighted MRI, we evaluated the classification performance of: 1) univariate volumetry using two AVS (volBrain and Neuroreader$^{TM}$); 2) Support Vector Machine (SVM) automatic classifier, using either the AVS volumes (SVM-AVS), or whole gray matter (SVM-WGM); 3) reading by two neuroradiologists. The performance measure was the balanced diagnostic accuracy. The reference standard was consensus diagnosis by three neurologists using clinical, biological (cerebrospinal fluid) and imaging data and following international criteria.RESULTS:Univariate AVS volumetry provided only moderate accuracies (46% to 71% with hippocampal volume). The accuracy improved when using SVM-AVS classifier (52% to 85%), becoming close to that of SVM-WGM (52 to 90%). Visual classification by neuroradiologists ranged between SVM-AVS and SVM-WGM.CONCLUSION:In the routine practice of a memory clinic, the use of volumetric measures provided by AVS yields only moderate accuracy. Automatic classifiers can improve accuracy and could be a useful tool to assist diagnosis.
翻訳日:2022-12-22 04:59:30 公開日:2020-03-19
# ベクトルポアソンチャネル:条件付き平均推定器の線形性について

The Vector Poisson Channel: On the Linearity of the Conditional Mean Estimator ( http://arxiv.org/abs/2003.08967v1 )

ライセンス: Link先を確認
Alex Dytso, Michael Fauss, and H. Vincent Poor(参考訳) 本研究では,ベクトルポアソン雑音における条件平均推定器の特性について検討する。 主な重点は、条件付き平均推定器の線形性を誘導する事前分布の条件を研究することである。 論文は2つの主要な結果から成り立っている。 最初の結果は、条件付き平均推定器の線形性を誘導する唯一の分布は積ガンマ分布であることを示している。 また,ポアソン雑音の暗電流パラメータがゼロでない場合,条件平均推定器は線形にはならないことを示した。 第2の結果は、第1の結果を定量的に洗練する。 具体的には、条件平均推定器が平均二乗誤差感覚で線型に近ければ、前の分布はその特性関数の観点から積ガンマ分布に近くなければならないことを示す。 最後に、結果はガウスのものと比較される。

This work studies properties of the conditional mean estimator in vector Poisson noise. The main emphasis is to study conditions on prior distributions that induce linearity of the conditional mean estimator. The paper consists of two main results. The first result shows that the only distribution that induces the linearity of the conditional mean estimator is a product gamma distribution. Moreover, it is shown that the conditional mean estimator cannot be linear when the dark current parameter of the Poisson noise is non-zero. The second result produces a quantitative refinement of the first result. Specifically, it is shown that if the conditional mean estimator is close to linear in a mean squared error sense, then the prior distribution must be close to a product gamma distribution in terms of their characteristic functions. Finally, the results are compared to their Gaussian counterparts.
翻訳日:2022-12-22 04:59:00 公開日:2020-03-19
# X線画像の終端診断

End-to-End Deep Diagnosis of X-ray Images ( http://arxiv.org/abs/2003.08605v1 )

ライセンス: Link先を確認
Kudaibergen Urinbayev, Yerassyl Orazbek, Yernur Nurambek, Almas Mirzakhmetov, and Huseyin Atakan Varol(参考訳) 本研究では,X線画像診断のためのエンドツーエンドのディープラーニングフレームワークを提案する。 最初のステップとして,提案した画像がX線か否かを判定する。 x線の種類を分類した後、専用の異常分類ネットワークを実行する。 本研究は,異常分類のための胸部X線のみに焦点を当てる。 しかし、システムは他のX線タイプにも容易に拡張できる。 ディープラーニング分類器はDenseNet-121アーキテクチャに基づいている。 「x線か否か」,「x線型分類」,「胸部異常分類」のそれぞれタスクの精度は0.987,0.976,0.947であり、エンドツーエンドの精度は0.991である。 最良異常分類」における最先端技術よりも優れた結果を得るためには,新しいRAdamオプティマイザを利用する。 結果の視覚的な説明には勾配強調クラスアクティベーションマッピングも使用しています。 以上より,オンライン投影x線診断システムの実現可能性を示す。

In this work, we present an end-to-end deep learning framework for X-ray image diagnosis. As the first step, our system determines whether a submitted image is an X-ray or not. After it classifies the type of the X-ray, it runs the dedicated abnormality classification network. In this work, we only focus on the chest X-rays for abnormality classification. However, the system can be extended to other X-ray types easily. Our deep learning classifiers are based on DenseNet-121 architecture. The test set accuracy obtained for 'X-ray or Not', 'X-ray Type Classification', and 'Chest Abnormality Classification' tasks are 0.987, 0.976, and 0.947, respectively, resulting into an end-to-end accuracy of 0.91. For achieving better results than the state-of-the-art in the 'Chest Abnormality Classification', we utilize the new RAdam optimizer. We also use Gradient-weighted Class Activation Mapping for visual explanation of the results. Our results show the feasibility of a generalized online projectional radiography diagnosis system.
翻訳日:2022-12-22 04:53:25 公開日:2020-03-19
# 画像スケーリングアタックによるバックドアと毒付けニューラルネットワーク

Backdooring and Poisoning Neural Networks with Image-Scaling Attacks ( http://arxiv.org/abs/2003.08633v1 )

ライセンス: Link先を確認
Erwin Quiring and Konrad Rieck(参考訳) バックドアと中毒攻撃は、機械学習とビジョンシステムのセキュリティにとって大きな脅威である。 しかし、しばしばこれらの攻撃は、視覚的に検出され、攻撃の有効性を弱める可能性のある画像に目に見えるアーティファクトを残す。 本稿では,バックドアと中毒攻撃を隠すための新しい戦略を提案する。 われわれのアプローチは、最近の画像スケーリングに対する攻撃に基づいている。 これらの攻撃により、特定の解像度にスケールした時に内容を変更するような画像を操作することができる。 中毒と画像スケーリングを組み合わせることで、バックドアのトリガーを隠蔽し、クリーンラベル中毒のオーバーレイを隠蔽することができる。 さらに,画像スケーリング攻撃の検出を考慮し,適応攻撃を導出する。 実証的な評価では、戦略の有効性を実証する。 まず、画像スケーリング攻撃と組み合わせると、バックドアと中毒が等しく機能することを示す。 第2に、画像スケーリング攻撃に対する現在の検出防御は、我々の操作を明らかにするには不十分であることを示す。 全体として、我々の研究は、さまざまな毒殺アプローチに適用可能な、操作の痕跡を隠す新しい手段を提供する。

Backdoors and poisoning attacks are a major threat to the security of machine-learning and vision systems. Often, however, these attacks leave visible artifacts in the images that can be visually detected and weaken the efficacy of the attacks. In this paper, we propose a novel strategy for hiding backdoor and poisoning attacks. Our approach builds on a recent class of attacks against image scaling. These attacks enable manipulating images such that they change their content when scaled to a specific resolution. By combining poisoning and image-scaling attacks, we can conceal the trigger of backdoors as well as hide the overlays of clean-label poisoning. Furthermore, we consider the detection of image-scaling attacks and derive an adaptive attack. In an empirical evaluation, we demonstrate the effectiveness of our strategy. First, we show that backdoors and poisoning work equally well when combined with image-scaling attacks. Second, we demonstrate that current detection defenses against image-scaling attacks are insufficient to uncover our manipulations. Overall, our work provides a novel means for hiding traces of manipulations, being applicable to different poisoning approaches.
翻訳日:2022-12-22 04:52:54 公開日:2020-03-19
# 大きく変化するフレームの自然映像におけるフォトリアリスティック映像予測

Photo-Realistic Video Prediction on Natural Videos of Largely Changing Frames ( http://arxiv.org/abs/2003.08635v1 )

ライセンス: Link先を確認
Osamu Shouno(参考訳) 近年の深層学習は映像予測の性能を大幅に向上させた。 しかし、最先端の手法は、特にフレーム間の大きな動きがある場合、将来の予測においてぼやけや歪みに未だに苦しんでいる。 これらの問題に対処するために,各層が異なる空間分解能で将来の状態を予測し,これら異なる層の予測をトップダウン接続でマージして将来のフレームを生成する階層型ネットワークを提案する。 我々は,車載カメラで撮影した自然映像データセットを用いて,敵対的および知覚的損失関数を用いてモデルの評価を行った。 本モデルでは,大局的および小局的に変化するフレームの映像系列に対する将来のフレーム予測において,最先端のベースラインを定量的に上回る。 さらに,本モデルは,特に高速カメラ動作下では,ベースラインよりも知覚的に現実的な細部やテクスチャを備えた将来のフレームを生成する。

Recent advances in deep learning have significantly improved performance of video prediction. However, state-of-the-art methods still suffer from blurriness and distortions in their future predictions, especially when there are large motions between frames. To address these issues, we propose a deep residual network with the hierarchical architecture where each layer makes a prediction of future state at different spatial resolution, and these predictions of different layers are merged via top-down connections to generate future frames. We trained our model with adversarial and perceptual loss functions, and evaluated it on a natural video dataset captured by car-mounted cameras. Our model quantitatively outperforms state-of-the-art baselines in future frame prediction on video sequences of both largely and slightly changing frames. Furthermore, our model generates future frames with finer details and textures that are perceptually more realistic than the baselines, especially under fast camera motions.
翻訳日:2022-12-22 04:52:38 公開日:2020-03-19
# 3次元CNNにおける局所回転不変性

Local Rotation Invariance in 3D CNNs ( http://arxiv.org/abs/2003.08890v1 )

ライセンス: Link先を確認
Vincent Andrearczyk, Julien Fageot, Valentin Oreiller, Xavier Montet, Adrien Depeursinge(参考訳) 局所回転不変量(LRI)画像解析は多くの応用、特に局所的な組織構造が任意の回転で起こる医療画像において基礎となることが示されている。 LRIは局所バイナリパターン(LBP)、最大応答8(MR8)、ステアブルフィルタバンクなど、テクスチャ解析におけるいくつかのブレークスルーの基盤を構成する。 グローバルな回転不変な畳み込みニューラルネットワーク(CNN)が最近提案されているが、ディープラーニングの文脈ではLRIはほとんど研究されなかった。 LRIの設計では、学習フィルタが全ての向きを考慮し、標準の3D CNNと比較してトレーニング可能なパラメータとトレーニングデータの大幅な削減が可能である。 本稿では,方向感度を持つlri cnnを得るためのいくつかの手法を提案し,比較する。 2つの方法は、明示的にカーネルを回転させるか、ステアブルフィルタを使用する。 これらの配向チャネルは、データの局所回転同変表現を構成する。 向きを横切る局所的なプーリングは、LRI画像解析をもたらす。 定常フィルタを用いて3次元回転の精密かつ効率的なサンプリングと、学習された放射状プロファイルを持つSHの積である固体球高調波(SH)を含むパラメトリック表現により、訓練可能なパラメータと演算の低減を実現し、第3の戦略として、固体SHの学習集合に対する応答から算出した回転不変量に基づいてLRIを得る。 提案手法は, 回転パターンからなる合成テクスチャボリュームとCTにおける肺結節分類を含む3次元データセットの標準CNNと比較して評価し, 比較した。 その結果、LRI画像解析の重要性が示され、トレーニング可能なパラメータが大幅に削減され、データ拡張で訓練された標準3D CNNよりも優れていた。

Locally Rotation Invariant (LRI) image analysis was shown to be fundamental in many applications and in particular in medical imaging where local structures of tissues occur at arbitrary rotations. LRI constituted the cornerstone of several breakthroughs in texture analysis, including Local Binary Patterns (LBP), Maximum Response 8 (MR8) and steerable filterbanks. Whereas globally rotation invariant Convolutional Neural Networks (CNN) were recently proposed, LRI was very little investigated in the context of deep learning. LRI designs allow learning filters accounting for all orientations, which enables a drastic reduction of trainable parameters and training data when compared to standard 3D CNNs. In this paper, we propose and compare several methods to obtain LRI CNNs with directional sensitivity. Two methods use orientation channels (responses to rotated kernels), either by explicitly rotating the kernels or using steerable filters. These orientation channels constitute a locally rotation equivariant representation of the data. Local pooling across orientations yields LRI image analysis. Steerable filters are used to achieve a fine and efficient sampling of 3D rotations as well as a reduction of trainable parameters and operations, thanks to a parametric representations involving solid Spherical Harmonics (SH), which are products of SH with associated learned radial profiles.Finally, we investigate a third strategy to obtain LRI based on rotational invariants calculated from responses to a learned set of solid SHs. The proposed methods are evaluated and compared to standard CNNs on 3D datasets including synthetic textured volumes composed of rotated patterns, and pulmonary nodule classification in CT. The results show the importance of LRI image analysis while resulting in a drastic reduction of trainable parameters, outperforming standard 3D CNNs trained with data augmentation.
翻訳日:2022-12-22 04:52:03 公開日:2020-03-19
# MOT20:混み合ったシーンにおけるマルチオブジェクト追跡のためのベンチマーク

MOT20: A benchmark for multi object tracking in crowded scenes ( http://arxiv.org/abs/2003.09003v1 )

ライセンス: Link先を確認
Patrick Dendorfer, Hamid Rezatofighi, Anton Milan, Javen Shi, Daniel Cremers, Ian Reid, Stefan Roth, Konrad Schindler, and Laura Leal-Taix\'e(参考訳) 標準化されたベンチマークは、ほとんどのコンピュータビジョンアプリケーションにとって不可欠である。 リーダーボードやランキング表は過大評価されるべきではないが、ベンチマークはパフォーマンスの最も客観的な指標を提供するため、研究のための重要なガイドである。 Multi Object TrackingのベンチマークであるMOTChallengeは、複数のオブジェクト追跡メソッドの標準化された評価を確立することを目的としている。 歩行者は追跡コミュニティでよく研究されており、正確な追跡と検出は実用的な妥当性が高いため、この課題は複数の人の追跡に焦点を当てている。 最初のリリース以来、mot15、mot16、mot17は、マルチオブジェクトトラッカをベンチマークするためのクリーンなデータセットと正確なフレームワークを導入することで、コミュニティに多大な貢献をした。 本稿では,非常に混み合ったシーンを描写した8つの新しいシーケンスからなるMOT20ベンチマークを提案する。 このベンチマークは、コンピュータビジョンとパターン認識カンファレンス(CVPR) 2019の第4回BMTT MOTチャレンジワークショップで最初に発表された。

Standardized benchmarks are crucial for the majority of computer vision applications. Although leaderboards and ranking tables should not be over-claimed, benchmarks often provide the most objective measure of performance and are therefore important guides for research. The benchmark for Multiple Object Tracking, MOTChallenge, was launched with the goal to establish a standardized evaluation of multiple object tracking methods. The challenge focuses on multiple people tracking, since pedestrians are well studied in the tracking community, and precise tracking and detection has high practical relevance. Since the first release, MOT15, MOT16, and MOT17 have tremendously contributed to the community by introducing a clean dataset and precise framework to benchmark multi-object trackers. In this paper, we present our MOT20benchmark, consisting of 8 new sequences depicting very crowded challenging scenes. The benchmark was presented first at the 4thBMTT MOT Challenge Workshop at the Computer Vision and Pattern Recognition Conference (CVPR) 2019, and gives to chance to evaluate state-of-the-art methods for multiple object tracking when handling extremely crowded scenarios.
翻訳日:2022-12-22 04:43:54 公開日:2020-03-19
# QnAMaker:2分でボットにデータを送る

QnAMaker: Data to Bot in 2 Minutes ( http://arxiv.org/abs/2003.08553v1 )

ライセンス: Link先を確認
Parag Agrawal, Tulasi Menon, Aya Kamel, Michel Naim, Chaikesh Chouragade, Gurvinder Singh, Rohan Kulkarni, Anshuman Suri, Sahithi Katakam, Vineet Pratik, Prakul Bansal, Simerpreet Kaur, Neha Rajput, Anand Duggal, Achraf Chalabi, Prashant Choudhari, Reddy Satti, Niranjan Nayak(参考訳) シームレスな会話のためのボットを持つことは、今日の製品やサービスがwebサイトやモバイルアプリに求める非常に好意的な機能だ。 これらのボットは、頻繁で直接答えられる既知の質問に対処することで、人間のサポートによって受けるトラフィックを大幅に削減する。 このようなサービスの多くは、FAQページのような巨大な参照ドキュメントを持っています。 このような生データ上の会話層は、人的サポートへのトラフィックを大きなマージンで減少させることができる。 QnAMakerは、FAQページや製品マニュアル、サポートドキュメントなどの半構造化データの上に会話層を作成するサービスである。 QnAMakerは、サービスとして抽出と質問回答の一般的な選択肢であり、15,000以上のボットがプロダクションで使用している。 ボットだけでなく、検索インターフェースでも使われている。

Having a bot for seamless conversations is a much-desired feature that products and services today seek for their websites and mobile apps. These bots help reduce traffic received by human support significantly by handling frequent and directly answerable known questions. Many such services have huge reference documents such as FAQ pages, which makes it hard for users to browse through this data. A conversation layer over such raw data can lower traffic to human support by a great margin. We demonstrate QnAMaker, a service that creates a conversational layer over semi-structured data such as FAQ pages, product manuals, and support documents. QnAMaker is the popular choice for Extraction and Question-Answering as a service and is used by over 15,000 bots in production. It is also used by search interfaces and not just bots.
翻訳日:2022-12-22 04:43:12 公開日:2020-03-19
# EQL -- 知識グラフクエリ言語を極めて簡単に学習し、高速かつ正確な検索を実現する

EQL -- an extremely easy to learn knowledge graph query language, achieving highspeed and precise search ( http://arxiv.org/abs/2003.11105v1 )

ライセンス: Link先を確認
Han Liu, Shantao Liu(参考訳) EQLはExtremely Simple Query Languageとも呼ばれ、知識グラフ、正確な検索、強力な人工知能、データベース、スマートスピーカー、パテント検索、その他の分野で広く利用することができる。 EQLは設計において最小主義の原則を採用し、シンプルで簡単に学習し、誰もが素早く習得できるようにしている。 EQL言語とラムダ計算は相互変換可能で、EQL言語の数学的性質を明らかにし、EQL言語の厳密性と論理的整合性のための確固たる基盤を提供する。 EQL言語と世界のコモンセンスを備えた包括的な知識グラフシステムは、将来的に強力なAIの基礎を形成し、現在のAIシステムによる世界のコモンセンスの理解の欠如を補うことができる。 EQL言語は人間だけでなく、データクエリやロボット間のデータ交換のための基本言語としても使用できる。

EQL, also named as Extremely Simple Query Language, can be widely used in the field of knowledge graph, precise search, strong artificial intelligence, database, smart speaker ,patent search and other fields. EQL adopt the principle of minimalism in design and pursues simplicity and easy to learn so that everyone can master it quickly. EQL language and lambda calculus are interconvertible, that reveals the mathematical nature of EQL language, and lays a solid foundation for rigor and logical integrity of EQL language. The EQL language and a comprehensive knowledge graph system with the world's commonsense can together form the foundation of strong AI in the future, and make up for the current lack of understanding of world's commonsense by current AI system. EQL language can be used not only by humans, but also as a basic language for data query and data exchange between robots.
翻訳日:2022-12-22 04:43:02 公開日:2020-03-19
# 多値共振器を有する複数物体を用いた自然画像における有向物体検出の評価

Evaluating Salient Object Detection in Natural Images with Multiple Objects having Multi-level Saliency ( http://arxiv.org/abs/2003.08514v1 )

ライセンス: Link先を確認
G\"okhan Yildirim, Debashis Sen, Mohan Kankanhalli, and Sabine S\"usstrunk(参考訳) salientオブジェクト検出は、salientオブジェクトクラスとバックグラウンドを持つバイナリ基底真理を用いて評価される。 本稿では,自然画像中のオブジェクトが本質的に重要度が異なると認識される,新しい画像データセットに関する3つの主観的な実験に基づいて相関する。 我々のデータセットは、SalMoN(複数オブジェクトの自然画像の可用性)と呼ばれ、複数のオブジェクトを含む588の画像を持つ。 主観的実験では、眼球固定期間、点クリック、矩形描画による自発的注意と知覚が記録された。 マルチオブジェクト画像におけるオブジェクトのサルエンシーは本質的にマルチレベルであるため、サルエントオブジェクトクラス検出機能とは別に、すべてのマルチレベルサルエントオブジェクトを検出する能力のためにサルエントオブジェクト検出を評価する必要がある。 そこで本研究では,主観的実験結果を用いて,データセットの全ての画像に対応する基底的真理として,ラベルを多レベルサルエントオブジェクトと背景として生成する。 そこで我々は, 平均絶対誤差, ケンドールのランク相関, および精度・リコール曲線に基づく平均領域を用いて, 多レベルサリエンシ基底真実データセット上の既存の有意物体検出手法を評価する。 グラフの局所的グローバル階層処理として,画像上の塩分検出を表現する手法は,データセットにおいて良好に機能する。

Salient object detection is evaluated using binary ground truth with the labels being salient object class and background. In this paper, we corroborate based on three subjective experiments on a novel image dataset that objects in natural images are inherently perceived to have varying levels of importance. Our dataset, named SalMoN (saliency in multi-object natural images), has 588 images containing multiple objects. The subjective experiments performed record spontaneous attention and perception through eye fixation duration, point clicking and rectangle drawing. As object saliency in a multi-object image is inherently multi-level, we propose that salient object detection must be evaluated for the capability to detect all multi-level salient objects apart from the salient object class detection capability. For this purpose, we generate multi-level maps as ground truth corresponding to all the dataset images using the results of the subjective experiments, with the labels being multi-level salient objects and background. We then propose the use of mean absolute error, Kendall's rank correlation and average area under precision-recall curve to evaluate existing salient object detection methods on our multi-level saliency ground truth dataset. Approaches that represent saliency detection on images as local-global hierarchical processing of a graph perform well in our dataset.
翻訳日:2022-12-22 04:42:47 公開日:2020-03-19
# SAPIEN: パートベースのインタラクティブ環境

SAPIEN: A SimulAted Part-based Interactive ENvironment ( http://arxiv.org/abs/2003.08515v1 )

ライセンス: Link先を確認
Fanbo Xiang, Yuzhe Qin, Kaichun Mo, Yikuan Xia, Hao Zhu, Fangchen Liu, Minghua Liu, Hanxiao Jiang, Yifu Yuan, He Wang, Li Yi, Angel X. Chang, Leonidas J. Guibas, Hao Su(参考訳) ホームアシスタントロボットの構築は、長い間ビジョンとロボット工学研究者の追求だった。 この課題を達成するために、物理的に現実的なシミュレーション、十分な調音オブジェクト、実際のロボットへの転送性を備えたシミュレーション環境が不可欠である。 既存の環境は、様々なレベルの単純化と焦点を持つロボットシミュレーションのこれらの要件を達成する。 我々は,ロボット学習アルゴリズムを学習するための家庭用タスクを支援する環境の構築に一歩前進する。 われわれの研究であるSAPIENは、現実的で物理に富んだシミュレーション環境であり、音声オブジェクトのための大規模な集合をホストしている。 我々のSAPIENは,パートレベルの詳細な理解を必要とする様々なロボットビジョンとインタラクションタスクを可能にし,パート検出とモーション属性認識のための最先端のビジョンアルゴリズムを評価し,ヒューリスティックなアプローチと強化学習アルゴリズムを用いてロボットインタラクションタスクを実証する。 われわれのSAPIENは、対話による認知の学習、部分的な動き発見、ロボットによるシミュレーションゲーム環境の構築など、まだ検討されていない多くの研究方向を開拓できることを期待している。

Building home assistant robots has long been a pursuit for vision and robotics researchers. To achieve this task, a simulated environment with physically realistic simulation, sufficient articulated objects, and transferability to the real robot is indispensable. Existing environments achieve these requirements for robotics simulation with different levels of simplification and focus. We take one step further in constructing an environment that supports household tasks for training robot learning algorithm. Our work, SAPIEN, is a realistic and physics-rich simulated environment that hosts a large-scale set for articulated objects. Our SAPIEN enables various robotic vision and interaction tasks that require detailed part-level understanding.We evaluate state-of-the-art vision algorithms for part detection and motion attribute recognition as well as demonstrate robotic interaction tasks using heuristic approaches and reinforcement learning algorithms. We hope that our SAPIEN can open a lot of research directions yet to be explored, including learning cognition through interaction, part motion discovery, and construction of robotics-ready simulated game environment.
翻訳日:2022-12-22 04:42:21 公開日:2020-03-19
# 差分制約並列注意を用いた立体内視鏡像の超解像

Stereo Endoscopic Image Super-Resolution Using Disparity-Constrained Parallel Attention ( http://arxiv.org/abs/2003.08539v1 )

ライセンス: Link先を確認
Tianyi Zhang, Yun Gu, Xiaolin Huang, Enmei Tu and Jie Yang(参考訳) コンピュータ支援手術技術におけるステレオカメラの普及に伴い、第2の視点は手術における追加情報を提供する。 しかし、超解像(SR)目的のステレオ情報を効果的にアクセスし利用する方法は、しばしば課題である。 本稿では,ステレオ画像ペア内の超解像を同時に計算するDCSSRnet(Disparity-Constrained stereo super- resolution network)を提案する。 特に,新たなatrous parallax-attentionモジュールを備えたディープニューラルネットワークフレームワークにおけるsr画像生成には,不均一な制約機構が組み込まれている。 腹腔鏡画像による実験の結果,提案手法は定量評価と定性評価の両方において,現在のSR法より優れていることが示された。 我々のDCSSRnetは立体画像対の空間分解能を高めるための有望なソリューションを提供する。

With the popularity of stereo cameras in computer assisted surgery techniques, a second viewpoint would provide additional information in surgery. However, how to effectively access and use stereo information for the super-resolution (SR) purpose is often a challenge. In this paper, we propose a disparity-constrained stereo super-resolution network (DCSSRnet) to simultaneously compute a super-resolved image in a stereo image pair. In particular, we incorporate a disparity-based constraint mechanism into the generation of SR images in a deep neural network framework with an additional atrous parallax-attention modules. Experiment results on laparoscopic images demonstrate that the proposed framework outperforms current SR methods on both quantitative and qualitative evaluations. Our DCSSRnet provides a promising solution on enhancing spatial resolution of stereo image pairs, which will be extremely beneficial for the endoscopic surgery.
翻訳日:2022-12-22 04:41:30 公開日:2020-03-19
# 深層学習に基づくニューロン再構成の品質制御

Quality Control of Neuron Reconstruction Based on Deep Learning ( http://arxiv.org/abs/2003.08556v1 )

ライセンス: Link先を確認
Donghuan Lu, Sujun Zhao, Peng Xie, Kai Ma, Lijuan Liu, Yefeng Zheng(参考訳) 神経再建は、脳の機能を理解するために必要なニューロン接続マップを生成するのに不可欠である。 自動再建法に多大な効果があるにもかかわらず、十分に訓練されたヒトアノテータによる手動追跡は依然として必要である。 そこで本論文では,再構成ニューロンの品質を確保し,その効率を向上させるためのアノテーションの指導を行うため,ニューロン再構成のための深層学習に基づく品質制御手法を提案する。 品質制御問題を各単一点に関する二項分類タスクに定式化することにより、提案手法は画像サイズと複雑なニューロン形態から生じる技術的困難を克服する。 復元品質の評価を提供するだけでなく、間違ったトレースの開始箇所を正確に特定することも可能だ。 本研究は、神経再建の脳全体の音質制御に関する最初の包括的な研究の1つである。 大規模なデータセットによる5倍のクロスバリデーションの実験は、提案手法が74.7%のエラーを検出できることを示した。

Neuron reconstruction is essential to generate exquisite neuron connectivity map for understanding brain function. Despite the significant amount of effect that has been made on automatic reconstruction methods, manual tracing by well-trained human annotators is still necessary. To ensure the quality of reconstructed neurons and provide guidance for annotators to improve their efficiency, we propose a deep learning based quality control method for neuron reconstruction in this paper. By formulating the quality control problem into a binary classification task regarding each single point, the proposed approach overcomes the technical difficulties resulting from the large image size and complex neuron morphology. Not only it provides the evaluation of reconstruction quality, but also can locate exactly where the wrong tracing begins. This work presents one of the first comprehensive studies for whole-brain scale quality control of neuron reconstructions. Experiments on five-fold cross validation with a large dataset demonstrate that the proposed approach can detect 74.7% errors with only 1.4% false alerts.
翻訳日:2022-12-22 04:41:15 公開日:2020-03-19
# 共同参照表現理解とセグメンテーションのためのマルチタスク協調ネットワーク

Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation ( http://arxiv.org/abs/2003.08813v1 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng Deng and Rongrong Ji(参考訳) Referring Expression comprehension (REC) と segmentation (RES) は2つの非常に関連性の高いタスクであり、どちらも自然言語表現に基づいて参照者を特定することを目的としている。 本稿では,RECとRESの協調学習を実現するために,新しいマルチタスク協調ネットワーク(MCN)を提案する。 MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。 さらに,このマルチタスク構成における重要な課題,すなわち,CEM(Consistency Energy Maximization)とASNLS(Adaptive Soft Non-Located Suppression)という2つの革新的な設計による予測競合に対処する。 具体的には、CEMは2つのタスク間の一貫性エネルギーを最大化することにより、RECとRESが類似した視覚領域に集中できるようにする。 ASNLSはRECの予測に基づいてRESの非関連領域の応答を抑圧する。 我々のモデルを検証するため、RECとRESの3つのベンチマークデータセット、すなわちRefCOCO、RefCOCO+、RefCOCOgについて広範な実験を行った。 実験の結果,既存の手法,すなわちrecは最大7.13%,resは11.50%の性能向上を示し,recとres学習のモデルの有効性を確認した。

Referring expression comprehension (REC) and segmentation (RES) are two highly-related tasks, which both aim at identifying the referent according to a natural language expression. In this paper, we propose a novel Multi-task Collaborative Network (MCN) to achieve a joint learning of REC and RES for the first time. In MCN, RES can help REC to achieve better language-vision alignment, while REC can help RES to better locate the referent. In addition, we address a key challenge in this multi-task setup, i.e., the prediction conflict, with two innovative designs namely, Consistency Energy Maximization (CEM) and Adaptive Soft Non-Located Suppression (ASNLS). Specifically, CEM enables REC and RES to focus on similar visual regions by maximizing the consistency energy between two tasks. ASNLS supresses the response of unrelated regions in RES based on the prediction of REC. To validate our model, we conduct extensive experiments on three benchmark datasets of REC and RES, i.e., RefCOCO, RefCOCO+ and RefCOCOg. The experimental results report the significant performance gains of MCN over all existing methods, i.e., up to +7.13% for REC and +11.50% for RES over SOTA, which well confirm the validity of our model for joint REC and RES learning.
翻訳日:2022-12-22 04:34:05 公開日:2020-03-19
# Group Sparsity: ネットワーク圧縮のためのフィルタプルーニングと分解の間のヒンジ

Group Sparsity: The Hinge Between Filter Pruning and Decomposition for Network Compression ( http://arxiv.org/abs/2003.08935v1 )

ライセンス: Link先を確認
Yawei Li, Shuhang Gu, Christoph Mayer, Luc Van Gool, and Radu Timofte(参考訳) 本稿では,フィルタプルーニングと低ランク分解という2つの一般的なネットワーク圧縮手法を統一的な意味で解析する。 スパルシリティ正規化の実施方法を簡単に変更することで、フィルタプルーニングと低ランク分解を導出することができる。 これは、技術が相互に補完するため、ネットワーク圧縮に別の柔軟な選択を提供する。 例えば、ショートカット接続を持つ一般的なネットワークアーキテクチャ(ResNetなど)では、フィルタプルーニングはResBlockにおける最後の畳み込み層に対処できないが、低ランク分解法は可能である。 さらに,レイヤワイドではなくネットワーク全体を共同で圧縮する手法を提案する。 われわれの手法は、いくつかのベンチマークにおける最先端の手法と比較し、その可能性を証明している。

In this paper, we analyze two popular network compression techniques, i.e. filter pruning and low-rank decomposition, in a unified sense. By simply changing the way the sparsity regularization is enforced, filter pruning and low-rank decomposition can be derived accordingly. This provides another flexible choice for network compression because the techniques complement each other. For example, in popular network architectures with shortcut connections (e.g. ResNet), filter pruning cannot deal with the last convolutional layer in a ResBlock while the low-rank decomposition methods can. In addition, we propose to compress the whole network jointly instead of in a layer-wise manner. Our approach proves its potential as it compares favorably to the state-of-the-art on several benchmarks.
翻訳日:2022-12-22 04:32:45 公開日:2020-03-19
# スマートフォンビデオによる高精度顔形状計測

High Accuracy Face Geometry Capture using a Smartphone Video ( http://arxiv.org/abs/2003.08583v1 )

ライセンス: Link先を確認
Shubham Agrawal, Anuj Pahuja, Simon Lucey(参考訳) 机に座って、自分の顔の最も正確な3Dモデルは何ですか? 私たちはこの質問に答えようとしている。 忠実度の高い顔の復元は、これまでスタジオの設定か高価な3dスキャナーでしかできなかった。 一方,非拘束再建法は低容量モデルによって制限されることが多い。 提案手法は, スマートフォンから撮影した映像を用いて, 被写体の正確な顔形状を再現する。 提案手法は,視覚SLAM,キーポイント検出,オブジェクト検出の最近の進歩を活用し,精度とロバスト性を向上させる。 モデル部分空間に制約されないことで、再構成されたメッシュはノイズに頑健であり、トポロジカルに一貫性があると同時に、重要な詳細を捉えます。 提案手法は、幾何学的精度と現実的なモデルを作成する上で重要な人物特有の細部を捉える場合にも、現在の単視点と多視点のベースラインよりもかなり優れていることを示す。

What's the most accurate 3D model of your face you can obtain while sitting at your desk? We attempt to answer this question in our work. High fidelity face reconstructions have so far been limited to either studio settings or through expensive 3D scanners. On the other hand, unconstrained reconstruction methods are typically limited by low-capacity models. Our method reconstructs accurate face geometry of a subject using a video shot from a smartphone in an unconstrained environment. Our approach takes advantage of recent advances in visual SLAM, keypoint detection, and object detection to improve accuracy and robustness. By not being constrained to a model subspace, our reconstructed meshes capture important details while being robust to noise and being topologically consistent. Our evaluations show that our method outperforms current single and multi-view baselines by a significant margin, both in terms of geometric accuracy and in capturing person-specific details important for making realistic looking models.
翻訳日:2022-12-22 04:25:42 公開日:2020-03-19
# 構造規則化深層クラスタリングによる教師なしドメイン適応

Unsupervised Domain Adaptation via Structurally Regularized Deep Clustering ( http://arxiv.org/abs/2003.08607v1 )

ライセンス: Link先を確認
Hui Tang, Ke Chen, and Kui Jia(参考訳) 教師なし領域適応(Unsupervised domain adapt, UDA)とは、対象ドメイン上のラベルなしデータの予測であり、対象ドメインから分布がシフトするソースドメイン上のラベル付きデータである。 メインストリームのUDAメソッドは、2つのドメイン間の整列した特徴を学習し、ソースの特徴に基づいて訓練された分類器を対象のドメインに容易に適用できるようにする。 しかし,このような移動戦略は,対象データの固有識別を損なう可能性がある。 このリスクを緩和するため,我々は構造的ドメイン類似性の仮定に動機づけられ,ターゲットデータの識別クラスタリングを通じて,本質的ターゲット識別を直接解明することを提案する。 我々は、仮定された構造領域の類似性に依存する構造的ソース正規化を用いてクラスタリングソリューションを制約する。 技術的には、ネットワークの予測ラベル分布と導入した補助データとのKL分散を最小限に抑える、深層ネットワークに基づく識別クラスタリングの柔軟なフレームワークを使用し、ソースデータの基幹ラベルによる補助分布に置き換えることで、結合ネットワークトレーニングの簡単な戦略による構造的ソース正規化を実現する。 提案手法をSRDC(Structuorly Regularized Deep Clustering)と呼び,中間的ネットワーク特徴のクラスタリングによるターゲット識別を強化し,より分散しないソース例のソフト選択による構造正規化を強化した。 著明なアブレーション研究は,提案したSRDCの有効性を示した。 特に、明示的なドメインアライメントがないSRDCは、既存のメソッドを3つのUDAベンチマークで上回っている。

Unsupervised domain adaptation (UDA) is to make predictions for unlabeled data on a target domain, given labeled data on a source domain whose distribution shifts from the target one. Mainstream UDA methods learn aligned features between the two domains, such that a classifier trained on the source features can be readily applied to the target ones. However, such a transferring strategy has a potential risk of damaging the intrinsic discrimination of target data. To alleviate this risk, we are motivated by the assumption of structural domain similarity, and propose to directly uncover the intrinsic target discrimination via discriminative clustering of target data. We constrain the clustering solutions using structural source regularization that hinges on our assumed structural domain similarity. Technically, we use a flexible framework of deep network based discriminative clustering that minimizes the KL divergence between predictive label distribution of the network and an introduced auxiliary one; replacing the auxiliary distribution with that formed by ground-truth labels of source data implements the structural source regularization via a simple strategy of joint network training. We term our proposed method as Structurally Regularized Deep Clustering (SRDC), where we also enhance target discrimination with clustering of intermediate network features, and enhance structural regularization with soft selection of less divergent source examples. Careful ablation studies show the efficacy of our proposed SRDC. Notably, with no explicit domain alignment, SRDC outperforms all existing methods on three UDA benchmarks.
翻訳日:2022-12-22 04:24:50 公開日:2020-03-19
# ドメイン適応型Few-Shot学習

Domain-Adaptive Few-Shot Learning ( http://arxiv.org/abs/2003.08626v1 )

ライセンス: Link先を確認
An Zhao, Mingyu Ding, Zhiwu Lu, Tao Xiang, Yulei Niu, Jiechao Guan, Ji-Rong Wen, Ping Luo(参考訳) 既存の数ショット学習(FSL)メソッドは、少数のターゲットクラスサンプルがソースクラスサンプルと同じドメインからのものであるという暗黙の仮定をしている。 しかし、実際にはこの仮定はしばしば無効であり、ターゲットクラスは異なるドメインから来る可能性がある。 これは、ほとんどトレーニングサンプルを持たないドメイン適応(DA)のさらなる課題となる。 本稿では、FSLとDAを統一的なフレームワークで解くことを必要とするドメイン適応型少ショット学習(DA-FSL)の問題に取り組む。 そこで本研究では,新しいドメイン・アドバタリアン・プロトティピカル・ネットワーク(dapn)モデルを提案する。 daの目的は、典型的には共有のドメイン適応機能埋め込み空間を通して、ソースとターゲットのデータ分布をアライン化する必要があることを意味するが、fslの目的は、クラス毎のターゲットドメインが任意のソースドメインクラスと異なること、つまりドメイン間の分散を整合させることがfslのパフォーマンスに悪影響を及ぼす可能性があることを規定する。 ソース/ターゲット毎の差別性を維持しながら、グローバルなドメイン分散アライメントを実現する方法が鍵となる。 提案手法は,fslに対するドメインアライメントの悪影響を緩和するために,dapnにドメイン適応機能埋め込み学習の前に,クラス毎のソース/ターゲット分離を明示的に強化することを目的とする。 DAPN は最先端の FSL と DA モデルと na\ な組み合わせよりも優れていた。 コードはhttps://github.com/dingmyu/dapnで入手できる。

Existing few-shot learning (FSL) methods make the implicit assumption that the few target class samples are from the same domain as the source class samples. However, in practice this assumption is often invalid -- the target classes could come from a different domain. This poses an additional challenge of domain adaptation (DA) with few training samples. In this paper, the problem of domain-adaptive few-shot learning (DA-FSL) is tackled, which requires solving FSL and DA in a unified framework. To this end, we propose a novel domain-adversarial prototypical network (DAPN) model. It is designed to address a specific challenge in DA-FSL: the DA objective means that the source and target data distributions need to be aligned, typically through a shared domain-adaptive feature embedding space; but the FSL objective dictates that the target domain per class distribution must be different from that of any source domain class, meaning aligning the distributions across domains may harm the FSL performance. How to achieve global domain distribution alignment whilst maintaining source/target per-class discriminativeness thus becomes the key. Our solution is to explicitly enhance the source/target per-class separation before domain-adaptive feature embedding learning in the DAPN, in order to alleviate the negative effect of domain alignment on FSL. Extensive experiments show that our DAPN outperforms the state-of-the-art FSL and DA models, as well as their na\"ive combinations. The code is available at https://github.com/dingmyu/DAPN.
翻訳日:2022-12-22 04:23:54 公開日:2020-03-19
# メトリック学習によるディープフェイクの検出

Detecting Deepfakes with Metric Learning ( http://arxiv.org/abs/2003.08645v1 )

ライセンス: Link先を確認
Akash Kumar and Arnav Bhavsar(参考訳) FaceApp、SnapChat、MixBooth、FaceBlenderなど、いくつかのフェイススワッピングアプリケーションが登場し、デジタルメディアコンテンツの信頼性が非常に緩いスレッドにかかっている。 ソーシャルメディアプラットフォームでは、ビデオは高い圧縮率で広範に流通している。 本研究では,高圧縮シナリオにおけるディープフェイクス分類の文脈における深層学習アプローチを分析し,計量学習に基づく提案手法が,そのような分類を行う上で非常に有効であることを示す。 ビデオあたりのフレーム数が少なくて現実性を評価することで、トリプルトネットワークアーキテクチャを使ったメトリック学習アプローチは実りあることを証明している。 リアルビデオとフェイクビデオの埋め込みベクトルのクラスタ間の特徴空間距離を拡大することを学ぶ。 異なる環境での動作を分析するために、2つのデータセットに対するアプローチを検証する。 我々はCeleb-DFデータセットで99.2%、高度に圧縮されたNeural Textureデータセットで90.71%という最先端のAUCスコアを達成した。 当社のアプローチは,データ圧縮が避けられないソーシャルメディアプラットフォームにおいて,特に有効です。

With the arrival of several face-swapping applications such as FaceApp, SnapChat, MixBooth, FaceBlender and many more, the authenticity of digital media content is hanging on a very loose thread. On social media platforms, videos are widely circulated often at a high compression factor. In this work, we analyze several deep learning approaches in the context of deepfakes classification in high compression scenario and demonstrate that a proposed approach based on metric learning can be very effective in performing such a classification. Using less number of frames per video to assess its realism, the metric learning approach using a triplet network architecture proves to be fruitful. It learns to enhance the feature space distance between the cluster of real and fake videos embedding vectors. We validated our approaches on two datasets to analyze the behavior in different environments. We achieved a state-of-the-art AUC score of 99.2% on the Celeb-DF dataset and accuracy of 90.71% on a highly compressed Neural Texture dataset. Our approach is especially helpful on social media platforms where data compression is inevitable.
翻訳日:2022-12-22 04:23:07 公開日:2020-03-19
# 無線高高度気球ネットワークにおけるタスクと資源配分のフェデレーション学習

Federated Learning for Task and Resource Allocation in Wireless High Altitude Balloon Networks ( http://arxiv.org/abs/2003.09375v1 )

ライセンス: Link先を確認
Sihua Wang, Mingzhe Chen, Changchuan Yin, Walid Saad, Choong Seon Hong, Shuguang Cui, H. Vincent Poor(参考訳) 本稿では,移動エッジコンピューティング(MEC)対応バルーンネットワークにおいて,タスク計算と伝送におけるエネルギーと時間消費の最小化の問題について検討する。 検討されたネットワークでは,各ユーザがリアルタイムに計算タスクを処理し,無線基地局として機能する高高度気球(HAB)は,その強力な計算能力を利用して,関連するユーザからオフロードされたタスクを処理できる。 各ユーザの計算タスクのデータサイズは時間とともに変化するため、HABはユーザのニーズを満たすために、ユーザアソシエーション、サービスシーケンス、タスク分割スキームを動的に調整する必要がある。 この問題は、ユーザアソシエーション、サービスシーケンス、タスク割り当てスキームを調整することで、タスクコンピューティングと送信におけるエネルギーと時間消費を最小化する最適化問題として提案される。 この問題を解決するために,サポートベクトルマシン(SVM)に基づくフェデレーション学習(FL)アルゴリズムを提案する。 提案手法は,ユーザの履歴関連や計算タスクを他のHABに送信することなく,すべてのユーザ関連を判定できるSVMモデルを協調的に構築する。 最適なユーザアソシエーションの予測を考えると、各ユーザのサービスシーケンスとタスク割り当てを最適化して、エネルギーと時間消費の重み付け和を最小化することができる。 上海・江東大学のOMNILabによる都市セルトラフィックの実データによるシミュレーションにより、提案アルゴリズムは従来の集中型手法と比較して、全ユーザのエネルギーと時間消費の重み付けを最大16.1%削減できることを示した。

In this paper, the problem of minimizing energy and time consumption for task computation and transmission is studied in a mobile edge computing (MEC)-enabled balloon network. In the considered network, each user needs to process a computational task in each time instant, where high-altitude balloons (HABs), acting as flying wireless base stations, can use their powerful computational abilities to process the tasks offloaded from their associated users. Since the data size of each user's computational task varies over time, the HABs must dynamically adjust the user association, service sequence, and task partition scheme to meet the users' needs. This problem is posed as an optimization problem whose goal is to minimize the energy and time consumption for task computing and transmission by adjusting the user association, service sequence, and task allocation scheme. To solve this problem, a support vector machine (SVM)-based federated learning (FL) algorithm is proposed to determine the user association proactively. The proposed SVM-based FL method enables each HAB to cooperatively build an SVM model that can determine all user associations without any transmissions of either user historical associations or computational tasks to other HABs. Given the prediction of the optimal user association, the service sequence and task allocation of each user can be optimized so as to minimize the weighted sum of the energy and time consumption. Simulations with real data of city cellular traffic from the OMNILab at Shanghai Jiao Tong University show that the proposed algorithm can reduce the weighted sum of the energy and time consumption of all users by up to 16.1% compared to a conventional centralized method.
翻訳日:2022-12-22 04:16:11 公開日:2020-03-19
# 多様性、密度、均質性:テキストコレクションの定量的特徴指標

Diversity, Density, and Homogeneity: Quantitative Characteristic Metrics for Text Collections ( http://arxiv.org/abs/2003.08529v1 )

ライセンス: Link先を確認
Yi-An Lai, Xuan Zhu, Yi Zhang, Mona Diab(参考訳) 定量的測定によるデータサンプルの要約には長い歴史があり、記述的統計がポイントである。 しかし、自然言語処理の手法が隆盛するにつれて、それらを構成する単語、文、段落の観点でテキストの集合を記述するための特徴的指標は未だ不十分である。 本研究では,テキストコレクションの分散,疎度,均一度を定量的に測定する多様性,密度,均一性の指標を提案する。 各々の計量が望ましい性質を持ち、人間の直観と共鳴することを検証するために一連のシミュレーションを行う。 実世界のデータセット実験により,提案した特徴指標は,将来アプリケーションに刺激を与える可能性のある有名なモデルBERTのテキスト分類性能と高い相関性を示す。

Summarizing data samples by quantitative measures has a long history, with descriptive statistics being a case in point. However, as natural language processing methods flourish, there are still insufficient characteristic metrics to describe a collection of texts in terms of the words, sentences, or paragraphs they comprise. In this work, we propose metrics of diversity, density, and homogeneity that quantitatively measure the dispersion, sparsity, and uniformity of a text collection. We conduct a series of simulations to verify that each metric holds desired properties and resonates with human intuitions. Experiments on real-world datasets demonstrate that the proposed characteristic metrics are highly correlated with text classification performance of a renowned model, BERT, which could inspire future applications.
翻訳日:2022-12-22 04:15:41 公開日:2020-03-19
# 機械翻訳改善のための言語関連性の利用:インド亜大陸の言語を事例として

Utilizing Language Relatedness to improve Machine Translation: A Case Study on Languages of the Indian Subcontinent ( http://arxiv.org/abs/2003.08925v1 )

ライセンス: Link先を確認
Anoop Kunchukuttan, Pushpak Bhattacharyya(参考訳) 本稿では,インド亜大陸の言語を含む統計的機械翻訳の広範な研究について述べる。 これらの言語は、遺伝的および接触関係によって関連付けられている。 これらの関係から生じる言語間の類似性について述べる。 これらの言語間の語彙的および正書法的類似性を利用して、並列コーパスが限られている場合に、Indic言語間の翻訳品質を改善する方法について検討する。 また,indic言語間の構造的対応が,英語からindic言語への翻訳における言語資源の再利用にどのように役立つかについても検討した。 私たちの観察は9つのIndic言語と英語の90の言語対に及びます。 私たちの知る限りでは、これは言語関連性を利用して関連言語間の翻訳を改善することに特化した最初の大規模研究です。

In this work, we present an extensive study of statistical machine translation involving languages of the Indian subcontinent. These languages are related by genetic and contact relationships. We describe the similarities between Indic languages arising from these relationships. We explore how lexical and orthographic similarity among these languages can be utilized to improve translation quality between Indic languages when limited parallel corpora is available. We also explore how the structural correspondence between Indic languages can be utilized to re-use linguistic resources for English to Indic language translation. Our observations span 90 language pairs from 9 Indic languages and English. To the best of our knowledge, this is the first large-scale study specifically devoted to utilizing language relatedness to improve translation between related languages.
翻訳日:2022-12-22 04:15:17 公開日:2020-03-19
# NSURL-2019 Task 7: Named Entity Recognition (NER) in Farsi

NSURL-2019 Task 7: Named Entity Recognition (NER) in Farsi ( http://arxiv.org/abs/2003.09029v1 )

ライセンス: Link先を確認
Nasrin Taghizadeh, Zeinab Borhanifard, Melika GolestaniPour, Heshaam Faili(参考訳) NSURL-2019 Task 7は、Farsiにおける名前付きエンティティ認識(NER)に焦点を当てている。 このタスクは、farsiテキストで名前付きエンティティを指定するフレーズを見つけるための異なるアプローチを比較し、farsiでこのタスクに関する将来の研究のための標準テストベッドを確立するために選択された。 本稿では,トレーニングとテストデータ作成のプロセス,参加チーム(6チーム)のリスト,システム評価結果について述べる。 F1スコアの85.4%は、人、組織、場所、日付、時間、お金、パーセンテージを含む7つの学級におけるフレーズレベルの評価に基づいて得られた。

NSURL-2019 Task 7 focuses on Named Entity Recognition (NER) in Farsi. This task was chosen to compare different approaches to find phrases that specify Named Entities in Farsi texts, and to establish a standard testbed for future researches on this task in Farsi. This paper describes the process of making training and test data, a list of participating teams (6 teams), and evaluation results of their systems. The best system obtained 85.4% of F1 score based on phrase-level evaluation on seven classes of NEs including person, organization, location, date, time, money and percent.
翻訳日:2022-12-22 04:15:06 公開日:2020-03-19
# ハイブリッドアンサーセットプログラミングによる列車スケジューリング

Train Scheduling with Hybrid Answer Set Programming ( http://arxiv.org/abs/2003.08598v1 )

ライセンス: Link先を確認
Dirk Abels, Julian Jordi, Max Ostrowski, Torsten Schaub, Ambra Toletti, and Philipp Wanko(参考訳) 本稿では,解集合プログラミング(asp)に基づくルーティング,スケジューリング,最適化を含む実世界の列車スケジューリング問題の解法を提案する。 この目的のために、我々は、微粒なタイミングを考慮に入れた差分制約でASPを拡張するハイブリッドアプローチを追求している。 より正確には、要求される計画とスケジューリングの問題に対処するために、ハイブリッドASPシステムclingo[DL]がどのように使用できるかを示す。 特に,大規模な実世界の列車スケジューリングインスタンスに取り組むためのプリプロセッシングとエンコーディング技術を用いて,近似やヒューリスティックスといった異なるasp解決手法を組み合わせることで,パフォーマンスを向上させる方法について検討する。 論理プログラミング(tplp)の理論と実践に関する考察

We present a solution to real-world train scheduling problems, involving routing, scheduling, and optimization, based on Answer Set Programming (ASP). To this end, we pursue a hybrid approach that extends ASP with difference constraints to account for a fine-grained timing. More precisely, we exemplarily show how the hybrid ASP system clingo[DL] can be used to tackle demanding planning-and-scheduling problems. In particular, we investigate how to boost performance by combining distinct ASP solving techniques, such as approximations and heuristics, with preprocessing and encoding techniques for tackling large-scale, real-world train scheduling instances. Under consideration in Theory and Practice of Logic Programming (TPLP)
翻訳日:2022-12-22 04:14:54 公開日:2020-03-19
# HyNNA:ハイブリッドニューラルネットワークアーキテクチャによるニューロモルフィック視覚センサによるサーベイランスの性能向上

HyNNA: Improved Performance for Neuromorphic Vision Sensor based Surveillance using Hybrid Neural Network Architecture ( http://arxiv.org/abs/2003.08603v1 )

ライセンス: Link先を確認
Deepak Singla, Soham Chatterjee, Lavanya Ramapantulu, Andres Ussa, Bharath Ramesh and Arindam Basu(参考訳) Internet of Video Things (IoVT)ドメインのアプリケーションは、パワーと領域に関して非常に厳しい制約がある。 ニューロモルフィック視覚センサ(NVS)は、この領域における従来のイメージセンサよりも有利であるが、既存のNVSシステムは電力制約を満たしていないか、エンドツーエンドのシステム性能を示していない。 そこで我々は,領域提案のための形態的画像処理アルゴリズムを用いて,最近提案されたハイブリッドイベントフレームアプローチを改善し,様々な畳み込みニューラルネットワーク(CNN)アーキテクチャを探索することにより,オブジェクト検出と分類の低消費電力要件に対処する。 具体的には、対象検出フレームワークから得られた結果を最先端の低出力NVS監視システムと比較し、63.1%から82.16%の改善精度を示した。 さらに,複数ビットを使用すると精度が向上せず,システム設計者は単一ビットイベントの極性情報のみを用いて電力と面積を節約できることを示す。 さらに、オブジェクト分類のためのCNNアーキテクチャ空間を探索し、より少ないメモリと演算演算を用いて低消費電力のトレードオフ精度を示す。

Applications in the Internet of Video Things (IoVT) domain have very tight constraints with respect to power and area. While neuromorphic vision sensors (NVS) may offer advantages over traditional imagers in this domain, the existing NVS systems either do not meet the power constraints or have not demonstrated end-to-end system performance. To address this, we improve on a recently proposed hybrid event-frame approach by using morphological image processing algorithms for region proposal and address the low-power requirement for object detection and classification by exploring various convolutional neural network (CNN) architectures. Specifically, we compare the results obtained from our object detection framework against the state-of-the-art low-power NVS surveillance system and show an improved accuracy of 82.16% from 63.1%. Moreover, we show that using multiple bits does not improve accuracy, and thus, system designers can save power and area by using only single bit event polarity information. In addition, we explore the CNN architecture space for object classification and show useful insights to trade-off accuracy for lower power using lesser memory and arithmetic operations.
翻訳日:2022-12-22 04:07:37 公開日:2020-03-19
# RADIOGAN:PET画像を生成するための深層畳み込み条件生成対向ネットワーク

RADIOGAN: Deep Convolutional Conditional Generative adversarial Network To Generate PET Images ( http://arxiv.org/abs/2003.08663v1 )

ライセンス: Link先を確認
Amine Amyar, Su Ruan, Pierre Vera, Pierre Decazes, and Romain Modzelewski(参考訳) 医療画像の最大の課題の1つは、データの欠如である。 古典的なデータ拡張手法は有用であるが,画像の巨大変動により制限されていることが証明された。 generative adversarial networks(gan)を使用することは、この問題に対処する上で有望な方法だが、ひとつのモデルを訓練して異なる種類の病変を生成することは困難である。 本稿では, 異なる病変や非病変(通常)に応じて, 高速解釈のための3次元ボリュームを表す2次元画像であるmipポジトロンエミッショントモグラフィ画像(pet)を生成するための, 深い畳み込み条件付き生成逆ネットワークを提案する。 提案手法の利点は,各病変の小さな標本サイズで訓練された病変の異なるクラスを生成できる1つのモデルから成り,非常に有望な結果を示すことにある。 また, 潜在空間の歩行を, 生成画像の評価ツールとして利用できることを示す。

One of the most challenges in medical imaging is the lack of data. It is proven that classical data augmentation methods are useful but still limited due to the huge variation in images. Using generative adversarial networks (GAN) is a promising way to address this problem, however, it is challenging to train one model to generate different classes of lesions. In this paper, we propose a deep convolutional conditional generative adversarial network to generate MIP positron emission tomography image (PET) which is a 2D image that represents a 3D volume for fast interpretation, according to different lesions or non lesion (normal). The advantage of our proposed method consists of one model that is capable of generating different classes of lesions trained on a small sample size for each class of lesion, and showing a very promising results. In addition, we show that a walk through a latent space can be used as a tool to evaluate the images generated.
翻訳日:2022-12-22 04:07:15 公開日:2020-03-19
# 3次元シーンの局所的インシシットグリッド表現

Local Implicit Grid Representations for 3D Scenes ( http://arxiv.org/abs/2003.08981v1 )

ライセンス: Link先を確認
Chiyu Max Jiang, Avneesh Sud, Ameesh Makadia, Jingwei Huang, Matthias Nie{\ss}ner, Thomas Funkhouser(参考訳) データから学んだ形状優先は、部分的または騒がしいデータから3dオブジェクトを再構築するために一般的に使用される。 しかし、典型的な3Dオートエンコーダはスケール、複雑さ、多様性を扱えないため、屋内シーンではそのような形状の先行は利用できない。 本稿では,拡張性と汎用性を考慮した新しい3次元形状表現であるLocal Implicit Grid Representationsを紹介する。 動機となる考え方は、ほとんどの3次元曲面は幾何的な詳細をあるスケールで、すなわち、オブジェクト全体よりも小さく、小さなパッチよりも大きいスケールで共有するということである。 オートエンコーダを訓練して、そのサイズの3d形状のローカルな作物の埋め込みを学ぶ。 そして、デコーダを形状最適化の要素として使用し、重なり合う作物の正規格子上の潜在符号の集合を、復号された局所形状の補間が部分的あるいは雑音的な観察と一致するように解決する。 本研究では,この3次元表面再構成法の有用性をスパースポイント観測から示し,代替法よりも有意に良好な結果を得た。

Shape priors learned from data are commonly used to reconstruct 3D objects from partial or noisy data. Yet no such shape priors are available for indoor scenes, since typical 3D autoencoders cannot handle their scale, complexity, or diversity. In this paper, we introduce Local Implicit Grid Representations, a new 3D shape representation designed for scalability and generality. The motivating idea is that most 3D surfaces share geometric details at some scale -- i.e., at a scale smaller than an entire object and larger than a small patch. We train an autoencoder to learn an embedding of local crops of 3D shapes at that size. Then, we use the decoder as a component in a shape optimization that solves for a set of latent codes on a regular grid of overlapping crops such that an interpolation of the decoded local shapes matches a partial or noisy observation. We demonstrate the value of this proposed approach for 3D surface reconstruction from sparse point observations, showing significantly better results than alternative approaches.
翻訳日:2022-12-22 04:05:53 公開日:2020-03-19
# トランスファーラーニングを用いた深部血管複合体の微小血管分割と毛細血管間領域定量

Microvasculature Segmentation and Inter-capillary Area Quantification of the Deep Vascular Complex using Transfer Learning ( http://arxiv.org/abs/2003.09033v1 )

ライセンス: Link先を確認
Julian Lo (1), Morgan Heisler (1), Vinicius Vanzan (2), Sonja Karst (2 and 3), Ivana Zadro Matovinovic (4), Sven Loncaric (4), Eduardo V. Navajas (2), Mirza Faisal Beg (1), Marinko V. Sarunic (1) ((1) School of Engineering Science, Simon Fraser University, Canada, (2) Department of Ophthalmology and Visual Sciences, University of British Columbia, Canada, (3) Department of Ophthalmology and Optometry, Medical University of Vienna, Austria, (4) Faculty of Electrical Engineering and Computing, University of Zagreb, Croatia)(参考訳) 目的: optic coherence tomography angiography (oct-a) は糖尿病の微小血管合併症である糖尿病網膜症(dr)による網膜循環の変化の可視化を可能にする。 表在性毛細血管叢および深部血管複合体(SCP, DVC)に対する, 畳み込みニューラルネットワーク(CNN)による定量的解析により, 血管形態の正確なセグメンテーションを実証した。 方法: zeiss plexeliteを用いて6×6mm視野(fov)の網膜oct-aを得た。 多量獲得と平均化により、cnnの訓練に使用される血管網のコントラストが向上した。 異なる OCT システムを用いて取得した SCP の小さい FOV から 76 個の画像で訓練した CNN からの移動学習を用いた。 結果: OCT-A画像の自動分画はSCPおよびDVCの階層的分岐と葉状形態をそれぞれ維持した。 ネットワークはSCPを0.8599、Dice indexは0.8618で分割した。 dvcの精度は 0.7986 であり, dice 指数は 0.8139 であった。 scpのレート間比較では、それぞれ0.8300と0.6700で、dvcでは 0.6874 と 0.7416 であった。 結論: 転送学習は,SCPとDVCの高品質な自動セグメンテーションを生成しながら,手動で注釈付けした画像の量を減少させる。 高品質なトレーニングデータを使用することで、各層におけるキャピラリーネットワークの特徴的外観が保たれる。 翻訳関連性:CNNによる正確な網膜微小血管分画は糖尿病網膜症における灌流解析の改善をもたらす。

Purpose: Optical Coherence Tomography Angiography (OCT-A) permits visualization of the changes to the retinal circulation due to diabetic retinopathy (DR), a microvascular complication of diabetes. We demonstrate accurate segmentation of the vascular morphology for the superficial capillary plexus and deep vascular complex (SCP and DVC) using a convolutional neural network (CNN) for quantitative analysis. Methods: Retinal OCT-A with a 6x6mm field of view (FOV) were acquired using a Zeiss PlexElite. Multiple-volume acquisition and averaging enhanced the vessel network contrast used for training the CNN. We used transfer learning from a CNN trained on 76 images from smaller FOVs of the SCP acquired using different OCT systems. Quantitative analysis of perfusion was performed on the automated vessel segmentations in representative patients with DR. Results: The automated segmentations of the OCT-A images maintained the hierarchical branching and lobular morphologies of the SCP and DVC, respectively. The network segmented the SCP with an accuracy of 0.8599, and a Dice index of 0.8618. For the DVC, the accuracy was 0.7986, and the Dice index was 0.8139. The inter-rater comparisons for the SCP had an accuracy and Dice index of 0.8300 and 0.6700, respectively, and 0.6874 and 0.7416 for the DVC. Conclusions: Transfer learning reduces the amount of manually-annotated images required, while producing high quality automatic segmentations of the SCP and DVC. Using high quality training data preserves the characteristic appearance of the capillary networks in each layer. Translational Relevance: Accurate retinal microvasculature segmentation with the CNN results in improved perfusion analysis in diabetic retinopathy.
翻訳日:2022-12-22 04:05:20 公開日:2020-03-19
# 深層強化学習に基づく認知ルーティングに向けて

Towards Cognitive Routing based on Deep Reinforcement Learning ( http://arxiv.org/abs/2003.12439v1 )

ライセンス: Link先を確認
Jiawei Wu, Jianxue Li, Yang Xiao, Jun Liu(参考訳) ルーティングはネットワークインフラストラクチャの安定した運用のための重要な機能のひとつだ。 現在、ネットワークトラフィックの急速な増加とサービス要件の変更は、以前よりもよりインテリジェントなルーティング方法を求めています。 そこで本研究では,Deep Reinforcement Learning(DRL)に基づく認知的ルーティングの定義と実装アプローチを提案する。 DRLに基づく認知ルーティングの研究を容易にするために,DRLに基づくルーティングアルゴリズムの開発とシミュレーションのためのシミュレータRL4Netを導入する。 そして,DDPGに基づくルーティングアルゴリズムの設計と実装を行う。 実例ネットワークトポロジのシミュレーション結果から,DDPGに基づくルーティングアルゴリズムはOSPFやランダムウェイトアルゴリズムよりも優れた性能を示すことが示された。 将来のネットワークにおける認知的ルーティングの予備的実現可能性と潜在的な利点を示す。

Routing is one of the key functions for stable operation of network infrastructure. Nowadays, the rapid growth of network traffic volume and changing of service requirements call for more intelligent routing methods than before. Towards this end, we propose a definition of cognitive routing and an implementation approach based on Deep Reinforcement Learning (DRL). To facilitate the research of DRL-based cognitive routing, we introduce a simulator named RL4Net for DRL-based routing algorithm development and simulation. Then, we design and implement a DDPG-based routing algorithm. The simulation results on an example network topology show that the DDPG-based routing algorithm achieves better performance than OSPF and random weight algorithms. It demonstrate the preliminary feasibility and potential advantage of cognitive routing for future network.
翻訳日:2022-12-22 03:59:01 公開日:2020-03-19
# 高速, 自動, 再現性評価によるクラスタリングによる縦型ニューラルトラッキング

Clustering with Fast, Automated and Reproducible assessment applied to longitudinal neural tracking ( http://arxiv.org/abs/2003.08533v1 )

ライセンス: Link先を確認
Hanlin Zhu, Xue Li, Liuyang Sun, Fei He, Zhengtuo Zhao, Lan Luan, Ngoc Mai Tran and Chong Xie(参考訳) ニューラルネットワークからデータベースのエンティティ解決まで、さまざまな領域において、人間の専門家によるクラスタの手動評価は、スケーラブルで特殊なクラスタリング手法の急速な開発においてボトルネックとなっている。 この問題を解決するために,複数の階層クラスタリングアルゴリズムを同時に高速かつ自動かつ再現可能な評価手法であるC-FARを開発した。 提案アルゴリズムは,複数の階層的クラスタリング木を入力として,人間のフィードバックに対して戦略的にペアを問合せし,これらの木に推薦された木の中から最適なクラスタリングを出力する。 評価にペア比較を利用する任意の領域の大規模データセットに適用可能ですが、私たちのフラッグシップアプリケーションはスパイクソートにおけるクラスタ集約ステップであり、ニューロンに記録中の波形(スパイク)を割り当てるタスクです。 ドリフトや25倍のブラックアウトを含む96個のニューロンのシミュレーションデータについて,本アルゴリズムは地上の真実に対してほぼ完全な追跡を行う。 私たちのランタイムは入力ツリーの数を線形にスケールし、競争力のある計算ツールになります。 これらの結果から,C-FARはクラスタリングタスクにおけるモデル選択および評価ツールとして非常に適していることが示された。

Across many areas, from neural tracking to database entity resolution, manual assessment of clusters by human experts presents a bottleneck in rapid development of scalable and specialized clustering methods. To solve this problem we develop C-FAR, a novel method for Fast, Automated and Reproducible assessment of multiple hierarchical clustering algorithms simultaneously. Our algorithm takes any number of hierarchical clustering trees as input, then strategically queries pairs for human feedback, and outputs an optimal clustering among those nominated by these trees. While it is applicable to large dataset in any domain that utilizes pairwise comparisons for assessment, our flagship application is the cluster aggregation step in spike-sorting, the task of assigning waveforms (spikes) in recordings to neurons. On simulated data of 96 neurons under adverse conditions, including drifting and 25\% blackout, our algorithm produces near-perfect tracking relative to the ground truth. Our runtime scales linearly in the number of input trees, making it a competitive computational tool. These results indicate that C-FAR is highly suitable as a model selection and assessment tool in clustering tasks.
翻訳日:2022-12-22 03:58:49 公開日:2020-03-19
# 2ホップパスによるトポロジ的特徴に基づく2部リンク予測

Bipartite Link Prediction based on Topological Features via 2-hop Path ( http://arxiv.org/abs/2003.08572v1 )

ライセンス: Link先を確認
Jungwoon Shin(参考訳) 様々な実世界のシステムは二部ネットワークとしてモデル化することができる。 最も強力で単純なリンク予測手法の1つはLinear-Graph Autoencoder (LGAE) である。 LGAEは単純な線形モデル、すなわちグラフの隣接行列を使ってノードのベクトル空間表現を学習する。 本稿では,ノード属性が利用できない2部リンク予測について考察する。 lgaeを使用する場合、再構成された隣接行列に対称正規化訓練隣接行列を乗算する。 その結果,モデルの性能を評価するために,予測隣接行列として使用する2ホップパスが形成される。 合成データと実世界のデータセットの両方における実験結果から,我々は12の2部データセットのうち10のグラフオートエンコーダと線形グラフオートエンコーダモデルに一貫して勝っており,他の2つの2部データセットで競合性能に達している。

A variety of real-world systems can be modeled as bipartite networks. One of the most powerful and simple link prediction methods is Linear-Graph Autoencoder(LGAE) which has promising performance on challenging tasks such as link prediction and node clustering. LGAE relies on simple linear model w.r.t. the adjacency matrix of the graph to learn vector space representations of nodes. In this paper, we consider the case of bipartite link predictions where node attributes are unavailable. When using LGAE, we propose to multiply the reconstructed adjacency matrix with a symmetrically normalized training adjacency matrix. As a result, 2-hop paths are formed which we use as the predicted adjacency matrix to evaluate the performance of our model. Experimental results on both synthetic and real-world dataset show our approach consistently outperforms Graph Autoencoder and Linear Graph Autoencoder model in 10 out of 12 bipartite dataset and reaches competitive performances in 2 other bipartite dataset.
翻訳日:2022-12-22 03:58:27 公開日:2020-03-19
# プライバシー保護型トラヒックフロー予測:フェデレーション学習アプローチ

Privacy-preserving Traffic Flow Prediction: A Federated Learning Approach ( http://arxiv.org/abs/2003.08725v1 )

ライセンス: Link先を確認
Yi Liu, James J.Q. Yu, Jiawen Kang, Dusit Niyato, Shuyu Zhang(参考訳) ディープラーニングモデルによる既存のトラフィックフロー予測アプローチは,政府や組織が収集した大量のデータセットに基づいて,優れた成功を収めている。 しかし、これらのデータセットには多くのユーザのプライベートデータが含まれており、ユーザプライバシが近年の公衆の懸念を求めているため、現在の予測アプローチに挑戦している。 したがって、プライバシーを守りながら正確なトラフィック予測をする方法は、解決すべき重要な問題であり、この2つの目的の間にはトレードオフがある。 この課題に対処するために,federated learningというプライバシ保存型機械学習手法を導入し,トラフィックフロー予測のためのfederated learning-based gated recurrent unit neural network algorithm (fedgru)を提案する。 FedGRUは、現在の集中学習方法と異なり、組織間で生データを直接共有するのではなく、安全なパラメータ集約メカニズムを通じて、ユニバーサル学習モデルを更新する。 安全なパラメータアグリゲーション機構では,モデルパラメータ伝達過程における通信オーバーヘッドを低減するために,フェデレーション平均化アルゴリズムを採用する。 さらに,FedGRUのスケーラビリティを向上させるための共同発表プロトコルを設計する。 また,FedGRUアルゴリズムを適用する前に,組織をクラスタ化してトラフィックフロー予測のためのアンサンブルクラスタリング方式を提案する。 実世界のデータセットに関する広範なケーススタディを通じて、FedGRUの予測精度は高度なディープラーニングモデルよりも90.96%高く、FedGRUが生データのプライバシーとセキュリティを損なうことなく正確かつタイムリーなトラフィック予測を達成できることを確認する。

Existing traffic flow forecasting approaches by deep learning models achieve excellent success based on a large volume of datasets gathered by governments and organizations. However, these datasets may contain lots of user's private data, which is challenging the current prediction approaches as user privacy is calling for the public concern in recent years. Therefore, how to develop accurate traffic prediction while preserving privacy is a significant problem to be solved, and there is a trade-off between these two objectives. To address this challenge, we introduce a privacy-preserving machine learning technique named federated learning and propose a Federated Learning-based Gated Recurrent Unit neural network algorithm (FedGRU) for traffic flow prediction. FedGRU differs from current centralized learning methods and updates universal learning models through a secure parameter aggregation mechanism rather than directly sharing raw data among organizations. In the secure parameter aggregation mechanism, we adopt a Federated Averaging algorithm to reduce the communication overhead during the model parameter transmission process. Furthermore, we design a Joint Announcement Protocol to improve the scalability of FedGRU. We also propose an ensemble clustering-based scheme for traffic flow prediction by grouping the organizations into clusters before applying FedGRU algorithm. Through extensive case studies on a real-world dataset, it is shown that FedGRU's prediction accuracy is 90.96% higher than the advanced deep learning models, which confirm that FedGRU can achieve accurate and timely traffic prediction without compromising the privacy and security of raw data.
翻訳日:2022-12-22 03:57:52 公開日:2020-03-19
# 自己注意畳み込みニューラルネットワークを用いた音楽における声と伴奏の分離

Voice and accompaniment separation in music using self-attention convolutional neural network ( http://arxiv.org/abs/2003.08954v1 )

ライセンス: Link先を確認
Yuzhou Liu (1), Balaji Thoshkahna (2), Ali Milani (3), Trausti Kristjansson (3) ((1) Ohio State University (2) Amazon Music, Bangalore (3) Amazon Lab126, CA)(参考訳) 音楽ソース分離は、その技術的難しさだけでなく、自動キャロアケやリミックスなど、多くの商用アプリケーションでの重要性から、数十年にわたって信号処理において一般的な話題となっている。 本研究では,音楽における音声と伴奏を分離する自己注意ネットワークを提案する。 まず,cnnブロックが密結合した畳み込みニューラルネットワーク(cnn)をベースネットワークとして構築する。 次に、CNNの異なるレベルに自己注意サブネットを挿入し、音楽の長期的相互依存性、すなわち繰り返しを利用する。 自己注意サブネット内の同じパターンの繰り返しは、ソース分離性能を改善するために、他の繰り返しの再構築を通知する。 その結果,提案手法は声道分離をSDRで19.5%向上させることがわかった。 MMDenseNet や MMDenseLSTM といった最先端システムとの比較を行った。

Music source separation has been a popular topic in signal processing for decades, not only because of its technical difficulty, but also due to its importance to many commercial applications, such as automatic karoake and remixing. In this work, we propose a novel self-attention network to separate voice and accompaniment in music. First, a convolutional neural network (CNN) with densely-connected CNN blocks is built as our base network. We then insert self-attention subnets at different levels of the base CNN to make use of the long-term intra-dependency of music, i.e., repetition. Within self-attention subnets, repetitions of the same musical patterns inform reconstruction of other repetitions, for better source separation performance. Results show the proposed method leads to 19.5% relative improvement in vocals separation in terms of SDR. We compare our methods with state-of-the-art systems i.e. MMDenseNet and MMDenseLSTM.
翻訳日:2022-12-22 03:57:04 公開日:2020-03-19
# 脳波から想像音声を復号化するための新しいディープラーニングアーキテクチャ

A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG ( http://arxiv.org/abs/2003.09374v1 )

ライセンス: Link先を確認
Jerrin Thomas Panachakel, A.G. Ramakrishnan, T.V. Ananthapadmanabha(参考訳) 近年のディープラーニング分野の進歩は、深層ネットワークのトレーニングに十分なトレーニングサンプルが不十分であることから、想像された音声の復号化に十分に活用されていない。 本稿では,ASUの音声データセットにおける対応する脳波信号から,ディープニューラルネットワーク(DNN)を用いて"in"と"cooperate"の単語を分類するアーキテクチャを提案する。 9つの脳波チャンネルは, 共通空間パターン (CSP) を用いて選択され, 独立したデータベクトルとして扱われる。 特徴抽出には離散ウェーブレット変換(DWT)を用いる。 我々の知る限りでは、DNNは想像された音声の復号化において分類器として使われていない。 個々の単語に対応する選択されたEEGチャネルを独立したデータベクトルとして扱うことは、DNNをトレーニングするための十分な数のサンプルを提供するのに役立つ。 各試験試験において、最終クラスラベルは、試験で考慮された個々のチャンネルの分類結果に多数決を施して得られる。 我々は最先端の結果に匹敵する精度を達成した。 長期記憶などの他の深層学習技術とともに高密度脳波取得システムを使用することにより、さらなる改善が可能となる。

The recent advances in the field of deep learning have not been fully utilised for decoding imagined speech primarily because of the unavailability of sufficient training samples to train a deep network. In this paper, we present a novel architecture that employs deep neural network (DNN) for classifying the words "in" and "cooperate" from the corresponding EEG signals in the ASU imagined speech dataset. Nine EEG channels, which best capture the underlying cortical activity, are chosen using common spatial pattern (CSP) and are treated as independent data vectors. Discrete wavelet transform (DWT) is used for feature extraction. To the best of our knowledge, so far DNN has not been employed as a classifier in decoding imagined speech. Treating the selected EEG channels corresponding to each imagined word as independent data vectors helps in providing sufficient number of samples to train a DNN. For each test trial, the final class label is obtained by applying a majority voting on the classification results of the individual channels considered in the trial. We have achieved accuracies comparable to the state-of-the-art results. The results can be further improved by using a higher-density EEG acquisition system in conjunction with other deep learning techniques such as long short-term memory.
翻訳日:2022-12-22 03:56:32 公開日:2020-03-19
# 経済学におけるデータサイエンス

Data Science in Economics ( http://arxiv.org/abs/2003.13422v1 )

ライセンス: Link先を確認
Saeed Nosratabadi, Amir Mosavi, Puhong Duan, Pedram Ghamisi(参考訳) 本稿では、経済学におけるデータサイエンスの現状について述べる。 データサイエンスにおける応用と手法の新しい分類法について検討する。 データサイエンスの進歩は、ディープラーニングモデル、アンサンブルモデル、ハイブリッドモデルの3つの個別クラスで研究されている。 アプリケーションドメインには、株式市場、マーケティング、Eコマース、コーポレートバンキング、暗号通貨が含まれる。 prisma methodは、調査の質を保証するために、体系的な文献レビュー手法である。 その結果,ハイブリッドモデルを応用した論文の51%以上が,ハイブリッドモデルの進展傾向にあることが明らかとなった。 一方、RMSEの精度測定値に基づいて、ハイブリッドモデルは他のアルゴリズムよりも高い精度で予測できることが判明した。 この傾向は、ディープラーニングモデルの進歩に向かっていると期待されている。

This paper provides the state of the art of data science in economics. Through a novel taxonomy of applications and methods advances in data science are investigated. The data science advances are investigated in three individual classes of deep learning models, ensemble models, and hybrid models. Application domains include stock market, marketing, E-commerce, corporate banking, and cryptocurrency. Prisma method, a systematic literature review methodology is used to ensure the quality of the survey. The findings revealed that the trends are on advancement of hybrid models as more than 51% of the reviewed articles applied hybrid model. On the other hand, it is found that based on the RMSE accuracy metric, hybrid models had higher prediction accuracy than other algorithms. While it is expected the trends go toward the advancements of deep learning models.
翻訳日:2022-12-22 03:56:17 公開日:2020-03-19
# フェデレーション学習のためのパーソナライズ手法の検討

Survey of Personalization Techniques for Federated Learning ( http://arxiv.org/abs/2003.08673v1 )

ライセンス: Link先を確認
Viraj Kulkarni, Milind Kulkarni, Aniruddha Pant(参考訳) フェデレーション学習(federated learning)は、プライバシを損なうことなく、プライベートな分散データからマシンラーニングモデルを学習可能にする。 連合学習の標準的な定式化は、すべてのクライアントに対してひとつの共有モデルを生成する。 デバイス間でのデータの非iid分布による統計的不均一性は、一部のクライアントにとって、プライベートデータのみをトレーニングしたローカルモデルの方が、グローバルな共有モデルよりもパフォーマンスが良いというシナリオに繋がることが多い。 個々のクライアントのために、グローバルモデルをパーソナライズするためのいくつかのテクニックが提案されている。 本稿では、パーソナライズの必要性と、このトピックに関する最近の調査を紹介する。

Federated learning enables machine learning models to learn from private decentralized data without compromising privacy. The standard formulation of federated learning produces one shared model for all clients. Statistical heterogeneity due to non-IID distribution of data across devices often leads to scenarios where, for some clients, the local models trained solely on their private data perform better than the global shared model thus taking away their incentive to participate in the process. Several techniques have been proposed to personalize global models to work better for individual clients. This paper highlights the need for personalization and surveys recent research on this topic.
翻訳日:2022-12-22 03:50:36 公開日:2020-03-19
# 認定された防御を破る:spoofed robustness certificatesによるセマンティックな敵意の例

Breaking certified defenses: Semantic adversarial examples with spoofed robustness certificates ( http://arxiv.org/abs/2003.08937v1 )

ライセンス: Link先を確認
Amin Ghiasi, Ali Shafahi and Tom Goldstein(参考訳) 敵攻撃を回避すべく、"認証"分類器が提案されている。 認証された分類器は、画像のラベル付けに加えて、入力画像が$\ell_p$-bounded adversarial の例でないことを保証する証明書を(可能であれば)生成する。 我々は,分類器のラベリング関数だけでなく,証明書生成器も利用する新たな攻撃を提案する。 提案手法は, 画像がクラス境界から遠ざかる大きな摂動を, 対向例の不受容性を保ちながら適用する。 提案された「シャドウ攻撃」は、確実にロバストなネットワークに画像のラベルを間違え、同時にロバスト性の「偽」証明書を生成する。

To deflect adversarial attacks, a range of "certified" classifiers have been proposed. In addition to labeling an image, certified classifiers produce (when possible) a certificate guaranteeing that the input image is not an $\ell_p$-bounded adversarial example. We present a new attack that exploits not only the labelling function of a classifier, but also the certificate generator. The proposed method applies large perturbations that place images far from a class boundary while maintaining the imperceptibility property of adversarial examples. The proposed "Shadow Attack" causes certifiably robust networks to mislabel an image and simultaneously produce a "spoofed" certificate of robustness.
翻訳日:2022-12-22 03:49:32 公開日:2020-03-19
# 拡散変分オートエンコーダを用いた超球面ラテント空間の遠絡

Disentanglement with Hyperspherical Latent Spaces using Diffusion Variational Autoencoders ( http://arxiv.org/abs/2003.08996v1 )

ライセンス: Link先を確認
Luis A. P\'erez Rey(参考訳) データセットの不連続な表現は、それを生成する基盤となる要因を回復する能力を持つべきである。 一つの疑問は、潜在変数モデルに対するユークリッド空間の使用が、基礎となる生成因子が幾何構造を持つとき、不等角表現を生成することができるかどうかである。 例えば、異なる角度から見た車の画像を見てみましょう。 角度は周期構造を持つが、1次元の表現はこの位相を捉えない。 どうやってこの問題に対処できるのか? NeurIPS2019 Disentanglement Challengeの最初の段階で提示された提案は、拡散変分オートエンコーダ(\Delta$VAE)と超球面ラテント空間(例えば周期的真の因子を回復できる)から構成される。 後方近似の符号化能力を調整するためにエビデンス下限(elbo)の修正版を組み込むことにより、$\delta$vaeの訓練を強化する。

A disentangled representation of a data set should be capable of recovering the underlying factors that generated it. One question that arises is whether using Euclidean space for latent variable models can produce a disentangled representation when the underlying generating factors have a certain geometrical structure. Take for example the images of a car seen from different angles. The angle has a periodic structure but a 1-dimensional representation would fail to capture this topology. How can we address this problem? The submissions presented for the first stage of the NeurIPS2019 Disentanglement Challenge consist of a Diffusion Variational Autoencoder ($\Delta$VAE) with a hyperspherical latent space which can, for example, recover periodic true factors. The training of the $\Delta$VAE is enhanced by incorporating a modified version of the Evidence Lower Bound (ELBO) for tailoring the encoding capacity of the posterior approximate.
翻訳日:2022-12-22 03:48:48 公開日:2020-03-19
# 画像キャプションのための正規化および幾何対応セルフアテンションネットワーク

Normalized and Geometry-Aware Self-Attention Network for Image Captioning ( http://arxiv.org/abs/2003.08897v1 )

ライセンス: Link先を確認
Longteng Guo, Jing Liu, Xinxin Zhu, Peng Yao, Shichen Lu, and Hanqing Lu(参考訳) 自己注意ネットワークは画像キャプションにおいて大きな価値を示している。 本稿では,2つの側面からSAを改善し,画像キャプションの性能向上を図る。 まず、SA内部の正規化の利点をもたらすSAの再パラメータ化である正規化自己認識(NSA)を提案する。 従来, 正規化はSA外部にのみ適用されていたが, 新規な正規化法を導入し, SA内部の隠れアクティベーション上で実施することは可能かつ有益であることを示す。 次に,入力オブジェクトの幾何学構造をモデル化できないトランスフォーマーの限界を補うために,画像内のオブジェクト間の相対幾何学的関係を明確かつ効率的に検討するためにSAを拡張した幾何学的自己認識(GSA)のクラスを提案する。 画像キャプションモデルを構築するために,2つのモジュールを組み合わせて,バニラ自己注意ネットワークに適用する。 我々は,MS-COCO画像キャプションデータセットの提案を広範囲に評価し,最先端のアプローチと比較して優れた結果を得た。 ビデオキャプション,機械翻訳,視覚的質問応答の3つの課題に関するさらなる実験は,本手法の汎用性を示すものである。

Self-attention (SA) network has shown profound value in image captioning. In this paper, we improve SA from two aspects to promote the performance of image captioning. First, we propose Normalized Self-Attention (NSA), a reparameterization of SA that brings the benefits of normalization inside SA. While normalization is previously only applied outside SA, we introduce a novel normalization method and demonstrate that it is both possible and beneficial to perform it on the hidden activations inside SA. Second, to compensate for the major limit of Transformer that it fails to model the geometry structure of the input objects, we propose a class of Geometry-aware Self-Attention (GSA) that extends SA to explicitly and efficiently consider the relative geometry relations between the objects in the image. To construct our image captioning model, we combine the two modules and apply it to the vanilla self-attention network. We extensively evaluate our proposals on MS-COCO image captioning dataset and superior results are achieved when comparing to state-of-the-art approaches. Further experiments on three challenging tasks, i.e. video captioning, machine translation, and visual question answering, show the generality of our methods.
翻訳日:2022-12-22 03:48:31 公開日:2020-03-19
# 視覚認識のための親和性グラフの監督

Affinity Graph Supervision for Visual Recognition ( http://arxiv.org/abs/2003.09049v1 )

ライセンス: Link先を確認
Chu Wang, Babak Samari, Vladimir G. Kim, Siddhartha Chaudhuri, Kaleem Siddiqi(参考訳) アフィニティグラフは、グラフ畳み込みニューラルネットワークやアテンションネットワークなど、ディープアーキテクチャで広く使われている。 これまでのところ、文献はそのようなグラフから特徴を抽象化することに重点を置いているが、親和性自体の学習は見過ごされている。 本稿では,アフィニティグラフにおける重みの学習を直接監督し,データソース内のエンティティ間の有意義な接続を活用するための原理的手法を提案する。 視覚的注意ネットワークに適用した親和性監視は,手動でアノテートされた関係ラベルを使わずとも,オブジェクト間の関係回復を改善する。 さらに,物体間の親和性学習によりシーン分類性能が向上し,ミニバッチから構築したグラフにも親和性の監視が適用可能であることを示す。 画像分類タスクでは、さまざまなネットワークアーキテクチャとデータセットを用いて、ベースラインに対して一貫した改善を示す。

Affinity graphs are widely used in deep architectures, including graph convolutional neural networks and attention networks. Thus far, the literature has focused on abstracting features from such graphs, while the learning of the affinities themselves has been overlooked. Here we propose a principled method to directly supervise the learning of weights in affinity graphs, to exploit meaningful connections between entities in the data source. Applied to a visual attention network, our affinity supervision improves relationship recovery between objects, even without the use of manually annotated relationship labels. We further show that affinity learning between objects boosts scene categorization performance and that the supervision of affinity can also be applied to graphs built from mini-batches, for neural network training. In an image classification task we demonstrate consistent improvement over the baseline, with diverse network architectures and datasets.
翻訳日:2022-12-22 03:48:10 公開日:2020-03-19
# UAV搭載のシープ検出に向けて

Towards Detection of Sheep Onboard a UAV ( http://arxiv.org/abs/2004.02758v1 )

ライセンス: Link先を確認
Farah Sarwar, Anthony Griffin, Saeed Ur Rehman, and Timotius Pasang(参考訳) 本研究では,高度80mで飛行する無人航空機(UAV)上で羊を検出する作業について検討する。 この高さでは、羊は比較的小さく、幅は約15ピクセルしかない。 ディープラーニングの戦略は過去10年で大きな人気を博し、今では多くの分野でオブジェクト検出に広く使われているが、最先端の検出器は小さなオブジェクトの場合、性能が悪い。 我々は、羊のUAV画像の新しいデータセットを開発し、精度と速度の両面で、どのタスクに最も適しているかを判断するために、さまざまな物体検出器を検討する。 以上の結果から,トレーニング中の損失関数として重み付きハウスドルフ距離を用いたUNet検出器が,UAV搭載羊の発見に有効であることが示唆された。

In this work we consider the task of detecting sheep onboard an unmanned aerial vehicle (UAV) flying at an altitude of 80 m. At this height, the sheep are relatively small, only about 15 pixels across. Although deep learning strategies have gained enormous popularity in the last decade and are now extensively used for object detection in many fields, state-of-the-art detectors perform poorly in the case of smaller objects. We develop a novel dataset of UAV imagery of sheep and consider a variety of object detectors to determine which is the most suitable for our task in terms of both accuracy and speed. Our findings indicate that a UNet detector using the weighted Hausdorff distance as a loss function during training is an excellent option for detection of sheep onboard a UAV.
翻訳日:2022-12-22 03:40:45 公開日:2020-03-19
# 物語テキスト理解のためのテンポラル埋め込みとトランスフォーマーモデル

Temporal Embeddings and Transformer Models for Narrative Text Understanding ( http://arxiv.org/abs/2003.08811v1 )

ライセンス: Link先を確認
Vani K and Simone Mellace and Alessandro Antonucci(参考訳) キャラクタ関係モデリングのための物語テキスト理解のための2つの深層学習手法を提案する。 これらの関係の時間的発展は、時間とともに意味的変化を学ぶために設計された動的単語埋め込みによって記述される。 対応するキャラクタ軌跡の実証分析により、そのようなアプローチが動的進化の描写に有効であることが示されている。 最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。 経験的検証は、このような事象(例えば、同じ家族に属する2文字)が、自動的に注釈付きデータを使用しても、精度良く発見できることを示している。 これにより、重要な事実の特定に基づく物語の筋書きの理解が深まる。 標準クラスタリング技術は、いずれのアプローチでも必要な前処理ステップであるキャラクタデアリアシングに最終的に使用される。 全体として、ディープラーニングモデルは物語テキスト理解に適しており、一般的な自然言語理解のための挑戦的で未発表のベンチマークを提供する。

We present two deep learning approaches to narrative text understanding for character relationship modelling. The temporal evolution of these relations is described by dynamic word embeddings, that are designed to learn semantic changes over time. An empirical analysis of the corresponding character trajectories shows that such approaches are effective in depicting dynamic evolution. A supervised learning approach based on the state-of-the-art transformer model BERT is used instead to detect static relations between characters. The empirical validation shows that such events (e.g., two characters belonging to the same family) might be spotted with good accuracy, even when using automatically annotated data. This provides a deeper understanding of narrative plots based on the identification of key facts. Standard clustering techniques are finally used for character de-aliasing, a necessary pre-processing step for both approaches. Overall, deep learning models appear to be suitable for narrative text understanding, while also providing a challenging and unexploited benchmark for general natural language understanding.
翻訳日:2022-12-22 03:40:34 公開日:2020-03-19
# Beheshti-NER:BERTを用いたペルシア名のエンティティ認識

Beheshti-NER: Persian Named Entity Recognition Using BERT ( http://arxiv.org/abs/2003.08875v1 )

ライセンス: Link先を確認
Ehsan Taher, Seyed Abbas Hoseini, and Mehrnoush Shamsfard(参考訳) 名前付きエンティティ認識は、名前付きエンティティに関連するテキストのスパンを認識し抽出し、それらをセマンティックカテゴリに分類する自然言語処理タスクである。 Google BERTは、大きなコーパスで事前訓練されたディープ双方向言語モデルであり、質問応答、名前付きエンティティ認識、音声タグ付けなど、多くのNLPタスクを微調整することができる。 本稿では,事前学習された深層双方向ネットワークであるbertを用いて,ペルシャ語で名前付きエンティティ認識のモデルを構築する。 また,我々のモデルの結果とペルシャのNERで達成された芸術結果の先行状況を比較した。 評価基準は, CONLL 2003 の単語とフレーズの2段階のスコアである。 このモデルは、ペルシア語のNERに関連するNSURL-2019タスク7コンテストで2位を獲得した。 コンペの結果は83.5と88.4 f1 CONLLスコアで,それぞれフレーズレベルと単語レベルの評価を行った。

Named entity recognition is a natural language processing task to recognize and extract spans of text associated with named entities and classify them in semantic Categories. Google BERT is a deep bidirectional language model, pre-trained on large corpora that can be fine-tuned to solve many NLP tasks such as question answering, named entity recognition, part of speech tagging and etc. In this paper, we use the pre-trained deep bidirectional network, BERT, to make a model for named entity recognition in Persian. We also compare the results of our model with the previous state of the art results achieved on Persian NER. Our evaluation metric is CONLL 2003 score in two levels of word and phrase. This model achieved second place in NSURL-2019 task 7 competition which associated with NER for the Persian language. our results in this competition are 83.5 and 88.4 f1 CONLL score respectively in phrase and word level evaluation.
翻訳日:2022-12-22 03:40:20 公開日:2020-03-19
# ハイブリッド音声認識システムにおける語彙拡張手法

Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems ( http://arxiv.org/abs/2003.09024v1 )

ライセンス: Link先を確認
Nikolay Malkovsky, Vladimir Bataev, Dmitrii Sviridkin, Natalia Kizhaeva, Aleksandr Laptev, Ildar Valiev, Oleg Petrov(参考訳) out of vocabulary words (oov) の問題は音声認識システムでは典型的であり、ハイブリッドシステムは固定された単語集合を認識するように構成されており、システムの利用時に遭遇する全ての単語を含むことは滅多にない。 OOVをカバーする一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。 このようなシステムは、現在サブワード単位から単語を構築できる場合、これまで見られなかった単語を認識できるが、既存の単語も認識できる。 もうひとつの一般的なアプローチは、システムのHMM部分を変更することで、システムに追加したい独自の単語セットで、簡単かつ効果的に拡張できるようにすることです。 本稿では,グラフ構成と探索法の両方において,この解の既存手法について検討する。 また,認識グラフ処理における内部サブルーチン問題の解法として,新たな語彙拡張手法を提案する。

The problem of out of vocabulary words (OOV) is typical for any speech recognition system, hybrid systems are usually constructed to recognize a fixed set of words and rarely can include all the words that will be encountered during exploitation of the system. One of the popular approach to cover OOVs is to use subword units rather then words. Such system can potentially recognize any previously unseen word if the word can be constructed from present subword units, but also non-existing words can be recognized. The other popular approach is to modify HMM part of the system so that it can be easily and effectively expanded with custom set of words we want to add to the system. In this paper we explore different existing methods of this solution on both graph construction and search method levels. We also present a novel vocabulary expansion techniques which solve some common internal subroutine problems regarding recognition graph processing.
翻訳日:2022-12-22 03:39:41 公開日:2020-03-19
# 強化学習エージェントに対応するための計画戦略の調整

Adjust Planning Strategies to Accommodate Reinforcement Learning Agents ( http://arxiv.org/abs/2003.08554v1 )

ライセンス: Link先を確認
Xuerun Chen(参考訳) エージェント制御の問題では、強化学習と計画の組み合わせというアイデアが注目されている。 2つの方法はそれぞれマイクロアクションとマクロアクションに焦点を当てる。 彼らの利点は、彼らの間に良い協力関係があれば合わさるでしょう。 協調には適切な境界を見つけ、それぞれのメソッドに異なる関数を割り当てることが不可欠である。 このような境界は計画アルゴリズムのパラメータで表すことができる。 本稿では,反応と計画の関連を解析し,計画パラメータの最適化戦略を作成するとともに,最適化を高速化する非段階的手法を提案する。 アルゴリズム全体では、特定のエージェントの反応能力をフル活用して、計画パラメータの十分な設定を見つけることができる。

In agent control issues, the idea of combining reinforcement learning and planning has attracted much attention. Two methods focus on micro and macro action respectively. Their advantages would show together if there is a good cooperation between them. An essential for the cooperation is to find an appropriate boundary, assigning different functions to each method. Such boundary could be represented by parameters in a planning algorithm. In this paper, we create an optimization strategy for planning parameters, through analysis to the connection of reaction and planning; we also create a non-gradient method for accelerating the optimization. The whole algorithm can find a satisfactory setting of planning parameters, making full use of reaction capability of specific agents.
翻訳日:2022-12-22 03:39:28 公開日:2020-03-19
# 深層畳み込みネットワークからの階層的知識抽出

Layerwise Knowledge Extraction from Deep Convolutional Networks ( http://arxiv.org/abs/2003.09000v1 )

ライセンス: Link先を確認
Simon Odense and Artur d'Avila Garcez(参考訳) 知識抽出は、より理解可能な学習モデルを作成する目的で、ニューラルネットワークを象徴的記述に変換するために使用される。 中心的な課題は、そのモデルを忠実に表現しながら、元のモデルよりも理解しやすい説明を見つけることである。 ディープ・ネットワークの分散の性質は、ニューラルネットワークの隠れた特徴が理解しやすいほど単純な論理的記述によって説明できないと多くの人が信じている。 本稿では,ディープネットワークの隠れた特徴を記述するルールの複雑さと正確さの最良のトレードオフを求めるm-of-nルールを用いた階層的知識抽出手法を提案する。 このアプローチが最適な複雑性エラートレードオフに近いルールを生成することを実証的に示す。 この手法を様々な深層ネットワークに適用し,内部層では複雑で正確性に富む規則を見つけることがしばしば不可能であることを見いだし,ニューラルネットワークの内部論理を説明する汎用的手法としてのルール抽出は不可能である可能性を示唆した。 しかし,畳み込みニューラルネットワークやtanhあるいはreluアクティベーション関数を用いたオートエンコーダのソフトマックス層は規則抽出によって説明可能であり,約128単位中3単位のコンパクトルールは99%以上の精度に達することが多い。 このことは,ディープニューラルネットワークの部分(あるいはモジュール)を説明する上で,ルール抽出が有用であることを示す。

Knowledge extraction is used to convert neural networks into symbolic descriptions with the objective of producing more comprehensible learning models. The central challenge is to find an explanation which is more comprehensible than the original model while still representing that model faithfully. The distributed nature of deep networks has led many to believe that the hidden features of a neural network cannot be explained by logical descriptions simple enough to be comprehensible. In this paper, we propose a novel layerwise knowledge extraction method using M-of-N rules which seeks to obtain the best trade-off between the complexity and accuracy of rules describing the hidden features of a deep network. We show empirically that this approach produces rules close to an optimal complexity-error tradeoff. We apply this method to a variety of deep networks and find that in the internal layers we often cannot find rules with a satisfactory complexity and accuracy, suggesting that rule extraction as a general purpose method for explaining the internal logic of a neural network may be impossible. However, we also find that the softmax layer in Convolutional Neural Networks and Autoencoders using either tanh or relu activation functions is highly explainable by rule extraction, with compact rules consisting of as little as 3 units out of 128 often reaching over 99% accuracy. This shows that rule extraction can be a useful component for explaining parts (or modules) of a deep neural network.
翻訳日:2022-12-22 03:39:18 公開日:2020-03-19
# グラフ畳み込みネットワークを用いた最短依存経路の連成イベント抽出

Joint Event Extraction along Shortest Dependency Paths using Graph Convolutional Networks ( http://arxiv.org/abs/2003.08615v1 )

ライセンス: Link先を確認
Ali Balali, Masoud Asadpour, Ricardo Campos, Adam Jatowt(参考訳) イベント抽出(ee)は、インシデントとそのアクタに関する情報をテキストから自動的に識別し抽出することを目的とした、情報抽出タスクの中核である。 これは、知識ベース、質問応答、情報検索、要約タスクなどいくつかのドメインにとって有益である。 テキストからイベント情報を抽出する問題は長く、通常、精巧に設計された語彙的特徴と構文的特徴に依存している。 最近では、ディープニューラルネットワークアプローチが、基盤となる機能を自動的に学習する手段として採用されている。 しかし、既存のネットワークは構文機能を完全に利用していないため、非常に長い範囲の依存関係を捉える上で基本的な役割を担っている。 また、ほとんどのアプローチは、特に複数の事象を持つ文において、結果として効率の低下につながる議論間の関連を考慮せずに、イベントの各引数を別々に抽出する。 本稿では,複数のイベントトリガと引数を同時に抽出し,依存関係グラフに最短依存性パス(SDP)を導入することを目的とした,新しいイベント抽出フレームワークを提案する。 文中の無関係な単語を取り除き、長距離の依存関係を捉えてこれを行う。 また,議論間の潜在関係を捉え,集約する議論候補間の最短経路に沿って構文的関連情報を運ぶために,注意に基づくグラフ畳み込みネットワークを提案する。 その結果,最先端手法よりも大幅に改善した。

Event extraction (EE) is one of the core information extraction tasks, whose purpose is to automatically identify and extract information about incidents and their actors from texts. This may be beneficial to several domains such as knowledge bases, question answering, information retrieval and summarization tasks, to name a few. The problem of extracting event information from texts is longstanding and usually relies on elaborately designed lexical and syntactic features, which, however, take a large amount of human effort and lack generalization. More recently, deep neural network approaches have been adopted as a means to learn underlying features automatically. However, existing networks do not make full use of syntactic features, which play a fundamental role in capturing very long-range dependencies. Also, most approaches extract each argument of an event separately without considering associations between arguments which ultimately leads to low efficiency, especially in sentences with multiple events. To address the two above-referred problems, we propose a novel joint event extraction framework that aims to extract multiple event triggers and arguments simultaneously by introducing shortest dependency path (SDP) in the dependency graph. We do this by eliminating irrelevant words in the sentence, thus capturing long-range dependencies. Also, an attention-based graph convolutional network is proposed, to carry syntactically related information along the shortest paths between argument candidates that captures and aggregates the latent associations between arguments; a problem that has been overlooked by most of the literature. Our results show a substantial improvement over state-of-the-art methods.
翻訳日:2022-12-22 03:31:06 公開日:2020-03-19
# 強化学習のための交換可能な入力表現

Exchangeable Input Representations for Reinforcement Learning ( http://arxiv.org/abs/2003.09022v1 )

ライセンス: Link先を確認
John Mern and Dorsa Sadigh and Mykel J. Kochenderfer(参考訳) 低いサンプル効率は多くの領域において深層強化学習の大きな限界である。 この研究は、ニューラルネットワークの入力を入力順序の変更の下で不変な効率的な表現空間に投影する注意に基づく手法を提案する。 提案した表現が$mの係数である入力空間となることを示す。 $m$オブジェクトの入力に対して$ small。 また,本手法はオブジェクトの変数数に対して入力を表現可能であることを示す。 本実験は,様々なタスクにおけるポリシー勾配法におけるサンプル効率の改善を示す。 私たちの表現は、na\" のアプローチを使うとき、そうでなければ難解な問題を解決できることを示している。

Poor sample efficiency is a major limitation of deep reinforcement learning in many domains. This work presents an attention-based method to project neural network inputs into an efficient representation space that is invariant under changes to input ordering. We show that our proposed representation results in an input space that is a factor of $m!$ smaller for inputs of $m$ objects. We also show that our method is able to represent inputs over variable numbers of objects. Our experiments demonstrate improvements in sample efficiency for policy gradient methods on a variety of tasks. We show that our representation allows us to solve problems that are otherwise intractable when using na\"ive approaches.
翻訳日:2022-12-22 03:30:10 公開日:2020-03-19
# 検索可能な拡張ユニットによる生涯学習

Lifelong Learning with Searchable Extension Units ( http://arxiv.org/abs/2003.08559v1 )

ライセンス: Link先を確認
Wenjin Wang, Yunqing Hu, Yin Zhang(参考訳) 生涯学習は依然としてオープンな問題である。 最大の難題は破滅的な忘れ事である。 この問題に対処するために多くの動的拡張アプローチが提案されているが、それらはすべてすべてのタスクに対して事前定義された構造の均一なモデルを使用する。 共通のオリジナルモデルと拡張構造は、異なるタスクに対する異なるモデル構造の必要性を無視し、複数のタスクに対するよりコンパクトなモデルをもたらし、タスクの数が増えるにつれてモデルサイズが急速に増加する。 さらに、すべてのタスクでベストを尽くすことはできない。 そこで本稿では,ニューラルネットワークを生涯学習に導入することにより,モデルの性能を損なうことなく,事前定義されたオリジナルモデルの必要性を解消し,異なるタスクに対する特定の拡張ユニットを探索する,SEU(Searchable Extension Units)と呼ばれる新しい生涯学習フレームワークを提案する。 我々のアプローチは、破滅的な忘れることなく、はるかにコンパクトなモデルを得ることができる。 pmnist,スプリットcifar10データセット,スプリットcifar100データセットおよび混合データセットにおける実験結果から,本手法は,最先端手法の約25~33パーセントの大きさのモデルを用いて,より小さなモデルで高い精度を実現できることが実証された。

Lifelong learning remains an open problem. One of its main difficulties is catastrophic forgetting. Many dynamic expansion approaches have been proposed to address this problem, but they all use homogeneous models of predefined structure for all tasks. The common original model and expansion structures ignore the requirement of different model structures on different tasks, which leads to a less compact model for multiple tasks and causes the model size to increase rapidly as the number of tasks increases. Moreover, they can not perform best on all tasks. To solve those problems, in this paper, we propose a new lifelong learning framework named Searchable Extension Units (SEU) by introducing Neural Architecture Search into lifelong learning, which breaks down the need for a predefined original model and searches for specific extension units for different tasks, without compromising the performance of the model on different tasks. Our approach can obtain a much more compact model without catastrophic forgetting. The experimental results on the PMNIST, the split CIFAR10 dataset, the split CIFAR100 dataset, and the Mixture dataset empirically prove that our method can achieve higher accuracy with much smaller model, whose size is about 25-33 percentage of that of the state-of-the-art methods.
翻訳日:2022-12-22 03:30:02 公開日:2020-03-19