このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200307となっている論文です。

PDF登録状況(公開日: 20200307)

TitleAuthorsAbstract論文公表日・翻訳日
# 回帰モデルのアンサンブルによる一類分類 -詳細研究-

One-Class Classification by Ensembles of Regression models -- a detailed study ( http://arxiv.org/abs/1912.11475v3 )

ライセンス: Link先を確認
Amir Ahmad and Srikanth Bezawada(参考訳) one-class classification (occ) は、トレーニングデータが対象クラスのみに属するデータポイントを持つ分類問題を扱う。 本稿では,回帰法を用いてocc問題に対処する,回帰モデルのアンサンブルによる1クラス分類アルゴリズムについて検討する。 OCCERは、OCC問題を元の特徴空間における多くの回帰問題に包含し、元の特徴空間の各特徴を1つの回帰問題において対象変数として使用する。 他の機能は、依存変数が依存する変数として使用される。 すべての回帰モデルによるデータポイントの回帰誤差は、データポイントの外れ値のスコアを計算するために使用される。 複数のデータセットにおけるoccerアルゴリズムと最先端occアルゴリズムの広範な比較を行い,本手法の有効性を示した。 また、OCCERアルゴリズムは、画像データセットのオートエンコーダによって生成される潜在機能空間とうまく機能することを示した。 OCCERの実装はhttps://github.com/srikanthBezawada/OCCERで公開されている。

One-class classification (OCC) deals with the classification problem in which the training data has data points belonging only to target class. In this paper, we study a one-class classification algorithm, One-Class Classification by Ensembles of Regression models (OCCER), that uses regression methods to address OCC problems. The OCCER coverts an OCC problem into many regression problems in the original feature space so that each feature of the original feature space is used as the target variable in one of the regression problems. Other features are used as the variables on which the dependent variable depends. The errors of regression of a data point by all the regression models are used to compute the outlier score of the data point. An extensive comparison of the OCCER algorithm with state-of-the-art OCC algorithms on several datasets was conducted to show the effectiveness of the this approach. We also demonstrate that the OCCER algorithm can work well with the latent feature space created by autoencoders for image datasets. The implementation of OCCER is available at https://github.com/srikanthBezawada/OCCER.
翻訳日:2023-06-10 08:36:53 公開日:2020-03-07
# 電荷と磁束の圧縮機

Commutator of Electric Charge and Magnetic Flux ( http://arxiv.org/abs/2003.02225v2 )

ライセンス: Link先を確認
Mikhail A. Savrov(参考訳) ここでは、電場とベクトルポテンシャルの量子場作用素の可換関係からジョセフソン接合を含む超伝導回路において電荷の可換子と磁束の導出を見つけることができる。 真空中における2つの相互結合ループを通過する電場と磁場のフラックスのコンピュレータの評価を行い、コンミュレータの物理的解釈について議論する。

Here one can find a derivation of the commutator of the charge and magnetic flux in a superconducting circuit containing a Josephson junction from the commutation relation of quantum-field operators of electric field and vector potential. A commutator of the fluxes of electric and magnetic fields passing through two interlinked loops in vacuum is also evaluated and physical interpretation of the commutator is discussed.
翻訳日:2023-06-01 05:38:27 公開日:2020-03-07
# 非平衡半導体三重共振器における励起子-ポーラリトンの量子多体理論

Quantum Many-Body Theory for Exciton-Polaritons in Semiconductor Mie Resonators in the Non-Equilibrium ( http://arxiv.org/abs/2003.00793v2 )

ライセンス: Link先を確認
Andreas Lubatsch, Regine Frank(参考訳) 一般化ハバードハミルトニアンの枠組みで外部励起zno三重共振器を実装し、熱力学的平衡から励起子と励起子-ポーラリトンの寿命を調べる。 Floquet-Keldysh-Green's formalism with Dynamical Mean Field Theory (DMFT) and a second order Iterative perturbation Theorysolvr (IPT) によって得られた。 状態の電子密度の連続体と半導体ミエ共振器とのカップリングに由来するファノ共鳴は、0.6 psから1.45 psの寿命を持つ偏光子を生成する。 これらの結果はZnOポラリトンレーザーやZnOランダムレーザーと比較される。 我々は、励起ZnO Mie共振器において、安定な偏光子ラシングモードをもたらす利得狭めの兆候として、エキシトン-偏光子寿命のピークを解釈する。 このような利得は非平衡におけるZnO Mie共振器のアンサンブルにおける偏光子ランダムなラシングにつながる可能性がある。

We implement externally excited ZnO Mie resonators in a framework of a generalized Hubbard Hamiltonian to investigate the lifetimes of excitons and exciton-polaritons out of thermodynamical equilibrium. Our results are derived by a Floquet-Keldysh-Green's formalism with Dynamical Mean Field Theory (DMFT) and a second order iterative perturbation theory solver (IPT). We find that the Fano resonance which originates from coupling of the continuum of electronic density of states to the semiconductor Mie resonator yields polaritons with lifetimes between 0.6 ps and 1.45 ps. These results are compared to ZnO polariton lasers and to ZnO random lasers. We interpret the peaks of the exciton-polariton lifetimes in our results as a sign of gain narrowing which may lead to stable polariton lasing modes in the single excited ZnO Mie resonator. This form of gain may lead to polariton random lasing in an ensemble of ZnO Mie resonators in the non-equilibrium.
翻訳日:2023-05-31 12:33:11 公開日:2020-03-07
# 量子古典的ゆらぎ関係と熱力学の第二法則:量子線形振動子

Quantal-classical fluctuation relation and the second law of thermodynamics: The quantum linear oscillator ( http://arxiv.org/abs/2003.01264v2 )

ライセンス: Link先を確認
Ilki Kim(参考訳) 本研究では、時間 t = tau の周期で外部に駆動される量子線形発振器内のゆらぎ関係と熱力学の第二法則について検討する。 この主題に対する標準的アプローチ(二点射影計測1)を超越し、単一基底上の量子領域と古典領域の両方で議論されるようにするために、この標準的アプローチをウィグナー関数と位相空間 (x,p) におけるプロパゲータの観点から再キャストする。 x,p) から角度-作用座標 (\phi,I) への正準変換の助けを借りて、ウィグナー表現におけるクルックスゆらぎ関係の測度のない(古典的な)形式を導出することができる。 これにより,古典的熱力学に根ざした熱力学研究の量子一般化である tau 周期上で (i_0) から (i_{tau}) への単回実行に関連する作業 w_{i_0,i_{tau}} を導入することができる。 この量子論は、ベータ hbar --> 0 でない限り、エネルギー差 e_{i_0,i_{tau}} = e(i_{tau}) - e(i_0) とは異なる。 したがって、量子第二法則不等式 delta f_{beta} \leq <w>_{p} \leq <e>_{p} = delta u, ここで p, delta f_{beta}, <w>_p は仕事 (quasi)-確率分布、自由エネルギー差、そして平均的な作業はそれぞれ内部エネルギー差デルタ u と区別され、一方 <w>_p --> delta u はベータ限界の hbar --> 0 のみを示す。 したがって、熱的に孤立した系であっても量子熱 Q_q = Delta U - W を導入することもできる。 これは、標準アプローチから得られた<W>_P = Delta Uよりもきめ細かい結果である。 熱力学的作用 W_{I_0,I_{tau}} の測定自由性のため、この結果は(非熱的)初期状態 rho_0 = (1-ガンマ) rho_{beta} + gamma sigma with sigma \ne rho_{beta} にも適用できる。

In this work, we study the fluctuation relation and the second law of thermodynamics within a quantum linear oscillator externally driven over the period of time t = tau. To go beyond the standard approach (the two-point projective measurement one) to this subject and also render it discussed in both quantum and classical domains on the single footing, we recast this standard approach in terms of the Wigner function and its propagator in the phase space (x,p). With the help of the canonical transformation from (x,p) to the angle-action coordinates (\phi,I), we can then derive a measurement-free (classical-like) form of the Crooks fluctuation relation in the Wigner representation. This enables us to introduce the work W_{I_0,I_{tau}} associated with a single run from (I_0) to (I_{tau}) over the period tau, which is a quantum generalization of the thermodynamic work with its roots in the classical thermodynamics. This quantum work differs from the energy difference e_{I_0,I_{tau}} = e(I_{tau}) - e(I_0) unless beta, hbar --> 0. Consequently, we will obtain the quantum second-law inequality Delta F_{beta} \leq <W>_{P} \leq <e>_{P} = Delta U, where P, Delta F_{beta}, and <W>_P denote the work (quasi)-probability distribution, the free energy difference, and the average work distinguished from the internal energy difference Delta U, respectively, while <W>_P --> Delta U in the limit of beta, hbar --> 0 only. Therefore, we can also introduce the quantum heat Q_q = Delta U - W even for a thermally isolated system, resulting from the quantum fluctuation therein. This is a more fine-grained result than <W>_P = Delta U obtained from the standard approach. Owing to the measurement-free nature of the thermodynamic work W_{I_0,I_{tau}}, our result can also apply to the (non-thermal) initial states rho_0 = (1-gamma) rho_{beta} + gamma sigma with sigma \ne rho_{beta}.
翻訳日:2023-05-31 07:47:01 公開日:2020-03-07
# 光素子を介して結合した2つの遠い原子系における絡み合いと突発死

Entanglement sudden birth and sudden death in a system of two distant atoms coupled via an optical element ( http://arxiv.org/abs/2003.03650v1 )

ライセンス: Link先を確認
Maryam Ashrafi and M. H. Naderi(参考訳) 光学素子を介して結合される2つの離れた2レベル原子からなる系において、集合効果と原子の絡み合いのダイナミクスが報告されている。 検討中の系では、レンズの焦点に閉じ込められた2つの原子は、真空状態にある共通の環境と結合され、光子を自発的に放出する。 したがって、各原子から放出される光子のごく一部は他の原子の位置に集中する。 2つの遠い原子間の光学素子の存在は、遅延双極子相互作用や遅延した集団的自然放出のような遅延した集団効果を生じさせ、絡み合いの動的挙動において重要な役割を果たす。 本研究では, 初期1光子と初期2光子アンタングルド原子状態の両方において, 絡み合いの現象, 絡み合いの突然死, 絡み合いの回復について論じる。 エンタングルメントの進化は、原子間距離だけでなく、系の初期状態や光学素子の特性にも敏感であることを示す。

An investigation is reported of the collective effects and the dynamics of atom atom entanglement in a system of two distant two level atoms which are coupled via an optical element. In the system under consideration, the two atoms, which are trapped in the foci of a lens, are coupled to a common environment being in the vacuum state and they emit photons spontaneously. A fraction of the emitted photons from each atom is thus focused on the position of the other atom. The presence of optical element between two distant atoms leads to the occurrence of delayed collective effects, such as delayed dipole dipole interaction and delayed collective spontaneous emission, which play the crucial role in the dynamical behavior of the entanglement. We discuss the phenomena of entanglement sudden birth, entanglement sudden death, and revival of entanglement for both cases of initial one photon and initial two photon unentangled atomic states. We show that the evolution of the entanglement is sensitive not only to the interatomic distance but also to the initial state of the system as well as to the properties of the optical element.
翻訳日:2023-05-30 07:01:59 公開日:2020-03-07
# SU(2) x SU(2)スピンパリティ状態に対するローレンツ不変量子収束

Lorentz Invariant Quantum Concurrence for SU(2) x SU(2) spin-parity states ( http://arxiv.org/abs/2003.03641v1 )

ライセンス: Link先を確認
Alex E. Bernardini, Victor A. S. V. Bittencourt and Massimo Blasone(参考訳) SU(2) \otimes SU(2)$ spin-parity 状態の量子収束は、密度行列がディラック粒子の共変確率分布と調和して構成されるとき、$SO(1,3)$ Lorentz boostsおよび$O(3)$ rotationsの下で不変であることが示されている。 同様の不変性は、量子純度と一等密度行列作用素のトレースに対して得られる。 報告された不変性は、$sl(2,\mathbb{c})\otimes sl(2,\mathbb{c})$ symmetry で囲まれた非同値表現のただ1つに対応する$su(2) \otimes su(2)$の範囲で得られ、スピン偏極に関する情報だけでなく、固有パリティに関する相関情報を含む系で符号化された量子エンタングルメントに対してより普遍的でキネマティックな意味を設定する。 このような共変フレームワークは、磁場に結合したスピノル粒子のローレンツ不変スピンパリティ絡みの計算に使われ、より一般的なスピノル相互作用のポアンカー・エ級への拡張が直接描写される。

The quantum concurrence of $SU(2) \otimes SU(2)$ spin-parity states is shown to be invariant under $SO(1,3)$ Lorentz boosts and $O(3)$ rotations when the density matrices are constructed in consonance with the covariant probabilistic distribution of Dirac massive particles. Similar invariance properties are obtained for the quantum purity and for the trace of unipotent density matrix operators. The reported invariance features -- obtained in the scope of the $SU(2) \otimes SU(2)$ corresponding to just one of the inequivalent representations enclosed by the $SL(2,\mathbb{C})\otimes SL(2,\mathbb{C})$ symmetry -- set a more universal and kinematical-independent meaning for the quantum entanglement encoded in systems containing not only information about spin polarization but also the correlated information about intrinsic parity. Such a covariant framework is used for computing the Lorentz invariant spin-parity entanglement of spinorial particles coupled to a magnetic field, through which the extensions to more general Poincar\'e classes of spinor interactions are straightforwardly depicted.
翻訳日:2023-05-30 07:01:43 公開日:2020-03-07
# 負の群速度分散下におけるパラメトリックダウン変換の時空間コヒーレンスの測定

Measurement of coupled spatiotemporal coherence of parametric down-conversion under negative group velocity dispersion ( http://arxiv.org/abs/2003.03635v1 )

ライセンス: Link先を確認
Paula Cutipa, Kirill Yu. Spasibko and Maria V. Chekhova(参考訳) 本稿では,パラメトリックダウン変換の時空間コヒーレンスを負の群速度分散範囲で直接測定する。 この場合、周波数角スペクトルはリング状であり、時間コヒーレンスは空間コヒーレンスと結合する。 それに応じて、空間的変位によるコヒーレンス不足は、時間遅延の導入によって補償することができる。 我々は,時間コヒーレンスと近接場空間コヒーレンスを同時に測定し,両変数を完全に制御できる改良されたマッハ・ツェンダー干渉計に基づく簡単な手法を示す。 この手法は、2次コヒーレンスの測定にも適しており、主な応用は2光子分光法と関連している。

We present a direct measurement of the spatiotemporal coherence of parametric down-conversion in the range of negative group-velocity dispersion. In this case, the frequency-angular spectra are ring-shaped and temporal coherence is coupled to spatial coherence. Correspondingly, the lack of coherence due to spatial displacement can be compensated with the introduction of time delay. We show a simple technique, based on a modified Mach-Zehnder interferometer, which allowed us to measure time coherence and near-field space coherence simultaneously, with complete control of both variables. This technique will be also suitable for the measurement of second-order coherence, where the main applications are related to the two-photon spectroscopy.
翻訳日:2023-05-30 07:01:21 公開日:2020-03-07
# 2次元トラップアレイにおけるイオン輸送と再配列

Ion transport and reordering in a two-dimensional trap array ( http://arxiv.org/abs/2003.03520v1 )

ライセンス: Link先を確認
Y. Wan, R. J\"ordens, S. D. Erickson, J. J. Wu, R. Bowler, T. R. Tan, P.-Y. Hou, D. J. Wineland, A. C. Wilson, and D. Leibfried(参考訳) 量子情報プロセッサのスケーリングは難しい課題であり、高い忠実度と高い接続性を持つ多数の量子ビットの操作を必要とする。 閉じ込められたイオンの場合、これはイオンを分離し、輸送し、再結合して、小さなサブセットのイオン上で量子演算を行う2次元の相互結合トラップで実現できる。 ここでは、2次元(2次元)トラップアレイ内の直交線形セグメントを接続する接合を用いて、2イオン結晶を並べ替える。 イオンの経時的運動はエネルギー利得が低く、内部量子ビットレベルは再順序付けの過程でコヒーレンスを維持するため、大規模、2次元または3次元トラップイオン量子情報プロセッサにおいて全対全接続を提供する有望な方法を示す。

Scaling quantum information processors is a challenging task, requiring manipulation of a large number of qubits with high fidelity and a high degree of connectivity. For trapped ions, this could be realized in a two-dimensional array of interconnected traps in which ions are separated, transported and recombined to carry out quantum operations on small subsets of ions. Here, we use a junction connecting orthogonal linear segments in a two-dimensional (2D) trap array to reorder a two-ion crystal. The secular motion of the ions experiences low energy gain and the internal qubit levels maintain coherence during the reordering process, therefore demonstrating a promising method for providing all-to-all connectivity in a large-scale, two- or three-dimensional trapped-ion quantum information processor.
翻訳日:2023-05-30 06:59:51 公開日:2020-03-07
# ドップラー膨らんだ原子蒸気による量子エンハンス・ベロシメトリ

Quantum-Enhanced Velocimetry with Doppler-Broadened Atomic Vapor ( http://arxiv.org/abs/2003.03491v1 )

ライセンス: Link先を確認
Zilong Chen, Hong Ming Lim, Chang Huang, Rainer Dumke, and Shau-Yu Lan(参考訳) 伝統的に、原子アンサンブルの質量中心速度(c.m.)の測定は、単一の原子の吸収スペクトルのドップラーシフトの測定に依存する。 この手法を用いてc.m.速度を決定する場合,アンサンブルの速度分布をマッピングすることは不可欠である。 その結果、感度の高い測定には狭いドップラー幅のアンサンブルの作成が必要となる。 ここでは, 移動室温度の原子蒸気セルを透過する光の分散測定を行い, 短期感度5.5$\mu$m s$^{-1}$ Hz$^{-1/2}$でセルの速度を決定する。 電磁誘導透過条件下でプローブ光の補助遷移を通じて量子干渉を発生させることにより媒体の分散を高める。 単一原子の測定とは対照的に、この方法は原子の集合運動に基づいており、その速度分布を知ることなくアンサンブルのc.m.速度を感知することができる。 以上の結果から, 熱原子をベースとしたコンパクトな運動センサの設計が可能となった。

Traditionally, measuring the center-of-mass (c.m.) velocity of an atomic ensemble relies on measuring the Doppler shift of the absorption spectrum of single atoms in the ensemble. Mapping out the velocity distribution of the ensemble is indispensable when determining the c.m. velocity using this technique. As a result, highly sensitive measurements require preparation of an ensemble with a narrow Doppler width. Here, we use a dispersive measurement of light passing through a moving room temperature atomic vapor cell to determine the velocity of the cell in a single shot with a short-term sensitivity of 5.5 $\mu$m s$^{-1}$ Hz$^{-1/2}$. The dispersion of the medium is enhanced by creating quantum interference through an auxiliary transition for the probe light under electromagnetically induced transparency condition. In contrast to measurement of single atoms, this method is based on the collective motion of atoms and can sense the c.m. velocity of an ensemble without knowing its velocity distribution. Our results improve the previous measurements by 3 orders of magnitude and can be used to design a compact motional sensor based on thermal atoms.
翻訳日:2023-05-30 06:58:51 公開日:2020-03-07
# Groverの探索アルゴリズムにおける大域多部絡み合いのダイナミクス

Global multipartite entanglement dynamics in Grover's search algorithm ( http://arxiv.org/abs/2003.03483v1 )

ライセンス: Link先を確認
Minghua Pan, Daowen Qiu, Shenggen Zheng(参考訳) エンタングルメントは、量子アルゴリズムが古典的な計算タスクよりも効率的である理由の1つであると考えられている。 グローバーの探索アルゴリズムにおける多ビット状態の大域的多部絡み合いは、幾何的絡み合い(GME)を用いて定量することができる。 Rossi et al. (英語) は (Phys)。 rev. a \textbf{87}, 022331 (2013) は、エンタングルメントダイナミクスが大きな$n$に対してスケール不変であることを示した。 すなわち、GMEはキュービットの$n$に依存せず、その代わりに全反復に対する$k$の比率にのみ依存する。 本稿では,大規模$n$に対するGMEの最適化について論じる。 GME is scale invariant'' が常に成り立つとは限らないことを証明します。 gmeの曲線の間には、マーキング状態の数とそのハミング重みの項で計算できる転回点が一般に存在することを示す。 GMEは回転点の前にスケール不変である。 しかし、GMEは、$n$とマークされた状態にも依存するため、ターンポイントの後にスケール不変ではない。

Entanglement is considered to be one of the primary reasons for why quantum algorithms are more efficient than their classical counterparts for certain computational tasks. The global multipartite entanglement of the multiqubit states in Grover's search algorithm can be quantified using the geometric measure of entanglement (GME). Rossi {\em et al.} (Phys. Rev. A \textbf{87}, 022331 (2013)) found that the entanglement dynamics is scale invariant for large $n$. Namely, the GME does not depend on the number $n$ of qubits; rather, it only depends on the ratio of iteration $k$ to the total iteration. In this paper, we discuss the optimization of the GME for large $n$. We prove that ``the GME is scale invariant'' does not always hold. We show that there is generally a turning point that can be computed in terms of the number of marked states and their Hamming weights during the curve of the GME. The GME is scale invariant prior to the turning point. However, the GME is not scale invariant after the turning point since it also depends on $n$ and the marked states.
翻訳日:2023-05-30 06:58:34 公開日:2020-03-07
# ブラジル北東部の太陽光発電生産に関するデータ統合と予測モデル

Data integration and prediction models of photovoltaic production from Brazilian northeastern ( http://arxiv.org/abs/2001.10866v2 )

ライセンス: Link先を確認
Hugo Abreu Mendes, Henrique Ferreira Nunes, Manoel da Nobrega Marinho, Paulo Salgado Gomes de Mattos Neto(参考訳) 社会のすべての生産的部門は、彼らの費用をうまくコントロールするために見積もりが必要です。 エネルギー事業では、電力会社はこの情報を使ってグリッド内の電力の流れを制御する。 太陽光発電システムのエネルギー効率向上のためには、複数の地理空間および気象変数を結合する必要がある。 本研究は,生産推定モデル,基地局計測,実生産能力を備えた衛星データ統合プラットフォームの構築を提案する。 本研究は, 生産利益を向上し, 新規企業の監視・監督を容易にする空間的, 時間的生産予測を生成する統計的, 確率的, 人工知能モデルを提案する。

All productive branches of society need an estimate to be able to control their expenses well. In the energy business, electric utilities use this information to control the power flow in the grid. For better energy production estimation of photovoltaic systems, it is necessary to join multiples geospatial and meteorological variables. This work proposes the creation of a satellite data integration platform, with production estimation models, base stations measurement and actual production capacity. This work presents statistical, probabilistic and artificial intelligence models that generate spatial and temporal production estimates that could improve production gains as well as facilitate the monitoring and supervision of new enterprises are presented.
翻訳日:2023-01-05 21:37:48 公開日:2020-03-07
# 画像雑音化のための雑音多様体の再構成

Reconstructing the Noise Manifold for Image Denoising ( http://arxiv.org/abs/2002.04147v2 )

ライセンス: Link先を確認
Ioannis Marras, Grigorios G. Chrysos, Ioannis Alexiou, Gregory Slabaugh, Stefanos Zafeiriou(参考訳) 深部畳み込みニューラルネットワーク(CNN)は、画像の復調のような多くの低レベル視覚問題でうまく使われている。 条件付き画像生成技術は、このタスクに大きな改善をもたらしたが、実世界のアプリケーションで信頼性の高いオブジェクト非依存分別のための画像ノイズを理解する明示的な方法で条件付き生成逆逆ネットワーク(cgan)[42]を提供する努力はほとんどなかった。 対象空間の構造を活用する作業は、自然シーンにおけるパターンの複雑さのため不安定であり、不自然なアーティファクトや過剰なスムース画像領域の存在は避けられない。 このギャップを埋めるため,本研究では,画像ノイズ空間の構造を明示的に活用するcganの考え方を紹介する。 生成器は、画像ノイズの低次元多様体を直接学習することにより、この多様体にまたがる情報のみをノイズ画像から除去することを促進する。 このアイデアは多くの利点をもたらしますが、デノイザーの最後に追加することでパフォーマンスを大幅に改善できます。 実験結果から,本モデルは既存の最先端アーキテクチャを著しく上回り,過度に過度に表現され,ディテールも向上した。

Deep Convolutional Neural Networks (CNNs) have been successfully used in many low-level vision problems like image denoising. Although the conditional image generation techniques have led to large improvements in this task, there has been little effort in providing conditional generative adversarial networks (cGAN)[42] with an explicit way of understanding the image noise for object-independent denoising reliable for real-world applications. The task of leveraging structures in the target space is unstable due to the complexity of patterns in natural scenes, so the presence of unnatural artifacts or over-smoothed image areas cannot be avoided. To fill the gap, in this work we introduce the idea of a cGAN which explicitly leverages structure in the image noise space. By learning directly a low dimensional manifold of the image noise, the generator promotes the removal from the noisy image only that information which spans this manifold. This idea brings many advantages while it can be appended at the end of any denoiser to significantly improve its performance. Based on our experiments, our model substantially outperforms existing state-of-the-art architectures, resulting in denoised images with less oversmoothing and better detail.
翻訳日:2023-01-02 02:30:12 公開日:2020-03-07
# PUGeo-Net:3Dポイントクラウドアップサンプリングのための幾何学中心ネットワーク

PUGeo-Net: A Geometry-centric Network for 3D Point Cloud Upsampling ( http://arxiv.org/abs/2002.10277v2 )

ライセンス: Link先を確認
Yue Qian, Junhui Hou, Sam Kwong, Ying He(参考訳) 本稿では,一様密点雲を発生させる問題に対処し,与えられたスパース点雲からの基本幾何学的構造を記述する。 不規則で秩序のない性質のため、生成タスクとしての点雲密度化は困難である。 この課題に対処するため,PUGeo-Netと呼ばれる新しいディープニューラルネットワークベースの手法を提案し,各入力点に対して3ドル3セントの線形変換行列$\bf T$を学習する。 Matrix $\mathbf T$ は局所パラメータ化の強化ヤコビ行列を近似し、2次元パラメトリック領域と3次元接面との1対1対応を構築し、適応的に分散された2Dサンプル(これもデータから学習される)を3D空間に持ち上げる。 その後, 接面の正規面に沿った変位を計算することにより, 試料を曲面に投影する。 pugeo-netは、イメージスーパーレゾリューション技術に大きく動機付けられ、抽象的な特徴空間の新しいポイントを生み出す既存のディープラーニング手法と根本的に異なる。 形状中心の性質から、pugeo-netはシャープな特徴を持つcadモデルと、幾何学的詳細が豊富なスキャンされたモデルの両方でうまく機能する。 さらに、PUGeo-Netは、元の点と生成された点の正規値を計算することができる。 計算結果は、頂点座標と正規分布を共同で生成できる最初のニューラルネットワークであるpugeo-netが、アップサンプリング係数4\sim 16$の精度と効率の点で常に最先端を上回っていることを示している。

This paper addresses the problem of generating uniform dense point clouds to describe the underlying geometric structures from given sparse point clouds. Due to the irregular and unordered nature, point cloud densification as a generative task is challenging. To tackle the challenge, we propose a novel deep neural network based method, called PUGeo-Net, that learns a $3\times 3$ linear transformation matrix $\bf T$ for each input point. Matrix $\mathbf T$ approximates the augmented Jacobian matrix of a local parameterization and builds a one-to-one correspondence between the 2D parametric domain and the 3D tangent plane so that we can lift the adaptively distributed 2D samples (which are also learned from data) to 3D space. After that, we project the samples to the curved surface by computing a displacement along the normal of the tangent plane. PUGeo-Net is fundamentally different from the existing deep learning methods that are largely motivated by the image super-resolution techniques and generate new points in the abstract feature space. Thanks to its geometry-centric nature, PUGeo-Net works well for both CAD models with sharp features and scanned models with rich geometric details. Moreover, PUGeo-Net can compute the normal for the original and generated points, which is highly desired by the surface reconstruction algorithms. Computational results show that PUGeo-Net, the first neural network that can jointly generate vertex coordinates and normals, consistently outperforms the state-of-the-art in terms of accuracy and efficiency for upsampling factor $4\sim 16$.
翻訳日:2022-12-29 04:04:11 公開日:2020-03-07
# 時空間CBCT画像を用いた肺癌患者の早期反応評価

Early Response Assessment in Lung Cancer Patients using Spatio-temporal CBCT Images ( http://arxiv.org/abs/2003.05408v1 )

ライセンス: Link先を確認
Bijju Kranthi Veduruparthi, Jayanta Mukherjee, Partha Pratim Das, Mandira Saha, Sanjoy Chatterjee, Raj Kumar Shrimali, Soumendranath Ray and Sriram Prasath(参考訳) 非小細胞肺癌(NSCLC)に対する放射線治療(RT)に対する患者の放射線学的反応を予測するモデルについて報告する。 RTの6週間の経過中に収集したコーンビームCT画像は,53例 (患者7例) の放射線腫瘍専門医によるGross tumor Volume (GTV) と一致した。 画像の変形可能な登録は、患者毎の連続画像毎に6つの変形場を得た。 ある場のヤコビアンは局所拡大/収縮の測度を提供し、このモデルで用いられる。 登録後、再登録後(U$)、新たに成長した(G$)、GTV内の(R$)地域を縮小した(R$)。 これらの領域の平均ジャコビアン$\mu_U$,$\mu_G$および$\mu_R$は統計的に比較され、応答評価モデルが提案される。 よい応答は、$\mu_R < 1.0$, $\mu_R < \mu_U$, $\mu_G < \mu_U$と仮定される。 治療後の反応を早期に予測するために、まず3週間の画像を用いる。 本モデルでは, 臨床反応の精度を74 %$と予測した。 CT数(CTN)の減少とGTVの減少をロジスティック回帰の特徴として用いたところ、0.65でp=0.005であった。 ロジスティック回帰モデルと提案仮説を組み合わせると、オッズ比は 20.0 (p=0.0) となる。

We report a model to predict patient's radiological response to curative radiation therapy (RT) for non-small-cell lung cancer (NSCLC). Cone-Beam Computed Tomography images acquired weekly during the six-week course of RT were contoured with the Gross Tumor Volume (GTV) by senior radiation oncologists for 53 patients (7 images per patient). Deformable registration of the images yielded six deformation fields for each pair of consecutive images per patient. Jacobian of a field provides a measure of local expansion/contraction and is used in our model. Delineations were compared post-registration to compute unchanged ($U$), newly grown ($G$), and reduced ($R$) regions within GTV. The mean Jacobian of these regions $\mu_U$, $\mu_G$ and $\mu_R$ are statistically compared and a response assessment model is proposed. A good response is hypothesized if $\mu_R < 1.0$, $\mu_R < \mu_U$, and $\mu_G < \mu_U$. For early prediction of post-treatment response, first, three weeks' images are used. Our model predicted clinical response with a precision of $74\%$. Using reduction in CT numbers (CTN) and percentage GTV reduction as features in logistic regression, yielded an area-under-curve of 0.65 with p=0.005. Combining logistic regression model with the proposed hypothesis yielded an odds ratio of 20.0 (p=0.0).
翻訳日:2022-12-25 20:10:31 公開日:2020-03-07
# STD-Net: 単一画像からの3次元再構成のための構造保存とトポロジ適応変形ネットワーク

STD-Net: Structure-preserving and Topology-adaptive Deformation Network for 3D Reconstruction from a Single Image ( http://arxiv.org/abs/2003.03551v1 )

ライセンス: Link先を確認
Aihua Mao, Canglan Dai, Lin Gao, Ying He, Yong-jin Liu(参考訳) 単一のビューイメージからの3D再構成は、コンピュータビジョンにおける長年の進歩である。 異なる形状表現(点雲や体積表現など)に基づく様々な方法が提案されている。 しかし,細部と複雑な構造を持つ3次元形状の復元はいまだにチャルレングであり,まだ解決されていない。 近年のディープシェイプ表現の進歩により、ディープニューラルネットワークを用いて構造と詳細なリセプションを学ぶことが約束される。 In this paper, we propose a novel methodcalled STD-Net to reconstruct the 3D models utilizing the mesh representationthat is well suitable for characterizing complex structure and geometry details.To reconstruct complex 3D mesh models with fine details, our method consists of(1) an auto-encoder network for recovering the structure of an object with bound-ing box representation from a single image, (2) a topology-adaptive graph CNNfor updating vertex position for meshes of complex topology, and (3) an unifiedmesh deformation block that deforms the structural boxes into structure-awaremeshed models. ShapeNetの画像による実験結果から,より複雑な構造と細かな幾何学的詳細を持つ3Dオブジェクトを再構成する他の最先端手法よりも,我々の提案したSTD-Netの方が優れた性能を示した。

3D reconstruction from a single view image is a long-standing prob-lem in computer vision. Various methods based on different shape representations(such as point cloud or volumetric representations) have been proposed. However,the 3D shape reconstruction with fine details and complex structures are still chal-lenging and have not yet be solved. Thanks to the recent advance of the deepshape representations, it becomes promising to learn the structure and detail rep-resentation using deep neural networks. In this paper, we propose a novel methodcalled STD-Net to reconstruct the 3D models utilizing the mesh representationthat is well suitable for characterizing complex structure and geometry details.To reconstruct complex 3D mesh models with fine details, our method consists of(1) an auto-encoder network for recovering the structure of an object with bound-ing box representation from a single image, (2) a topology-adaptive graph CNNfor updating vertex position for meshes of complex topology, and (3) an unifiedmesh deformation block that deforms the structural boxes into structure-awaremeshed models. Experimental results on the images from ShapeNet show that ourproposed STD-Net has better performance than other state-of-the-art methods onreconstructing 3D objects with complex structures and fine geometric details.
翻訳日:2022-12-25 20:07:55 公開日:2020-03-07
# 児童福祉システムにおけるアルゴリズムの人間中心的評価

A Human-Centered Review of the Algorithms used within the U.S. Child Welfare System ( http://arxiv.org/abs/2003.03541v1 )

ライセンス: Link先を確認
Devansh Saxena, Karla Badillo-Urquiola, Pamela J. Wisniewski, and Shion Guha(参考訳) アメリカ児童福祉制度(CWS)は、養育青年の成果を改善するために責任を負っているが、過大評価され、資金が不足している。 この制限を克服するため、いくつかの州はコストを削減し、CWSの結果を改善するためのより良いプロセスを決定するためにアルゴリズムによる意思決定システムに転換した。 人中心のアルゴリズム設計アプローチを用いて、CWSで使われている計算システムに関する50の査読論文を合成し、それらの開発方法、使用する予測器の共通特性、および対象とする結果を評価する。 文献のほとんどがリスクアセスメントモデルに焦点を絞っているが、理論的アプローチ(例えば、子どもと子どもの親のマッチング)やケースワーカーの視点(例:ケースノート)は考慮していない。 したがって、将来のアルゴリズムは、過去の研究で特定された有意義な要素を組み込むことにより、文脈認識と理論的に頑健であることに努めるべきである。 我々は、CWSのより公平な結果に注意を向ける人間中心のアルゴリズムを開発するための研究手段を、HCIコミュニティに提供する。

The U.S. Child Welfare System (CWS) is charged with improving outcomes for foster youth; yet, they are overburdened and underfunded. To overcome this limitation, several states have turned towards algorithmic decision-making systems to reduce costs and determine better processes for improving CWS outcomes. Using a human-centered algorithmic design approach, we synthesize 50 peer-reviewed publications on computational systems used in CWS to assess how they were being developed, common characteristics of predictors used, as well as the target outcomes. We found that most of the literature has focused on risk assessment models but does not consider theoretical approaches (e.g., child-foster parent matching) nor the perspectives of caseworkers (e.g., case notes). Therefore, future algorithms should strive to be context-aware and theoretically robust by incorporating salient factors identified by past research. We provide the HCI community with research avenues for developing human-centered algorithms that redirect attention towards more equitable outcomes for CWS.
翻訳日:2022-12-25 20:07:16 公開日:2020-03-07
# エッジ支援物体認識システムの計測駆動解析

Measurement-driven Analysis of an Edge-Assisted Object Recognition System ( http://arxiv.org/abs/2003.03584v1 )

ライセンス: Link先を確認
A. Galanopoulos, V. Valls, G. Iosifidis, D. J. Leith(参考訳) エンドツーエンドのレイテンシとオブジェクト認識精度の間のシステムレベルのトレードオフを研究することを目的としたエッジ支援オブジェクト認識システムを開発した。 システムの伝送遅延を最適化する手法の開発に注力し、これらの2つの性能指標に対する画像符号化率とニューラルネットワークサイズの影響を実証する。 リアルタイムオブジェクト認識アプリケーションの性能を計測することで、これらのメトリクス間の最適なトレードオフを検討する。 我々の測定では、未知のパラメータ効果と鋭いトレードオフが明らかとなり、この重要なサービスを最適化するための道が開けた。 最後に, 測定に基づくモデルを用いて2つの最適化問題を定式化し, パレート解析の結果, システム動作の注意調整により, 標準的な伝送方式よりも33%高い性能が得られることがわかった。

We develop an edge-assisted object recognition system with the aim of studying the system-level trade-offs between end-to-end latency and object recognition accuracy. We focus on developing techniques that optimize the transmission delay of the system and demonstrate the effect of image encoding rate and neural network size on these two performance metrics. We explore optimal trade-offs between these metrics by measuring the performance of our real time object recognition application. Our measurements reveal hitherto unknown parameter effects and sharp trade-offs, hence paving the road for optimizing this key service. Finally, we formulate two optimization problems using our measurement-based models and following a Pareto analysis we find that careful tuning of the system operation yields at least 33% better performance for real time conditions, over the standard transmission method.
翻訳日:2022-12-25 20:06:21 公開日:2020-03-07
# Selective Edge ExecutionによるIoTアナリティクスの改善

Improving IoT Analytics through Selective Edge Execution ( http://arxiv.org/abs/2003.03588v1 )

ライセンス: Link先を確認
A. Galanopoulos, A. G. Tasiopoulos, G. Iosifidis, T. Salonidis, D. J. Leith(参考訳) 多くの新興IoTアプリケーションは、データ分析のための機械学習ルーチンに依存している。 ユーザデバイスでのそのようなタスクの実行は応答時間を改善し、ネットワークリソースをエコノマイズする。 しかし、電力とコンピューティングの制限のため、デバイスはそのようなリソース集約的なルーチンをサポートできず、分析を正確に実行できないことが多い。 本稿では,エッジインフラストラクチャを活用して分析性能を向上させることを提案する。 当社では,IoTデバイスのルーチンをローカルに実行可能にするアルゴリズムを考案し,それをクラウドレットサーバにアウトソースする。 近似的な双対下降法を用い、システムのパラメータの統計的性質について最小限の仮定を行う。 分析により,提案手法がサービス要求に適応してクラウドレットをインテリジェントに活用できることが示される。

A large number of emerging IoT applications rely on machine learning routines for analyzing data. Executing such tasks at the user devices improves response time and economizes network resources. However, due to power and computing limitations, the devices often cannot support such resource-intensive routines and fail to accurately execute the analytics. In this work, we propose to improve the performance of analytics by leveraging edge infrastructure. We devise an algorithm that enables the IoT devices to execute their routines locally; and then outsource them to cloudlet servers, only if they predict they will gain a significant performance improvement. It uses an approximate dual subgradient method, making minimal assumptions about the statistical properties of the system's parameters. Our analysis demonstrates that our proposed algorithm can intelligently leverage the cloudlet, adapting to the service requirements.
翻訳日:2022-12-25 20:06:06 公開日:2020-03-07
# 適応型手による物体のロバスト・オクルージョン・アウェアポーズ推定

Robust, Occlusion-aware Pose Estimation for Objects Grasped by Adaptive Hands ( http://arxiv.org/abs/2003.03518v1 )

ライセンス: Link先を確認
Bowen Wen, Chaitanya Mitash, Sruthi Soorian, Andrew Kimmel, Avishai Sintov and Kostas E. Bekris(参考訳) 配置やハンド操作のような多くの操作タスクでは、ロボットハンドに対する物体のポーズが必要となる。 手が物体を著しく遮っている場合、作業は困難である。 適応的な手では特に困難であり、指の形状を検出することは容易ではない。 さらに、RGBのみのアプローチは、テクスチャのないオブジェクトや、手とオブジェクトが似ている場合に問題に直面します。 本稿では,ロバストなポーズ推定と短い応答時間を目的とした奥行きベースフレームワークを提案する。 この手法は、手と点雲の最も高い重なり合いを考慮し、効率のよい並列探索により適応手の状態を検出する。 手の点雲は刈り取られ、ロバストなグローバル登録が行われ、クラスタ化されたオブジェクトポーズ仮説が生成される。 虚偽の仮説は物理的推論によって決定される。 残りのポーズの品質は、観測データと一致して評価される。 合成および実データに対する広範囲な評価は、異なるオブジェクトタイプの難易度の高いシナリオに適用した場合、フレームワークの精度と計算効率を示す。 アブレーション調査は、フレームワークのコンポーネントがパフォーマンスにどのように役立つかを特定する。 この作業は、6Dオブジェクトのポーズ推定のためのデータセットも提供する。 https://github.com/wenbowen123/icra20-hand-object-pose

Many manipulation tasks, such as placement or within-hand manipulation, require the object's pose relative to a robot hand. The task is difficult when the hand significantly occludes the object. It is especially hard for adaptive hands, for which it is not easy to detect the finger's configuration. In addition, RGB-only approaches face issues with texture-less objects or when the hand and the object look similar. This paper presents a depth-based framework, which aims for robust pose estimation and short response times. The approach detects the adaptive hand's state via efficient parallel search given the highest overlap between the hand's model and the point cloud. The hand's point cloud is pruned and robust global registration is performed to generate object pose hypotheses, which are clustered. False hypotheses are pruned via physical reasoning. The remaining poses' quality is evaluated given agreement with observed data. Extensive evaluation on synthetic and real data demonstrates the accuracy and computational efficiency of the framework when applied on challenging, highly-occluded scenarios for different object types. An ablation study identifies how the framework's components help in performance. This work also provides a dataset for in-hand 6D object pose estimation. Code and dataset are available at: https://github.com/wenbowen123/icra20-hand-object-pose
翻訳日:2022-12-25 20:05:54 公開日:2020-03-07
# 低線量CBCT画像を用いた肺癌患者の生存予測のための新しい放射線学的特徴

Novel Radiomic Feature for Survival Prediction of Lung Cancer Patients using Low-Dose CBCT Images ( http://arxiv.org/abs/2003.03537v1 )

ライセンス: Link先を確認
Bijju Kranthi Veduruparthi, Jayanta Mukherjee, Partha Pratim Das, Moses Arunsingh, Raj Kumar Shrimali, Sriram Prasath, Soumendranath Ray and Sanjay Chatterjee(参考訳) 腫瘍進行患者の生存率の予測は治療プロトコルの有効性を推定するのに有用である。 本研究では,腫瘍の異種性を考慮した生存予測モデルを提案する。 画像から得られた放射線密度と総腫瘍容積(gtv)とを組み合わせることにより、腫瘍の均一性を測定する。 本稿では,GTV を用いた既存モデルと比較して生存率の予測を改良する,GTV 内腫瘍マス(TMG)と呼ばれる新機能を提案する。 画像データから患者のTMGの週間変動を算出し、細胞生存可能性モデルから推定する。 細胞生存可能性モデルから得られたパラメータは、治療期間におけるTMGの変化の指標である。 これらのパラメータと他の患者メタデータを用いて生存分析と回帰を行う。 これらのデータを用いてcoxの比例ハザードサバイバルレグレッションを行った。 GTV の代わりに TMG を用いた場合, 平均一致率 0.47 から 0.64 に有意な改善が認められた。 本実験は, 応答性および非応答性患者の治療反応に差があることを示し, 提案手法を用いて患者の生存率を予測する。

Prediction of survivability in a patient for tumor progression is useful to estimate the effectiveness of a treatment protocol. In our work, we present a model to take into account the heterogeneous nature of a tumor to predict survival. The tumor heterogeneity is measured in terms of its mass by combining information regarding the radiodensity obtained in images with the gross tumor volume (GTV). We propose a novel feature called Tumor Mass within a GTV (TMG), that improves the prediction of survivability, compared to existing models which use GTV. Weekly variation in TMG of a patient is computed from the image data and also estimated from a cell survivability model. The parameters obtained from the cell survivability model are indicatives of changes in TMG over the treatment period. We use these parameters along with other patient metadata to perform survival analysis and regression. Cox's Proportional Hazard survival regression was performed using these data. Significant improvement in the average concordance index from 0.47 to 0.64 was observed when TMG is used in the model instead of GTV. The experiments show that there is a difference in the treatment response in responsive and non-responsive patients and that the proposed method can be used to predict patient survivability.
翻訳日:2022-12-25 20:05:34 公開日:2020-03-07
# Web上の凍結二項文:オンラインテキストにおける語順と言語規約

Frozen Binomials on the Web: Word Ordering and Language Conventions in Online Text ( http://arxiv.org/abs/2003.03612v1 )

ライセンス: Link先を確認
Katherine Van Koevering, Austin R. Benson, Jon Kleinberg(参考訳) リストの中に単語を書く順番でキャプチャされる固有の情報があります。 二項の順序 --- 'and' または 'or' で区切られた2つの単語のリスト -- は、1世紀以上にわたって研究されてきた。 これらの二項は、形式的および形式的テキストの両方において、様々な言語領域で一般的である。 前世紀には、意味論の相違から音韻学の相違まで、人々がこれらの二項に対してどのような順番を使うかを説明するために多くの説明がなされている。 これらの規則は、正確に1つの順序で存在する「凍結」二項式を主に記述し、有効性を決定する大規模な試行を欠いている。 オンラインテキストは、これらのリストを非常に大規模な非公式テキストの文脈で研究するユニークな機会を提供する。 本研究では,凍結二項と非凍結二項の両方の大規模解析を定量的に含むように,二項の視点を拡大する。 このデータを用いて,提案するルールのほとんどが二項順序の予測に効果がないことを示す。 これらの二項の順序を時間とコミュニティにわたって追跡することで、これらの予測の中心となる追加の未探索次元を確立することができる。 個々の二項問題を超えて、様々なコミュニティにおける二項のグローバル構造を探求し、これらのリストの新しいモデルを確立し、非凍結二項と凍結二項のこの構造を分析する。 さらに、三項の新たな分析 ---長さ3のリスト -- は、これらの場合において二項解析は適用されないことを示唆している。 最後に,Webから収集した大規模なデータセットが,従来の理論と連動して古い問題を拡張し,改善することができることを示す。

There is inherent information captured in the order in which we write words in a list. The orderings of binomials --- lists of two words separated by `and' or `or' --- has been studied for more than a century. These binomials are common across many areas of speech, in both formal and informal text. In the last century, numerous explanations have been given to describe what order people use for these binomials, from differences in semantics to differences in phonology. These rules describe primarily `frozen' binomials that exist in exactly one ordering and have lacked large-scale trials to determine efficacy. Online text provides a unique opportunity to study these lists in the context of informal text at a very large scale. In this work, we expand the view of binomials to include a large-scale analysis of both frozen and non-frozen binomials in a quantitative way. Using this data, we then demonstrate that most previously proposed rules are ineffective at predicting binomial ordering. By tracking the order of these binomials across time and communities we are able to establish additional, unexplored dimensions central to these predictions. Expanding beyond the question of individual binomials, we also explore the global structure of binomials in various communities, establishing a new model for these lists and analyzing this structure for non-frozen and frozen binomials. Additionally, novel analysis of trinomials --- lists of length three --- suggests that none of the binomials analysis applies in these cases. Finally, we demonstrate how large data sets gleaned from the web can be used in conjunction with older theories to expand and improve on old questions.
翻訳日:2022-12-25 19:57:59 公開日:2020-03-07
# 車両軌道予測のための多モード状態ベース車両記述子と拡張畳み込み社会プール

A Multi-Modal States based Vehicle Descriptor and Dilated Convolutional Social Pooling for Vehicle Trajectory Prediction ( http://arxiv.org/abs/2003.03480v1 )

ライセンス: Link先を確認
Huimin Zhang, Yafei Wang, Junjia Liu, Chengwei Li, Taiyuan Ma, Chengliang Yin(参考訳) 周辺車両の正確な軌道予測は自動運転車の意思決定に不可欠であり、学習に基づくアプローチはロバスト性によく認識されている。 しかし、最先端の学習ベース手法は無視される 1)予測及び予測のための車両のマルチモーダル状態情報の実現可能性 2) 車両の相互作用をモデル化する場合, グローバル交通シーン受容場と局所位置分解能の相互排他的関係は, 予測精度に影響を及ぼす可能性がある。 そこで本研究では,この問題を解決するために,拡張畳み込み型社会プール (VD+DCS-LSTM) を用いた車両記述型LSTMモデルを提案する。 まず,各車両のマルチモーダル状態情報をモデル入力として利用し,重畳されたスパースオートエンコーダによって符号化された新しい車両ディスクリプタを提案し,多様な状態間の深い相互関係を反映し,最適な特徴抽出とマルチモーダル入力の有効利用を実現する。 次に,車両記述子からなる歴史的シーケンスを符号化するためにlstmエンコーダを使用し,車両の空間的相互作用を改善するために,新たな拡張畳み込み型社会プールを提案する。 第3に、LSTMデコーダは、操作に基づいて将来の軌道の確率分布を予測するために使用される。 NGSIM US-101 と I-80 のデータセットに対して,モデル全体の妥当性を検証し,提案手法は最新のベンチマークより優れていた。

Precise trajectory prediction of surrounding vehicles is critical for decision-making of autonomous vehicles and learning-based approaches are well recognized for the robustness. However, state-of-the-art learning-based methods ignore 1) the feasibility of the vehicle's multi-modal state information for prediction and 2) the mutual exclusive relationship between the global traffic scene receptive fields and the local position resolution when modeling vehicles' interactions, which may influence prediction accuracy. Therefore, we propose a vehicle-descriptor based LSTM model with the dilated convolutional social pooling (VD+DCS-LSTM) to cope with the above issues. First, each vehicle's multi-modal state information is employed as our model's input and a new vehicle descriptor encoded by stacked sparse auto-encoders is proposed to reflect the deep interactive relationships between various states, achieving the optimal feature extraction and effective use of multi-modal inputs. Secondly, the LSTM encoder is used to encode the historical sequences composed of the vehicle descriptor and a novel dilated convolutional social pooling is proposed to improve modeling vehicles' spatial interactions. Thirdly, the LSTM decoder is used to predict the probability distribution of future trajectories based on maneuvers. The validity of the overall model was verified over the NGSIM US-101 and I-80 datasets and our method outperforms the latest benchmark.
翻訳日:2022-12-25 19:57:30 公開日:2020-03-07
# 車輪付き移動ロボットのグローバル動作計画アルゴリズムの実験的比較

Experimental Comparison of Global Motion Planning Algorithms for Wheeled Mobile Robots ( http://arxiv.org/abs/2003.03543v1 )

ライセンス: Link先を確認
Eric Heiden, Luigi Palmieri, Kai O. Arras, Gaurav S. Sukhatme, Sven Koenig(参考訳) 車輪付き移動ロボットのスムーズでエネルギー効率の良い動きの計画は、自動運転からサービス、そしてシステム内ロボットまで、アプリケーションの中心的なタスクである。 過去数十年にわたり、このような非ホロノミックシステムに対して、様々なモーションプランナー、ステア関数、パス改善技術が提案されてきた。 このような最先端のモーションプランニング技術を比較する目的で,我々は,現実の応用(倉庫のナビゲーション,散在する都市や駐車場の移動など)に類似したシナリオを持つ車輪付き移動ロボットのための,新たなオープンソースモーションプランニングベンチマークを導入し,効率と経路品質の指標を提案する。 私たちのベンチマークは簡単に使用でき、拡張できますので、実践者や研究者が新しいモーションプランニングアルゴリズム、シナリオ、メトリクスを簡単に評価できます。 私たちはベンチマークを使って、最先端のモーションプランナーの強みと弱みを強調し、いつ使うべきかを推奨します。

Planning smooth and energy-efficient motions for wheeled mobile robots is a central task for applications ranging from autonomous driving to service and intralogistic robotics. Over the past decades, a wide variety of motion planners, steer functions and path-improvement techniques have been proposed for such non-holonomic systems. With the objective of comparing this large assortment of state-of-the-art motion-planning techniques, we introduce a novel open-source motion-planning benchmark for wheeled mobile robots, whose scenarios resemble real-world applications (such as navigating warehouses, moving in cluttered cities or parking), and propose metrics for planning efficiency and path quality. Our benchmark is easy to use and extend, and thus allows practitioners and researchers to evaluate new motion-planning algorithms, scenarios and metrics easily. We use our benchmark to highlight the strengths and weaknesses of several common state-of-the-art motion planners and provide recommendations on when they should be used.
翻訳日:2022-12-25 19:57:06 公開日:2020-03-07
# ECSP:感情・因果関係の抽出と分類のための新しいタスク

ECSP: A New Task for Emotion-Cause Span-Pair Extraction and Classification ( http://arxiv.org/abs/2003.03507v1 )

ライセンス: Link先を確認
Hongliang Bi, Pengyuan Liu(参考訳) 感情原因抽出(ECE)や感情原因ペア抽出(ECPE)といった感情原因分析は、徐々に多くの研究者の注目を集めている。 しかし、既存の研究にはまだ2つの欠点がある。 1)ほとんどの場合、感情表現及び原因は、全節ではなく、その節のスパンであり、スパンペアではなく節ペアを抽出することは、現実世界のシナリオにおけるその適用を著しく制限する。 2)感情のカテゴリーを識別せずに感情表現節を抽出するだけでは不十分であり、感情節の存在は必ずしも異なる原因によって感情情報を明示的に伝達するとは限らない。 本稿では,文書中の感情の潜在的スパンペアとその原因を抽出し,各ペアの感情分類を行うことを目的とした,感情誘発スパンペア抽出・分類(ecsp)という新しいタスクを提案する。 新しいECSPタスクでは、ECEとECPEは節レベルで2つの特別なケースとみなすことができる。 対象のスパン境界を監督する文書から感情と原因を直接抽出してペアリングし,対応するカテゴリをペア表現と局所化コンテキストを用いて分類する,スパンベースの抽出・then分類モデルを提案する。 実験の結果,提案したETCモデルは,ECPタスクのSOTAモデルよりも優れており,ECSPタスクの公平な結果が得られることがわかった。

Emotion cause analysis such as emotion cause extraction (ECE) and emotion-cause pair extraction (ECPE) have gradually attracted the attention of many researchers. However, there are still two shortcomings in the existing research: 1) In most cases, emotion expression and cause are not the whole clause, but the span in the clause, so extracting the clause-pair rather than the span-pair greatly limits its applications in real-world scenarios; 2) It is not enough to extract the emotion expression clause without identifying the emotion categories, the presence of emotion clause does not necessarily convey emotional information explicitly due to different possible causes. In this paper, we propose a new task: Emotion-Cause Span-Pair extraction and classification (ECSP), which aims to extract the potential span-pair of emotion and corresponding causes in a document, and make emotion classification for each pair. In the new ECSP task, ECE and ECPE can be regarded as two special cases at the clause-level. We propose a span-based extract-then-classify (ETC) model, where emotion and cause are directly extracted and paired from the document under the supervision of target span boundaries, and corresponding categories are then classified using their pair representations and localized context. Experiments show that our proposed ETC model outperforms the SOTA model of ECE and ECPE task respectively and gets a fair-enough results on ECSP task.
翻訳日:2022-12-25 19:50:33 公開日:2020-03-07
# max-margin 分離超平面による単語埋め込みにおける言語的(ir)レギュラリティの発見

Discovering linguistic (ir)regularities in word embeddings through max-margin separating hyperplanes ( http://arxiv.org/abs/2003.03654v1 )

ライセンス: Link先を確認
Noel Kennedy, Imogen Schofield, Dave C. Brodbelt, David B. Church, Dan G. O'Neill(参考訳) 単語埋め込み空間における関連単語の位置関係を学習するための新しい手法について実験を行った。 以前のアプローチでは、一定のベクトルオフセットを学習した: ソーストークンからターゲットトークンへ向けられたベクトルは、これらのオフセットが互いに平行である、という仮定である。 関連するトークン間のオフセットは並列よりも直交に近いこと,コサイン類似度が低いこと,などが分かる。 ターゲットトークンは、ソーストークンとラベルなしトークンから線形に分離可能である。 最大マージン超平面は対象トークンを分離でき、この超平面に直交するベクトルはソースとターゲットの関係を表す。 この関係の表現は、言語規則性を明らかにする最良の結果を得る。 我々は,様々なアルゴリズム(Word2vec:CBOW/skip-gram,fastText,GloVe)で訓練されたベクトル空間モデルと,線形語順,構文依存文法,および単語位置の知識のない言語コンテキスト選択を実験した。 これらの実験から,我々のモデルであるSVMCosは,単語埋め込みのトレーニングにおいて,実験的な選択に対して堅牢であることが示された。

We experiment with new methods for learning how related words are positioned relative to each other in word embedding spaces. Previous approaches learned constant vector offsets: vectors that point from source tokens to target tokens with an assumption that these offsets were parallel to each other. We show that the offsets between related tokens are closer to orthogonal than parallel, and that they have low cosine similarities. We proceed by making a different assumption; target tokens are linearly separable from source and un-labeled tokens. We show that a max-margin hyperplane can separate target tokens and that vectors orthogonal to this hyperplane represent the relationship between source and targets. We find that this representation of the relationship obtains the best results in dis-covering linguistic regularities. We experiment with vector space models trained by a variety of algorithms (Word2vec: CBOW/skip-gram, fastText, or GloVe), and various word context choices such as linear word-order, syntax dependency grammars, and with and without knowledge of word position. These experiments show that our model, SVMCos, is robust to a range of experimental choices when training word embeddings.
翻訳日:2022-12-25 19:49:48 公開日:2020-03-07
# MobilePose: 弱みを重畳した未確認物体のリアルタイムポース推定

MobilePose: Real-Time Pose Estimation for Unseen Objects with Weak Shape Supervision ( http://arxiv.org/abs/2003.03522v1 )

ライセンス: Link先を確認
Tingbo Hou, Adel Ahmadyan, Liangkai Zhang, Jianing Wei, and Matthias Grundmann(参考訳) 本稿では,RGB画像から見えない物体を検出し,そのポーズを3Dで推定する問題に対処する。 モバイルフレンドリーなネットワークとしてMobilePose-BaseとMobilePose-Shapeを提案する。 前者は監視のみを行う場合に使用され、後者は、形状の監督が可能である場合、弱い場合であっても使用される。 分割や座標マップなど,従来手法で用いた形状の特徴を再検討する。 画素レベルの形状監督がポーズ推定を改善できる時期と理由を説明する。 そこで,移動体形状の中間層として形状予測を付加し,ネットワークに形状からポーズを学習させる。 我々のモデルは、実データと合成データを組み合わせて訓練され、弱い形とうるさい形を監督する。 超軽量で、現代のモバイルデバイス(Galaxy S20の36 FPSなど)でリアルタイムに動作できる。 従来のシングルショット法に比べて精度は高く,モデルサイズやパラメータ数では2~3%であった。

In this paper, we address the problem of detecting unseen objects from RGB images and estimating their poses in 3D. We propose two mobile friendly networks: MobilePose-Base and MobilePose-Shape. The former is used when there is only pose supervision, and the latter is for the case when shape supervision is available, even a weak one. We revisit shape features used in previous methods, including segmentation and coordinate map. We explain when and why pixel-level shape supervision can improve pose estimation. Consequently, we add shape prediction as an intermediate layer in the MobilePose-Shape, and let the network learn pose from shape. Our models are trained on mixed real and synthetic data, with weak and noisy shape supervision. They are ultra lightweight that can run in real-time on modern mobile devices (e.g. 36 FPS on Galaxy S20). Comparing with previous single-shot solutions, our method has higher accuracy, while using a significantly smaller model (2~3% in model size or number of parameters).
翻訳日:2022-12-25 19:48:32 公開日:2020-03-07
# TTPP:効率的な行動予測のための進行予測付き時間変換器

TTPP: Temporal Transformer with Progressive Prediction for Efficient Action Anticipation ( http://arxiv.org/abs/2003.03530v1 )

ライセンス: Link先を確認
Wen Wang, Xiaojiang Peng, Yanzhou Su, Yu Qiao, Jian Cheng(参考訳) ビデオアクション予測は、観測されたフレームから将来のアクションカテゴリを予測することを目的としている。 現在の最先端のアプローチは、主にリカレントニューラルネットワークを使用して、履歴情報を隠された状態にエンコードし、隠された表現から将来のアクションを予測する。 リカレントパイプラインは、述語処理における性能を制限する長期的な情報を取り込むのに非効率であることはよく知られている。 そこで本研究では,TTPP(Progressive Prediction)フレームワークを用いた簡易かつ効率的なテンポラルトランスフォーマーを提案する。このフレームワークは,Transformerスタイルのアーキテクチャを用いて観測された特徴を集約し,軽量ネットワークを利用して将来的な特徴や動作を段階的に予測する。 具体的には、予測される特徴と予測される確率を、その後の予測の入力に蓄積する。 本研究は,TVSeries,THUMOS-14,TV-Human-Interactionの3つのアクションデータセットに対するアプローチを評価する。 さらに,いくつかの一般的な集計戦略や予測戦略についても総合的な研究を行っている。 その結果,TTPPは最先端の手法よりも効率が高いことがわかった。

Video action anticipation aims to predict future action categories from observed frames. Current state-of-the-art approaches mainly resort to recurrent neural networks to encode history information into hidden states, and predict future actions from the hidden representations. It is well known that the recurrent pipeline is inefficient in capturing long-term information which may limit its performance in predication task. To address this problem, this paper proposes a simple yet efficient Temporal Transformer with Progressive Prediction (TTPP) framework, which repurposes a Transformer-style architecture to aggregate observed features, and then leverages a light-weight network to progressively predict future features and actions. Specifically, predicted features along with predicted probabilities are accumulated into the inputs of subsequent prediction. We evaluate our approach on three action datasets, namely TVSeries, THUMOS-14, and TV-Human-Interaction. Additionally we also conduct a comprehensive study for several popular aggregation and prediction strategies. Extensive results show that TTPP not only outperforms the state-of-the-art methods but also more efficient.
翻訳日:2022-12-25 19:48:17 公開日:2020-03-07
# 階層的規模再校正ネットワークによる集団カウント

Crowd Counting via Hierarchical Scale Recalibration Network ( http://arxiv.org/abs/2003.03545v1 )

ライセンス: Link先を確認
Zhikang Zou and Yifan Liu and Shuangjie Xu and Wei Wei and Shiping Wen and Pan Zhou(参考訳) 群集カウントの課題は、複雑な困難、特に視覚スケールの大きな変化のために非常に難しい。 これまでの作業では,機能マップ間のスケールシフトが無視される一方で,マルチスケール情報の単純な結合が採用されていた。 本稿では,リッチなコンテキスト依存をモデル化し,複数のスケール関連情報を再構成することで,上記の問題に対処する階層型階層型リカバリネットワーク(HSRNet)を提案する。 特に、スケールフォーカスモジュール(sfm)は、チャネルと空間の次元に沿って意味的相互依存性を逐次モデル化することで、まずグローバルコンテキストをローカル機能に統合する。 SRM(Scale Recalibration Module)は、チャネルワイドな特徴応答を再配置するために、ステップバイステップの融合を採用して最終的な密度マップを生成する。 さらに、スケール関連出力が異なるスケールの基底と一貫性を持つことを制約する新しいスケール一貫性損失を提案する。 提案手法では,様々なノイズを選択的に無視し,適切な群集規模に自動的に注目することができる。 クラウドカウンティングデータセット(shanghaitech, mall, worldexpo'10, ucsd)に関する広範な実験によって、私たちのhsrnetは最先端のアプローチで優れた結果を提供できることが分かりました。 さらに顕著なことに,提案モデルが他のアプリケーションに一般化されていることを示す,車外データセットの実験を拡張した。

The task of crowd counting is extremely challenging due to complicated difficulties, especially the huge variation in vision scale. Previous works tend to adopt a naive concatenation of multi-scale information to tackle it, while the scale shifts between the feature maps are ignored. In this paper, we propose a novel Hierarchical Scale Recalibration Network (HSRNet), which addresses the above issues by modeling rich contextual dependencies and recalibrating multiple scale-associated information. Specifically, a Scale Focus Module (SFM) first integrates global context into local features by modeling the semantic inter-dependencies along channel and spatial dimensions sequentially. In order to reallocate channel-wise feature responses, a Scale Recalibration Module (SRM) adopts a step-by-step fusion to generate final density maps. Furthermore, we propose a novel Scale Consistency loss to constrain that the scale-associated outputs are coherent with groundtruth of different scales. With the proposed modules, our approach can ignore various noises selectively and focus on appropriate crowd scales automatically. Extensive experiments on crowd counting datasets (ShanghaiTech, MALL, WorldEXPO'10, and UCSD) show that our HSRNet can deliver superior results over all state-of-the-art approaches. More remarkably, we extend experiments on an extra vehicle dataset, whose results indicate that the proposed model is generalized to other applications.
翻訳日:2022-12-25 19:47:59 公開日:2020-03-07
# クリックスルー率予測のためのadversarial multimodal representation learning

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction ( http://arxiv.org/abs/2003.07162v1 )

ライセンス: Link先を確認
Xiang Li, Chao Wang, Jiwei Tan, Xiaoyi Zeng, Dan Ou, Bo Zheng(参考訳) ユーザー体験とビジネス効果を改善するため、クリックスルー率(ctr)予測はeコマースで最も重要なタスクの1つだ。 広範なCTR予測モデルが提案されているが、Eコマースにおける項目は、通常複数の不均一なモダリティを含むため、マルチモーダル特徴からの項目の適切な表現は、まだ研究されていない。 以前の研究は、各モーダリティに一定の重みを与えるのと同等の多重モーダリティの特徴を結合するか、注意機構のような技術を通して異なるモーダリティの動的重みを学ぶかのいずれかであった。 しかし問題は、通常複数のモダリティにまたがる共通の冗長情報が存在することである。 冗長情報を用いて計算された異なるモダリティの動的重み付けは、各モダリティの異なる重要性を正しく反映するものではない。 そこで本研究では,モダリティの相補性と冗長性について,モダリティ特有の特徴とモダリティ不変特徴を別々に考えることにより検討する。 CTR予測タスクのための新しいマルチモーダル適応表現ネットワーク(MARN)を提案する。 マルチモーダルアテンションネットワークは、まず各項目の複数のモーダルの重みを、そのモーダル固有の特徴に応じて算出する。 そして、マルチモーダル逆数ネットワークは、二重識別器戦略を導入するモダリティ不変表現を学習する。 最後に、モダリティ固有表現とモダリティ不変表現を組み合わせることで、マルチモーダルな項目表現を実現する。 提案手法は,パブリックデータセットとインダストリアルデータセットの両方で広範な実験を行い,最先端の手法を一貫して改善する。 さらに、このアプローチは運用中のEコマースシステムにデプロイされ、オンラインA/Bテストはさらに有効性を示している。

For better user experience and business effectiveness, Click-Through Rate (CTR) prediction has been one of the most important tasks in E-commerce. Although extensive CTR prediction models have been proposed, learning good representation of items from multimodal features is still less investigated, considering an item in E-commerce usually contains multiple heterogeneous modalities. Previous works either concatenate the multiple modality features, that is equivalent to giving a fixed importance weight to each modality; or learn dynamic weights of different modalities for different items through technique like attention mechanism. However, a problem is that there usually exists common redundant information across multiple modalities. The dynamic weights of different modalities computed by using the redundant information may not correctly reflect the different importance of each modality. To address this, we explore the complementarity and redundancy of modalities by considering modality-specific and modality-invariant features differently. We propose a novel Multimodal Adversarial Representation Network (MARN) for the CTR prediction task. A multimodal attention network first calculates the weights of multiple modalities for each item according to its modality-specific features. Then a multimodal adversarial network learns modality-invariant representations where a double-discriminators strategy is introduced. Finally, we achieve the multimodal item representations by combining both modality-specific and modality-invariant representations. We conduct extensive experiments on both public and industrial datasets, and the proposed method consistently achieves remarkable improvements to the state-of-the-art methods. Moreover, the approach has been deployed in an operational E-commerce system and online A/B testing further demonstrates the effectiveness.
翻訳日:2022-12-25 19:41:29 公開日:2020-03-07
# 内視鏡疾患検出チャレンジ2020

Endoscopy disease detection challenge 2020 ( http://arxiv.org/abs/2003.03376v1 )

ライセンス: Link先を確認
Sharib Ali, Noha Ghatwary, Barbara Braden, Dominique Lamarque, Adam Bailey, Stefano Realdon, Renato Cannizzaro, Jens Rittscher, Christian Daul, James East(参考訳) 多くの技術が内視鏡を中心に構築されているが、多くのディープラーニングフレームワークの一般化問題に対処するためには、複数のセンタから包括的なデータセットを収集する必要がある。 病気の検出や局所化よりも重要なことは何か? 臨床および計算の専門家の広範なネットワークを通じて,消化管内視鏡ビデオフレームの収集,キュレーション,注釈付けを行った。 我々はこのデータセットをリリースし、edd2020 https://edd2020.grand-challenge.org という病気検出とセグメント化のチャレンジを開始した。 EDD2020はクラウドソーシングのイニシアチブであり、最近のディープラーニング手法の実現可能性をテストするとともに、堅牢な技術構築のための研究を促進する。 本稿では,edd2020データセットの概要,課題タスク,評価戦略,テストデータの結果の概要について述べる。 課題ワークショップの後に詳細な論文を起草し、その結果についてより詳細な分析を行う。

Whilst many technologies are built around endoscopy, there is a need to have a comprehensive dataset collected from multiple centers to address the generalization issues with most deep learning frameworks. What could be more important than disease detection and localization? Through our extensive network of clinical and computational experts, we have collected, curated and annotated gastrointestinal endoscopy video frames. We have released this dataset and have launched disease detection and segmentation challenge EDD2020 https://edd2020.grand-challenge.org to address the limitations and explore new directions. EDD2020 is a crowd sourcing initiative to test the feasibility of recent deep learning methods and to promote research for building robust technologies. In this paper, we provide an overview of the EDD2020 dataset, challenge tasks, evaluation strategies and a short summary of results on test data. A detailed paper will be drafted after the challenge workshop with more detailed analysis of the results.
翻訳日:2022-12-25 19:41:04 公開日:2020-03-07
# セグメンテーション優先型自己アテンション生成型逆ネットワークを用いた超解像

Super Resolution Using Segmentation-Prior Self-Attention Generative Adversarial Network ( http://arxiv.org/abs/2003.03489v1 )

ライセンス: Link先を確認
Yuxin Zhang, Zuquan Zheng, Roland Hu(参考訳) 畳み込みニューラルネットワーク(CNN)はその優れた性能のため、超分解能(SR)タスクを解くために集中的に実装されている。 しかし,従来の知識の欠如や,CNNの受容領域が小さかったため,超解像の問題はいまだに解決が難しい。 本稿では,セグメンテーションプライアと注目を統合したフレームワークに組み込むためのセグメンテーション・ピアラー自己注意生成適応ネットワーク(SPSAGAN)を提案する。 この組み合わせは、特徴とセグメンテーションの注意のバランスをとるために慎重に設計された重み付けによって導かれ、ネットワークは同じセグメンテーションカテゴリのテクスチャを強調し、一方は長距離の特徴関係に焦点を当てることができる。 また,超解像性能をさらに向上し,計算を省くために,rrsbと呼ばれる軽量なスキップ接続アーキテクチャを提案する。 大規模な実験により、SPSAGANは多くのSRデータセット上の最先端のSFTGANやESRGANと比較して、より現実的で視覚的なテクスチャを生成できることが示された。

Convolutional Neural Network (CNN) is intensively implemented to solve super resolution (SR) tasks because of its superior performance. However, the problem of super resolution is still challenging due to the lack of prior knowledge and small receptive field of CNN. We propose the Segmentation-Piror Self-Attention Generative Adversarial Network (SPSAGAN) to combine segmentation-priors and feature attentions into a unified framework. This combination is led by a carefully designed weighted addition to balance the influence of feature and segmentation attentions, so that the network can emphasize textures in the same segmentation category and meanwhile focus on the long-distance feature relationship. We also propose a lightweight skip connection architecture called Residual-in-Residual Sparse Block (RRSB) to further improve the super-resolution performance and save computation. Extensive experiments show that SPSAGAN can generate more realistic and visually pleasing textures compared to state-of-the-art SFTGAN and ESRGAN on many SR datasets.
翻訳日:2022-12-25 19:40:20 公開日:2020-03-07
# alphanet:自動画像マットリングのための注意誘導深層ネットワーク

AlphaNet: An Attention Guided Deep Network for Automatic Image Matting ( http://arxiv.org/abs/2003.03613v1 )

ライセンス: Link先を確認
Rishab Sharma, Rahul Deora and Anirudha Vishvakarma(参考訳) 本稿では,自然画像から前景オブジェクトを高精度に抽出する画像マッチングのためのエンドツーエンドソリューションを提案する。 背景が純粋な緑か青である場合、スタジオ設定のクロマキーで画像マッチングと背景検出を容易に行うことができる。 それでも、複雑な背景と不均一な背景を持つ自然のシーンでのイメージマットングは、人間の介入を必要とする退屈な作業である。 自然場面における完全自動フォアグラウンド抽出を実現するために,画像合成タスクのための詳細な意味マットを生成するために,セマンティックセグメンテーションとディープイメージマットングプロセスを単一のネットワークに同一化する手法を提案する。 提案手法のコントリビューションは2倍であり,第1に,完全に自動化されたセマンティックイメージマッチング法,第2に既存のセマンティックセマンティックセマンティクスモデルの洗練と解釈できる。 本稿では,分割と組合わせを組み合わせた新しいモデルアーキテクチャを提案する。 我々の研究で示されているように、注意誘導型ダウンサンプリングとアップサンプリングは、他の通常のダウンサンプリングやアップサンプリング技術とは異なり、高品質な境界詳細を抽出することができる。 これを実現するために,データから適応的にアテンションマップを生成するために教師なし学習を行うアテンション誘導エンコーダ-デコーダフレームワークを利用し,アップサンプリングとダウンサンプリング演算子を指示する。 また,高品質なアルファマットを用いたファッションeコマース型データセットを構築し,画像マッチングのトレーニングと評価を容易にする。

In this paper, we propose an end to end solution for image matting i.e high-precision extraction of foreground objects from natural images. Image matting and background detection can be achieved easily through chroma keying in a studio setting when the background is either pure green or blue. Nonetheless, image matting in natural scenes with complex and uneven depth backgrounds remains a tedious task that requires human intervention. To achieve complete automatic foreground extraction in natural scenes, we propose a method that assimilates semantic segmentation and deep image matting processes into a single network to generate detailed semantic mattes for image composition task. The contribution of our proposed method is two-fold, firstly it can be interpreted as a fully automated semantic image matting method and secondly as a refinement of existing semantic segmentation models. We propose a novel model architecture as a combination of segmentation and matting that unifies the function of upsampling and downsampling operators with the notion of attention. As shown in our work, attention guided downsampling and upsampling can extract high-quality boundary details, unlike other normal downsampling and upsampling techniques. For achieving the same, we utilized an attention guided encoder-decoder framework which does unsupervised learning for generating an attention map adaptively from the data to serve and direct the upsampling and downsampling operators. We also construct a fashion e-commerce focused dataset with high-quality alpha mattes to facilitate the training and evaluation for image matting.
翻訳日:2022-12-25 19:39:45 公開日:2020-03-07
# 脳波を用いた話者識別

Speaker Identification using EEG ( http://arxiv.org/abs/2003.04733v1 )

ライセンス: Link先を確認
Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik(参考訳) 本稿では脳波信号を用いた話者識別について検討する。 本稿では,背景雑音の有無で話者識別システムの性能が低下し,脳波の特徴が背景雑音の有無で動作している話者識別システムの性能向上に有効であることを示す。 さらに,背景雑音の存在下では,脳波のみを入力として使用する話者識別システムが,音響特徴のみを入力として使用するシステムよりも優れた性能を示すことを示す。

In this paper we explore speaker identification using electroencephalography (EEG) signals. The performance of speaker identification systems degrades in presence of background noise, this paper demonstrates that EEG features can be used to enhance the performance of speaker identification systems operating in presence and absence of background noise. The paper further demonstrates that in presence of high background noise, speaker identification system using only EEG features as input demonstrates better performance than the system using only acoustic features as input.
翻訳日:2022-12-25 19:38:34 公開日:2020-03-07
# ニューラルネットワーク:部分微分方程式のためのグラフカーネルネットワーク

Neural Operator: Graph Kernel Network for Partial Differential Equations ( http://arxiv.org/abs/2003.03485v1 )

ライセンス: Link先を確認
Zongyi Li, Nikola Kovachki, Kamyar Azizzadenesheli, Burigede Liu, Kaushik Bhattacharya, Andrew Stuart, Anima Anandkumar(参考訳) ニューラルネットワークの古典的な発展は、主に有限次元ユークリッド空間とクラスの集合、あるいは2つの有限次元ユークリッド空間の間の写像である。 この研究の目的は、ニューラルネットワークを一般化し、無限次元空間(オペレータ)間のマッピングを学ぶことである。 我々の研究における重要な革新は、慎重に設計されたネットワークアーキテクチャにおいて、一組のネットワークパラメータが無限次元空間とそれらの空間の異なる有限次元近似の間の写像を記述するために使われることである。 非線形活性化関数と積分作用素のクラスを合成して無限次元写像の近似を定式化する。 カーネル統合は、グラフネットワーク上のメッセージパッシングによって計算される。 このアプローチは、入力データから偏微分方程式(PDE)とその解への写像の文脈において、かなり実用的な結果をもたらす。 この文脈において、そのような学習されたネットワークは、pdeの異なる近似法(有限差分法や有限要素法など)と、異なる分解レベルと離散化に対応する近似の間で一般化することができる。 実験により,提案したグラフカーネルネットワークには所望の特性があり,最先端技術と比較した場合の競合性能を示すことが確認された。

The classical development of neural networks has been primarily for mappings between a finite-dimensional Euclidean space and a set of classes, or between two finite-dimensional Euclidean spaces. The purpose of this work is to generalize neural networks so that they can learn mappings between infinite-dimensional spaces (operators). The key innovation in our work is that a single set of network parameters, within a carefully designed network architecture, may be used to describe mappings between infinite-dimensional spaces and between different finite-dimensional approximations of those spaces. We formulate approximation of the infinite-dimensional mapping by composing nonlinear activation functions and a class of integral operators. The kernel integration is computed by message passing on graph networks. This approach has substantial practical consequences which we will illustrate in the context of mappings between input data to partial differential equations (PDEs) and their solutions. In this context, such learned networks can generalize among different approximation methods for the PDE (such as finite difference or finite element methods) and among approximations corresponding to different underlying levels of resolution and discretization. Experiments confirm that the proposed graph kernel network does have the desired properties and show competitive performance compared to the state of the art solvers.
翻訳日:2022-12-25 19:32:20 公開日:2020-03-07
# 変分的インフォマックス学習目標

The Variational InfoMax Learning Objective ( http://arxiv.org/abs/2003.03524v1 )

ライセンス: Link先を確認
Vincenzo Crescimanna, Bruce Graham(参考訳) Bayesian Inference と Information Bottleneck は、ニューラルネットワークの最も一般的な2つの目的であるが、変分情報ボトルネック (VIB) という変分情報境界によってのみ最適化できる。 この原稿では、2つの目的がInfoMaxと実際に等価であることを示し、データとラベルの間の情報を最大化する。 2つの目的のInfoMax表現は、ネットワークキャパシティの役割を理解するのに役立つだけでなく、より低いバウンダリに頼らずにそれらを直接最大化する変分InfoMax(VIM)を導出できるため、それ自体は関係がない。 VIBに対するVIMの理論的改善は、VIMによって訓練されたモデルは、精度、ノイズに対する堅牢性、表現品質の3つの異なるタスクでVIBモデルを改善する計算実験によって強調される。

Bayesian Inference and Information Bottleneck are the two most popular objectives for neural networks, but they can be optimised only via a variational lower bound: the Variational Information Bottleneck (VIB). In this manuscript we show that the two objectives are actually equivalent to the InfoMax: maximise the information between the data and the labels. The InfoMax representation of the two objectives is not relevant only per se, since it helps to understand the role of the network capacity, but also because it allows us to derive a variational objective, the Variational InfoMax (VIM), that maximises them directly without resorting to any lower bound. The theoretical improvement of VIM over VIB is highlighted by the computational experiments, where the model trained by VIM improves the VIB model in three different tasks: accuracy, robustness to noise and representation quality.
翻訳日:2022-12-25 19:32:00 公開日:2020-03-07
# ガウス報酬におけるQ値の収束性

Convergence of Q-value in case of Gaussian rewards ( http://arxiv.org/abs/2003.03526v1 )

ライセンス: Link先を確認
Konatsu Miyamoto, Masaya Suzuki, Yuma Kigami, Kodai Satake(参考訳) 本稿では,強化学習の研究として,q関数をガウス分布などの非有界報酬に収束させる。 中心極限定理から、いくつかの実世界の応用において、報酬がガウス分布に従うと仮定することは自然であるが、既存の証明はQ-函数の収束を保証できない。 また,近年普及している分布型強化学習やベイズ型強化学習においても,ガウス分布を付与することが望ましい。 したがって、本稿では、既存の研究よりもはるかにリラックスした$E[r(s,a)^2]<\infty$の条件下でのQ-函数の収束を証明している。 最後に、ボーナスとして、分散強化学習のためのポリシー勾配定理の証明も掲載する。

In this paper, as a study of reinforcement learning, we converge the Q function to unbounded rewards such as Gaussian distribution. From the central limit theorem, in some real-world applications it is natural to assume that rewards follow a Gaussian distribution , but existing proofs cannot guarantee convergence of the Q-function. Furthermore, in the distribution-type reinforcement learning and Bayesian reinforcement learning that have become popular in recent years, it is better to allow the reward to have a Gaussian distribution. Therefore, in this paper, we prove the convergence of the Q-function under the condition of $E[r(s,a)^2]<\infty$, which is much more relaxed than the existing research. Finally, as a bonus, a proof of the policy gradient theorem for distributed reinforcement learning is also posted.
翻訳日:2022-12-25 19:31:43 公開日:2020-03-07
# 確率 ADMM の連続極限に対する確率修正方程式

Stochastic Modified Equations for Continuous Limit of Stochastic ADMM ( http://arxiv.org/abs/2003.03532v1 )

ライセンス: Link先を確認
Xiang Zhou, Huizhuo Yuan, Chris Junchi Li, Qingyun Sun(参考訳) 乗算器の交互方向法(ADMM)とその変種(線形化ADMM、勾配ベースADMM)の確率的バージョンは、現代の大規模機械学習問題において重要な役割を果たす。 一例は正規化経験的リスク最小化問題である。 本研究では, 標準, 線形化, 勾配ベースADMMを緩和した統一形式として, 確率的ADMMの異なる変種を組込み, 連続時間モデルアプローチを用いてそれらのダイナミクスを考察する。 確率修正方程式(SME)の数学的枠組みに適応し、確率ADMMの力学が弱い近似の意味で小さな雑音パラメータを持つ確率微分方程式のクラスによって近似されることを示す。 連続時間解析は離散時間アルゴリズムの振る舞いに関する重要な分析的洞察を明らかにするだろう。 例えば、解経路の変動を正確に把握し、解経路の分散を最小限に抑える最適な停止時間を決定することができる。

Stochastic version of alternating direction method of multiplier (ADMM) and its variants (linearized ADMM, gradient-based ADMM) plays a key role for modern large scale machine learning problems. One example is the regularized empirical risk minimization problem. In this work, we put different variants of stochastic ADMM into a unified form, which includes standard, linearized and gradient-based ADMM with relaxation, and study their dynamics via a continuous-time model approach. We adapt the mathematical framework of stochastic modified equation (SME), and show that the dynamics of stochastic ADMM is approximated by a class of stochastic differential equations with small noise parameters in the sense of weak approximation. The continuous-time analysis would uncover important analytical insights into the behaviors of the discrete-time algorithm, which are non-trivial to gain otherwise. For example, we could characterize the fluctuation of the solution paths precisely, and decide optimal stopping time to minimize the variance of solution paths.
翻訳日:2022-12-25 19:31:30 公開日:2020-03-07
# Saturating Coordinate Descent による非負性テンソル因子の高効率化

Efficient Nonnegative Tensor Factorization via Saturating Coordinate Descent ( http://arxiv.org/abs/2003.03572v1 )

ライセンス: Link先を確認
Thirunavukarasu Balasubramaniam, Richi Nayak, Chau Yuen(参考訳) コンピューティング技術とWebベースのアプリケーションの進歩により、データは多次元形式でますます生成される。 このデータは、多くのユーザの存在と少ないユーザインタラクションのため、通常は疎結合である。 これに対応するために、NTF(Non negative Tensor Factorization)ベースの手法が広く用いられている。 しかし、既存の分解アルゴリズムはテンソルのサイズ、密度、ランクの3つの条件すべてにおいて処理に適していない。 その結果、適用性は制限される。 本稿では,要素選択手法を用いた高速かつ効率的なNTFアルゴリズムを提案する。 リプシッツ連続性を用いて要素重要度を計算し、最適化問題を解くために一組の要素を選択する飽和点に基づく要素選択法を提案する。 経験的解析により,提案アルゴリズムは,関連する最先端アルゴリズムと比較して,テンソルサイズ,密度,ランクの点でスケーラブルであることがわかった。

With the advancements in computing technology and web-based applications, data is increasingly generated in multi-dimensional form. This data is usually sparse due to the presence of a large number of users and fewer user interactions. To deal with this, the Nonnegative Tensor Factorization (NTF) based methods have been widely used. However existing factorization algorithms are not suitable to process in all three conditions of size, density, and rank of the tensor. Consequently, their applicability becomes limited. In this paper, we propose a novel fast and efficient NTF algorithm using the element selection approach. We calculate the element importance using Lipschitz continuity and propose a saturation point based element selection method that chooses a set of elements column-wise for updating to solve the optimization problem. Empirical analysis reveals that the proposed algorithm is scalable in terms of tensor size, density, and rank in comparison to the relevant state-of-the-art algorithms.
翻訳日:2022-12-25 19:30:46 公開日:2020-03-07
# 自動運転ソフトウェア評価のための機械学習環境

A machine learning environment for evaluating autonomous driving software ( http://arxiv.org/abs/2003.03576v1 )

ライセンス: Link先を確認
Jussi Hanhirova, Anton Debner, Matias Hyypp\"a, Vesa Hirvisalo(参考訳) 自動運転車は安全な開発とテスト環境を必要とする。 多くのトラフィックシナリオは、現実世界ではテストできないようなものです。 ハイブリッドフォトリアリスティックシミュレーションは、自動運転のためのAI(人工知能)ソフトウェアを開発するための実行可能なツールだと考えています。 自動運転車のコーナーケース動作を検出する機械学習環境を提案する。 我々の環境は、CARLAシミュレーションソフトウェアをTensorFlow機械学習フレームワークとカスタムAIクライアントソフトウェアに接続することに基づいている。 AIクライアントソフトウェアは、仮想センサを介してシミュレーションされた世界からデータを受信し、機械学習モデルを使用してデータを情報に変換する。 AIクライアントは、シミュレーションされた世界の車両を制御します。 我々の環境は、車載AIが仮定した状態をシミュレーションモデルから得られた真実の状態に監視する。 我々のシステムは、車両AIが状況を正確に理解できないコーナーケースを探索することができる。 本稿では,ハイブリッドシミュレータのアーキテクチャを概説し,異なる構成を比較した。 本稿では,実機の性能測定を行い,ハイブリッドシミュレータの性能に影響を及ぼす主なパラメータについて概説する。

Autonomous vehicles need safe development and testing environments. Many traffic scenarios are such that they cannot be tested in the real world. We see hybrid photorealistic simulation as a viable tool for developing AI (artificial intelligence) software for autonomous driving. We present a machine learning environment for detecting autonomous vehicle corner case behavior. Our environment is based on connecting the CARLA simulation software to TensorFlow machine learning framework and custom AI client software. The AI client software receives data from a simulated world via virtual sensors and transforms the data into information using machine learning models. The AI clients control vehicles in the simulated world. Our environment monitors the state assumed by the vehicle AIs to the ground truth state derived from the simulation model. Our system can search for corner cases where the vehicle AI is unable to correctly understand the situation. In our paper, we present the overall hybrid simulator architecture and compare different configurations. We present performance measurements from real setups, and outline the main parameters affecting the hybrid simulator performance.
翻訳日:2022-12-25 19:30:31 公開日:2020-03-07
# マルチオミクスデータを用いた生存予測手法の大規模ベンチマーク研究

Large-scale benchmark study of survival prediction methods using multi-omics data ( http://arxiv.org/abs/2003.03621v1 )

ライセンス: Link先を確認
Moritz Herrmann, Philipp Probst, Roman Hornung, Vindi Jurinovic, Anne-Laure Boulesteix(参考訳) マルチオミクスデータ、すなわち、様々な種類の高次元分子変数(しばしば古典的臨床変数に加えて)を含むデータセットは、様々な疾患を調査するためにますます生成される。 しかし、生存時間などの疾患の予測には、マルチオミクスデータの有用性が疑問視されている。 予測モデルを導出するのに、どの手法が最も適しているかも不明である。 我々は,実データを用いた大規模ベンチマーク研究により,これらの疑問にいくつかの答えを与えることを目指している。 機械学習と統計学の異なる予測手法を、35から1,000の観測結果と6万から10万の変数を含む"The Cancer Genome Atlas"データベースから18のマルチオミクスがんデータセットに適用した。 結果は(検閲された)生存時間であった。 ブースティング法,ペナルタライズド回帰法,ランダムフォレスト法に基づく12の手法を比較し,オミス変数の群構造を考慮しない方法と無作為フォレスト法とを比較した。 臨床変数のみを用いたKaplan-Meier推定とCoxモデルを用いた。 これらの手法は5倍のクロスバリデーションの繰り返しを用いて比較した。 UnoのC-indexと統合されたBrier-scoreはパフォーマンス指標として機能した。 その結果,マルチオミクスデータは予測性能を向上できるが,一般にはそうではないことがわかった。 メソッドブロックフォレストのみが、すべてのデータセットで平均してCoxモデルを上回った。 マルチオミクス構造を考慮すると、予測性能が向上し、低次元群(特に臨床変数)の変数がモデルに含まれないことを保護する。 すべての解析は、自由に利用可能なRコードを使って再現可能である。

Multi-omics data, that is, datasets containing different types of high-dimensional molecular variables (often in addition to classical clinical variables), are increasingly generated for the investigation of various diseases. Nevertheless, questions remain regarding the usefulness of multi-omics data for the prediction of disease outcomes such as survival time. It is also unclear which methods are most appropriate to derive such prediction models. We aim to give some answers to these questions by means of a large-scale benchmark study using real data. Different prediction methods from machine learning and statistics were applied on 18 multi-omics cancer datasets from the database "The Cancer Genome Atlas", containing from 35 to 1,000 observations and from 60,000 to 100,000 variables. The considered outcome was the (censored) survival time. Twelve methods based on boosting, penalized regression and random forest were compared, comprising both methods that do and that do not take the group structure of the omics variables into account. The Kaplan-Meier estimate and a Cox model using only clinical variables were used as reference methods. The methods were compared using several repetitions of 5-fold cross-validation. Uno's C-index and the integrated Brier-score served as performance metrics. The results show that, although multi-omics data can improve the prediction performance, this is not generally the case. Only the method block forest slightly outperformed the Cox model on average over all datasets. Taking into account the multi-omics structure improves the predictive performance and protects variables in low-dimensional groups - especially clinical variables - from not being included in the model. All analyses are reproducible using freely available R code.
翻訳日:2022-12-25 19:30:04 公開日:2020-03-07
# オンラインパーティショニングを用いた列挙型バイクラスタ化アルゴリズムの新展開

New advances in enumerative biclustering algorithms with online partitioning ( http://arxiv.org/abs/2003.04726v1 )

ライセンス: Link先を確認
Rosana Veroneze and Fernando J. Von Zuben(参考訳) さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。 rin-close_cvcは、データセットの事前分割と項目化を避けることで、オンラインパーティショニングを実装している。 改良されたアルゴリズムはrin-close_cvc3と呼ばれ、ここで正式に証明されたようにrin-close_cvcの魅力的な特性を保持し、メモリ使用量の劇的な減少、実行時の一貫したゲイン、不足した値のデータセットを扱う追加の能力、異なるディストリビューションや混合データ型によって特徴付けられる属性で操作する能力が特徴である。 実験結果は、スケーラビリティと感度分析を行うために使用される合成および実世界のデータセットを含む。 実践的なケーススタディとして、教師付き記述型パターンマイニングの文脈において、関連性および解釈可能な混合属性型ルールの類似集合を得る。

This paper further extends RIn-Close_CVC, a biclustering algorithm capable of performing an efficient, complete, correct and non-redundant enumeration of maximal biclusters with constant values on columns in numerical datasets. By avoiding a priori partitioning and itemization of the dataset, RIn-Close_CVC implements an online partitioning, which is demonstrated here to guide to more informative biclustering results. The improved algorithm is called RIn-Close_CVC3, keeps those attractive properties of RIn-Close_CVC, as formally proved here, and is characterized by: a drastic reduction in memory usage; a consistent gain in runtime; additional ability to handle datasets with missing values; and additional ability to operate with attributes characterized by distinct distributions or even mixed data types. The experimental results include synthetic and real-world datasets used to perform scalability and sensitivity analyses. As a practical case study, a parsimonious set of relevant and interpretable mixed-attribute-type rules is obtained in the context of supervised descriptive pattern mining.
翻訳日:2022-12-25 19:23:05 公開日:2020-03-07
# 意味的変化パターン解析

Semantic Change Pattern Analysis ( http://arxiv.org/abs/2003.03492v1 )

ライセンス: Link先を確認
Wensheng Cheng, Yan Zhang, Xu Lei, Wen Yang, Guisong Xia(参考訳) 変化検出は視覚分野、特に空中画像において重要な問題である。 しかしながら、ほとんどの研究は、従来の変更検出、すなわち、変更がどこで起こるか、変更タイプ情報、すなわち、何が起こるかを考えることなく、焦点を当てている。 従来の変更検出にセマンティック情報を適用する試みはいくつかあるが、変更タイプを考慮せずに新興オブジェクトのラベルを付けるか、意味情報を指定することなく主観的に何らかの変更を設定するかのどちらかである。 意味的情報と変化の種類を総合的に分析するために,航空画像に対する意味的変化パターン分析という新しいタスクを提案する。 共同登録された空中画像のペアが与えられた場合、そのタスクは、場所と変更点の両方を含む結果を必要とする。 次に、タスクに採用されたメトリクスを説明します。 また,この課題に対して,最初に注釈付き空中画像データセットを提供する。 広範なベースライン実験は、以下の研究の参考として実施されている。 本研究の目的は,変化検出に基づく高レベル情報を探究し,公開データセットを用いてこの分野の開発を促進することである。

Change detection is an important problem in vision field, especially for aerial images. However, most works focus on traditional change detection, i.e., where changes happen, without considering the change type information, i.e., what changes happen. Although a few works have tried to apply semantic information to traditional change detection, they either only give the label of emerging objects without taking the change type into consideration, or set some kinds of change subjectively without specifying semantic information. To make use of semantic information and analyze change types comprehensively, we propose a new task called semantic change pattern analysis for aerial images. Given a pair of co-registered aerial images, the task requires a result including both where and what changes happen. We then describe the metric adopted for the task, which is clean and interpretable. We further provide the first well-annotated aerial image dataset for this task. Extensive baseline experiments are conducted as reference for following works. The aim of this work is to explore high-level information based on change detection and facilitate the development of this field with the publicly available dataset.
翻訳日:2022-12-25 19:22:46 公開日:2020-03-07
# 高速進化的ニューラルネットワーク探索のためのサンプル学習とノード継承

Sampled Training and Node Inheritance for Fast Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2003.11613v1 )

ライセンス: Link先を確認
Haoyu Zhang, Yaochu Jin, Ran Cheng, and Kuangrong Hao(参考訳) ディープニューラルネットワークの性能はそのアーキテクチャに大きく依存しており、ネットワークアーキテクチャの自動設計のために様々なニューラルネットワーク探索戦略が開発されている。 近年,進化的ニューラルアーキテクチャ探索(ENAS)が注目されている。 しかしENASは、進化的最適化や深層ニューラルネットワークのトレーニングにおいて、多くの性能評価を必要とするため、非常に高い計算コストに悩まされている。 そこで本研究では,親がランダムに標本化され,各ミニバッチで訓練される有向非巡回グラフに基づく高速enasのための新しい進化フレームワークを提案する。 さらに、子孫を生成するためにノード継承戦略を採用し、その適合性をトレーニングなしで直接評価する。 進化したニューラルネットワークの特徴処理能力を高めるために,探索空間におけるチャネルアテンション機構を符号化する。 提案アルゴリズムは,26の最先端ピアアルゴリズムと比較し,広く利用されているデータセット上で評価する。 実験の結果,提案アルゴリズムは計算効率が向上するだけでなく,学習性能の競争力も高いことがわかった。

The performance of a deep neural network is heavily dependent on its architecture and various neural architecture search strategies have been developed for automated network architecture design. Recently, evolutionary neural architecture search (ENAS) has received increasing attention due to the attractive global optimization capability of evolutionary algorithms. However, ENAS suffers from extremely high computation costs because a large number of performance evaluations is usually required in evolutionary optimization and training deep neural networks is itself computationally very intensive. To address this issue, this paper proposes a new evolutionary framework for fast ENAS based on directed acyclic graph, in which parents are randomly sampled and trained on each mini-batch of training data. In addition, a node inheritance strategy is adopted to generate offspring individuals and their fitness is directly evaluated without training. To enhance the feature processing capability of the evolved neural networks, we also encode a channel attention mechanism in the search space. We evaluate the proposed algorithm on the widely used datasets, in comparison with 26 state-of-the-art peer algorithms. Our experimental results show the proposed algorithm is not only computationally much more efficiently, but also highly competitive in learning performance.
翻訳日:2022-12-25 19:21:15 公開日:2020-03-07
# 機械学習による5gネットワークの異常検出

Machine Learning based Anomaly Detection for 5G Networks ( http://arxiv.org/abs/2003.03474v1 )

ライセンス: Link先を確認
Jordan Lam, Robert Abbas(参考訳) サイバーセキュリティの脅威の増大とIoT(Internet of Things)による攻撃面の拡大、ネットワークの不均一性の増大、仮想化テクノロジと分散アーキテクチャの利用の増大により、明日のネットワークを保護することは難しいドメインになる。 本稿では,SDS(Software Defined Security)を,自動化,柔軟性,スケーラブルなネットワーク防御システムとして提案する。 SDSは機械学習の現在の進歩を利用して、NAS(Neural Architecture Search)を使用してCNN(Convolutional Neural Network)を設計し、異常なネットワークトラフィックを検出する。 SDSは侵入検知システムに適用でき、5Gネットワークに対するより積極的なエンドツーエンドの防御を作成することができる。 この仮定をテストするために、シミュレーション環境からの正常および異常なネットワークフローをcnnで収集・解析した。 この手法の結果は、100%精度で良性トラフィックを同定し、96.4%検出率で異常トラフィックを同定したことから、有望である。 これは、様々な一般的な悪意のある攻撃に対するネットワークフロー分析の有効性を示し、暗号化された悪意のあるネットワークトラフィックを検出するための有効なオプションを提供する。

Protecting the networks of tomorrow is set to be a challenging domain due to increasing cyber security threats and widening attack surfaces created by the Internet of Things (IoT), increased network heterogeneity, increased use of virtualisation technologies and distributed architectures. This paper proposes SDS (Software Defined Security) as a means to provide an automated, flexible and scalable network defence system. SDS will harness current advances in machine learning to design a CNN (Convolutional Neural Network) using NAS (Neural Architecture Search) to detect anomalous network traffic. SDS can be applied to an intrusion detection system to create a more proactive and end-to-end defence for a 5G network. To test this assumption, normal and anomalous network flows from a simulated environment have been collected and analyzed with a CNN. The results from this method are promising as the model has identified benign traffic with a 100% accuracy rate and anomalous traffic with a 96.4% detection rate. This demonstrates the effectiveness of network flow analysis for a variety of common malicious attacks and also provides a viable option for detection of encrypted malicious network traffic.
翻訳日:2022-12-25 19:20:59 公開日:2020-03-07
# 計算効率の良い非負結合行列テンソル因子分解のためのカラムワイズ要素選択

Columnwise Element Selection for Computationally Efficient Nonnegative Coupled Matrix Tensor Factorization ( http://arxiv.org/abs/2003.03506v1 )

ライセンス: Link先を確認
Thirunavukarasu Balasubramaniam, Richi Nayak, Chau Yuen(参考訳) Coupled Matrix Tensor Factorization (CMTF)は、複数のデータソースの統合と分析を促進し、意味のある情報を見つけるのに役立つ。 非負のCMTF (N-CMTF) は、潜在パターン、予測、レコメンデーションを識別するための多くのアプリケーションで使われている。 しかし、テンソルデータと行列データの結合による複雑さの増大により、既存のN-CMTFアルゴリズムは計算効率が劣る。 本稿では,カラム単位の要素選択に基づいて計算効率の良いN-CMTF分解アルゴリズムを提案し,頻繁な勾配更新を防止する。 理論および経験的解析により、提案手法はテンソルの近似や因子の基底的性質の同定において、既存のアルゴリズムよりも精度が高いだけでなく、計算効率も高いことが示された。

Coupled Matrix Tensor Factorization (CMTF) facilitates the integration and analysis of multiple data sources and helps discover meaningful information. Nonnegative CMTF (N-CMTF) has been employed in many applications for identifying latent patterns, prediction, and recommendation. However, due to the added complexity with coupling between tensor and matrix data, existing N-CMTF algorithms exhibit poor computation efficiency. In this paper, a computationally efficient N-CMTF factorization algorithm is presented based on the column-wise element selection, preventing frequent gradient updates. Theoretical and empirical analyses show that the proposed N-CMTF factorization algorithm is not only more accurate but also more computationally efficient than existing algorithms in approximating the tensor as well as in identifying the underlying nature of factors.
翻訳日:2022-12-25 19:13:30 公開日:2020-03-07
# スケーラブルな近似推論とその応用

Scalable Approximate Inference and Some Applications ( http://arxiv.org/abs/2003.03515v1 )

ライセンス: Link先を確認
Jun Han(参考訳) 確率モデルの近似推論は機械学習の基本的なタスクである。 近似推論は、ベイズ推論、意思決定、ベイズ深層学習に強力なツールを提供する。 主な目的は、対象分布に関する関心関数の期待値を推定することである。 高次元確率モデルや大規模データセットの場合、効率的な近似推論が重要となる。 本稿では,これら3つのフレームワークの利点を結合し,その限界を克服した近似推論のための新しいフレームワークを提案する。 提案する4つのアルゴリズムは,最近のstein法計算の進歩に動機づけられている。 提案アルゴリズムは,目標分布の勾配情報が利用可能あるいは利用できない場合に設定した連続分布および離散分布に適用する。 提案アルゴリズムの収束性を証明するために理論的解析を行った。 我々の適応型isアルゴリズムは,更新提案と目標とのkl発散を機能的に減少させることにより,重要度提案を反復的に改善する。 対象の勾配が利用できない場合、提案アルゴリズムはサロゲートモデルの勾配を利用し、重み付けによる誘導バイアスを補正し、他の勾配のないサンプリングアルゴリズムよりも大幅に優れる。 さらに, 理論的結果から, 離散分布に対する適合性試験が可能である。 論文の最後に,分散学習における局所モデルを一発的コミュニケーションで効率的に集約する重要度重み付け手法を提案する。 シミュレーションおよび実データを用いた結果から,アルゴリズムの統計的効率と適用性を示す。

Approximate inference in probability models is a fundamental task in machine learning. Approximate inference provides powerful tools to Bayesian reasoning, decision making, and Bayesian deep learning. The main goal is to estimate the expectation of interested functions w.r.t. a target distribution. When it comes to high dimensional probability models and large datasets, efficient approximate inference becomes critically important. In this thesis, we propose a new framework for approximate inference, which combines the advantages of these three frameworks and overcomes their limitations. Our proposed four algorithms are motivated by the recent computational progress of Stein's method. Our proposed algorithms are applied to continuous and discrete distributions under the setting when the gradient information of the target distribution is available or unavailable. Theoretical analysis is provided to prove the convergence of our proposed algorithms. Our adaptive IS algorithm iteratively improves the importance proposal by functionally decreasing the KL divergence between the updated proposal and the target. When the gradient of the target is unavailable, our proposed sampling algorithm leverages the gradient of a surrogate model and corrects induced bias with importance weights, which significantly outperforms other gradient-free sampling algorithms. In addition, our theoretical results enable us to perform the goodness-of-fit test on discrete distributions. At the end of the thesis, we propose an importance-weighted method to efficiently aggregate local models in distributed learning with one-shot communication. Results on simulated and real datasets indicate the statistical efficiency and wide applicability of our algorithm.
翻訳日:2022-12-25 19:13:16 公開日:2020-03-07
# 高忠実度モビリティマップ構築のためのアクティブラーニングフレームワーク

An Active Learning Framework for Constructing High-fidelity Mobility Maps ( http://arxiv.org/abs/2003.03517v1 )

ライセンス: Link先を確認
Gary R. Marple, David Gorsich, Paramsothy Jayakumar, Shravan Veerapaneni(参考訳) 任意の地形上で最大到達速度を提供するモビリティマップは、オフロード環境での自律的な地上車両の経路計画に不可欠である。 物理ベースのシミュレーションは、次世代の高忠実度モビリティマップを作成する上で中心的な役割を果たすが、面倒で高価である。 例えば、典型的なシミュレーションはスーパーコンピュータ上で実行するのに数週間かかり、各マップには何千ものシミュレーションが必要である。 アメリカ陸軍のCCDC地上車両システムセンターにおける最近の研究は、訓練された機械学習分類器がこのプロセスの効率を大幅に改善できることを示した。 しかし、分類器を効率的に訓練するためにどのシミュレーションを実行するかは、まだ未解決の問題である。 pac学習理論によると、分類器によって分離できるデータは$\mathcal{o}(1/\epsilon)$ランダムに選択された点(シミュレーション)が必要であり、$\epsilon$未満のエラーで分類器を訓練する。 本稿では,既存のアルゴリズムを基礎として,機械学習分類器の学習に必要なシミュレーション数を,精度を犠牲にすることなく大幅に削減するアクティブラーニングパラダイムを提案する。 実験結果から, ランダムサンプリングと比較した場合のシミュレーション回数の半分以下を用いて, ニューラルネットワークを高精度に学習できることが示唆された。

A mobility map, which provides maximum achievable speed on a given terrain, is essential for path planning of autonomous ground vehicles in off-road settings. While physics-based simulations play a central role in creating next-generation, high-fidelity mobility maps, they are cumbersome and expensive. For instance, a typical simulation can take weeks to run on a supercomputer and each map requires thousands of such simulations. Recent work at the U.S. Army CCDC Ground Vehicle Systems Center has shown that trained machine learning classifiers can greatly improve the efficiency of this process. However, deciding which simulations to run in order to train the classifier efficiently is still an open problem. According to PAC learning theory, data that can be separated by a classifier is expected to require $\mathcal{O}(1/\epsilon)$ randomly selected points (simulations) to train the classifier with error less than $\epsilon$. In this paper, building on existing algorithms, we introduce an active learning paradigm that substantially reduces the number of simulations needed to train a machine learning classifier without sacrificing accuracy. Experimental results suggest that our sampling algorithm can train a neural network, with higher accuracy, using less than half the number of simulations when compared to random sampling.
翻訳日:2022-12-25 19:12:55 公開日:2020-03-07
# RCC-Dual-GAN : 異常同定による外乱検出の効率化

RCC-Dual-GAN: An Efficient Approach for Outlier Detection with Few Identified Anomalies ( http://arxiv.org/abs/2003.03609v1 )

ライセンス: Link先を確認
Zhe Li, Chunhua Sun, Chunli Liu, Xiayu Chen, Meng Wang, Yezheng Liu(参考訳) 異常検出はデータマイニングにおいて重要なタスクであり、様々なアプリケーションで多くの技術が研究されている。 しかし、異常値が集中していないというデフォルトの仮定のため、教師なし異常値検出は高密度の群異常を正しく検出することができない。 教師付き異常検出では, 高い検出率と最適パラメータが得られるが, 十分なラベルと正しいラベルを得ることは時間を要する作業である。 これらの問題に対処するために,限られたラベルを用いて高い検出精度を実現するために,同定された異常をほとんど持たない半教師付き外れ値検出に焦点をあてる。 まず,特定異常の電位情報を直接活用し,離散異常と部分的異常を同時に検出できる新しい検出モデルであるdual-ganを提案する。 そして、類似した出力値を持つインスタンスは、すべて複雑なデータ構造で類似しているわけではないので、Dual-GANの2つのMO-GANコンポーネントをRCCとM-GAN(RCC-Dual-GAN)の組み合わせで置き換える。 さらに,nash平衡の評価と最適モデルの選択に対処すべく,2つの評価指標を作成して2つのモデルに導入し,検出プロセスをよりインテリジェントにする。 提案手法(Dual-GAN と RCC-Dual-GAN )は,数個の異常がみられた場合でも,外乱検出の精度を大幅に向上できることを示す。 さらに、Dual-GANの2つのMO-GAN成分と比較して、RCCとM-GANを組み合わせたネットワーク構造は、様々な状況においてより安定性が高い。

Outlier detection is an important task in data mining and many technologies have been explored in various applications. However, due to the default assumption that outliers are non-concentrated, unsupervised outlier detection may not correctly detect group anomalies with higher density levels. As for the supervised outlier detection, although high detection rates and optimal parameters can usually be achieved, obtaining sufficient and correct labels is a time-consuming task. To address these issues, we focus on semi-supervised outlier detection with few identified anomalies, in the hope of using limited labels to achieve high detection accuracy. First, we propose a novel detection model Dual-GAN, which can directly utilize the potential information in identified anomalies to detect discrete outliers and partially identified group anomalies simultaneously. And then, considering the instances with similar output values may not all be similar in a complex data structure, we replace the two MO-GAN components in Dual-GAN with the combination of RCC and M-GAN (RCC-Dual-GAN). In addition, to deal with the evaluation of Nash equilibrium and the selection of optimal model, two evaluation indicators are created and introduced into the two models to make the detection process more intelligent. Extensive experiments on both benchmark datasets and two practical tasks demonstrate that our proposed approaches (i.e., Dual-GAN and RCC-Dual-GAN) can significantly improve the accuracy of outlier detection even with only a few identified anomalies. Moreover, compared with the two MO-GAN components in Dual-GAN, the network structure combining RCC and M-GAN has greater stability in various situations.
翻訳日:2022-12-25 19:12:25 公開日:2020-03-07
# 敵対的機械学習--敵対的リスク分析の視点から

Adversarial Machine Learning: Perspectives from Adversarial Risk Analysis ( http://arxiv.org/abs/2003.03546v1 )

ライセンス: Link先を確認
David Rios Insua, Roi Naveiro, Victor Gallego, Jason Poulos(参考訳) Adversarial Machine Learning (AML)は、自動MLシステムのセキュリティ脅威に対する保護を目的とした、主要な分野として浮上している。 この分野の仕事の大部分は、攻撃者とディフェンダーの間の衝突をモデル化することで、ゲーム理論的な枠組みを基礎としている。 AMLに対するゲーム理論的アプローチをレビューした後、我々は、MLベースのシステムを守る際に、ベイズ対応リスク分析がもたらすメリットについて議論する。 研究課題も含んでいる。

Adversarial Machine Learning (AML) is emerging as a major field aimed at the protection of automated ML systems against security threats. The majority of work in this area has built upon a game-theoretic framework by modelling a conflict between an attacker and a defender. After reviewing game-theoretic approaches to AML, we discuss the benefits that a Bayesian Adversarial Risk Analysis perspective brings when defending ML based systems. A research agenda is included.
翻訳日:2022-12-25 19:04:40 公開日:2020-03-07
# 拡散状態距離:多時間解析、高速アルゴリズムおよび生体ネットワークへの応用

Diffusion State Distances: Multitemporal Analysis, Fast Algorithms, and Applications to Biological Networks ( http://arxiv.org/abs/2003.03616v1 )

ライセンス: Link先を確認
Lenore Cowen, Kapil Devkota, Xiaozhe Hu, James M. Murphy, and Kaiyi Wu(参考訳) データ依存メトリクスは、高次元データの基盤構造を学ぶための強力なツールである。 本稿では,データ駆動拡散過程を用いて点を比較する拡散状態距離(dsd)と呼ばれるデータ依存メトリックを開発し,解析する。 関連する拡散法とは異なり、DSDは時間スケールにまたがる情報を取り入れ、本質的なデータ構造をパラメータフリーで推論することができる。 本稿では,拡散過程におけるメソスコピック平衡の多時的出現に基づくDSDの理論を考察する。 また, DSDによるデノゲーションと次元低減のための新しいアルゴリズムを提案し, 解析した。 これらのアプローチは、基礎となる拡散過程の重み付けされたスペクトル分解に基づいており、合成データセットと実際の生物学的ネットワークの実験では、速度と精度の両方の観点から提案アルゴリズムの有効性が示されている。 全体として、マルチスケール構造を示すデータセットに対するDSDの明確な利点を示すため、関連する手法との比較を行う。

Data-dependent metrics are powerful tools for learning the underlying structure of high-dimensional data. This article develops and analyzes a data-dependent metric known as diffusion state distance (DSD), which compares points using a data-driven diffusion process. Unlike related diffusion methods, DSDs incorporate information across time scales, which allows for the intrinsic data structure to be inferred in a parameter-free manner. This article develops a theory for DSD based on the multitemporal emergence of mesoscopic equilibria in the underlying diffusion process. New algorithms for denoising and dimension reduction with DSD are also proposed and analyzed. These approaches are based on a weighted spectral decomposition of the underlying diffusion process, and experiments on synthetic datasets and real biological networks illustrate the efficacy of the proposed algorithms in terms of both speed and accuracy. Throughout, comparisons with related methods are made, in order to illustrate the distinct advantages of DSD for datasets exhibiting multiscale structure.
翻訳日:2022-12-25 19:04:32 公開日:2020-03-07
# 知識の定量化による知識蒸留の説明

Explaining Knowledge Distillation by Quantifying the Knowledge ( http://arxiv.org/abs/2003.03622v1 )

ライセンス: Link先を確認
Xu Cheng, Zhefan Rao, Yilan Chen, Quanshi Zhang(参考訳) 本稿では,深層ニューラルネットワーク(dnn)の中間層に符号化されるタスク関連およびタスク非関連視覚概念を定量化し分析することにより,知識蒸留の成功を解釈する手法を提案する。 より具体的には、以下の3つの仮説が提案されている。 1 知識蒸留は、生データから学ぶよりも視覚的な概念をdnnに学習させる。 2. 知識蒸留はDNNが様々な視覚概念を同時に学習する傾向があることを保証する。 一方、生データから学習するシナリオでは、DNNは視覚概念を逐次学習する。 3. 知識蒸留は、生データから学ぶよりも、より安定した最適化方向をもたらす。 そこで我々は,DNNの特徴表現を評価するために,3種類の数学的指標を設計する。 実験では,様々なDNNを診断し,以上の仮説を検証した。

This paper presents a method to interpret the success of knowledge distillation by quantifying and analyzing task-relevant and task-irrelevant visual concepts that are encoded in intermediate layers of a deep neural network (DNN). More specifically, three hypotheses are proposed as follows. 1. Knowledge distillation makes the DNN learn more visual concepts than learning from raw data. 2. Knowledge distillation ensures that the DNN is prone to learning various visual concepts simultaneously. Whereas, in the scenario of learning from raw data, the DNN learns visual concepts sequentially. 3. Knowledge distillation yields more stable optimization directions than learning from raw data. Accordingly, we design three types of mathematical metrics to evaluate feature representations of the DNN. In experiments, we diagnosed various DNNs, and above hypotheses were verified.
翻訳日:2022-12-25 19:04:18 公開日:2020-03-07
# al2: 分類ニューラルネットワークにおける一般表現学習のためのプログレッシブアクティベーション損失

AL2: Progressive Activation Loss for Learning General Representations in Classification Neural Networks ( http://arxiv.org/abs/2003.03633v1 )

ライセンス: Link先を確認
Majed El Helou, Frederike D\"umbgen, Sabine S\"usstrunk(参考訳) ニューラルネットワークの容量が大きいため、複雑な機能を学ぶことができる。 しかし、過度な適合を避けるためには、ネットワークには大量のトレーニングデータが必要である。 オーバーフィッティングを減らすための一般的な実践的アプローチは、ネットワーク正規化技術の使用である。 トレーニング中のアクティベーションの規模を段階的に罰する新たな正規化手法を提案する。 与えられた層内の全てのニューロンが生成する複合活性化信号は、その特徴空間内の入力画像の表現を形成する。 我々は、この表現を分類レイヤーの前に最後の特徴層で正規化することを提案する。 本手法の一般化に対する効果をラベルランダム化試験と累積アブレーションを用いて解析する。 実験の結果,標準ベンチマークデータセットにおける一般的な正規化器と比較して,本手法の利点が示された。

The large capacity of neural networks enables them to learn complex functions. To avoid overfitting, networks however require a lot of training data that can be expensive and time-consuming to collect. A common practical approach to attenuate overfitting is the use of network regularization techniques. We propose a novel regularization method that progressively penalizes the magnitude of activations during training. The combined activation signals produced by all neurons in a given layer form the representation of the input image in that feature space. We propose to regularize this representation in the last feature layer before classification layers. Our method's effect on generalization is analyzed with label randomization tests and cumulative ablations. Experimental results show the advantages of our approach in comparison with commonly-used regularizers on standard benchmark datasets.
翻訳日:2022-12-25 19:04:06 公開日:2020-03-07
# 画像翻訳のための可搬型生成逆ネットワークの蒸留

Distilling portable Generative Adversarial Networks for Image Translation ( http://arxiv.org/abs/2003.03519v1 )

ライセンス: Link先を確認
Hanting Chen, Yunhe Wang, Han Shu, Changyuan Wen, Chunjing Xu, Boxin Shi, Chao Xu, Chang Xu(参考訳) Generative Adversarial Networks (GAN) は様々な画像と画像の変換タスクで広く使われているが、計算量やストレージコストが重いため、モバイルデバイスにはほとんど適用できない。 従来のネットワーク圧縮手法は視覚認識タスクに焦点をあてるが、生成タスクには対処しない。 知識蒸留にインスパイアされ、元の重教師生成装置から低レベル・高レベル情報を継承することにより、少ないパラメータの学生ジェネレータを訓練する。 生徒生成装置の能力を高めるために,実画像間の距離を測定する学生判別器と,生徒と教師が生成する画像を含む。 そこで, 生徒の学習過程を最適化し, 生徒の識別を最適化する。 ベンチマークデータセット実験による質的・定量的解析により,提案手法が強力な性能を持つ可搬型生成モデルを学ぶことができることを示す。

Despite Generative Adversarial Networks (GANs) have been widely used in various image-to-image translation tasks, they can be hardly applied on mobile devices due to their heavy computation and storage cost. Traditional network compression methods focus on visually recognition tasks, but never deal with generation tasks. Inspired by knowledge distillation, a student generator of fewer parameters is trained by inheriting the low-level and high-level information from the original heavy teacher generator. To promote the capability of student generator, we include a student discriminator to measure the distances between real images, and images generated by student and teacher generators. An adversarial learning process is therefore established to optimize student generator and student discriminator. Qualitative and quantitative analysis by conducting experiments on benchmark datasets demonstrate that the proposed method can learn portable generative models with strong performance.
翻訳日:2022-12-25 19:03:58 公開日:2020-03-07
# 知識グラフと知識ネットワーク - 簡潔な物語

Knowledge Graphs and Knowledge Networks: The Story in Brief ( http://arxiv.org/abs/2003.03623v1 )

ライセンス: Link先を確認
Amit Sheth, Swati Padhee, Amelie Gyrard(参考訳) 知識グラフ(KG)は、実世界のノイズの多い生情報を構造化形式で表現し、エンティティ間の関係をキャプチャする。 しかし,ソーシャルネットワーク,レコメンダシステム,計算生物学,関係知識表現といった動的現実のアプリケーションでは,時間とともに変化するノード,属性,エッジを表現する必要があるという課題が表面化している。 ここ数年のユーザクエリに対する検索エンジンの応答の進化は,Google KGのようなKGの役割が理由のひとつだ。 KGは、リンク予測、エンティティ関係予測、ノード分類、レコメンデーション、質問応答システムなど、さまざまなAIアプリケーションに大きく貢献している。 この記事では、AIのためのKGの旅を要約する。

Knowledge Graphs (KGs) represent real-world noisy raw information in a structured form, capturing relationships between entities. However, for dynamic real-world applications such as social networks, recommender systems, computational biology, relational knowledge representation has emerged as a challenging research problem where there is a need to represent the changing nodes, attributes, and edges over time. The evolution of search engine responses to user queries in the last few years is partly because of the role of KGs such as Google KG. KGs are significantly contributing to various AI applications from link prediction, entity relations prediction, node classification to recommendation and question answering systems. This article is an attempt to summarize the journey of KG for AI.
翻訳日:2022-12-25 19:03:18 公開日:2020-03-07
# pathvqa: 医学的視覚的質問応答のための30000以上の質問

PathVQA: 30000+ Questions for Medical Visual Question Answering ( http://arxiv.org/abs/2003.10286v1 )

ライセンス: Link先を確認
Xuehai He, Yichen Zhang, Luntian Mou, Eric Xing, Pengtao Xie(参考訳) アメリカ病理学会の委員会認定試験に合格する「AI病理学」を開発することは可能か? この目標を達成するために、第1のステップは、AIエージェントに質問と一緒に病理画像を提示し、正しい回答をするように求められる、視覚的質問応答(VQA)データセットを作成することである。 私たちの仕事は、このようなデータセットの構築を初めて試みます。 画像が広くアクセス可能な一般ドメインのVQAデータセットの作成や、多数のクラウドソーシングワーカーが利用でき、質問と回答のペアを生成することとは異なり、医療用VQAデータセットの開発は、はるかに難しい。 まず、プライバシー上の懸念から、病理画像は通常公開されていない。 第二に、よく訓練された病理学者だけが病理画像を理解することができるが、AI研究のためのデータセットを作成する時間はほとんどない。 これらの課題に対処するために、我々は、病理教科書やオンラインデジタルライブラリを利用する。 テキストから病理画像や字幕を抽出し,自然言語処理を用いて字幕から問合せ対を生成する半自動パイプラインを開発した。 我々は4,998の病理画像から32,799のオープンエンド質問を収集し、各質問を手動でチェックして正当性を保証する。 私たちの知る限りでは、これが病理VQAの最初のデータセットです。 我々のデータセットは、医療用VQAの研究を促進するために公開されます。

Is it possible to develop an "AI Pathologist" to pass the board-certified examination of the American Board of Pathology? To achieve this goal, the first step is to create a visual question answering (VQA) dataset where the AI agent is presented with a pathology image together with a question and is asked to give the correct answer. Our work makes the first attempt to build such a dataset. Different from creating general-domain VQA datasets where the images are widely accessible and there are many crowdsourcing workers available and capable of generating question-answer pairs, developing a medical VQA dataset is much more challenging. First, due to privacy concerns, pathology images are usually not publicly available. Second, only well-trained pathologists can understand pathology images, but they barely have time to help create datasets for AI research. To address these challenges, we resort to pathology textbooks and online digital libraries. We develop a semi-automated pipeline to extract pathology images and captions from textbooks and generate question-answer pairs from captions using natural language processing. We collect 32,799 open-ended questions from 4,998 pathology images where each question is manually checked to ensure correctness. To our best knowledge, this is the first dataset for pathology VQA. Our dataset will be released publicly to promote research in medical VQA.
翻訳日:2022-12-25 19:03:06 公開日:2020-03-07
# 事前学習型ディープニューラルネットワーク分類器による未知の対話システム検出のための後処理法

A Post-processing Method for Detecting Unknown Intent of Dialogue System via Pre-trained Deep Neural Network Classifier ( http://arxiv.org/abs/2003.03504v1 )

ライセンス: Link先を確認
Ting-En Lin, Hua Xu(参考訳) 対話システムの成熟と普及に伴い、対話システムにおけるユーザの未知の意図を検出することが重要課題となっている。 例や事前知識、未知の意図の正確な数を得ることがほとんどないので、これは最も難しいタスクの1つです。 本稿では,事前学習されたディープニューラルネットワーク分類器に基づく対話システムにおける未知の意図を検出する簡易かつ効果的な後処理手法であるsoftermax and deep novelty detection (smdn)を提案する。 本手法は,モデルアーキテクチャを変更することなく,ディープニューラルネットワークで訓練された任意の分類器上で柔軟に適用することができる。 我々は、ソフトマックス出力の信頼性を校正し、校正された信頼度スコア(SofterMax)を計算し、未知の意図検出のための決定境界を計算する。 さらに、ディープニューラルネットワークが学習した特徴表現を従来のノベルティ検出アルゴリズムにフィードし、異なる視点から未知の意図を検出する。 最後に、上記の手法を組み合わせて共同予測を行う。 本手法は既知の意図と異なる例を未知として分類し,その例や事前知識を必要としない。 我々は3つのベンチマーク対話データセットについて広範な実験を行った。 その結果,本手法は最先端のベースラインと比較して大幅に改善できることがわかった。

With the maturity and popularity of dialogue systems, detecting user's unknown intent in dialogue systems has become an important task. It is also one of the most challenging tasks since we can hardly get examples, prior knowledge or the exact numbers of unknown intents. In this paper, we propose SofterMax and deep novelty detection (SMDN), a simple yet effective post-processing method for detecting unknown intent in dialogue systems based on pre-trained deep neural network classifiers. Our method can be flexibly applied on top of any classifiers trained in deep neural networks without changing the model architecture. We calibrate the confidence of the softmax outputs to compute the calibrated confidence score (i.e., SofterMax) and use it to calculate the decision boundary for unknown intent detection. Furthermore, we feed the feature representations learned by the deep neural networks into traditional novelty detection algorithm to detect unknown intents from different perspectives. Finally, we combine the methods above to perform the joint prediction. Our method classifies examples that differ from known intents as unknown and does not require any examples or prior knowledge of it. We have conducted extensive experiments on three benchmark dialogue datasets. The results show that our method can yield significant improvements compared with the state-of-the-art baselines
翻訳日:2022-12-25 19:02:45 公開日:2020-03-07