このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201001となっている論文です。

PDF登録状況(公開日: 20201001)

TitleAuthorsAbstract論文公表日・翻訳日
# 極端Reissner-Nordstromブラックホールの量子化について

On the quantization of the extremal Reissner-Nordstrom black hole ( http://arxiv.org/abs/2003.07173v2 )

ライセンス: Link先を確認
C. Corda, F. Feleppa and F. Tamburini(参考訳) ローゼンの量子化規則に従って、著者の2人(CCとFF)は先頃、圧力のない「塵の星」の重力崩壊後に形成されたシュワルツシルトブラックホール(BH)を「重力水素原子」の観点から記述した。 ここでは、荷電物体の重力崩壊、すなわち、Reissner-Nordstrom BH (RNBH) の幾何学にこのアプローチを一般化し、重力ポテンシャル、シュリンガー方程式、重力崩壊のエネルギー準位の正確な解を計算する。 我々の1つ(CC)によって以前に導入されたBH効果状態の概念を用いて、極端RNBHの量子重力ポテンシャル、質量スペクトル、エネルギースペクトルを記述する。 質量スペクトルに由来する領域スペクトルは、ベーケンシュタインによる以前の結果と一致している。 これらの解の安定性は、アルカイック宇宙のシナリオに対するマヨラナのアプローチで説明されており、安定状態から小さな摂動の進化のための振動系や指数減衰の存在を示している。

Following Rosen's quantization rules, two of the Authors (CC and FF) recently described the Schwarzschild black hole (BH) formed after the gravitational collapse of a pressureless "star of dust" in terms of a "gravitational hydrogen atom". Here we generalize this approach to the gravitational collapse of a charged object, namely, to the geometry of a Reissner-Nordstrom BH (RNBH) and calculate the gravitational potential, the Schr\"odinger equation and the exact solutions of the energy levels of the gravitational collapse. By using the concept of BH effective state, previously introduced by one of us (CC), we describe the quantum gravitational potential, the mass spectrum and the energy spectrum for the extremal RNBH. The area spectrum derived from the mass spectrum finds agreement with a previous result by Bekenstein. The stability of these solutions, described with the Majorana approach to the Archaic Universe scenario, show the existence of oscillatory regimes or exponential damping for the evolution of a small perturbation from a stable state.
翻訳日:2023-05-29 10:49:32 公開日:2020-10-01
# 単色駆動下におけるJaynes-Cummingsモデル

Jaynes-Cummings model under monochromatic driving ( http://arxiv.org/abs/2003.09803v2 )

ライセンス: Link先を確認
Leonardo Ermann, Gabriel G. Carlo, Alexei D. Chepelianskii and Dima L. Shepelyansky(参考訳) 単色駆動下でのJaynes-Cummingsモデルの解析と数値解析を行った。 解析結果により、共振器と駆動周波数の近接共鳴の場合、多光子励起の2つの枝の規則を理解することができる。 回転波近似により、元の駆動モデルの記述を、光子と量子ビットの強い結合を持つ効果的なJaynes-Cummingsモデルに還元することができる。 解析結果は、共鳴の近傍で理論と数値の間に一定の偏差があるとしても、数値的な結果とよく一致している。 我々は、駆動型jaynes-cummingsモデルのリッチな性質は、超伝導量子ビットや他の系での実験研究の新しい領域であると主張する。

We study analytically and numerically the properties of Jaynes-Cummings model under monochromatic driving. The analytical results allow to understand the regime of two branches of multi-photon excitation in the case of close resonance between resonator and driven frequencies. The rotating wave approximation allows to reduce the description of original driven model to an effective Jaynes-Cummings model with strong coupling between photons and qubit. The analytical results are in a good agreement with the numerical ones even if there are certain deviations between the theory and numerics in the close vicinity of the resonance. We argue that the rich properties of driven Jaynes-Cummings model represent a new area for experimental investigations with superconducting qubits and other systems.
翻訳日:2023-05-28 11:49:19 公開日:2020-10-01
# 1次元ボースガス中の急速分布に及ぼす原子損失の影響

The effect of atom losses on the distribution of rapidities in the one-dimensional Bose gas ( http://arxiv.org/abs/2006.03583v3 )

ライセンス: Link先を確認
Isabelle Bouchoule, Benjamin Doyon, Jerome Dubail(参考訳) 理論上は1次元ボース気体における原子損失の影響を、リブ・リンガーガスとして知られる有名な量子可積分系である反発的接触相互作用で理論的に検討する。 K-体損失の一般的な場合(K = 1,2,3, ...)を考える。 我々は、損失率がシステムの内在的な緩和率よりもずっと小さいと仮定し、システムの状態はいつでもその速さ分布(あるいは、一般化されたギブスアンサンブルによって)によって捉えられると仮定する。 急速分布の時間発展を規定する式を与え,その解法を一般化した数値計算法を提案する。 ガスが理想的なボース気体のように振る舞うような消滅する反発と、非相互作用フェルミ気体にガスがマッピングされるハードコア反発という漸近的な方法では、分析公式を導出する。 後者の場合, 解析結果は, 損失が非自明な方法での速さ分布に影響を与え, 速さ分布の時間微分は非線形と非局所の両方の速さ空間に影響を及ぼすことを示した。

We theoretically investigate the effects of atom losses in the one-dimensional (1D) Bose gas with repulsive contact interactions, a famous quantum integrable system also known as the Lieb-Liniger gas. The generic case of K-body losses (K = 1,2,3,...) is considered. We assume that the loss rate is much smaller than the rate of intrinsic relaxation of the system, so that at any time the state of the system is captured by its rapidity distribution (or, equivalently, by a Generalized Gibbs Ensemble). We give the equation governing the time evolution of the rapidity distribution and we propose a general numerical procedure to solve it. In the asymptotic regimes of vanishing repulsion -- where the gas behaves like an ideal Bose gas -- and hard-core repulsion -- where the gas is mapped to a non-interacting Fermi gas -- we derive analytic formulas. In the latter case, our analytic result shows that losses affect the rapidity distribution in a non-trivial way, the time derivative of the rapidity distribution being both non-linear and non-local in rapidity space.
翻訳日:2023-05-17 01:59:26 公開日:2020-10-01
# 変動する量子熱

Fluctuating quantum heat ( http://arxiv.org/abs/2006.07254v3 )

ライセンス: Link先を確認
M. Hamed Mohammady(参考訳) 射影エネルギー測定を行う量子システムの平均エネルギーの増加は「量子熱」と呼ばれ、これは常にゼロである。 量子確率熱力学の枠組みにおいて、これは2点固有状態軌道に沿ったハミルトニアンの期待値の増加として定義される変動量子熱(FQH)平均として構成される。 しかし、この定義には2つの欠点がある。 (i)初期状態がハミルトニアンと可換で退化的でない場合、FQHの高次モーメントは一意に定義されず、したがってそのような量が物理的に意味を持つか否かは議論の余地がある。 (ii)初期状態の完全な知識を必要とするため、その定義は運用上要求される。 本論文では, fqh が逐次的な測定により条件付エネルギー増加の例であることを示し, まず, 初期状態の固有分解について述べる。 この初期測定を粗粒化することにより、まず状態の縮退した部分空間を区別し、最後に任意の部分空間を全く区別しないことで、fqhに対して2つの代替定義を与え、それぞれ部分粗粒fqhと完全粗粒fqhと呼ぶ。 部分粗粒fqhが課題を解決 (i)に対し、完全粗粒FQHは両方を分解する (i)および (ii)

The increase in average energy of a quantum system undergoing projective energy measurements is referred to as "quantum heat", which is always zero. In the framework of quantum stochastic thermodynamics, this is constructed as the average over the fluctuating quantum heat (FQH), defined as the increase in expected value of the Hamiltonian along two-point eigenstate trajectories. However, such a definition has two drawbacks: (i) if the initial state does not commute with the Hamiltonian and has degeneracies, the higher moments of the FQH will not be uniquely defined, and therefore it is arguable whether such a quantity is physically meaningful; (ii) the definition is operationally demanding as it requires full knowledge of the initial state. In the present manuscript we show that the FQH is an instance of conditional increase in energy given sequential measurements, the first of which is with respect to the eigen-decomposition of the initial state. By coarse-graining this initial measurement, first by only distinguishing between degenerate subspaces of the state, and finally by not distinguishing between any subspace at all, we provide two alternative definitions for the FQH, which we call the partially coarse-grained FQH and fully coarse-grained FQH, respectively. The partially coarse-grained FQH resolves issue (i), whereas the fully coarse-grained FQH resolves both (i) and (ii).
翻訳日:2023-05-15 22:24:12 公開日:2020-10-01
# 相対流を伴う超流動$^4$Heにおけるスターク効果

The Stark effect in superfluid $^4$He with relative flows ( http://arxiv.org/abs/2009.06036v2 )

ライセンス: Link先を確認
A.S. Rybalko, S.P. Rubets, E.Ya. Rudavskii, R.V. Golovashchenko, S.I. Tarapov, V.N. Derkach, V.D. Khodusov, A.S. Naumovets, A.J. Nurmagambetov(参考訳) 超流動の$^4$Heにおけるスターク型効果の観測実験を行い, 正常成分および超流動成分の相対層流の存在下で実験を行った。 液体中の流体力学的流れを同時生成し、外部の電界で高周波電波測定を行うことのできる測定セルを設計した。 広い周波数範囲をカバーできる誘電体ディスク共振器を用いた。 実験では, 誘電体円盤共振器モードのスペクトルと, 背景および異なる条件下でのHeII中のマイクロ波放射の狭い吸収線を登録した。 液体ヘリウム中において、1.4$\div$2.17Kの温度範囲における常分および超流動分画の相対運動があると、EMスペクトルにおいて吸収・放射の狭い線が観測され、その周波数180GHzはロートン最小値に相当することがわかった。 この線は一定の電界で分裂する。 弱電界において分割の値は電界強度に依存すること、すなわち線形スターク効果を検出することに注意。 その結果, 外部電界の増加に伴い, 両スプリット線はより低周波側へ変位することがわかった。 得られたデータセットは、スターク効果の線形部分、および分極部に関連する二次付加として考慮し、経験式によって記述することができる。 このデータは、双極子モーメント$\sim 10^{-4}$Dの液体ヘリウムに粒子や励起を持つことを指摘しており、極性分子の特徴的な双極子モーメントの4次よりも少ない。 また, 基礎粒子および核の電気双極子モーメント(EDM)値との比較を行った。 我々は、既知の理論モデルの拡張とEDM生産のメカニズムに関する簡単な議論をまとめる。

We conducted series of experiments on observing a Stark-type effect in superfluid $^4$He in presence of relative laminar flows of the normal and superfluid components. It is designed a measurement cell which allows us to simultaneously create hydrodynamic flows in the liquid and to carry out high-frequency radio-measurements at external electric field. We used a dielectric disk resonator that made possible to cover a wide frequency range. In our experiments it was registered the spectrum of the dielectric disk resonator modes, as well as narrow lines of absorption of a microwave radiation in He II on its background and in different conditions. We discovered that having in the liquid helium a relative motion of the normal and superfluid fractions in the temperature range of 1.4$\div$2.17 K the narrow line of absorption/radiation is observed in the EM spectrum, the frequency of which - 180 GHz - corresponds to the roton minimum. This line splits in a constant electric field. Note that in a weak electric field the value of splitting depends linearly on the electric field strength, i.e. the linear Stark effect is detected. It is found that with the external electric field increasing both split lines are displaced towards more low frequencies side. The obtained data set could be described by an empirical formula, taking into account as the linear part of the Stark effect, as well as a quadratic addition, related to the polarization part. The data point out on having particles or excitations in the liquid helium with the dipole moment $\sim 10^{-4}$ D, that in four order less of the characteristic dipole moment of polar molecules. The comparison of our findings to values of the electric dipole moment (EDM) of elementary particles and nuclei is also performed. We sum up with brief discussion of extensions of the known theoretical models and possible mechanisms of the EDM production.
翻訳日:2023-05-02 08:32:26 公開日:2020-10-01
# 超解像光ゆらぎ顕微鏡における最適相関秩序

Optimal correlation order in super-resolution optical fluctuation microscopy ( http://arxiv.org/abs/2009.10042v2 )

ライセンス: Link先を確認
S. Vlasenko, A. B. Mikhalychev, I.L. Karuseichyk, D. A. Lyakhov, D. L. Michels, D. Mogilevtsev(参考訳) 本稿では,超解像光揺らぎ顕微鏡は,一般の意見とは対照的に,測定積の順の増加とともに理想的には無限大の超解像強調を生じないことを示す。 点源位置の誤差境界を推定するための情報解析を用いて,超高分解能状態における測定累積の次数の増加に伴い,測定毎の到達精度が飽和することを示した。 実際、3つ以上の点ソースのオブジェクトに対して事実上改善がないような最適な相関順序が存在する。 しかし、2つのソースのオブジェクトに対して、累積順序で直感的に期待できる解像度は依然として増加する。

Here, we show that, contrary to the common opinion, the super-resolution optical fluctuation microscopy might not lead to ideally infinite super-resolution enhancement with increasing of the order of measured cumulants. Using information analysis for estimating error bounds on the determination of point sources positions, we show that reachable precision per measurement might be saturated with increasing of the order of the measured cumulants in the super-resolution regime. In fact, there is an optimal correlation order beyond which there is practically no improvement for objects of three and more point sources. However, for objects of just two sources, one still has an intuitively expected resolution increase with the cumulant order.
翻訳日:2023-05-01 09:13:45 公開日:2020-10-01
# サンドイッチr\'enyiダイバージェンスにおけるデータ処理不平等の等式条件の再検討

Revisiting the equality conditions of the data processing inequality for the sandwiched R\'enyi divergence ( http://arxiv.org/abs/2009.14197v2 )

ライセンス: Link先を確認
Jinzhao Wang, Henrik Wilming(参考訳) jen\v cov\'aが最近証明した$\alpha$の全範囲のpetzリカバリマップを介して、データ処理の平等が回復可能性を意味するという声明を含む、サンドウィッチ量子r\'enyi分岐のデータ処理不等式(dpi)に対する最近の結果の透明性、簡易、統一的な処理を提供する。 我々はまた、leditzkyらによる以前の結果を一般化した新しい等式条件も得る。

We provide a transparent, simple and unified treatment of recent results on the equality conditions for the data processing inequality (DPI) of the sandwiched quantum R\'enyi divergence, including the statement that equality in the data processing implies recoverability via the Petz recovery map for the full range of $\alpha$ recently proven by Jen\v cov\'a. We also obtain a new set of equality conditions, generalizing a previous result by Leditzky et al.
翻訳日:2023-04-30 16:10:14 公開日:2020-10-01
# 非標準コヒーレント状態を持つ下降ヘルストロム境界

Lowering Helstrom Bound with non-standard coherent states ( http://arxiv.org/abs/2010.00171v1 )

ライセンス: Link先を確認
Evaldo M. F. Curado, Sofiane Faci, Jean-Pierre Gazeau and Diego Noguera(参考訳) 量子情報処理において、2つの非直交状態の区別に受信装置を使用すると、量子エラーの確率が生じる。 最小誤差はヘルストローム境界 (Helstrom bound) と呼ばれる。 本研究では,非線形状態,ペロモフ状態,バルト・ギラルデロ状態,(修正)サスキンド・グロゴワーコヒーレント状態など,グラウバー・スダールシャンコヒーレント状態を一般化する状態について,量子限界を研究し,比較する。 これらのいくつかについては、ヘルストローム境界が著しく低くなり、特定のレギュレーションで消えることも示している。

In quantum information processing, {using a receiver device to differentiate between two nonorthogonal states leads to a quantum error probability. The minimum possible error is} known as the Helstrom bound. In this work we study and compare quantum limits for states which generalize the Glauber-Sudarshan coherent states, like non-linear, Perelomov, Barut-Girardello, and (modified) Susskind-Glogower coherent states. For some of these, we show that the Helstrom bound can be significantly lowered and even vanish in specific regimes.
翻訳日:2023-04-30 12:14:20 公開日:2020-10-01
# axion暗黒物質実験:詳細な設計と運用

Axion Dark Matter eXperiment: Detailed Design and Operations ( http://arxiv.org/abs/2010.00169v1 )

ライセンス: Link先を確認
R. Khatiwada, D. Bowring, A. S. Chou, A. Sonnenschein, W. Wester, D. V. Mitchell, T. Braine, C. Bartram, R. Cervantes, N. Crisosto, N. Du, S. Kimes, L. J Rosenberg, G. Rybka, J. Yang, D. Will, G. Carosi, N. Woollett, S. Durham, L. D. Duffy, R. Bradley, C. Boutan, M. Jones, B. H. LaRoque, N. S. Oblath, M. S. Taubman, J. Tedeschi, John Clarke, A. Dove, A. Eddins, A. Hashim, S. R. O'Kelley, S. Nawaz, I. Siddiqi, N. Stevenson, A. Agrawal, A. V. Dixit, J. R. Gleason, S. Jois, P. Sikivie, N. S. Sullivan, D. B. Tanner, J. A. Solomon, E. Lentz, E. J. Daw, M. G. Perry, J. H. Buckley, P. M. Harrington, E. A. Henriksen, K. W. Murch, G. C. Hilton(参考訳) アクシオンダークマター eXperiment (ADMX) 超低ノイズハロスコープ技術は、Dine-Fischler-Srednicki-Zhitnisky (DFSZ) 感度Refで2.66ドルから3.1ドル$$\mu$eVの質量範囲でダークマター軸を求める2つのサイエンスラン(1Aと1B)の完成を可能にした。 [1,2]. したがって、この質量範囲ではこれまでで最も感度の高い軸索探索実験である。 現状の量子制限増幅器や希釈冷凍機といったコンポーネントの実装を含む,この感度を実現するためのここ数年の技術的進歩について論じる。 さらに、周波数可変マイクロストリップ超電導量子干渉素子(SQUID)増幅器(MSA)をRun 1Aで、JPA(Josephson Parametric Amplifier)増幅器(JPA)をRun 1Bで、また、システムノイズ温度を特徴付ける新しい分析ツールを用いて実演する。

Axion Dark Matter eXperiment (ADMX) ultra low noise haloscope technology has enabled the successful completion of two science runs (1A and 1B) that looked for dark matter axions in the $2.66$ to $3.1$ $\mu$eV mass range with Dine-Fischler-Srednicki-Zhitnisky (DFSZ) sensitivity Ref. [1,2]. Therefore, it is the most sensitive axion search experiment to date in this mass range. We discuss the technological advances made in the last several years to achieve this sensitivity, which includes the implementation of components, such as state-of-the-art quantum limited amplifiers and a dilution refrigerator. Furthermore, we demonstrate the use of a frequency tunable Microstrip Superconducting Quantum Interference Device (SQUID) Amplifier (MSA), in Run 1A, and a Josephson Parametric Amplifier (JPA), in Run 1B, along with novel analysis tools that characterize the system noise temperature.
翻訳日:2023-04-30 12:14:01 公開日:2020-10-01
# 解析可解2バンドモデルにおける$p$-wave超伝導のトポロジーのチューニング

Tuning the topology of $p$-wave superconductivity in an analytically solvable two-band model ( http://arxiv.org/abs/2010.00164v1 )

ライセンス: Link先を確認
Haiping Hu, Erhai Zhao and Indubala I. Satija(参考訳) 正方格子上に$p_x$波対を持つスピンレスフェルミオンの2バンドモデルを導入して解く。 このモデルは有名な拡張ハーパー・ホフシュタットラーモデルに還元され、プラーゼットあたりの半束量子数と弱結合のキタエフ鎖をそれぞれ2つの制限で満たしている。 位相図は位相的に非自明な弱ペアリング位相と、ペアリング振幅とホッピングの比が調整された自明な強ペアリング位相を含むことを示す。 モデルに周期駆動を導入し、よく定義された準エネルギーギャップを持つフロケ相のカスケードを観察し、0または$\pi$-gapまたは両方にカイラルマヨラナエッジモードを特徴付ける。 動的位相不変量は各位相を特徴づけ、全ての準エネルギーバンドがチャーン数ゼロの異常位相におけるエッジモードの出現を説明するために得られる。 解析解は、モデルの一般化されたミラー対称性を利用して実現され、有効なハミルトニアンは磁場中のスピン-$1/2$に分解され、ループユニタリ作用素はスピン回転になる。 さらに、ホップリンク数として表される動的不変量を示す。

We introduce and solve a two-band model of spinless fermions with $p_x$-wave pairing on a square lattice. The model reduces to the well-known extended Harper-Hofstadter model with half-flux quanta per plaquette and weakly coupled Kitaev chains in two respective limits. We show that its phase diagram contains a topologically nontrivial weak pairing phase as well as a trivial strong pairing phase as the ratio of the pairing amplitude and hopping is tuned. Introducing periodic driving to the model, we observe a cascade of Floquet phases with well defined quasienergy gaps and featuring chiral Majorana edge modes at the zero- or $\pi$-gap, or both. Dynamical topological invariants are obtained to characterize each phase and to explain the emergence of edge modes in the anomalous phase where all the quasienergy bands have zero Chern number. Analytical solution is achieved by exploiting a generalized mirror symmetry of the model, so that the effective Hamiltonian is decomposed into that of spin-$1/2$ in magnetic field, and the loop unitary operator becomes spin rotations. We further show the dynamical invariants manifest as the Hopf linking numbers.
翻訳日:2023-04-30 12:13:39 公開日:2020-10-01
# 古典化ホログラフィックテンソルネットワークにおける二成分スピンのランダムウォーク

Random Walk of Bipartite Spins in a Classicalized Holographic Tensor Network ( http://arxiv.org/abs/2010.00344v1 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 強結合2次元共形場理論の基底状態の古典化ホログラフィックテンソルネットワークにおけるスピンゼロ二部スピンのランダムウォーキングを考える。 バイパルタイトスピン分布はこのネットワークで計量を誘導する。 ランダムウォークの定常状態において、誘導計量は2次元反ド・ジッター(AdS$_2$)空間計量を与える。 我々はこの分布をAdS$_2$空間計量の顕微鏡統計モデルと考える。

We consider the random walk of spin-zero bipartite spins in the classicalized holographic tensor network of the ground state of a strongly coupled two-dimensional conformal field theory. The bipartite-spin distribution induces a metric in this network. In the steady state of the random walk, the induced metric gives the two-dimensional anti-de Sitter (AdS$_2$) space metric. We consider this distribution as a microscopic statistical model of the AdS$_2$ space metric.
翻訳日:2023-04-30 12:08:42 公開日:2020-10-01
# 構造媒体中のX線と核の共鳴相互作用に対するグリーン関数形式

Green function formalism for resonant interaction of x-rays with nuclei in structured media ( http://arxiv.org/abs/2010.00249v1 )

ライセンス: Link先を確認
Xiangjin Kong, Darrick E. Chang, Adriana P\'alffy(参考訳) X線光子と核の間の共鳴相互作用は、X線量子光学の急成長する分野の最もエキサイティングな主題の1つである。 これまでに使われている豊富なプラットフォームは、埋め込み層を持つ薄膜のX線キャビティや、$^{57}\mathrm{Fe}$のようなM\"オスバウアー核である。 古典的電磁グリーン関数に基づく新しい量子光学モデルを開発し、x線キャビティ内の原子核反応を理論的に研究した。 モデルは汎用的であり、空洞構造が結果のスペクトルに与える影響についての直感的な画像を提供する。 我々は,半古典的コヒーレント散乱形式シミュレーションの助けを借りて,その予測力をテストするとともに,層構造の複雑さを増大させる結果について考察する。

The resonant interaction between x-ray photons and nuclei is one of the most exciting subjects of the burgeoning field of x-ray quantum optics. A resourceful platform used so far are thin-film x-ray cavities with embedded layers or M\"ossbauer nuclei such as $^{57}\mathrm{Fe}$. A new quantum optical model based on the classical electromagnetic Green's function is developed to investigate theoretically the nuclear response inside the x-ray cavity. The model is versatile and provides an intuitive picture about the influence of the cavity structure on the resulting spectra. We test its predictive powers with the help of the semiclassical coherent scattering formalism simulations and discuss our results for increasing complexity of layer structures.
翻訳日:2023-04-30 12:07:14 公開日:2020-10-01
# 光子スピンのスピン波方程式、相対論的条件、非局在性

Spinor wave equation, relativistic condition, and nonlocality of photon spin ( http://arxiv.org/abs/2010.00241v1 )

ライセンス: Link先を確認
Chun-Fang Li(参考訳) 本論文の目的は、光子スピンを導出し、その性質を光子に対する一対の量子方程式から導出することである。 この目的のために、ダーウィンの方程式は光子の量子力学の必要性を満たすように再解釈される。 フォトン波動関数はローレンツ変換の下でスピノルとして変換される。 光子の相対論的性質は、波動関数上の拘束方程式によって表現され、この波動方程式は、制約方程式が考慮されない限り、シュル\"{o}dinger方程式の形式を取るが、ローレンツ共変ではない。 波動方程式はスピンの一種、本質的に自由度の存在を予測する。 しかし、制約方程式は位置空間におけるスピンに対して一意な局所密度は存在しないという意味でスピン非局所的である。 フォトンスピンの非局所性は、フォトン自体の非局所性の反射である。

The purpose of this paper is to derive the photon spin and to deduce its properties from a pair of quantum equations for the photon. To this end, Darwin's equations are reinterpreted so as to meet the need of the quantum mechanics of the photon. It is found that the photon wavefunction transforms under Lorentz transformation as a spinor. The relativistic nature of the photon is expressed through a constraint equation on the wavefunction in such a way that the wave equation, which takes on the form of the Schr\"{o}dinger equation, is not Lorentz covariant unless the constraint equation is taken into account. The wave equation predicts the existence of a kind of spin, an intrinsic degree of freedom. But the constraint equation makes the spin nonlocal in the sense that no unique local density exists for the spin in position space. The nonlocality of the photon spin is a reflection of the nonlocality of the photon itself.
翻訳日:2023-04-30 12:07:00 公開日:2020-10-01
# 磁気トポロジカル絶縁体の量子輸送におけるスピン揺らぎ

Spin fluctuations in quantized transport of magnetic topological insulators ( http://arxiv.org/abs/2010.00570v1 )

ライセンス: Link先を確認
Yu-Hang Li and Ran Cheng(参考訳) 磁気トポロジカル絶縁体では、量子化された電子輸送は交換相互作用を通じてバンドギャップを制御するため、自発的な磁気秩序と相互作用する。 平均場レベルでの交換ギャップを考慮すると、異なるトポロジーの電子状態間の相転移を予測できないことを示す。 磁化を阻害する熱スピン揺らぎは、電子を強く散乱する凍結障害として作用し、構造的不純物がなくても量子化輸送の開始温度を低下させる。 この効果は見過ごされているが、本質的な磁気トポロジー絶縁体に関する最近の実験の代替的な説明を提供する。

In magnetic topological insulators, quantized electronic transport is interwined with spontaneous magnetic ordering, as magnetization controls band gaps, hence band topology, through the exchange interaction. We show that considering the exchange gaps at the mean-field level is inadequate to predict phase transitions between electronic states of distinct topology. Thermal spin fluctuations disturbing the magnetization can act as frozen disorders that strongly scatter electrons, reducing the onset temperature of quantized transport appreciably even in the absence of structural impurities. This effect, which has hitherto been overlooked, provides an alternative explanation of recent experiments on intrinsic magnetic topological insulators.
翻訳日:2023-04-30 11:59:08 公開日:2020-10-01
# フェイクメディアを消費する指標の設計

Designing Indicators to Combat Fake Media ( http://arxiv.org/abs/2010.00544v1 )

ライセンス: Link先を確認
Imani N. Sherman, Elissa M. Redmiles, Jack W. Stokes(参考訳) 偽情報技術の成長は、フェイクビデオを識別する必要がある。 偽ビデオの消費を防ぐためのアプローチの1つは、ユーザーが元のソースにメディアコンテンツを認証できる証明である。 本研究は、ユーザーが偽ビデオを特定するのに役立つ証明指標を設計し、研究する。 まず,さまざまな誤情報モード(テキスト,画像,ビデオ)を用いたユーザ体験についてインタビューを行い,既存の視点におけるインジケータの設計を指導する。 次に,偽のビデオインジケータの開発と設計のために参加型デザイン研究を行う。 最後に,多数のエンドユーザーを対象に,専門家評価と定量的調査による参加者設計指標の評価を行った。 本結果は,フェイクビデオの新たな問題に対する具体的な設計ガイドラインを提供する。 また,誤情報警告メッセージから過度に一般化する傾向が懸念され,現在進行中の誤情報対策における警告設計のさらなる研究の必要性が示唆された。

The growth of misinformation technology necessitates the need to identify fake videos. One approach to preventing the consumption of these fake videos is provenance which allows the user to authenticate media content to its original source. This research designs and investigates the use of provenance indicators to help users identify fake videos. We first interview users regarding their experiences with different misinformation modes (text, image, video) to guide the design of indicators within users' existing perspectives. Then, we conduct a participatory design study to develop and design fake video indicators. Finally, we evaluate participant-designed indicators via both expert evaluations and quantitative surveys with a large group of end-users. Our results provide concrete design guidelines for the emerging issue of fake videos. Our findings also raise concerns regarding users' tendency to overgeneralize from misinformation warning messages, suggesting the need for further research on warning design in the ongoing fight against misinformation.
翻訳日:2023-04-30 11:58:55 公開日:2020-10-01
# 人工創造: 説明、所有権、時間特有の独占

Artificial Creations: Ascription, Ownership, Time-Specific Monopolies ( http://arxiv.org/abs/2010.00543v1 )

ライセンス: Link先を確認
Raj Shekhar (Institute of Public Policy, National Law School of India University, Bengaluru)(参考訳) 創造性は常に人間と同義である。 人間ができる限り創造性を誇る生物は他にない。 最も賢いコンピュータでさえ、コーダーの巧妙な想像力でしか成長しなかった。 しかし、それは高度に高度に進化した人工知能システムによって着実に変化しており、人間によって創造された場合、通常、知的財産権にふさわしい創造的製品を生み出すという驚くべき能力を示す。 これらのシステムは、人工創造者とその創造的製品人工創造と呼ぶことができる。 人工的なクリエーターの使用は、私たちが気付くよりも早く、創造的およびイノベーション産業における主流のプロダクションプラクティスの一部になる可能性が高い。 その際、知的財産制度(本質的に人間の創造性に報いるように設計されている)は、人工的な創造性と呼ばれる現象に適切に対応するために十分な準備が必要である。 言うまでもなく、そのような対応は公共福祉の配慮によって導き出さなければならない。 本研究は,知的財産の決定要因を再考し,その性質と態様を明らかにすることによって,その反応がどのように見えるべきかを分析する。 この知的財産の理解は、人工創造物における知的財産の決定要因を調べて、人工創造物に対する知的財産報酬の本質的な正当性を決定することにより、人工創造物に知的財産の地位を与えるための一般的なモダリティを開発する。 最後に、現在の知的財産制度による人工物(著作権のある人工物)及び人工物(特許可能な人工物)の処理を批判し、人工物及び人工物に知的財産の地位を与えるための特定のモダリティを開発する。

Creativity has always been synonymous with humans. No other living species could boast of creativity as humans could. Even the smartest computers thrived only on the ingenious imaginations of its coders. However, that is steadily changing with highly advanced artificially intelligent systems that demonstrate incredible capabilities to autonomously (i.e., with minimal or no human input) produce creative products that would ordinarily deserve intellectual property status if created by a human. These systems could be called artificial creators and their creative products artificial creations. The use of artificial creators is likely to become a part of mainstream production practices in the creative and innovation industries sooner than we realize. When they do, intellectual property regimes (that are inherently designed to reward human creativity) must be sufficiently prepared to aptly respond to the phenomenon of what could be called artificial creativity. Needless to say, any such response must be guided by considerations of public welfare. This study analyzes what that response ought to look like by revisiting the determinants of intellectual property and critiquing its nature and modes. This understanding of intellectual property is then applied to investigate the determinants of intellectual property in artificial creations so as to determine the intrinsic justifications for intellectual property rewards for artificial creativity, and accordingly, develop general modalities for granting intellectual property status to artificial creations. Finally, the treatment of artificial works (i.e., copyrightable artificial creations) and artificial inventions (i.e., patentable artificial creations) by current intellectual property regimes is critiqued, and specific modalities for granting intellectual property status to artificial works and artificial inventions are developed.
翻訳日:2023-04-30 11:58:41 公開日:2020-10-01
# PhaseLiftによる線形光ネットワークの高速特性化

Rapid characterisation of linear-optical networks via PhaseLift ( http://arxiv.org/abs/2010.00517v1 )

ライセンス: Link先を確認
Daniel Suess, Nicola Maraviglia, Richard Kueng, Alexandre Ma\"inos, Chris Sparrow, Toshikazu Hashimoto, Nobuyuki Matsuda, David Gross, Anthony Laing(参考訳) 線形光学回路は、光を用いた古典的および量子的な情報処理のための基本構成要素である。 特に、そのモノリシックな構造のため、集積フォトニクスは位相安定性が高く、半導体産業が提供する大規模な製造性に依存することができる。 このような光回路に基づく新しいデバイスは、機械学習アプリケーションにおいて高速でエネルギー効率のよい計算を約束し、また古典的コンピュータでは難解な量子アルゴリズムの実装さえも約束している。 しかし、この技術革新は、数千の光学モードからなるデバイスに対して、正確でスケーラブルな認証プロトコルを必要とする。 本稿では,近年の低ランク行列の復元と位相リフトアルゴリズムとして知られる凸最適化問題に基づく線形光ネットワークの転送行列を再構成する新しい手法を提案する。 いずれにせよ、我々のキャラクタリゼーションプロトコルは、コヒーレントな古典光源とフォトダイオードで実現できる。 本手法は雑音に対して頑健であり,モード数で効率的にスケールできることを実証する。 量子情報処理用に設計されたプログラマブル統合干渉計を用いて,提案手法を実験的に検証した。 2光子量子干渉に基づくより要求度の高い再構成方式により得られたトランスファーマトリクス再構成を本手法と比較した。 5次元ランダムユニタリの場合、2つの再構成から得られる行列の平均回路忠実度は0.993である。

Linear-optical circuits are elementary building blocks for classical and quantum information processing with light. In particular, due to its monolithic structure, integrated photonics offers great phase-stability and can rely on the large scale manufacturability provided by the semiconductor industry. New devices, based on such optical circuits, hold the promise of faster and energy-efficient computations in machine learning applications and even implementing quantum algorithms intractable for classical computers. However, this technological revolution requires accurate and scalable certification protocols for devices that can be comprised of thousands of optical modes. Here, we present a novel technique to reconstruct the transfer matrix of linear optical networks that is based on the recent advances in low-rank matrix recovery and convex optimisation problems known as PhaseLift algorithms. Conveniently, our characterisation protocol can be performed with a coherent classical light source and photodiodes. We prove that this method is robust to noise and scales efficiently with the number of modes. We experimentally tested the proposed characterisation protocol on a programmable integrated interferometer designed for quantum information processing. We compared the transfer matrix reconstruction obtained with our method against the one provided by a more demanding reconstruction scheme based on two-photon quantum interference. For 5-dimensional random unitaries, the average circuit fidelity between the matrices obtained from the two reconstructions is 0.993.
翻訳日:2023-04-30 11:57:56 公開日:2020-10-01
# 四元イオングース-ヘンチェンシフト

The quaternionic Goos-Haenchen shift ( http://arxiv.org/abs/2010.00460v1 )

ライセンス: Link先を確認
Stefano De Leo, Gisele C. Ducati(参考訳) 準イオンポテンシャルによって部分的に完全に反射された場合, 電子波の側方変位について検討する。 量子力学と光学の類似に続いて、複素数と純四元数の場合の屈折率を導入する。 臨界点(トータル反射)よりも大きい入射の場合、四元イオン電位は複雑な場合の側方変位を増幅する。 臨界角以下の入射の場合、四元数の場合、追加のシフトがある。 四価イオンの側方変位に見いだされた解析公式は、複素数と四価イオンのグース-ヘンチェンシフトの間の定量的および定性的な差異を観察する可能性を与える。

We investigate the lateral displacement of electronic waves when partially and totally reflected by a quaternionic potential. Following the analogy between Quantum Mechanics and Optics we introduce a refractive index for the complex and the pure quaternionic case. For incidence greater than the critical one (total reflection) the quaternionic potentials amplify the lateral displacement found in the complex case. For incidence below the critical angle, we find, in the quaternionic case, an additional shift. The analytical formula found for the quaternionic lateral displacement gives the possibility to observe quantitative and qualitative differences between the complex and quaternionic Goos-Haenchen shift.
翻訳日:2023-04-30 11:57:40 公開日:2020-10-01
# 有限な正方形井戸で実現される量子堀障壁

A quantum moat barrier, realized with a finite square well ( http://arxiv.org/abs/2010.00420v1 )

ライセンス: Link先を確認
A. Ibrahim and F. Marsiglio(参考訳) 二重井戸ポテンシャルの概念は通常、反発ポテンシャル障壁によって分離された空間の2つの領域を含む。 溶液は、バリア領域で抑制され、2つの周辺領域に局在する波動関数である。 驚くべきことに、同様の解は反発的なもの(「量子壁」)の代わりに魅力的な「バリア」ポテンシャル(「量子堀」)を使って達成できる。 この研究が「直交平面波」の概念と擬ポテンシャル法と密接に結びついている理由は、どちらももともと固体の電子バンド構造を理解するために用いられたものである。 この研究の主な目的は、単純なモデルを用いて量子堀のバリアライクな特性を実証することであるが、擬ポテンシャル法は、行列対角化を用いたこのシステムの波動関数構築の効率を大幅に向上させるものであることも示している。

The notion of a double well potential typically involves two regions of space separated by a repulsive potential barrier. The solution is a wave function that is suppressed in the barrier region and localized in the two surrounding regions. Remarkably, we illustrate that similar solutions can be achieved using an attractive "barrier" potential (a "quantum moat") instead of a repulsive one (a "quantum wall"). The reason this works is intimately connected to the concepts of "orthogonalized plane waves" and the pseudopotential method, both originally used to understand electronic band structures in solids. While the main goal of this work is to use a simple model to demonstrate the barrier-like attribute of a quantum moat, we also show how the pseudopotential method is used to greatly improve the efficiency of constructing wave functions for this system using matrix diagonalization.
翻訳日:2023-04-30 11:57:29 公開日:2020-10-01
# ohberg と wright による "lack of a real time crystal in a chiral soliton model" に対するコメントに対する回答

Response to comment on "Lack of a genuine time crystal in a chiral soliton model" by \"Ohberg and Wright ( http://arxiv.org/abs/2010.00414v1 )

ライセンス: Link先を確認
Andrzej Syrwid, Arkadiusz Kosior, and Krzysztof Sacha(参考訳) 論文 (Phys. Rev. Research 2, 032038) では、キラルソリトンモデルを分析し、"Ohberg and Wright" (Phys. Rev. Rev. 124, 178902] の主張にも拘わらず、システム内で真の量子時間結晶を観測できるという兆候はないことを示した。 ここでは, \"ohberg と wright による論文に対する最近のコメントに回答する。

In the paper [Phys. Rev. Research 2, 032038] we have analyzed a chiral soliton model and shown that despite the claim of \"Ohberg and Wright [Phys. Rev. Lett. 124, 178902], there is no indication that a genuine quantum time crystal can be observed in the system. Here, we response to the recent comment on our paper written by \"Ohberg and Wright.
翻訳日:2023-04-30 11:57:14 公開日:2020-10-01
# 電荷-電流相互作用における量子絡み合いと熱的挙動

Quantum Entanglement and Thermal Behavior in Charged-Current Weak Interactions ( http://arxiv.org/abs/2010.00709v1 )

ライセンス: Link先を確認
G. Iskander, J. Pan, M. Tyler, C. Weber, O.K. Baker(参考訳) 反ニュートリノ-核子散乱における核子の因果分離領域間の量子絡み合いは、結果として生じるイオン運動量分布の温度成分として現れることを示す。 アンティニュートリノが(炭素)核全体からコヒーレントに散乱する場合、この熱成分は量子エンタングルメント熱化命題によって予想されたように欠如している。 これらの現象は、大型ハドロン衝突型加速器での陽子-陽子衝突や電磁深部非弾性散乱で観測され、現在では初めて、電弱相互作用においても見られる。

We show that quantum entanglement between causally separated regions of a nucleon in antineutrino-nucleon scattering manifests itself as a thermal component in the resulting pion momentum distribution. For antineutrino scattering coherently from the (carbon) nucleus as a whole, this thermal component is absent, as expected by our quantum entanglement thermalization proposition. These phenomena, which have been observed in proton-proton collisions at the Large Hadron Collider, and in electromagnetic deep inelastic scattering, are now for the first time shown to exist in electroweak interactions as well.
翻訳日:2023-04-30 11:50:48 公開日:2020-10-01
# 無線ネットワークシステムにおけるハイブリッド古典量子計算構造に向けて

Towards Hybrid Classical-Quantum Computation Structures in Wirelessly-Networked Systems ( http://arxiv.org/abs/2010.00682v1 )

ライセンス: Link先を確認
Minsung Kim, Davide Venturelli, Kyle Jamieson(参考訳) 現在の無線ネットワークにおける前例のないトラフィック負荷の増加に伴い、設計上の課題は、無線ネットワーク自体から、無線ネットワークの背後にある計算サポートへとシフトする。 この分野では、処理を大幅に高速化し、ネットワークスループットを向上させる可能性から、量子計算アプローチへの新たな関心が高まっている。 しかし、今日存在する量子ハードウェアは、デコヒーレンスとノイズという物理的現象のため、シリコンベースのハードウェアよりも計算エラーに影響を受けやすい。 本稿では,無線システムにおける最適化問題に対する古典量子ハイブリッド処理と,両手法の利点を両手法で同時に活用する方法を考察する。 我々は,今日の最も先進的な実験手法であるリバース量子アニーリングを用いて,実ハードウェアプロトタイプを用いたハイブリッドシステムの実現可能性を検討する。 5gの新しいラジオロードマップに想定された低遅延で大規模mimoシステムの予備的な結果は、前回公表された結果よりも処理時間に関して約2~10倍優れたパフォーマンスを示している。

With unprecedented increases in traffic load in today's wireless networks, design challenges shift from the wireless network itself to the computational support behind the wireless network. In this vein, there is new interest in quantum-compute approaches because of their potential to substantially speed up processing, and so improve network throughput. However, quantum hardware that actually exists today is much more susceptible to computational errors than silicon-based hardware, due to the physical phenomena of decoherence and noise. This paper explores the boundary between the two types of computation---classical-quantum hybrid processing for optimization problems in wireless systems---envisioning how wireless can simultaneously leverage the benefit of both approaches. We explore the feasibility of a hybrid system with a real hardware prototype using one of the most advanced experimentally available techniques today, reverse quantum annealing. Preliminary results on a low-latency, large MIMO system envisioned in the 5G New Radio roadmap are encouraging, showing approximately 2--10X better performance in terms of processing time than prior published results.
翻訳日:2023-04-30 11:50:38 公開日:2020-10-01
# 量子探索アルゴリズムの大型ハドロン衝突型加速器における高エネルギー物理データへの応用

Application of a Quantum Search Algorithm to High- Energy Physics Data at the Large Hadron Collider ( http://arxiv.org/abs/2010.00649v1 )

ライセンス: Link先を確認
Anthony E. Armenakas, Oliver K. Baker(参考訳) 本稿では,CERNのLarge Hadron Colliderを用いて,13TeV衝突エネルギーにおける陽子-陽子衝突の稀な事象を探索するために,科学量子アルゴリズムGrover Algorithm (GA)を適用した新しい手法を提案する。 この検索は、ATLAS Open Dataの形でATLAS検出器からソートされていないデータベースである。 ヒッグス粒子崩壊チャネル$H\rightarrow ZZ^*\rightarrow 4l$で示されるように、ある事象における4つのレプトンの検出はヒッグス粒子の再構成に使用され、さらに重要なのは、ヒッグス粒子が$H\rightarrow ZZ_d \rightarrow 4l$のような新しい現象に崩壊することである。 衝突のデータセットを探索すると、4つのレプトンが検出され、高エネルギー粒子物理学に量子コンピューティングを適用する効果と可能性を示す。 Jupyter Notebook, GAの古典的シミュレーション, および複数の量子コンピュータを用いて, それぞれ数量子ビットを用いて, この応用が非ソートデータセットの適切な選択を行うことを示した。 いくつかの古典的シミュレータやIBMの量子コンピュータ上でIBM Qiskit Open Source Softwareを使った実装は、高エネルギー物理学における量子コンピューティングの可能性を示している。

We demonstrate a novel method for applying a scientific quantum algorithm - the Grover Algorithm (GA) - to search for rare events in proton-proton collisions at 13 TeV collision energy using CERN's Large Hadron Collider. The search is of an unsorted database from the ATLAS detector in the form of ATLAS Open Data. As indicated by the Higgs boson decay channel $H\rightarrow ZZ^*\rightarrow 4l$, the detection of four leptons in one event may be used to reconstruct the Higgs boson and, more importantly, evince Higgs boson decay to some new phenomena, such as $H\rightarrow ZZ_d \rightarrow 4l$. In searching the dataset for collisions resulting in the detection of four leptons, the study demonstrates the effectiveness and potential of applying quantum computing to high-energy particle physics. Using a Jupyter Notebook, a classical simulation of GA, and multiple quantum computers, each with several qubits, it is demonstrated that this application makes the proper selection in the unsorted dataset. The implementation of the method on several classical simulators and on several of IBM's quantum computers using the IBM Qiskit Open Source Software exhibits the promising prospects of quantum computing in high-energy physics.
翻訳日:2023-04-30 11:50:19 公開日:2020-10-01
# テレグラムソーシャルネットワークにおけるパーソナリティ特性の分析に基づく推薦システム

A Recommender System based on the analysis of personality traits in Telegram social network ( http://arxiv.org/abs/2010.00643v1 )

ライセンス: Link先を確認
Mohammad Javad Shayegan, Mohadese Valizadeh(参考訳) 人の性格的特徴にアクセスすることは、常に難しい作業でした。 一方,行動データに基づくパーソナリティ特性の獲得は,人間の興味の高まりの1つである。 多くの研究により、人々はソーシャルネットワークに多くの時間を費やし、サイバー空間におけるパーソナリティパターンを生み出す行動を示した。 イランを含むいくつかの国で広く受け入れられているこれらのソーシャルネットワークの1つはtelegramである。 本研究の基盤は,テレグラム上での行動に基づいて,ユーザの個性を自動的に識別することである。 このため、Telegramグループ利用者からのメッセージが抽出され、NEOパーソナリティ・インベントリに従って各メンバーの性格特性が識別される。 パーソナリティ分析には,コサイン類似性,ベイズアルゴリズム,mlpアルゴリズムの3つのアプローチを用いた。 最後に,コサイン類似度アルゴリズムを用いて,抽出された人格に応じて,関連するテレグラムチャネルを探索し,推薦するレコメンダシステムを提案する。 その結果,提案する性格分析に基づく推薦システムに対する満足度は65.42%であった。

Accessing people's personality traits has always been a challenging task. On the other hand, acquiring personality traits based on behavioral data is one of the growing interest of human beings. Numerous researches showed that people spend a large amount of time on social networks and show behaviors that create some personality patterns in cyberspace. One of these social networks that have been widely welcomed in some countries, including Iran, is Telegram. The basis of this research is automatically identifying users' personalities based on their behavior on Telegram. For this purpose, messages from Telegram group users are extracted, and then the personality traits of each member according to the NEO Personality Inventory are identified. For personality analysis, the study is employed three approaches, including; Cosine Similarity, Bayes, and MLP algorithms. Finally, this study provides a recommender system that uses the Cosine similarity algorithm to explore and recommend relevant Telegram channels to members according to the extracted personalities. The results show a 65.42% satisfaction rate for the recommender system based on the proposed personality analysis.
翻訳日:2023-04-30 11:49:40 公開日:2020-10-01
# 適応プルーニングに基づくパラメータ化量子回路の最適化

Adaptive pruning-based optimization of parameterized quantum circuits ( http://arxiv.org/abs/2010.00629v1 )

ライセンス: Link先を確認
Sukin Sim, Jonathan Romero, Jerome F. Gonthier, Alexander A. Kunitsa(参考訳) 変分型ハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。 過去の研究は強力で表現力に富んだアンサットを開発したが、その短期的応用は広大なパラメータ空間における最適化の困難さによって制限されている。 本研究では,変分量子アルゴリズムで使用されるようなアンサーゼのヒューリスティックな最適化手法を提案し,これをPECT(Parameter-Efficient Circuit Training)と呼ぶ。 アンサッツパラメータを一度に最適化する代わりに、PECTは変分アルゴリズムのシーケンスを起動し、アルゴリズムの各イテレーションが全パラメータセットのサブセットを活性化し、最適化する。 繰り返し間のパラメータサブセットを更新するために、Mostafaらによる動的スパースパラメータ化方式を適用する(arXiv:1902.05967)。 我々は, uccsd と k-upccgsd を含むユニタリ結合クラスター ansatze と低深さ回路 ansatz (ldca) をベンチマークし,分子系の基底状態エネルギーを推定する変分量子固有解法についてpectを実証する。 さらに,Sycamoreプロセッサのハードウェア効率のよい回路を最適化するために,PECTの層幅変異を用いて,1次元Fermi-Hubbardモデルの基底状態エネルギー密度を推定する。 数値データからpectは,従来収束が困難であったansatzeの最適化が可能であり,より一般的には最適化ランタイムや解候補をエンコードする回路の深さを小さくすることで変分アルゴリズムの性能を向上させることができることがわかった。

Variational hybrid quantum-classical algorithms are powerful tools to maximize the use of Noisy Intermediate Scale Quantum devices. While past studies have developed powerful and expressive ansatze, their near-term applications have been limited by the difficulty of optimizing in the vast parameter space. In this work, we propose a heuristic optimization strategy for such ansatze used in variational quantum algorithms, which we call "Parameter-Efficient Circuit Training" (PECT). Instead of optimizing all of the ansatz parameters at once, PECT launches a sequence of variational algorithms, in which each iteration of the algorithm activates and optimizes a subset of the total parameter set. To update the parameter subset between iterations, we adapt the dynamic sparse reparameterization scheme by Mostafa et al. (arXiv:1902.05967). We demonstrate PECT for the Variational Quantum Eigensolver, in which we benchmark unitary coupled-cluster ansatze including UCCSD and k-UpCCGSD, as well as the low-depth circuit ansatz (LDCA), to estimate ground state energies of molecular systems. We additionally use a layerwise variant of PECT to optimize a hardware-efficient circuit for the Sycamore processor to estimate the ground state energy densities of the one-dimensional Fermi-Hubbard model. From our numerical data, we find that PECT can enable optimizations of certain ansatze that were previously difficult to converge and more generally can improve the performance of variational algorithms by reducing the optimization runtime and/or the depth of circuits that encode the solution candidate(s).
翻訳日:2023-04-30 11:48:38 公開日:2020-10-01
# バイオサイバーセキュリティ - 戦争補助としての収束脅威

Biocybersecurity -- A Converging Threat as an Auxiliary to War ( http://arxiv.org/abs/2010.00624v1 )

ライセンス: Link先を確認
Lucas Potter, Orlando Ayala, and Xavier-Lewis Palmer(参考訳) 生物防御とは、生物の特定の群れに対して生物の安全を確保し、その拡散を制限する分野である。 この分野は、SARS、Anthrax、同様の病原体など、武器化された自然からの新たな脅威によってますます挑戦されているが、国民と世界保健団体の協力によって勝利を収めている。 しかし、サイバー脅威が国際紛争における戦場の水準に頼っているため、政府が既に小規模から州レベルの俳優によるサイバー攻撃に追随しているサイバーワールドと、この分野が交わる21世紀に入ると、さらなるストレスにさらされる可能性がある。 サイバー攻撃による軍事ロジスティクスと経済の混乱は、従来の軍事手段を通じて経済と道徳のコストのごく一部で達成され、破壊の誘惑的な手段になりつつある。 バイオサイバセキュリティ(bcs)の分野では、バイオテクノロジーとサイバーセキュリティの強みと多くの脆弱性が統合され、バイオセキュリティやサイバーセキュリティで見られる攻撃経路を混乱させる方法で新たな脅威を合成し広めることができるため、バイオ防衛のトラブルが増大する可能性がある。 ここでは, バイオサイバーセキュリティの領域における脅威が, 従来の戦争の補助的存在である可能性から, 予測の少ない経路を通じてどのように出現するかを探究する。 これは、潜在的なペイロードと配送方法を分析して、信号の脅威ベクトル化を開発する。 我々は、bcsベースの脅威を見るためのいくつかのパラダイムで締めくくった。

Biodefense is the discipline of ensuring biosecurity with respect to select groups of organisms and limiting their spread. This field has increasingly been challenged by novel threats from nature that have been weaponized such as SARS, Anthrax, and similar pathogens, but has emerged victorious through collaboration of national and world health groups. However, it may come under additional stress in the 21st century as the field intersects with the cyberworld -- a world where governments have already been struggling to keep up with cyber attacks from small to state-level actors as cyberthreats have been relied on to level the playing field in international disputes. Disruptions to military logistics and economies through cyberattacks have been able to be done at a mere fraction of economic and moral costs through conventional military means, making it an increasingly tempting means of disruption. In the field of biocybersecurity (BCS), the strengths within biotechnology and cybersecurity merge, along with many of their vulnerabilities, and this could spell increased trouble for biodefense, as novel threats can be synthesized and disseminated in ways that fuse the routes of attacks seen in biosecurity and cybersecurity. Herein, we offer an exploration of how threats in the domain of biocybersecurity may emerge through less foreseen routes as it might be an attractive auxiliary to conventional war. This is done through an analysis of potential payload and delivery methods to develop notional threat vectorizations. We conclude with several paradigms through which to view BCS-based threats.
翻訳日:2023-04-30 11:48:09 公開日:2020-10-01
# 「干渉フリー」チャンネル識別

'Interaction-Free' Channel Discrimination ( http://arxiv.org/abs/2010.00623v1 )

ライセンス: Link先を確認
Markus Hasen\"ohrl and Michael M. Wolf(参考訳) 本研究では,「相互作用のない」測定によって,どの対象が完全に識別できるのかを考察する。 この目的のために、elitzur-vaidman爆弾テスト実験を量子チャネル識別問題として解釈し、任意の量子チャネルに対して「相互作用のない」測定の概念を一般化する。 我々の主な結果は、量子チャネルが「相互作用フリー」な方法で識別可能または不可能である場合(すなわち、識別誤差確率と「相互作用確率」を任意に小さくすることができる)に必要な十分な基準である。 条件が成り立つ場合、両方の確率が0に近づき、チャネル数が増加するという特性を持つ明示的なプロトコルを考案します。 より具体的には、プロトコルの'相互作用'確率は$\frac{1}{n}$で崩壊し、このレートが最適達成可能な確率であることを示す。 さらに、本プロトコルは、少なくとも1つの補助キュービットしか必要とせず、短期的な実験で実装できる可能性がある。 我々の条件が満たされていない場合、エラー確率と「相互作用」確率の間のトレードオフを定量化する不等式を証明する。

In this work, we investigate the question, which objects one can discriminate perfectly by 'interaction-free' measurements. To this end, we interpret the Elitzur-Vaidman bomb-tester experiment as a quantum channel discrimination problem and generalize the notion of 'interaction-free' measurement to arbitrary quantum channels. Our main result is a necessary and sufficient criterion for when it is possible or impossible to discriminate quantum channels in an 'interaction-free' manner (i.e., such that the discrimination error probability and the 'interaction' probability can be made arbitrarily small). For the case where our condition holds, we devise an explicit protocol with the property that both probabilities approach zero with an increasing number of channel uses, $N$. More specifically, the 'interaction' probability in our protocol decays as $\frac{1}{N}$ and we show that this rate is the optimal achievable one. Furthermore, our protocol only needs at most one ancillary qubit and might thus be implementable in near-term experiments. For the case where our condition does not hold, we prove an inequality that quantifies the trade-off between the error probability and the 'interaction' probability.
翻訳日:2023-04-30 11:47:40 公開日:2020-10-01
# 低温における有限分解能量子温度測定の密結合

Tight bound on finite-resolution quantum thermometry at low temperatures ( http://arxiv.org/abs/2001.04096v2 )

ライセンス: Link先を確認
Mathias R. J{\o}rgensen and Patrick P. Potts and Matteo G. A. Paris and Jonatan B. Brask(参考訳) 精密温度測定は、一般に科学と技術、特に量子システムにおいて非常に重要である。 本稿では, 冷量子系における温度測定の基本的な精度限界について検討し, 有限測定分解能による制約を考慮した。 温度が0に近づくにつれて, 最適精度スケーリングと温度との密接な結合を導出する。 境界は、単一キュービットプローブの非平衡ダイナミクスを監視することで飽和することができる。 我々はこの発見をスピンボーソンモデルの数値シミュレーションにより支援する。 量子温度測定への究極の限界を照らし、超低温で適用可能な高感度熱測定技術の開発を実質的に導いてくれるからです。

Precise thermometry is of wide importance in science and technology in general and in quantum systems in particular. Here, we investigate fundamental precision limits for thermometry on cold quantum systems, taking into account constraints due to finite measurement resolution. We derive a tight bound on the optimal precision scaling with temperature, as the temperature approaches zero. The bound can be saturated by monitoring the non-equilibrium dynamics of a single-qubit probe. We support this finding by accurate numerical simulations of a spin-boson model. Our results are relevant both fundamentally, as they illuminate the ultimate limits to quantum thermometry, and practically, in guiding the development of sensitive thermometric techniques applicable at ultracold temperatures.
翻訳日:2023-01-11 23:33:30 公開日:2020-10-01
# 深部畳み込みニューラルネットワークにおけるゴール指向注意のコストとメリット

The Costs and Benefits of Goal-Directed Attention in Deep Convolutional Neural Networks ( http://arxiv.org/abs/2002.02342v3 )

ライセンス: Link先を確認
Xiaoliang Luo, Brett D. Roads, Bradley C. Love(参考訳) 人々は、失われたキーを見つけるなどのタスクを達成するために、トップダウンでゴール指向の注意を配置します。 視覚システムを関連する情報ソースにチューニングすることで、オブジェクト認識はより効率的(利益)になり、ターゲット(潜在的コスト)に偏りが強くなる。 分類モデルにおける選択的注意に動機づけられ,自然主義的(フォトグラフィック)刺激を処理可能な目標指向注意機構を開発した。 我々は既存の深層畳み込みニューラルネットワーク(dcnns)に注目機構を組み込むことができる。 DCNNの処理段階は腹側視覚ストリームと関連している。 この観点からは,前頭前野(pfc)からのトップダウンの影響を取り入れ,目標指向行動を支援する。 分類モデルにおける注意重み付けが表現空間を乱すのと同様に、目標を達成するために活動の増幅や減衰を行うdcnnの中間レベルに注意重みの層を導入する。 注意対象の異なる写真刺激を用いて注意機構を評価した。 目標指向の注意の増加は、利益(ヒット率の増加)とコスト(誤ったアラーム率の増加)をもたらします。 適度なレベルでは、標準画像、ブレンド画像、およびdnnを騙すために選択された自然敵画像を含むタスクに対するバイアスをわずかに増加させるだけで、注意は感度(すなわち$d^\prime$を増加)する。 これらの結果は,PFCが腹側の流れに沿って活動を調整するのと同じように,目標指向の注意が現在の課題目標に適合するように汎用DCNNを再構成できることを示唆している。 より控えめで頭脳に一貫性があるだけでなく、中間レベルのアテンションアプローチは、トランスファーラーニングのための標準的な機械学習アプローチ、すなわち新しいタスクに対応するために最終ネットワーク層をリトレーニングするよりも優れていた。

People deploy top-down, goal-directed attention to accomplish tasks, such as finding lost keys. By tuning the visual system to relevant information sources, object recognition can become more efficient (a benefit) and more biased toward the target (a potential cost). Motivated by selective attention in categorisation models, we developed a goal-directed attention mechanism that can process naturalistic (photographic) stimuli. Our attention mechanism can be incorporated into any existing deep convolutional neural network (DCNNs). The processing stages in DCNNs have been related to ventral visual stream. In that light, our attentional mechanism incorporates top-down influences from prefrontal cortex (PFC) to support goal-directed behaviour. Akin to how attention weights in categorisation models warp representational spaces, we introduce a layer of attention weights to the mid-level of a DCNN that amplify or attenuate activity to further a goal. We evaluated the attentional mechanism using photographic stimuli, varying the attentional target. We found that increasing goal-directed attention has benefits (increasing hit rates) and costs (increasing false alarm rates). At a moderate level, attention improves sensitivity (i.e., increases $d^\prime$) at only a moderate increase in bias for tasks involving standard images, blended images, and natural adversarial images chosen to fool DCNNs. These results suggest that goal-directed attention can reconfigure general-purpose DCNNs to better suit the current task goal, much like PFC modulates activity along the ventral stream. In addition to being more parsimonious and brain consistent, the mid-level attention approach performed better than a standard machine learning approach for transfer learning, namely retraining the final network layer to accommodate the new task.
翻訳日:2023-01-03 09:35:56 公開日:2020-10-01
# ディープニューラルネットワークと他の分類器の訓練における安定性

Stability for the Training of Deep Neural Networks and Other Classifiers ( http://arxiv.org/abs/2002.04122v3 )

ライセンス: Link先を確認
Leonid Berlyand, Pierre-Emmanuel Jabin, C. Alex Safsten(参考訳) 本研究では,ディープニューラルネットワーク(dnn)や他の分類器に用いられる損失最小化トレーニングプロセスの安定性について検討する。 分類器は、いわゆる損失関数を通して訓練中に最適化されるが、分類器の性能は、よく分類された対象の比率を定量化する全体的な精度など、いくつかの精度で評価される。 トレーニングによる損失の減少は,常に正確性の向上につながるのだろうか? 我々は安定性の概念を定式化し、不安定性の例を示す。 我々の主な結果は分類器上の2つの新しい条件から成り、どちらの条件も満足すれば訓練の安定性を保証し、損失が減少するにつれて精度の厳密な境界を導出する。 また,データ多様体の平坦な部分を不安定性の潜在的な源として同定し,トレーニングセットのみの安定条件を導出する。 後者の条件はトレーニングデータセット上で明示的に検証可能である。 トレーニングで損失が減少する限り、トレーニングに使用されるアルゴリズムには依存しない。

We examine the stability of loss-minimizing training processes that are used for deep neural networks (DNN) and other classifiers. While a classifier is optimized during training through a so-called loss function, the performance of classifiers is usually evaluated by some measure of accuracy, such as the overall accuracy which quantifies the proportion of objects that are well classified. This leads to the guiding question of stability: does decreasing loss through training always result in increased accuracy? We formalize the notion of stability, and provide examples of instability. Our main result consists of two novel conditions on the classifier which, if either is satisfied, ensure stability of training, that is we derive tight bounds on accuracy as loss decreases. We also derive a sufficient condition for stability on the training set alone, identifying flat portions of the data manifold as potential sources of instability. The latter condition is explicitly verifiable on the training dataset. Our results do not depend on the algorithm used for training, as long as loss decreases with training.
翻訳日:2023-01-02 09:49:30 公開日:2020-10-01
# 強化学習による自律型ロボットナノファブリケーション

Autonomous robotic nanofabrication with reinforcement learning ( http://arxiv.org/abs/2002.11952v2 )

ライセンス: Link先を確認
Philipp Leinen, Malte Esders, Kristof T. Sch\"utt, Christian Wagner, Klaus-Robert M\"uller, F. Stefan Tautz(参考訳) 単一分子をマクロなビルディングブロックのように効果的に扱う能力により、複雑な超分子構造を自己組織化できない。 この目標を妨げる基本的な課題は、制御不能な可変性と原子規模のコンフォーメーションの可観測性不足である。 ここでは、両方の障害を回避し、単一の分子を操作することで自律的なロボットナノファブリケーションを実証する戦略を提案する。 提案手法は強化学習(RL)を用いて,不確実性や疎度なフィードバックに直面しても解法戦略を見出す。 ナノスケールでの減数的製造の例である超分子構造から走査型プローブ顕微鏡で分子を自律的に除去することで、我々のRLアプローチの可能性を示す。 我々のRLエージェントは優れた性能に到達し、これまで人間が行わなければならなかったタスクを自動化できます。 我々の研究は、我々の現在の能力を超える速度、精度、忍耐力を備えた機能超分子構造のロボット構築のための自律エージェントへの道を開くことを期待する。

The ability to handle single molecules as effectively as macroscopic building-blocks would enable the construction of complex supramolecular structures inaccessible to self-assembly. The fundamental challenges obstructing this goal are the uncontrolled variability and poor observability of atomic-scale conformations. Here, we present a strategy to work around both obstacles, and demonstrate autonomous robotic nanofabrication by manipulating single molecules. Our approach employs reinforcement learning (RL), which finds solution strategies even in the face of large uncertainty and sparse feedback. We demonstrate the potential of our RL approach by removing molecules autonomously with a scanning probe microscope from a supramolecular structure -- an exemplary task of subtractive manufacturing at the nanoscale. Our RL agent reaches an excellent performance, enabling us to automate a task which previously had to be performed by a human. We anticipate that our work opens the way towards autonomous agents for the robotic construction of functional supramolecular structures with speed, precision and perseverance beyond our current capabilities.
翻訳日:2022-12-28 08:06:24 公開日:2020-10-01
# 画像アニメーションのための一階運動モデル

First Order Motion Model for Image Animation ( http://arxiv.org/abs/2003.00196v3 )

ライセンス: Link先を確認
Aliaksandr Siarohin, St\'ephane Lathuili\`ere, Sergey Tulyakov, Elisa Ricci and Nicu Sebe(参考訳) 画像アニメーションは、駆動映像の動作に応じてソース画像内のオブジェクトをアニメーションするように映像シーケンスを生成することで構成される。 我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずにこの問題に対処します。 同じカテゴリのオブジェクト(例えば顔、人体)を描写した一連のビデオ(例えば、顔、人体)で訓練すると、この手法はこのクラスのあらゆるオブジェクトに適用できる。 これを実現するために, 自己教師付き定式化を用いて, 外観と動作情報を分離する。 複雑な動きをサポートするために、我々は学習されたキーポイントの集合と局所アフィン変換からなる表現を用いる。 生成ネットワークは、目標動作中に生じる閉塞をモデル化し、ソース画像から抽出した外観と、駆動映像から得られた動きとを結合する。 私たちのフレームワークは、さまざまなベンチマークとさまざまなオブジェクトカテゴリで最高のスコアを獲得します。 ソースコードは公開されています。

Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available.
翻訳日:2022-12-27 20:09:21 公開日:2020-10-01
# MOTS: Minimax Optimal Thompson サンプリング

MOTS: Minimax Optimal Thompson Sampling ( http://arxiv.org/abs/2003.01803v3 )

ライセンス: Link先を確認
Tianyuan Jin, Pan Xu, Jieming Shi, Xiaokui Xiao, and Quanquan Gu(参考訳) トンプソンサンプリングは、実装の単純さと他の最先端手法よりも経験的性能が優れているため、多くのオンライン決定問題において最も広く使われているアルゴリズムの1つである。 その人気と実証的な成功にもかかわらず、トンプソンサンプリングが$k$-armed bandit問題のminimax下限$\omega(\sqrt{kt})$にマッチできるかは、まだ未解決のままである。 本稿では,選択したアームのサンプリングインスタンスを各ステップ毎に適応的にクリップするmotsと呼ばれるトンプソンサンプリングの変種を提案することにより,この長いオープン問題を解く。 この単純なトンプソンサンプリングの変種は、有限時間地平線に対して$O(\sqrt{KT})$のミニマックス最適リピートと、$T$が無限に近づくときのガウス報酬に対する漸近最適リピートを達成することを証明している。 我々の知る限り、MOTSはマルチアームバンディット問題に対する最小限の最適化を実現する最初のトンプソンサンプリング型アルゴリズムである。

Thompson sampling is one of the most widely used algorithms for many online decision problems, due to its simplicity in implementation and superior empirical performance over other state-of-the-art methods. Despite its popularity and empirical success, it has remained an open problem whether Thompson sampling can match the minimax lower bound $\Omega(\sqrt{KT})$ for $K$-armed bandit problems, where $T$ is the total time horizon. In this paper, we solve this long open problem by proposing a variant of Thompson sampling called MOTS that adaptively clips the sampling instance of the chosen arm at each time step. We prove that this simple variant of Thompson sampling achieves the minimax optimal regret bound $O(\sqrt{KT})$ for finite time horizon $T$, as well as the asymptotic optimal regret bound for Gaussian rewards when $T$ approaches infinity. To our knowledge, MOTS is the first Thompson sampling type algorithm that achieves the minimax optimality for multi-armed bandit problems.
翻訳日:2022-12-26 22:35:31 公開日:2020-10-01
# コントラスト集合を用いたモデル局所決定境界の評価

Evaluating Models' Local Decision Boundaries via Contrast Sets ( http://arxiv.org/abs/2004.02709v2 )

ライセンス: Link先を確認
Matt Gardner, Yoav Artzi, Victoria Basmova, Jonathan Berant, Ben Bogin, Sihao Chen, Pradeep Dasigi, Dheeru Dua, Yanai Elazar, Ananth Gottumukkala, Nitish Gupta, Hanna Hajishirzi, Gabriel Ilharco, Daniel Khashabi, Kevin Lin, Jiangming Liu, Nelson F. Liu, Phoebe Mulcaire, Qiang Ning, Sameer Singh, Noah A. Smith, Sanjay Subramanian, Reut Tsarfaty, Eric Wallace, Ally Zhang, Ben Zhou(参考訳) 教師付き学習のための標準テストセットは、分布の一般化を評価する。 残念ながら、データセットが系統的なギャップ(例えばアノテーションアーティファクト)を持っている場合、これらの評価は誤解を招く。 テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。 特に、データセットが構築された後、データセットの作者は、小さなが意味のある方法でテストインスタンスを手動で摂動させ、(典型的には)ゴールドラベルを変更してコントラストセットを作成することを推奨します。 コントラストセットはモデルの決定境界の局所的なビューを提供し、モデルの真の言語能力をより正確に評価するために使用できる。 10種類のnlpデータセット(例えば、ドロップ読み込み理解、ud解析、imdb感情分析)に対してコントラストセットを作成することで、コントラストセットの有効性を実証する。 コントラストセットは明示的に逆向きではないが、モデルのパフォーマンスは元のテストセットよりもかなり低く、場合によっては25\%まで低下する。 コントラストセットを新しい評価ベンチマークとしてリリースし、同様のアノテーションプロセスに従うための将来のデータセット構築努力を奨励します。

Standard test sets for supervised learning evaluate in-distribution generalization. Unfortunately, when a dataset has systematic gaps (e.g., annotation artifacts), these evaluations are misleading: a model can learn simple decision rules that perform well on the test set but do not capture a dataset's intended capabilities. We propose a new annotation paradigm for NLP that helps to close systematic gaps in the test data. In particular, after a dataset is constructed, we recommend that the dataset authors manually perturb the test instances in small but meaningful ways that (typically) change the gold label, creating contrast sets. Contrast sets provide a local view of a model's decision boundary, which can be used to more accurately evaluate a model's true linguistic capabilities. We demonstrate the efficacy of contrast sets by creating them for 10 diverse NLP datasets (e.g., DROP reading comprehension, UD parsing, IMDb sentiment analysis). Although our contrast sets are not explicitly adversarial, model performance is significantly lower on them than on the original test sets---up to 25\% in some cases. We release our contrast sets as new evaluation benchmarks and encourage future dataset construction efforts to follow similar annotation processes.
翻訳日:2022-12-16 06:35:33 公開日:2020-10-01
# MulayCap:単眼ビデオカメラによる多層人間のパフォーマンスキャプチャ

MulayCap: Multi-layer Human Performance Capture Using A Monocular Video Camera ( http://arxiv.org/abs/2004.05815v3 )

ライセンス: Link先を確認
Zhaoqi Su and Weilin Wan and Tao Yu and Lingjie Liu and Lu Fang and Wenping Wang and Yebin Liu(参考訳) 単眼ビデオカメラを用いた新しい人体パフォーマンスキャプチャ手法である MulayCap について,事前スキャンを必要とせずに紹介する。 この手法は、幾何再構成とテクスチャレンダリングにそれぞれ「多層」表現を用いる。 幾何再構成のために,布地を複数の幾何学的層,すなわちボディーメッシュ層と衣料品層に分解する。 その背景にある鍵となる技術は、服の形状を最適化し、入力されたビデオシーケンスに合うようにダイナミックな布を再構成する着脱ビデオ(gfv)法であり、勾配降下で効果的に解く布シミュレーションモデルに基づいている。 テクスチャレンダリングでは,各入力画像フレームをシェーディング層とアルベド層に分解し,固定アルベドマップを融合させ,シェーディング層を用いて詳細な衣服形状を解く方法を提案する。 既存の単一ビューのヒューマンパフォーマンスキャプチャシステムと比較して、"マルチレイヤ"アプローチは、人間の特定のメッシュテンプレートを取得するための面倒で時間のかかるスキャンステップをバイパスします。 実験結果から,MuleCapは従来のモノクロカメラシステムでは実現されなかった,動的に変化する細部をリアルにレンダリングすることを示した。 完全にセマンティックなモデリングから恩恵を受け、MuleCapは布の編集、再ターゲット、リライト、ARアプリケーションなど、さまざまな重要な編集アプリケーションに適用できる。

We introduce MulayCap, a novel human performance capture method using a monocular video camera without the need for pre-scanning. The method uses "multi-layer" representations for geometry reconstruction and texture rendering, respectively. For geometry reconstruction, we decompose the clothed human into multiple geometry layers, namely a body mesh layer and a garment piece layer. The key technique behind is a Garment-from-Video (GfV) method for optimizing the garment shape and reconstructing the dynamic cloth to fit the input video sequence, based on a cloth simulation model which is effectively solved with gradient descent. For texture rendering, we decompose each input image frame into a shading layer and an albedo layer, and propose a method for fusing a fixed albedo map and solving for detailed garment geometry using the shading layer. Compared with existing single view human performance capture systems, our "multi-layer" approach bypasses the tedious and time consuming scanning step for obtaining a human specific mesh template. Experimental results demonstrate that MulayCap produces realistic rendering of dynamically changing details that has not been achieved in any previous monocular video camera systems. Benefiting from its fully semantic modeling, MulayCap can be applied to various important editing applications, such as cloth editing, re-targeting, relighting, and AR applications.
翻訳日:2022-12-14 00:11:29 公開日:2020-10-01
# TOD-BERT:タスク指向対話のための学習済み自然言語理解

TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue ( http://arxiv.org/abs/2004.06871v3 )

ライセンス: Link先を確認
Chien-Sheng Wu, Steven Hoi, Richard Socher, and Caiming Xiong(参考訳) 一般的なテキストとタスク指向対話の言語パターンの根本的な違いは、既存の事前学習された言語モデルが実際は役に立たないようにする。 本研究では,言語モデリングのためのタスク指向対話データセットを9つに統合する。 事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。 応答選択タスクをシミュレートするための対比目的関数を提案する。 我々の事前学習したタスク指向対話BERT(TOD-BERT)は、意図認識、対話状態追跡、対話行動予測、応答選択を含む4つの下流タスク指向対話アプリケーションにおいてBERTのような強力なベースラインを上回ります。 また、TOD-BERTは、タスク指向対話におけるデータ不足問題を軽減できる、より強力な少数ショット機能を有することを示す。

The underlying difference of linguistic patterns between general text and task-oriented dialogue makes existing pre-trained language models less useful in practice. In this work, we unify nine human-human and multi-turn task-oriented dialogue datasets for language modeling. To better model dialogue behavior during pre-training, we incorporate user and system tokens into the masked language modeling. We propose a contrastive objective function to simulate the response selection task. Our pre-trained task-oriented dialogue BERT (TOD-BERT) outperforms strong baselines like BERT on four downstream task-oriented dialogue applications, including intention recognition, dialogue state tracking, dialogue act prediction, and response selection. We also show that TOD-BERT has a stronger few-shot ability that can mitigate the data scarcity problem for task-oriented dialogue.
翻訳日:2022-12-13 03:31:50 公開日:2020-10-01
# 画像正規性とパターン分類のためのボックスコックス変換について

On Box-Cox Transformation for Image Normality and Pattern Classification ( http://arxiv.org/abs/2004.07210v3 )

ライセンス: Link先を確認
Abbas Cheddad(参考訳) パワー変換ファミリーのユニークなメンバーはbox-cox変換として知られている。 後者は、log-likelihood関数を最大化する最適なラムダ({\lambda})値を見つけ、データを正規分布に変換し、ヘテロシステキティを減少させる数学的操作と見なすことができる。 データ分析では、正規性仮定は様々な統計テストモデルの基礎となる。 しかし、この手法は1次元データを扱う統計解析において最もよく知られている。 本稿では,2次元データ,すなわちデジタルイメージを変換し,その効果を研究するための前処理ステップとして,そのようなツールの有用性について論じる。 さらに、時間複雑性を低減するために、確率密度関数を基礎となるデータ分布の統計的推論として考慮するだけで、大きな2次元行列に対してパラメータラムダをリアルタイムに推定することができる。 本研究では,この軽量ボックスコックス変換の効果を,確立された低光度画像強調技術と比較する。 また,画像の視覚的外観の汎用的な改善と,色パターン分類アルゴリズムの性能向上のために,いくつかのテストベッドデータセットによるアプローチの有効性を実証した。 提案手法の有無に関わらず,alexnet (transfer deep learning) 事前学習モデルを用いて比較した。 私たちの知る限りでは、ヒストグラム変換を利用してボックスコックス変換をデジタル画像に拡張するのはこれが初めてです。

A unique member of the power transformation family is known as the Box-Cox transformation. The latter can be seen as a mathematical operation that leads to finding the optimum lambda ({\lambda}) value that maximizes the log-likelihood function to transform a data to a normal distribution and to reduce heteroscedasticity. In data analytics, a normality assumption underlies a variety of statistical test models. This technique, however, is best known in statistical analysis to handle one-dimensional data. Herein, this paper revolves around the utility of such a tool as a pre-processing step to transform two-dimensional data, namely, digital images and to study its effect. Moreover, to reduce time complexity, it suffices to estimate the parameter lambda in real-time for large two-dimensional matrices by merely considering their probability density function as a statistical inference of the underlying data distribution. We compare the effect of this light-weight Box-Cox transformation with well-established state-of-the-art low light image enhancement techniques. We also demonstrate the effectiveness of our approach through several test-bed data sets for generic improvement of visual appearance of images and for ameliorating the performance of a colour pattern classification algorithm as an example application. Results with and without the proposed approach, are compared using the AlexNet (transfer deep learning) pretrained model. To the best of our knowledge, this is the first time that the Box-Cox transformation is extended to digital images by exploiting histogram transformation.
翻訳日:2022-12-13 03:22:46 公開日:2020-10-01
# 注意に基づく実画像復元

Attention Based Real Image Restoration ( http://arxiv.org/abs/2004.13524v2 )

ライセンス: Link先を確認
Saeed Anwar, Nick Barnes, and Lars Petersson(参考訳) 深層畳み込みニューラルネットワークは、合成劣化として知られる空間的不変な劣化を含む画像においてより優れた性能を示すが、その性能は実分解写真に限定され、多段階ネットワークモデリングを必要とする。 修復アルゴリズムの実用性を向上させるために,モジュールアーキテクチャを用いて,新しい一段ブラインド実画像復元ネットワーク(R$^2$Net)を提案する。 低周波情報の流れを緩和し,チャネル依存性を活用するために特徴的注意を払うために,残差構造に残差を用いる。 さらに,4つの修復作業における定量的指標と視覚的品質,すなわち,30以上の最先端アルゴリズムに対する11個の実分解データセットのデノイジング,スーパーレゾリューション,レインドロップ除去,jpeg圧縮の評価により,r$^2$netの優位性が示された。 また,3つの合成劣化データセットの比較を行い,本手法が生合成に与える影響を実証した。 コード、トレーニングされたモデル、結果はhttps://github.com/saeed-anwar/r2netで入手できる。

Deep convolutional neural networks perform better on images containing spatially invariant degradations, also known as synthetic degradations; however, their performance is limited on real-degraded photographs and requires multiple-stage network modeling. To advance the practicability of restoration algorithms, this paper proposes a novel single-stage blind real image restoration network (R$^2$Net) by employing a modular architecture. We use a residual on the residual structure to ease the flow of low-frequency information and apply feature attention to exploit the channel dependencies. Furthermore, the evaluation in terms of quantitative metrics and visual quality for four restoration tasks i.e. Denoising, Super-resolution, Raindrop Removal, and JPEG Compression on 11 real degraded datasets against more than 30 state-of-the-art algorithms demonstrate the superiority of our R$^2$Net. We also present the comparison on three synthetically generated degraded datasets for denoising to showcase the capability of our method on synthetics denoising. The codes, trained models, and results are available on https://github.com/saeed-anwar/R2Net.
翻訳日:2022-12-09 13:16:51 公開日:2020-10-01
# インスタンスセグメンテーションのための関心抽出層の新しい領域

A novel Region of Interest Extraction Layer for Instance Segmentation ( http://arxiv.org/abs/2004.13665v2 )

ライセンス: Link先を確認
Leonardo Rossi, Akbar Karimi, Andrea Prati(参考訳) コンピュータビジョンタスクのためのディープニューラルネットワークアーキテクチャの広範な普及を考えると、今日ではいくつかの新しいアプリケーションがより実現可能になっている。 その中でも最近、R-CNNから派生した2段階ネットワーク(Mask R-CNNやFaster R-CNNなど)によって達成可能な結果を活用することで、インスタンスセグメンテーションに特に注目されている。 これらの複雑なアーキテクチャでは、重要な役割はRerea of Interest(RoI)抽出層によって演じられ、バックボーン上にアタッチされた単一のFeature Pyramid Network(FPN)層から特徴の一貫性のあるサブセットを抽出する。 本論文は,FPNから1層(ベスト層)のみを選択する既存のRoI抽出器の限界を克服する必要性を動機としている。 我々の直感では、FPNのすべての層が有用な情報を保持する。 そこで提案するレイヤ(Generic RoI Extractor - GRoIE)では,非ローカルなビルディングブロックとアテンション機構を導入して性能を向上する。 GRoIE層におけるアルゴリズムとパラメータの最適セットを見つけるために, 成分レベルでの包括的アブレーション研究を行った。 さらに、オブジェクト検出とインスタンスセグメンテーションタスクの両方のために、groieは2段階アーキテクチャごとにシームレスに統合できる。 そのため、異なる最先端アーキテクチャにおけるgroieの使用による改善も評価されている。 提案されたレイヤは、バウンディングボックス検出における1.1%のAP改善と、インスタンスセグメンテーションにおける1.7%のAP改善を実現している。 コードはGitHubリポジトリでhttps://github.com/IMPLabUniPr/mmdetection/tree/groie_devで公開されている。

Given the wide diffusion of deep neural network architectures for computer vision tasks, several new applications are nowadays more and more feasible. Among them, a particular attention has been recently given to instance segmentation, by exploiting the results achievable by two-stage networks (such as Mask R-CNN or Faster R-CNN), derived from R-CNN. In these complex architectures, a crucial role is played by the Region of Interest (RoI) extraction layer, devoted to extracting a coherent subset of features from a single Feature Pyramid Network (FPN) layer attached on top of a backbone. This paper is motivated by the need to overcome the limitations of existing RoI extractors which select only one (the best) layer from FPN. Our intuition is that all the layers of FPN retain useful information. Therefore, the proposed layer (called Generic RoI Extractor - GRoIE) introduces non-local building blocks and attention mechanisms to boost the performance. A comprehensive ablation study at component level is conducted to find the best set of algorithms and parameters for the GRoIE layer. Moreover, GRoIE can be integrated seamlessly with every two-stage architecture for both object detection and instance segmentation tasks. Therefore, the improvements brought about by the use of GRoIE in different state-of-the-art architectures are also evaluated. The proposed layer leads up to gain a 1.1% AP improvement on bounding box detection and 1.7% AP improvement on instance segmentation. The code is publicly available on GitHub repository at https://github.com/IMPLabUniPr/mmdetection/tree/groie_dev
翻訳日:2022-12-08 23:27:06 公開日:2020-10-01
# 正規化流を用いた関節音響表現の学習

Learning Joint Articulatory-Acoustic Representations with Normalizing Flows ( http://arxiv.org/abs/2005.09463v2 )

ライセンス: Link先を確認
Pramit Saha, Sidney Fels(参考訳) 声道の調音幾何学的構成と結果音声の音響特性は強い因果関係を有すると考えられる。 本稿では,可逆ニューラルネットワークモデルによる母音音の調音領域と音響領域の結合的潜在表現の探索を目的とし,各領域固有の特徴を同時に保持する。 本モデルでは,畳み込み型オートエンコーダのアーキテクチャと流れに基づくモデルを正規化することにより,1次元音響モデルを用いた2自由度調音合成器の中指声道形状と合成音声のメル・スペクトログラム表現とを半教師付きで表現できる。 提案手法は, 調音・音響・音響の両面のマッピングを達成し, 両領域の共同符号化の実現に成功していることを示す。

The articulatory geometric configurations of the vocal tract and the acoustic properties of the resultant speech sound are considered to have a strong causal relationship. This paper aims at finding a joint latent representation between the articulatory and acoustic domain for vowel sounds via invertible neural network models, while simultaneously preserving the respective domain-specific features. Our model utilizes a convolutional autoencoder architecture and normalizing flow-based models to allow both forward and inverse mappings in a semi-supervised manner, between the mid-sagittal vocal tract geometry of a two degrees-of-freedom articulatory synthesizer with 1D acoustic wave model and the Mel-spectrogram representation of the synthesized speech sounds. Our approach achieves satisfactory performance in achieving both articulatory-to-acoustic as well as acoustic-to-articulatory mapping, thereby demonstrating our success in achieving a joint encoding of both the domains.
翻訳日:2022-12-02 13:15:47 公開日:2020-10-01
# すべての言語は多言語bertで等しいか?

Are All Languages Created Equal in Multilingual BERT? ( http://arxiv.org/abs/2005.09093v2 )

ライセンス: Link先を確認
Shijie Wu, Mark Dredze(参考訳) 104言語で訓練された多言語BERT(mBERT)は、明示的な言語間信号がなくても、いくつかのNLPタスクにおいて驚くほど優れた言語間性能を示している。 しかし、これらの評価は、mBERTがカバーしている言語の3分の1しかカバーしていない、高リソース言語による言語間移動に焦点を当てている。 我々はmBERTがより広い言語群でどのように機能するかを考察し、低リソース言語における表現の質に焦点をあてる。 名前付きエンティティ認識(99言語)、part-of-speechタグ、依存関係解析(それぞれ54言語)の3つのタスクについて検討した。 mBERTは高リソース言語のベースラインよりも優れていますが、低リソースの言語ではずっと悪いです。 さらに、これらの言語の単言語 bert モデルはさらに悪い。 類似言語を用いて、単言語BERTとmBERTのパフォーマンスギャップを狭めることができる。 低リソース言語のためのより良いモデルには、より効率的な事前トレーニング技術やより多くのデータが必要です。

Multilingual BERT (mBERT) trained on 104 languages has shown surprisingly good cross-lingual performance on several NLP tasks, even without explicit cross-lingual signals. However, these evaluations have focused on cross-lingual transfer with high-resource languages, covering only a third of the languages covered by mBERT. We explore how mBERT performs on a much wider set of languages, focusing on the quality of representation for low-resource languages, measured by within-language performance. We consider three tasks: Named Entity Recognition (99 languages), Part-of-speech Tagging, and Dependency Parsing (54 languages each). mBERT does better than or comparable to baselines on high resource languages but does much worse for low resource languages. Furthermore, monolingual BERT models for these languages do even worse. Paired with similar languages, the performance gap between monolingual BERT and mBERT can be narrowed. We find that better models for low resource languages require more efficient pretraining techniques or more data.
翻訳日:2022-12-01 23:38:50 公開日:2020-10-01
# 線形スケーラブルな長コンテキストトランスフォーマーによるタンパク質のマスキング言語モデリング

Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers ( http://arxiv.org/abs/2006.03555v3 )

ライセンス: Link先を確認
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, David Belanger, Lucy Colwell, Adrian Weller(参考訳) トランスフォーマーモデルは、様々な領域にわたる最先端の結果を得た。 しかしながら、遠隔入力間の複雑な依存関係を学ぶための注意メカニズムのトレーニングコストに対する懸念は増え続けている。 その結果,学習した注目行列の構造と空間性を利用した解が開花した。 しかし、生物学的シーケンス分析のような長いシーケンスを含む実世界のアプリケーションは、これらの仮定を満たさない可能性があり、これらのモデルの探索を妨げている。 この課題に対処するため、我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいTransformerアーキテクチャPerformerを提案する。 この機構は,列内のトークン数を二乗的にではなく線形にスケールし,二次空間の複雑さを特徴とし,スパーシティパターンの事前化を一切含まない。 さらに、注意行列の偏りのない推定と一様収束という強力な理論的保証を提供する。 また、事前訓練された正規トランスフォーマーと後方互換性がある。 タンパク質配列モデリングの課題に対して,その効果を実証し,詳細な理論的解析を行う。

Transformer models have achieved state-of-the-art results across a diverse range of domains. However, concern over the cost of training the attention mechanism to learn complex dependencies between distant inputs continues to grow. In response, solutions that exploit the structure and sparsity of the learned attention matrix have blossomed. However, real-world applications that involve long sequences, such as biological sequence analysis, may fall short of meeting these assumptions, precluding exploration of these models. To address this challenge, we present a new Transformer architecture, Performer, based on Fast Attention Via Orthogonal Random features (FAVOR). Our mechanism scales linearly rather than quadratically in the number of tokens in the sequence, is characterized by sub-quadratic space complexity and does not incorporate any sparsity pattern priors. Furthermore, it provides strong theoretical guarantees: unbiased estimation of the attention matrix and uniform convergence. It is also backwards-compatible with pre-trained regular Transformers. We demonstrate its effectiveness on the challenging task of protein sequence modeling and provide detailed theoretical analysis.
翻訳日:2022-11-25 02:23:12 公開日:2020-10-01
# 深層ニューラルネットワークを用いたgoogle earthエンジンのランドサット-8画像における雲検出

Cloud detection in Landsat-8 imagery in Google Earth Engine based on a deep neural network ( http://arxiv.org/abs/2006.10358v2 )

ライセンス: Link先を確認
Zhixiang Yin, Feng Ling, Giles M. Foody, Xinyan Li, and Yun Du(参考訳) Google Earth Engine (GEE)は、大面積の光学衛星画像に基づくアプリケーションのための便利なプラットフォームを提供する。 このようなデータセットでは、雲の検出は必要不可欠なステップであることが多い。 近年,ディープラーニングベースのクラウド検出手法がクラウド検出の可能性を示しているが,ローカルでのみ適用可能であり,非効率なデータダウンロード時間とストレージの問題の原因となっている。 本稿では,ディープラーニング(DeepGEE-CD)に基づくGEEにおけるLandsat-8画像のクラウド検出を直接行う手法を提案する。 ディープニューラルネットワーク(DNN)が最初にローカルでトレーニングされ、トレーニングされたDNNがGEEのJavaScriptクライアントにデプロイされた。 提案手法をランドサット-8画像のセットで検証する実験を行い,deepgee-cdが広く用いられているマスク(fmask)アルゴリズムよりも優れていることを示した。 提案したDeepGEE-CDアプローチでは,ランドサット8画像中の雲をダウンロードせずに正確に検出することができる。

Google Earth Engine (GEE) provides a convenient platform for applications based on optical satellite imagery of large areas. With such data sets, the detection of cloud is often a necessary prerequisite step. Recently, deep learning-based cloud detection methods have shown their potential for cloud detection but they can only be applied locally, leading to inefficient data downloading time and storage problems. This letter proposes a method to directly perform cloud detection in Landsat-8 imagery in GEE based on deep learning (DeepGEE-CD). A deep neural network (DNN) was first trained locally, and then the trained DNN was deployed in the JavaScript client of GEE. An experiment was undertaken to validate the proposed method with a set of Landsat-8 images and the results show that DeepGEE-CD outperformed the widely used function of mask (Fmask) algorithm. The proposed DeepGEE-CD approach can accurately detect cloud in Landsat-8 imagery without downloading it, making it a promising method for routine cloud detection of Landsat-8 imagery in GEE.
翻訳日:2022-11-19 14:27:06 公開日:2020-10-01
# EndoSLAMデータセットと教師なし単眼視計測と内視鏡画像の深さ推定手法:endo-SfMLearner

EndoSLAM Dataset and An Unsupervised Monocular Visual Odometry and Depth Estimation Approach for Endoscopic Videos: Endo-SfMLearner ( http://arxiv.org/abs/2006.16670v3 )

ライセンス: Link先を確認
Kutsev Bengisu Ozyoruk, Guliz Irem Gokceler, Gulfize Coskun, Kagan Incetan, Yasin Almalioglu, Faisal Mahmood, Eva Curto, Luis Perdigoto, Marina Oliveira, Hasan Sahin, Helder Araujo, Henrique Alexandrino, Nicholas J. Durr, Hunter B. Gilbert, and Mehmet Turan(参考訳) 深層学習技術は内視鏡ビデオの高密度地形再構成とポーズ推定法の開発を約束している。 しかし、現在利用可能なデータセットは効果的な定量的ベンチマークをサポートしていない。 本稿では,ブタの臓器,カプセルおよび標準内視鏡記録用3次元点雲データと合成合成データからなる包括的内視鏡的SLAMデータセットを提案する。 パンダのロボットアーム、2つの市販カプセル内視鏡、2つのカメラ特性の異なる従来の内視鏡、2つの高精度3dスキャナを使用して、元vivo porcine gastrointestinal (gi) の臓器からデータを収集した。 総計35のサブデータセットに、結腸18のサブデータセット、胃12のサブデータセット、小腸5のサブデータセット、そして4つのサブデータセットには、専門家の胃腸学者が行うポリプミミキシング上昇が含まれている。 GI-tractから合成カプセル内視鏡フレームを奥行きとポーズアノテーションに含め、シミュレーションからリアル移行学習アルゴリズムの研究を容易にする。 さらに,残差ネットワークと空間的注意モジュールを組み合わせた非教師なし単眼深度・ポーズ推定法である endo-sfmlearner を提案,ネットワークを識別可能かつ高テクスチャな組織領域に焦点を合わせるように指示する。 提案手法では,輝度認識による測光損失を利用して,フレーム間高速照明変化時のロバスト性を向上させる。 EndoSLAMデータセットの使用例を示すために、Endo-SfMLearnerのパフォーマンスは最先端技術と比較される。 データセットのコードとリンクはhttps://github.com/CapsuleEndoscope/EndoSLAMで公開されている。 実験的なセットアップと手順を示すビデオはhttps://www.youtube.com/watch? v=G_LCe0aWWdQ。

Deep learning techniques hold promise to develop dense topography reconstruction and pose estimation methods for endoscopic videos. However, currently available datasets do not support effective quantitative benchmarking. In this paper, we introduce a comprehensive endoscopic SLAM dataset consisting of 3D point cloud data for six porcine organs, capsule and standard endoscopy recordings as well as synthetically generated data. A Panda robotic arm, two commercially available capsule endoscopes, two conventional endoscopes with different camera properties, and two high precision 3D scanners were employed to collect data from 8 ex-vivo porcine gastrointestinal (GI)-tract organs. In total, 35 sub-datasets are provided with 6D pose ground truth for the ex-vivo part: 18 sub-dataset for colon, 12 sub-datasets for stomach and 5 sub-datasets for small intestine, while four of these contain polyp-mimicking elevations carried out by an expert gastroenterologist. Synthetic capsule endoscopy frames from GI-tract with both depth and pose annotations are included to facilitate the study of simulation-to-real transfer learning algorithms. Additionally, we propound Endo-SfMLearner, an unsupervised monocular depth and pose estimation method that combines residual networks with spatial attention module in order to dictate the network to focus on distinguishable and highly textured tissue regions. The proposed approach makes use of a brightness-aware photometric loss to improve the robustness under fast frame-to-frame illumination changes. To exemplify the use-case of the EndoSLAM dataset, the performance of Endo-SfMLearner is extensively compared with the state-of-the-art. The codes and the link for the dataset are publicly available at https://github.com/CapsuleEndoscope/EndoSLAM. A video demonstrating the experimental setup and procedure is accessible through https://www.youtube.com/watch?v=G_LCe0aWWdQ.
翻訳日:2022-11-15 05:46:50 公開日:2020-10-01
# 定量的フラクトグラフィのための深層学習に基づくDimple Segmentation

Deep Learning based Dimple Segmentation for Quantitative Fractography ( http://arxiv.org/abs/2007.02267v3 )

ライセンス: Link先を確認
Ashish Sinha, K S Suresh(参考訳) 本研究では, 機械学習手法, 特にニューラルネットワークを用いてチタン合金中のディプル検出とセグメンテーションの課題を解決する。 走査型選挙顕微鏡(sem)を用いてフラクタグラフの画像を得る。 金属の破壊の原因を解明するため,フラクタグラフ中のディプルのセグメンテーション問題,すなわち教師付き機械学習手法による金属の破壊面について論じる。 破壊の原因を決定することは, 材料特性, 機械的特性予測, 新しい耐破壊性材料の開発に役立つ。 この方法では、破壊面の地形と材料の力学的性質を関連付けるのにも役立つ。 提案手法は他の手法と比較して最高の性能を実現する。 我々の知る限りでは、これは完全な畳み込みニューラルネットワークを用いたフラクトグラフィにおける最初の仕事であり、ディプルフラクトグラフィの教師付き学習のためのセルフアテンションである。

In this work, we try to address the challenging problem of dimple detection and segmentation in Titanium alloys using machine learning methods, especially neural networks. The images i.e. fractographs are obtained using a Scanning Election Microscope (SEM). To determine the cause of fracture in metals we address the problem of segmentation of dimples in fractographs i.e. the fracture surface of metals using supervised machine learning methods. Determining the cause of fracture would help us in material property, mechanical property prediction and development of new fracture-resistant materials. This method would also help in correlating the topography of the fracture surface with the mechanical properties of the material. Our proposed novel model achieves the best performance as compared to other previous approaches. To the best of our knowledge, this is one the first work in fractography using fully convolutional neural networks with self-attention for supervised learning of dimple fractography, though it can be easily extended to account for brittle characteristics as well.
翻訳日:2022-11-13 08:14:19 公開日:2020-10-01
# FocusLiteNN: デジタル病理における高効率フォーカス品質評価

FocusLiteNN: High Efficiency Focus Quality Assessment for Digital Pathology ( http://arxiv.org/abs/2007.06565v2 )

ライセンス: Link先を確認
Zhongling Wang, Mahdi S. Hosseini, Adyn Miles, Konstantinos N. Plataniotis, Zhou Wang(参考訳) デジタル病理学におけるアウト・オブ・フォーカス顕微鏡レンズは、ピクセルレベルの自動フォーカス品質評価(FQA)手法が臨床ワークフローを著しく加速するのに非常に望ましい、高スループット全スライド画像(WSI)スキャンプラットフォームにおいて、重要なボトルネックとなっている。 既存のFQAメソッドには、知識駆動アプローチとデータ駆動アプローチの両方が含まれている。 convolutional neural network (cnn) ベースの手法のようなデータ駆動アプローチは、大きな期待値を示しているが、計算の複雑さと転送性の欠如のため、実際に使用するのは困難である。 本稿では,GPUなどの過剰なハードウェア要件を伴わずに,知識駆動方式と同様の高速計算を高速に行うCNNベースのモデルを提案する。 これは9つの異なる染色色にまたがる多彩な組織スライドを包含する。そこで、染色の多様性は、モデルが多様な色スペクトルと組織構造を学ぶのに大いに役立つ。 CNNの複雑さを減らそうとする試みでは、CNNを最小レベルまで縮小しても、競争力の高いパフォーマンスを実現しているのが驚きです。 提案手法は,既存の知識駆動型およびデータ駆動型FQA手法と比較して,高精度かつ高精度なトレードオフを示すものである。

Out-of-focus microscopy lens in digital pathology is a critical bottleneck in high-throughput Whole Slide Image (WSI) scanning platforms, for which pixel-level automated Focus Quality Assessment (FQA) methods are highly desirable to help significantly accelerate the clinical workflows. Existing FQA methods include both knowledge-driven and data-driven approaches. While data-driven approaches such as Convolutional Neural Network (CNN) based methods have shown great promises, they are difficult to use in practice due to their high computational complexity and lack of transferability. Here, we propose a highly efficient CNN-based model that maintains fast computations similar to the knowledge-driven methods without excessive hardware requirements such as GPUs. We create a training dataset using FocusPath which encompasses diverse tissue slides across nine different stain colors, where the stain diversity greatly helps the model to learn diverse color spectrum and tissue structures. In our attempt to reduce the CNN complexity, we find with surprise that even trimming down the CNN to the minimal level, it still achieves a highly competitive performance. We introduce a novel comprehensive evaluation dataset, the largest of its kind, annotated and compiled from TCGA repository for model assessment and comparison, for which the proposed method exhibits superior precision-speed trade-off when compared with existing knowledge-driven and data-driven FQA approaches.
翻訳日:2022-11-11 13:26:50 公開日:2020-10-01
# 逆影響解析による領域認識型医用画像分類器の解釈

Domain aware medical image classifier interpretation by counterfactual impact analysis ( http://arxiv.org/abs/2007.06312v2 )

ライセンス: Link先を確認
Dimitrios Lenis, David Major, Maria Wimmer, Astrid Berg, Gert Sluiter, and Katja B\"uhler(参考訳) コンピュータビジョンタスクにおける機械学習手法の成功は、医学や生物学のコンピュータ支援予測の急増を促した。 入力画像と病理分類の間のデータ駆動型関係に基づき、これらの予測器は前例のない精度を提供する。 しかし、この学習された関係の因果関係を説明する多くのアプローチは、時間的制約、粗い、拡散、時には誤解を招く結果となり、ガウスノイズやぼやけなどのヒューリスティックなテクニックが採用され、臨床導入を妨げている。 そこで本研究では,ニューラルネットワークを用いた帰属法を導入することで,これらの障害を克服する。 提案手法は,局所的な画像摂動が予測値に与える影響を計測することにより,入力画像の正当領域を1つの前方通過で同定する。 我々は, 解剖学的に不明瞭であり, 敵の人工物を避けるために, 強い近傍条件の塗装アプローチでヒューリスティックな手法を置き換える。 マンモグラフィデータの評価を行い, 既存手法との比較を行った。 さらに,胸部X線での結果を示すことで,アプローチの一般化性を実証する。 本手法は, 時間効率を犠牲にすることなく, 定量的かつ定性的に, 局所化の曖昧さを著しく低減し, 伝達結果のクリア化を図っている。

The success of machine learning methods for computer vision tasks has driven a surge in computer assisted prediction for medicine and biology. Based on a data-driven relationship between input image and pathological classification, these predictors deliver unprecedented accuracy. Yet, the numerous approaches trying to explain the causality of this learned relationship have fallen short: time constraints, coarse, diffuse and at times misleading results, caused by the employment of heuristic techniques like Gaussian noise and blurring, have hindered their clinical adoption. In this work, we discuss and overcome these obstacles by introducing a neural-network based attribution method, applicable to any trained predictor. Our solution identifies salient regions of an input image in a single forward-pass by measuring the effect of local image-perturbations on a predictor's score. We replace heuristic techniques with a strong neighborhood conditioned inpainting approach, avoiding anatomically implausible, hence adversarial artifacts. We evaluate on public mammography data and compare against existing state-of-the-art methods. Furthermore, we exemplify the approach's generalizability by demonstrating results on chest X-rays. Our solution shows, both quantitatively and qualitatively, a significant reduction of localization ambiguity and clearer conveying results, without sacrificing time efficiency.
翻訳日:2022-11-10 23:25:24 公開日:2020-10-01
# マルチモーダルニュース検索のための特徴分析

A Feature Analysis for Multimodal News Retrieval ( http://arxiv.org/abs/2007.06390v2 )

ライセンス: Link先を確認
Golsa Tahmasebzadeh, Sherzod Hakimov, Eric M\"uller-Budack, Ralph Ewerth(参考訳) コンテンツに基づく情報検索は、キーワードなどのメタデータを使うのではなく、ドキュメントに含まれる情報に基づいて行われる。 ほとんどの情報検索方法はテキストまたは画像に基づいている。 本稿では,政治,健康,環境,スポーツ,金融など,多言語間ニュース検索におけるマルチモーダル機能の有用性について検討する。 この目的のために,画像とテキストの5つの特徴タイプを検討し,検索システムの性能を異なる組み合わせで比較する。 実験の結果,視覚情報とテキスト情報の両方を考慮すると検索結果が向上することがわかった。 さらに,テキスト特徴量間では単語埋め込みの重なりが優れており,また位置情報埋め込みは検索作業における視覚的特徴量よりも優れていた。

Content-based information retrieval is based on the information contained in documents rather than using metadata such as keywords. Most information retrieval methods are either based on text or image. In this paper, we investigate the usefulness of multimodal features for cross-lingual news search in various domains: politics, health, environment, sport, and finance. To this end, we consider five feature types for image and text and compare the performance of the retrieval system using different combinations. Experimental results show that retrieval results can be improved when considering both visual and textual information. In addition, it is observed that among textual features entity overlap outperforms word embeddings, while geolocation embeddings achieve better performance among visual features in the retrieval task.
翻訳日:2022-11-10 23:21:52 公開日:2020-10-01
# 小分子の構造進化のための深部逆強化学習

Deep Inverse Reinforcement Learning for Structural Evolution of Small Molecules ( http://arxiv.org/abs/2008.11804v2 )

ライセンス: Link先を確認
Brighter Agyemang, Wei-Ping Wu, Daniel Addo, Michael Y. Kpiebaareh, Ebenezer Nanor, Charles Roland Haruna(参考訳) 創薬パイプラインへの化学ライブラリーのサイズと品質は、新しい薬の開発や既存の薬の再利用に不可欠である。 コンビナトリアル有機合成や高スループットスクリーニングのような既存の技術は、合成可能な薬物の探索空間が非常に大きいため、通常、非常に困難で複雑になる。 強化学習は、主に新しい化合物を生成するための文献で活用されているが、学習目標を簡潔に表現する報酬関数を設計する必要性は、特定の複雑な領域において厄介な結果をもたらす可能性がある。 ジェネレーティブ・アドバイサル・ネットワークに基づく手法も、訓練後に差別者を排除し、訓練が困難になる可能性がある。 本研究では,複合発電機を訓練し,エントロピー最大化逆強化学習パラダイムに基づく伝達可能な報酬関数を学習するためのフレームワークを提案する。 本実験では,報奨機能工学の魅力が低かったり,あるいは不可能であったりする領域において,逆強化学習経路が化学化合物生成の合理的な代替手段となることを示す。

The size and quality of chemical libraries to the drug discovery pipeline are crucial for developing new drugs or repurposing existing drugs. Existing techniques such as combinatorial organic synthesis and High-Throughput Screening usually make the process extraordinarily tough and complicated since the search space of synthetically feasible drugs is exorbitantly huge. While reinforcement learning has been mostly exploited in the literature for generating novel compounds, the requirement of designing a reward function that succinctly represents the learning objective could prove daunting in certain complex domains. Generative Adversarial Network-based methods also mostly discard the discriminator after training and could be hard to train. In this study, we propose a framework for training a compound generator and learning a transferable reward function based on the entropy maximization inverse reinforcement learning paradigm. We show from our experiments that the inverse reinforcement learning route offers a rational alternative for generating chemical compounds in domains where reward function engineering may be less appealing or impossible while data exhibiting the desired objective is readily available.
翻訳日:2022-11-07 06:23:23 公開日:2020-10-01
# MLIRを用いたONNXニューラルネットワークモデルのコンパイル

Compiling ONNX Neural Network Models Using MLIR ( http://arxiv.org/abs/2008.08272v2 )

ライセンス: Link先を確認
Tian Jin, Gheorghe-Teodor Bercea, Tung D. Le, Tong Chen, Gong Su, Haruki Imai, Yasushi Negishi, Anh Leu, Kevin O'Brien, Kiyokuni Kawachiya, and Alexandre E. Eichenberger(参考訳) ディープニューラルネットワークモデルはますます普及し、コンピュータビジョン、音声認識、自然言語処理といった様々なタスクで使われている。 マシンラーニングモデルは通常、リソース豊富な環境でトレーニングされ、高可用性マシンやエッジデバイスなど、異なる環境にデプロイされる。 モデルの移植性を支援するため、オープンソースコミュニティはOpen Neural Network Exchange (ONNX)標準を提案した。 本稿では,ONNX形式で記述されたディープニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて,高レベルの予備報告を行う。 Onnx-mlirは、LLVMプロジェクトに最近統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャを使って実装されたオープンソースのコンパイラである。 Onnx-mlirはその機能を実装するためにMLIRの方言の概念に依存している。 本稿では,(1)onnx標準セマンティクスを符号化するonnx固有方言,(2)すべてのonnx方言操作に対して共通の下位点を提供するループ型方言の2つの新しい方言を提案する。 各中間表現は、それぞれグラフレベルとループベースの最適化の独自の特性セットを促進する。 提案した表現を通していくつかのモデルに従うことで、我々のアプローチを説明し、初期の最適化作業と性能結果を含む。

Deep neural network models are becoming increasingly popular and have been used in various tasks such as computer vision, speech recognition, and natural language processing. Machine learning models are commonly trained in a resource-rich environment and then deployed in a distinct environment such as high availability machines or edge devices. To assist the portability of models, the open-source community has proposed the Open Neural Network Exchange (ONNX) standard. In this paper, we present a high-level, preliminary report on our onnx-mlir compiler, which generates code for the inference of deep neural network models described in the ONNX format. Onnx-mlir is an open-source compiler implemented using the Multi-Level Intermediate Representation (MLIR) infrastructure recently integrated in the LLVM project. Onnx-mlir relies on the MLIR concept of dialects to implement its functionality. We propose here two new dialects: (1) an ONNX specific dialect that encodes the ONNX standard semantics, and (2) a loop-based dialect to provide for a common lowering point for all ONNX dialect operations. Each intermediate representation facilitates its own characteristic set of graph-level and loop-based optimizations respectively. We illustrate our approach by following several models through the proposed representations and we include some early optimization work and performance results.
翻訳日:2022-10-27 12:35:12 公開日:2020-10-01
# mr画像からのパッチベース脳年齢推定

Patch-based Brain Age Estimation from MR Images ( http://arxiv.org/abs/2008.12965v2 )

ライセンス: Link先を確認
Kyriaki-Margarita Bintsi, Vasileios Baltatzis, Arinbj\"orn Kolbeinsson, Alexander Hammers, Daniel Rueckert(参考訳) 磁気共鳴画像(MRI)による脳年齢推定は、被験者の生物学的脳年齢と時系列年齢の違いを導出する。 これは、例えばアルツハイマー病の一部としての神経変性の潜在的なバイオマーカーである。 神経変性の早期発見は、より高い脳年齢を呈し、より優れた医療と影響を受けた個人の計画を促進する可能性がある。 機械学習および特に深層学習技術を用いて、脳MRIから時系列年齢を予測するための多くの研究が提案されている。 本研究は,脳の体積全体を用いたほとんどの研究とは対照的に,脳の3次元パッチと畳み込みニューラルネットワーク(CNN)を用いて,局所的な脳年齢推定器を開発する新しいディープラーニングアプローチを開発した。 このようにして、脳年齢の推定に最も重要な役割を果たす領域の可視化が可能となり、解剖学的に駆動され、解釈可能な結果が得られ、心室と海馬が最も有益であることを示す関連文献を確認することができる。 さらに, 平均化や線形回帰といったアンサンブル法を用いて, 異なるパッチの結果を組み合わせることにより, 年齢推定タスク全体の性能を向上させるために, この知識を活用する。 ネットワークは英国バイオバンクのデータセットに基づいてトレーニングされており、この手法は純粋な地域推定のために平均絶対誤差を2.46年、バイアス補正の前にパッチのアンサンブルを2.13年、バイアス補正から1.96年で達成している。

Brain age estimation from Magnetic Resonance Images (MRI) derives the difference between a subject's biological brain age and their chronological age. This is a potential biomarker for neurodegeneration, e.g. as part of Alzheimer's disease. Early detection of neurodegeneration manifesting as a higher brain age can potentially facilitate better medical care and planning for affected individuals. Many studies have been proposed for the prediction of chronological age from brain MRI using machine learning and specifically deep learning techniques. Contrary to most studies, which use the whole brain volume, in this study, we develop a new deep learning approach that uses 3D patches of the brain as well as convolutional neural networks (CNNs) to develop a localised brain age estimator. In this way, we can obtain a visualization of the regions that play the most important role for estimating brain age, leading to more anatomically driven and interpretable results, and thus confirming relevant literature which suggests that the ventricles and the hippocampus are the areas that are most informative. In addition, we leverage this knowledge in order to improve the overall performance on the task of age estimation by combining the results of different patches using an ensemble method, such as averaging or linear regression. The network is trained on the UK Biobank dataset and the method achieves state-of-the-art results with a Mean Absolute Error of 2.46 years for purely regional estimates, and 2.13 years for an ensemble of patches before bias correction, while 1.96 years after bias correction.
翻訳日:2022-10-23 17:21:23 公開日:2020-10-01
# SEANet:マルチモーダル音声強調ネットワーク

SEANet: A Multi-modal Speech Enhancement Network ( http://arxiv.org/abs/2009.02095v2 )

ライセンス: Link先を確認
Marco Tagliasacchi, Yunpeng Li, Karolis Misiunas, Dominik Roblek(参考訳) 我々は,加速度センサデータを利用して雑音の多い環境で音声強調を行う可能性を探る。 加速度計からユーザの音声を部分的に再構築することは可能であるが、後者は環境のノイズ源から影響を受けない強いコンディショニング信号を提供する。 そこで,本研究では,特徴損失と逆損失を併用したウェーブ・トゥ・ウェーブ完全畳み込みモデルであるseanet (sound enhancement network) にマルチモーダル入力を供給し,ユーザの音声の強化版を再構築する。 耳介に装着したセンサから収集したデータを用いてモデルを訓練し,音声信号に様々なノイズ源を加えることで合成分解した。 実験の結果,同じレベルのラウドネスで音声を干渉する場合であっても,非常に高品質な結果が得られることがわかった。 我々のモデルが生成したアウトプットのサンプルはhttps://google-research.github.io/seanet/multimodal/speech.comで公開されている。

We explore the possibility of leveraging accelerometer data to perform speech enhancement in very noisy conditions. Although it is possible to only partially reconstruct user's speech from the accelerometer, the latter provides a strong conditioning signal that is not influenced from noise sources in the environment. Based on this observation, we feed a multi-modal input to SEANet (Sound EnhAncement Network), a wave-to-wave fully convolutional model, which adopts a combination of feature losses and adversarial losses to reconstruct an enhanced version of user's speech. We trained our model with data collected by sensors mounted on an earbud and synthetically corrupted by adding different kinds of noise sources to the audio signal. Our experimental results demonstrate that it is possible to achieve very high quality results, even in the case of interfering speech at the same level of loudness. A sample of the output produced by our model is available at https://google-research.github.io/seanet/multimodal/speech.
翻訳日:2022-10-22 02:25:12 公開日:2020-10-01
# 注意に基づく手書き独立筆跡検証

Attention based Writer Independent Handwriting Verification ( http://arxiv.org/abs/2009.04532v3 )

ライセンス: Link先を確認
Mohammad Abuzar Shaikh, Tiehang Duan, Mihir Chauhan, Sargur Srihari(参考訳) 著者検証のタスクは、クエリされた画像と既知の手書き画像のサンプルが同一のライターに属するかどうかの確率スコアを提供することである。 このようなタスクでは、ニューラルネットワークが結果の解釈を可能にするために、すなわち、ネットワークの意思決定プロセスへのビューを提供する必要があります。 2次元入力の特徴空間における高相関点と正解点を捉えるために,クロスアテンションとソフトアテンションの機構を実装し,統合する。 注意マップは、ネットワークの出力確率スコアの説明前提として機能する。 また、アテンション機構により、ネットワークは入力の関連領域に集中することができ、分類性能が向上する。 提案手法は,シーダーカーシブ"and"データセットにおけるライター内症例の検出精度を86\%向上させる。 さらに,ネットワークの複数レベルから注目マップを抽出することにより,提案した決定に対して意味のある説明を生成する。

The task of writer verification is to provide a likelihood score for whether the queried and known handwritten image samples belong to the same writer or not. Such a task calls for the neural network to make it's outcome interpretable, i.e. provide a view into the network's decision making process. We implement and integrate cross-attention and soft-attention mechanisms to capture the highly correlated and salient points in feature space of 2D inputs. The attention maps serve as an explanation premise for the network's output likelihood score. The attention mechanism also allows the network to focus more on relevant areas of the input, thus improving the classification performance. Our proposed approach achieves a precision of 86\% for detecting intra-writer cases in CEDAR cursive "AND" dataset. Furthermore, we generate meaningful explanations for the provided decision by extracting attention maps from multiple levels of the network.
翻訳日:2022-10-21 02:02:19 公開日:2020-10-01
# 非定常離散時間線形量子平均場ゲームにおける強化学習

Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic Mean-Field Games ( http://arxiv.org/abs/2009.04350v3 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Kaiqing Zhang, Erik Miehling, and Tamer Ba\c{s}ar(参考訳) 本稿では,大規模マルチエージェント強化学習(RL)を,離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈で検討する。 我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。 本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。 主な課題は2つあります i) MFGの非定常性は、標準(因数)RLアルゴリズムでは解けない逆向き(非因数)方程式を解く必要がある線形二乗追跡問題を誘導する。 ii) 多くのrlアルゴリズムは、状態がマルコフ連鎖(mc)の定常分布からサンプリングされていると仮定している。 まず,平均場軌道が線形ダイナミクスに従うことを確認し,問題を線形二次ガウス問題として再定式化する。 そこで本研究では,非混合型mcからサンプルを抽出できるアクタ-クリティックアルゴリズムを提案する。 その後、アルゴリズムの有限サンプル収束保証が提供される。 マルチエージェントRLにおけるアルゴリズムの性能を特徴付けるため,有限ポピュレーションゲームのナッシュ平衡に関する誤差を開発した。

In this paper, we study large population multi-agent reinforcement learning (RL) in the context of discrete-time linear-quadratic mean-field games (LQ-MFGs). Our setting differs from most existing work on RL for MFGs, in that we consider a non-stationary MFG over an infinite horizon. We propose an actor-critic algorithm to iteratively compute the mean-field equilibrium (MFE) of the LQ-MFG. There are two primary challenges: i) the non-stationarity of the MFG induces a linear-quadratic tracking problem, which requires solving a backwards-in-time (non-causal) equation that cannot be solved by standard (causal) RL algorithms; ii) Many RL algorithms assume that the states are sampled from the stationary distribution of a Markov chain (MC), that is, the chain is already mixed, an assumption that is not satisfied for real data sources. We first identify that the mean-field trajectory follows linear dynamics, allowing the problem to be reformulated as a linear quadratic Gaussian problem. Under this reformulation, we propose an actor-critic algorithm that allows samples to be drawn from an unmixed MC. Finite-sample convergence guarantees for the algorithm are then provided. To characterize the performance of our algorithm in multi-agent RL, we have developed an error bound with respect to the Nash equilibrium of the finite-population game.
翻訳日:2022-10-20 12:25:35 公開日:2020-10-01
# CLEVR Parser: 言語接地画像シーンの幾何学的学習のためのグラフパーザライブラリ

CLEVR Parser: A Graph Parser Library for Geometric Learning on Language Grounded Image Scenes ( http://arxiv.org/abs/2009.09154v2 )

ライセンス: Link先を確認
Raeid Saqur and Ameet Deshpande(参考訳) CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。 本稿では,オブジェクト中心属性と関係抽出のための機能を提供し,双対モダリティのための構造グラフ表現を構築するclevrのためのグラフパーサライブラリを提案する。 構造的順序不変表現は幾何学的学習を可能にし、視覚、ロボット工学、構成性、解釈可能性、計算文法構築などの下流タスクを支援する。 私たちは3つの拡張可能なメインコンポーネント – パーサ,埋め込み,ビジュアライザ – を提供しています。 また、人気のあるディープグラフニューラルネットワーク(GNN)ライブラリとシームレスに統合するためのアウトオブボックス機能も提供しています。 さらに,図書館の下流利用と応用,NLP研究コミュニティにおける研究の促進について論じる。

The CLEVR dataset has been used extensively in language grounded visual reasoning in Machine Learning (ML) and Natural Language Processing (NLP) domains. We present a graph parser library for CLEVR, that provides functionalities for object-centric attributes and relationships extraction, and construction of structural graph representations for dual modalities. Structural order-invariant representations enable geometric learning and can aid in downstream tasks like language grounding to vision, robotics, compositionality, interpretability, and computational grammar construction. We provide three extensible main components - parser, embedder, and visualizer that can be tailored to suit specific learning setups. We also provide out-of-the-box functionality for seamless integration with popular deep graph neural network (GNN) libraries. Additionally, we discuss downstream usage and applications of the library, and how it accelerates research for the NLP research community.
翻訳日:2022-10-16 21:20:44 公開日:2020-10-01
# 音声書き起こしのテキスト表現におけるフィラーの重要性

The importance of fillers for text representations of speech transcripts ( http://arxiv.org/abs/2009.11340v2 )

ライセンス: Link先を確認
Tanvi Dinkar, Pierre Colombo, Matthieu Labeau and Chlo\'e Clavel(参考訳) 音声言語の本質的な構成要素である一方で、補充語(e.g.um" や "uh" など)はスポケン言語理解(SLU)タスクでは見落とされがちである。 話者の姿勢を予測し,自信を表わすような,話し言葉のモデル化と2つの下流タスクの改善を示す。

While being an essential component of spoken language, fillers (e.g."um" or "uh") often remain overlooked in Spoken Language Understanding (SLU) tasks. We explore the possibility of representing them with deep contextualised embeddings, showing improvements on modelling spoken language and two downstream tasks - predicting a speaker's stance and expressed confidence.
翻訳日:2022-10-15 16:12:11 公開日:2020-10-01
# グロス選択目的と例文を用いた単語センス曖昧化のためのBERTの適用

Adapting BERT for Word Sense Disambiguation with Gloss Selection Objective and Example Sentences ( http://arxiv.org/abs/2009.11795v2 )

ライセンス: Link先を確認
Boon Peng Yap, Andrew Koh and Eng Siong Chng(参考訳) BERTのような事前訓練された言語モデルを用いたドメイン適応や伝達学習は、多くの自然言語処理タスクにおいて効果的なアプローチであることが証明されている。 本研究では,単語感覚の曖昧さを関連性ランキングタスクとして定式化し,シーケンスペアランキングタスクの細いBERTを用いて,文脈文と候補感覚定義のリストを与えられた最も確率の高い感覚定義を選択することを提案する。 また,既存のWordNetの例文を用いたWSDデータ拡張手法についても紹介する。 提案した学習目標とデータ拡張技術を用いて、我々のモデルは英語の全単語ベンチマークデータセットで最先端の結果を得ることができる。

Domain adaptation or transfer learning using pre-trained language models such as BERT has proven to be an effective approach for many natural language processing tasks. In this work, we propose to formulate word sense disambiguation as a relevance ranking task, and fine-tune BERT on sequence-pair ranking task to select the most probable sense definition given a context sentence and a list of candidate sense definitions. We also introduce a data augmentation technique for WSD using existing example sentences from WordNet. Using the proposed training objective and data augmentation technique, our models are able to achieve state-of-the-art results on the English all-words benchmark datasets.
翻訳日:2022-10-15 04:04:06 公開日:2020-10-01
# DialoGLUE:タスク指向対話のための自然言語理解ベンチマーク

DialoGLUE: A Natural Language Understanding Benchmark for Task-Oriented Dialogue ( http://arxiv.org/abs/2009.13570v2 )

ライセンス: Link先を確認
Shikib Mehri, Mihail Eric, Dilek Hakkani-Tur(参考訳) タスク指向対話研究の長年の目標は、新しいドメインに柔軟に対話モデルを適用する能力である。 本研究を進めるために,4つの異なる自然言語理解タスクをカバーする7つのタスク指向対話データセットからなる公開ベンチマークであるdialoglue (dialogue language understanding evaluation)を紹介する。 我々は,大規模なオープンドメイン対話コーパスとタスク適応型自己教師付きトレーニングを事前トレーニングすることにより,バニラbertアーキテクチャと7タスク中5タスクの最先端結果に対するパフォーマンス向上を示す,いくつかの強力なベースラインモデルをリリースする。 DialoGLUEベンチマーク、ベースライン手法、評価スクリプトを通じて、我々はより汎用的なタスク指向対話モデルを開発する目標に向けて前進したいと考えている。

A long-standing goal of task-oriented dialogue research is the ability to flexibly adapt dialogue models to new domains. To progress research in this direction, we introduce DialoGLUE (Dialogue Language Understanding Evaluation), a public benchmark consisting of 7 task-oriented dialogue datasets covering 4 distinct natural language understanding tasks, designed to encourage dialogue research in representation-based transfer, domain adaptation, and sample-efficient task learning. We release several strong baseline models, demonstrating performance improvements over a vanilla BERT architecture and state-of-the-art results on 5 out of 7 tasks, by pre-training on a large open-domain dialogue corpus and task-adaptive self-supervised training. Through the DialoGLUE benchmark, the baseline methods, and our evaluation scripts, we hope to facilitate progress towards the goal of developing more general task-oriented dialogue models.
翻訳日:2022-10-13 20:47:15 公開日:2020-10-01
# 行動する前に考える:構成一般化のための単純なベースライン

Think before you act: A simple baseline for compositional generalization ( http://arxiv.org/abs/2009.13962v2 )

ライセンス: Link先を確認
Christina Heinze-Deml and Diane Bouchacourt(参考訳) 慣れ親しんだ表現を組み換えて新しい表現を作り出す能力を持つ人間に対して、現代のニューラルネットワークはそれを行うのに苦労する。 これは最近、基底言語理解における構成一般化におけるモデルの性能評価を目的としたベンチマークデータセット"gSCAN"(Ruis et al. 2020)の導入によって強調されている。 本稿では,2つの gSCAN テスト分割に対して驚くほど優れた性能を示す単純なモデルを提案することで,gSCAN ベンチマークに挑戦する。 我々のモデルは、gSCANタスクを成功させるためには、エージェントがなければならないという観察に基づいている。 (i)対象物(考え)を事前に識別する (ii)成功に導くこと(法律) 具体的には,ステップの逐次的性質を考慮した補助損失を伴うベースラインモデル(ruis et al. 2020)の注意を引いた修正を提案する。 (i)および (ii) 2つの構成タスクは自明に解決されるが,他のタスクは未解決のままであり,gscanがモデルの構成能力を評価するベンチマークとしての有用性を検証する。

Contrarily to humans who have the ability to recombine familiar expressions to create novel ones, modern neural networks struggle to do so. This has been emphasized recently with the introduction of the benchmark dataset "gSCAN" (Ruis et al. 2020), aiming to evaluate models' performance at compositional generalization in grounded language understanding. In this work, we challenge the gSCAN benchmark by proposing a simple model that achieves surprisingly good performance on two of the gSCAN test splits. Our model is based on the observation that, to succeed on gSCAN tasks, the agent must (i) identify the target object (think) before (ii) navigating to it successfully (act). Concretely, we propose an attention-inspired modification of the baseline model from (Ruis et al. 2020), together with an auxiliary loss, that takes into account the sequential nature of steps (i) and (ii). While two compositional tasks are trivially solved with our approach, we also find that the other tasks remain unsolved, validating the relevance of gSCAN as a benchmark for evaluating models' compositional abilities.
翻訳日:2022-10-13 05:26:04 公開日:2020-10-01
# 準確率近似による最適化と強化学習の高速化

Accelerating Optimization and Reinforcement Learning with Quasi-Stochastic Approximation ( http://arxiv.org/abs/2009.14431v2 )

ライセンス: Link先を確認
Shuhang Chen, Adithya Devraj, Andrey Bernstein and Sean Meyn(参考訳) ODE法は確率近似の導入以来,アルゴリズムの設計と解析の作業場となっている。 現在、収束理論は ODE に対するオイラー近似の堅牢性を確立し、収束率の理論はより微細な解析を必要とすると理解されている。 本稿では、この理論を「ノイズ」が決定論的信号に基づくアルゴリズムに基づく準確率近似に拡張することを目的とする。 主な結果は最小の仮定で得られる: ODE ベクトル場に対する通常のリプシッツ条件、そして Hurwitz の線型化行列 $A^*$ が最適パラメータ $\theta^*$ の近くでよく定義された線型化が存在すると仮定される。 主な貢献は以下のとおりである。 (i)アルゴリズムのゲインが$a_t=g/(1+t)^\rho$で$g>0$と$\rho\in(0,1)$の場合、アルゴリズムの収束率は1/t^\rho$である。 a_t^{-1}\{\theta_t-\theta^*\}=\bar{Y}+\Xi^{\mathrm{I}}_t+o(1) \] ここで、$\bar{Y}\in\mathbb{R}^d$は論文で同定されたベクトルであり、$\{\Xi^{\mathrm{I}}_t\}$はゼロ時間平均で有界である。 (ii)$a_t = g/(1+t)$ の場合、結果はそれほど鋭くはない: 1/t$ の収束率は、$i + g a^*$ が hurwitz である場合にのみ成り立つ。 (iii) 確率近似の ruppert-polyak 平均化に基づいて、1/t$ の収束率は平均化によって得られると期待できる: \[ \theta^{\text{rp}}_t=\frac{1}{t}\int_{0}^t \theta_t\,dt \] ここで、ゲインを用いて$\{\theta_t\}$ の見積が得られる。 (i)。 前回のシャープな境界は、平均化が1/t$収束率をもたらすことを暗示する:$\bar{Y}=\sf 0$ である。 この条件は、雑音が加法的であるならば成り立つが、一般には失敗するように見える。 (iv)この理論は、強化学習のための勾配なし最適化とポリシー勾配アルゴリズムへの応用を例証する。

The ODE method has been a workhorse for algorithm design and analysis since the introduction of the stochastic approximation. It is now understood that convergence theory amounts to establishing robustness of Euler approximations for ODEs, while theory of rates of convergence requires finer analysis. This paper sets out to extend this theory to quasi-stochastic approximation, based on algorithms in which the "noise" is based on deterministic signals. The main results are obtained under minimal assumptions: the usual Lipschitz conditions for ODE vector fields, and it is assumed that there is a well defined linearization near the optimal parameter $\theta^*$, with Hurwitz linearization matrix $A^*$. The main contributions are summarized as follows: (i) If the algorithm gain is $a_t=g/(1+t)^\rho$ with $g>0$ and $\rho\in(0,1)$, then the rate of convergence of the algorithm is $1/t^\rho$. There is also a well defined "finite-$t$" approximation: \[ a_t^{-1}\{\Theta_t-\theta^*\}=\bar{Y}+\Xi^{\mathrm{I}}_t+o(1) \] where $\bar{Y}\in\mathbb{R}^d$ is a vector identified in the paper, and $\{\Xi^{\mathrm{I}}_t\}$ is bounded with zero temporal mean. (ii) With gain $a_t = g/(1+t)$ the results are not as sharp: the rate of convergence $1/t$ holds only if $I + g A^*$ is Hurwitz. (iii) Based on the Ruppert-Polyak averaging of stochastic approximation, one would expect that a convergence rate of $1/t$ can be obtained by averaging: \[ \Theta^{\text{RP}}_T=\frac{1}{T}\int_{0}^T \Theta_t\,dt \] where the estimates $\{\Theta_t\}$ are obtained using the gain in (i). The preceding sharp bounds imply that averaging results in $1/t$ convergence rate if and only if $\bar{Y}=\sf 0$. This condition holds if the noise is additive, but appears to fail in general. (iv) The theory is illustrated with applications to gradient-free optimization and policy gradient algorithms for reinforcement learning.
翻訳日:2022-10-13 00:20:30 公開日:2020-10-01
# AIを探索的プロセスとして説明する - ペルセアンアブダクションモデル

Explaining AI as an Exploratory Process: The Peircean Abduction Model ( http://arxiv.org/abs/2009.14795v2 )

ライセンス: Link先を確認
Robert R. Hoffman, William J. Clancey, and Shane T. Mueller(参考訳) 説明可能なAI(XAI)に関する現在の議論は、説明的推論における誘拐の役割をあまり考慮していない(Mueller, et al., 2018)。 これを追求し、帰納的推論の観察と分析と、学習可能なスキルとしての帰納的推論の評価を可能にするインテリジェントなシステムを開発することは価値があるかもしれない。 帰納的推論は様々な方法で定義されている。 例えば、それは洞察の達成として定義されている。 たいていの誘拐は、ある前提から誘惑的または帰納的推論をするなど、単一の、句読的推論の行為として扱われる。 対照的に、アメリカの科学者で哲学者のチャールズ・サンダース・パース(charles sanders peirce)は、アブダクションを探索的な活動として考えていた。 この観点から、パースの推論に関する洞察は、現代の心理学研究の結論と一致している。 誘拐はしばしば「最良の説明の推論」と定義されるため、帰納的推論の実装の課題と説明プロセスの自動化の課題は密接に関連している。 本報告ではこれらの関連について検討する。 この分析は、XAI研究者がすでに行っていることを理解するための理論的フレームワークを提供し、XAIプロジェクトが成功した(あるいは成功した)理由を説明し、設計アドバイスにつながる。

Current discussions of "Explainable AI" (XAI) do not much consider the role of abduction in explanatory reasoning (see Mueller, et al., 2018). It might be worthwhile to pursue this, to develop intelligent systems that allow for the observation and analysis of abductive reasoning and the assessment of abductive reasoning as a learnable skill. Abductive inference has been defined in many ways. For example, it has been defined as the achievement of insight. Most often abduction is taken as a single, punctuated act of syllogistic reasoning, like making a deductive or inductive inference from given premises. In contrast, the originator of the concept of abduction---the American scientist/philosopher Charles Sanders Peirce---regarded abduction as an exploratory activity. In this regard, Peirce's insights about reasoning align with conclusions from modern psychological research. Since abduction is often defined as "inferring the best explanation," the challenge of implementing abductive reasoning and the challenge of automating the explanation process are closely linked. We explore these linkages in this report. This analysis provides a theoretical framework for understanding what the XAI researchers are already doing, it explains why some XAI projects are succeeding (or might succeed), and it leads to design advice.
翻訳日:2022-10-12 23:45:07 公開日:2020-10-01
# superquantile-based supervised learningにおける一階最適化

First-order Optimization for Superquantile-based Supervised Learning ( http://arxiv.org/abs/2009.14575v2 )

ライセンス: Link先を確認
Yassine Laguel, J\'er\^ome Malick and Zaid Harchaoui(参考訳) 経験的リスク(あるいは負のログ同化)による古典的な教師付き学習は、テスト分布がトレーニング分布と一致するという仮定にかかっている。 この仮定は、機械学習の現代的な応用において、学習機械がトレーニングデータから分布を逸脱したテストデータを用いて予測時に動作させることができる。 我々は,超量子型学習目標を最小化する一階最適化アルゴリズムを提案することにより,超量子回帰法を再検討する。 提案アルゴリズムは,不完全な畳み込みによる超量子関数の平滑化に基づく。 有望な数値結果は、より安全な教師付き学習へのアプローチの関心を示している。

Classical supervised learning via empirical risk (or negative log-likelihood) minimization hinges upon the assumption that the testing distribution coincides with the training distribution. This assumption can be challenged in modern applications of machine learning in which learning machines may operate at prediction time with testing data whose distribution departs from the one of the training data. We revisit the superquantile regression method by proposing a first-order optimization algorithm to minimize a superquantile-based learning objective. The proposed algorithm is based on smoothing the superquantile function by infimal convolution. Promising numerical results illustrate the interest of the approach towards safer supervised learning.
翻訳日:2022-10-12 23:09:33 公開日:2020-10-01
# 深層学習のための象徴的手法 : 挑戦と機会

Symbolic Techniques for Deep Learning: Challenges and Opportunities ( http://arxiv.org/abs/2010.02727v1 )

ライセンス: Link先を確認
Belinda Fang, Elaine Yang, and Fei Xie(参考訳) ディープラーニングフレームワークの数が増え、その人気が高まるにつれて、これらのフレームワークで採用されている方法論と、その背後にある理由に関する議論が促進される。 本調査の目的は,深層学習における記号的手法の活用方法を検討することである。 これを実現するために、tensorflow、keras、pytorch、mxnetなど、現在使われている最も人気のあるディープラーニングフレームワークをいくつか検討しています。 これらのフレームワークは互いに大きく異なるが、その多くはシンボリックな実行やグラフ、プログラミングなど、象徴的なテクニックを使用している。 この論文は、ニューラルネットワークの構築方法だけでなく、実行方法にも影響を及ぼすため、象徴的なテクニックに焦点をあてる。 記号技法の限界は、深層学習における記号的側面と非記号的側面を統合する努力につながり、記号的技法の新しい可能性を開く。 例えば、Apache MXNetによるGluon APIは、命令型プログラミングとハイブリッド化によるシンボル実行のギャップを埋めている。 JANUSのようなフレームワークは命令型プログラムをシンボリックグラフに変換しようとするが、DeepCheckのようなアプローチは命令型ニューラルネットワークプログラムを分析し検証するためにシンボル型実行を使用しようとする。 シンボリック解析は、ディープニューラルネットワークをより良くテストするために、concolic testingと呼ばれるテクニックで具体的な実行と組み合わせられている。 これらの開発に関する我々の研究は、人気のあるフレームワークが採用するシンボリックテクニックが、よりよいパフォーマンスを達成するために変更され活用される機会を持つ多くの方法のほんの一部を例示しています。

As the number of deep learning frameworks increase and certain ones gain popularity, it spurs the discussion of what methodologies are employed by these frameworks and the reasoning behind them. The goal of this survey is to study how symbolic techniques are utilized in deep learning. To do this, we look at some of the most popular deep learning frameworks being used today, including TensorFlow, Keras, PyTorch, and MXNet. While these frameworks greatly differ from one another, many of them use symbolic techniques, whether it be symbolic execution, graphs, or programming. We focus this paper on symbolic techniques because they influence not only how neural networks are built but also the way in which they are executed. Limitations of symbolic techniques have led to efforts in integrating symbolic and nonsymbolic aspects in deep learning, opening up new possibilities for symbolic techniques. For example, the Gluon API by Apache MXNet bridges the gap between imperative programming and symbolic execution through hybridization. Frameworks such as JANUS attempt to translate imperative programs into symbolic graphs, while approaches like DeepCheck attempt to use symbolic execution to analyze and validate imperative neural network programs. Symbolic analysis has also been paired with concrete execution in a technique called concolic testing in order to better test deep neural networks. Our study of these developments exemplifies just a few of the many ways the symbolic techniques employed by popular frameworks have the opportunity to be altered and utilized to achieve better performance.
翻訳日:2022-10-12 08:59:57 公開日:2020-10-01
# LES閉鎖項のための機械学習フレームワーク

A machine learning framework for LES closure terms ( http://arxiv.org/abs/2010.03030v1 )

ライセンス: Link先を確認
Marius Kurz and Andrea Beck(参考訳) 本研究では,粗いデータのみから大規模渦シミュレーション(les)の閉包条件を予測するための人工ニューラルネットワーク(ann)の能力について検討する。 この目的のために我々は、暗黙的離散化に基づくフィルタと数値近似誤差を組み込んだ、les閉包モデルの一貫した枠組みを導出する。 非連続的ガレルキンと有限体積スキームの解表現に触発された暗黙的フィルタタイプを調査し、離散化演算子の挙動を模倣し、典型的な明示的lesフィルタの代表として大域的フーリエカットオフフィルタを提案する。 完全LESフレームワーク内では、崩壊等方性等方性乱流の直接数値シミュレーション結果から、異なるLESフィルタ関数の正確な閉包項を計算する。 多層パーセプトロン(MLP)またはゲートリカレントユニット(GRU)アーキテクチャを持つ複数のANNをトレーニングし、粗大な入力データからのみ計算されたクロージャ項を予測する。 与えられたアプリケーションでは、gruアーキテクチャがmlpネットワークを正確性の観点から明らかに上回っており、ネットワークの予測と考慮されたすべてのフィルタ関数の正確なクロージャ項との相関は最大99.9%に達する。 また、GRUネットワークは様々なLESフィルタと解像度でよく一般化されている。 そこで本研究では,LESデータに基づくモデリング手法の研究の出発点として,物理クロージャ項を含むだけでなく,暗黙的にフィルタリングしたLESにおける離散化効果も考慮する。

In the present work, we explore the capability of artificial neural networks (ANN) to predict the closure terms for large eddy simulations (LES) solely from coarse-scale data. To this end, we derive a consistent framework for LES closure models, with special emphasis laid upon the incorporation of implicit discretization-based filters and numerical approximation errors. We investigate implicit filter types, which are inspired by the solution representation of discontinuous Galerkin and finite volume schemes and mimic the behaviour of the discretization operator, and a global Fourier cutoff filter as a representative of a typical explicit LES filter. Within the perfect LES framework, we compute the exact closure terms for the different LES filter functions from direct numerical simulation results of decaying homogeneous isotropic turbulence. Multiple ANN with a multilayer perceptron (MLP) or a gated recurrent unit (GRU) architecture are trained to predict the computed closure terms solely from coarse-scale input data. For the given application, the GRU architecture clearly outperforms the MLP networks in terms of accuracy, whilst reaching up to 99.9% cross-correlation between the networks' predictions and the exact closure terms for all considered filter functions. The GRU networks are also shown to generalize well across different LES filters and resolutions. The present study can thus be seen as a starting point for the investigation of data-based modeling approaches for LES, which not only include the physical closure terms, but account for the discretization effects in implicitly filtered LES as well.
翻訳日:2022-10-12 08:59:31 公開日:2020-10-01
# 脳波による歌の分類

Classifying Songs with EEG ( http://arxiv.org/abs/2010.04087v1 )

ライセンス: Link先を確認
Prashant Lawhatre, Bharatesh R Shiraguppi, Esha Sharma, Krishna Prasad Miyapuram, Derek Lomas(参考訳) 本研究では,音楽に対する脳波応答を特徴付けるための機械学習手法を提案する。 具体的には,脳波応答の共鳴が個々の審美的快楽とどのように相関するかを検討する。 音楽処理を共鳴という概念に触発されて、審美経験の強さは、被験者の脳波が知覚的入力にどのように訓練するかに基づいていると仮定する。 これや他の仮説をテストするために、20人の被験者から12分間の曲をランダムに聴くEEGデータセットを構築した。 事前処理と機能構築の後、このデータセットを使用して複数の機械学習モデルをトレーニングし、テストしました。

This research study aims to use machine learning methods to characterize the EEG response to music. Specifically, we investigate how resonance in the EEG response correlates with individual aesthetic enjoyment. Inspired by the notion of musical processing as resonance, we hypothesize that the intensity of an aesthetic experience is based on the degree to which a participants EEG entrains to the perceptual input. To test this and other hypotheses, we have built an EEG dataset from 20 subjects listening to 12 two minute-long songs in random order. After preprocessing and feature construction, we used this dataset to train and test multiple machine learning models.
翻訳日:2022-10-12 08:59:04 公開日:2020-10-01
# ディープメモリ接続ネットワークを用いた高画質リモートセンシング画像超解像

High Quality Remote Sensing Image Super-Resolution Using Deep Memory Connected Network ( http://arxiv.org/abs/2010.00472v1 )

ライセンス: Link先を確認
Wenjia Xu, Guangluan Xu, Yang Wang, Xian Sun, Daoyu Lin, Yirong Wu(参考訳) 単一画像超解像はリモートセンシング画像の空間分解能を高める効果的な方法であり、ターゲット検出や画像分類といった多くの用途において重要である。 しかし、ニューラルネットワークに基づく既存の手法は通常、小さな受容野を持ち、画像の詳細を無視する。 本稿では,畳み込みニューラルネットワークによる高画質超解像画像の再構成手法として,DeepMemory Connected Network (DMCN)を提案する。 ローカルおよびグローバルなメモリ接続を構築し、画像の詳細と環境情報を組み合わせる。 さらにパラメータの削減と時間短縮を目的として,特徴マップの空間的サイズを縮小したダウンサンプリング単位を提案する。 空間分解能の異なる3つのリモートセンシングデータセット上でDMCNをテストする。 実験結果から,現在の最先端技術よりも精度と視覚性能が向上することが示唆された。

Single image super-resolution is an effective way to enhance the spatial resolution of remote sensing image, which is crucial for many applications such as target detection and image classification. However, existing methods based on the neural network usually have small receptive fields and ignore the image detail. We propose a novel method named deep memory connected network (DMCN) based on a convolutional neural network to reconstruct high-quality super-resolution images. We build local and global memory connections to combine image detail with environmental information. To further reduce parameters and ease time-consuming, we propose downsampling units, shrinking the spatial size of feature maps. We test DMCN on three remote sensing datasets with different spatial resolution. Experimental results indicate that our method yields promising improvements in both accuracy and visual performance over the current state-of-the-art.
翻訳日:2022-10-12 08:56:46 公開日:2020-10-01
# PHASED:相認識サブモジュール性に基づくエネルギー分散

PHASED: Phase-Aware Submodularity-Based Energy Disaggregation ( http://arxiv.org/abs/2010.00696v1 )

ライセンス: Link先を確認
Faisal M. Almutairi, Aritra Konar, Ahmed S. Zamzam, and Nicholas D. Sidiropoulos(参考訳) エネルギー分解(エネルギディスアグリゲーション)は、エネルギー使用の理解と削減を約束する総合的な測定から個々の家電のエネルギー消費量を識別するタスクである。 本稿では,エネルギー分散のための最適化手法であるphasedを提案する。 (i)既存の方法によって無視される容易に利用可能な測定値を利用するために配電系統の構造を利用する。 (ii)部分モジュラー関数の違いの最小化として問題を提起する。 この形式を主化最小化アルゴリズムの離散最適化変種を適用し、コスト関数の全体上界列を反復的に最小化し、高品質な近似解を得る。 phasedは最先端モデルの分散精度を最大61%向上させ、重負荷機器でのより良い予測を実現する。

Energy disaggregation is the task of discerning the energy consumption of individual appliances from aggregated measurements, which holds promise for understanding and reducing energy usage. In this paper, we propose PHASED, an optimization approach for energy disaggregation that has two key features: PHASED (i) exploits the structure of power distribution systems to make use of readily available measurements that are neglected by existing methods, and (ii) poses the problem as a minimization of a difference of submodular functions. We leverage this form by applying a discrete optimization variant of the majorization-minimization algorithm to iteratively minimize a sequence of global upper bounds of the cost function to obtain high-quality approximate solutions. PHASED improves the disaggregation accuracy of state-of-the-art models by up to 61% and achieves better prediction on heavy load appliances.
翻訳日:2022-10-12 08:56:33 公開日:2020-10-01
# 石油・ガス探査における物理ワークフローを最適化するcraysの機械学習

Machine learning on Crays to optimise petrophysical workflows in oil and gas exploration ( http://arxiv.org/abs/2010.02087v1 )

ライセンス: Link先を確認
Nick Brown, Anna Roubickova, Ioanna Lampaki, Lucy MacGregor, Michelle Ellis, Paola Vera de Newton(参考訳) 石油とガス産業は、海底の岩石と流体の特性を特徴づけるために使用される地下データで溢れている。 これにより、商業的な意思決定と探索が促進されるが、業界は現在、データ処理において非常に手動のワークフローに依存している。 重要な疑問は、炭化水素を探索する石油物理学者の活動を補完するために機械学習を使ってこれを改善できるかどうかである。 本稿では、Cray XC30上で教師付き機械学習を用いて、Rock Solid Images(RSI)と共同で、手動データ解釈プロセスを効率化するモデルをトレーニングする作業を行う。 本論文では, 石油物理解釈ワークフローの4段階のそれぞれを完了させるため, 生の井戸ログデータを用いて訓練した数理モデルを用いて, 初期のデータクリーニングとともに, 石油物理解釈の時間を7日以上から7分に短縮することを目的としている。 これらのモデルからの予測は、人間の石油物理学者の解釈と、我々のモデルの予測を最適化するために使われた多くのオプションとテクニックとを比較した。 Crayマシンのような現代のスーパーコンピュータが提供するパワーは重要であるが、現代のHPCマシンを最大限に活用することのできる機械学習フレームワークはいくつかある。 そのために、使用した機械学習ツールの適合性についても検討し、その制限を回避したステップについて説明します。 この研究の成果は、初めて、石油物理学のワークフロー全体に対して機械学習を使用する能力である。 多くの課題、制限、注意事項があるが、機械学習が地下データの処理において重要な役割を果たしていることを示す。

The oil and gas industry is awash with sub-surface data, which is used to characterize the rock and fluid properties beneath the seabed. This in turn drives commercial decision making and exploration, but the industry currently relies upon highly manual workflows when processing data. A key question is whether this can be improved using machine learning to complement the activities of petrophysicists searching for hydrocarbons. In this paper we present work done, in collaboration with Rock Solid Images (RSI), using supervised machine learning on a Cray XC30 to train models that streamline the manual data interpretation process. With a general aim of decreasing the petrophysical interpretation time down from over 7 days to 7 minutes, in this paper we describe the use of mathematical models that have been trained using raw well log data, for completing each of the four stages of a petrophysical interpretation workflow, along with initial data cleaning. We explore how the predictions from these models compare against the interpretations of human petrophysicists, along with numerous options and techniques that were used to optimise the prediction of our models. The power provided by modern supercomputers such as Cray machines is crucial here, but some popular machine learning framework are unable to take full advantage of modern HPC machines. As such we will also explore the suitability of the machine learning tools we have used, and describe steps we took to work round their limitations. The result of this work is the ability, for the first time, to use machine learning for the entire petrophysical workflow. Whilst there are numerous challenges, limitations and caveats, we demonstrate that machine learning has an important role to play in the processing of sub-surface data.
翻訳日:2022-10-12 08:56:17 公開日:2020-10-01
# 事前知識のないロバストモデルフリー学習と制御

Robust Model-Free Learning and Control without Prior Knowledge ( http://arxiv.org/abs/2010.00204v1 )

ライセンス: Link先を確認
Dimitar Ho and John Doyle(参考訳) 本稿では,任意の有界外乱やノイズシーケンスを条件とした,未知の離散時間線形システムの完全制御と状態フィードバックを頑健に学習し,安定化する,シンプルなモデル自由制御アルゴリズムを提案する。 コントローラはシステムのダイナミクスや外乱、ノイズに関する事前の知識を必要としないが、堅牢な安定性を保証でき、状態や入力トラジェクタに対する漸近的かつ最悪の境界を提供する。 私たちの知る限りでは、このアルゴリズムはシステムに関する事前の仮定をすることなく、堅牢な安定性を保証する最初のモデルフリーなアルゴリズムである。 我々は, 安定解析に向け, 凸幾何学に基づく新しいアプローチを強調し, 結果の重要な有効要因となった。 一般化と簡易性にもかかわらず、制御器はクローズドループ性能がよいことを示すシミュレーション結果で結論付ける。

We present a simple model-free control algorithm that is able to robustly learn and stabilize an unknown discrete-time linear system with full control and state feedback subject to arbitrary bounded disturbance and noise sequences. The controller does not require any prior knowledge of the system dynamics, disturbances, or noise, yet it can guarantee robust stability and provides asymptotic and worst-case bounds on the state and input trajectories. To the best of our knowledge, this is the first model-free algorithm that comes with such robust stability guarantees without the need to make any prior assumptions about the system. We would like to highlight the new convex geometry-based approach taken towards robust stability analysis which served as a key enabler in our results. We will conclude with simulation results that show that despite the generality and simplicity, the controller demonstrates good closed-loop performance.
翻訳日:2022-10-12 08:55:15 公開日:2020-10-01
# 胸部CTにおけるCOVID-19感染定量化のための深層学習システム

Automatic Deep Learning System for COVID-19 Infection Quantification in chest CT ( http://arxiv.org/abs/2010.01982v1 )

ライセンス: Link先を確認
Omar Ibrahim Alirr(参考訳) コロナウイルスは世界中に広まり、何百万人もの人々が急速に感染し、医療システムへの圧力が高まった。 PCRスクリーニングは、新型コロナウイルス検出のための診断検査法として採用されている。 しかし、PCRは感度の低いことや、時間と手作業による複雑なプロセスであることから批判されている。 CT画像検査は、無症候性患者でもこの疾患を検出できることを証明し、PCRの信頼できる代替手段となった。 さらに、CTスライスに感染する新型コロナウイルスの出現は、自動感染セグメンテーション法を用いた疾患の進化モニタリングを支援する可能性が高い。 しかし、新型コロナウイルス感染症の領域には、サイズ、形状、コントラスト、強度の均質性の点で大きなバリエーションがあり、セグメンテーションプロセスに大きな課題が生じる。 これらの課題に対処するため,本研究では,COVID-19感染領域セグメンテーションのための自動深層学習システムを提案する。 このシステムには、ctスライスの感染領域の出現を増強し改善するための異なるステップが含まれており、ディープネットワークを用いて効率的に学習することができる。 システムは、肺臓器を分画し、エッジ拡張拡散濾過(EED)を行い、感染領域のコントラストと強度の均一性を改善することにより、関心領域を作成する。 提案するFCNは,連結スキップ接続を有する残差ブロックを改良したU-netアーキテクチャを用いて実装されている。 このブロックは、感染領域の特徴をネットワークを通して転送することで、勾配値の学習を改善する。 提案手法の一般化と有効性を示すため,様々な音源から抽出した多数の2次元CTスライスを用いて,実験・評価を行った。 提案システムは, 肺と感染症領域の区分において, それぞれ0.961点と0.780点の重なりスコアを, 異なる尺度を用いて評価した。

Coronavirus Disease spread globally and infected millions of people quickly, causing high pressure on the health-system facilities. PCR screening is the adopted diagnostic testing method for COVID-19 detection. However, PCR is criticized due its low sensitivity ratios, also, it is time-consuming and manual complicated process. CT imaging proved its ability to detect the disease even for asymptotic patients, which make it a trustworthy alternative for PCR. In addition, the appearance of COVID-19 infections in CT slices, offers high potential to support in disease evolution monitoring using automated infection segmentation methods. However, COVID-19 infection areas include high variations in term of size, shape, contrast and intensity homogeneity, which impose a big challenge on segmentation process. To address these challenges, this paper proposed an automatic deep learning system for COVID-19 infection areas segmentation. The system include different steps to enhance and improve infection areas appearance in the CT slices so they can be learned efficiently using the deep network. The system start prepare the region of interest by segmenting the lung organ, which then undergo edge enhancing diffusion filtering (EED) to improve the infection areas contrast and intensity homogeneity. The proposed FCN is implemented using U-net architecture with modified residual block with concatenation skip connection. The block improves the learning of gradient values by forwarding the infection area features through the network. To demonstrate the generalization and effectiveness of the proposed system, it is trained and tested using many 2D CT slices extracted from diverse datasets from different sources. The proposed system is evaluated using different measures and achieved dice overlapping score of 0.961 and 0.780 for lung and infection areas segmentation, respectively.
翻訳日:2022-10-12 08:48:33 公開日:2020-10-01
# 新型コロナウイルスの診断における医用画像とコンピュータ画像解析

Medical Imaging and Computational Image Analysis in COVID-19 Diagnosis: A Review ( http://arxiv.org/abs/2010.02154v1 )

ライセンス: Link先を確認
Shahabedin Nabavi (1), Azar Ejmalian (2), Mohsen Ebrahimi Moghaddam (1), Ahmad Ali Abin (1), Alejandro F. Frangi (3), Mohammad Mohammadi (4 and 5), Hamidreza Saligheh Rad (6) ((1) Faculty of Computer Science and Engineering, Shahid Beheshti University, Tehran, Iran. (2) Anesthesiology Research Center, Shahid Beheshti University of Medical Sciences, Tehran, Iran. (3) Centre for Computational Imaging and Simulation Technologies in Biomedicine (CISTIB), School of Computing, University of Leeds, Leeds, UK. (4) Department of Medical Physics, Royal Adelaide Hospital, Adelaide, South Australia, Australia. (5) School of Physical Sciences, The University of Adelaide, Adelaide, South Australia, Australia. (6) Quantitative MR Imaging and Spectroscopy Group (QMISG), Tehran University of Medical Sciences, Tehran, Iran.)(参考訳) コロナウイルス(Coronavirus disease, COVID-19)は、新たに発見された新型コロナウイルスによって引き起こされる感染症である。 この疾患は、息の短さ、発熱、乾燥きず、慢性疲労などの症状を呈する。 病気の症状が大きくなると患者の死に至ることがある。 この疾患は、初期の一部の患者では無症候性であり、他の患者への感染の増加につながる可能性がある。 多くの研究が新型コロナウイルスの早期診断に医療画像の使用を試みた。 本研究は、医療画像分析と新型コロナウイルスの診断のための自動手法に関する論文のレビューを試みる。 この目的のために、PubMed、Google Scholar、arXiv、medRxivを検索し、2020年4月末までに関連する研究を見つけ、収集された研究の要点を要約した。 この研究の貢献は4倍です。 1)臨床医及び技術者双方の分野のチュートリアルとして用いること。 2)医療画像に示される新型コロナウイルスの特徴を総合的に検討すること。 3) 精度と方法に基づいて, 自動人工知能による新型コロナウイルス診断のアプローチを検討する。 4) この分野における研究の限界とその克服方法を表現すること。 新型コロナウイルス(COVID-19)は、無症状の患者でも早期に診断できる医療画像の兆候を明らかにしている。 機械学習に基づく自動手法を用いることで、医療画像から高い精度で疾患を診断し、診断手順の時間、コスト、エラーを低減することができる。 新型コロナウイルス(covid-19)自動診断法の性能を改善するため、最短時間で患者からバルクイメージングデータを収集することが推奨されている。

Coronavirus disease (COVID-19) is an infectious disease caused by a newly discovered coronavirus. The disease presents with symptoms such as shortness of breath, fever, dry cough, and chronic fatigue, amongst others. Sometimes the symptoms of the disease increase so much they lead to the death of the patients. The disease may be asymptomatic in some patients in the early stages, which can lead to increased transmission of the disease to others. Many studies have tried to use medical imaging for early diagnosis of COVID-19. This study attempts to review papers on automatic methods for medical image analysis and diagnosis of COVID-19. For this purpose, PubMed, Google Scholar, arXiv and medRxiv were searched to find related studies by the end of April 2020, and the essential points of the collected studies were summarised. The contribution of this study is four-fold: 1) to use as a tutorial of the field for both clinicians and technologists, 2) to comprehensively review the characteristics of COVID-19 as presented in medical images, 3) to examine automated artificial intelligence-based approaches for COVID-19 diagnosis based on the accuracy and the method used, 4) to express the research limitations in this field and the methods used to overcome them. COVID-19 reveals signs in medical images can be used for early diagnosis of the disease even in asymptomatic patients. Using automated machine learning-based methods can diagnose the disease with high accuracy from medical images and reduce time, cost and error of diagnostic procedure. It is recommended to collect bulk imaging data from patients in the shortest possible time to improve the performance of COVID-19 automated diagnostic methods.
翻訳日:2022-10-12 08:48:03 公開日:2020-10-01
# 不均質なフェデレーション学習装置への最適タスク割り当て

Optimal Task Assignment to Heterogeneous Federated Learning Devices ( http://arxiv.org/abs/2010.00239v1 )

ライセンス: Link先を確認
La\'ercio Lima Pilla (ParSys - LRI)(参考訳) フェデレーション学習は、データのプライバシを尊重しながら機械学習モデルをトレーニングする新しい機会を提供する。 このテクニックは、モデルを反復的にトレーニングすると同時に、自身のデータを決して共有しない異種デバイスに基づいている。 このトレーニングの同期性を考えると、フェデレーション学習システムの性能は、ストラグラーとして知られる最も遅いデバイスによって決定される。 本稿では,各デバイスがトレーニングに使用するデータ量を制御することにより,フェデレート学習ラウンドの期間を最小化する問題について検討する。 この問題を,リソース毎のタスクの上限を尊重しつつ,コスト関数の低下を伴わない異種資源に割り当てる必要のある,同一で独立,かつアトミックなタスクのメイズパン最小化問題として定式化する。 この定式化に基づいて,OLARという多項式時間アルゴリズムを提案し,最適スケジュールを提供することを示す。 我々は,他のアルゴリズムとの比較や新たな拡張を含むシミュレーションを用いて,OLARを広範囲な実験的評価で評価する。 この結果から,OLARは少ない実行時間で最適解を提供することがわかった。 彼らはまた、リソース当たりのタスクの下限と上限の存在は、アルゴリズムの実行時間の観点から、準最適ヒューリスティックが提供できる利点を消し去ることも示している。

Federated Learning provides new opportunities for training machine learning models while respecting data privacy. This technique is based on heterogeneous devices that work together to iteratively train a model while never sharing their own data. Given the synchronous nature of this training, the performance of Federated Learning systems is dictated by the slowest devices, also known as stragglers. In this paper, we investigate the problem of minimizing the duration of Federated Learning rounds by controlling how much data each device uses for training. We formulate this problem as a makespan minimization problem with identical, independent, and atomic tasks that have to be assigned to heterogeneous resources with non-decreasing cost functions while respecting lower and upper limits of tasks per resource. Based on this formulation, we propose a polynomial-time algorithm named OLAR and prove that it provides optimal schedules. We evaluate OLAR in an extensive experimental evaluation using simulation that includes comparisons to other algorithms from the state of the art and new extensions to them. Our results indicate that OLAR provides optimal solutions with a small execution time. They also show that the presence of lower and upper limits of tasks per resource erase any benefits that suboptimal heuristics could provide in terms of algorithm execution time.
翻訳日:2022-10-12 08:47:41 公開日:2020-10-01
# ParaMonte::Pythonライブラリによる完全再現可能なシリアル/並列モンテカルロとMCMCシミュレーションと可視化

Fast fully-reproducible serial/parallel Monte Carlo and MCMC simulations and visualizations via ParaMonte::Python library ( http://arxiv.org/abs/2010.00724v1 )

ライセンス: Link先を確認
Amir Shahmoradi, Fatemeh Bagheri, Joshua Alexander Osborne(参考訳) ParaMonte::Python (Parallel Monte Carlo in Python)は、(Markov Chain) Monte Carlo (MCMC)ルーチンのシリアルでMPI並列化されたライブラリで、数学的目的関数をサンプリングする。 高速なシリアル/並列モンテカルロとMCMCサンプリングルーチンへのアクセスを提供するのに加えて、ParaMonte::Pythonライブラリは、ベイズデータ分析におけるモデルキャリブレーションと不確実性定量化のプロセスを自動化することを目的とした、広範な後処理と視覚化ツールを提供する。 さらに、paramonte::pythonのリスタート機能は、中断が発生した場合、モンテカルロシミュレーションをシームレスに完全に決定的に再スタートさせる。 The ParaMonte::PythonライブラリはMITライセンスで、GitHubでhttps://github.com/cdslaborg/paramonte/tree/master/src/interface/Pythonで永久にメンテナンスされている。

ParaMonte::Python (standing for Parallel Monte Carlo in Python) is a serial and MPI-parallelized library of (Markov Chain) Monte Carlo (MCMC) routines for sampling mathematical objective functions, in particular, the posterior distributions of parameters in Bayesian modeling and analysis in data science, Machine Learning, and scientific inference in general. In addition to providing access to fast high-performance serial/parallel Monte Carlo and MCMC sampling routines, the ParaMonte::Python library provides extensive post-processing and visualization tools that aim to automate and streamline the process of model calibration and uncertainty quantification in Bayesian data analysis. Furthermore, the automatically-enabled restart functionality of ParaMonte::Python samplers ensure seamless fully-deterministic into-the-future restart of Monte Carlo simulations, should any interruptions happen. The ParaMonte::Python library is MIT-licensed and is permanently maintained on GitHub at https://github.com/cdslaborg/paramonte/tree/master/src/interface/Python.
翻訳日:2022-10-12 08:46:55 公開日:2020-10-01
# ネガティブインセンティブとポジティブインセンティブによる人工知能開発仲介

Mediating Artificial Intelligence Developments through Negative and Positive Incentives ( http://arxiv.org/abs/2010.00403v1 )

ライセンス: Link先を確認
The Anh Han, Luis Moniz Pereira, Tom Lenaerts, Francisco C. Santos(参考訳) 人工知能(ai)の分野は、研究、ビジネス、そして政策において一定のレベルの不安をもたらし、大きな期待の期間を経ています。 この不安は、人々が行方不明になるかもしれないと信じさせるAI人種の物語によってさらに激化している。 現実であろうとなかろうが、この物語に対する信念は、一部の利害関係者は、安全対策のコーナーを切り詰めるか、「勝つ」ために社会的な結果を無視しなければならないと感じるため、有害であるかもしれない。 勝者が他のもの(aiアドバンス、パテントレース、製薬技術など)に比べて大きな利益を得られる幅広い技術種族を記述したベースラインモデルから始め、ここではポジティブ(後退)とネガティブ(利益)のインセンティブが結果にどのように影響するかを調査します。 我々は、罰が安全でない参加者の発達速度を減らしたり、過剰規制によってイノベーションを減らしたりできる条件を明らかにする。 また,いくつかのシナリオにおいて,安全対策に準じた報酬が,安全選択を保証しながら開発速度を増加させる可能性があることを示す。 さらに、後者の体制では、報酬は刑罰の場合のように過剰規制の問題に苦しむことはない。 本研究は,スムーズかつ急激な技術シフトの文脈において,安全コンプライアンスを改善するのに最も適した規制行動の性質と種類に関する貴重な知見を提供する。

The field of Artificial Intelligence (AI) is going through a period of great expectations, introducing a certain level of anxiety in research, business and also policy. This anxiety is further energised by an AI race narrative that makes people believe they might be missing out. Whether real or not, a belief in this narrative may be detrimental as some stake-holders will feel obliged to cut corners on safety precautions, or ignore societal consequences just to "win". Starting from a baseline model that describes a broad class of technology races where winners draw a significant benefit compared to others (such as AI advances, patent race, pharmaceutical technologies), we investigate here how positive (rewards) and negative (punishments) incentives may beneficially influence the outcomes. We uncover conditions in which punishment is either capable of reducing the development speed of unsafe participants or has the capacity to reduce innovation through over-regulation. Alternatively, we show that, in several scenarios, rewarding those that follow safety measures may increase the development speed while ensuring safe choices. Moreover, in {the latter} regimes, rewards do not suffer from the issue of over-regulation as is the case for punishment. Overall, our findings provide valuable insights into the nature and kinds of regulatory actions most suitable to improve safety compliance in the contexts of both smooth and sudden technological shifts.
翻訳日:2022-10-12 08:46:33 公開日:2020-10-01
# 深部ニューラルネットワークを用いたUベンド内の流れ場予測

Predicting the flow field in a U-bend with deep neural networks ( http://arxiv.org/abs/2010.00258v1 )

ライセンス: Link先を確認
Gergely Hajgat\'o and B\'alint Gyires-T\'oth and Gy\"orgy Pa\'al(参考訳) 本稿では計算流体力学(CFD)と深部ニューラルネットワークに基づく,異なる歪んだU字管内の流れ場を予測することを目的とした研究について述べる。 この研究の主な動機は、流体力学的船体最適化プロセスにおける深層学習パラダイムの正当性についての洞察を得ることであり、それは乱流場の計算に大きく依存し、提示されたようなモデルによって加速される。 CFDモデルを深い畳み込みニューラルネットワークでシュロゲートすることで、スピードアップは数桁でもできる。 異なる形状の2次元U-ベンドを生成し, CFDシミュレーションを行うために, 自動幾何生成・評価プロセスを構築した。 このプロセスでは、異なるジオメトリと対応する流れ場(2次元の速度分布)を持つデータベースが、128x128の等密度グリッド上に表現された。 このデータベースは、エンコーダ-デコーダスタイルのディープ畳み込みニューラルネットワークのトレーニングに使われ、幾何から速度分布を予測する。 2つの異なる幾何学的表現(双対像と符号付き距離関数)が予測に及ぼす影響を検討した。

This paper describes a study based on computational fluid dynamics (CFD) and deep neural networks that focusing on predicting the flow field in differently distorted U-shaped pipes. The main motivation of this work was to get an insight about the justification of the deep learning paradigm in hydrodynamic hull optimisation processes that heavily depend on computing turbulent flow fields and that could be accelerated with models like the one presented. The speed-up can be even several orders of magnitude by surrogating the CFD model with a deep convolutional neural network. An automated geometry creation and evaluation process was set up to generate differently shaped two-dimensional U-bends and to carry out CFD simulation on them. This process resulted in a database with different geometries and the corresponding flow fields (2-dimensional velocity distribution), both represented on 128x128 equidistant grids. This database was used to train an encoder-decoder style deep convolutional neural network to predict the velocity distribution from the geometry. The effect of two different representations of the geometry (binary image and signed distance function) on the predictions was examined, both models gave acceptable predictions with a speed-up of two orders of magnitude.
翻訳日:2022-10-12 08:45:20 公開日:2020-10-01
# 浅層ニューラルネットワークを用いた円錐ビームctの計算効率の高い再構成アルゴリズム

A computationally efficient reconstruction algorithm for circular cone-beam computed tomography using shallow neural networks ( http://arxiv.org/abs/2010.00421v1 )

ライセンス: Link先を確認
Marinus J. Lagerwerf, Daniel M Pelt, Willem Jan Palenstijn, K Joost Batenburg(参考訳) 円形円錐ビーム(ccb)ct(ct)は,産業品質管理,材料科学,医用イメージングの不可欠な部分となっている。 各スキャンを短時間で取得・処理する必要性は、速度と復元品質のトレードオフを自然に招き、限られたデータから正確な再構成を生成できる高速な再構成アルゴリズムの必要性が生じる。 本稿では,ニューラルネットワークFeldkamp-Davis-Kress(NN-FDK)アルゴリズムを提案する。 このアルゴリズムは、FDKアルゴリズムに機械学習コンポーネントを追加し、計算効率を保ちながら再構成精度を向上させる。 さらに、NN-FDKアルゴリズムは、訓練データ要求が低く、訓練が速いように設計されている。 これにより、提案アルゴリズムは高速CTスキャン設定における画質向上に有効であり、FDKは現在、容易に利用可能な計算資源を用いて取得速度に追従するために使われている。 NN-FDKアルゴリズムを2つの標準CT再構成アルゴリズムと、FDK再構成の2Dスライスから再構成アーチファクトを取り除くために訓練された2つの人気のあるディープニューラルネットワークと比較する。 NN-FDK再構成アルゴリズムは、標準FDKアルゴリズム以外の全ての試験された代替手法よりも大幅に高速であり、高雑音、低射影角、大きな円錐角の場合に正確なCCBCT再構成を計算することができることを示す。 さらに、NN-FDKネットワークのトレーニング時間は、考慮された深層ニューラルネットワークよりも桁違いに低く、再構成精度はわずかに低下している。

Circular cone-beam (CCB) Computed Tomography (CT) has become an integral part of industrial quality control, materials science and medical imaging. The need to acquire and process each scan in a short time naturally leads to trade-offs between speed and reconstruction quality, creating a need for fast reconstruction algorithms capable of creating accurate reconstructions from limited data. In this paper we introduce the Neural Network Feldkamp-Davis-Kress (NN-FDK) algorithm. This algorithm adds a machine learning component to the FDK algorithm to improve its reconstruction accuracy while maintaining its computational efficiency. Moreover, the NN-FDK algorithm is designed such that it has low training data requirements and is fast to train. This ensures that the proposed algorithm can be used to improve image quality in high throughput CT scanning settings, where FDK is currently used to keep pace with the acquisition speed using readily available computational resources. We compare the NN-FDK algorithm to two standard CT reconstruction algorithms and to two popular deep neural networks trained to remove reconstruction artifacts from the 2D slices of an FDK reconstruction. We show that the NN-FDK reconstruction algorithm is substantially faster in computing a reconstruction than all the tested alternative methods except for the standard FDK algorithm and we show it can compute accurate CCB CT reconstructions in cases of high noise, a low number of projection angles or large cone angles. Moreover, we show that the training time of an NN-FDK network is orders of magnitude lower than the considered deep neural networks, with only a slight reduction in reconstruction accuracy.
翻訳日:2022-10-12 08:44:58 公開日:2020-10-01
# 信念空間におけるナビゲーションのためのマルチロボットタスクモーション計画に向けて

Towards Multi-Robot Task-Motion Planning for Navigation in Belief Space ( http://arxiv.org/abs/2010.00780v1 )

ライセンス: Link先を確認
Antony Thomas and Fulvio Mastrogiovanni and Marco Baglietto(参考訳) 大きな知識集約型ドメインで動作する自律ロボットは、離散(タスク)空間と連続(動き)空間での計画を必要とする。 知識集約的なドメインでは、ロボットは、例えば、取得対象の領域やその特性など、最高レベルで判断する必要があるが、一方で、各ナビゲーションタスクの実行可能性については、コントローラの実行レベルで確認する必要がある。 さらに、複数のロボットを使用することで、同じタスクを実行する1つのロボットよりも性能が向上する。 そこで本研究では,知識集約領域におけるナビゲーションのためのマルチロボットタスクモーション計画フレームワークを提案する。 特に,ロボット同士の相互観察を組み込んだ分散マルチロボットについて考察する。 このフレームワークは、運動中の運動計画と感覚の不確実性を目的としており、これは正式には信仰空間計画として知られている。 基礎となる方法論とその制限について議論し、改善と今後の作業を提案する。 シミュレーションにおけるアプローチの重要な側面を検証する。

Autonomous robots operating in large knowledgeintensive domains require planning in the discrete (task) space and the continuous (motion) space. In knowledge-intensive domains, on the one hand, robots have to reason at the highestlevel, for example the regions to navigate to or objects to be picked up and their properties; on the other hand, the feasibility of the respective navigation tasks have to be checked at the controller execution level. Moreover, employing multiple robots offer enhanced performance capabilities over a single robot performing the same task. To this end, we present an integrated multi-robot task-motion planning framework for navigation in knowledge-intensive domains. In particular, we consider a distributed multi-robot setting incorporating mutual observations between the robots. The framework is intended for motion planning under motion and sensing uncertainty, which is formally known as belief space planning. The underlying methodology and its limitations are discussed, providing suggestions for improvements and future work. We validate key aspects of our approach in simulation.
翻訳日:2022-10-12 08:38:49 公開日:2020-10-01
# 合成開口レーダイメージングにおける位相アンラッピング問題に対する量子アニール法

Quantum Annealing Approaches to the Phase-Unwrapping Problem in Synthetic-Aperture Radar Imaging ( http://arxiv.org/abs/2010.00220v1 )

ライセンス: Link先を確認
Khaled A. Helal Kelany, Nikitas Dimopoulos, Clemens P. J. Adolphs, Bardia Barabadi, and Amirali Baniasadi(参考訳) 本研究の目的は,合成開口レーダ(SAR)画像の位相展開問題に対する量子アニール解法の利用を検討することである。 この問題に対する解決策はネットワークプログラミングに基づいているが、大規模画像ではうまくスケールしない。 我々のアプローチでは、量子アニールを用いて解くことができる二次的非制約二元最適化(QUBO)問題として問題を定式化する。 現在の量子アニーラーの具体化は、それらが持つ量子ビットの数に制限があるため、問題を個別に解くことのできる一連の部分問題に分解する。 これらの個々の解は整数定数まで最適に近く、サブイメージごとに1つの定数を持つ。 第2段階では、これらの整数定数は別のQUBO問題の解として決定される。 我々は、様々なソフトウェアベースのQUBOソルバと、合成画像と実画像の両方を用いて、我々のアプローチをテストする。 さらに,D-Wave Systemsの量子アニールであるD-Wave 2000Qを用いて実験を行った。 ソフトウェアベースのソルバは最先端のフェーズアンラッピングソルバに匹敵する高品質なソリューションを得る。 現在、この問題を量子アニールの制限されたトポロジーに最適にマッピングして、解の質の向上に取り組んでいる。

The focus of this work is to explore the use of quantum annealing solvers for the problem of phase unwrapping of synthetic aperture radar (SAR) images. Although solutions to this problem exist based on network programming, these techniques do not scale well to larger-sized images. Our approach involves formulating the problem as a quadratic unconstrained binary optimization (QUBO) problem, which can be solved using a quantum annealer. Given that present embodiments of quantum annealers remain limited in the number of qubits they possess, we decompose the problem into a set of subproblems that can be solved individually. These individual solutions are close to optimal up to an integer constant, with one constant per sub-image. In a second phase, these integer constants are determined as a solution to yet another QUBO problem. We test our approach with a variety of software-based QUBO solvers and on a variety of images, both synthetic and real. Additionally, we experiment using D-Wave Systems's quantum annealer, the D-Wave 2000Q. The software-based solvers obtain high-quality solutions comparable to state-of-the-art phase-unwrapping solvers. We are currently working on optimally mapping the problem onto the restricted topology of the quantum annealer to improve the quality of the solution.
翻訳日:2022-10-12 08:38:21 公開日:2020-10-01
# グループ単位の差分型画像登録

Deep Group-wise Variational Diffeomorphic Image Registration ( http://arxiv.org/abs/2010.00231v1 )

ライセンス: Link先を確認
Tycho F.A. van der Ouderaa, Ivana I\v{s}gum, Wouter B. Veldhuis and Bob D. de Vos(参考訳) ディープニューラルネットワークは、ペアワイズ画像登録にますます使われている。 本稿では,複数の画像を同時に登録できるように,現在の学習に基づく画像登録を拡張することを提案する。 これを実現するために,VoxelMorph法を用いて,複数の画像のジオデシック平均への登録と,利用可能な画像のいずれかを固定画像として使用可能な登録を両立できる汎用的な数学的枠組みを提案する。 さらに, 正規化された相互情報, 登録時のよく知られた画像類似度指標, 複数画像間, および粘性流体エネルギーを明示的に制御し, 変形を効果的に定式化する前者に基づく可能性を提供する。 胸部mri検査と胸部4dct検査を複数回実施し,そのアプローチを訓練し,評価した。 Elastix と VoxelMorph との比較では,画像類似度と基準ランドマーク距離を比較検討し,より高速な登録を行う。

Deep neural networks are increasingly used for pair-wise image registration. We propose to extend current learning-based image registration to allow simultaneous registration of multiple images. To achieve this, we build upon the pair-wise variational and diffeomorphic VoxelMorph approach and present a general mathematical framework that enables both registration of multiple images to their geodesic average and registration in which any of the available images can be used as a fixed image. In addition, we provide a likelihood based on normalized mutual information, a well-known image similarity metric in registration, between multiple images, and a prior that allows for explicit control over the viscous fluid energy to effectively regularize deformations. We trained and evaluated our approach using intra-patient registration of breast MRI and Thoracic 4DCT exams acquired over multiple time points. Comparison with Elastix and VoxelMorph demonstrates competitive quantitative performance of the proposed method in terms of image similarity and reference landmark distances at significantly faster registration.
翻訳日:2022-10-12 08:38:01 公開日:2020-10-01
# 圧縮センシングによる空間領域画像形成の改善

Improving spatial domain based image formation through compressed sensing ( http://arxiv.org/abs/2010.00295v1 )

ライセンス: Link先を確認
Gene Stoltz and Andr\'e Leon Nel(参考訳) 本稿では,検出器の最適視野を選択することにより,単画素走査システムにおける画像再構成を改善する。 画像再構成は圧縮センシングに基づいており、画質は補間されたスターティングアレイと比較される。 画像品質比較は「死葉」データセット、ベイズ推定、ピーク信号対雑音比(psnr)を用いて行う。 圧縮センシングは補間アルゴリズムとして探索され、ランチョス補間と比較して高い確率で性能向上を示す。 さらに、単一画素走査システムにおけるマルチレベルサンプリングは、検出器視野を動的に変更してシミュレートされる。 マルチレベルサンプリングはピーク信号対雑音比の分布を改善することを示した。 さらに,多レベルサンプリングのためのサンプリングレベル分布とPSNR分布について検討する。 PSNR分布は、補間されたスターリングアレイよりも画質を向上させる少数のレベルが存在することを示している。 さらに、マルチレベルサンプリングは、平均でシングルレベル一様ランダムサンプリングを上回ると結論づけた。

In this paper, we improve image reconstruction in a single-pixel scanning system by selecting an detector optimal field of view. Image reconstruction is based on compressed sensing and image quality is compared to interpolated staring arrays. The image quality comparisons use a "dead leaves" data set, Bayesian estimation and the Peak-Signal-to-Noise Ratio (PSNR) measure. Compressed sensing is explored as an interpolation algorithm and shows with high probability an improved performance compared to Lanczos interpolation. Furthermore, multi-level sampling in a single-pixel scanning system is simulated by dynamically altering the detector field of view. It was shown that multi-level sampling improves the distribution of the Peak-Signal-to-Noise Ratio. We further explore the expected sampling level distributions and PSNR distributions for multi-level sampling. The PSNR distribution indicates that there is a small set of levels which will improve image quality over interpolated staring arrays. We further conclude that multi-level sampling will outperform single-level uniform random sampling on average.
翻訳日:2022-10-12 08:37:42 公開日:2020-10-01
# X-Fields:暗黙のニューラルビュー、ライト、タイムイメージの補間

X-Fields: Implicit Neural View-, Light- and Time-Image Interpolation ( http://arxiv.org/abs/2010.00450v1 )

ライセンス: Link先を確認
Mojtaba Bemana, Karol Myszkowski, Hans-Peter Seidel, Tobias Ritschel(参考訳) ニューラルネットワーク(nn)を学習して、異なる視点、時間、照明条件、すなわち映像、光場、反射場、あるいはそれらの組み合わせをまたいで撮影された2d画像の集合を、その視野、時間、光座標を2d画像にマッピングする。 このNNを新しい座標で実行すると、ジョイントビュー、時間または光補間が発生する。 これを実現するための重要なアイデアは、グラフィック(照明、3Dプロジェクション、オクルージョン)の「基本的なトリック」を、ハードコードで微分可能な形式で既に知っているNNである。 NNは、そのレンダリングに対する入力を暗黙の地図として表現し、任意のビュー、時間、または光の座標に対して、ビュー、時間または光の座標が変化した場合、どのように動くかを定量化することができる(ビュー、時間、照明等に関する画素位置のヤコビアン)。 私たちのX-Field表現は、数分で1つのシーンでトレーニングされ、訓練可能なパラメータのセットがコンパクトになり、ビュー、時間、照明におけるリアルタイムナビゲーションが実現します。

We suggest to represent an X-Field -a set of 2D images taken across different view, time or illumination conditions, i.e., video, light field, reflectance fields or combinations thereof-by learning a neural network (NN) to map their view, time or light coordinates to 2D images. Executing this NN at new coordinates results in joint view, time or light interpolation. The key idea to make this workable is a NN that already knows the "basic tricks" of graphics (lighting, 3D projection, occlusion) in a hard-coded and differentiable form. The NN represents the input to that rendering as an implicit map, that for any view, time, or light coordinate and for any pixel can quantify how it will move if view, time or light coordinates change (Jacobian of pixel position with respect to view, time, illumination, etc.). Our X-Field representation is trained for one scene within minutes, leading to a compact set of trainable parameters and hence real-time navigation in view, time and illumination.
翻訳日:2022-10-12 08:37:10 公開日:2020-10-01
# 網膜画像からの光ディスク分割のための転送学習とカスタマイズロス関数の利用

Utilizing Transfer Learning and a Customized Loss Function for Optic Disc Segmentation from Retinal Images ( http://arxiv.org/abs/2010.00583v1 )

ライセンス: Link先を確認
Abdullah Sarhan, Ali Al-Khaz\'Aly, Adam Gorner, Andrew Swift, Jon Rokne, Reda Alhajj, and Andrew Crichton(参考訳) 網膜画像からの光学ディスクの正確なセグメンテーションは、緑内障などの網膜条件と高い相関性を持つ網膜の特徴を抽出するために不可欠である。 本稿では,高精度網膜眼底像を与えられた視神経円板を分割できるディープラーニング手法を提案する。 このアプローチでは、ImageNetデータセットに基づいてトレーニングされたVGG16エンコーダを備えたUNETベースのモデルを使用する。 本研究は,vgg16モデルのカスタマイズ,採用したデータセットの多様性,ディスクセグメンテーションの継続時間,損失関数の利用,モデルのトレーニングに必要なパラメータ数といった他の研究と区別することができる。 この目的のために構築されたWebポータルを通じて,2人の医師が注釈を付けたプライベートクリニックのデータセットによって強化された7つの公開データセットに対して,このアプローチをテストした。 網膜像からのディスクセグメンテーションに対する99.78\%とサイス係数94.73\%の精度を0.03秒で達成した。 包括的実験により得られた結果は、異なる情報源から得られた網膜画像の円板分割に対するアプローチのロバスト性を示している。

Accurate segmentation of the optic disc from a retinal image is vital to extracting retinal features that may be highly correlated with retinal conditions such as glaucoma. In this paper, we propose a deep-learning based approach capable of segmenting the optic disc given a high-precision retinal fundus image. Our approach utilizes a UNET-based model with a VGG16 encoder trained on the ImageNet dataset. This study can be distinguished from other studies in the customization made for the VGG16 model, the diversity of the datasets adopted, the duration of disc segmentation, the loss function utilized, and the number of parameters required to train our model. Our approach was tested on seven publicly available datasets augmented by a dataset from a private clinic that was annotated by two Doctors of Optometry through a web portal built for this purpose. We achieved an accuracy of 99.78\% and a Dice coefficient of 94.73\% for a disc segmentation from a retinal image in 0.03 seconds. The results obtained from comprehensive experiments demonstrate the robustness of our approach to disc segmentation of retinal images obtained from different sources.
翻訳日:2022-10-12 08:36:24 公開日:2020-10-01
# デュアルビューリフレクション除去の学習

Learned Dual-View Reflection Removal ( http://arxiv.org/abs/2010.00702v1 )

ライセンス: Link先を確認
Simon Niklaus and Xuaner Cecilia Zhang and Jonathan T. Barron and Neal Wadhwa and Rahul Garg and Feng Liu and Tianfan Xue(参考訳) 従来の反射除去アルゴリズムは、固有の曖昧さに悩まされる単一のイメージを入力として使用するか、移動カメラからの複数のイメージを使用する。 代わりに,ステレオ画像を入力として使用する学習に基づく逆反射アルゴリズムを提案する。 2つのビューのパララックスは反射を除去するための手がかりを提供し、2つのビューはスマートフォンでのステレオカメラの採用により簡単に捉えられる。 本モデルは,デュアルビュー登録のための学習に基づく反射不変フローモデルと,アライメント画像ペアを結合する学習合成モデルで構成されている。 デュアルビューリフレクション除去のためのデータセットが存在しないため、トレーニングに使用するリフレクションなしで、デュアルビューの合成データセットを描画する。 ステレオペアを付加した実世界のデータセットに対する評価により,本アルゴリズムは既存の単像および複数像のデフレクションアプローチより優れていることを示す。

Traditional reflection removal algorithms either use a single image as input, which suffers from intrinsic ambiguities, or use multiple images from a moving camera, which is inconvenient for users. We instead propose a learning-based dereflection algorithm that uses stereo images as input. This is an effective trade-off between the two extremes: the parallax between two views provides cues to remove reflections, and two views are easy to capture due to the adoption of stereo cameras in smartphones. Our model consists of a learning-based reflection-invariant flow model for dual-view registration, and a learned synthesis model for combining aligned image pairs. Because no dataset for dual-view reflection removal exists, we render a synthetic dataset of dual-views with and without reflections for use in training. Our evaluation on an additional real-world dataset of stereo pairs shows that our algorithm outperforms existing single-image and multi-image dereflection approaches.
翻訳日:2022-10-12 08:29:49 公開日:2020-10-01
# RRF102: TREC-COVIDチャレンジに100回以上参加

RRF102: Meeting the TREC-COVID Challenge with a 100+ Runs Ensemble ( http://arxiv.org/abs/2010.00200v1 )

ライセンス: Link先を確認
Michael Bendersky and Honglei Zhuang and Ji Ma and Shuguang Han and Keith Hall and Ryan McDonald(参考訳) 本稿では,TREC-COVIDチャレンジへの参加について報告する。 バイオメディカルコレクションを急速に進化させる検索エンジン構築の課題に対処するために,102個の集合体を組み合わさった単純な重み付き階層的階調融合手法を提案する。 (a)語彙・意味検索システム (b)事前訓練及び微調整されたBERTローダ及び (c) 関連性フィードバックが実行される。 我々のアブレーション研究は、それぞれのシステムによる全体的なアンサンブルへの貢献を実証している。 提出されたアンサンブルはTREC-COVIDチャレンジの4ラウンドと5ラウンドで最先端のパフォーマンスを達成した。

In this paper, we report the results of our participation in the TREC-COVID challenge. To meet the challenge of building a search engine for rapidly evolving biomedical collection, we propose a simple yet effective weighted hierarchical rank fusion approach, that ensembles together 102 runs from (a) lexical and semantic retrieval systems, (b) pre-trained and fine-tuned BERT rankers, and (c) relevance feedback runs. Our ablation studies demonstrate the contributions of each of these systems to the overall ensemble. The submitted ensemble runs achieved state-of-the-art performance in rounds 4 and 5 of the TREC-COVID challenge.
翻訳日:2022-10-12 08:29:10 公開日:2020-10-01
# 自己調整算術符号化による近知覚型神経言語ステガノグラフィー

Near-imperceptible Neural Linguistic Steganography via Self-Adjusting Arithmetic Coding ( http://arxiv.org/abs/2010.00677v1 )

ライセンス: Link先を確認
Jiaming Shen and Heng Ji and Jiawei Han(参考訳) 言語ステガノグラフィーは、自然言語カバーテキストに秘密メッセージを隠す方法を研究する。 伝統的手法は、秘密のメッセージを語彙置換や構文修正を通じて無実のテキストに変換することを目的としている。 近年、ニューラルネットワークモデル(LM)の進歩により、秘密メッセージに条件付きカバーテキストを直接生成できるようになりました。 本研究では,ニューラルランゲージモデルに基づく自己調整算術符号化を用いて,秘密メッセージを符号化する新しい言語ステガノグラフィー法を提案する。 本手法の統計的インセプタビリティを形式的に解析し,従来の4つのデータセットにおいて,ビット/ワードとklの指標でそれぞれ15.3%,38.9%の精度で先行手法を上回っていることを示す。 最後に、人間による評価では、生成されたカバーテキストの51%が本当に盗聴者を騙すことができる。

Linguistic steganography studies how to hide secret messages in natural language cover texts. Traditional methods aim to transform a secret message into an innocent text via lexical substitution or syntactical modification. Recently, advances in neural language models (LMs) enable us to directly generate cover text conditioned on the secret message. In this study, we present a new linguistic steganography method which encodes secret messages using self-adjusting arithmetic coding based on a neural language model. We formally analyze the statistical imperceptibility of this method and empirically show it outperforms the previous state-of-the-art methods on four datasets by 15.3% and 38.9% in terms of bits/word and KL metrics, respectively. Finally, human evaluations show that 51% of generated cover texts can indeed fool eavesdroppers.
翻訳日:2022-10-12 08:28:46 公開日:2020-10-01
# テキストを超えて: 構文と意味的役割ラベルによるプライバシー文書の分析

Beyond The Text: Analysis of Privacy Statements through Syntactic and Semantic Role Labeling ( http://arxiv.org/abs/2010.00678v1 )

ライセンス: Link先を確認
Yan Shvartzshnaider, Ananth Balashankar, Vikas Patidar, Thomas Wies, Lakshminarayanan Subramanian(参考訳) 本稿では、プライバシー規範を推論するための確立された社会理論フレームワークであるContextual Integrityのレンズを通して、プライバシポリシーからプライバシパラメータを抽出する新しいタスクを定式化する。 弁護士によって書かれたプライバシーポリシーは長く、しばしば不完全で曖昧な声明で構成されている。 本稿では,最近提案された質問応答に基づくソリューションを含む従来のNLPタスクが,プライバシパラメータ抽出問題に対処するには不十分であり,精度やリコールが不十分であることを示す。 本稿では,隠れマルコフモデル,bert微調整モデル,依存型解析 (dp) および意味的ロールラベリング (srl) の4種類の手法について述べる。 企業における36の現実のプライバシポリシに対する詳細な評価に基づいて,タイプ固有のSRLタスクと組み合わせた構文DPを組み合わせることで,プライバシステートメントからコンテキストプライバシパラメータを取得する上で,最も高い精度が得られることを示す。 また、ドメイン固有の知識を組み込むことは、高い精度とリコールを達成する上で重要であることも観察し、プライバシドメインにおけるこの重要な問題に対処するための新しいnlp研究に刺激を与える。

This paper formulates a new task of extracting privacy parameters from a privacy policy, through the lens of Contextual Integrity, an established social theory framework for reasoning about privacy norms. Privacy policies, written by lawyers, are lengthy and often comprise incomplete and vague statements. In this paper, we show that traditional NLP tasks, including the recently proposed Question-Answering based solutions, are insufficient to address the privacy parameter extraction problem and provide poor precision and recall. We describe 4 different types of conventional methods that can be partially adapted to address the parameter extraction task with varying degrees of success: Hidden Markov Models, BERT fine-tuned models, Dependency Type Parsing (DP) and Semantic Role Labeling (SRL). Based on a detailed evaluation across 36 real-world privacy policies of major enterprises, we demonstrate that a solution combining syntactic DP coupled with type-specific SRL tasks provides the highest accuracy for retrieving contextual privacy parameters from privacy statements. We also observe that incorporating domain-specific knowledge is critical to achieving high precision and recall, thus inspiring new NLP research to address this important problem in the privacy domain.
翻訳日:2022-10-12 08:28:34 公開日:2020-10-01
# 焦点を考慮した文脈弁別論理に基づくマルチエージェントシステム

Multi-Agent Systems based on Contextual Defeasible Logic considering Focus ( http://arxiv.org/abs/2010.00168v1 )

ライセンス: Link先を確認
Helio H. L. C. Monte-Alto, Mariela Morveli-Espinoza, Cesar A. Tacla(参考訳) 本稿では,分散知識ベースに基づく分散推論を実現するための,コンテキスト定義論理(CDL)を用いた分散推論に関する従来の研究を拡張し,異なる知識ベースからの知識が相反する可能性があることを示す。 しかし、このモデルでは表現できない多くのユースケースシナリオがあります。 そのようなシナリオの1つは、エージェントが他の人にクエリを発行する際に、関連する知識を共有し、推論する必要があることです。 もうひとつのシナリオは、知識集約型や動的環境など、エージェント間の(マッピングルールによって定義された)バインディングが静的でないシナリオである。 この研究は、cdlに基づくマルチエージェントモデルを示し、エージェントがローカルな知識ベースやマッピングルールを推論できるだけでなく、エージェントが特定のクエリのコンテキストで、エージェントが事前に知らない関連する知識(フォーカス)を推論できるようにする。 本稿では,BDI(Belief-Desire-Intention)エージェントモデルに基づくユースケースシナリオ,提案するモデルの形式化,および初期実装について述べる。

In this paper, we extend previous work on distributed reasoning using Contextual Defeasible Logic (CDL), which enables decentralised distributed reasoning based on a distributed knowledge base, such that the knowledge from different knowledge bases may conflict with each other. However, there are many use case scenarios that are not possible to represent in this model. One kind of such scenarios are the ones that require that agents share and reason with relevant knowledge when issuing a query to others. Another kind of scenarios are those in which the bindings among the agents (defined by means of mapping rules) are not static, such as in knowledge-intensive and dynamic environments. This work presents a multi-agent model based on CDL that not only allows agents to reason with their local knowledge bases and mapping rules, but also allows agents to reason about relevant knowledge (focus) -- which are not known by the agents a priori -- in the context of a specific query. We present a use case scenario, some formalisations of the model proposed, and an initial implementation based on the BDI (Belief-Desire-Intention) agent model.
翻訳日:2022-10-12 08:28:12 公開日:2020-10-01
# 6gにおける自己学習エッジインテリジェンスに向けて

Towards Self-learning Edge Intelligence in 6G ( http://arxiv.org/abs/2010.00176v1 )

ライセンス: Link先を確認
Yong Xiao and Guangming Shi and Yingyu Li and Walid Saad and H. Vincent Poor(参考訳) エッジインテリジェンス(Edge Intelligence、別名エッジネイティブ人工知能(AI))は、AI、通信ネットワーク、モバイルエッジコンピューティングのシームレスな統合に焦点を当てた新興技術フレームワークである。 既存の5Gネットワークで欠落している重要なコンポーネントの1つと考えられており、明日の無線6Gセルシステムにとって最も望まれる機能の1つと広く認識されている。 本稿では、6GにおけるエッジネイティブAIの重要な要件と課題を特定する。 blu{demonstratate the potential performance improvement that can be done by automatic data learning and synthesizing at the edge} では,自己教師付き生成敵ネット(gans)に基づく自己学習アーキテクチャを導入する。 5Gネットワークを介して接続された大学キャンパスシャトルシステムにおける自己学習アーキテクチャの性能評価を行った。 その結果,提案アーキテクチャはエッジコンピューティングネットワークに出現する未知のサービスを識別し,分類する可能性を示唆している。 自己学習可能な6Gエッジインテリジェンスの将来動向と重要な研究課題についても論じる。

Edge intelligence, also called edge-native artificial intelligence (AI), is an emerging technological framework focusing on seamless integration of AI, communication networks, and mobile edge computing. It has been considered to be one of the key missing components in the existing 5G network and is widely recognized to be one of the most sought-after functions for tomorrow's wireless 6G cellular systems. In this article, we identify the key requirements and challenges of edge-native AI in 6G. A self-learning architecture based on self-supervised Generative Adversarial Nets (GANs) is introduced to \blu{demonstrate the potential performance improvement that can be achieved by automatic data learning and synthesizing at the edge of the network}. We evaluate the performance of our proposed self-learning architecture in a university campus shuttle system connected via a 5G network. Our result shows that the proposed architecture has the potential to identify and classify unknown services that emerge in edge computing networks. Future trends and key research problems for self-learning-enabled 6G edge intelligence are also discussed.
翻訳日:2022-10-12 08:27:53 公開日:2020-10-01
# refvos: ビデオオブジェクトのセグメンテーションのための参照表現をよく見る

RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation ( http://arxiv.org/abs/2010.00263v1 )

ライセンス: Link先を確認
Miriam Bellver, Carles Ventura, Carina Silberer, Ioannis Kazakos, Jordi Torres and Xavier Giro-i-Nieto(参考訳) 参照表現(言語誘導VOS)を用いたビデオオブジェクトセグメンテーションの課題は、言語句とビデオが与えられた場合、そのフレーズが参照するオブジェクトのバイナリマスクを生成することである。 このタスクに使用される既存のベンチマークは主に自明なケースで構成されており、参照を単純なフレーズで識別できる。 我々の分析は、davis-2017とアクタ-アクションデータセットにおけるフレーズの新たな分類に依拠しており、非自明なresは7つのre意味カテゴリでアノテートされている。 我々はこのデータを利用して、言語誘導画像セグメンテーションのタスクと言語誘導VOSのアート結果の状態の競合結果を得る新しいニューラルネットワークであるRefVOSの結果を分析する。 本研究は,タスクの主な課題が動作や静的動作の理解にあることを示す。

The task of video object segmentation with referring expressions (language-guided VOS) is to, given a linguistic phrase and a video, generate binary masks for the object to which the phrase refers. Our work argues that existing benchmarks used for this task are mainly composed of trivial cases, in which referents can be identified with simple phrases. Our analysis relies on a new categorization of the phrases in the DAVIS-2017 and Actor-Action datasets into trivial and non-trivial REs, with the non-trivial REs annotated with seven RE semantic categories. We leverage this data to analyze the results of RefVOS, a novel neural network that obtains competitive results for the task of language-guided image segmentation and state of the art results for language-guided VOS. Our study indicates that the major challenges for the task are related to understanding motion and static actions.
翻訳日:2022-10-12 08:20:57 公開日:2020-10-01
# 眼底画像を用いた糖尿病網膜症に対する費用対効果

Cost-Sensitive Regularization for Diabetic Retinopathy Grading from Eye Fundus Images ( http://arxiv.org/abs/2010.00291v1 )

ライセンス: Link先を確認
Adrian Galdran, Jos\'e Dolz, Hadi Chakor, Herv\'e Lombaert, Ismail Ben Ayed(参考訳) バイオメディカル画像における病気の重症度を評価することは、標準分類と同様の課題であるが、ラベル空間の基盤構造によって制約される。 このような構造は、異なる疾患のグレードの間の単調な関係を反映している。 本稿では,眼底画像から糖尿病網膜症(DR)の重症度を予測するために,コスト・センシティブな分類の概念に基づいて,この制約を強制するための簡単なアプローチを提案する。 標準分類の損失を、正規化子として振る舞う追加の項で拡大し、特定の画像に関連づけられた真のグレードから遠く離れている場合に、予測されたグレードにより大きなペナルティを課す。 さらに,この手法を,アトミックサブタスクモデリングと呼ぶ手法である dr grading に関連する各サブプロームにおけるラベルノイズのモデリングに適用する方法を示す。 これにより、DRグレードアノテーションに存在する固有のノイズを暗黙的に考慮できるモデルが得られる。 いくつかの公開データセットに対する実験分析により,標準的な畳み込みニューラルネットワークをこの単純な戦略でトレーニングした場合,2次重み付きカッパスコアの3~5倍の改善は無視できない計算コストで達成できることがわかった。 結果を再現するためのコードはhttps://github.com/agaldran/cost_sensitive_loss_classificationでリリースされています。

Assessing the degree of disease severity in biomedical images is a task similar to standard classification but constrained by an underlying structure in the label space. Such a structure reflects the monotonic relationship between different disease grades. In this paper, we propose a straightforward approach to enforce this constraint for the task of predicting Diabetic Retinopathy (DR) severity from eye fundus images based on the well-known notion of Cost-Sensitive classification. We expand standard classification losses with an extra term that acts as a regularizer, imposing greater penalties on predicted grades when they are farther away from the true grade associated to a particular image. Furthermore, we show how to adapt our method to the modelling of label noise in each of the sub-problems associated to DR grading, an approach we refer to as Atomic Sub-Task modeling. This yields models that can implicitly take into account the inherent noise present in DR grade annotations. Our experimental analysis on several public datasets reveals that, when a standard Convolutional Neural Network is trained using this simple strategy, improvements of 3-5\% of quadratic-weighted kappa scores can be achieved at a negligible computational cost. Code to reproduce our results is released at https://github.com/agaldran/cost_sensitive_loss_classification.
翻訳日:2022-10-12 08:20:34 公開日:2020-10-01
# あなたは自分のポーズを信用できますか。 視覚定位における信頼度推定

Can You Trust Your Pose? Confidence Estimation in Visual Localization ( http://arxiv.org/abs/2010.00347v1 )

ライセンス: Link先を確認
Luca Ferranti, Xiaotian Li, Jani Boutellier, Juho Kannala(参考訳) 大規模環境でのカメラポーズ推定は依然として未解決の問題であり、最近の有望な結果にもかかわらず、いくつかの状況では失敗する可能性がある。 これまでの研究は、より正確なポーズを達成するために、推定パイプラインのサブコンポーネントの改善に注力してきた。 しかし、位置推定の正確性は、自律ナビゲーションなど、いくつかの視覚的ローカライズアプリケーションにおいて極めて重要であるにもかかわらず、結果が正しいという保証はない。 本稿では,視覚的に推定されたポーズがどの程度信頼性が高いかの定量化を目的として,新しい研究課題を提起する。 我々は,この課題を満たすための新しい信頼度尺度を開発し,様々なデータセット,屋内,屋外,および様々な視覚的位置決めパイプラインに柔軟に適用できることを示し,提案手法が既存のポーズ推定パイプラインの精度向上という2次目標を達成するために利用できることを示す。 最後に,提案手法は計算量的に軽量であり,ポーズ推定の計算量の増加は無視できない。

Camera pose estimation in large-scale environments is still an open question and, despite recent promising results, it may still fail in some situations. The research so far has focused on improving subcomponents of estimation pipelines, to achieve more accurate poses. However, there is no guarantee for the result to be correct, even though the correctness of pose estimation is critically important in several visual localization applications,such as in autonomous navigation. In this paper we bring to attention a novel research question, pose confidence estimation,where we aim at quantifying how reliable the visually estimated pose is. We develop a novel confidence measure to fulfil this task and show that it can be flexibly applied to different datasets,indoor or outdoor, and for various visual localization pipelines.We also show that the proposed techniques can be used to accomplish a secondary goal: improving the accuracy of existing pose estimation pipelines. Finally, the proposed approach is computationally light-weight and adds only a negligible increase to the computational effort of pose estimation.
翻訳日:2022-10-12 08:20:13 公開日:2020-10-01
# 低リソース回路部品認識のための超軽量CNN

An Ultra Lightweight CNN for Low Resource Circuit Component Recognition ( http://arxiv.org/abs/2010.00505v1 )

ライセンス: Link先を確認
Yingnan Ju, Yue Chen(参考訳) 本稿では,画像内の異なる回路成分を極めて限られた訓練データで効果的に認識できる,超軽量なシステムを提案する。 システムとともに、タスクのために作成したデータセットもリリースします。 システムでは2段階のアプローチが採用されている。 各回路部品の位置を求めるために選択探索を適用した。 その結果から,オリジナル画像をより小さな断片に分解した。 それらの部品は、各回路コンポーネントを識別するために分類するために、畳み込みニューラルネットワーク(CNN)に送られる。 工学的重要性があり、低リソース環境では回路部品認識にうまく機能する。 システムの精度は93.4\%に達し、サポートベクトルマシン(SVM)ベースライン(75.00%)と既存の最先端RetinaNetソリューション(92.80%)を上回っている。

In this paper, we present an ultra lightweight system that can effectively recognize different circuit components in an image with very limited training data. Along with the system, we also release the data set we created for the task. A two-stage approach is employed by our system. Selective search was applied to find the location of each circuit component. Based on its result, we crop the original image into smaller pieces. The pieces are then fed to the Convolutional Neural Network (CNN) for classification to identify each circuit component. It is of engineering significance and works well in circuit component recognition in a low resource setting. The accuracy of our system reaches 93.4\%, outperforming the support vector machine (SVM) baseline (75.00%) and the existing state-of-the-art RetinaNet solutions (92.80%).
翻訳日:2022-10-12 08:19:13 公開日:2020-10-01
# 高分解能スライドスキャンによる癌組織のマルチスケール検出

Multiscale Detection of Cancerous Tissue in High Resolution Slide Scans ( http://arxiv.org/abs/2010.00641v1 )

ライセンス: Link先を確認
Qingchao Zhang, Coy D. Heldermon, Corey Toler-Franklin(参考訳) 高分解能スライドスキャンにおけるマルチスケール腫瘍(キメラ細胞)検出アルゴリズムを提案する。 我々のデータセットの幅広い腫瘍サイズは、画像特徴が非常に小さい(8ピクセル)場合にしばしば失敗する現在の畳み込みニューラルネットワーク(cnn)にとって課題となる。 提案手法はcnnの異なる層における効果的な受容場を変化させ、様々なスケールの物体を単一のフォワードパスで検出できるようにする。 我々は,等比例区間原理の下で解くことができる適応型事前アンカーボックスの計算規則を定義する。 我々のcnnアーキテクチャにおける2つのメカニズムは、データに共通する非識別的特徴の影響を緩和する - カスケード残差インセプションモジュールと、追加のコンテキスト情報を持つデコンボリューションモジュールを組み込んだフォビア検出アルゴリズム。 Single Shot MultiBox Detector (SSD)に統合されると、これらの追加により、より正確な小さなオブジェクトの検出が可能になる。 その結果,病理学および関連バイオメディカル研究分野における医用画像の効率的なリアルタイム解析が可能となった。

We present an algorithm for multi-scale tumor (chimeric cell) detection in high resolution slide scans. The broad range of tumor sizes in our dataset pose a challenge for current Convolutional Neural Networks (CNN) which often fail when image features are very small (8 pixels). Our approach modifies the effective receptive field at different layers in a CNN so that objects with a broad range of varying scales can be detected in a single forward pass. We define rules for computing adaptive prior anchor boxes which we show are solvable under the equal proportion interval principle. Two mechanisms in our CNN architecture alleviate the effects of non-discriminative features prevalent in our data - a foveal detection algorithm that incorporates a cascade residual-inception module and a deconvolution module with additional context information. When integrated into a Single Shot MultiBox Detector (SSD), these additions permit more accurate detection of small-scale objects. The results permit efficient real-time analysis of medical images in pathology and related biomedical research fields.
翻訳日:2022-10-12 08:18:22 公開日:2020-10-01
# liveqa:スポーツライブでデータセットに答える質問

LiveQA: A Question Answering Dataset over Sports Live ( http://arxiv.org/abs/2010.00526v1 )

ライセンス: Link先を確認
Qianying Liu, Sicong Jiang, Yizhong Wang and Sujian Li(参考訳) 本稿では,遊びごとのライブ放送から構築した質問応答データセットであるLiveQAを紹介する。 NBAで1,670試合以上の解説者によって書かれた117kの多重選択質問が中国フプ(https://nba.hupu.com/games)のウェブサイトから集められている。 スポーツゲームの特徴から派生したLiveQAは、既存のデータセットと比較して難しいタイムラインベースのライブ放送における推論能力をテストすることができる。 LiveQAでは、質問はタイムラインを理解し、イベントを追跡し、数学的計算を行う必要がある。 予備実験により,本データセットは問合せモデルに挑戦的な問題を導入し,強基準モデルでは53.1\%の精度しか達成できず,支配的なオプションルールに勝てないことがわかった。 今後の研究のために,本論文のコードとデータをリリースする。

In this paper, we introduce LiveQA, a new question answering dataset constructed from play-by-play live broadcast. It contains 117k multiple-choice questions written by human commentators for over 1,670 NBA games, which are collected from the Chinese Hupu (https://nba.hupu.com/games) website. Derived from the characteristics of sports games, LiveQA can potentially test the reasoning ability across timeline-based live broadcasts, which is challenging compared to the existing datasets. In LiveQA, the questions require understanding the timeline, tracking events or doing mathematical computations. Our preliminary experiments show that the dataset introduces a challenging problem for question answering models, and a strong baseline model only achieves the accuracy of 53.1\% and cannot beat the dominant option rule. We release the code and data of this paper for future research.
翻訳日:2022-10-12 08:12:05 公開日:2020-10-01
# シーケンスラベリングとしての連続的連続構文解析

Discontinuous Constituent Parsing as Sequence Labeling ( http://arxiv.org/abs/2010.00633v1 )

ライセンス: Link先を確認
David Vilares and Carlos G\'omez-Rodr\'iguez(参考訳) 本稿では,不連続解析をシーケンスラベリングに還元する。 まず,既存の構文解析におけるラベリングが不連続性をサポートしていないことを示す。 第二に、このギャップを埋め、入力シーケンスのほぼ順序の置換として木の不連続性を符号化することを提案する。 第三に、このような不連続表現が学習可能であるかどうかを研究する。 実験によると、アーキテクチャの単純さにもかかわらず、正しい表現の下では、モデルは高速で正確である。

This paper reduces discontinuous parsing to sequence labeling. It first shows that existing reductions for constituent parsing as labeling do not support discontinuities. Second, it fills this gap and proposes to encode tree discontinuities as nearly ordered permutations of the input sequence. Third, it studies whether such discontinuous representations are learnable. The experiments show that despite the architectural simplicity, under the right representation, the models are fast and accurate.
翻訳日:2022-10-12 08:11:50 公開日:2020-10-01
# マルチドメイン言語モデル事前学習の効率化に向けた実証的研究

An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training ( http://arxiv.org/abs/2010.00784v1 )

ライセンス: Link先を確認
Kristjan Arumae, Qing Sun, and Parminder Bhatia(参考訳) 自然言語処理コミュニティでは,事前学習による大規模言語モデルが標準となっている。 このようなモデルは一般的なデータ(例えばブックコーパスやウィキペディア)で事前訓練され、しばしば同じドメインのタスクで微調整される。 しかし, 臨床名付きエンティティ認識や関係抽出などの領域外課題に対して, 最先端の性能を達成するためには, ドメイン事前訓練の実施が必要である。 実際には、ステージドマルチドメイン事前トレーニングは、GLUEのような一般的なベンチマークで評価すると、破滅的忘れ(CF)という形で性能劣化を示す。 本稿では,CFを緩和するための既知の手法に関する実証的研究を行う。 弾力性重みの強化は、7つの一般的なタスクでパフォーマンスが0.33%低下するだけでなく、バイオメディカルなタスクでも競争力が保たれます。 さらに,弾性重み強化法と経験再生法を用いて,勾配および潜時クラスタリングに基づくデータ選択手法について検討した。

Pre-training large language models has become a standard in the natural language processing community. Such models are pre-trained on generic data (e.g. BookCorpus and English Wikipedia) and often fine-tuned on tasks in the same domain. However, in order to achieve state-of-the-art performance on out of domain tasks such as clinical named entity recognition and relation extraction, additional in domain pre-training is required. In practice, staged multi-domain pre-training presents performance deterioration in the form of catastrophic forgetting (CF) when evaluated on a generic benchmark such as GLUE. In this paper we conduct an empirical investigation into known methods to mitigate CF. We find that elastic weight consolidation provides best overall scores yielding only a 0.33% drop in performance across seven generic tasks while remaining competitive in bio-medical tasks. Furthermore, we explore gradient and latent clustering based data selection techniques to improve coverage when using elastic weight consolidation and experience replay methods.
翻訳日:2022-10-12 08:11:22 公開日:2020-10-01
# ペア比較の強化と品質評価精度向上のための戦略

Strategy for Boosting Pair Comparison and Improving Quality Assessment Accuracy ( http://arxiv.org/abs/2010.00370v1 )

ライセンス: Link先を確認
Suiyi Ling, Jing Li, Anne Flore Perrin, Zhi Li, Luk\'a\v{s} Krasula, Patrick Le Callet(参考訳) 厳密な品質評価モデルの開発は、視覚的マルチメディアの品質が人間の観察者によって評価される信頼できる主観的データの収集に依存している。 目的に応じて異なる主観的評価プロトコルを使用し、主観的データの識別性と精度を決定する。 単一刺激法、例えば絶対カテゴリー評価(ACR)は、その単純さと効率性から広く採用されている。 しかし、Pair Comparison(PC)は差別性という点ではACRに対して大きな優位性がある。 さらに,PCは,品質尺度の理解に関する観察者の偏見の影響を回避している。 それでも、完全な対比較はずっと時間がかかる。 そこで本研究では, 1) 対比較データとACRデータをブリッジする汎用モデルを用いて, 分散項を復元し, 得られた情報がより完全である。 2) ACRの結果を初期化情報として利用してペア比較を促進する融合戦略を提案する。 3)PC用最小スパンニングツリー(MST)に基づく新しいアクティブバッチサンプリング戦略を開発する。 このようにして、提案手法はペア比較の精度を同等に向上するが、ACRほど高い包括性を達成できる。 大規模な実験結果から,提案手法の効率性と精度が示され,その有効性が示された。

The development of rigorous quality assessment model relies on the collection of reliable subjective data, where the perceived quality of visual multimedia is rated by the human observers. Different subjective assessment protocols can be used according to the objectives, which determine the discriminability and accuracy of the subjective data. Single stimulus methodology, e.g., the Absolute Category Rating (ACR) has been widely adopted due to its simplicity and efficiency. However, Pair Comparison (PC) is of significant advantage over ACR in terms of discriminability. In addition, PC avoids the influence of observers' bias regarding their understanding of the quality scale. Nevertheless, full pair comparison is much more time-consuming. In this study, we therefore 1) employ a generic model to bridge the pair comparison data and ACR data, where the variance term could be recovered and the obtained information is more complete; 2) propose a fusion strategy to boost pair comparisons by utilizing the ACR results as initialization information; 3) develop a novel active batch sampling strategy based on Minimum Spanning Tree (MST) for PC. In such a way, the proposed methodology could achieve the same accuracy of pair comparison but with the compelxity as low as ACR. Extensive experimental results demonstrate the efficiency and accuracy of the proposed approach, which outperforms the state of the art approaches.
翻訳日:2022-10-12 08:10:44 公開日:2020-10-01
# 高等教育機関が直面する学生グループ最適化問題に対するメタヒューリスティックな解決策

Meta-Heuristic Solutions to a Student Grouping Optimization Problem faced in Higher Education Institutions ( http://arxiv.org/abs/2010.00499v1 )

ライセンス: Link先を確認
Patrick Kenekayoro, Biralatei Fawei(参考訳) 高等教育機関や研究機関では、NPハードであることが証明された組合せ問題は、タイムタブルや学生プロジェクトアロケーション問題など、よく知られた組合せ問題を幅広く研究している。 しかし、高等教育機関が直面するNP-hard問題は、これらの組合せ問題に限ったものではない。 研究所で直面するnp-hard問題の大部分は、それぞれの問題に独自の制約があるにもかかわらず、学生やリソースをグループ化することである。 したがって、高等教育機関におけるNP-hard問題の解決手法は、異なる問題カテゴリにまたがって移行可能であると論じることができる。 すべての問題において他のすべての問題を上回る方法が保証されていないため、高等教育機関で直面するnp-hard問題ごとに、利害関係者やソフトウェア開発者が最も適切なアルゴリズムに導くために、あまり知られていない問題を解決するためのヒューリスティックな手法を検討する必要がある。 そこで本研究では,学期成績を提示するために学生をグループ化することを伴う実大学における最適化問題について述べる。 順序付けに基づくヒューリスティックス、遺伝的アルゴリズム、およびpythonで実装されたantコロニー最適化アルゴリズムは、この問題に対する実現可能な解決策を見つけるために用いられ、antコロニー最適化アルゴリズムはテストインスタンスの75%で良くも同等に動作し、遺伝子アルゴリズムはテストインスタンスの38%でより良い結果を生成する。

Combinatorial problems which have been proven to be NP-hard are faced in Higher Education Institutions and researches have extensively investigated some of the well-known combinatorial problems such as the timetabling and student project allocation problems. However, NP-hard problems faced in Higher Education Institutions are not only confined to these categories of combinatorial problems. The majority of NP-hard problems faced in institutions involve grouping students and/or resources, albeit with each problem having its own unique set of constraints. Thus, it can be argued that techniques to solve NP-hard problems in Higher Education Institutions can be transferred across the different problem categories. As no method is guaranteed to outperform all others in all problems, it is necessary to investigate heuristic techniques for solving lesser-known problems in order to guide stakeholders or software developers to the most appropriate algorithm for each unique class of NP-hard problems faced in Higher Education Institutions. To this end, this study described an optimization problem faced in a real university that involved grouping students for the presentation of semester results. Ordering based heuristics, genetic algorithm and the ant colony optimization algorithm implemented in Python programming language were used to find feasible solutions to this problem, with the ant colony optimization algorithm performing better or equal in 75% of the test instances and the genetic algorithm producing better or equal results in 38% of the test instances.
翻訳日:2022-10-12 08:10:26 公開日:2020-10-01
# ビデオ超解像のための変形性カーネル畳み込みネットワーク

Deformable Kernel Convolutional Network for Video Extreme Super-Resolution ( http://arxiv.org/abs/2010.00154v1 )

ライセンス: Link先を確認
Xuan Xu, Xin Xiong, Jinge Wang, Xin Li(参考訳) 高解像度ビデオフレームを低解像度版から再構築しようとする超高解像度ビデオは、近年ますます注目を集めている。 既存のアプローチでは、変形可能な畳み込みを使用して隣接フレームを時間的に整列させ、伝統的な空間的注意機構(畳み込みベース)を適用して再構成された特徴を強化する。 しかし、このような空間のみの戦略は、映像フレーム間の時間的依存性を十分に活用できない。 本稿では,Deformable Kernel Spatial Attention Network (DKSAN) という,ディープラーニングに基づく新しいVSRアルゴリズムを提案する。 新しく設計されたDeformable Kernel Convolution Alignment (DKC_Align)とDeformable Kernel Spatial Attention (DKSA)モジュールのおかげで、DKSANは、空間的および時間的冗長性の両方をうまく利用して、異なるレイヤ間での情報伝達を容易にすることができる。 AIM2020 Video Extreme Super-Resolution ChallengeでDKSANを試してみました。 実験の結果,提案したDKSANは,既存のVid3oCおよびIntVIDデータセットのEDVRと比較して,主観的および客観的な性能が向上することが示された。

Video super-resolution, which attempts to reconstruct high-resolution video frames from their corresponding low-resolution versions, has received increasingly more attention in recent years. Most existing approaches opt to use deformable convolution to temporally align neighboring frames and apply traditional spatial attention mechanism (convolution based) to enhance reconstructed features. However, such spatial-only strategies cannot fully utilize temporal dependency among video frames. In this paper, we propose a novel deep learning based VSR algorithm, named Deformable Kernel Spatial Attention Network (DKSAN). Thanks to newly designed Deformable Kernel Convolution Alignment (DKC_Align) and Deformable Kernel Spatial Attention (DKSA) modules, DKSAN can better exploit both spatial and temporal redundancies to facilitate the information propagation across different layers. We have tested DKSAN on AIM2020 Video Extreme Super-Resolution Challenge to super-resolve videos with a scale factor as large as 16. Experimental results demonstrate that our proposed DKSAN can achieve both better subjective and objective performance compared with the existing state-of-the-art EDVR on Vid3oC and IntVID datasets.
翻訳日:2022-10-12 08:10:01 公開日:2020-10-01
# MLRSNet:セマンティックシーン理解のための多ラベル高空間分解能リモートセンシングデータセット

MLRSNet: A Multi-label High Spatial Resolution Remote Sensing Dataset for Semantic Scene Understanding ( http://arxiv.org/abs/2010.00243v1 )

ライセンス: Link先を確認
Xiaoman Qi, PanPan Zhu, Yuebin Wang, Liqiang Zhang, Junhuan Peng, Mengfan Wu, Jialong Chen, Xudong Zhao, Ning Zang, P.Takis Mathiopoulos(参考訳) リモートセンシングの分野でのシーンイメージの理解を深めるためには,シーンイメージのマルチラベルアノテーションが必要である。 さらに,セマンティックシーン理解タスクを扱うためのディープラーニングモデルの性能を向上させるためには,大規模アノテートデータを用いた学習が不可欠である。 しかし、既存のほとんどのデータセットは単一のラベルで注釈付けされており、シーンイメージには複数のランドカバークラスがあるため、複雑なリモートセンシングイメージをうまく記述することはできない。 シーン分類や画像検索などの多ラベルタスクのための深層学習モデルを訓練するための多ラベル高解像度リモートセンシングデータセットが開発されている。 この問題に対処するため,我々はMLRSNetというマルチラベル高空間分解能リモートセンシングデータセットを構築し,オーバーヘッドの観点からの深層学習によるセマンティックシーン理解を実現する。 高解像度の光学衛星または空中画像で構成されている。 mlrsnetには46のシーンカテゴリで合計109,161のサンプルがあり、それぞれのイメージには60のラベルのうちの少なくとも1つが含まれている。 我々は,MLRSNetを用いて多ラベル画像分類と画像検索を含む視覚認識タスクを設計し,様々な深層学習手法の評価を行った。 実験の結果、MLRSNetは将来の研究において重要なベンチマークであり、マルチラベル画像研究のギャップを埋めるImageNetのような現在広く使われているデータセットを補完することが示された。 さらに、MLRSNetの拡張も続けます。 MLRSNetと関連するすべての資料がhttps://data.mendeley.com/datasets/7j9bv9vwsx/2とhttps://github.com/cugbrs/MLRSNet.gitで公開されている。

To better understand scene images in the field of remote sensing, multi-label annotation of scene images is necessary. Moreover, to enhance the performance of deep learning models for dealing with semantic scene understanding tasks, it is vital to train them on large-scale annotated data. However, most existing datasets are annotated by a single label, which cannot describe the complex remote sensing images well because scene images might have multiple land cover classes. Few multi-label high spatial resolution remote sensing datasets have been developed to train deep learning models for multi-label based tasks, such as scene classification and image retrieval. To address this issue, in this paper, we construct a multi-label high spatial resolution remote sensing dataset named MLRSNet for semantic scene understanding with deep learning from the overhead perspective. It is composed of high-resolution optical satellite or aerial images. MLRSNet contains a total of 109,161 samples within 46 scene categories, and each image has at least one of 60 predefined labels. We have designed visual recognition tasks, including multi-label based image classification and image retrieval, in which a wide variety of deep learning approaches are evaluated with MLRSNet. The experimental results demonstrate that MLRSNet is a significant benchmark for future research, and it complements the current widely used datasets such as ImageNet, which fills gaps in multi-label image research. Furthermore, we will continue to expand the MLRSNet. MLRSNet and all related materials have been made publicly available at https://data.mendeley.com/datasets/7j9bv9vwsx/2 and https://github.com/cugbrs/MLRSNet.git.
翻訳日:2022-10-12 08:09:36 公開日:2020-10-01
# trueimage: 遠隔医療写真の品質向上のための機械学習アルゴリズム

TrueImage: A Machine Learning Algorithm to Improve the Quality of Telehealth Photos ( http://arxiv.org/abs/2010.02086v1 )

ライセンス: Link先を確認
Kailas Vodrahalli, Roxana Daneshjou, Roberto A Novoa, Albert Chiou, Justin M Ko, and James Zou(参考訳) テレヘルスは、特に新型コロナウイルス(COVID-19)のパンデミックにより、医療エコシステムにとってますます重要な要素となっている。 telehealthの急速な採用は、既存のインフラストラクチャの制限を露呈している。 本稿では,遠隔医療における重要な課題として,写真品質の研究と強調を行う。 我々は,写真品質が特に重要である遠隔皮膚科に焦点をあて,この枠組みを他の健康領域に一般化することができる。 遠隔医療のために、皮膚科医は患者の病変の画像を提出して評価するよう要求する。 しかし, これらの画像は, 臨床写真撮影経験がない患者のために, 臨床診断に不適当であることが多い。 臨床医は、手動で品質の悪い画像をトリアージし、新しい画像の提出を要求し、臨床医と患者の両方にとって無駄な時間を浪費する。 そこで本研究では,良質な皮膚科画像を検出し,患者により良い写真撮影を指導する,自動画像評価機械学習パイプラインであるtrueimageを提案する。 実験の結果,TrueImageは,トレーニングデータの不均一性や制限にもかかわらず,送信した画質画像の80%を維持しながら,サブパー品質画像の50%を拒否できることがわかった。 これらの有望な結果は,我々のソリューションが実現可能であり,遠隔医療の質を向上させることを示唆している。

Telehealth is an increasingly critical component of the health care ecosystem, especially due to the COVID-19 pandemic. Rapid adoption of telehealth has exposed limitations in the existing infrastructure. In this paper, we study and highlight photo quality as a major challenge in the telehealth workflow. We focus on teledermatology, where photo quality is particularly important; the framework proposed here can be generalized to other health domains. For telemedicine, dermatologists request that patients submit images of their lesions for assessment. However, these images are often of insufficient quality to make a clinical diagnosis since patients do not have experience taking clinical photos. A clinician has to manually triage poor quality images and request new images to be submitted, leading to wasted time for both the clinician and the patient. We propose an automated image assessment machine learning pipeline, TrueImage, to detect poor quality dermatology photos and to guide patients in taking better photos. Our experiments indicate that TrueImage can reject 50% of the sub-par quality images, while retaining 80% of good quality images patients send in, despite heterogeneity and limitations in the training data. These promising results suggest that our solution is feasible and can improve the quality of teledermatology care.
翻訳日:2022-10-12 08:03:05 公開日:2020-10-01
# 文書接地対話理解のための比較集計変換器

A Compare Aggregate Transformer for Understanding Document-grounded Dialogue ( http://arxiv.org/abs/2010.00190v1 )

ライセンス: Link先を確認
Longxuan Ma and Weinan Zhang and Runxin Sun and Ting Liu(参考訳) 対話の外部知識として機能する構造化されていない文書は、より情報的な応答を生成するのに役立つ。 前回の研究では,対話を伴う文書における知識選択(ks)に着目した。 しかし、現在の対話とは無関係な対話履歴は、KS処理にノイズをもたらす可能性がある。 本稿では,対話コンテキストを協調的に認知し,応答生成のための文書情報を集約する比較集約変換器(CAT)を提案する。 我々はノイズ(前と復号時)を減らすための2つの異なる比較機構を設計した。 さらに,単語重なりに基づく文書利用効率評価のための2つの指標を提案する。 CMUDoGデータセットの実験結果は、提案したCATモデルが最先端のアプローチと強力なベースラインよりも優れていることを示している。

Unstructured documents serving as external knowledge of the dialogues help to generate more informative responses. Previous research focused on knowledge selection (KS) in the document with dialogue. However, dialogue history that is not related to the current dialogue may introduce noise in the KS processing. In this paper, we propose a Compare Aggregate Transformer (CAT) to jointly denoise the dialogue context and aggregate the document information for response generation. We designed two different comparison mechanisms to reduce noise (before and during decoding). In addition, we propose two metrics for evaluating document utilization efficiency based on word overlap. Experimental results on the CMUDoG dataset show that the proposed CAT model outperforms the state-of-the-art approach and strong baselines.
翻訳日:2022-10-12 08:02:30 公開日:2020-10-01
# 単語大文字化と句読点復元モデルを用いたベトナム語名称認識の改善

Improving Vietnamese Named Entity Recognition from Speech Using Word Capitalization and Punctuation Recovery Models ( http://arxiv.org/abs/2010.00198v1 )

ライセンス: Link先を確認
Thai Binh Nguyen, Quang Minh Nguyen, Thi Thu Hien Nguyen, Quoc Truong Do, Chi Mai Luong(参考訳) Named Entity Recognition (NER) タスクの研究は、適切な句読点や大文字化などの正しいテキストフォーマットを持つ入力テキストに対して、人間のパリティに達する優れた結果を示している。 しかし、テキストは音声認識システム(asr)から生成され、システムはテキストフォーマットを考慮していないため、入力が音声であるアプリケーションではそのような条件は利用できない。 本稿では,(1) nerタスクのための最初のベトナム語音声データセットを提示し,(2) ベトナム語nerタスクの新たな最先端を,最新の研究と比較して1.3%の絶対的f1スコアで達成した,ベトナム初の大規模単言語モデルについて述べる。 最後に, 音声からのNERタスクのための新しいパイプラインを提案し, テキスト大文字化と句読解モデル(CaPu)をパイプラインに導入することで, テキストフォーマッティングの問題を克服した。 このモデルは、ASRシステムから入力テキストを受け取り、2つのタスクを同時に実行し、NERのパフォーマンスを改善するのに役立つ適切なテキストフォーマッティングを生成する。 実験の結果,CaPuモデルによりF1スコアの約4%の改善が得られた。

Studies on the Named Entity Recognition (NER) task have shown outstanding results that reach human parity on input texts with correct text formattings, such as with proper punctuation and capitalization. However, such conditions are not available in applications where the input is speech, because the text is generated from a speech recognition system (ASR), and that the system does not consider the text formatting. In this paper, we (1) presented the first Vietnamese speech dataset for NER task, and (2) the first pre-trained public large-scale monolingual language model for Vietnamese that achieved the new state-of-the-art for the Vietnamese NER task by 1.3% absolute F1 score comparing to the latest study. And finally, (3) we proposed a new pipeline for NER task from speech that overcomes the text formatting problem by introducing a text capitalization and punctuation recovery model (CaPu) into the pipeline. The model takes input text from an ASR system and performs two tasks at the same time, producing proper text formatting that helps to improve NER performance. Experimental results indicated that the CaPu model helps to improve by nearly 4% of F1-score.
翻訳日:2022-10-12 08:02:20 公開日:2020-10-01
# LSTMがいかに構文を符号化するか: 文脈ベクトルの探索と自然文の半量子化

How LSTM Encodes Syntax: Exploring Context Vectors and Semi-Quantization on Natural Text ( http://arxiv.org/abs/2010.00363v1 )

ライセンス: Link先を確認
Chihiro Shibata, Kei Uchiumi, Daichi Mochihashi(参考訳) long short-term memory recurrent neural network (lstm) は、長期的な構文依存を捉えるために広く使われている。 しかし、そのような情報が自然テキストの内部ベクトルにどのように反映されているかはまだ十分に研究されていない。 構文構造が暗黙的に与えられる言語モデルを学習して分析する。 Suzgun et al. (2019)が最近発表したように、内部ゲートの出力である文脈更新ベクトルは、言語モデルがネストの深さを正確にカウントするのを助けるために、ほぼ2進または3進の値に量子化されている。 文脈ベクトルのいくつかの次元について、それらのアクティベーションは、VPやNPのようなフレーズ構造の深さと非常に相関していることを示す。 さらに,$L_1$正規化により,単語が句構造内にあるか否かを,文脈ベクトルの少数の成分から正確に予測できることがわかった。 生のテキストから学ぶ場合でさえ、文脈ベクトルはフレーズ構造とよく相関していることが示される。 最後に、機能的単語の自然なクラスタと、フレーズをトリガーする音声の一部が、LSTMの文脈更新ベクトルの小さいが主部分空間で表現されていることを示す。

Long Short-Term Memory recurrent neural network (LSTM) is widely used and known to capture informative long-term syntactic dependencies. However, how such information are reflected in its internal vectors for natural text has not yet been sufficiently investigated. We analyze them by learning a language model where syntactic structures are implicitly given. We empirically show that the context update vectors, i.e. outputs of internal gates, are approximately quantized to binary or ternary values to help the language model to count the depth of nesting accurately, as Suzgun et al. (2019) recently show for synthetic Dyck languages. For some dimensions in the context vector, we show that their activations are highly correlated with the depth of phrase structures, such as VP and NP. Moreover, with an $L_1$ regularization, we also found that it can accurately predict whether a word is inside a phrase structure or not from a small number of components of the context vector. Even for the case of learning from raw text, context vectors are shown to still correlate well with the phrase structures. Finally, we show that natural clusters of the functional words and the part of speeches that trigger phrases are represented in a small but principal subspace of the context-update vector of LSTM.
翻訳日:2022-10-12 08:01:15 公開日:2020-10-01
# 引用感情変化分析

Citation Sentiment Changes Analysis ( http://arxiv.org/abs/2010.00372v1 )

ライセンス: Link先を確認
Haixia Liu(参考訳) 引用感情の変化を測定する尺度が導入された。 GCSS(Global citation sentiment sequences)から引用感情の変化が観察できる。 引用した論文に関して,引用感情のシーケンスを,出版時に注文された引用論文のコレクションを通して分析した。 GCSSsの解析にはEDR(Eddy Dissipation Rate)が採用され、GCSSsパターンの差はEDR法で検出できるという仮説が採用された。 予備的な証拠は、edrに基づく手法が出版物の影響を時系列的に分析する可能性を秘めていることを示している。

Metrics for measuring the citation sentiment changes were introduced. Citation sentiment changes can be observed from global citation sentiment sequences (GCSSs). With respect to a cited paper, the citation sentiment sequences were analysed across a collection of citing papers ordered by the published time. For analysing GCSSs, Eddy Dissipation Rate (EDR) was adopted, with the hypothesis that the GCSSs pattern differences can be spotted by EDR based method. Preliminary evidence showed that EDR based method holds the potential for analysing a publication's impact in a time series fashion.
翻訳日:2022-10-12 08:00:52 公開日:2020-10-01
# いつインプットする? クロスバリデーション前後の計算

When to Impute? Imputation before and during cross-validation ( http://arxiv.org/abs/2010.00718v1 )

ライセンス: Link先を確認
Byron C. Jaeger, Nicholas J. Tierney, Noah R. Simon(参考訳) クロスバリデーション(CV)は予測モデルの一般化誤差を推定する手法である。 パイプラインモデリングアルゴリズム(つまり、複数のステップのモデリング手順)では、パイプライン全体の外部テストセットへの適用を模倣するために、CVの複製毎にステップのシーケンス全体を実行することが推奨されている。 理論的には正しいが、この推奨に従うと、パイプラインモデリングアルゴリズムが計算に高価な演算、例えば欠落した値の計算を含む場合、高い計算コストが発生する。 無教師変数選択(すなわち結果を無視した)は、バイアスを伴わずにCVを実行する前に適用できるという一般的な信念があるが、無教師変数選択が欠落した値に対するコンセンサスが少ない。 本研究では,CV前における教師なし計算を行えば,一般化誤差の偏りが生じるか,選択されていないチューニングパラメータが低下し,下流モデルの外部性能が低下するか否かを実験的に評価した。 その結果、楽観的バイアスにもかかわらず、cv前のインプテーションのばらつきがcvの複製におけるインプテーションよりも小さくなると、真の外部r-二乗の推定における全体の根平均二乗誤差が低くなり、各複製の間、インプテーション前のインプテーションで調整されたモデルの性能は最小に異なることがわかった。 結論として、CV以前の教師なし計算は一定の設定で有効であり、高い計算コストを発生させることなくより柔軟な計算手法をアナリストが利用できるようにするための有用な戦略であると考えられる。

Cross-validation (CV) is a technique used to estimate generalization error for prediction models. For pipeline modeling algorithms (i.e. modeling procedures with multiple steps), it has been recommended the entire sequence of steps be carried out during each replicate of CV to mimic the application of the entire pipeline to an external testing set. While theoretically sound, following this recommendation can lead to high computational costs when a pipeline modeling algorithm includes computationally expensive operations, e.g. imputation of missing values. There is a general belief that unsupervised variable selection (i.e. ignoring the outcome) can be applied before conducting CV without incurring bias, but there is less consensus for unsupervised imputation of missing values. We empirically assessed whether conducting unsupervised imputation prior to CV would result in biased estimates of generalization error or result in poorly selected tuning parameters and thus degrade the external performance of downstream models. Results show that despite optimistic bias, the reduced variance of imputation before CV compared to imputation during each replicate of CV leads to a lower overall root mean squared error for estimation of the true external R-squared and the performance of models tuned using CV with imputation before versus during each replication is minimally different. In conclusion, unsupervised imputation before CV appears valid in certain settings and may be a helpful strategy that enables analysts to use more flexible imputation techniques without incurring high computational costs.
翻訳日:2022-10-12 07:53:23 公開日:2020-10-01
# CariMe: 複数の誇張機能を備えた未ペア画像生成

CariMe: Unpaired Caricature Generation with Multiple Exaggerations ( http://arxiv.org/abs/2010.00246v1 )

ライセンス: Link先を確認
Zheng Gu, Chuanqi Dong, Jing Huo, Wenbin Li, Yang Gao(参考訳) 似顔絵生成は、被写体のアイデンティティを維持しつつ、実際の写真を芸術的スタイルや形誇張のある似顔絵に翻訳することを目的としている。 一般的な画像から画像への変換とは異なり、画像の自動描画は、様々な空間的変形が存在するため、より困難な作業である。 従来の似顔絵生成方法は、顔絵における誇張の固有表現や分布を無視しながら、所定の写真から一定の画像の逸脱を予測することに集中する。 これにより、様々な誇張生成の能力が制限される。 本稿では,インスタンスレベルの変形予測から分布レベルの変形モデリングまで,画像生成問題を一般化する。 この仮定に基づいて,多重誇張(CariMe)を用いた未ペアCARIcature生成の探索を行った。 技術的には、写真から顔への分布レベルのマッピングを学習するマルチオーバーホールドワーパーネットワークを提案する。 これにより、1枚の入力写真がランダムにサンプリングされたワープ符号から多種多様な合理的な誇張を生成することができる。 顔の誇張をより良く表現し, きめ細かなワープを生成するために, 変形場に基づくワープ法も提案されている。 実験と2つの知覚研究により,他の最先端手法と比較して,本手法の優越性が証明された。

Caricature generation aims to translate real photos into caricatures with artistic styles and shape exaggerations while maintaining the identity of the subject. Different from the generic image-to-image translation, drawing a caricature automatically is a more challenging task due to the existence of various spacial deformations. Previous caricature generation methods are obsessed with predicting definite image warping from a given photo while ignoring the intrinsic representation and distribution for exaggerations in caricatures. This limits their ability on diverse exaggeration generation. In this paper, we generalize the caricature generation problem from instance-level warping prediction to distribution-level deformation modeling. Based on this assumption, we present the first exploration for unpaired CARIcature generation with Multiple Exaggerations (CariMe). Technically, we propose a Multi-exaggeration Warper network to learn the distribution-level mapping from photo to facial exaggerations. This makes it possible to generate diverse and reasonable exaggerations from randomly sampled warp codes given one input photo. To better represent the facial exaggeration and produce fine-grained warping, a deformation-field-based warping method is also proposed, which helps us to capture more detailed exaggerations than other point-based warping methods. Experiments and two perceptual studies prove the superiority of our method comparing with other state-of-the-art methods, showing the improvement of our work on caricature generation.
翻訳日:2022-10-12 07:52:52 公開日:2020-10-01
# 視覚注意を伴うニューラルエンコーディング

Neural encoding with visual attention ( http://arxiv.org/abs/2010.00516v1 )

ライセンス: Link先を確認
Meenakshi Khosla, Gia H. Ngo, Keith Jamison, Amy Kuceyeski and Mert R. Sabuncu(参考訳) 視覚知覚は注意の焦点に影響される。 資源が限られているため、神経表現は出席する場所に偏っていることが知られている。 眼球追跡と機能的磁気共鳴イメージング (fMRI) の同時記録を用いて, 視線情報を活用することにより, 注目マスキングの形で, 神経エンコーディングモデルにおける脳反応予測精度が有意に向上することを示した。 次に,学習可能なソフトアテンションモジュールを含むニューラルエンコーディングの新しいアプローチを提案する。 新たなアプローチを用いて,fMRI応答データのみを用いて,視線追跡に頼ることなく,エンドツーエンドの学習によって視覚的注意ポリシーを学習できることを実証した。 興味深いことに、独立したデータ上でモデルによって推定される注意の配置は、明示的な監督がなくても、対応するアイフィケーションパターンとよく一致している。 これらの結果から,注意モジュールは視覚刺激のニューラルエンコーディングモデルに有用であることが示唆された。

Visual perception is critically influenced by the focus of attention. Due to limited resources, it is well known that neural representations are biased in favor of attended locations. Using concurrent eye-tracking and functional Magnetic Resonance Imaging (fMRI) recordings from a large cohort of human subjects watching movies, we first demonstrate that leveraging gaze information, in the form of attentional masking, can significantly improve brain response prediction accuracy in a neural encoding model. Next, we propose a novel approach to neural encoding by including a trainable soft-attention module. Using our new approach, we demonstrate that it is possible to learn visual attention policies by end-to-end learning merely on fMRI response data, and without relying on any eye-tracking. Interestingly, we find that attention locations estimated by the model on independent data agree well with the corresponding eye fixation patterns, despite no explicit supervision to do so. Together, these findings suggest that attention modules can be instrumental in neural encoding models of visual stimuli.
翻訳日:2022-10-12 07:52:13 公開日:2020-10-01
# 複数プレイによる敵対的バンディット設定の未知遅延

Unknown Delay for Adversarial Bandit Setting with Multiple Play ( http://arxiv.org/abs/2010.00161v1 )

ライセンス: Link先を確認
Olusola T. Odeyomi(参考訳) 本稿では,複数の遊びを持つマルチアームバンディット (mab) における未知の遅延問題に対処する。 類似のゲーム設定に関する既存の作業は、学習者が各ラウンドで腕を選択する場合のみに焦点を当てている。 しかし、ロボット工学には、学習者が1ラウンドごとに複数の腕を選択する必要がある多くの応用がある。 したがって、複数の腕が選択されたときの遅延の影響を調査する価値がある。 この設定で1ラウンドごとに選択される複数のアームは、同じ量の遅延を経験する。 異なるラウンドで選択された異なる組み合わせのアームからのフィードバック損失の集約があり、学習者は、フィードバック損失をそれらを生成するアームに関連付けるという課題に直面しています。 本稿では,多重遊び(dexp3.m)アルゴリズムの遅延指数関数化,活用,探索を提案する。 後悔の限界は、DreXP3がすでに提案しているシングルプレイセットに遅延のない後悔よりもわずかに悪い。

This paper addresses the problem of unknown delays in adversarial multi-armed bandit (MAB) with multiple play. Existing work on similar game setting focused on only the case where the learner selects an arm in each round. However, there are lots of applications in robotics where a learner needs to select more than one arm per round. It is therefore worthwhile to investigate the effect of delay when multiple arms are chosen. The multiple arms chosen per round in this setting are such that they experience the same amount of delay. There can be an aggregation of feedback losses from different combinations of arms selected at different rounds, and the learner is faced with the challenge of associating the feedback losses to the arms producing them. To address this problem, this paper proposes a delayed exponential, exploitation and exploration for multiple play (DEXP3.M) algorithm. The regret bound is only slightly worse than the regret of DEXP3 already proposed for the single play setting with unknown delay.
翻訳日:2022-10-12 07:45:47 公開日:2020-10-01
# ${\rm n{\small ode}s{\small ig}}$:ランダムウォーク拡散はスケーラブルグラフ埋め込みのためのハッシュ化を満たす

${\rm N{\small ode}S{\small ig}}$: Random Walk Diffusion meets Hashing for Scalable Graph Embeddings ( http://arxiv.org/abs/2010.00261v1 )

ライセンス: Link先を確認
Abdulkadir \c{C}elikkanat and Apostolos N. Papadopoulos and Fragkiskos D. Malliaros(参考訳) ノード表現の学習は、多くの学際的アプリケーションにおいて重要なタスクである。 それでも、ネットワークのサイズが大きくなるにつれて、ほとんどのモデルが大規模ネットワークにスケールするための計算上の課題に直面している。 スケーラビリティの問題のみを扱うアルゴリズムを設計するという最近の取り組みはありますが、そのほとんどはダウンストリームタスクの正確性の観点からは不十分です。 本稿では,効率と精度のトレードオフのバランスをとるモデルについて検討する。 具体的には、バイナリノード表現を計算するスケーラブルな埋め込みモデルである${\rm N{\small ode}S{\small ig}}$を提案する。 ${\rm n{\small ode}s{\small ig}}$は、ハミング空間への埋め込みを効率的に計算するために、安定なランダム射影ハッシュによるランダムウォーク拡散確率を利用する。 提案手法は,2つの下流タスクにおけるよく知られたベースラインモデルと比較して,精度と効率のバランスが良好であることを示す。

Learning node representations is a crucial task with a plethora of interdisciplinary applications. Nevertheless, as the size of the networks increases, most widely used models face computational challenges to scale to large networks. While there is a recent effort towards designing algorithms that solely deal with scalability issues, most of them behave poorly in terms of accuracy on downstream tasks. In this paper, we aim at studying models that balance the trade-off between efficiency and accuracy. In particular, we propose ${\rm N{\small ode}S{\small ig}}$, a scalable embedding model that computes binary node representations. ${\rm N{\small ode}S{\small ig}}$ exploits random walk diffusion probabilities via stable random projection hashing, towards efficiently computing embeddings in the Hamming space. Our extensive experimental evaluation on various graphs has demonstrated that the proposed model achieves a good balance between accuracy and efficiency compared to well-known baseline models on two downstream tasks.
翻訳日:2022-10-12 07:45:16 公開日:2020-10-01
# 木から継続的埋め込みとバックへ:双曲的階層クラスタリング

From Trees to Continuous Embeddings and Back: Hyperbolic Hierarchical Clustering ( http://arxiv.org/abs/2010.00402v1 )

ライセンス: Link先を確認
Ines Chami, Albert Gu, Vaggos Chatziafratis and Christopher R\'e(参考訳) 類似性に基づく階層クラスタリング(HC)は古典的な教師なし機械学習アルゴリズムであり、伝統的に平均リンクのようなヒューリスティックアルゴリズムで解決されてきた。 近年,大域的コスト関数を導入することにより,HCを離散最適化問題として再編成した。 そこで本研究では,dasguptaの離散最適化問題に対して,品質保証を施した最初の連続緩和を提案する。 この手法の重要なアイデアであるhyphcは、離散木から連続表現への直接対応(葉ノードの双曲埋め込みによる)とバック(葉埋め込みをデンドログラムにマッピングするデコードアルゴリズムによる)を示すことで、離散二分木の空間を連続最適化により探索することができる。 木と双曲空間の類似性に基づいて、我々は最小の共通祖先の概念の連続的な類似を導き、ダスグプタの離散的な目的を連続的に緩和する。 復号後、我々の連続緩和の大域的最小化はダスガプタの最適木に対する(1 + epsilon)-因子近似を持つ離散木を生じさせ、エプシロンは任意に小さくでき最適化の課題を制御できることを示すことができる。 我々は,HypHCを様々なHCベンチマークで実験的に評価し,勾配降下を伴う近似解であっても凝集ヒューリスティックスや他の勾配に基づくアルゴリズムよりもクラスタリング品質が優れていることを発見した。 最後に,下流分類タスクにおけるエンドツーエンドトレーニングを用いたhyphcの柔軟性を強調する。

Similarity-based Hierarchical Clustering (HC) is a classical unsupervised machine learning algorithm that has traditionally been solved with heuristic algorithms like Average-Linkage. Recently, Dasgupta reframed HC as a discrete optimization problem by introducing a global cost function measuring the quality of a given tree. In this work, we provide the first continuous relaxation of Dasgupta's discrete optimization problem with provable quality guarantees. The key idea of our method, HypHC, is showing a direct correspondence from discrete trees to continuous representations (via the hyperbolic embeddings of their leaf nodes) and back (via a decoding algorithm that maps leaf embeddings to a dendrogram), allowing us to search the space of discrete binary trees with continuous optimization. Building on analogies between trees and hyperbolic space, we derive a continuous analogue for the notion of lowest common ancestor, which leads to a continuous relaxation of Dasgupta's discrete objective. We can show that after decoding, the global minimizer of our continuous relaxation yields a discrete tree with a (1 + epsilon)-factor approximation for Dasgupta's optimal tree, where epsilon can be made arbitrarily small and controls optimization challenges. We experimentally evaluate HypHC on a variety of HC benchmarks and find that even approximate solutions found with gradient descent have superior clustering quality than agglomerative heuristics or other gradient based algorithms. Finally, we highlight the flexibility of HypHC using end-to-end training in a downstream classification task.
翻訳日:2022-10-12 07:44:01 公開日:2020-10-01
# セマンティック一貫性を用いたオープンセット仮説伝達

Open-Set Hypothesis Transfer with Semantic Consistency ( http://arxiv.org/abs/2010.00292v1 )

ライセンス: Link先を確認
Zeyu Feng, Chang Xu and Dacheng Tao(参考訳) 教師なしオープンセットドメイン適応(Unsupervised Open-set Domain adapt, UODA)は、未ラベルのターゲットデータが未知のクラスを含む現実的な問題である。 以前の手法では、ソースデータとターゲットドメインデータの共存をドメインアライメントの実行に頼っており、プライバシの懸念によりソースドメインデータが制限された場合、アプリケーションを大幅に制限する。 本稿では,対象ドメインへの適応中に,ソースドメインからのデータが利用できなくなるという,UODAの挑戦的な仮説伝達設定について述べる。 本稿では,対象データの変換における意味的一貫性に着目した手法を提案する。 具体的には,まず信頼度の高い予測を発見し,擬似ラベルによる分類を行う。 次に、意味論的に類似した入力に対して、一貫性と明確な予測を出力するようにモデルを強制する。 その結果、ラベルのないデータは、ソースクラスまたは未知クラスのいずれかに一致する識別クラスに分類できる。 実験結果から,本モデルはUODAベンチマークの最先端手法よりも優れていることがわかった。

Unsupervised open-set domain adaptation (UODA) is a realistic problem where unlabeled target data contain unknown classes. Prior methods rely on the coexistence of both source and target domain data to perform domain alignment, which greatly limits their applications when source domain data are restricted due to privacy concerns. This paper addresses the challenging hypothesis transfer setting for UODA, where data from source domain are no longer available during adaptation on target domain. We introduce a method that focuses on the semantic consistency under transformation of target data, which is rarely appreciated by previous domain adaptation methods. Specifically, our model first discovers confident predictions and performs classification with pseudo-labels. Then we enforce the model to output consistent and definite predictions on semantically similar inputs. As a result, unlabeled data can be classified into discriminative classes coincided with either source classes or unknown classes. Experimental results show that our model outperforms state-of-the-art methods on UODA benchmarks.
翻訳日:2022-10-12 07:36:35 公開日:2020-10-01
# 不均一分布のためのタブラルGAN

Tabular GANs for uneven distribution ( http://arxiv.org/abs/2010.00638v1 )

ライセンス: Link先を確認
Insaf Ashrapov(参考訳) GANは、現実的な画像生成の成功でよく知られている。 しかし、それらは表データ生成にも適用できる。 我々は,現在進行中の表状GANに関する最近の論文をレビューし,検討する。 テストに近づくように、私たちはデータを生成します。 次に、最初の列車データセットで訓練されたモデル性能と、列車で訓練されたGAN生成したデータを比較する。 列車データとテストデータ間の不均一なデータ分散の場合、GANを使用することが選択肢となる可能性がある。

GANs are well known for success in the realistic image generation. However, they can be applied in tabular data generation as well. We will review and examine some recent papers about tabular GANs in action. We will generate data to make train distribution bring closer to the test. Then compare model performance trained on the initial train dataset, with trained on the train with GAN generated data, also we train the model by sampling train by adversarial training. We show that using GAN might be an option in case of uneven data distribution between train and test data.
翻訳日:2022-10-12 07:36:21 公開日:2020-10-01
# 情報検索のための生成型adversarial frameworkの評価

Evaluating a Generative Adversarial Framework for Information Retrieval ( http://arxiv.org/abs/2010.00722v1 )

ライセンス: Link先を確認
Ameet Deshpande and Mitesh M. Khapra(参考訳) GAN(Generative Adversarial Networks)の最近の進歩は、複数のドメインに広く応用されている。 最近のIRGANは、このフレームワークをIR(Information Retrieval)に適用し、ここ数年で大きな注目を集めている。 本研究では,irganの複数の構成要素を批判的に分析し,その欠点を実験的・理論的に証明する。 具体的には、ポリシー勾配最適化における定数ベースライン項の問題を特定し、生成器がIRGANの性能に悪影響を及ぼすことを示す。 本研究は,3つの課題のうち2つにおいてIRGANより優れる自己コントラスト推定と協調学習の2つのモデルを提案する。

Recent advances in Generative Adversarial Networks (GANs) have resulted in its widespread applications to multiple domains. A recent model, IRGAN, applies this framework to Information Retrieval (IR) and has gained significant attention over the last few years. In this focused work, we critically analyze multiple components of IRGAN, while providing experimental and theoretical evidence of some of its shortcomings. Specifically, we identify issues with the constant baseline term in the policy gradients optimization and show that the generator harms IRGAN's performance. Motivated by our findings, we propose two models influenced by self-contrastive estimation and co-training which outperform IRGAN on two out of the three tasks considered.
翻訳日:2022-10-12 07:35:49 公開日:2020-10-01
# ニッチ指標に基づくマルチモーダル多目的最適化

A Niching Indicator-Based Multi-modal Many-objective Optimizer ( http://arxiv.org/abs/2010.00236v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) マルチモーダル多目的最適化は、可能な限り(ほぼ)同等のパレート最適解を見つけることである。 マルチモーダル多目的最適化のための進化的アルゴリズムが文献で提案されている。 しかし、目的の数が3以上であるマルチモーダル多目的最適化の効率的な方法は存在しない。 本稿では,ニチングインジケータに基づくマルチモーダル多目的最適化アルゴリズムを提案する。 提案手法では, 子どもと, ソリューション空間の最も近い個人の間で, フィットネス計算を行い, 多様性を維持する。 提案手法の性能は,最大15目的のマルチモーダル多目的テストにおいて評価された。 その結果,提案手法は多数の目的を処理でき,複数の等価パレート最適解のよい近似を求めることができることがわかった。 また,提案手法は8つの多目的進化アルゴリズムよりも有意に優れた性能を示す。

Multi-modal multi-objective optimization is to locate (almost) equivalent Pareto optimal solutions as many as possible. Some evolutionary algorithms for multi-modal multi-objective optimization have been proposed in the literature. However, there is no efficient method for multi-modal many-objective optimization, where the number of objectives is more than three. To address this issue, this paper proposes a niching indicator-based multi-modal multi- and many-objective optimization algorithm. In the proposed method, the fitness calculation is performed among a child and its closest individuals in the solution space to maintain the diversity. The performance of the proposed method is evaluated on multi-modal multi-objective test problems with up to 15 objectives. Results show that the proposed method can handle a large number of objectives and find a good approximation of multiple equivalent Pareto optimal solutions. The results also show that the proposed method performs significantly better than eight multi-objective evolutionary algorithms.
翻訳日:2022-10-12 07:35:38 公開日:2020-10-01
# MOEA/D-DEにおける微分進化変異演算子の3成分のレビューと解析

Review and Analysis of Three Components of Differential Evolution Mutation Operator in MOEA/D-DE ( http://arxiv.org/abs/2010.00265v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) 微分進化変分演算子(MOEA/D-DE)を用いた分解型多目的進化アルゴリズムは、挑戦的多目的問題(MOP)において高い性能を示す。 DE変異は、突然変異戦略、親個体に対する指標選択法、およびバウンドハンドリング法という3つの重要な要素から構成される。 しかし、moea/d-deに用いるべきde変異演算子の構成は、文献で完全には研究されていない。 この構成選択は、MOEA/D-DEの研究者とユーザを混乱させる。 そこで本研究では,MOEA/D-DEにおけるDe変異演算子の既存の構成を概観し,MOEA/D-DEの性能に対する各成分の影響を系統的に検討する。 本報告では,MOEA/D-DEのソースコードによってDE変異演算子の構成が異なることを明らかにした。 本研究では,最大5つの目的を持つ16モップについて,合計30種類の構成(3つの索引選択法,2つの変異戦略,5つのバウンドハンドリング法)について検討した。 その結果,各成分はmoea/d-deの性能に大きく影響することがわかった。 また,moea/d-deの有効性を最大化するde変異演算子の最も適した構成を示す。

A decomposition-based multi-objective evolutionary algorithm with a differential evolution variation operator (MOEA/D-DE) shows high performance on challenging multi-objective problems (MOPs). The DE mutation consists of three key components: a mutation strategy, an index selection method for parent individuals, and a bound-handling method. However, the configuration of the DE mutation operator that should be used for MOEA/D-DE has not been thoroughly investigated in the literature. This configuration choice confuses researchers and users of MOEA/D-DE. To address this issue, we present a review of the existing configurations of the DE mutation operator in MOEA/D-DE and systematically examine the influence of each component on the performance of MOEA/D-DE. Our review reveals that the configuration of the DE mutation operator differs depending on the source code of MOEA/D-DE. In our analysis, a total of 30 configurations (three index selection methods, two mutation strategies, and five bound handling methods) are investigated on 16 MOPs with up to five objectives. Results show that each component significantly affects the performance of MOEA/D-DE. We also present the most suitable configuration of the DE mutation operator, which maximizes the effectiveness of MOEA/D-DE.
翻訳日:2022-10-12 07:35:22 公開日:2020-10-01
# 霧はいつ晴れますか。 医療応用における機械学習の解釈可能性に関する調査

When will the mist clear? On the Interpretability of Machine Learning for Medical Applications: a survey ( http://arxiv.org/abs/2010.00353v1 )

ライセンス: Link先を確認
Antonio-Jes\'us Banegas-Luna, Jorge Pe\~na-Garc\'ia, Adrian Iftene, Fiorella Guadagni, Patrizia Ferroni, Noemi Scarpato, Fabio Massimo Zanzotto, Andr\'es Bueno-Crespo, Horacio P\'erez-S\'anchez(参考訳) 人工知能は驚くべき結果をもたらしています。 数十年後には、コンピューターは診断を定式化し正しい治療を選択することができ、ロボットは外科手術を行うことができ、会話エージェントは仮想コーチとして患者と対話することができる。 機械学習と、特にDeep Neural Networksは、この革命の背後にある。 このシナリオでは、提供されたデータから予測モデルを学んだスタンドアロンマシンによって重要な決定が制御されます。 医学における最も難しいターゲットは、がんの診断と治療だが、この革命を始めるためには、ソフトウェアツールを新しい要件に適合させる必要がある。 この意味では、学習ツールはpythonとmatlabライブラリのコモディティになりつつあるが、それらの可能性をすべて活用するには、モデルがどのように解釈され、どのモデルが他のライブラリよりも解釈しやすいかを十分に理解する必要がある。 本研究では、現在の機械学習モデル、フレームワーク、データベース、その他の関連するツールを医学(特にがん研究)に適用して分析し、その解釈可能性、性能、必要な入力データについて議論する。 利用可能な証拠から、ANN、LR、SVMが好ましいモデルであることが観察されている。 さらに、GPUとテンソル指向プログラミングライブラリの急速な開発によってサポートされているCNNの重要性が高まっている。 しかし、医師による結果の解釈性が改善すべき要因であると考えることはまれである。 そこで本研究では,この問題に対するタイムリーな貢献とみなす。

Artificial Intelligence is providing astonishing results, with medicine being one of its favourite playgrounds. In a few decades, computers may be capable of formulating diagnoses and choosing the correct treatment, while robots may perform surgical operations, and conversational agents could interact with patients as virtual coaches. Machine Learning and, in particular, Deep Neural Networks are behind this revolution. In this scenario, important decisions will be controlled by standalone machines that have learned predictive models from provided data. Among the most challenging targets of interest in medicine are cancer diagnosis and therapies but, to start this revolution, software tools need to be adapted to cover the new requirements. In this sense, learning tools are becoming a commodity in Python and Matlab libraries, just to name two, but to exploit all their possibilities, it is essential to fully understand how models are interpreted and which models are more interpretable than others. In this survey, we analyse current machine learning models, frameworks, databases and other related tools as applied to medicine - specifically, to cancer research - and we discuss their interpretability, performance and the necessary input data. From the evidence available, ANN, LR and SVM have been observed to be the preferred models. Besides, CNNs, supported by the rapid development of GPUs and tensor-oriented programming libraries, are gaining in importance. However, the interpretability of results by doctors is rarely considered which is a factor that needs to be improved. We therefore consider this study to be a timely contribution to the issue.
翻訳日:2022-10-12 07:35:01 公開日:2020-10-01
# 推論としてのアクティブ推論か制御か? 統一的視点

Active Inference or Control as Inference? A Unifying View ( http://arxiv.org/abs/2010.00262v1 )

ライセンス: Link先を確認
Joe Watson, Abraham Imohiosen, Jan Peters(参考訳) active inference (ai) は、行動と知覚を推論に基づく計算として記述することを目的とした、計算神経科学からの説得力のある理論的枠組みである。 しかし、このフレームワークは代替手法と競合する実用的な感覚運動量制御アルゴリズムを提供していない。 本研究では,軌道最適化を推論として提示する作業体であるCaI (Inference as Inference) の制御レンズを通して,アクティブな推論を行う。 確率的数値」というより広い視点から、CaIは原理的かつ数値的に堅牢な最適制御解法を提供し、不確実な定量化を提供し、近似推論で非線形問題にスケールできる。 コスト関数が特に観測状態で定義される場合、AIは部分的に観測されたCaIとしてフレーム化される可能性がある。

Active inference (AI) is a persuasive theoretical framework from computational neuroscience that seeks to describe action and perception as inference-based computation. However, this framework has yet to provide practical sensorimotor control algorithms that are competitive with alternative approaches. In this work, we frame active inference through the lens of control as inference (CaI), a body of work that presents trajectory optimization as inference. From the wider view of `probabilistic numerics', CaI offers principled, numerically robust optimal control solvers that provide uncertainty quantification, and can scale to nonlinear problems with approximate inference. We show that AI may be framed as partially-observed CaI when the cost function is defined specifically in the observation states.
翻訳日:2022-10-12 07:27:35 公開日:2020-10-01
# 確率領域に対するベイズ政策探索

Bayesian Policy Search for Stochastic Domains ( http://arxiv.org/abs/2010.00284v1 )

ライセンス: Link先を確認
David Tolpin, Yuan Zhou, Hongseok Yang(参考訳) AI計画は確率論的モデルにおける推論として利用でき、確率論的プログラミングは部分的に観測可能な領域でのポリシー探索が可能であることが示されている。 先行研究はマルコフ連鎖モンテカルロによる政策探索を決定論的領域に導入し、ブラックボックス変分推論を確率的領域に適応させるが、厳密にはベイズ的ではない。 本研究では,ベイズ推論問題として確率領域におけるポリシー探索を行い,ネスト確率プログラムのような問題を符号化する手法を提案する。 確率的領域における政策探索の確率的プログラムは、ネスト条件を伴い、そのようなプログラムにおける堅牢な推論のための軽量メトロポリス・ハスティングス(LMH)の適応を提供するべきだと論じる。 提案手法を確率的領域に適用し,より単純で汎用的な推論アルゴリズムに拘わらず,類似品質のポリシーが学習されることを示す。 提案したLMHの変種は新規であり、ネスト条件付きより広範な確率的プログラムに適用できると考えている。

AI planning can be cast as inference in probabilistic models, and probabilistic programming was shown to be capable of policy search in partially observable domains. Prior work introduces policy search through Markov chain Monte Carlo in deterministic domains, as well as adapts black-box variational inference to stochastic domains, however not in the strictly Bayesian sense. In this work, we cast policy search in stochastic domains as a Bayesian inference problem and provide a scheme for encoding such problems as nested probabilistic programs. We argue that probabilistic programs for policy search in stochastic domains should involve nested conditioning, and provide an adaption of Lightweight Metropolis-Hastings (LMH) for robust inference in such programs. We apply the proposed scheme to stochastic domains and show that policies of similar quality are learned, despite a simpler and more general inference algorithm. We believe that the proposed variant of LMH is novel and applicable to a wider class of probabilistic programs with nested conditioning.
翻訳日:2022-10-12 07:27:21 公開日:2020-10-01
# Cardea: 電子健康記録のためのオープンな機械学習フレームワーク

Cardea: An Open Automated Machine Learning Framework for Electronic Health Records ( http://arxiv.org/abs/2010.00509v1 )

ライセンス: Link先を確認
Sarah Alnegheimish, Najat Alrashed, Faisal Aleissa, Shahad Althobaiti, Dongyu Liu, Mansour Alsaleh and Kalyan Veeramachaneni(参考訳) ディープラーニングとEHRに焦点を当てた180の論文が2010年から2018年にかけて出版された。 これらの出版物に共通するワークフロー構造にもかかわらず、信頼され検証されたソフトウェアフレームワークは存在しない。 本稿では、健康領域における一般的な予測問題をカプセル化した拡張可能なオープンソース自動機械学習フレームワークであるCardeaを提案し、ユーザが独自のデータで予測モデルを構築することを可能にする。 このシステムは、電子健康システムのための標準化されたデータ構造であるFHIR(Fast Healthcare Interoperability Resources)と、自動機能エンジニアリング、モデル選択、チューニングのためのAUTOMLフレームワークの2つのコンポーネントに依存している。 我々は、これらのコンポーネントを適応型データアセンブラと包括的なデータおよびモデル監査機能で強化する。 我々は,MIMIC-IIIとKaggleデータセット上の5つの予測タスクを通じて,Cardeaの人間競争性,問題定義の柔軟性,機能生成機能の拡張,適応可能な自動データアセンブラ,そのユーザビリティを強調した。

An estimated 180 papers focusing on deep learning and EHR were published between 2010 and 2018. Despite the common workflow structure appearing in these publications, no trusted and verified software framework exists, forcing researchers to arduously repeat previous work. In this paper, we propose Cardea, an extensible open-source automated machine learning framework encapsulating common prediction problems in the health domain and allows users to build predictive models with their own data. This system relies on two components: Fast Healthcare Interoperability Resources (FHIR) -- a standardized data structure for electronic health systems -- and several AUTOML frameworks for automated feature engineering, model selection, and tuning. We augment these components with an adaptive data assembler and comprehensive data- and model- auditing capabilities. We demonstrate our framework via 5 prediction tasks on MIMIC-III and Kaggle datasets, which highlight Cardea's human competitiveness, flexibility in problem definition, extensive feature generation capability, adaptable automatic data assembler, and its usability.
翻訳日:2022-10-12 07:25:17 公開日:2020-10-01
# CoLAKE: コンテキスト言語と知識埋め込み

CoLAKE: Contextualized Language and Knowledge Embedding ( http://arxiv.org/abs/2010.00309v1 )

ライセンス: Link先を確認
Tianxiang Sun, Yunfan Shao, Xipeng Qiu, Qipeng Guo, Yaru Hu, Xuanjing Huang, Zheng Zhang(参考訳) BERTのような事前訓練された言語モデルに事実知識を組み込むことで、既存のモデルの多くは浅く、静的で、個別に訓練済みのエンティティ埋め込みを考慮しており、これらのモデルのパフォーマンス向上を制限している。 知識を注入する際の深い文脈化知識表現の可能性を探る研究はほとんどない。 本稿では,言語と知識の文脈的表現を拡張MLMの目的と組み合わせて学習する,文脈的言語と知識の埋め込み(CoLAKE)を提案する。 エンティティ埋め込みのみを注入する代わりに、CoLAKEは大規模な知識ベースからエンティティの知識コンテキストを抽出する。 知識コンテキストと言語コンテキストの不均一性を扱うため、統一されたデータ構造である単語知識グラフ(WKグラフ)に統合する。 CoLAKEはTransformerエンコーダを改良した大規模WKグラフで事前トレーニングされている。 我々は,知識駆動タスク,知識探索タスク,言語理解タスクについて実験を行う。 実験の結果,CoLAKEは従来のタスクよりも優れていた。 さらに,言語と知識表現を同時に扱うことの優位性を示す,単語知識グラフ補完(word-knowledge graph completion)という,我々の合成作業において驚くほど高い性能を実現している。

With the emerging branch of incorporating factual knowledge into pre-trained language models such as BERT, most existing models consider shallow, static, and separately pre-trained entity embeddings, which limits the performance gains of these models. Few works explore the potential of deep contextualized knowledge representation when injecting knowledge. In this paper, we propose the Contextualized Language and Knowledge Embedding (CoLAKE), which jointly learns contextualized representation for both language and knowledge with the extended MLM objective. Instead of injecting only entity embeddings, CoLAKE extracts the knowledge context of an entity from large-scale knowledge bases. To handle the heterogeneity of knowledge context and language context, we integrate them in a unified data structure, word-knowledge graph (WK graph). CoLAKE is pre-trained on large-scale WK graphs with the modified Transformer encoder. We conduct experiments on knowledge-driven tasks, knowledge probing tasks, and language understanding tasks. Experimental results show that CoLAKE outperforms previous counterparts on most of the tasks. Besides, CoLAKE achieves surprisingly high performance on our synthetic task called word-knowledge graph completion, which shows the superiority of simultaneously contextualizing language and knowledge representation.
翻訳日:2022-10-12 07:18:50 公開日:2020-10-01
# 深層学習とBERTを用いたドメイン固有単語埋め込みによるホワイト・サプリマリスト・ヘイトスピーチの検出

Detecting White Supremacist Hate Speech using Domain Specific Word Embedding with Deep Learning and BERT ( http://arxiv.org/abs/2010.00357v1 )

ライセンス: Link先を確認
Hind Saleh Alatawi, Areej Maatog Alhothali and Kawthar Mustafa Moria(参考訳) 白人至上主義者は、他の人種よりも白人が優れていると考える急進的なイデオロギーを受け入れている。 これらの集団の批判的な影響はもはやソーシャルメディアに限らず、人種的な憎しみと暴力を促進することによって、社会に大きな影響を与える。 白人至上主義的ヘイトスピーチは、ソーシャルメディア上で最も最近観察された有害な内容の1つであり、情報の爆発によってヘイトスピーチの報告が不適切であることが判明しているため、タイムリーな方法でそのようなスピーチを自動的に検出する方法を見つける必要がある。 本研究では,ディープラーニングと自然言語処理技術を用いて,Twitter上での白人至上主義ヘイトスピーチの自動検出の可能性を検討する。 実験では,2つのアプローチを用いた。まず,この白色至上主義スラングの意味を把握するために,白色至上主義コーパスから抽出したドメイン固有埋め込みを用いて,双方向長短期記憶(LSTM)深層学習モデルを用いて,0.74890 F1スコアに達した。 2つ目のアプローチは、最新の言語モデルであるBERTを使用することで、BERTモデルはほとんどのNLPタスクの最先端技術を提供する。 0.79605 F1スコアに達した。 私たちの実験はテキストデータのみに基づいていたので、両方のアプローチはバランスの取れたデータセットでテストされます。 データセットは、twitterから作成されたデータセットと、その白人至上主義者フォーラムからコンパイルされたstormfrontデータセットから組み合わせられた。

White supremacists embrace a radical ideology that considers white people superior to people of other races. The critical influence of these groups is no longer limited to social media; they also have a significant effect on society in many ways by promoting racial hatred and violence. White supremacist hate speech is one of the most recently observed harmful content on social media.Traditional channels of reporting hate speech have proved inadequate due to the tremendous explosion of information, and therefore, it is necessary to find an automatic way to detect such speech in a timely manner. This research investigates the viability of automatically detecting white supremacist hate speech on Twitter by using deep learning and natural language processing techniques. Through our experiments, we used two approaches, the first approach is by using domain-specific embeddings which are extracted from white supremacist corpus in order to catch the meaning of this white supremacist slang with bidirectional Long Short-Term Memory (LSTM) deep learning model, this approach reached a 0.74890 F1-score. The second approach is by using the one of the most recent language model which is BERT, BERT model provides the state of the art of most NLP tasks. It reached to a 0.79605 F1-score. Both approaches are tested on a balanced dataset given that our experiments were based on textual data only. The dataset was combined from dataset created from Twitter and a Stormfront dataset compiled from that white supremacist forum.
翻訳日:2022-10-12 07:18:32 公開日:2020-10-01
# 機械読解における説明可能性に関する調査

A Survey on Explainability in Machine Reading Comprehension ( http://arxiv.org/abs/2010.00389v1 )

ライセンス: Link先を確認
Mokanarangan Thayaparan, Marco Valentino, Andr\'e Freitas(参考訳) 本稿では,Machine Reading Comprehension (MRC) におけるベンチマークと説明可能性の体系的レビューを行う。 表現と推論の課題がどのように発展し、これらの課題に対処するためのステップを提示する。 また,説明可能なシステムの性能を評価するための評価手法を提案する。 さらに,研究課題の継続性を明らかにし,今後の課題への重要な方向性を強調する。

This paper presents a systematic review of benchmarks and approaches for explainability in Machine Reading Comprehension (MRC). We present how the representation and inference challenges evolved and the steps which were taken to tackle these challenges. We also present the evaluation methodologies to assess the performance of explainable systems. In addition, we identify persisting open research questions and highlight critical directions for future work.
翻訳日:2022-10-12 07:18:04 公開日:2020-10-01
# クロスモーダルプログレッシブ理解による画像セグメンテーションの参照

Referring Image Segmentation via Cross-Modal Progressive Comprehension ( http://arxiv.org/abs/2010.00514v1 )

ライセンス: Link先を確認
Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li(参考訳) 画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。 従来のアプローチでは、暗黙的な特徴相互作用と視覚的・言語的モダリティの融合を用いてこの問題に対処するが、通常は2つのモダリティから特徴をうまく整合させ、参照された実体を正確に識別するのに失敗する。 本稿では,この課題を効果的に解決するために,cmpc(cross-modal progressive comprehension)モジュールとtgfe(text-guided feature exchange)モジュールを提案する。 具体的には、cmpcモジュールは、まずエンティティと属性ワードを使用して、式によって考慮されるすべての関連するエンティティを認識します。 次に、関係語を用いて正しい実体を強調するとともに、マルチモーダルグラフ推論によって他の無関係な単語を抑圧する。 cmpcモジュールに加えて,単純かつ効果的なtgfeモジュールも活用し,様々なレベルの推論されたマルチモーダル機能をテキスト情報のガイダンスと統合する。 このようにして、マルチレベルの機能が相互に通信し、テキストコンテキストに基づいて洗練される。 4つの人気のある参照セグメンテーションベンチマークを広範囲に実験し,新たな最先端性能を実現する。

Referring image segmentation aims at segmenting the foreground masks of the entities that can well match the description given in the natural language expression. Previous approaches tackle this problem using implicit feature interaction and fusion between visual and linguistic modalities, but usually fail to explore informative words of the expression to well align features from the two modalities for accurately identifying the referred entity. In this paper, we propose a Cross-Modal Progressive Comprehension (CMPC) module and a Text-Guided Feature Exchange (TGFE) module to effectively address the challenging task. Concretely, the CMPC module first employs entity and attribute words to perceive all the related entities that might be considered by the expression. Then, the relational words are adopted to highlight the correct entity as well as suppress other irrelevant ones by multimodal graph reasoning. In addition to the CMPC module, we further leverage a simple yet effective TGFE module to integrate the reasoned multimodal features from different levels with the guidance of textual information. In this way, features from multi-levels could communicate with each other and be refined based on the textual context. We conduct extensive experiments on four popular referring segmentation benchmarks and achieve new state-of-the-art performances.
翻訳日:2022-10-12 07:17:44 公開日:2020-10-01
# 連続学習のためのメタ統合

Meta-Consolidation for Continual Learning ( http://arxiv.org/abs/2010.00352v1 )

ライセンス: Link先を確認
K J Joseph and Vineeth N Balasubramanian(参考訳) 既に獲得した知識の把握を失うことなく、新しいタスクに継続的に学習し、適応する能力は、現在のディープラーニングシステムが不足している生物学的学習システムの目印である。 本稿では,MERLIN: Meta-Consolidation for Continual Learningという,継続的学習のための新しい方法論を提案する。 ニューラルネットワークの重み $\boldsymbol \psi$, for solve task $\boldsymbol t$, from a meta-distribution $p(\boldsymbol{\psi|t})$。 このメタ分布は漸進的に学習され、統合される。 私たちは、データポイントをモデルで一度だけ見る、挑戦的なオンライン連続学習環境で活動しています。 MNIST, CIFAR-10, CIFAR-100, Mini-ImageNetデータセットの連続学習ベンチマークによる実験により, MERLINの約束を裏付ける最新技術を含む5つのベースラインに一貫した改善が得られた。

The ability to continuously learn and adapt itself to new tasks, without losing grasp of already acquired knowledge is a hallmark of biological learning systems, which current deep learning systems fall short of. In this work, we present a novel methodology for continual learning called MERLIN: Meta-Consolidation for Continual Learning. We assume that weights of a neural network $\boldsymbol \psi$, for solving task $\boldsymbol t$, come from a meta-distribution $p(\boldsymbol{\psi|t})$. This meta-distribution is learned and consolidated incrementally. We operate in the challenging online continual learning setting, where a data point is seen by the model only once. Our experiments with continual learning benchmarks of MNIST, CIFAR-10, CIFAR-100 and Mini-ImageNet datasets show consistent improvement over five baselines, including a recent state-of-the-art, corroborating the promise of MERLIN.
翻訳日:2022-10-12 07:16:52 公開日:2020-10-01
# 英国手話利用者の認知症早期の認識を自動化するマルチモーダル機械学習アプローチとツールキット

A Multi-modal Machine Learning Approach and Toolkit to Automate Recognition of Early Stages of Dementia among British Sign Language Users ( http://arxiv.org/abs/2010.00536v1 )

ライセンス: Link先を確認
Xing Liang, Anastassia Angelopoulou, Epaminondas Kapetanios, Bencie Woll, Reda Al-batat, Tyron Woolfe(参考訳) 高齢化傾向は認知症などの認知機能障害の増加と相関している。 認知症に対する治療法はないが、適度な診断は必要な支援と適切な薬を得るのに役立つ。 研究者は、医師が認知障害の早期診断を行うのに役立つ効果的な技術ツールの開発を緊急に進めている。 特に、British Sign Language (BSL) の聴覚障害者の認知症のスクリーニングは、診断プロセスがインタプリタの品質や可用性、適切なアンケートや認知テストなどの条件と結びついているため、さらなる課題をもたらす。 一方で、画像とビデオの分析と理解のためのディープラーニングのアプローチは有望であり、特に大量のトレーニングデータを必要とする畳み込みニューラルネットワーク(cnn)の採用は有望である。 しかし,本稿では,以下の方法で新規性を実証する。 a)BSL利用者の間で、手腕の動きや表情など、サインエンベロープに寄与する身体のいくつかの部分の特徴が組み合わさった、認知症早期のマルチモーダル機械学習に基づく自動認識ツールキット。 b) 言語に依存しないため,手話のユーザにこの技術を適用することが可能な点において,普遍性 c) 機械学習(ml)予測モデルの複雑さと正確性と、利用可能なトレーニングとテストデータの限られた量とのトレードオフを考えると、当社のアプローチは過度に適合しておらず、スケールアップの可能性を秘めています。

The ageing population trend is correlated with an increased prevalence of acquired cognitive impairments such as dementia. Although there is no cure for dementia, a timely diagnosis helps in obtaining necessary support and appropriate medication. Researchers are working urgently to develop effective technological tools that can help doctors undertake early identification of cognitive disorder. In particular, screening for dementia in ageing Deaf signers of British Sign Language (BSL) poses additional challenges as the diagnostic process is bound up with conditions such as quality and availability of interpreters, as well as appropriate questionnaires and cognitive tests. On the other hand, deep learning based approaches for image and video analysis and understanding are promising, particularly the adoption of Convolutional Neural Network (CNN), which require large amounts of training data. In this paper, however, we demonstrate novelty in the following way: a) a multi-modal machine learning based automatic recognition toolkit for early stages of dementia among BSL users in that features from several parts of the body contributing to the sign envelope, e.g., hand-arm movements and facial expressions, are combined, b) universality in that it is possible to apply our technique to users of any sign language, since it is language independent, c) given the trade-off between complexity and accuracy of machine learning (ML) prediction models as well as the limited amount of training and testing data being available, we show that our approach is not over-fitted and has the potential to scale up.
翻訳日:2022-10-12 07:16:29 公開日:2020-10-01
# 教師付き学習における逆正則化の役割の理解

Understanding the Role of Adversarial Regularization in Supervised Learning ( http://arxiv.org/abs/2010.00522v1 )

ライセンス: Link先を確認
Litu Rout(参考訳) 敵対的正規化の実証的な証拠を提供するために多くの試みが単独の監督よりも優れているにもかかわらず、そのような現象の理論的な理解はいまだに解明されていない。 本研究では,逆正則化が基本レベルにおいて単独の監督よりも優れているか,という課題を解決することを目的とする。 そこで本研究では, 単独の監督と逆正則化の文脈において, 漸近的反復複雑性, 勾配流, 証明可能な収束の解消を考察した。 主成分は、勾配降下における逆加速度の実証的証拠によって支持される理論的正当化である。 さらに,最近導入された単位系キャパシティベース一般化境界に動機づけられ,逆フレームワークにおける一般化誤差を解析した。 われわれの観察から導かれたこの尺度は一般化を説明する能力に疑問を投げかけた。 それゆえ,我々は,敵学習における一般化行動を説明する新しい尺度を探求するために,オープン質問として残す。 さらに, 対人学習と対人学習を対比しながら, 神経組込みベクトル空間における興味深い現象を観察した。

Despite numerous attempts sought to provide empirical evidence of adversarial regularization outperforming sole supervision, the theoretical understanding of such phenomena remains elusive. In this study, we aim to resolve whether adversarial regularization indeed performs better than sole supervision at a fundamental level. To bring this insight into fruition, we study vanishing gradient issue, asymptotic iteration complexity, gradient flow and provable convergence in the context of sole supervision and adversarial regularization. The key ingredient is a theoretical justification supported by empirical evidence of adversarial acceleration in gradient descent. In addition, motivated by a recently introduced unit-wise capacity based generalization bound, we analyze the generalization error in adversarial framework. Guided by our observation, we cast doubts on the ability of this measure to explain generalization. We therefore leave as open questions to explore new measures that can explain generalization behavior in adversarial learning. Furthermore, we observe an intriguing phenomenon in the neural embedded vector space while contrasting adversarial learning with sole supervision.
翻訳日:2022-10-12 07:09:08 公開日:2020-10-01
# 混合予測器を用いたユニバーサル時系列予測

Universal time-series forecasting with mixture predictors ( http://arxiv.org/abs/2010.00297v1 )

ライセンス: Link先を確認
Daniil Ryabko(参考訳) この本は、逐次確率予測の問題、すなわち、過去から与えられた一連の観測結果の次の結果の確率を予測することに集中している。 この問題は、一般的に用いられる確率的および非確率的設定を統一する非常に一般的な設定において考慮され、観測を生成するメカニズムに関する仮定をできるだけ少なくしようとする。 この問題の様々な定式化で生じる一般的な形式は混合予測器であり、これはそれらの予測力を結合しようとする他の予測器の有限または無限の集合の組み合わせとして形成される。 この本の主な主題はそのような混合予測器であり、本手法の普遍性を非常に一般的な確率的設定で示しているが、その限界もいくつか示している。 検討された問題は、例えば財務データ、生物学的データ、行動データなどの実践的な応用によって動機付けられているが、このモチベーションは暗黙に残され、露呈されたすべての結果は理論的である。 本書は、逐次予測の問題に関心を持つ大学院生や研究者を対象とし、より一般的には、機械学習や非パラメトリック統計学における問題の理論的分析や、これらの分野の数学的および哲学的基礎である。 この体積の材料は、無限列の空間上の確率分布を含む確率と統計の基本的な概念に精通していると仮定する方法で提示される。 学習や確率過程に関する文献に精通する必要はない。

This book is devoted to the problem of sequential probability forecasting, that is, predicting the probabilities of the next outcome of a growing sequence of observations given the past. This problem is considered in a very general setting that unifies commonly used probabilistic and non-probabilistic settings, trying to make as few as possible assumptions on the mechanism generating the observations. A common form that arises in various formulations of this problem is that of mixture predictors, which are formed as a combination of a finite or infinite set of other predictors attempting to combine their predictive powers. The main subject of this book are such mixture predictors, and the main results demonstrate the universality of this method in a very general probabilistic setting, but also show some of its limitations. While the problems considered are motivated by practical applications, involving, for example, financial, biological or behavioural data, this motivation is left implicit and all the results exposed are theoretical. The book targets graduate students and researchers interested in the problem of sequential prediction, and, more generally, in theoretical analysis of problems in machine learning and non-parametric statistics, as well as mathematical and philosophical foundations of these fields. The material in this volume is presented in a way that presumes familiarity with basic concepts of probability and statistics, up to and including probability distributions over spaces of infinite sequences. Familiarity with the literature on learning or stochastic processes is not required.
翻訳日:2022-10-12 07:07:35 公開日:2020-10-01
# ISAAQ -- 事前学習したトランスフォーマーとボトムアップとトップダウン注意による教科書質問のマスター

ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention ( http://arxiv.org/abs/2010.00562v1 )

ライセンス: Link先を確認
Jose Manuel Gomez-Perez, Raul Ortega(参考訳) Textbook Question Answeringは、Machine ComprehensionとVisual Question Answeringの交差点における複雑なタスクであり、テキストとダイアグラムからのマルチモーダル情報による推論を必要とする。 本稿では,トランスフォーマー言語モデルの可能性とボトムアップとトップダウンの注意を取り入れて,この課題がもたらす言語と視覚的理解の課題に取り組む。 言語-視覚変換をゼロからトレーニングするのではなく、トレーニング済みのトランスフォーマー、微調整、アンサンブルに頼っています。 ボトムアップとトップダウンの注意を付けて,ダイアグラムの構成とその関係に対応する関心領域を特定し,質問と回答の選択肢ごとに関連する視覚情報の選択を改善した。 我々のシステムisaaqは、全てのtqa質問タイプで前例のない成功を報告し、誤りは81.36%、71.11%、55.12%である。 ISAAQはまた、その広範な適用性を示し、他の要求のあるデータセットで最先端の結果を得る。

Textbook Question Answering is a complex task in the intersection of Machine Comprehension and Visual Question Answering that requires reasoning with multimodal information from text and diagrams. For the first time, this paper taps on the potential of transformer language models and bottom-up and top-down attention to tackle the language and visual understanding challenges this task entails. Rather than training a language-visual transformer from scratch we rely on pre-trained transformers, fine-tuning and ensembling. We add bottom-up and top-down attention to identify regions of interest corresponding to diagram constituents and their relationships, improving the selection of relevant visual information for each question and answer options. Our system ISAAQ reports unprecedented success in all TQA question types, with accuracies of 81.36%, 71.11% and 55.12% on true/false, text-only and diagram multiple choice questions. ISAAQ also demonstrates its broad applicability, obtaining state-of-the-art results in other demanding datasets.
翻訳日:2022-10-12 07:01:05 公開日:2020-10-01
# 自然言語処理のための説明可能なAIの現状調査

A Survey of the State of Explainable AI for Natural Language Processing ( http://arxiv.org/abs/2010.00711v1 )

ライセンス: Link先を確認
Marina Danilevsky, Kun Qian, Ranit Aharonov, Yannis Katsis, Ban Kawas, Prithviraj Sen(参考訳) 近年、最先端のモデルの品質は重要な進歩を遂げているが、これはモデルが解釈不能になることを犠牲にしている。 本稿では、自然言語処理(NLP)分野における説明可能なAI(XAI)の現状について概観する。 本稿では,説明の主分類について論じるとともに,説明の到達と可視化の様々な方法について述べる。 我々は、NLPモデル予測のための説明を生成するために現在利用可能な操作および説明可能性技術について詳述する。 最後に、この重要な研究領域における現在のギャップを指摘し、今後の研究の方向性を推し進める。

Recent years have seen important advances in the quality of state-of-the-art models, but this has come at the expense of models becoming less interpretable. This survey presents an overview of the current state of Explainable AI (XAI), considered within the domain of Natural Language Processing (NLP). We discuss the main categorization of explanations, as well as the various ways explanations can be arrived at and visualized. We detail the operations and explainability techniques currently available for generating explanations for NLP model predictions, to serve as a resource for model developers in the community. Finally, we point out the current gaps and encourage directions for future work in this important research area.
翻訳日:2022-10-12 07:00:11 公開日:2020-10-01
# 自然言語処理(nlp)とその保険への応用に関する研究

A survey on natural language processing (nlp) and applications in insurance ( http://arxiv.org/abs/2010.00462v1 )

ライセンス: Link先を確認
Antoine Ly, Benno Uthayasooriyar, Tingting Wang(参考訳) テキストは現在最も広く使われているコミュニケーション手段である。 このデータは豊富だが、アルゴリズム内で利用するには複雑である。 長年にわたり、科学者はコンピュータが人間の読書のメカニズムを再現できる様々な技術を実装してきた。 過去5年間で、研究はテキストデータの価値を解き放つアルゴリズムの能力を破壊した。 今日では、保険業界にとって多くの機会をもたらしており、その方法や適用方法を知ることは大きな課題であり、長年保存されてきたテキストデータの価値を解き放つ鍵となっている。 コンピュータによる処理言語は、特に保険会社が使用する情報の中心にある保険分野において、多くの新しい機会をもたらす。 SCORのデータ分析チームは、テキスト分析に関する最新の研究を利用できる革新的なツールや製品の実装に取り組んでいる。 保険におけるテキストマイニング手法の理解は、不履行リスクの監視と、最終的に政策ステークホルダーに利益をもたらす多くのプロセスを強化する。この記事では、自然言語処理(NLP)が保険にもたらす機会を説明することを提案する。 実際に使われている様々な方法の詳細は、それらの物語に遡る。 また、これらの手法の活用を促進するために開発したオープンソースライブラリやピソンコードを用いた特定の手法の実装についても解説し、過去数年間のテキストマイニングの進化を概観した上で、テキストマイニングによる完全な研究方法と、それらのモデルを保険製品やサービスに提供するためのいくつかの例について紹介する。 最後に、自然言語処理研究を構成するすべてのステップを詳細に説明して、読者が実装について深く理解できるようにしました。

Text is the most widely used means of communication today. This data is abundant but nevertheless complex to exploit within algorithms. For years, scientists have been trying to implement different techniques that enable computers to replicate some mechanisms of human reading. During the past five years, research disrupted the capacity of the algorithms to unleash the value of text data. It brings today, many opportunities for the insurance industry.Understanding those methods and, above all, knowing how to apply them is a major challenge and key to unleash the value of text data that have been stored for many years. Processing language with computer brings many new opportunities especially in the insurance sector where reports are central in the information used by insurers. SCOR's Data Analytics team has been working on the implementation of innovative tools or products that enable the use of the latest research on text analysis. Understanding text mining techniques in insurance enhances the monitoring of the underwritten risks and many processes that finally benefit policyholders.This article proposes to explain opportunities that Natural Language Processing (NLP) are providing to insurance. It details different methods used today in practice traces back the story of them. We also illustrate the implementation of certain methods using open source libraries and python codes that we have developed to facilitate the use of these techniques.After giving a general overview on the evolution of text mining during the past few years,we share about how to conduct a full study with text mining and share some examples to serve those models into insurance products or services. Finally, we explained in more details every step that composes a Natural Language Processing study to ensure the reader can have a deep understanding on the implementation.
翻訳日:2022-10-12 07:00:01 公開日:2020-10-01
# 時系列分類のための深層学習

Deep learning for time series classification ( http://arxiv.org/abs/2010.00567v1 )

ライセンス: Link先を確認
Hassan Ismail Fawaz(参考訳) 時系列分析(英: Time series analysis)は、時系列で順序付けられた数値のシーケンスを分析することに興味を持つデータ科学の分野である。 時系列は、時間とともにプロセスの進化を可視化し理解できるので、特に興味深いです。 彼らの分析は、データ全体のトレンド、関係、および類似性を明らかにすることができる。 医療(心電図、血糖値など)、活動認識、リモートセンシング、金融(ストックマーケット価格)、産業(センサー)など、時系列形式でのデータを含む分野が多数存在する。 時系列分類は時系列データを自動的にラベル付けするアルゴリズムで構成されている。 時系列データのシーケンシャルな側面は、この時間的特性を活用するアルゴリズムの開発を必要とするため、既存の既成の機械学習モデルは、その基礎となるタスクを解決するために従来の表形式のデータサブ最適である。 この文脈において、ディープラーニングは、特にコンピュータビジョンの分野において、教師付き分類タスクに対処する最も効果的な方法の1つとして近年出現している。 この論文の主な目的は、時系列データの分類のために構築されたディープニューラルネットワークの研究と開発であった。 そこで本研究では,従来の深層学習法と比較し,非深層学習法と比較した大規模実験を行った。 その後、転送学習、データ拡張、センシング、敵の攻撃といった文脈で、この分野に多くの貢献をしました。 最後に、我々はまた、現在最も効率のよいインセプションネットワーク(google)に基づいた新しいアーキテクチャを提案しました。

Time series analysis is a field of data science which is interested in analyzing sequences of numerical values ordered in time. Time series are particularly interesting because they allow us to visualize and understand the evolution of a process over time. Their analysis can reveal trends, relationships and similarities across the data. There exists numerous fields containing data in the form of time series: health care (electrocardiogram, blood sugar, etc.), activity recognition, remote sensing, finance (stock market price), industry (sensors), etc. Time series classification consists of constructing algorithms dedicated to automatically label time series data. The sequential aspect of time series data requires the development of algorithms that are able to harness this temporal property, thus making the existing off-the-shelf machine learning models for traditional tabular data suboptimal for solving the underlying task. In this context, deep learning has emerged in recent years as one of the most effective methods for tackling the supervised classification task, particularly in the field of computer vision. The main objective of this thesis was to study and develop deep neural networks specifically constructed for the classification of time series data. We thus carried out the first large scale experimental study allowing us to compare the existing deep methods and to position them compared other non-deep learning based state-of-the-art methods. Subsequently, we made numerous contributions in this area, notably in the context of transfer learning, data augmentation, ensembling and adversarial attacks. Finally, we have also proposed a novel architecture, based on the famous Inception network (Google), which ranks among the most efficient to date.
翻訳日:2022-10-12 06:58:53 公開日:2020-10-01