このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200928となっている論文です。

PDF登録状況(公開日: 20200928)

TitleAuthorsAbstract論文公表日・翻訳日
# インフラ機能を利用した偽情報ウェブサイトの同定

Identifying Disinformation Websites Using Infrastructure Features ( http://arxiv.org/abs/2003.07684v5 )

ライセンス: Link先を確認
Austin Hounsel, Jordan Holland, Ben Kaiser, Kevin Borgolte, Nick Feamster, Jonathan Mayer(参考訳) プラットフォームは偽情報の拡散に歯止めをかけるのに苦労している。 ユーザレポートや手動分析,サードパーティのファクトチェックといった現在の応答は遅く,スケールが難しく,結果として偽情報が生成されてからしばらくの間,未確認で拡散する可能性がある。 プラットフォームが偽情報に迅速に対応できるようにするためには、自動化が不可欠です。 本研究では, 偽情報サイトを自動的に検出する新たな方向: インフラストラクチャ機能について検討する。 我々の仮説では、偽情報Webサイトは真正ニュースWebサイトと知覚的に似ているかもしれないが、ドメイン登録、TLS/SSL証明書、Webホスティング設定に重要な非知覚的な違いがあるかもしれない。 インフラストラクチャ機能は、コンテンツがライブ配信され、読者に届く前に利用できるため、偽情報サイトを検出するのに特に有用である。 ラベル付きWebサイトスナップショットの大規模コーパスに対するアプローチの実現可能性を示す。 また, 事前のリアルタイム展開の結果を提示し, 偽情報の発見に成功し, 自動偽情報検出の未探索課題を強調した。

Platforms have struggled to keep pace with the spread of disinformation. Current responses like user reports, manual analysis, and third-party fact checking are slow and difficult to scale, and as a result, disinformation can spread unchecked for some time after being created. Automation is essential for enabling platforms to respond rapidly to disinformation. In this work, we explore a new direction for automated detection of disinformation websites: infrastructure features. Our hypothesis is that while disinformation websites may be perceptually similar to authentic news websites, there may also be significant non-perceptual differences in the domain registrations, TLS/SSL certificates, and web hosting configurations. Infrastructure features are particularly valuable for detecting disinformation websites because they are available before content goes live and reaches readers, enabling early detection. We demonstrate the feasibility of our approach on a large corpus of labeled website snapshots. We also present results from a preliminary real-time deployment, successfully discovering disinformation websites while highlighting unexplored challenges for automated disinformation detection.
翻訳日:2023-06-01 07:33:15 公開日:2020-09-28
# クエンチダイナミクスによるフロッケ位相位相を特徴付ける統一理論

Unified theory to characterize Floquet topological phases by quench dynamics ( http://arxiv.org/abs/2004.14013v2 )

ライセンス: Link先を確認
Long Zhang, Lin Zhang, Xiong-Jun Liu(参考訳) 周期駆動システムの従来の特徴付けは、通常、フロケ帯域を超えた時間領域情報を必要とするため、フロケ位相不変量を測定する普遍的かつ直接的なスキームが欠如している。 ここでは,量子クエンチェに基づく統一理論を提案し,静的フロッケバンドの最小情報のみを位相不変量で構成する一般の $d$-dimensional (d$d) フロッケ位相位相を特徴付ける。 最初は静的で自明な$d$D相の場合、周期駆動を突然オンにすることでクエンチダイナミクスを導入し、フロッケのバンドが交差する(d-1$)D運動量部分空間において、フロッケのトポロジ不変量を直接得られるような創発的トポロジカルパターンを示すことを示す。 この予測は、従来のフロケ境界モードと異常なフロケ境界モードの数を抽出できるだけでなく、位相帯域における位相的に保護された特異点も特定できる、単純で統一された特徴を与える。 これらの応用は、低温原子実験で容易に利用できる1Dモデルと2Dモデルで示される。 本研究はフロケ位相のキャラクタリゼーションのための新しい枠組みを開拓する。

The conventional characterization of periodically driven systems usually necessitates the time-domain information beyond Floquet bands, hence lacking universal and direct schemes of measuring Floquet topological invariants. Here we propose a unified theory based on quantum quenches to characterize generic $d$-dimensional ($d$D) Floquet topological phases, in which the topological invariants are constructed with only minimal information of the static Floquet bands. For a $d$D phase which is initially static and trivial, we introduce the quench dynamics by suddenly turning on the periodic driving, and show that the quench dynamics exhibits emergent topological patterns in ($d-1$)D momentum subspaces where Floquet bands cross, from which the Floquet topological invariants are directly obtained. This prediction provides a simple and unified characterization, in which one can not only extract the number of conventional and anomalous Floquet boundary modes, but also identify the topologically protected singularities in the phase bands. The applications are illustrated with 1D and 2D models which are readily accessible in cold atom experiments. Our study opens a new framework for the characterization of Floquet topological phases.
翻訳日:2023-05-21 19:46:49 公開日:2020-09-28
# スピン合体モードに基づく共鳴増幅型ブラッグ散乱

Resonant-amplified and invisible Bragg scattering based on spin coalescing modes ( http://arxiv.org/abs/2006.07875v2 )

ライセンス: Link先を確認
K. L. Zhang and Z. Song(参考訳) 粒子のエネルギー準位と反対スピン偏極を分離する実磁場とは異なり、複素磁場は特殊点(ep)と呼ばれる特殊な種類のスペクトル縮退につながり、2つのスピン固有モードが結合する。 これにより、EP不純物は共鳴スピン偏極を持つフェルミオンの目に見えない散乱中心となるが、反対偏極の増幅エミッタとなる。 一対の共役EPモードは共振相互刺激をサポートし、正帰還ループのメカニズムに基づく共振増幅器として機能することを示す。 他のエルミート固有モードとともに、EP偏極を持つフェルミオンは、EPダイナミクスと呼ばれるいくつかの排他的ダイナミクスを示す。 我々は、エルミート2次元正方格子にEP不純物アレイを埋め込むことで構築されるいくつかの典型的な超格子を構成する。 ブラッグ散乱の共鳴増幅と可視性を示すために数値シミュレーションを行った。

Unlike a real magnetic field, which separates the energy levels of particle with opposite spin polarization, a complex field can lead to a special kind of spectral degeneracy, known as exceptional point (EP), at which two spin eigenmodes coalesce. It allows an EP impurity to be an invisible scattering center for a fermion with the resonant spin polarization, but an amplifying emitter for opposite polarization. We show that a pair of conjugate EP modes supports resonant mutual stimulation, acting as a resonant amplifier based on the underlying mechanism of positive-feedback loop. Together with other Hermitian eigenmodes, a fermion with EP polarization exhibits some exclusive dynamics, referred to as EP dynamics. We construct several typical superlattices, which are built up by embedding EP-impurity arrays in a Hermitian two-dimensional square lattice. Numerical simulations are performed to demonstrate resonant amplification and invisibility of Bragg scattering.
翻訳日:2023-05-14 19:12:17 公開日:2020-09-28
# lieb-robinson は相互作用の局所性を示す

Lieb-Robinson bounds imply locality of interactions ( http://arxiv.org/abs/2006.10062v2 )

ライセンス: Link先を確認
Henrik Wilming and Albert H. Werner(参考訳) 離散格子モデルは量子多体物理学の基礎である。 これらは凝縮物質系と格子規則化量子場理論の効果的な記述として生じる。 リーブ=ロビンソン境界は、各格子点における自由度が局所的にのみ相互作用するならば、相関は相対論的系の光円錐と同様に、格子を通して有限群速度でのみ伝播できることを意味する。 ここでは、リーブ・ロビンソン境界が相互作用の局所性と同値であることが示される: k-体相互作用を持つ系がリーブ・ロビンソン境界を指数形式で満たし、基礎となる相互作用が空間において指数関数的に崩壊する場合に限る。 特に、この結果は、単一サイト可観測体の2点相関関数の挙動から既に従い、フェルミオン格子モデルと同様に異なる崩壊挙動に一般化される。 副作用として、単一サイトオブザーバブルに対する lieb-robinson 境界は任意のサポートを持つ有界オブザーバブルに対する lieb-robinson 境界を意味する。

Discrete lattice models are a cornerstone of quantum many-body physics. They arise as effective descriptions of condensed matter systems and lattice-regularized quantum field theories. Lieb-Robinson bounds imply that if the degrees of freedom at each lattice site only interact locally with each other, correlations can only propagate with a finite group velocity through the lattice, similarly to a light cone in relativistic systems. Here we show that Lieb-Robinson bounds are equivalent to the locality of the interactions: a system with k-body interactions fulfills Lieb-Robinson bounds in exponential form if and only if the underlying interactions decay exponentially in space. In particular, our result already follows from the behavior of two-point correlation functions for single-site observables and generalizes to different decay behaviours as well as fermionic lattice models. As a side-result, we thus find that Lieb-Robinson bounds for single-site observables imply Lieb-Robinson bounds for bounded observables with arbitrary support.
翻訳日:2023-05-13 15:38:39 公開日:2020-09-28
# 量子ドットキャビティ系における高次フォック状態のオンデマンド生成

On-demand generation of higher-order Fock states in quantum-dot--cavity systems ( http://arxiv.org/abs/2006.14531v2 )

ライセンス: Link先を確認
M. Cosacchi, J. Wiercinski, T. Seidelmann, M. Cygorek, A. Vagov, D. E. Reiter, V. M. Axt(参考訳) 高次フォック状態のオンデマンド合成は量子情報科学において極めて重要である。 固体量子ドットキャビティ系において高次フォック状態を生成するための異なるプロトコルを提案し比較する。 これらのプロトコルは一連のレーザーパルスを使用して量子ドット励起子とオフ共鳴パルスを励起し、ドットとキャビティの間のデチューニングを制御する。 我々の理論的研究は、ドットとキャビティの損失過程と、数値的に完全な長手音響フォノンへの純劣化型結合を含む。 量子ドットの2レベル近似を超えて、有限交換分割の影響、高エネルギー励起子の状態の影響、および二エクシトン状態の有害な占有につながる線形偏光レーザーパルスによる励起を研究する。 現実的な条件下では、所望の目標状態に到達するまで量子ドットと共振する空洞を保持するプロトコルが、Fock状態に対して$| 5\rangle$を$40\,\%$よりはるかに上回る忠実性を提供できると予測する。

The on-demand preparation of higher-order Fock states is of fundamental importance in quantum information sciences. We propose and compare different protocols to generate higher-order Fock states in solid state quantum-dot--cavity systems. The protocols make use of a series of laser pulses to excite the quantum dot exciton and off-resonant pulses to control the detuning between dot and cavity. Our theoretical studies include dot and cavity loss processes as well as the pure-dephasing type coupling to longitudinal acoustic phonons in a numerically complete fashion. By going beyond the two-level approximation for quantum dots, we study the impact of a finite exchange splitting, the impact of a higher energetic exciton state, and an excitation with linearly polarized laser pulses leading to detrimental occupations of the biexciton state. We predict that under realistic conditions, a protocol which keeps the cavity at resonance with the quantum dot until the desired target state is reached is able to deliver fidelities to the Fock state $| 5\rangle$ well above $40\,\%$.
翻訳日:2023-05-12 19:44:00 公開日:2020-09-28
# サブトラクティブジャンクション形成過程からのコヒーレント超伝導量子ビット

Coherent superconducting qubits from a subtractive junction fabrication process ( http://arxiv.org/abs/2006.16862v2 )

ライセンス: Link先を確認
Alexander Stehli, Jan David Brehm, Tim Wolz, Paul Baity, Sergey Danilin, Valentino Seferai, Hannes Rotzinger, Alexey V. Ustinov and Martin Weides(参考訳) ジョセフソントンネル接合は、量子ビットを含むほとんどの超伝導電子回路の中心である。 通常、クビットのジャンクションは超伝導膜界面からの誘電損失の寄与を低減するためにシャドウ蒸発法を用いて製造される。 しかし近年,サブミクロンスケールの重なり接合が注目されている。 シャドウマスク技術と比較すると、角度依存性の沈着や橋梁や重なりは必要とせず、ウェハスケールの処理には重大な制限がある。 これは製造中に真空を壊すコストがかかるが、多層回路の統合を単純化し、非常に異なる接合サイズを実装し、工業的に標準化されたプロセスでより大きな規模で製造することができる。 本研究では,重なり合う接合を作製するための減算プロセスの実現可能性を示す。 試験接点の配列では、平均正常状態抵抗が6ヶ月でわずか1.6\%に低下することが判明した。 超伝導トランスモン量子ビットにおける接合部のコヒーレンス特性の評価を行った。 時間領域の実験では、最高のデバイスである量子ビットの寿命とコヒーレンス時間の両方が平均で$20\,\si{\micro\second}$以上であることがわかった。 最後に,技術の改善の可能性について論じる。 この研究は、先端材料と成長プロセスによるより標準化されたプロセスフローへの道を開き、超伝導量子回路の大規模製造において重要なステップとなる。

Josephson tunnel junctions are the centerpiece of almost any superconducting electronic circuit, including qubits. Typically, the junctions for qubits are fabricated using shadow evaporation techniques to reduce dielectric loss contributions from the superconducting film interfaces. In recent years, however, sub-micron scale overlap junctions have started to attract attention. Compared to shadow mask techniques, neither an angle dependent deposition nor free-standing bridges or overlaps are needed, which are significant limitations for wafer-scale processing. This comes at the cost of breaking the vacuum during fabrication, but simplifies integration in multi-layered circuits, implementation of vastly different junction sizes, and enables fabrication on a larger scale in an industrially-standardized process. In this work, we demonstrate the feasibility of a subtractive process for fabrication of overlap junctions. In an array of test contacts, we find low aging of the average normal state resistance of only 1.6\% over 6 months. We evaluate the coherence properties of the junctions by employing them in superconducting transmon qubits. In time domain experiments, we find that both, the qubit life- and coherence time of our best device, are on average greater than $20\,\si{\micro\second}$. Finally, we discuss potential improvements to our technique. This work paves the way towards a more standardized process flow with advanced materials and growth processes, and constitutes an important step for large scale fabrication of superconducting quantum circuits.
翻訳日:2023-05-12 01:14:43 公開日:2020-09-28
# ランダムエラーは必ずしも政治的に中立ではない

Random errors are not necessarily politically neutral ( http://arxiv.org/abs/2007.00854v3 )

ライセンス: Link先を確認
Michelle Blom, Andrew Conway, Peter J. Stuckey, Vanessa Teague, Damjan Vukcevic(参考訳) 複雑なプロセスの実装ではエラーは避けられない。 本稿では,複数席選挙を決定するための一般的なアプローチであるSTV選挙に対するランダムな誤りの影響を検討する。 通常、ランダムエラーは全ての候補にほぼ等しく影響することが期待され、したがって公平である。 反対に、ランダムなエラーは、選挙結果に体系的なバイアスをもたらす可能性がある。 これは、たとえエラーがランダムであっても、異なる候補に対する投票は、ランダムなエラーによって異なる影響を受ける異なるパターンで発生するためである。 STVの文脈では、ランダムエラーの最も重要な影響は、投票を無効にすることである。 これは、投票がランダムなエラーによって無効化される可能性がずっと高いため、支持者が多くの選好をリストアップする傾向がある候補者の投票をはるかに多く排除する。 投票スタイルの異なる妥当性ルールは、エラーが他のものよりもある種の投票を罰する可能性が高いことを意味する。 閉会選挙の場合、この体系的な偏見は選挙の結果を変えることができる。

Errors are inevitable in the implementation of any complex process. Here we examine the effect of random errors on Single Transferable Vote (STV) elections, a common approach to deciding multi-seat elections. It is usually expected that random errors should have nearly equal effects on all candidates, and thus be fair. We find to the contrary that random errors can introduce systematic bias into election results. This is because, even if the errors are random, votes for different candidates occur in different patterns that are affected differently by random errors. In the STV context, the most important effect of random errors is to invalidate the ballot. This removes far more votes for those candidates whose supporters tend to list a lot of preferences, because their ballots are much more likely to be invalidated by random error. Different validity rules for different voting styles mean that errors are much more likely to penalise some types of votes than others. For close elections this systematic bias can change the result of the election.
翻訳日:2023-05-11 20:55:26 公開日:2020-09-28
# 重力生成暗黒物質のエントロピーの起源--エントロピーのエントロピーについて

On the origin of entropy of gravitationally produced dark matter: the entanglement entropy ( http://arxiv.org/abs/2007.09196v2 )

ライセンス: Link先を確認
Mudit Rai, Daniel Boyanovsky(参考訳) ダークマター粒子の重力生成におけるエントロピーの出現について検討し, 重力および重いフェルミオンに最小結合した超光スカラー, インフレーションから放射ドーミネーション(rd)までについて検討した。 初期条件は、インフレーション中のバンチデイビス・ヴァクチュアのダークマター場に対応する。 アウト」状態は粒子-粒子対の相関関係にあり、分布関数はどちらの場合でも見られる。 断熱的な状態においては、密度行列は「外」粒子状態に基づく干渉効果から脱落し、フォン・ノイマンのエントロピーとの対角線に効果的に還元することで急速にデコヒーレンスを特徴付ける。 相関ペアの1つの部材をトレースすることで得られる絡み合いエントロピーを正確に示す。 両方の統計学において、絡み合いのエントロピーは、ペア相関から生じる注目すべき差を持つ分布関数の点において、量子論的エントロピーと似ている。 エネルギー運動量テンソルのエントロピーと運動流体形態は、すべて密度行列のデコヒーレンスに由来する。 超軽いスカラーダークマターの場合、分布関数は低運動量$\propto 1/k^3$でピークし、特定のエントロピーは$\ll 1$である。 これは \emph{condensed phase} のホールマークであるが、フィールド期待値が消える。 フェルミオンダークマターの場合、分布関数はほぼ熱であり、特定のエントロピーは熱種の典型的な$\mathcal{O}(1)$である。 エンタングルメントエントロピーの関数形式は非常に一般的であり、再加熱時のパラメトリック増幅などの代替生産機構に適用できる。

We study the emergence of entropy in gravitational production of dark matter particles, ultra light scalars minimally coupled to gravity and heavier fermions, from inflation to radiation domination (RD). Initial conditions correspond to dark matter fields in their Bunch-Davies vacua during inflation. The "out" states are correlated particle-antiparticle pairs, and the distribution function is found in both cases. In the adiabatic regime the density matrix features rapid decoherence by dephasing from interference effects in the basis of "out" particle states, effectively reducing it to a diagonal form with a concomitant von Neumann entropy. We show that it is exactly the entanglement entropy obtained by tracing over one member of the correlated pairs. Remarkably, for both statistics the entanglement entropy is similar to the quantum kinetic entropy in terms of the distribution function with noteworthy differences stemming from pair correlations. The entropy and the kinetic fluid form of the energy momentum tensor all originate from decoherence of the density matrix. For ultra light scalar dark matter, the distribution function peaks at low momentum $\propto 1/k^3$ and the specific entropy is $\ll 1$. This is a hallmark of a \emph{condensed phase} but with vanishing field expectation value. For fermionic dark matter the distribution function is nearly thermal and the specific entropy is $\mathcal{O}(1)$ typical of a thermal species. We argue that the functional form of the entanglement entropy is quite general and applies to alternative production mechanisms such as parametric amplification during reheating.
翻訳日:2023-05-09 04:53:40 公開日:2020-09-28
# ハイゼンベルク図におけるエベレット相対状態

Everettian relative states in the Heisenberg picture ( http://arxiv.org/abs/2008.02328v3 )

ライセンス: Link先を確認
Samuel Kuypers and David Deutsch(参考訳) 量子論におけるエヴェレットの相対状態構成は、ハイゼンベルクの図で満足に表現されたことはない。 単純なプロセスであると期待されるものは、ここで解決した概念的および技術的な問題によって妨げられました。 その結果、エヴェレットの「オーディンガー」(Schr\odinger)の絵とは異なり、エヴェレットの多重性の局所性、本質的に近似的な性質、そしてその起源はある種の絡み合いや局所到達不能な情報である。 我々の構成はまた、エベレットが準古典的ではなく完全な量子であるような「ユニバース」をより正確な定義を与えることができ、量子状態のエベレット分解と時空の葉化を比較することができる。

Everett's relative-state construction in quantum theory has never been satisfactorily expressed in the Heisenberg picture. What one might have expected to be a straightforward process was impeded by conceptual and technical problems that we solve here. The result is a construction which, unlike Everett's one in the Schr\"odinger picture, makes manifest the locality of Everettian multiplicity, and its inherently approximative nature, and its origin in certain kinds of entanglement and locally inaccessible information. Our construction also allows us to give a more precise definition of an Everett 'universe', under which it is fully quantum, not quasi-classical, and we compare the Everettian decomposition of a quantum state with the foliation of a spacetime.
翻訳日:2023-05-07 02:04:28 公開日:2020-09-28
# 光位相推定のための単発非ガウジアン測定

Single-shot non-Gaussian Measurements for Optical Phase Estimation ( http://arxiv.org/abs/2008.08185v2 )

ライセンス: Link先を確認
M. T. DiMario, F. E. Becerra(参考訳) 最小不確実性を持つ物理系の性質を推定することは量子力学における中心的な課題である。 光位相推定は、物理パラメータの値が電磁場の位相にマッピングされる多くのメトロロジータスクの中心であり、この位相の単発計測が必要である。 わずかな不確かさで単発の光線の位相を推定できる測定は存在するが、コヒーレント状態の未知の位相に対するオプティマイズに近い単発測定のデモンストレーションはいまだに解明されていない。 本稿では, ヘテロダイン測定の感度限界を超えるコヒーレン状態のアブ初期位相推定のための単発計測のための戦略を提案し, コヒーレン状態に対するクレマーラオ下限にアプローチする。 これらの単一ショット推定戦略は、コヒーレント変位演算のリアルタイム最適化、光子数分解能の単一光子計数、高速フィードバックに基づいている。 我々は,これらの最適化された推定手法の実証が,適度なアダプティブ測定ステップで検出効率を補正することなく,幅広い光学パワーのヘテロダイン限界を超えることを示す。 これは我々の知る限り、光コヒーレント状態に符号化された未知の位相の最も感度の高い単発計測である。

Estimation of the properties of a physical system with minimal uncertainty is a central task in quantum metrology. Optical phase estimation is at the center of many metrological tasks where the value of a physical parameter is mapped to the phase of an electromagnetic field, and single-shot measurements of this phase are necessary. While there are measurements able to estimate the phase of light in a single shot with small uncertainties, demonstrations of near-optimal single-shot measurements for an unknown phase of a coherent state remain elusive. Here, we propose and demonstrate strategies for single-shot measurements for ab initio phase estimation of coherent states that surpass the sensitivity limit of heterodyne measurement and approach the Cramer-Rao lower bound for coherent states. These single-shot estimation strategies are based on real-time optimization of coherent displacement operations, single photon counting with photon number resolution, and fast feedback. We show that our demonstration of these optimized estimation strategies surpasses the heterodyne limit for a wide range of optical powers without correcting for detection efficiency with a moderate number of adaptive measurement steps. This is, to our knowledge, the most sensitive single-shot measurement of an unknown phase encoded in optical coherent states.
翻訳日:2023-05-05 22:38:07 公開日:2020-09-28
# 連続可変量子デバイスを用いたスピン系の量子シミュレーションに向けて

Towards quantum simulation of spin systems using continuous variable quantum devices ( http://arxiv.org/abs/2009.09455v2 )

ライセンス: Link先を確認
Razieh Annabestani and Brajesh Gupt and Bhaskar Roy Bardhan(参考訳) スピンイジングモデルのボソニック表現を,連続変数量子プロセッサを用いて2レベルシステムをシミュレートする手法を用いて検討する。 スピン系の時間発展を連続的な可変論理ゲートの列に分解し、その構造を分析する。 スピン格子系の大きさによる量子回路スケーリングの推定を行う。 さらに,Ising Hamiltonianの基底状態エネルギーを推定するためにガウスボソンサンプリング装置を用いる可能性についても論じる。 この結果は、変分量子固有ソルバの連続変数バージョンのようなハイブリッド古典量子アルゴリズムの開発に潜在的に応用できる。

We study Bosonic representation of spin Ising model with the application of simulating two level systems using continuous variable quantum processors. We decompose the time evolution of spin systems into a sequence of continuous variable logical gates and analyze their structure. We provide an estimation of quantum circuit scaling with the size of the spin lattice system. Furthermore, we discuss the possibility of using a Gaussian Boson sampling device to estimate the ground state energy of Ising Hamiltonian. The result has potential application in developing hybrid classical-quantum algorithms such as continuous variable version of variational quantum eigensolver.
翻訳日:2023-05-01 18:06:09 公開日:2020-09-28
# 光駆動型$v$型量子ドット鎖における一方向量子輸送

Unidirectional Quantum Transport in Optically Driven $V$-type Quantum Dot Chains ( http://arxiv.org/abs/2009.12083v2 )

ライセンス: Link先を確認
Oliver Kaestle, Emil Vosmar Denning, Jesper M{\o}rk, Andreas Knorr, Alexander Carmele(参考訳) 連続的に駆動されるInAs/GaAs半導体量子ドットにおいて,$V$型遷移を特徴とする完全集団反転を実現する機構を予測した。 この高度に非平衡な定常状態は、音波フォノンによって導入された$v$型バンド間遷移と非マルコフデコヒーレンス機構の相互作用によって実現される。 集団トラップ機構は結合エミッタの連鎖に一般化される。 集団反転を活用し,単元間結合機構によらず,鎖の一端から他端への一方向の励起輸送を外部バイアスなく予測する。

We predict a mechanism for achieving complete population inversion in a continuously driven InAs/GaAs semiconductor quantum dot featuring $V$-type transitions. This highly nonequilibrium steady state is enabled by the interplay between $V$-type interband transitions and a non-Markovian decoherence mechanism, introduced by acoustic phonons. The population trapping mechanism is generalized to a chain of coupled emitters. Exploiting the population inversion, we predict unidirectional excitation transport from one end of the chain to the other without external bias, independent of the unitary interdot coupling mechanism.
翻訳日:2023-05-01 00:41:43 公開日:2020-09-28
# 非エルミートフロッケ相の双対位相的特徴付け

Dual topological characterization of non-Hermitian Floquet phases ( http://arxiv.org/abs/2009.13078v1 )

ライセンス: Link先を確認
Longwen Zhou, Yongjian Gu, and Jiangbin Gong(参考訳) 非エルミティキシーは、既に豊富なフロッケ位相相にさらに物理的な特徴を加えることが期待されている。 それでも、非エルミート・フロケトポロジカルな物質を特徴づける体系的なアプローチはいまだに欠けている。 本研究では,非エルミートフロッケ系の運動量空間および実空間におけるトポロジーを特徴付ける双対スキームについて,本研究のケーススタディにおいて,分断的な非共役su-schrieffer-heegerモデルを用いて紹介する。 周期的境界条件の下では、トポロジカル位相は、整数と半整数の間をジャンプする実験的にアクセス可能な一対の巻数によって特徴づけられる。 開境界条件下では、いわゆる開境界巻数(open boundary winding number)のフロッケバージョンが整数であることが判明し、非エルミティアンスキン効果と共存するゼロおよび$\pi$フロッケエッジモードの対の数を予測できる。 以上の結果から,複数のホッピング長スケールの非エルミートフロッケ系に対して一般的ブリルアンゾーンを構築するという難題が回避できるため,非エルミートフロッケ位相物質の双対的特徴付けは必要であり,かつ実現可能であることが示唆された。 この研究は非平衡系における非エルミート物理学のさらなる研究の道を開く。

Non-Hermiticity is expected to add far more physical features to the already rich Floquet topological phases of matter. Nevertheless, a systematic approach to characterize non-Hermitian Floquet topological matter is still lacking. In this work we introduce a dual scheme to characterize the topology of non-Hermitian Floquet systems in momentum space and in real space, using a piecewise quenched nonreciprocal Su-Schrieffer-Heeger model for our case studies. Under the periodic boundary condition, topological phases are characterized by a pair of experimentally accessible winding numbers that make jumps between integers and half-integers. Under the open boundary condition, a Floquet version of the so-called open boundary winding number is found to be integers and can predict the number of pairs of zero and $\pi$ Floquet edge modes coexisting with the non-Hermitian skin effect. Our results indicate that a dual characterization of non-Hermitian Floquet topological matter is necessary and also feasible because the formidable task of constructing the celebrated generalized Brillouin zone for non-Hermitian Floquet systems with multiple hopping length scales can be avoided. This work hence paves a way for further studies of non-Hermitian physics in non-equilibrium systems.
翻訳日:2023-04-30 18:55:08 公開日:2020-09-28
# 時間反転対称性保護位相の安定性

Stability of Time-Reversal Symmetry Protected Topological Phases ( http://arxiv.org/abs/2009.13043v1 )

ライセンス: Link先を確認
Tian-Shu Deng, Lei Pan, Yu Chen, and Hui Zhai(参考訳) 閉系では、時間反転対称性はクラマーの退化につながり、量子スピンホール絶縁体のような非自明な位相状態を保護することが知られている。 本報告では,これらの効果が環境への結合に対して安定であるか否かについて,環境と環境との結合が時間-反転対称性にも依存することを示す。 非エルミート的ハミルトニアンとランゲヴィン雑音項を併用し、非エルミート線形応答理論を耕作することにより、クラマー退化状態のスペクトル関数は散逸によって分割でき、反伝播エッジ状態間の後方散乱は散逸によって引き起こされることを示す。 後者は、量子スピンホール効果の場合のコンダクタンスの正確な量子化の欠如をもたらす。 例えば、このことを kane-mele モデルで具体的に示します。 我々の研究は、時間反転対称性によって保護されるトポロジカル位相に拡張することもできる。

In a closed system, it is well known that the time-reversal symmetry can lead to Kramers degeneracy and protect nontrivial topological states such as quantum spin Hall insulator. In this letter we address the issue whether these effects are stable against coupling to environment, provided that both environment and the coupling to environment also respect the time-reversal symmetry. By employing a non-Hermitian Hamiltonian with the Langevin noise term and ultilizing the non-Hermitian linear response theory, we show that the spectral functions for Kramers degenerate states can be split by dissipation, and the backscattering between counter-propagating edge states can be induced by dissipation. The latter leads to the absence of accurate quantization of conductance in the case of quantum spin Hall effect. As an example, we demonstrate this concretely with the Kane-Mele model. Our study could also be extended to interacting topological phases protected by the time-reversal symmetry.
翻訳日:2023-04-30 18:54:44 公開日:2020-09-28
# 産業用IoTのバリューチェーンとそのデジタル化のための参照フレームワーク

The value chain of Industrial IoT and its reference framework for digitalization ( http://arxiv.org/abs/2009.13039v1 )

ライセンス: Link先を確認
Hang Song, Yuncheng Jiang(参考訳) 今日では、非常に具体的な問題に適した詳細なソリューションを越えて、急速に移行しています。また、再利用可能な、より汎用的なインフラストラクチャやツールの上に、IoTやIndustrial IoT/Industry 4.0[1-3]など、すでに構築しています。 この論文ではこれらについて論じる。 産業用IoT(IIoT)が懸念される場合、IoT技術の巨大なイノベーションの可能性は、物理デバイスの生産だけでなく、プレプロダクション(イデレーション、デザイン、プロトタイピング)とポストプロダクション(セール、トレーニング、メンテナンス、リサイクル)のフェーズの両方において、製造業によって実行されるすべての活動にも当てはまります。 IIoTがコネクテッドデバイス、CPS(Cyber-Physical Systems)、場所、人々(例えばオペレーター)からのデータを取得し、分析することが知られている。 比較的多かれ少なかれ、相対的な監視装置とオペレーショナルテクノロジー(OT)のアクチュエータの組み合わせによって引き起こされている。 IIoTは産業システム[2]の調整と監視に役立ち、生産資源を柔軟に統合・再編成し、生産の分散意思決定を可能にするスマートバリューチェーンにOT機能を拡張します。

Nowadays, we are rapidly moving beyond bespoke detailed solutions tailored for very specific problems, and we already build upon reusable and more general purpose infrastructures and tools, referring to them as IoT, Industrial IoT/Industry 4.0[1-3], etc. These are what will be discussed in this paper. When Industrial IoT (IIoT) is concerned about, the enormous innovation potential of IoT technologies are not only in the production of physical devices, but also in all activities performed by manufacturing industries, both in the pre-production (ideation, design, prototyping) and in the post-production (sales, training, maintenance, recycling) phases . It is also known that IIoT acquire and analyze data from connected devices, Cyber-Physical Systems (CPS), locations and people (e.g. operator); along with its contemporary new terms, such as 5G, Edge computing, and other ICT technologies with their applications[4] . More or less it is drawn upon on its combination with relative monitoring devices and actuators from operational technology (OT). IIoT helps regulate and monitor industrial systems [2], and it integrates/re-organize production resources flexibly, enhanced OT capability in the smart value chains enabling distributed decision-making of production.
翻訳日:2023-04-30 18:54:22 公開日:2020-09-28
# 周期偏極MTiOXO4(M = K, Rb, Cs; X = P, As)から生成される1550nmの対向伝播非相関双光子

Counter-propagating spectrally uncorrelated biphotons at 1550 nm generated from periodically poled MTiOXO4 (M = K, Rb, Cs; X = P, As) ( http://arxiv.org/abs/2009.13321v1 )

ライセンス: Link先を確認
Wu-Hao Cai, Bei Wei, Shun Wang, and Rui-Bo Jin(参考訳) 我々は,MTiOXO4(M = K, Rb, Cs; X = P, As)結晶から反伝播自発パラメトリックダウンコンバージョン(CP-SPDC)に生じるスペクトル非相関双光子を理論的に検討した。 数値計算により、ktpファミリーの5つの結晶は、高いスペクトル純度と広い波長性を持つヘラルド単一光子を生成することができることが判明した。 0型位相整合条件では、1550nmの純度は0.91から0.92であり、1500nmから2000nmまでの純度は0.90以上維持できる。 タイプiiの位相整合条件下では、ppktp, pprtp, ppkta, pprta, ppctaに対して1550nmの純度が0.096, 0.97, 0.97, 0.98, 0.98であり、さらに600nm以上の波長範囲で0.096以上保持できる。 また、pprtp結晶の独立光子源間のホン・ウー・マンデル干渉を1550nmでシミュレーションし、干渉視認性はtype-0(type-ii)相整合条件下で92%(97%)であった。 この研究は、スペクトル的に純粋な狭帯域単一光子源を、テレコム波長の量子メモリと量子ネットワークに提供することができる。

We theoretically investigated spectrally uncorrelated biphotons generated in a counter-propagating spontaneous parametric downconversion (CP-SPDC) from periodically poled MTiOXO4 (M = K, Rb, Cs; X = P, As) crystals. By numerical calculation, it was found that the five crystals from the KTP family can be used to generate heralded single photons with high spectral purity and wide tunability. Under the type-0 phase-matching condition, the purity at 1550 nm was between 0.91 and 0.92, and the purity can be maintained over 0.90 from 1500 nm to 2000 nm wavelength. Under the type-II phase-matching condition, the purity at 1550 nm was 0.96, 0.97, 0.97, 0.98, and 0.98 for PPKTP, PPRTP, PPKTA, PPRTA, and PPCTA, respectively; furthermore, the purity can be kept over 0.96 for more than 600 nm wavelength range. We also simulated the Hong-Ou-Mandel interference between independent photon sources for PPRTP crystals at 1550 nm, and interference visibility was 92% (97%) under type-0 (type-II) phase-matching condition. This study may provide spectrally pure narrowband single-photon sources for quantum memories and quantum networks at telecom wavelengths.
翻訳日:2023-04-30 18:51:41 公開日:2020-09-28
# 量子ウォークによる空間探索へのコメントは、ほぼすべてのグラフに最適である

Comment to Spatial Search by Quantum Walk is Optimal for Almost all Graphs ( http://arxiv.org/abs/2009.13309v1 )

ライセンス: Link先を確認
Ryszard Kukulski, Adam Glos(参考訳) 量子ウォークによる空間探索は、ほぼすべてのグラフに対して最適である」(https://doi.org/10.1103/physrevlett.116.100501)。 著者らは、$p\geq \frac{\log^{3/2}(n)}{n}$の場合、CTQWベースの探索はほとんど全てのグラフに対して最適であると主張している。 以下では、メインの論文にある問題を指摘し、実際の結果が$p=\omega(\log(n)/n)$になるよう修正を提案する。 単純化された遷移率 1/(np)$ の証明の場合、摂動理論を適用する際の問題の可能性を指摘した。

This comment is to correct the proof of optimality of quantum spatial search for Erd\H{o}s-R\'enyi graphs presented in `Spatial Search by Quantum Walk is Optimal for Almost all Graphs' (https://doi.org/10.1103/PhysRevLett.116.100501). The authors claim that if $p\geq \frac{\log^{3/2}(n)}{n}$, then the CTQW-based search is optimal for almost all graphs. Below we point the issues found in the main paper, and propose corrections, which in fact improve the result to $p=\omega(\log(n)/n)$ in case of transition rate $\gamma = 1/\lambda_1$. In the case of the proof for simplified transition rate $1/(np)$ we pointed a possible issue with applying perturbation theory.
翻訳日:2023-04-30 18:51:08 公開日:2020-09-28
# ハダマール検定を最適化した歪線形系の量子古典アルゴリズム

Quantum-classical algorithms for skewed linear systems with optimized Hadamard test ( http://arxiv.org/abs/2009.13288v1 )

ライセンス: Link先を確認
Bujiao Wu, Maharshi Ray, Liming Zhao, Xiaoming Sun and Patrick Rebentrost(参考訳) 線形システムの解法は、近距離、ノイズの多い中間スケール量子コンピュータの使用を調べるための豊富な領域を提供する。 本研究では,過小決定および過小決定の場合の歪線形系に対するハイブリッド量子古典アルゴリズムについて論じる。 我々の入力モデルは、線形系を定義する行列の列または行が多対数深さの量子回路によって与えられるようにしており、回路の数はヒルベルト空間次元よりもはるかに小さい。 本アルゴリズムは、他の自然量における次元と多項式依存性に多対数依存性を持つ。 さらに,各次元における実行時間多元対数を考慮した分解線形システムの特殊ケースに対するアルゴリズムを提案する。 これらのアルゴリズムの中核はアダマールテストであり、本論文の第2部では、このテストの回路深さの最適化について考察する。 n$-qubit と $d$-depth 量子回路 $\mathcal{c}$ が与えられると、$(n + s)$ qubits と $o\left(\log s + d\log (n/s) + d\right)$-depth 量子回路を用いて $\langle 0|\mathcal{c}|0\rangle$ を近似することができる。 一方、標準実装には$n+1$ qubitsと$O(dn)$ depthが必要である。 超伝導デバイスを用いた最近の量子超越実験に基づく格子ジオメトリ また、$(l_1\times l_2)$ lattice with $l_1 \times l_2 = n$ を最適化し、$(n + 1)$ qubits と $O\left(d \left(l_1 + l_2\right)\right)$-depth 回路で $\langle 0|\mathcal{C} |0\rangle$ を近似することができる。 比較すると、標準深さは$O\left(d n^2\right)$である。 どちらの最適化も、1深さの量子回路$\mathcal{c}$の場合、漸近的にタイトです。

The solving of linear systems provides a rich area to investigate the use of nearer-term, noisy, intermediate-scale quantum computers. In this work, we discuss hybrid quantum-classical algorithms for skewed linear systems for over-determined and under-determined cases. Our input model is such that the columns or rows of the matrix defining the linear system are given via quantum circuits of poly-logarithmic depth and the number of circuits is much smaller than their Hilbert space dimension. Our algorithms have poly-logarithmic dependence on the dimension and polynomial dependence in other natural quantities. In addition, we present an algorithm for the special case of a factorized linear system with run time poly-logarithmic in the respective dimensions. At the core of these algorithms is the Hadamard test and in the second part of this paper we consider the optimization of the circuit depth of this test. Given an $n$-qubit and $d$-depth quantum circuit $\mathcal{C}$, we can approximate $\langle 0|\mathcal{C}|0\rangle$ using $(n + s)$ qubits and $O\left(\log s + d\log (n/s) + d\right)$-depth quantum circuits, where $s\leq n$. In comparison, the standard implementation requires $n+1$ qubits and $O(dn)$ depth. Lattice geometries underlie recent quantum supremacy experiments with superconducting devices. We also optimize the Hadamard test for an $(l_1\times l_2)$ lattice with $l_1 \times l_2 = n$, and can approximate $\langle 0|\mathcal{C} |0\rangle$ with $(n + 1)$ qubits and $O\left(d \left(l_1 + l_2\right)\right)$-depth circuits. In comparison, the standard depth is $O\left(d n^2\right)$ in this setting. Both of our optimization methods are asymptotically tight in the case of one-depth quantum circuits $\mathcal{C}$.
翻訳日:2023-04-30 18:50:46 公開日:2020-09-28
# コヒーレント状態を用いた最適量子プログラマブル射影測定

Optimal quantum-programmable projective measurements with coherent states ( http://arxiv.org/abs/2009.13201v1 )

ライセンス: Link先を確認
Niraj Kumar, Ulysse Chabaud, Elham Kashefi, Damian Markham, Eleni Diamanti(参考訳) 入力コヒーレント状態における所定の射影計測を近似するために、光のコヒーレント状態を用いてプログラムできるデバイスを考える。 我々は、この線形光学を用いたプログラム可能な射影測定装置の3つの実用的実装について、バランスの取れたビームスプリッタと単一光子閾値検出器のみを含む。 3つのスキームは、非破壊的な方法でプログラムコヒーレント状態に射影的測定を最適に近似する。 さらに,入力状態の仮定がない場合に拡張する。 本手法により, 局所コヒーレント状態, 平衡ビームスプリッタ, しきい値検出器のみを用いた非有界信頼源の効率的な検証が可能であることを示す。 プログラム可能な測定値と一般スワップテストとのリンクを利用して,提案手法が2つの単位ベクトル間のユークリッド距離を近似するために既存の量子フィンガープリンティングプロトコルを漸近的に2次的に改善することを示す。

We consider a device which can be programmed using coherent states of light to approximate a given projective measurement on an input coherent state. We provide and discuss three practical implementations of this programmable projective measurement device with linear optics, involving only balanced beam splitters and single photon threshold detectors. The three schemes optimally approximate any projective measurement onto a program coherent state in a non-destructive fashion. We further extend these to the case where there are no assumptions on the input state. In this setting, we show that our scheme enables an efficient verification of an unbounded untrusted source with only local coherent states, balanced beam splitters, and threshold detectors. Exploiting the link between programmable measurements and generalised swap test, we show as a direct application that our schemes provide an asymptotically quadratic improvement in existing quantum fingerprinting protocol to approximate the Euclidean distance between two unit vectors.
翻訳日:2023-04-30 18:49:17 公開日:2020-09-28
# AlGaAs-on-insulatorマイクロリング共振器による超高輝度光子対生成

Ultra-bright entangled-photon pair generation from an AlGaAs-on-insulator microring resonator ( http://arxiv.org/abs/2009.13462v1 )

ライセンス: Link先を確認
Trevor J. Steiner, Joshua E. Castro, Lin Chang, Quynh Dang, Weiqiang Xie, Justin Norman, John E. Bowers, and Galan Moody(参考訳) 絡み合った光子対は量子情報技術にとって重要な資源である。 チップサイズの絡み合った対の源は、シリコン、窒化物、リン酸塩、ニオブ酸リチウムを含む様々なフォトニックプラットフォームと統合されているが、いずれも、弱い光学非線形性や高い導波路損失を含む光子対の明るさと品質を制限する基本的な制限がある。 ここでは, 従来の光源に比べて1000倍近い輝度向上を図ったマイクロリング共振器を用いて, 時間エネルギーで絡み合った光子を生成可能な, 超低損失AlGaAs-on-insulatorプラットフォームを実証する。 導波管集積源は、20ドル以上の内部生成率を示す10^9$ pairs sec$^{-1}$ mW$^{-2}$で、1550nm近くを放出し、99.%$純度でシャールド化された単一光子を生成し、可視性$>97.%$で40以上の標準偏差でベルの不等式に違反する。 アクティブなコンポーネント統合のための高光学非線形性とAlGaAsの光学的利得と組み合わせることで、これらはスケーラブルな量子フォトニックプラットフォームに不可欠な特徴である。

Entangled-photon pairs are an essential resource for quantum information technologies. Chip-scale sources of entangled pairs have been integrated with various photonic platforms, including silicon, nitrides, indium phosphide, and lithium niobate, but each has fundamental limitations that restrict the photon-pair brightness and quality, including weak optical nonlinearity or high waveguide loss. Here, we demonstrate a novel, ultra-low-loss AlGaAs-on-insulator platform capable of generating time-energy entangled photons in a $Q$ $>1$ million microring resonator with nearly 1,000-fold improvement in brightness compared to existing sources. The waveguide-integrated source exhibits an internal generation rate greater than $20\times 10^9$ pairs sec$^{-1}$ mW$^{-2}$, emits near 1550 nm, produces heralded single photons with $>99\%$ purity, and violates Bell's inequality by more than 40 standard deviations with visibility $>97\%$. Combined with the high optical nonlinearity and optical gain of AlGaAs for active component integration, these are all essential features for a scalable quantum photonic platform.
翻訳日:2023-04-30 18:41:06 公開日:2020-09-28
# ナノスケールイメージングによる2次元強磁性体の磁区と磁壁ピンニング

Magnetic domains and domain wall pinning in two-dimensional ferromagnets revealed by nanoscale imaging ( http://arxiv.org/abs/2009.13440v1 )

ライセンス: Link先を確認
Qi-Chao Sun, Tiancheng Song, Eric Anderson, Tetyana Shalomayeva, Johaness F\"orster, Andreas Brunner, Takashi Taniguchi, Kenji Watanabe, Joachim Gr\"afe, Rainer St\"ohr, Xiaodong Xu and J\"org Wrachtrup(参考訳) 磁気ドメイン構造とダイナミクスは、2次元磁石の磁気特性の理解と制御において重要な役割を担っている。 しかし、スピン依存性の光学透過率[1,2,6]と導電率[7-10]に基づくプローブ法は、磁化の定量的情報を提供しもナノスケールの空間分解能も得られない。 これらの能力は磁区の豊かな性質を画像化し理解するために不可欠である。 本研究では,ダイヤモンドプローブ中の窒素空洞中心の単電子スピンを用いた極低温走査磁気測定を行い,磁気領域の存在をあいまいに証明し,原子状薄いcrbr$_3$でそのダイナミクスを研究する。 この手法の高空間分解能は磁区のイメージングを可能にし、欠陥をピン留めした磁区壁の解決を可能にする。 磁場の関数として磁区進化を制御することで、ピンニング効果は二層crbr$_3$に対して約26〜$\mu_b$/nm$^2$の飽和磁化を持つ支配的な保磁力機構であることが分かる。 磁区構造とピンニング効果が支配する磁区反転過程をマイクロ磁気シミュレーションにより検証した。 ナノスケールで2次元磁気を探究するための定量的プローブとして,窒素空孔中心磁力計の走査に注目した。

Magnetic-domain structure and dynamics play an important role in understanding and controlling the magnetic properties of two-dimensional magnets, which are of interest to both fundamental studies and applications[1-5]. However, the probe methods based on the spin-dependent optical permeability[1,2,6] and electrical conductivity[7-10] can neither provide quantitative information of the magnetization nor achieve nanoscale spatial resolution. These capabilities are essential to image and understand the rich properties of magnetic domains. Here, we employ cryogenic scanning magnetometry using a single-electron spin of a nitrogen-vacancy center in a diamond probe to unambiguously prove the existence of magnetic domains and study their dynamics in atomically thin CrBr$_3$. The high spatial resolution of this technique enables imaging of magnetic domains and allows to resolve domain walls pinned by defects. By controlling the magnetic domain evolution as a function of magnetic field, we find that the pinning effect is a dominant coercivity mechanism with a saturation magnetization of about 26~$\mu_B$/nm$^2$ for bilayer CrBr$_3$. The magnetic-domain structure and pinning-effect dominated domain reversal process are verified by micromagnetic simulation. Our work highlights scanning nitrogen-vacancy center magnetometry as a quantitative probe to explore two-dimensional magnetism at the nanoscale.
翻訳日:2023-04-30 18:40:39 公開日:2020-09-28
# コメント:「ローレンツ対称性の破れ効果によって誘導されるクーロンのようなポテンシャルが高調波発振器に与える影響について」。 Eur! Phys J. Plus (2012) \textbf{127}:102

Comment on: "On the influence of a Coulomb-like potential induced by the Lorentz symmetry breaking effects on the harmonic oscillator''. Eur. Phys. J. Plus (2012) \textbf{127}: 102 ( http://arxiv.org/abs/2009.13351v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) ローレンツ対称性の破断効果によって引き起こされるクーロン様ポテンシャルの影響下での非相対論的スピンハーフ中性粒子の境界状態の計算を解析した。 著者らが提案した停止条件は、特定のモデルポテンシャルに対して1つのエネルギー固有値しか提供せず、他の全ての境界状態エネルギーを見逃していることを示す。 量子数に対するサイクロトロン周波数の依存性は、境界状態の存在に必ずしも必要ではない切断条件の単なるアーティファクトである。

We analyze the calculation of bound states for a nonrelativistic spin-half neutral particle under the influence of a Coulomb-like potential induced by Lorentz symmetry breaking effects. We show that the truncation condition proposed by the authors only provides one energy eigenvalue for a particular model potential and misses all the other bound-state energies. The dependence of the cyclotron frequency on the quantum numbers is a mere artifact of the truncation condition that is by no means necessary for the existence of bound states.
翻訳日:2023-04-30 18:38:17 公開日:2020-09-28
# 非線形Rydberg媒体における可変3体損失

Tunable three-body loss in a nonlinear Rydberg medium ( http://arxiv.org/abs/2009.13599v1 )

ライセンス: Link先を確認
Dalia P. Ornelas Huerta, Przemyslaw Bienias, Alexander N. Craddock, Michael J. Gullans, Andrew J.Hachtel, Marcin Kalinowski, Mary E. Lyon, Alexey V. Gorshkov, Steven L. Rolston, and J. V. Porto(参考訳) 長距離のライドバーグ相互作用と電磁誘導透過(EIT)を組み合わせると、相互作用の強さ、符号、形態が広く調整可能で制御可能な強い相互作用光子が生じる。 このような制御はコヒーレントな相互作用と散逸的な相互作用の両方に適用でき、新しい数光子状態を生成する可能性がある。 近年、Rydberg-EITは3体間相互作用が2体間相互作用よりも強く、あるいは強くなる稀な系であることが示されている。 本研究では,Rydberg-EITの1光子および2光子デチューニングにおける3体散乱損失について検討した。 フェルミの黄金則に基づく3体波動関数と解析的推定の数値シミュレーションにより、観測された光子相関の特徴は3体損失の共振強調によるものであることが強く示唆された。

Long-range Rydberg interactions, in combination with electromagnetically induced transparency (EIT), give rise to strongly interacting photons where the strength, sign, and form of the interactions are widely tunable and controllable. Such control can be applied to both coherent and dissipative interactions, which provides the potential to generate novel few-photon states. Recently it has been shown that Rydberg-EIT is a rare system in which three-body interactions can be as strong or stronger than two-body interactions. In this work, we study a three-body scattering loss for Rydberg-EIT in a wide regime of single and two-photon detunings. Our numerical simulations of the full three-body wavefunction and analytical estimates based on Fermi's Golden Rule strongly suggest that the observed features in the outgoing photonic correlations are caused by the resonant enhancement of the three-body losses.
翻訳日:2023-04-30 18:32:14 公開日:2020-09-28
# 半導体量子ドットウィグナー分子のコヒーレント制御と分光

Coherent control and spectroscopy of a semiconductor quantum dot Wigner molecule ( http://arxiv.org/abs/2009.13572v1 )

ライセンス: Link先を確認
J. Corrigan, J. P. Dodson, H. Ekmel Ercan, J. C. Abadillo-Uriel, Brandur Thorgrimsson, T. J. Knapp, Nathan Holman, Thomas McJunkin, Samuel F. Neyens, E. R. MacQuarrie, Ryan H. Foote, L. F. Edge, Mark Friesen, S. N. Coppersmith, and M. A. Eriksson(参考訳) 多電子半導体量子ドットは量子ビットにおいて広く応用され、読み出しと分極性の向上を可能にする。 しかし、このような点におけるコヒーレント制御は通常、最低2レベルに制限されており、強く相互作用する状態におけるそのような制御は実現されていない。 ここでは,シリコン系量子ドットにおける8つの共鳴の量子制御について報告する。 我々は、量子ビット読み出し法を用いて分光を行い、単一粒子エネルギーよりもはるかに小さい特性を持つ高密度なエネルギー準位を明らかにする。 完全な構成相互作用計算と比較することにより、密度の集合はウィグナー分子物理学から生じると論じる。

Multi-electron semiconductor quantum dots have found wide application in qubits, where they enable readout and enhance polarizability. However, coherent control in such dots has typically been restricted to only the lowest two levels, and such control in the strongly interacting regime has not been realized. Here we report quantum control of eight different resonances in a silicon-based quantum dot. We use qubit readout to perform spectroscopy, revealing a dense set of energy levels with characteristic spacing far smaller than the single-particle energy. By comparing with full configuration interaction calculations, we argue that the dense set of levels arises from Wigner-molecule physics.
翻訳日:2023-04-30 18:32:00 公開日:2020-09-28
# PhD学生における博士研究の中断リスクとメンタルヘルス

Risk of Interruption of Doctoral Studies and Mental Health in PhD Students ( http://arxiv.org/abs/2010.07039v1 )

ライセンス: Link先を確認
Sara M. Gonz\'alez-Betancor, Pablo Dorta-Gonz\'alez(参考訳) 博士課程の学生は、一般住民の高学歴者よりも精神疾患の症状が高いと報告している。 この状況は大学にとって深刻な問題となる。 したがって、この現象に関する知識は意思決定において非常に重要である。 本稿では,nature phd survey 2019を用いて,博士論文の中断リスクを分析するために,二項ロジスティック回帰モデルをいくつか推定する。 このリスクは、監督官または専門分野における変化の願望、またはphdを追求しない希望を通じて測定される。 説明要因として,不安・抑うつ,差別,いじめの影響に着目した。 コントロール変数として、人口統計学的特徴と博士課程に関連する他の特徴を用いる。 監督官との不十分な接触時間と、研究に費やした時間の超過は、PhD研究の中断のリスク要因であるが、最も決定的なリスク要因は精神疾患である。 したがって大学は、博士課程の学生の自律性と回復力の発展を可能にする、あるいは必要に応じて紛争解決スキルの発達を促進する、幸福の環境を育むべきである。

PhD students report a higher prevalence of mental illness symptoms than highly educated individuals in the general population. This situation presents a serious problem for universities. Thus, the knowledge about this phenomenon is of great importance in decision-making. In this paper we use the Nature PhD survey 2019 and estimate several binomial logistic regression models to analyze the risk of interrupting doctoral studies. This risk is measured through the desire of change in either the supervisor or the area of expertise, or the wish of not pursue a PhD. Among the explanatory factors, we focus on the influence of anxiety/depression, discrimination, and bullying. As control variables we use demographic characteristics and others related with the doctoral program. Insufficient contact time with supervisors, and exceeding time spent studying -crossing the 50-h week barrier-, are risk factors of PhD studies interruption, but the most decisive risk factor is poor mental health. Universities should therefore foster an environment of well-being, which allows the development of autonomy and resilience of their PhD students or, when necessary, which fosters the development of conflict resolution skills.
翻訳日:2023-04-30 18:22:05 公開日:2020-09-28
# イオン-光相互作用における不完全性を記述する一般化ハミルトニアン

Generalized Hamiltonian to describe imperfections in ion-light interaction ( http://arxiv.org/abs/2009.13681v1 )

ライセンス: Link先を確認
Ming Li, Kenneth Wright, Neal C. Pisenti, Kristin M. Beck, Jason H. V. Nguyen, Yunseong Nam(参考訳) 我々は、N$-イオン鎖と外部制御されたレーザー場との相互作用を制御し、イオン運動を量子化し、レーザー場を平面波近似を超えて考える一般ハミルトニアンを導出する。 この一般形には、イオンイオンの絡み合うために使われる用語だけでなく、量子ゲートの不完全性につながる一連の不要な用語も含まれている。 我々は、アキシャルモード加熱の効果を発声して、一般ハミルトニアンの表現力の力を実証し、これを実験的に確認する。 ハードウェア設計決定の導出として,トラップイオン量子計算の品質向上の道筋について論じる。

We derive a general Hamiltonian that governs the interaction between an $N$-ion chain and an externally controlled laser field, where the ion motion is quantized and the laser field is considered beyond the plane-wave approximation. This general form not only explicitly includes terms that are used to drive ion-ion entanglement, but also a series of unwanted terms that can lead to quantum gate infidelity. We demonstrate the power of our expressivity of the general Hamiltonian by singling out the effect of axial mode heating and confirm this experimentally. We discuss pathways forward in furthering the trapped-ion quantum computational quality, guiding hardware design decisions.
翻訳日:2023-04-30 18:21:48 公開日:2020-09-28
# 量子ネットワークにおける平衡緩和

Relaxation to Equilibrium in a Quantum Network ( http://arxiv.org/abs/2009.13657v1 )

ライセンス: Link先を確認
Jaroslav Novotn\'y, Angelo Mariano, Saverio Pascazio, Antonello Scardicchio, Igor Jex(参考訳) 量子力学系の平衡へのアプローチは、量子力学そのものと同じくらい古いトピックであるが、近年は量子計算やセンシングなど、量子技術への応用によって関心が高まっている。 量子系が長い時間に近づき、定常状態を制限するメカニズムは魅力的であり、時には古典的なものとはかなり異なる。 この点において、量子ネットワークは興味深いメソスコピック量子システムを表す。 そのような場合、グラフは頂点における基本量子系(例えば量子ビット)を符号化し、リンクはそれらの相互作用を定義する。 ここでは、構成量子ビット間の相互作用を表すCNOTゲートを持つ完全連結量子ネットワークの平衡緩和について研究する。 解析的推定を含む,これらのシステムにおける平衡に関する多くの結果を与える。 結果は最大15-16キュービットのシステムに対して数値的手法で検証される。 ネットワークのサイズが収束性を制御する方法が強調されている。

The approach to equilibrium of quantum mechanical systems is a topic as old as quantum mechanics itself, but has recently seen a surge of interest due to applications in quantum technologies, including, but not limited to, quantum computation and sensing. The mechanisms by which a quantum system approaches its long-time, limiting stationary state are fascinating and, sometimes, quite different from their classical counterparts. In this respect, quantum networks represent a mesoscopic quantum systems of interest. In such a case, the graph encodes the elementary quantum systems (say qubits) at its vertices, while the links define the interactions between them. We study here the relaxation to equilibrium for a fully connected quantum network with CNOT gates representing the interaction between the constituting qubits. We give a number of results for the equilibration in these systems, including analytic estimates. The results are checked using numerical methods for systems with up to 15-16 qubits. It is emphasized in which way the size of the network controls the convergency.
翻訳日:2023-04-30 18:21:04 公開日:2020-09-28
# 単一量子レベルでの光子表面-プラズマ結合の時間分解検出

Time-Resolved Detection of Photon-Surface-Plasmon Coupling at the Single-Quanta Level ( http://arxiv.org/abs/2009.13652v1 )

ライセンス: Link先を確認
Chun-Yuan Cheng, Jen-Hung Yang, Yen-Ju Chen, Chih-Hsiang Wu, Chia-Nan Wang, Chih-Sung Chuu(参考訳) 非古典的な光と表面プラズモンの相互作用は、基本的な関心と潜在的な応用のためにかなりの注目を集めている。 光子-表面-プラズモンカップリングの量子的性質を知るには、時間分解による相互作用の検出が不可欠である。 ここでは、単光子と絡み合った光子を長いコヒーレンス時間で利用し、光子-表面-プラズモン結合の時間分解検出を行う。 時間分解コーシー=シュワルツ不等式を用いて, 単一光子と単一光プラズモンの非古典的相関性を検討した。 また、入射単光子の波形を操作することで、プログラム可能な時相波束を持つ単一光プラズモンを実現する。 時間分解による単一光プラズモンの検出とコヒーレント制御は、ナノスケールでの光-物質相互作用の研究と制御の新たな機会を提供する。

The interplay of nonclassical light and surface plasmons has attracted considerable attention due to fundamental interests and potential applications. To gain more insight into the quantum nature of the photon-surface-plasmon coupling, time-resolved detection of the interaction is invaluable. Here we demonstrate the time-resolved detection of photon-surface-plasmon coupling by exploiting single and entangled photons with long coherence time to excite single optical plasmons. We examine the nonclassical correlation between the single photons and single optical plasmons in such systems using the time-resolved Cauchy-Schwarz inequality. We also realize single optical plasmons with programmable temporal wavepacket by manipulating the waveform of incident single photons. The time-resolved detection and coherent control of single optical plasmons offer new opportunities to study and control the light-matter interaction at the nanoscale.
翻訳日:2023-04-30 18:20:45 公開日:2020-09-28
# 大規模計算における量子資源の利用を最小化するための反復量子ビット結合クラスタ法の後方補正

A posteriori corrections to the Iterative Qubit Coupled Cluster method to minimize the use of quantum resources in large-scale calculations ( http://arxiv.org/abs/2009.13622v1 )

ライセンス: Link先を確認
Ilya G. Ryabinkin, Artur F. Izmaylov, and Scott N. Genin(参考訳) 反復 qubit coupled cluster (iqcc) 法は、普遍量子コンピュータにおける電子構造問題を解決するための系統的変分法である。 これは、ハミルトニアンの反復正準変換と回路の再構築を犠牲にして、任意に浅い量子回路を使用することができる。 本稿では,iqccエネルギに対する様々な後進補正を行い,所望の精度を達成するためのイテレーション数を削減する。 我々のエネルギー補正は、古典的コンピュータで効率的に評価できる低次摂動理論シリーズに基づいている。 さらに、全エネルギーの一部を摂動的に捉えることで、全ての量子ビットのサブセットのみが変分的に扱われる、量子ビットアクティブ空間の概念を定式化することができる。 その結果、量子リソース要求のさらなる削減が達成される。 本研究では, 技術上重要な錯体であるtris-(2-フェニルピリジン)iridium(iii), ir(ppy)$_3$に対して, 10-qubit n$_2$分子解離, 24-qubit h$_2$o 対称ストレッチ, 56-qubit singlet-triplet gap 計算を行った。

The iterative qubit coupled cluster (iQCC) method is a systematic variational approach to solve the electronic structure problem on universal quantum computers. It is able to use arbitrarily shallow quantum circuits at expense of iterative canonical transformation of the Hamiltonian and rebuilding a circuit. Here we present a variety of a posteriori corrections to the iQCC energies to reduce the number of iterations to achieve the desired accuracy. Our energy corrections are based on a low-order perturbation theory series that can be efficiently evaluated on a classical computer. Moreover, capturing a part of the total energy perturbatively, allows us to formulate the qubit active-space concept, in which only a subset of all qubits is treated variationally. As a result, further reduction of quantum resource requirements is achieved. We demonstrate the utility and efficiency of our approach numerically on the examples of 10-qubit N$_2$ molecule dissociation, the 24-qubit H$_2$O symmetric stretch, and 56-qubit singlet-triplet gap calculations for the technologically important complex, tris-(2-phenylpyridine)iridium(III), Ir(ppy)$_3$.
翻訳日:2023-04-30 18:20:21 公開日:2020-09-28
# 量子力学における座標とモーメントの3次および2次表現

Ternary and Binary Representation of Coordinate and Momentum in Quantum Mechanics ( http://arxiv.org/abs/2009.13618v1 )

ライセンス: Link先を確認
M. G. Ivanov, A. Yu. Polushkin(参考訳) 量子数値に基づく量子コンピュータ上の連続した自由度を持つ量子系をシミュレートするには、連続観測量(主に座標とモーメント)を離散観測量に還元する必要がある。 この問題は、実数の二元表現と三元表現に類似した2と3の力で級数の量子可観測性を拡張することに基づいている。 したがって、級数 ("digits") の係数はエルミート作用素である。 対応する量子力学作用素とそれらの関係について検討し、量子可観測体の二進展開と三進展開が自動的に発散した積分と級数の再正規化をもたらすことを示す。

To simulate a quantum system with continuous degrees of freedom on a quantum computer based on quantum digits, it is necessary to reduce continuous observables (primarily coordinates and momenta) to discrete observables. We consider this problem based on expanding quantum observables in series in powers of two and three analogous to the binary and ternary representations of real numbers. The coefficients of the series ("digits") are, therefore, Hermitian operators. We investigate the corresponding quantum mechanical operators and the relations between them and show that the binary and ternary expansions of quantum observables automatically leads to renormalization of some divergent integrals and series (giving them finite values).
翻訳日:2023-04-30 18:19:55 公開日:2020-09-28
# リードベルク原子の電磁誘導透過性とオートラータウン分割のための6段階スキームにおける原子スペクトル

Atomic Spectra in a Six-Level Scheme for Electromagnetically Induced Transparency and Autler-Townes Splitting in Rydberg Atoms ( http://arxiv.org/abs/2009.13612v1 )

ライセンス: Link先を確認
Amy K. Robinson, Alexandra Artusio-Glimpse, Matthew T. Simons, and Christopher L. Holloway(参考訳) 我々は,6レベル励起法において,Rydbergルビジウム原子中での電磁誘導透過(EIT)とAutler-Townes(AT)分裂について検討した。 この6レベル系では、1つの高周波場が同時に2つの高線状態に結合し、EIT線で興味深い原子スペクトルが観測される。 いくつかの励起パラメータの実験結果を示す。 また、この原子系の2つの理論モデルを示し、この2つのモデルが観測されたスペクトルの異なる側面を捉えている。 1つは、支配的なスペクトル特徴を予測するために使用される6レベルモデルであり、もう1つは、このシステムの完全な特性を予測するために使われるより複雑な8レベルモデルである。 どちらのモデルも実験データと非常によく一致している。

We investigate electromagnetically induced transparency (EIT) and Autler-Townes (AT) splitting in Rydberg rubidium atoms for a six-level excitation scheme. In this six-level system, one radio-frequency field simultaneously couples to two high-laying Rydberg states and results in interesting atomic spectra observed in the EIT lines. We present experimental results for several excitation parameters. We also present two theoretical models for this atomic system, where these two models capture different aspects of the observed spectra. One is a six-level model used to predict dominant spectral features and the other a more complex eight-level model used to predict the full characteristics of this system. Both models shows very good agreement with the experimental data.
翻訳日:2023-04-30 18:19:43 公開日:2020-09-28
# 理論化学における量子流体力学の幾何学

Geometry of quantum hydrodynamics in theoretical chemistry ( http://arxiv.org/abs/2009.13601v1 )

ライセンス: Link先を確認
Michael S. Foskett(参考訳) この論文は、量子力学(QHD)の幾何学的アプローチを研究し、理論量子化学の応用を開拓する。 qhdの運動量マップ幾何構造と関連するリー・ポアソン方程式とオイラー・ポインカル方程式に基づき、qhdの古典極限に対する別の幾何学的アプローチが提示される。 これらには新しい正規化ラグランジアンが含まれており、「ボーマミオン」と呼ばれる特異解と「コールド流体」古典的閉包量子混合状態が可能である。 QHDへの運動量マップのアプローチは、正確な分解として知られる化学モデルの核力学に適用される。 幾何学的処理は、核流の枠組みにおける一元的電子進化を含む既存のアプローチを拡張し、結果として生じる力学はオイラー・ポインカル構造とリー・ポアソン構造の両方を持つ。 新しい混合量子古典模型は、分子密度行列のレベルで一般化された分解アンサッツを考えることによって導かれる。 次に、新しいQHDの幾何学的定式化を行う。 新しい基本変数として$\mathfrak{u}(1)$接続を導入することで、QHDにホロノミーを組み込む新しい方法が提供される。 流体の流れはもはや不整合ではなく、渦フィラメント解を許容する非自明な循環定理を持つ。 最後に、非可換接続は量子力学において考慮される。 パウリ方程式におけるスピンベクトルのダイナミクスは、より一般的な $\mathfrak{u}(\mathscr{h})$ 接続が量子系のユニタリ進化から導入されるのに対して、$\mathfrak{so}(3)$ 接続の導入を可能にする。 これはベリー接続と量子幾何テンソルの新しい幾何学的イメージを提供するのに使われ、量子化学に関する関連する応用が考慮される。

This thesis investigates geometric approaches to quantum hydrodynamics (QHD) in order to develop applications in theoretical quantum chemistry. Based upon the momentum map geometric structure of QHD and the associated Lie-Poisson and Euler-Poincar\'e equations, alternative geometric approaches to the classical limit in QHD are presented. These include a new regularised Lagrangian which allows for singular solutions called 'Bohmions' as well as a 'cold fluid' classical closure quantum mixed states. The momentum map approach to QHD is then applied to the nuclear dynamics in a chemistry model known as exact factorization. The geometric treatment extends existing approaches to include unitary electronic evolution in the frame of the nuclear flow, with the resulting dynamics carrying both Euler-Poincar\'e and Lie-Poisson structures. A new mixed quantum-classical model is then derived by considering a generalised factorisation ansatz at the level of the molecular density matrix. A new alternative geometric formulation of QHD is then constructed. Introducing a $\mathfrak{u}(1)$ connection as the new fundamental variable provides a new method for incorporating holonomy in QHD, which follows from its constant non-zero curvature. The fluid flow is no longer irrotational and carries a non-trivial circulation theorem, allowing for vortex filament solutions. Finally, non-Abelian connections are then considered in quantum mechanics. The dynamics of the spin vector in the Pauli equation allows for the introduction of an $\mathfrak{so}(3)$ connection whilst a more general $\mathfrak{u}(\mathscr{H})$ connection is introduced from the unitary evolution of a quantum system. This is used to provide a new geometric picture for the Berry connection and quantum geometric tensor, whilst relevant applications to quantum chemistry are then considered.
翻訳日:2023-04-30 18:19:29 公開日:2020-09-28
# 横流中の傾斜噴流中の乱流スカラーフラックス:対向勾配輸送と深層学習モデル

Turbulent scalar flux in inclined jets in crossflow: counter gradient transport and deep learning modelling ( http://arxiv.org/abs/2001.04600v2 )

ライセンス: Link先を確認
Pedro M. Milani, Julia Ling, John K. Eaton(参考訳) クロスフロー中の円筒型および傾斜型ジェットは、高分解能大渦シミュレーション(les)を用いて、r=1$とr=2$の2つの異なる速度比で研究されている。 第一に, 前述した非説明現象である負の乱流拡散率に光を混合する乱流スカラーについて検討した。 風向せん断層を通した第1層は横方向の輸送によって引き起こされ,第2層は注入直後の壁に近づき,非局所的な影響によって引き起こされる。 次に,以前開発したテンソルベースニューラルネットワークを用いて,乱流スカラーフラックスをモデル化する深層学習手法を提案する(ling et al. 2016a)。 このアプローチでは、組み込み座標フレーム不変性を持つディープニューラルネットワークを使用して、トレーニングに使用される高忠実度データでは明示的に利用できないテンソル乱流拡散率を予測する。 行列拡散率が対流拡散方程式の安定解をもたらすことを解析的に確認した後、研究中のクロスフローの傾斜噴流にこのアプローチを適用する。 その結果, 単純なモデルに比べ, 特に乱流混合において横勾配効果が重要な役割を担っている。 ここで提案されているモデルは横流中の噴流に限らず、レイノルズ平均輸送が考慮される任意の乱流で使用できる。

A cylindrical and inclined jet in crossflow is studied under two distinct velocity ratios, $r=1$ and $r=2$, using highly resolved large eddy simulations (LES). First, an investigation of turbulent scalar mixing sheds light onto the previously observed but unexplained phenomenon of negative turbulent diffusivity. We identify two distinct types of counter gradient transport, prevalent in different regions: the first, throughout the windward shear layer, is caused by cross-gradient transport; the second, close to the wall right after injection, is caused by non-local effects. Then, we propose a deep learning approach for modelling the turbulent scalar flux by adapting the tensor basis neural network previously developed to model Reynolds stresses (Ling et al. 2016a). This approach uses a deep neural network with embedded coordinate frame invariance to predict a tensorial turbulent diffusivity that is not explicitly available in the high fidelity data used for training. After ensuring analytically that the matrix diffusivity leads to a stable solution for the advection diffusion equation, we apply this approach in the inclined jets in crossflow under study. The results show significant improvement compared to a simple model, particularly where cross-gradient effects play an important role in turbulent mixing. The model proposed herein is not limited to jets in crossflow; it can be used in any turbulent flow where the Reynolds averaged transport of a scalar is considered.
翻訳日:2023-01-11 13:28:07 公開日:2020-09-28
# サーベイランスビデオのための残像符号化による前景並列圧縮

A Foreground-background Parallel Compression with Residual Encoding for Surveillance Video ( http://arxiv.org/abs/2001.06590v3 )

ライセンス: Link先を確認
Lirong Wu, Kejie Huang, Haibin Shen and Lianli Gao(参考訳) データストレージは、監視システムのボトルネックのひとつです。 h.264やh.265のような従来のビデオ圧縮アルゴリズムは、監視ビデオの低情報密度特性を十分に活用していない。 本稿では,ビデオの前景と背景を別々に抽出・圧縮するビデオ圧縮手法を提案する。 適応的な背景更新および補間モジュールを介して複数の隣接フレーム間で背景情報を共有することにより、圧縮比を大幅に改善する。 さらに,ビデオ圧縮における時間情報の重要性を示すために,前景を圧縮し,その性能を比較する2つの方法を提案する。 デコードエンドでは、前景と背景の合成とフレーム品質の向上を実現するために粗大な2段モジュールが適用される。 さらに,監視カメラの適応サンプリング手法を提案し,ソフトウェアシミュレーションによりその効果を示した。 実験の結果,HECVデータセット上で同じPSNR(36dB)を達成するためには,従来のアルゴリズムであるH.265より69.5%少ないbpp(bits per pixel)を必要とすることがわかった。

The data storage has been one of the bottlenecks in surveillance systems. The conventional video compression algorithms such as H.264 and H.265 do not fully utilize the low information density characteristic of the surveillance video. In this paper, we propose a video compression method that extracts and compresses the foreground and background of the video separately. The compression ratio is greatly improved by sharing background information among multiple adjacent frames through an adaptive background updating and interpolation module. Besides, we present two different schemes to compress the foreground and compare their performance in the ablation study to show the importance of temporal information for video compression. In the decoding end, a coarse-to-fine two-stage module is applied to achieve the composition of the foreground and background and the enhancements of frame quality. Furthermore, an adaptive sampling method for surveillance cameras is proposed, and we have shown its effects through software simulation. The experimental results show that our proposed method requires 69.5% less bpp (bits per pixel) than the conventional algorithm H.265 to achieve the same PSNR (36 dB) on the HECV dataset.
翻訳日:2023-01-10 05:31:34 公開日:2020-09-28
# 多層非教師付きスパイクニューラルネットワークのためのスパイクインセプションモジュール

Spiking Inception Module for Multi-layer Unsupervised Spiking Neural Networks ( http://arxiv.org/abs/2001.10696v5 )

ライセンス: Link先を確認
Mingyuan Meng, Xingyu Yang, Shanlin Xiao, Zhiyi Yu(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたアプローチであり、超高エネルギー効率のハードウェアを製造する可能性から注目を集めている。 Spike-Timing-Dependent Plasticity (STDP) に基づく競合学習は、教師なしSNNを訓練する一般的な方法である。 しかし、従来の教師なしSNNは、学習可能な層が1つしかない浅層ネットワークに限られており、多層SNNと比較して良好な結果が得られない。 本稿では,1)人工ニューラルネットワーク(ANN)文学におけるインセプションモジュールにインスパイアされたスパイキングインセプション(Sp-Inception)モジュールを提案する。 このモジュールはSTDPベースの競争学習を通じてトレーニングされ、学習能力、学習効率、堅牢性においてベースラインモジュールを上回っている。 2)Sp-Inceptionモジュールをスタック化するために,Pooling-Reshape-Activate (PRA)層を提案した。 3) 複数のspインセプションモジュールを積み重ねて多層snsを構築した。 本アルゴリズムは手書き桁分類タスクのベースラインアルゴリズムよりも優れており,既存の教師なしSNNのうち,MNISTデータセットの最先端結果に到達している。

Spiking Neural Network (SNN), as a brain-inspired approach, is attracting attention due to its potential to produce ultra-high-energy-efficient hardware. Competitive learning based on Spike-Timing-Dependent Plasticity (STDP) is a popular method to train an unsupervised SNN. However, previous unsupervised SNNs trained through this method are limited to a shallow network with only one learnable layer and cannot achieve satisfactory results when compared with multi-layer SNNs. In this paper, we eased this limitation by: 1)We proposed a Spiking Inception (Sp-Inception) module, inspired by the Inception module in the Artificial Neural Network (ANN) literature. This module is trained through STDP-based competitive learning and outperforms the baseline modules on learning capability, learning efficiency, and robustness. 2)We proposed a Pooling-Reshape-Activate (PRA) layer to make the Sp-Inception module stackable. 3)We stacked multiple Sp-Inception modules to construct multi-layer SNNs. Our algorithm outperforms the baseline algorithms on the hand-written digit classification task, and reaches state-of-the-art results on the MNIST dataset among the existing unsupervised SNNs.
翻訳日:2023-01-05 20:46:01 公開日:2020-09-28
# ベトナム語ヘイトスピーチ検出のための従来の機械学習モデルとニューラルネットワークモデルの比較

Comparison Between Traditional Machine Learning Models And Neural Network Models For Vietnamese Hate Speech Detection ( http://arxiv.org/abs/2002.00759v2 )

ライセンス: Link先を確認
Son T. Luu, Hung P. Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ソーシャルネットワーク言語におけるヘイトスピーチ検出は、facebookやtwitterといったソーシャルネットワークの普及により、近年の主要な研究分野の一つとなっている。 ベトナムでは、攻撃やハラスメントの脅威がオンラインユーザーに悪影響を及ぼす。 vlsp - shared task about hate speech detection on social networks (vlsp) では、コメントがクリーンかどうかを検知する手法が多数提案されている。 しかし、この問題にはさらなる研究が必要である。 その結果、ベトナムのソーシャルネットワークにおけるユーザのコメントに関する大規模なデータセット上で従来の機械学習とディープラーニングを比較し、F1スコアでの精度を比較することによって、各モデルの利点とデメリットを把握し、従来の機械学習モデルとディープニューラルネットワークモデルでそれぞれ高い精度を持つ2つのモデルを選択する。 次に、混乱行列を参照し、各モデルの利点と欠点を考慮し、正しいラベルを予測できる2つのモデルを比較した。 最後に,本手法との比較から,従来の手法と深層学習手法の能力に集中したアンサンブル手法を提案する。

Hate-speech detection on social network language has become one of the main researching fields recently due to the spreading of social networks like Facebook and Twitter. In Vietnam, the threat of offensive and harassment cause bad impacts for online user. The VLSP - Shared task about Hate Speech Detection on social networks showed many proposed approaches for detecting whatever comment is clean or not. However, this problem still needs further researching. Consequently, we compare traditional machine learning and deep learning on a large dataset about the user's comments on social network in Vietnamese and find out what is the advantage and disadvantage of each model by comparing their accuracy on F1-score, then we pick two models in which has highest accuracy in traditional machine learning models and deep neural models respectively. Next, we compare these two models capable of predicting the right label by referencing their confusion matrices and considering the advantages and disadvantages of each model. Finally, from the comparison result, we propose our ensemble method that concentrates the abilities of traditional methods and deep learning methods.
翻訳日:2023-01-05 06:30:08 公開日:2020-09-28
# 適応伝搬グラフ畳み込みネットワーク

Adaptive Propagation Graph Convolutional Network ( http://arxiv.org/abs/2002.10306v3 )

ライセンス: Link先を確認
Indro Spinelli, Simone Scardapane, Aurelio Uncini(参考訳) グラフ畳み込みネットワーク(GCN)は、頂点演算とノード間のメッセージパッシング交換をインターリーブすることによってグラフデータに対する推論を行うニューラルネットワークモデルの一群である。 後者については、2つの重要な疑問が生じる。 (i)差別化可能な交換プロトコル(例えば、元のGCNで1ホップのラプラシアン滑らか化)を設計する方法、および (ii)局所的な更新に関して、複雑さのトレードオフを特徴付ける方法。 本稿では,各ノードにおける通信ステップ数を独立に適応させることで,最先端の成果が得られることを示す。 特に、各ノードに停止単位(グレーブスの適応計算時間にインスパイアされた)を付与し、各交換が通信を続けるか否かを判断する。 提案する適応伝搬型gcn (ap-gcn) は, これまでに提案してきたベンチマークモデルと同等か, それ以上のパラメータのオーバヘッドを必要とせず, 優れた結果が得られることを示す。 また,コミュニケーションと精度の明確なトレードオフを強制する正規化用語についても検討する。 AP-GCN実験のコードはオープンソースライブラリとしてリリースされている。

Graph convolutional networks (GCNs) are a family of neural network models that perform inference on graph data by interleaving vertex-wise operations and message-passing exchanges across nodes. Concerning the latter, two key questions arise: (i) how to design a differentiable exchange protocol (e.g., a 1-hop Laplacian smoothing in the original GCN), and (ii) how to characterize the trade-off in complexity with respect to the local updates. In this paper, we show that state-of-the-art results can be achieved by adapting the number of communication steps independently at every node. In particular, we endow each node with a halting unit (inspired by Graves' adaptive computation time) that after every exchange decides whether to continue communicating or not. We show that the proposed adaptive propagation GCN (AP-GCN) achieves superior or similar results to the best proposed models so far on a number of benchmarks, while requiring a small overhead in terms of additional parameters. We also investigate a regularization term to enforce an explicit trade-off between communication and accuracy. The code for the AP-GCN experiments is released as an open-source library.
翻訳日:2022-12-29 03:12:12 公開日:2020-09-28
# gnn表現力向上のための集団学習フレームワーク

A Collective Learning Framework to Boost GNN Expressiveness ( http://arxiv.org/abs/2003.12169v2 )

ライセンス: Link先を確認
Mengyue Hang, Jennifer Neville, Bruno Ribeiro(参考訳) グラフニューラルネットワーク(gnns)は最近、ノードとグラフの分類タスクで大きな成功を収めているが、gnnsは観測されたノードラベル間の依存関係ではなく、近くのノードの属性間の依存関係をモデル化している。 本研究では,ラベル依存を組み込むことを目的とした,教師付きおよび半教師付き設定におけるGNNを用いた帰納ノード分類の課題について考察する。 現在のGNNは普遍的な(最も表現力の高い)グラフ表現ではないため、既存のGNNの表現能力を高めるための一般的な集団学習手法を提案する。 本フレームワークは,集合的分類と自己教師付き学習を融合し,モンテカルロ法を用いてグラフ間の帰納的学習のための埋め込みをサンプリングする。 我々は,5つの実世界のネットワークデータセットの性能評価を行い,ノード分類の精度が一貫した,顕著に向上したことを示す。

Graph Neural Networks (GNNs) have recently been used for node and graph classification tasks with great success, but GNNs model dependencies among the attributes of nearby neighboring nodes rather than dependencies among observed node labels. In this work, we consider the task of inductive node classification using GNNs in supervised and semi-supervised settings, with the goal of incorporating label dependencies. Because current GNNs are not universal (i.e., most-expressive) graph representations, we propose a general collective learning approach to increase the representation power of any existing GNN. Our framework combines ideas from collective classification with self-supervised learning, and uses a Monte Carlo approach to sampling embeddings for inductive learning across graphs. We evaluate performance on five real-world network datasets and demonstrate consistent, significant improvement in node classification accuracy, for a variety of state-of-the-art GNNs.
翻訳日:2022-12-19 21:14:41 公開日:2020-09-28
# ディープニューラルネットワークにおけるメフラーの公式, 分岐過程, 構成核

Mehler's Formula, Branching Process, and Compositional Kernels of Deep Neural Networks ( http://arxiv.org/abs/2004.04767v2 )

ライセンス: Link先を確認
Tengyuan Liang and Hai Tran-Bach(参考訳) 本研究では,構成核と分岐過程の関係をmehlerの公式を用いて深層ニューラルネットワークの研究に活用する。 この新しい確率的洞察は、合成ニューラルネットワークにおける活性化関数の数学的役割に関する新しい視点を与える。 組成核の非スケールおよび再スケール限界を研究し,組成深度が増加するにつれて制限挙動の異なる相を探索する。 本研究では, 合成深度, サンプルサイズ, 寸法, 非直線性の相互作用を特徴付けることで, 合成カーネルとニューラルネットワークの記憶能力について検討する。 合成核の固有値に関する明示的な公式を提供し、対応する再生核ヒルベルト空間の複雑性を定量化する。 提案手法では,新しいアクティベーション関数を考案し,構成層を圧縮するランダム特徴量アルゴリズムを提案する。

We utilize a connection between compositional kernels and branching processes via Mehler's formula to study deep neural networks. This new probabilistic insight provides us a novel perspective on the mathematical role of activation functions in compositional neural networks. We study the unscaled and rescaled limits of the compositional kernels and explore the different phases of the limiting behavior, as the compositional depth increases. We investigate the memorization capacity of the compositional kernels and neural networks by characterizing the interplay among compositional depth, sample size, dimensionality, and non-linearity of the activation. Explicit formulas on the eigenvalues of the compositional kernel are provided, which quantify the complexity of the corresponding reproducing kernel Hilbert space. On the methodological front, we propose a new random features algorithm, which compresses the compositional layers by devising a new activation function.
翻訳日:2022-12-15 02:26:39 公開日:2020-09-28
# 自由エネルギーとは何か?

Whence the Expected Free Energy? ( http://arxiv.org/abs/2004.08128v5 )

ライセンス: Link先を確認
Beren Millidge, Alexander Tschantz, Christopher L Buckley(参考訳) 期待自由エネルギー(EFE)は、活動的推論の理論の中心的な量である。 全ての活性推論エージェントは行動を通じて最小化するために強制される量であり、その外生的および内生的な値項への分解は、活性推論エージェントが生み出す探索と搾取のバランスの鍵となる。 その重要性にもかかわらず、この量の数学的起源と変分自由エネルギー(VFE)との関係はいまだ不明である。 本稿では,EFEの起源を詳細に検討し,単に「未来の自由エネルギー」ではないことを示す。 我々は、VFEの自然な拡張であると主張する機能を示すが、探索的な振る舞いを積極的に妨げ、探索が自由エネルギーの最小化から未来へ直接従わないことを示す。 そこで我々は,EFEのエピステミック成分と,予測された未来と望まれる未来との相違を兼ね備えた,新たな目標である「期待される未来の自由エネルギー」を開発する。

The Expected Free Energy (EFE) is a central quantity in the theory of active inference. It is the quantity that all active inference agents are mandated to minimize through action, and its decomposition into extrinsic and intrinsic value terms is key to the balance of exploration and exploitation that active inference agents evince. Despite its importance, the mathematical origins of this quantity and its relation to the Variational Free Energy (VFE) remain unclear. In this paper, we investigate the origins of the EFE in detail and show that it is not simply "the free energy in the future". We present a functional that we argue is the natural extension of the VFE, but which actively discourages exploratory behaviour, thus demonstrating that exploration does not directly follow from free energy minimization into the future. We then develop a novel objective, the Free-Energy of the Expected Future (FEEF), which possesses both the epistemic component of the EFE as well as an intuitive mathematical grounding as the divergence between predicted and desired futures.
翻訳日:2022-12-12 13:15:02 公開日:2020-09-28
# 最大レグレットを用いたアクティブな選好学習

Active Preference Learning using Maximum Regret ( http://arxiv.org/abs/2005.04067v2 )

ライセンス: Link先を確認
Nils Wilde, Dana Kulic, and Stephen L. Smith(参考訳) 自律ロボットの動作を直感的に特定するためのフレームワークとして,能動的選好学習について検討した。 アクティブな嗜好学習において、ユーザは、パラメータ化されたコスト関数としてモデル化されたロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。 従来のアプローチでは、コスト関数のパラメータに対する不確実性を最小化する代替手段がユーザに提供されていた。 しかし、異なるパラメータが同じ最適な振る舞いを導く可能性があり、結果として、解空間はパラメータ空間よりもより構造化される。 そこで我々は,解空間上の最大誤差率をゆるやかに低減する問合せ選択を提案する。 シミュレーションでは,提案手法がユーザの学習効率とクエリの容易性の両方において,他の技術よりも優れていることを示す。 最後に,重みの類似性ではなく,解の類似性に基づいて学習を評価することで,異なるシナリオに対するより良い予測が可能になることを示す。

We study active preference learning as a framework for intuitively specifying the behaviour of autonomous robots. In active preference learning, a user chooses the preferred behaviour from a set of alternatives, from which the robot learns the user's preferences, modeled as a parameterized cost function. Previous approaches present users with alternatives that minimize the uncertainty over the parameters of the cost function. However, different parameters might lead to the same optimal behaviour; as a consequence the solution space is more structured than the parameter space. We exploit this by proposing a query selection that greedily reduces the maximum error ratio over the solution space. In simulations we demonstrate that the proposed approach outperforms other state of the art techniques in both learning efficiency and ease of queries for the user. Finally, we show that evaluating the learning based on the similarities of solutions instead of the similarities of weights allows for better predictions for different scenarios.
翻訳日:2022-12-05 12:08:33 公開日:2020-09-28
# Task Adaptive Global Feature Self-Guided Networkによるフレキシブルな例ベース画像強調

Flexible Example-based Image Enhancement with Task Adaptive Global Feature Self-Guided Network ( http://arxiv.org/abs/2005.06654v2 )

ライセンス: Link先を確認
Dario Kneubuehler, Shuhang Gu, Luc Van Gool, Radu Timofte(参考訳) 本稿では,1対1で多対1の画像マッピングを学習できる,初の実用的マルチタスク画像強調ネットワークを提案する。 本モデルでは,1つの拡張マッピングを学習する上での現在の技術状況よりも優れており,競合他社よりもパラメータが大幅に少ないことを示す。 さらに,共有表現の活用により,複数のマッピングを同時に学習することで,さらに高い性能を実現する。 我々のネットワークは、最近提案されたSGNアーキテクチャに基づいており、グローバルな特徴とスタイル適応を取り入れることを目標としている。 最後に,gans(generative adversarial network)に基づくマルチタスク画像強調のための非ペア化学習手法を提案する。

We propose the first practical multitask image enhancement network, that is able to learn one-to-many and many-to-one image mappings. We show that our model outperforms the current state of the art in learning a single enhancement mapping, while having significantly fewer parameters than its competitors. Furthermore, the model achieves even higher performance on learning multiple mappings simultaneously, by taking advantage of shared representations. Our network is based on the recently proposed SGN architecture, with modifications targeted at incorporating global features and style adaption. Finally, we present an unpaired learning method for multitask image enhancement, that is based on generative adversarial networks (GANs).
翻訳日:2022-12-03 12:42:01 公開日:2020-09-28
# 深層ニューラルネットワークの予測を説明するための敵対的アプローチ

An Adversarial Approach for Explaining the Predictions of Deep Neural Networks ( http://arxiv.org/abs/2005.10284v4 )

ライセンス: Link先を確認
Arash Rahnama and Andrew Tseng(参考訳) 機械学習モデルは、コンピュータビジョン、自然言語処理、音声認識など、幅広い応用にうまく適用されている。 しかしながら、これらのモデルの成功した実装は、通常、理解不能な複雑さと複雑な内部メカニズムのために不透明なブラックボックスシステムとして扱われるディープニューラルネットワーク(DNN)に依存している。 本研究では,DNNの予測を逆機械学習を用いて記述する新しいアルゴリズムを提案する。 提案手法は,dnnに対する攻撃行動に基づく予測に関連して,入力特徴の相対的重要性を明らかにする。 我々のアルゴリズムは高速で一貫性があり、実装や解釈が容易である。 DNNとタスクが与えられた場合、我々のアプローチの汎用性を証明するあらゆる入力テストデータポイントに対して、敵攻撃の挙動が整合的であることを示す詳細な分析を行う。 分析によって、一貫性と効率的な説明が得られます。 各種DNN,タスク,データセットを用いて実験を行い,本手法の有効性について述べる。 最後に,本研究を他の文献でよく知られた手法と比較する。

Machine learning models have been successfully applied to a wide range of applications including computer vision, natural language processing, and speech recognition. A successful implementation of these models however, usually relies on deep neural networks (DNNs) which are treated as opaque black-box systems due to their incomprehensible complexity and intricate internal mechanism. In this work, we present a novel algorithm for explaining the predictions of a DNN using adversarial machine learning. Our approach identifies the relative importance of input features in relation to the predictions based on the behavior of an adversarial attack on the DNN. Our algorithm has the advantage of being fast, consistent, and easy to implement and interpret. We present our detailed analysis that demonstrates how the behavior of an adversarial attack, given a DNN and a task, stays consistent for any input test data point proving the generality of our approach. Our analysis enables us to produce consistent and efficient explanations. We illustrate the effectiveness of our approach by conducting experiments using a variety of DNNs, tasks, and datasets. Finally, we compare our work with other well-known techniques in the current literature.
翻訳日:2022-12-01 04:29:47 公開日:2020-09-28
# ReLU回帰の近似スキーム

Approximation Schemes for ReLU Regression ( http://arxiv.org/abs/2005.12844v2 )

ライセンス: Link先を確認
Ilias Diakonikolas, Surbhi Goel, Sushrut Karmalkar, Adam R. Klivans, Mahdi Soltanolkotabi(参考訳) 本稿では,ReLU回帰の基本的な問題として,未知の分布から引き出されたドローに与えられた2乗損失に対して最適なReLUを出力することを考える。 この問題に対する最初の効率的な定数係数近似アルゴリズムは、基礎となる分布が弱い濃度と反集中条件を満たすことを仮定する(例えば、全ての対数凹分布を含む)。 これは、ReLU回帰の任意の正確なアルゴリズム(加法$\epsilon$まで)に対してハードネスの結果を証明したGoelらの主なオープンな問題を解く。 より高度な手法を用いて、結果を改善し、任意のガウス分布に対する多項式時間近似スキームを得る。 上記の硬度結果を考えると、これらの保証は大幅に改善することはできない。 主な洞察は、非凸アクティベーションに対するサーロゲート損失の新たなキャラクタリゼーションです。 先行研究により単調活性化のための凸サーロゲートの存在が確立されたが、基礎となる分布の性質が実際に損失に対して強い凸性をもたらし、全球最小値が活性化のchowパラメータに関連付けられることを示した。

We consider the fundamental problem of ReLU regression, where the goal is to output the best fitting ReLU with respect to square loss given access to draws from some unknown distribution. We give the first efficient, constant-factor approximation algorithm for this problem assuming the underlying distribution satisfies some weak concentration and anti-concentration conditions (and includes, for example, all log-concave distributions). This solves the main open problem of Goel et al., who proved hardness results for any exact algorithm for ReLU regression (up to an additive $\epsilon$). Using more sophisticated techniques, we can improve our results and obtain a polynomial-time approximation scheme for any subgaussian distribution. Given the aforementioned hardness results, these guarantees can not be substantially improved. Our main insight is a new characterization of surrogate losses for nonconvex activations. While prior work had established the existence of convex surrogates for monotone activations, we show that properties of the underlying distribution actually induce strong convexity for the loss, allowing us to relate the global minimum to the activation's Chow parameters.
翻訳日:2022-11-28 23:47:08 公開日:2020-09-28
# 機械学習による二元中性子星融合からの重力波信号の検出

Detection of gravitational-wave signals from binary neutron star mergers using machine learning ( http://arxiv.org/abs/2006.01509v2 )

ライセンス: Link先を確認
Marlin B. Sch\"afer (1 and 2), Frank Ohme (1 and 2), Alexander H. Nitz (1 and 2) ((1) Max-Planck-Institut f\"ur Gravitationsphysik (Albert-Einstein-Institut), (2) Leibniz Universit\"at Hannover)(参考訳) 2つの中性子星が融合すると、重力波が放出され、地球境界検出器によって検出される可能性がある。 マッチングフィルタに基づくアルゴリズムは、従来ノイズに埋め込まれた静かな信号を抽出するために用いられてきた。 重力波検出器からの時系列ひずみデータを用いて、非スピン二元中性子星融合の信号を検出するニューラルネットワークに基づく新しい機械学習アルゴリズムを提案する。 ligoの高度な設計感度では、ネットワークの平均感度距離は130mpc、偽兵器レートは月に10mpcである。 他の最先端機械学習アルゴリズムと比較して、信号対雑音比が25未満の信号に対する感度の6倍の改善が見られた。 しかし、このアプローチは従来のマッチングフィルタリングベースの手法とはまだ競合しない。 保守的な推定は、我々のアルゴリズムが信号の到着からアラート発生までの平均10.2秒の遅延を発生させることを示している。 我々は、機械学習ベースのアルゴリズムだけでなく、他の全ての検索アルゴリズムにも適用可能な、テスト手順の正確な説明を与える。 これにより、機械学習と古典検索を比較する能力が向上する。

As two neutron stars merge, they emit gravitational waves that can potentially be detected by earth bound detectors. Matched-filtering based algorithms have traditionally been used to extract quiet signals embedded in noise. We introduce a novel neural-network based machine learning algorithm that uses time series strain data from gravitational-wave detectors to detect signals from non-spinning binary neutron star mergers. For the Advanced LIGO design sensitivity, our network has an average sensitive distance of 130 Mpc at a false-alarm rate of 10 per month. Compared to other state-of-the-art machine learning algorithms, we find an improvement by a factor of 6 in sensitivity to signals with signal-to-noise ratio below 25. However, this approach is not yet competitive with traditional matched-filtering based methods. A conservative estimate indicates that our algorithm introduces on average 10.2 s of latency between signal arrival and generating an alert. We give an exact description of our testing procedure, which can not only be applied to machine learning based algorithms but all other search algorithms as well. We thereby improve the ability to compare machine learning and classical searches.
翻訳日:2022-11-26 01:24:23 公開日:2020-09-28
# テキストから引数グラフへ変換する引数マイニングパイプラインに向けて

Towards an Argument Mining Pipeline Transforming Texts to Argument Graphs ( http://arxiv.org/abs/2006.04562v2 )

ライセンス: Link先を確認
Mirko Lenz, Premtim Sahitaj, Sean Kallenberg, Christopher Coors, Lorik Dumani, Ralf Schenkel, Ralph Bergmann(参考訳) 本稿では,議論的情報のコンポーネントの自動抽出と自然言語テキストからの関連性について述べる。 さらに,任意の自然言語テキストからの完全な論証的構造を一般用として提供するためのシステム不足にも対処する。 本稿では、ドイツ語と英語のテキストをグラフベースの引数表現に変換するための普遍的なアプローチとして、引数マイニングパイプラインを提案する。 また,既存のベンチマーク引数構造に基づいて結果を評価する新しい手法を提案する。 その結果,生成した引数グラフは,議論文の異なる文間の新たな接続を検出するのに有用であることが示された。 私たちのパイプライン実装はgithubで公開されている。

This paper targets the automated extraction of components of argumentative information and their relations from natural language text. Moreover, we address a current lack of systems to provide complete argumentative structure from arbitrary natural language text for general usage. We present an argument mining pipeline as a universally applicable approach for transforming German and English language texts to graph-based argument representations. We also introduce new methods for evaluating the results based on existing benchmark argument structures. Our results show that the generated argument graphs can be beneficial to detect new connections between different statements of an argumentative text. Our pipeline implementation is publicly available on GitHub.
翻訳日:2022-11-23 23:56:51 公開日:2020-09-28
# マルチタスク学習のメリットを学ぶための学習機能

Learning Functions to Study the Benefit of Multitask Learning ( http://arxiv.org/abs/2006.05561v2 )

ライセンス: Link先を確認
Gabriele Bettgenh\"auser, Michael A. Hedderich, Dietrich Klakow(参考訳) シーケンスラベリングタスクのためのマルチタスク学習(mtl)モデルの一般化パターンを研究し,定量化する。 MTLモデルは、一連の関連するタスクを共同で最適化するために訓練される。 マルチタスク学習はいくつかの問題でパフォーマンスの向上を実現したが、同時にトレーニングするとパフォーマンスが低下するタスクもある。 これらの混合結果はmtlモデルの性能に影響を与える要因を研究する動機となった。 MTLモデルの理論的境界と収束速度は存在するが、それらはタスク関連性やバランスの取れたデータセットの使用といった強い仮定に依存している。 これらの制約を緩和するために,モデル性能に関連する表現を影響要因として学習するために,タスクシミュレータの作成とシンボリック回帰の利用を提案する。 MTLでは、タスク数(T)、タスク毎のサンプル数(n)、調整された相互情報(AMI)によって測定されたタスク関連性に対するモデル性能について検討する。 実験では,maurer[2016] の数学的証明と等価な sqrt(n), sqrt(t), sqrt(t), sqrt(t) の因子によるモデル性能に関する公式を経験的に発見し, その性能が sqrt(ami) の因子と関係していることを発見した。

We study and quantify the generalization patterns of multitask learning (MTL) models for sequence labeling tasks. MTL models are trained to optimize a set of related tasks jointly. Although multitask learning has achieved improved performance in some problems, there are also tasks that lose performance when trained together. These mixed results motivate us to study the factors that impact the performance of MTL models. We note that theoretical bounds and convergence rates for MTL models exist, but they rely on strong assumptions such as task relatedness and the use of balanced datasets. To remedy these limitations, we propose the creation of a task simulator and the use of Symbolic Regression to learn expressions relating model performance to possible factors of influence. For MTL, we study the model performance against the number of tasks (T), the number of samples per task (n) and the task relatedness measured by the adjusted mutual information (AMI). In our experiments, we could empirically find formulas relating model performance with factors of sqrt(n), sqrt(T), which are equivalent to sound mathematical proofs in Maurer[2016], and we went beyond by discovering that performance relates to a factor of sqrt(AMI).
翻訳日:2022-11-23 13:15:47 公開日:2020-09-28
# モーフィング攻撃検出 -- データベース、評価プラットフォーム、ベンチマーク

Morphing Attack Detection -- Database, Evaluation Platform and Benchmarking ( http://arxiv.org/abs/2006.06458v3 )

ライセンス: Link先を確認
Kiran Raja, Matteo Ferrara, Annalisa Franco, Luuk Spreeuwers, Illias Batskos, Florens de Wit Marta Gomez-Barrero, Ulrich Scherhag, Daniel Fischer, Sushma Venkatesh, Jag Mohan Singh, Guoqiang Li, Lo\"ic Bergeron, Sergey Isadskiy, Raghavendra Ramachandra, Christian Rathgeb, Dinusha Frings, Uwe Seidel, Fons Knopjes, Raymond Veldhuis, Davide Maltoni, Christoph Busch(参考訳) モルフィング攻撃は顔認識システム(FRS)に深刻な脅威をもたらしている。 最近の研究で報告された進歩の数にもかかわらず、我々は独立ベンチマーク、一般化可能性の課題、年齢、性別、民族性に対する考慮といった深刻なオープン問題に注目する。 モーフィング攻撃検出(MAD)アルゴリズムは、データベースに依存しているため、しばしば一般化の課題となる。 既存のデータベースは、主に半公的な性質で、民族性、様々な形態形成プロセス、後処理パイプラインの多様性が欠如している。 さらに、自動境界制御(abc)のための現実的な運用シナリオを反映しておらず、アルゴリズムの堅牢性を評価するために、見えないデータでmadをテストする基盤を提供していない。 そこで本研究では,madの進歩を促進するために,アルゴリズムを未発見のデータでテストし,より汎用化するための新たなデータセットを提案する。 新たに構築されたデータセットは、さまざまな民族、年齢グループ、両方の性別から150人の被験者の顔画像で構成されている。 既存のMADアルゴリズムに挑戦するために、モルヒネ画像は、コントリビューション画像から作成された慎重に被写体選択を行い、さらに後処理して、モルヒネを除去する。 画像は印刷されスキャンされ、すべてのデジタル手がかりを取り除き、マッドアルゴリズムの現実的な挑戦をシミュレートする。 さらに,シークエンスデータに基づくアルゴリズムのテストを行うオンライン評価プラットフォームを提案する。 このプラットフォームでは、形態検出性能をベンチマークし、一般化能力を研究することができる。 本研究は,各種データサブセットの詳細な分析を行い,今後のMAD研究の課題について概説する。

Morphing attacks have posed a severe threat to Face Recognition System (FRS). Despite the number of advancements reported in recent works, we note serious open issues such as independent benchmarking, generalizability challenges and considerations to age, gender, ethnicity that are inadequately addressed. Morphing Attack Detection (MAD) algorithms often are prone to generalization challenges as they are database dependent. The existing databases, mostly of semi-public nature, lack in diversity in terms of ethnicity, various morphing process and post-processing pipelines. Further, they do not reflect a realistic operational scenario for Automated Border Control (ABC) and do not provide a basis to test MAD on unseen data, in order to benchmark the robustness of algorithms. In this work, we present a new sequestered dataset for facilitating the advancements of MAD where the algorithms can be tested on unseen data in an effort to better generalize. The newly constructed dataset consists of facial images from 150 subjects from various ethnicities, age-groups and both genders. In order to challenge the existing MAD algorithms, the morphed images are with careful subject pre-selection created from the contributing images, and further post-processed to remove morphing artifacts. The images are also printed and scanned to remove all digital cues and to simulate a realistic challenge for MAD algorithms. Further, we present a new online evaluation platform to test algorithms on sequestered data. With the platform we can benchmark the morph detection performance and study the generalization ability. This work also presents a detailed analysis on various subsets of sequestered data and outlines open challenges for future directions in MAD research.
翻訳日:2022-11-22 13:58:37 公開日:2020-09-28
# PhishGAN:homoglpyh攻撃のデータの増大と同定

PhishGAN: Data Augmentation and Identification of Homoglpyh Attacks ( http://arxiv.org/abs/2006.13742v3 )

ライセンス: Link先を確認
Joon Sern Lee, Gui Peng David Yam, Jin Hao Chan(参考訳) ホモグリフ攻撃は、ハッカーがフィッシングを行うのに使われる一般的なテクニックである。 実際のものと視覚的に類似したドメイン名やリンクは、攻撃を妨害するためにpunycodeによって作成され、被害者はフィッシングの影響を受けやすくなります。 例えば、被害者は「|inkedin.com」を「linkedin.com」と間違え、その過程で偽のウェブサイトに個人情報を漏らすことがある。 現状 The Art (SOTA) は通常、計算量の多い文字列比較アルゴリズム(例:Levenshtein Distance)を使用する。 この理由の1つは、公開データセットがないため、より高度な機械学習(ML)モデルのトレーニングを妨げている。 さらに、どのフォントもすべてのタイプのポニーコードを正しくレンダリングすることはできず、特定のフォントに対して偏りのないデータセットの作成に重大な課題となる。 膨大な数のインターネットドメインと組み合わせることで、可能なすべてのバリエーションをキャプチャできるデータセットの作成が難しくなる。 本稿では,FhishGANという条件付き生成適応ネットワークを用いて,非ホモグルピー入力テキスト画像に条件付きヒエログリフの画像を生成する方法を示す。 現在のSOTAへの実践的な変更は、より多様なホモグリフテキストベースの画像の生成を容易にするために必要だった。 また、PhishGANとHymoglyph Identifier(HI)モデルとの併用により、ホモグリフが模倣しようとしているドメインを識別するワークフローを実証する。 さらに、PhishGANのデータセットをオンザフライで生成する能力が、サイバーセキュリティシステムの迅速な適応を促進して、新たな脅威が出現するのを検出する方法を示す。

Homoglyph attacks are a common technique used by hackers to conduct phishing. Domain names or links that are visually similar to actual ones are created via punycode to obfuscate the attack, making the victim more susceptible to phishing. For example, victims may mistake "|inkedin.com" for "linkedin.com" and in the process, divulge personal details to the fake website. Current State of The Art (SOTA) typically make use of string comparison algorithms (e.g. Levenshtein Distance), which are computationally heavy. One reason for this is the lack of publicly available datasets thus hindering the training of more advanced Machine Learning (ML) models. Furthermore, no one font is able to render all types of punycode correctly, posing a significant challenge to the creation of a dataset that is unbiased toward any particular font. This coupled with the vast number of internet domains pose a challenge in creating a dataset that can capture all possible variations. Here, we show how a conditional Generative Adversarial Network (GAN), PhishGAN, can be used to generate images of hieroglyphs, conditioned on non-homoglpyh input text images. Practical changes to current SOTA were required to facilitate the generation of more varied homoglyph text-based images. We also demonstrate a workflow of how PhishGAN together with a Homoglyph Identifier (HI) model can be used to identify the domain the homoglyph was trying to imitate. Furthermore, we demonstrate how PhishGAN's ability to generate datasets on the fly facilitate the quick adaptation of cybersecurity systems to detect new threats as they emerge.
翻訳日:2022-11-17 10:17:05 公開日:2020-09-28
# 2つの多項ロジットの任意の混合の学習

Learning an arbitrary mixture of two multinomial logits ( http://arxiv.org/abs/2007.00204v2 )

ライセンス: Link先を確認
Wenpin Tang(参考訳) 本稿では,任意のランダム効用モデルに対して$\epsilon$-approximate と呼ばれる多項ロジスティックモデル (MNL) の混合について考察する。 長い歴史と幅広い使用にもかかわらず、厳密な結果は2つのmnlの均一な混合物を学ぶためにのみ利用できる。 この一連の研究を続けながら、2つのMNLの任意の混合を学習する問題を研究する。 混合モデルの識別性は無視可能な測度の代数的多様体上でのみ失敗することを示した。 これは、2つのMNLの混合を学習する問題を、単変量準方程式系の解法に還元することによる。 また、ある有限宇宙上の2つのMNLの混合が特定可能であることを条件として、多項式数と線形数を用いて2つのMNLの混合を学習するアルゴリズムを考案した。 いくつかの数値実験や予想も提示されている。

In this paper, we consider mixtures of multinomial logistic models (MNL), which are known to $\epsilon$-approximate any random utility model. Despite its long history and broad use, rigorous results are only available for learning a uniform mixture of two MNLs. Continuing this line of research, we study the problem of learning an arbitrary mixture of two MNLs. We show that the identifiability of the mixture models may only fail on an algebraic variety of a negligible measure. This is done by reducing the problem of learning a mixture of two MNLs to the problem of solving a system of univariate quartic equations. We also devise an algorithm to learn any mixture of two MNLs using a polynomial number of samples and a linear number of queries, provided that a mixture of two MNLs over some finite universe is identifiable. Several numerical experiments and conjectures are also presented.
翻訳日:2022-11-14 22:35:43 公開日:2020-09-28
# NASGEM:グラフ埋め込み法によるニューラルネットワーク探索

NASGEM: Neural Architecture Search via Graph Embedding Method ( http://arxiv.org/abs/2007.04452v2 )

ライセンス: Link先を確認
Hsin-Pai Cheng, Tunhou Zhang, Yixing Zhang, Shiyu Li, Feng Liang, Feng Yan, Meng Li, Vikas Chandra, Hai Li, Yiran Chen(参考訳) neural architecture search (nas) はニューラルネットワークの設計を自動化し、繁栄させる。 estimatorベースのnasは、スケーラブルで柔軟な検索を可能にするために、アーキテクチャとパフォーマンスの関係をモデル化するために最近提案されている。 しかし、既存の推定器に基づく手法は、グラフの類似性を考慮せずにアーキテクチャを潜在空間にエンコードする。 ノードベースの探索空間におけるグラフ類似性の無視は、類似グラフと連続符号化空間における距離との間に大きな矛盾を生じさせ、不正確な符号化表現と/または不正確な表現能力をもたらす。 エンコーディングにおいてグラフ相関情報を保存するために,nasgemはグラフ埋め込み手法によるニューラルネットワーク探索の略である。 NASGEMは、グラフトポロジ情報を取得するための類似度対策を備えた新しいグラフ埋め込み方式によって駆動される。 グラフ距離を正確に推定し、補助的なWeisfeiler-Lehmanカーネルを使用してエンコーディングをガイドすることにより、NASGEMはより正確なグラフ表現を得ることができ、探索効率を向上させることができる。 GEMNetはNASGEMによって発見されたネットワークの集合であり、分類タスクにおいて既存の検索手法によって構築されたネットワーク、すなわち0.4%-3.6%の精度で、乗算積が11%21%少ない。 さらに、COCOオブジェクト検出のためのGEMNetを転送する。 1段目と2段目の両方で、GEMNetは手作業で製造され、自動で調査される検出器を上回っています。

Neural Architecture Search (NAS) automates and prospers the design of neural networks. Estimator-based NAS has been proposed recently to model the relationship between architectures and their performance to enable scalable and flexible search. However, existing estimator-based methods encode the architecture into a latent space without considering graph similarity. Ignoring graph similarity in node-based search space may induce a large inconsistency between similar graphs and their distance in the continuous encoding space, leading to inaccurate encoding representation and/or reduced representation capacity that can yield sub-optimal search results. To preserve graph correlation information in encoding, we propose NASGEM which stands for Neural Architecture Search via Graph Embedding Method. NASGEM is driven by a novel graph embedding method equipped with similarity measures to capture the graph topology information. By precisely estimating the graph distance and using an auxiliary Weisfeiler-Lehman kernel to guide the encoding, NASGEM can utilize additional structural information to get more accurate graph representation to improve the search efficiency. GEMNet, a set of networks discovered by NASGEM, consistently outperforms networks crafted by existing search methods in classification tasks, i.e., with 0.4%-3.6% higher accuracy while having 11%- 21% fewer Multiply-Accumulates. We further transfer GEMNet for COCO object detection. In both one-stage and twostage detectors, our GEMNet surpasses its manually-crafted and automatically-searched counterparts.
翻訳日:2022-11-12 10:02:42 公開日:2020-09-28
# 複雑領域におけるポアソン・ボルツマン方程式の解法のためのマルチスケールディープニューラルネットワーク(MscaleDNN)

Multi-scale Deep Neural Network (MscaleDNN) for Solving Poisson-Boltzmann Equation in Complex Domains ( http://arxiv.org/abs/2007.11207v3 )

ライセンス: Link先を確認
Ziqi Liu, Wei Cai, Zhi-Qin John Xu(参考訳) 本稿では,周波数領域のラジアルスケーリングとコンパクトサポートによるアクティベーション関数を用いたマルチスケール深層ニューラルネットワーク(mscalednns)を提案する。 このラジアルスケーリングは、PDEの解の高周波内容の近似問題を低周波関数の学習問題に変換し、コンパクトなサポート活性化関数は、対応するDNNによって近似される対象関数の周波数内容の分離を容易にする。 その結果、MscaleDNNは複数のスケールで高速な均一収束を実現する。 提案したMscaleDNNは、従来の完全連結DNNよりも優れており、複素および特異領域上の周波数の豊富なポアソン・ボルツマン方程式の効果的なメッシュレス数値法である。

In this paper, we propose multi-scale deep neural networks (MscaleDNNs) using the idea of radial scaling in frequency domain and activation functions with compact support. The radial scaling converts the problem of approximation of high frequency contents of PDEs' solutions to a problem of learning about lower frequency functions, and the compact support activation functions facilitate the separation of frequency contents of the target function to be approximated by corresponding DNNs. As a result, the MscaleDNNs achieve fast uniform convergence over multiple scales. The proposed MscaleDNNs are shown to be superior to traditional fully connected DNNs and be an effective mesh-less numerical method for Poisson-Boltzmann equations with ample frequency contents over complex and singular domains.
翻訳日:2022-11-07 23:31:24 公開日:2020-09-28
# 基底言語学習のためのマルチモーダルデータセットの提示と解析

Presentation and Analysis of a Multimodal Dataset for Grounded Language Learning ( http://arxiv.org/abs/2007.14987v4 )

ライセンス: Link先を確認
Patrick Jenkins, Rishabh Sachdeva, Gaoussou Youssouf Kebe, Padraig Higgins, Kasra Darvish, Edward Raff, Don Engel, John Winder, Francis Ferraro, Cynthia Matuszek(参考訳) ロボット工学、nlp、およびhciの研究分野は、言語ベースのインタラクションが周囲の世界をどのように指しているのかを学ぶことにある。 実際には、学習に使用されるデータは、ほとんど完全にテキストによる記述で構成されており、実際の人間の相互作用よりもクリーンで明瞭で文法的な傾向がある。 本研究では,話し言葉や書き言葉を使用する人々によって記述される共通家庭オブジェクトのマルチモーダルデータセットであるGunded Language Dataset(GoLD)を提案する。 違いを分析し,異なるモダリティが人間のインプットから言語学習に与える影響を示す実験を行った。 これにより、ロボット工学、NLP、HCIの交差点を研究する研究者は、画像、テキスト、音声の複数のモーダルがどう相互作用するかをよりよく研究し、これらのモダリティの頂点の違いが結果に影響を及ぼすことを示すことができる。

Grounded language acquisition -- learning how language-based interactions refer to the world around them -- is amajor area of research in robotics, NLP, and HCI. In practice the data used for learning consists almost entirely of textual descriptions, which tend to be cleaner, clearer, and more grammatical than actual human interactions. In this work, we present the Grounded Language Dataset (GoLD), a multimodal dataset of common household objects described by people using either spoken or written language. We analyze the differences and present an experiment showing how the different modalities affect language learning from human in-put. This will enable researchers studying the intersection of robotics, NLP, and HCI to better investigate how the multiple modalities of image, text, and speech interact, as well as show differences in the vernacular of these modalities impact results.
翻訳日:2022-11-05 20:45:17 公開日:2020-09-28
# RAF-AUデータベース:主観的感情判断と客観的AUアノテーションを用いた顔表現

RAF-AU Database: In-the-Wild Facial Expressions with Subjective Emotion Judgement and Objective AU Annotations ( http://arxiv.org/abs/2008.05196v3 )

ライセンス: Link先を確認
Wenjing Yan, Shan Li, Chengtao Que, JiQuan Pei, Weihong Deng(参考訳) 自動表情認識の研究の多くは、エックマンの基本的な感情理論に基づいて、ある種の感情クラスとその誇張された表情(一般的に6つの原型的な表情)を含むデータベースに依存している。 しかし、最近の研究では、人間の生活における表情と複数の基本的な感情をブレンドできることが示されている。 また,これらの表情に対する感情ラベルは,事前定義されたauパターンのみにアノテートすることは容易ではない。 このような複雑な表現に対してアクションユニットをどのように分析するかは、まだ未解決の問題です。 この問題に対処するために,サインベース(AU)と判断ベース(知覚的感情)を併用したRAF-AUデータベースを開発した。 筆者らはまず,既存のデータベースにおけるアノテーション手法を概観し,クラウドソーシングを顔の表情をラベル付けするための有望な戦略として認識した。 次に,RAF-AUを経験者コーダーに微妙に注釈し,どのキーAUが知覚感情に最も寄与するか,AUと表情の関係について予備的検討を行った。 最後に、RAF-AUにおけるAU認識のベースラインとして、人気のある特徴とマルチラベル学習手法を用いた。

Much of the work on automatic facial expression recognition relies on databases containing a certain number of emotion classes and their exaggerated facial configurations (generally six prototypical facial expressions), based on Ekman's Basic Emotion Theory. However, recent studies have revealed that facial expressions in our human life can be blended with multiple basic emotions. And the emotion labels for these in-the-wild facial expressions cannot easily be annotated solely on pre-defined AU patterns. How to analyze the action units for such complex expressions is still an open question. To address this issue, we develop a RAF-AU database that employs a sign-based (i.e., AUs) and judgement-based (i.e., perceived emotion) approach to annotating blended facial expressions in the wild. We first reviewed the annotation methods in existing databases and identified crowdsourcing as a promising strategy for labeling in-the-wild facial expressions. Then, RAF-AU was finely annotated by experienced coders, on which we also conducted a preliminary investigation of which key AUs contribute most to a perceived emotion, and the relationship between AUs and facial expressions. Finally, we provided a baseline for AU recognition in RAF-AU using popular features and multi-label learning methods.
翻訳日:2022-10-31 05:21:46 公開日:2020-09-28
# ConiVAT: 部分的バックグラウンド知識によるクラスタの傾向評価とクラスタリング

ConiVAT: Cluster Tendency Assessment and Clustering with Partial Background Knowledge ( http://arxiv.org/abs/2008.09570v2 )

ライセンス: Link先を確認
Punit Rathore, James C. Bezdek, Paolo Santi, Carlo Ratti(参考訳) VAT法は、数値データ中の潜在的なクラスタ構造と可能なクラスタ数を決定するための視覚的手法である。 改良されたiVATは、パスベースの距離変換を使用して、"粗い"ケースに対するVATの有効性を改善する。 VATもiVATも単一リンク(SL)階層クラスタリングアルゴリズムと併用して使用されている。 しかしながら、データセット内のクラスタ間のノイズやブリッジポイントに敏感であり、その結果、対応するVAT/iVAT画像は、そのような場合、しばしば決定的ではない。 本稿では,制約の形で背景知識を利用するConiVATと呼ばれる制約ベースのiVATを提案し,課題のある複雑なデータセットに対してVAT/iVATを改善する。 ConiVATは入力制約を使って、基礎となる類似度計量を学習し、VATを適用する前に最小の推移的異性行列を構築する。 複雑なデータセットに対するiVAT画像の品質向上と,クラスタ間の"ノイズ"ブリッジによるVAT/iVATによるSLクラスタリングの制限を克服することを示すため,9つのデータセット上での視覚的アセスメントと単一リンククラスタリングに対するConiVATアプローチを実証した。 9つのデータセットの大規模な実験結果から、ConiVATは他の3つの半教師付きクラスタリングアルゴリズムよりも、クラスタリング精度が向上していることが示唆された。

The VAT method is a visual technique for determining the potential cluster structure and the possible number of clusters in numerical data. Its improved version, iVAT, uses a path-based distance transform to improve the effectiveness of VAT for "tough" cases. Both VAT and iVAT have also been used in conjunction with a single-linkage(SL) hierarchical clustering algorithm. However, they are sensitive to noise and bridge points between clusters in the dataset, and consequently, the corresponding VAT/iVAT images are often in-conclusive for such cases. In this paper, we propose a constraint-based version of iVAT, which we call ConiVAT, that makes use of background knowledge in the form of constraints, to improve VAT/iVAT for challenging and complex datasets. ConiVAT uses the input constraints to learn the underlying similarity metric and builds a minimum transitive dissimilarity matrix, before applying VAT to it. We demonstrate ConiVAT approach to visual assessment and single linkage clustering on nine datasets to show that, it improves the quality of iVAT images for complex datasets, and it also overcomes the limitation of SL clustering with VAT/iVAT due to "noisy" bridges between clusters. Extensive experiment results on nine datasets suggest that ConiVAT outperforms the other three semi-supervised clustering algorithms in terms of improved clustering accuracy.
翻訳日:2022-10-26 21:10:51 公開日:2020-09-28
# 小児集団の舌検出のための深層学習アプローチ

A Deep Learning Approach to Tongue Detection for Pediatric Population ( http://arxiv.org/abs/2009.02397v3 )

ライセンス: Link先を確認
Javad Rahimipour Anaraki, Silvia Orlandi, Tom Chau(参考訳) 重度の障害と複雑なコミュニケーションを必要とする子どもたちは、アクセス技術(at)デバイスの使用に制限がある。 通常のAT(例えば機械スイッチ)は、非言語的な子供や限定的な随意運動制御を持つ子供には不十分である。 舌ジェスチャー検出のための自動技術は有望な経路である。 これまでの研究では、成人者に対する舌検出アルゴリズムの堅牢性は示されてきたが、これらの手法を子どもと併用するにはさらなる研究が必要である。 そこで本研究では,子どもがゲームプレイ中,自然環境において録画されたビデオに対して,舌付きジェスチャー認識のためのネットワークアーキテクチャを実装し,その評価を行った。 被験者の顔を検出するためにカスケード物体検出アルゴリズムを用い、畳み込みニューラルネットワーク(CNN)を用いて舌ジェスチャー検出の自動分類手法を開発した。 評価実験では,成人および子供の画像を用いてネットワークを訓練した。 ネットワーク分類の精度はlet-one-subject-outクロスバリデーションを用いて評価した。 典型的発達障害児5名のビデオ分析から得られた予備分類の結果, 舌出動作の予測において, 最大99%の精度を示した。 さらに, 子どもデータのみを用いて分類器を訓練した結果, 小児舌ジェスチャーデータセットの必要性を裏付ける成人データよりも優れた成績を示した。

Children with severe disabilities and complex communication needs face limitations in the usage of access technology (AT) devices. Conventional ATs (e.g., mechanical switches) can be insufficient for nonverbal children and those with limited voluntary motion control. Automatic techniques for the detection of tongue gestures represent a promising pathway. Previous studies have shown the robustness of tongue detection algorithms on adult participants, but further research is needed to use these methods with children. In this study, a network architecture for tongue-out gesture recognition was implemented and evaluated on videos recorded in a naturalistic setting when children were playing a video-game. A cascade object detector algorithm was used to detect the participants' faces, and an automated classification scheme for tongue gesture detection was developed using a convolutional neural network (CNN). In evaluation experiments conducted, the network was trained using adults and children's images. The network classification accuracy was evaluated using leave-one-subject-out cross-validation. Preliminary classification results obtained from the analysis of videos of five typically developing children showed an accuracy of up to 99% in predicting tongue-out gestures. Moreover, we demonstrated that using only children data for training the classifier yielded better performance than adult's one supporting the need for pediatric tongue gesture datasets.
翻訳日:2022-10-22 02:01:03 公開日:2020-09-28
# TransModality: Multimodal Sentiment Analysis のための Transformer を用いた End2End Fusion 法

TransModality: An End2End Fusion Method with Transformer for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2009.02902v2 )

ライセンス: Link先を確認
Zilong Wang, Zhaohong Wan, and Xiaojun Wan(参考訳) マルチモーダル感情分析は, テキスト, 視覚的, 音響的モーダル性から抽出した特徴を通して, 話者の感情傾向を予測する重要な研究領域である。 中心的な課題は、マルチモーダル情報の融合方法である。 様々な融合法が提案されているが、モダリティ間の微妙な相関を見極めるためにエンドツーエンドの翻訳モデルを採用するものはほとんどない。 機械翻訳分野における変圧器の最近の成功を悟り,マルチモーダル感情分析の課題に対処すべく,新しい融合法であるtransmodalityを提案する。 モーダリティ間の翻訳は話者の発話のより良い共同表現に寄与していると仮定する。 Transformerでは、学習した特徴が、ソースモダリティとターゲットモダリティの両方から情報を具現化している。 我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。 実験の結果,提案手法は最先端の性能を実現する。

Multimodal sentiment analysis is an important research area that predicts speaker's sentiment tendency through features extracted from textual, visual and acoustic modalities. The central challenge is the fusion method of the multimodal information. A variety of fusion methods have been proposed, but few of them adopt end-to-end translation models to mine the subtle correlation between modalities. Enlightened by recent success of Transformer in the area of machine translation, we propose a new fusion method, TransModality, to address the task of multimodal sentiment analysis. We assume that translation between modalities contributes to a better joint representation of speaker's utterance. With Transformer, the learned features embody the information both from the source modality and the target modality. We validate our model on multiple multimodal datasets: CMU-MOSI, MELD, IEMOCAP. The experiments show that our proposed method achieves the state-of-the-art performance.
翻訳日:2022-10-21 02:57:06 公開日:2020-09-28
# GTEA:エッジ集約による時間的相互作用グラフの表現学習

GTEA: Representation Learning for Temporal Interaction Graphs via Edge Aggregation ( http://arxiv.org/abs/2009.05266v2 )

ライセンス: Link先を確認
Yiming Li, Da Sun Handason Tam, Siyue Xie, Xiaxin Liu, Qiu Fang Ying, Wing Cheong Lau, Dah Ming Chiu, Shou Zhi Chen(参考訳) 時間的相互作用を持つエンティティのネットワークがノードとエッジ属性の豊富な集合を持つグラフとしてモデル化される時間的相互作用グラフの表現学習の問題を考える。 特に、グラフ内のノードペア間のエッジは、多次元時系列に対応する。 ネットワークのダイナミクスをフルに把握し,モデル化するために,時間毎の集約を伴う時間的相互作用グラフの表現学習フレームワークGTEAを提案する。 GTEAでは、グラフニューラルネットワーク(GNN)がLSTMやTransformerなどの最先端のシーケンスモデルと統合される。 シーケンスモデルは各ノード間の時間的相互作用パターンをエンコードするためにエッジ埋め込みを生成し、gnnベースのバックボーンは異なるノード間のトポロジ的依存関係と関係を学習する。 GTEAはまた、アグリゲーションプロセス中に各ノードのより重要な隣人を区別し、焦点を合わせるために、疎結合によって誘導される自己注意機構も組み込んでいる。 ネットワーク内の多次元ノードやエッジ属性とともに時間的インタラクティブなダイナミクスをキャプチャすることで、GTEAは時間的相互作用グラフのきめ細かい表現を学習し、他の下流データ解析タスクを有効にまたは促進することができる。 実験の結果、GTEAはGraphSAGE、APPNP、TGATなどの最先端のスキームよりも高い精度(100.00%、98.51%、98.05%、79.90%)とマクロF1スコア(100.00%、98.51%、96.68%、79.90%)をバイナリ/マルチクラスノード分類のための4つの大規模実世界のデータセットで達成している。

We consider the problem of representation learning for temporal interaction graphs where a network of entities with complex interactions over an extended period of time is modeled as a graph with a rich set of node and edge attributes. In particular, an edge between a node-pair within the graph corresponds to a multi-dimensional time-series. To fully capture and model the dynamics of the network, we propose GTEA, a framework of representation learning for temporal interaction graphs with per-edge time-based aggregation. Under GTEA, a Graph Neural Network (GNN) is integrated with a state-of-the-art sequence model, such as LSTM, Transformer and their time-aware variants. The sequence model generates edge embeddings to encode temporal interaction patterns between each pair of nodes, while the GNN-based backbone learns the topological dependencies and relationships among different nodes. GTEA also incorporates a sparsity-inducing self-attention mechanism to distinguish and focus on the more important neighbors of each node during the aggregation process. By capturing temporal interactive dynamics together with multi-dimensional node and edge attributes in a network, GTEA can learn fine-grained representations for a temporal interaction graph to enable or facilitate other downstream data analytic tasks. Experimental results show that GTEA outperforms state-of-the-art schemes including GraphSAGE, APPNP, and TGAT by delivering higher accuracy (100.00%, 98.51%, 98.05% ,79.90%) and macro-F1 score (100.00%, 98.51%, 96.68% ,79.90%) over four large-scale real-world datasets for binary/ multi-class node classification.
翻訳日:2022-10-19 20:58:42 公開日:2020-09-28
# 類似クラスタリング機械学習アプローチによる乾式重症度評価による観測内および観測間変動の低減

Psoriasis Severity Assessment with a Similarity-Clustering Machine Learning Approach Reduces Intra- and Inter-observation variation ( http://arxiv.org/abs/2009.08997v2 )

ライセンス: Link先を確認
Arman Garakani, Martin Malmstedt-Miller, Ionela Manole, Adrian Y. Rossler and John R. Zibert(参考訳) psoriasisは、遺伝子型と表現型に多くの変異がある複合疾患である。 医学の一般的な進歩は、医師と皮膚科医の両方に対する評価と治療を更に複雑にしている。 技術的な進歩にもかかわらず、1970年代に開発された重大度評価には主にアセスメントツールpsoriasis area and severe index(pasi)を使用します。 本研究では,デジタル画像,比較Webアプリケーション,類似性クラスタリングを含む手法を評価し,サーバ内およびサーバ間変動による評価ツールの改善を目的とした。 患者の画像はモバイルデバイスから収集された。 画像は1週間ほど離れた場所で撮影された。 5人の皮膚科医が、修正pasi、絶対スコア、相対的なペアワイズpasiスコアを類似性クラスタリングを用いて評価し、同時に2つの画像を表示するウェブプログラムを用いて実施した。 mPASIは同一または異なる皮膚科医による単眼写真を評価したところ,mPASIは50%から80%であった。 類似度クラスタリングを用いた繰り返しmPASI比較の結果,mPASIは95%であった。 パーソンの絶対得点と対得点の進行の相関は0.72。

Psoriasis is a complex disease with many variations in genotype and phenotype. General advancements in medicine has further complicated both assessments and treatment for both physicians and dermatologist alike. Even with all of our technological progress we still primarily use the assessment tool Psoriasis Area and Severity Index (PASI) for severity assessments which was developed in the 1970s. In this study we evaluate a method involving digital images, a comparison web application and similarity clustering, developed to improve the assessment tool in terms of intra- and inter-observer variation. Images of patients was collected from a mobile device. Images were captured of the same lesion area taken approximately 1 week apart. Five dermatologists evaluated the severity of psoriasis by modified-PASI, absolute scoring and a relative pairwise PASI scoring using similarity-clustering and conducted using a web-program displaying two images at a time. mPASI scoring of single photos by the same or different dermatologist showed mPASI ratings of 50% to 80%, respectively. Repeated mPASI comparison using similarity clustering showed consistent mPASI ratings > 95%. Pearson correlation between absolute scoring and pairwise scoring progression was 0.72.
翻訳日:2022-10-17 02:31:44 公開日:2020-09-28
# ニューラル品質推定と自動後編集を用いたコンピュータ支援翻訳

Computer Assisted Translation with Neural Quality Estimation and Automatic Post-Editing ( http://arxiv.org/abs/2009.09126v2 )

ライセンス: Link先を確認
Jiayi Wang, Ke Wang, Niyu Ge, Yangbing Shi, Yu Zhao, Kai Fan(参考訳) ニューラルマシン翻訳の出現により、機械翻訳結果の活用と消費への顕著なシフトがあった。 しかし、機械翻訳システムと人間の翻訳者の間のギャップは、編集後、手動で閉じる必要がある。 本稿では,機械翻訳出力の品質推定と自動後編集に関するエンドツーエンドのディープラーニングフレームワークを提案する。 我々のゴールは、誤り訂正の提案を提供し、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。 ヒューマントランスレータの動作を模倣するために,品質推定,生成後編集,アトミック操作という3つの効率的なデリゲーションモジュールを設計し,それらに基づいた階層モデルを構築した。 このアプローチをwmt 2017 ape共有タスクの英語-ドイツ語データセットを用いて検証し,最先端のパフォーマンスを実現するための実験結果を得た。 また,認定翻訳者は,人的評価において,編集後の処理をモデルで大幅に高速化できることを確認した。

With the advent of neural machine translation, there has been a marked shift towards leveraging and consuming the machine translation results. However, the gap between machine translation systems and human translators needs to be manually closed by post-editing. In this paper, we propose an end-to-end deep learning framework of the quality estimation and automatic post-editing of the machine translation output. Our goal is to provide error correction suggestions and to further relieve the burden of human translators through an interpretable model. To imitate the behavior of human translators, we design three efficient delegation modules -- quality estimation, generative post-editing, and atomic operation post-editing and construct a hierarchical model based on them. We examine this approach with the English--German dataset from WMT 2017 APE shared task and our experimental results can achieve the state-of-the-art performance. We also verify that the certified translators can significantly expedite their post-editing processing with our model in human evaluation.
翻訳日:2022-10-16 20:53:12 公開日:2020-09-28
# 動的物理システムへの機械学習の適用に関する調査

A Survey on Machine Learning Applied to Dynamic Physical Systems ( http://arxiv.org/abs/2009.09719v2 )

ライセンス: Link先を確認
Sagar Verma(参考訳) この調査は、物理モデリングと機械学習の交差点における最近の進歩に関するものである。 我々は電動機に近い非線形システムのモデリングに焦点をあてる。 電動機の運転におけるモータ制御と故障検出に関する調査を行った。

This survey is on recent advancements in the intersection of physical modeling and machine learning. We focus on the modeling of nonlinear systems which are closer to electric motors. Survey on motor control and fault detection in operation of electric motors has been done.
翻訳日:2022-10-16 03:55:57 公開日:2020-09-28
# 深層学習に基づく予後予測のための逆行例の作成(拡張版)

Crafting Adversarial Examples for Deep Learning Based Prognostics (Extended Version) ( http://arxiv.org/abs/2009.10149v2 )

ライセンス: Link先を確認
Gautam Raj Mode, Khaza Anuarul Hoque(参考訳) 製造において予期せぬ失敗は、生産性を阻害し、大きな損失をもたらす可能性があるため、主要な運用上のリスクとみなされる。 最先端のPrognostics and Health Management (PHM)システムには、Deep Learning (DL)アルゴリズムとInternet of Things (IoT)デバイスが組み込まれ、機器の健康状態を確認し、ダウンタイム、メンテナンスコストを削減し、生産性を向上させる。 残念ながら、IoTセンサーとDLアルゴリズムはどちらもサイバー攻撃に弱いため、PHMシステムに重大な脅威をもたらす。 本稿では,コンピュータビジョン領域からの逆例作成手法を採用し,PHM領域に適用する。 具体的には,FGSM (Fast Gradient Sign Method) とBIM (Basic Iterative Method) を用いて,Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), Convolutional Neural Network (CNN) を用いたPHMモデルに適用する。 我々は、NASAのターボファンエンジンデータセットを用いて、敵攻撃の影響を評価する。 その結果, 評価されたPHMモデルはすべて, 敵攻撃に対して脆弱であり, 残りの有効寿命推定に深刻な欠陥を生じさせる可能性が示唆された。 以上の結果から, 加工した対向体は高い伝達性を有し, PHM系に大きな損傷を与える可能性が示唆された。

In manufacturing, unexpected failures are considered a primary operational risk, as they can hinder productivity and can incur huge losses. State-of-the-art Prognostics and Health Management (PHM) systems incorporate Deep Learning (DL) algorithms and Internet of Things (IoT) devices to ascertain the health status of equipment, and thus reduce the downtime, maintenance cost and increase the productivity. Unfortunately, IoT sensors and DL algorithms, both are vulnerable to cyber attacks, and hence pose a significant threat to PHM systems. In this paper, we adopt the adversarial example crafting techniques from the computer vision domain and apply them to the PHM domain. Specifically, we craft adversarial examples using the Fast Gradient Sign Method (FGSM) and Basic Iterative Method (BIM) and apply them on the Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU), and Convolutional Neural Network (CNN) based PHM models. We evaluate the impact of adversarial attacks using NASA's turbofan engine dataset. The obtained results show that all the evaluated PHM models are vulnerable to adversarial attacks and can cause a serious defect in the remaining useful life estimation. The obtained results also show that the crafted adversarial examples are highly transferable and may cause significant damages to PHM systems.
翻訳日:2022-10-16 03:47:09 公開日:2020-09-28
# 制約プログラミングに基づく最新のHPCシステムとアプリケーションのためのジョブディスパッチャー

A Constraint Programming-based Job Dispatcher for Modern HPC Systems and Applications ( http://arxiv.org/abs/2009.10348v2 )

ライセンス: Link先を確認
Cristian Galleguillos, Zeynep Kiziltan, Ricardo Soto(参考訳) 制約プログラミング(CP)は、離散最適化問題のモデル化と解決のためのプログラミングパラダイムとして、AIにおいて確立された分野であり、現代のアプリケーションを含むHPCシステムにおけるオンラインジョブディスパッチ問題に対処するためにうまく適用されてきた。 利用可能なcpベースのジョブディスパッチの制限は、サイズが大きくなり、リソース割り当てが要求される現在のシステムでの使用を阻害する可能性がある。 デプロイされたアプリケーションに基本的なAI研究を近づけるために,最新のHPCシステムやアプリケーションのためのCPベースのオンラインジョブディスパッチを提案する。 前者とは異なり、新しいディスパッチはCPのすべての問題に対処し、そのモデルサイズはシステムサイズとは独立している。 シミュレーションによる実験結果から, 大規模システムやアロケーションが非自明なシステムでは, 分散性能が著しく向上することが明らかとなった。

Constraint Programming (CP) is a well-established area in AI as a programming paradigm for modelling and solving discrete optimization problems, and it has been been successfully applied to tackle the on-line job dispatching problem in HPC systems including those running modern applications. The limitations of the available CP-based job dispatchers may hinder their practical use in today's systems that are becoming larger in size and more demanding in resource allocation. In an attempt to bring basic AI research closer to a deployed application, we present a new CP-based on-line job dispatcher for modern HPC systems and applications. Unlike its predecessors, our new dispatcher tackles the entire problem in CP and its model size is independent of the system size. Experimental results based on a simulation study show that with our approach dispatching performance increases significantly in a large system and in a system where allocation is nontrivial.
翻訳日:2022-10-15 23:01:49 公開日:2020-09-28
# エンドツーエンド音声認識と拡散除去

End-to-End Speech Recognition and Disfluency Removal ( http://arxiv.org/abs/2009.10298v3 )

ライセンス: Link先を確認
Paria Jamshid Lou and Mark Johnson(参考訳) 分散検出は通常、自動音声認識(asr)システムと下流タスクの間の中間のステップである。 対照的に,本研究の目的は,エンドツーエンド音声認識と不整合除去の課題を検討することである。 具体的には、別個の拡散検出モデルに頼ることなく、ASRモデルを用いて非流布音声を直接流布文字にマッピングできるかどうかについて検討する。 エンド・ツー・エンドのモデルでは,フロート・トランスクリプトを直接生成できることが示されているが,その性能は,ASRシステムとディフルエンシ検出モデルからなるベースライン・パイプライン・アプローチよりも若干劣っている。 また,統合型asr と disfluency モデルの評価に使用できる2つの新しい指標を提案する。 本研究は,今後,エンド・ツー・エンドの音声認識と拡散除去の課題について,さらなる研究を行うためのベンチマークとなる。

Disfluency detection is usually an intermediate step between an automatic speech recognition (ASR) system and a downstream task. By contrast, this paper aims to investigate the task of end-to-end speech recognition and disfluency removal. We specifically explore whether it is possible to train an ASR model to directly map disfluent speech into fluent transcripts, without relying on a separate disfluency detection model. We show that end-to-end models do learn to directly generate fluent transcripts; however, their performance is slightly worse than a baseline pipeline approach consisting of an ASR system and a disfluency detection model. We also propose two new metrics that can be used for evaluating integrated ASR and disfluency models. The findings of this paper can serve as a benchmark for further research on the task of end-to-end speech recognition and disfluency removal in the future.
翻訳日:2022-10-15 21:49:04 公開日:2020-09-28
# 画像処理のための多次元テレビストーク

Multidimensional TV-Stokes for image processing ( http://arxiv.org/abs/2009.11971v2 )

ライセンス: Link先を確認
Bin Wu, Xue-Cheng Tai, and Talal Rahman(参考訳) 第1段階における勾配場の平滑化と勾配場からの多次元画像の再構成に基づいて,完全多次元tv-ストークスモデルを提案する。 これは元の2次元テレビストロークの多重次元への正しい拡張である。 シャンボールの半簡約双対公式を用いた数値アルゴリズムを提案する。 3D画像や映画をデノベートするための数値結果を示す。 階段効果を回避し、微細な構造を保つのに優れた性能を示す。

A complete multidimential TV-Stokes model is proposed based on smoothing a gradient field in the first step and reconstruction of the multidimensional image from the gradient field. It is the correct extension of the original two dimensional TV-Stokes to multidimensions. Numerical algorithm using the Chambolle's semi-implicit dual formula is proposed. Numerical results applied to denoising 3D images and movies are presented. They show excellent performance in avoiding the staircase effect, and preserving fine structures.
翻訳日:2022-10-15 05:14:29 公開日:2020-09-28
# 多言語マルチタスクジェンダーバイアスのための曖昧なテストベッドとしてのB型回帰

Type B Reflexivization as an Unambiguous Testbed for Multilingual Multi-Task Gender Bias ( http://arxiv.org/abs/2009.11982v2 )

ライセンス: Link先を確認
Ana Valeria Gonzalez, Maria Barrett, Rasmus Hvingelby, Kellie Webster, Anders S{\o}gaard(参考訳) GAPやWinoGenderのような英語の挑戦データセットは、男性医師としての「ドクター」の性差を曖昧にしているような「幻覚的」なモデル嗜好を強調している。 スウェーデン語やロシア語などのB型反射性のある言語では、不明瞭に間違ったモデル予測につながる性別バイアスを検出するためのマルチタスクチャレンジデータセットを構築することができる。 代わりに、中性代名詞は非性代名詞を必要とし、性代名詞は反反射的である。 我々は4つの言語と4つのNLPタスクにまたがる多言語・マルチタスク課題データセットを提案し、この現象にのみ焦点をあてる。 我々は、すべてのタスク言語の組み合わせにおけるジェンダーバイアスの証拠を見つけ、モデルバイアスと全国労働市場の統計を関連付ける。

The one-sided focus on English in previous studies of gender bias in NLP misses out on opportunities in other languages: English challenge datasets such as GAP and WinoGender highlight model preferences that are "hallucinatory", e.g., disambiguating gender-ambiguous occurrences of 'doctor' as male doctors. We show that for languages with type B reflexivization, e.g., Swedish and Russian, we can construct multi-task challenge datasets for detecting gender bias that lead to unambiguously wrong model predictions: In these languages, the direct translation of 'the doctor removed his mask' is not ambiguous between a coreferential reading and a disjoint reading. Instead, the coreferential reading requires a non-gendered pronoun, and the gendered, possessive pronouns are anti-reflexive. We present a multilingual, multi-task challenge dataset, which spans four languages and four NLP tasks and focuses only on this phenomenon. We find evidence for gender bias across all task-language combinations and correlate model bias with national labor market statistics.
翻訳日:2022-10-15 04:03:52 公開日:2020-09-28
# 宇宙気象研究のためのモジュールオントロジーを目指して

Towards a Modular Ontology for Space Weather Research ( http://arxiv.org/abs/2009.12285v2 )

ライセンス: Link先を確認
Cogan Shimizu, Ryan McGranaghan, Aaron Eberhart, Adam C. Kellerman(参考訳) 太陽、惑星間空間、地球近傍の宇宙環境、地球の表面、そして電力網の間の相互作用は、おそらく、非常に複雑である。 このような研究には、公共部門と民間部門にまたがる多くの異なる組織間の協力が必要である。 したがって、宇宙気象を研究する重要な要素は異種情報の統合と解析である。 そのため私たちは,データ統合のコアを推進すべく,高度に学際的なコミュニティのニーズを満たすモジュール型オントロジーを開発しました。 本稿では,宇宙気象研究のための予備的なモジュールオントロジーについて述べるとともに,実例規則と明示型を用いた特定のユースケースへの適応方法を示す。

The interactions between the Sun, interplanetary space, near Earth space environment, the Earth's surface, and the power grid are, perhaps unsurprisingly, very complicated. The study of such requires the collaboration between many different organizations spanning the public and private sectors. Thus, an important component of studying space weather is the integration and analysis of heterogeneous information. As such, we have developed a modular ontology to drive the core of the data integration and serve the needs of a highly interdisciplinary community. This paper presents our preliminary modular ontology, for space weather research, as well as demonstrate a method for adaptation to a particular use-case, through the use of existential rules and explicit typing.
翻訳日:2022-10-14 23:16:24 公開日:2020-09-28
# GEFA:ドラッグターゲット親和性予測における早期融合アプローチ

GEFA: Early Fusion Approach in Drug-Target Affinity Prediction ( http://arxiv.org/abs/2009.12146v2 )

ライセンス: Link先を確認
Tri Minh Nguyen, Thin Nguyen, Thao Minh Le, Truyen Tran(参考訳) 化合物と標的との相互作用を予測することは、迅速な薬物精製に不可欠である。 ディープラーニングは、薬物標的親和性(dta)問題にうまく適用されている。 しかし、従来のディープラーニングに基づく手法では、薬物とタンパク質の直接相互作用のモデリングは無視されている。 これは、薬物結合効果によって変化する可能性のある標的表現の不正な学習につながる。 さらに、従来のDTA手法では、DTAデータセット以外のタンパク質の使用を無視しながら、DTAデータセットの少数のタンパク質配列のみに基づいてタンパク質表現を学習していた。 本稿では,結合効果により対象表現の変化に注意を向ける新しいグラフ・イン・グラフニューラルネットワークであるgefa(graph early fusion affinity)を提案する。 具体的には、薬物は原子のグラフとしてモデル化され、残基-ドラッグ複合体の大きなグラフのノードとして機能する。 結果として得られるモデルは、表現力のあるディープネストグラフニューラルネットワークである。 また,最近の文脈化タンパク質表現学習の成果を活かして,事前学習したタンパク質表現を用いる。 実験は、新しい薬物や標的などのシナリオを評価するために、異なる設定で実施される。 以上の結果から, プレトレーニングタンパク質埋め込みの有効性と, 薬物標的間相互作用のためのネストグラフのモデル化におけるgefaの利点が示された。

Predicting the interaction between a compound and a target is crucial for rapid drug repurposing. Deep learning has been successfully applied in drug-target affinity (DTA) problem. However, previous deep learning-based methods ignore modeling the direct interactions between drug and protein residues. This would lead to inaccurate learning of target representation which may change due to the drug binding effects. In addition, previous DTA methods learn protein representation solely based on a small number of protein sequences in DTA datasets while neglecting the use of proteins outside of the DTA datasets. We propose GEFA (Graph Early Fusion Affinity), a novel graph-in-graph neural network with attention mechanism to address the changes in target representation because of the binding effects. Specifically, a drug is modeled as a graph of atoms, which then serves as a node in a larger graph of residues-drug complex. The resulting model is an expressive deep nested graph neural network. We also use pre-trained protein representation powered by the recent effort of learning contextualized protein representation. The experiments are conducted under different settings to evaluate scenarios such as novel drugs or targets. The results demonstrate the effectiveness of the pre-trained protein embedding and the advantages our GEFA in modeling the nested graph for drug-target interaction.
翻訳日:2022-10-14 22:32:25 公開日:2020-09-28
# 浅層マスマスキングオートエンコーダを用いた高速かつ高精度な物理インフォームドニューラルネットワーク削減次数モデル

A fast and accurate physics-informed neural network reduced order model with shallow masked autoencoder ( http://arxiv.org/abs/2009.11990v2 )

ライセンス: Link先を確認
Youngkyu Kim, Youngsoo Choi, David Widemann, Tarek Zohdi(参考訳) 従来の線形部分空間還元次数モデル(LS-ROM)は、内在的な解空間が小さな次元を持つ部分空間、すなわち、解空間が小さなコルモゴロフ n-幅を持つような物理シミュレーションを加速することができる。 しかし、このタイプの物理現象、例えば交通流、大気流、車両上空の空気流など、アドベクションが支配する流れ現象に対して、低次元の線形部分空間は解をあまり近似しない。 このようなケースに対処するため,我々は高速で正確な物理に変形したニューラルネットワークrom,すなわち非線形多様体rom(nm-rom)を開発した。 本手法は,対応する全順序モデルの解法として,既存の数値手法を利用する。 この効率性はNM-ROMの文脈で超還元技術を開発することで達成される。 その結果、ニューラルネットワークは1dおよび2dバーガーの方程式から、アドベクションが支配するデータに対してより効率的な潜在空間表現を学習できることが示されている。 1Dバーガーズ方程式の最大2.6の高速化と2Dバーガーズ方程式の1.7の高速化は、超還元法により非線形項の適切な処理によって達成される。 最後に、超還元作用素を考慮に入れたNM-ROMの後方誤差境界を導出する。

Traditional linear subspace reduced order models (LS-ROMs) are able to accelerate physical simulations, in which the intrinsic solution space falls into a subspace with a small dimension, i.e., the solution space has a small Kolmogorov n-width. However, for physical phenomena not of this type, e.g., any advection-dominated flow phenomena, such as in traffic flow, atmospheric flows, and air flow over vehicles, a low-dimensional linear subspace poorly approximates the solution. To address cases such as these, we have developed a fast and accurate physics-informed neural network ROM, namely nonlinear manifold ROM (NM-ROM), which can better approximate high-fidelity model solutions with a smaller latent space dimension than the LS-ROMs. Our method takes advantage of the existing numerical methods that are used to solve the corresponding full order models. The efficiency is achieved by developing a hyper-reduction technique in the context of the NM-ROM. Numerical results show that neural networks can learn a more efficient latent space representation on advection-dominated data from 1D and 2D Burgers' equations. A speedup of up to 2.6 for 1D Burgers' and a speedup of 11.7 for 2D Burgers' equations are achieved with an appropriate treatment of the nonlinear terms through a hyper-reduction technique. Finally, a posteriori error bounds for the NM-ROMs are derived that take account of the hyper-reduced operators.
翻訳日:2022-10-14 22:23:31 公開日:2020-09-28
# 相関分解における高次推論の神話の展開

Revealing the Myth of Higher-Order Inference in Coreference Resolution ( http://arxiv.org/abs/2009.12013v2 )

ライセンス: Link先を確認
Liyan Xu, Jinho D. Choi(参考訳) 本稿では,高次推論(HOI)がコア参照解決の課題に与える影響を解析する。 HOIは、表現学習よりも真の有効性について多くの研究をすることなく、最近のほとんど全てのコア参照解決モデルに適応してきた。 包括的な分析を行うために, エンドツーエンドのコリファレンスシステムと4つのhoiアプローチ, 参加者の先行性, エンティティ等化, スパンクラスタリング, クラスタマージを実装した。 SpanBERTのような高性能エンコーダが与えられた場合、HOIの影響は負の差であり、このタスクに対するHOIの新しい視点を提供する。 クラスタマージによる最良のモデルは、英語で共有されたCoNLL 2012タスクデータセットの80.2のAvg-F1を示す。

This paper analyzes the impact of higher-order inference (HOI) on the task of coreference resolution. HOI has been adapted by almost all recent coreference resolution models without taking much investigation on its true effectiveness over representation learning. To make a comprehensive analysis, we implement an end-to-end coreference system as well as four HOI approaches, attended antecedent, entity equalization, span clustering, and cluster merging, where the latter two are our original methods. We find that given a high-performing encoder such as SpanBERT, the impact of HOI is negative to marginal, providing a new perspective of HOI to this task. Our best model using cluster merging shows the Avg-F1 of 80.2 on the CoNLL 2012 shared task dataset in English.
翻訳日:2022-10-14 22:23:07 公開日:2020-09-28
# MinTL:タスク指向対話システムのためのミニマリスト変換学習

MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2009.12005v2 )

ライセンス: Link先を確認
Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, Pascale Fung(参考訳) 本稿では,タスク指向対話システムのシステム設計プロセスを簡素化し,注釈付きデータへの過度依存を緩和するために,mintlを提案する。 MinTLはシンプルだが効果的な転送学習フレームワークであり,事前学習したセq2seqモデルをプラグイン&プレイし,対話状態追跡と対話応答生成を共同で学習することができる。 古い対話状態を新しい対話に"キャリア"するためにコピー機構を用いた従来のアプローチとは異なり、最小生成長の効率的な対話状態追跡を可能にするLevenshtein belief spans (Lev)を導入している。 学習フレームワークをT5とBARTの2つのトレーニング済みバックボーンでインスタンス化し、MultiWOZで評価する。 広範な実験が示しています 1) エンド・ツー・エンドの応答生成において, 最新の結果が得られた。 2)MinTLベースのシステムは,低リソース環境での基準手法よりも堅牢であり,20倍のトレーニングデータで競争結果が得られる。 3)レブは推論効率を大幅に改善する。

In this paper, we propose Minimalist Transfer Learning (MinTL) to simplify the system design process of task-oriented dialogue systems and alleviate the over-dependency on annotated data. MinTL is a simple yet effective transfer learning framework, which allows us to plug-and-play pre-trained seq2seq models, and jointly learn dialogue state tracking and dialogue response generation. Unlike previous approaches, which use a copy mechanism to "carryover" the old dialogue states to the new one, we introduce Levenshtein belief spans (Lev), that allows efficient dialogue state tracking with a minimal generation length. We instantiate our learning framework with two pre-trained backbones: T5 and BART, and evaluate them on MultiWOZ. Extensive experiments demonstrate that: 1) our systems establish new state-of-the-art results on end-to-end response generation, 2) MinTL-based systems are more robust than baseline methods in the low resource setting, and they achieve competitive results with only 20\% training data, and 3) Lev greatly improves the inference efficiency.
翻訳日:2022-10-14 22:13:02 公開日:2020-09-28
# 深層学習分類による時間関連MIMOチャネルの再帰的CSI量子化

Recursive CSI Quantization of Time-Correlated MIMO Channels by Deep Learning Classification ( http://arxiv.org/abs/2009.13560v1 )

ライセンス: Link先を確認
Stefan Schwarz(参考訳) 周波数分割デュプレックス (FDD) マルチインプット多重出力 (MIMO) 無線通信において、制限チャネル状態情報 (CSI) フィードバックは高度なシングルユーザおよびマルチユーザMIMOビームフォーミング/プリコーディングをサポートする中心的なツールである。 与えられたCSI品質を達成するために、CSI量子化コードブックのサイズはアンテナの数とともに指数関数的に増加し、量子化の複雑さと、より大きなMIMOシステムに対するフィードバックオーバーヘッドの問題をもたらす。 我々は最近,CSI量子化の複雑性を著しく低減できる多段再帰的なグラスマン量子化器を提案している。 本稿では,この再帰的量子化器と深層学習分類を効果的に組み合わせて複雑性をさらに低減し,時間的チャネル相関を利用してCSIフィードバックのオーバーヘッドを低減できることを示す。

In frequency division duplex (FDD) multiple-input multiple-output (MIMO) wireless communications, limited channel state information (CSI) feedback is a central tool to support advanced single- and multi-user MIMO beamforming/precoding. To achieve a given CSI quality, the CSI quantization codebook size has to grow exponentially with the number of antennas, leading to quantization complexity, as well as, feedback overhead issues for larger MIMO systems. We have recently proposed a multi-stage recursive Grassmannian quantizer that enables a significant complexity reduction of CSI quantization. In this paper, we show that this recursive quantizer can effectively be combined with deep learning classification to further reduce the complexity, and that it can exploit temporal channel correlations to reduce the CSI feedback overhead.
翻訳日:2022-10-13 22:50:38 公開日:2020-09-28
# 個人データ解析のための斜めサンプリングアルゴリズム

Oblivious Sampling Algorithms for Private Data Analysis ( http://arxiv.org/abs/2009.13689v1 )

ライセンス: Link先を確認
Sajin Sasy and Olga Ohrimenko(参考訳) データセットのサンプル上で実行されるクエリに基づいて,セキュアでプライバシ保護のデータを解析する。 信頼された実行環境(TEEs)は、クエリ計算中にデータの内容を保護するために使用できるが、TEEsにおける差分プライベート(DP)クエリのサポートは、クエリ出力が明らかにされたときに記録プライバシを提供する。 サンプルベースのクエリのサポートは,クエリに応答するためにすべてのデータセットを使用するのではなく,小さなサブセットのみを使用するため,‘emph{privacy amplification’によって魅力的なものだ。 しかし,強いDP保証を証明しながらTEEを用いてデータサンプルを抽出することは簡単ではない。 この目的のために、我々は一般的なサンプリングアルゴリズムの効率的な安全な変種を設計する。 MNISTとCIFAR-10の差分プライベートモデルでは,シャッフルとサンプリングで訓練したモデルの精度が同じであり,サンプリングはシャッフルよりも強いプライバシー保証を提供する。

We study secure and privacy-preserving data analysis based on queries executed on samples from a dataset. Trusted execution environments (TEEs) can be used to protect the content of the data during query computation, while supporting differential-private (DP) queries in TEEs provides record privacy when query output is revealed. Support for sample-based queries is attractive due to \emph{privacy amplification} since not all dataset is used to answer a query but only a small subset. However, extracting data samples with TEEs while proving strong DP guarantees is not trivial as secrecy of sample indices has to be preserved. To this end, we design efficient secure variants of common sampling algorithms. Experimentally we show that accuracy of models trained with shuffling and sampling is the same for differentially private models for MNIST and CIFAR-10, while sampling provides stronger privacy guarantees than shuffling.
翻訳日:2022-10-13 22:50:22 公開日:2020-09-28
# ニューラルネットワークと異なるサーベイからの参照画像を用いた光トランジェント検出

Detecting optical transients using artificial neural networks and reference images from different surveys ( http://arxiv.org/abs/2009.14614v1 )

ライセンス: Link先を確認
Katarzyna Ward\k{e}ga, Adam Zadro\.zny, Martin Beroiz, Richard Camuccio and Mario C. D\'iaz(参考訳) 重力波に対する光学的対応を探索するためには、事象の局所化領域を高速で遠隔観察し、その結果の可視光トランジェントの画像データを探索できる効率的な追従法を開発することが不可欠である。 人工ニューラルネットワークを用いてこれらのトランジェントを検出する手法を提案する。 異なる望遠鏡で撮影した空の同じ部分の画像を比較できる2つのネットワークのアーキテクチャについて述べる。 1つの画像は、潜在的な過渡期が存在する可能性があるエポックに対応しており、もう1つは初期のエポックの参照画像である。 我々は、Cristina V. Torres記念天文台が取得したデータと、Sloan Digital Sky Surveyのアーカイブ参照画像を用いている。 シミュレーションデータを用いて畳み込みニューラルネットワークと高密度層ネットワークを訓練し,実画像データから作成したサンプルを用いてトレーニングしたネットワークをテストした。 自律的検出法は、通常、差分画像のソース抽出と、検出された候補の人間の検査によって達成される、トランジェント検出の標準的なプロセスを置き換える。 人間の検査コンポーネントを完全に自律的な方法で置き換えることで、興味深い機会のターゲットを素早く自動で追跡することができる。 この方法は、南方協力の過渡光ロボット観測所に参加する望遠鏡でさらにテストされる。

To search for optical counterparts to gravitational waves, it is crucial to develop an efficient follow-up method that allows for both a quick telescopic scan of the event localization region and search through the resulting image data for plausible optical transients. We present a method to detect these transients based on an artificial neural network. We describe the architecture of two networks capable of comparing images of the same part of the sky taken by different telescopes. One image corresponds to the epoch in which a potential transient could exist; the other is a reference image of an earlier epoch. We use data obtained by the Dr. Cristina V. Torres Memorial Astronomical Observatory and archival reference images from the Sloan Digital Sky Survey. We trained a convolutional neural network and a dense layer network on simulated source samples and tested the trained networks on samples created from real image data. Autonomous detection methods replace the standard process of detecting transients, which is normally achieved by source extraction of a difference image followed by human inspection of the detected candidates. Replacing the human inspection component with an entirely autonomous method would allow for a rapid and automatic follow-up of interesting targets of opportunity. The method will be further tested on telescopes participating in the Transient Optical Robotic Observatory of the South Collaboration.
翻訳日:2022-10-13 22:50:03 公開日:2020-09-28
# ニューラルネットを用いたVlasov-Poisson-Fokker-PlanckシステムからPoisson-Nernst-Planckシステムへのモデル縮小

The model reduction of the Vlasov-Poisson-Fokker-Planck system to the Poisson-Nernst-Planck system via the Deep Neural Network Approach ( http://arxiv.org/abs/2009.13280v1 )

ライセンス: Link先を確認
Jae Yong Lee, Jin Woo Jang, Hyung Ju Hwang(参考訳) メソスコピック運動力学からマクロ連続体力学へのモデル還元はヒルベルトの時代から数学物理学における基本的な問題の一つであった。 本稿では,鏡面反射境界条件を持つ有界区間のvlasov-poisson-fokker-planck (vpfp) 系から非流束境界条件のpoisson-nernst-planck (pnp) 系への拡散限界の図を考える。 本稿では,解の時間漸近挙動と物理量を計算することにより,VPFPシステムとPNPシステムをシミュレートするディープラーニングアルゴリズムを提案する。 本稿では、Asymptotic-Preserving (AP) スキームを用いて、VPFP システムのニューラルネットワーク解と PNP システムの解の収束を解析する。 また、VPFPとPNPシステムに対するディープニューラルネットワーク(DNN)の解が、全損失関数が消滅した場合に、各システムの先行古典解に収束するという理論的証拠も提示する。

The model reduction of a mesoscopic kinetic dynamics to a macroscopic continuum dynamics has been one of the fundamental questions in mathematical physics since Hilbert's time. In this paper, we consider a diagram of the diffusion limit from the Vlasov-Poisson-Fokker-Planck (VPFP) system on a bounded interval with the specular reflection boundary condition to the Poisson-Nernst-Planck (PNP) system with the no-flux boundary condition. We provide a Deep Learning algorithm to simulate the VPFP system and the PNP system by computing the time-asymptotic behaviors of the solution and the physical quantities. We analyze the convergence of the neural network solution of the VPFP system to that of the PNP system via the Asymptotic-Preserving (AP) scheme. Also, we provide several theoretical evidence that the Deep Neural Network (DNN) solutions to the VPFP and the PNP systems converge to the a priori classical solutions of each system if the total loss function vanishes.
翻訳日:2022-10-13 22:49:41 公開日:2020-09-28
# スパース心内膜地図による心筋脱分極のグラフ畳み込み回帰

Graph convolutional regression of cardiac depolarization from sparse endocardial maps ( http://arxiv.org/abs/2009.14068v1 )

ライセンス: Link先を確認
Felix Meister, Tiziano Passerini, Chlo\'e Audigier, \`Eric Lluch, Viorel Mihalef, Hiroshi Ashikaga, Andreas Maier, Henry Halperin, Tommaso Mansi(参考訳) 心室頻拍のアブレーション療法において日常的に得られる電気解剖学的マッピングは不整脈性基質を同定するための金標準法である。 グラフ畳み込みニューラルネットワークを用いた新しい深層学習法を提案する。左室心内膜,心電図,磁気共鳴画像上の疎カテーテルデータから心筋の脱分極時間を推定する。 トレーニングセットは、人工的に生成された虚血心のジオメトリの大きなコホート上で、心臓電気生理学の計算モデルによって生成されたデータからなる。 予測脱分極パターンは, 心電気生理学的モデルにより計算された活性化時間とよく一致し, 複雑な傷痕と境界領域形態を有する5つのブタ心筋ジオメトリーの検証セットである。 平均絶対誤差は500以上の非分極パターンにおいて、心内基底真理の50\%を提供する際、心筋全体の8msを計測する。 さらに、高密度電気解剖学的マッピングデータを用いた完全な動物データセットを基準として、入力特徴として少数の測定値が提供される場合(入力サンプルの50倍%に対して7msの絶対誤差)、ニューラルネットワークは、心内膜脱分極パターンを正確に再現することができる。 その結果,合成データに基づいて学習した提案手法は,実データに一般化可能であることがわかった。

Electroanatomic mapping as routinely acquired in ablation therapy of ventricular tachycardia is the gold standard method to identify the arrhythmogenic substrate. To reduce the acquisition time and still provide maps with high spatial resolution, we propose a novel deep learning method based on graph convolutional neural networks to estimate the depolarization time in the myocardium, given sparse catheter data on the left ventricular endocardium, ECG, and magnetic resonance images. The training set consists of data produced by a computational model of cardiac electrophysiology on a large cohort of synthetically generated geometries of ischemic hearts. The predicted depolarization pattern has good agreement with activation times computed by the cardiac electrophysiology model in a validation set of five swine heart geometries with complex scar and border zone morphologies. The mean absolute error hereby measures 8 ms on the entire myocardium when providing 50\% of the endocardial ground truth in over 500 computed depolarization patterns. Furthermore, when considering a complete animal data set with high density electroanatomic mapping data as reference, the neural network can accurately reproduce the endocardial depolarization pattern, even when a small percentage of measurements are provided as input features (mean absolute error of 7 ms with 50\% of input samples). The results show that the proposed method, trained on synthetically generated data, may generalize to real data.
翻訳日:2022-10-13 22:48:57 公開日:2020-09-28
# ラマン分光法を応用した高出力分子イメージング

High-throughput molecular imaging via deep learning enabled Raman spectroscopy ( http://arxiv.org/abs/2009.13318v1 )

ライセンス: Link先を確認
Conor C. Horgan, Magnus Jensen, Anika Nagelkerke, Jean-Phillipe St-Pierre, Tom Vercauteren, Molly M. Stevens, Mads S. Bergholt(参考訳) ラマン分光法は、前例のない分子コントラストを持つ非破壊的なラベルなしイメージングを可能にするが、低速なデータ取得によって制限される。 本稿では,超スペクトルラマン画像の大規模データセット上で,150万以上のスペクトル(取得時間400時間)を持つラーマン分光法を用いて,ディープラーニングによる高スループット分子イメージングのための包括的枠組みを提案する。 まず,低信号対雑音比ラマン分子シグネチャを深層学習により同定・再構成し,最先端ラマンフィルタ法と比較して平均2乗誤差を9倍改善した。 次に,分子セル情報を保存する超スペクトルラマン画像のロバスト2-4x超解像のためのニューラルネットワークを開発した。 これらの手法を組み合わせることで,ラマン撮像速度を160倍まで向上させ,高分解能・高信号対雑音比セルイメージングを1分以内で実現する。 最後に、DeepeRを細胞から組織スケールイメージングに拡張するために転写学習を適用する。 DeepeRは、バイオメディシン全体にわたる高出力ラマン分光と分子イメージングアプリケーションをホストできる基盤を提供する。

Raman spectroscopy enables non-destructive, label-free imaging with unprecedented molecular contrast but is limited by slow data acquisition, largely preventing high-throughput imaging applications. Here, we present a comprehensive framework for higher-throughput molecular imaging via deep learning enabled Raman spectroscopy, termed DeepeR, trained on a large dataset of hyperspectral Raman images, with over 1.5 million spectra (400 hours of acquisition) in total. We firstly perform denoising and reconstruction of low signal-to-noise ratio Raman molecular signatures via deep learning, with a 9x improvement in mean squared error over state-of-the-art Raman filtering methods. Next, we develop a neural network for robust 2-4x super-resolution of hyperspectral Raman images that preserves molecular cellular information. Combining these approaches, we achieve Raman imaging speed-ups of up to 160x, enabling high resolution, high signal-to-noise ratio cellular imaging in under one minute. Finally, transfer learning is applied to extend DeepeR from cell to tissue-scale imaging. DeepeR provides a foundation that will enable a host of higher-throughput Raman spectroscopy and molecular imaging applications across biomedicine.
翻訳日:2022-10-13 22:44:16 公開日:2020-09-28
# スマート駐車管理システム

The Smart Parking Management System ( http://arxiv.org/abs/2009.13443v1 )

ライセンス: Link先を確認
Amira. A. Elsonbaty and Mahmoud Shams(参考訳) 自動車利用者の増加に伴い、自動車の駐車数は増加する。 スマートフォンとそのアプリケーションの利用が増えるにつれて、ユーザは携帯電話ベースのソリューションを好む。 本稿では,Arduino部品やAndroidアプリケーションに依存し,IoTに基づくスマートパーキング管理システム(SPMS)を提案する。 これにより、顧客は利用可能な駐車スペースをチェックし、駐車場を予約できる。 IRセンサーは、駐車場スペースが許可されているかどうかを知るために使用される。 そのエリアデータは、WI-FIモジュールを使用してサーバに送信され、多くのオプションを魅力的に提供し、ユーザが予約の詳細をチェックできるようにするモバイルアプリケーションによって回収される。 IoT技術により、スマートパーキングシステムはワイヤレスで接続でき、利用可能な場所を容易に追跡できる。

With growing, Car parking increases with the number of car users. With the increased use of smartphones and their applications, users prefer mobile phone-based solutions. This paper proposes the Smart Parking Management System (SPMS) that depends on Arduino parts, Android applications, and based on IoT. This gave the client the ability to check available parking spaces and reserve a parking spot. IR sensors are utilized to know if a car park space is allowed. Its area data are transmitted using the WI-FI module to the server and are recovered by the mobile application which offers many options attractively and with no cost to users and lets the user check reservation details. With IoT technology, the smart parking system can be connected wirelessly to easily track available locations.
翻訳日:2022-10-13 22:43:33 公開日:2020-09-28
# 学習機械を用いたグローバルダイナミクスの推論

Inferring Global Dynamics Using a Learning Machine ( http://arxiv.org/abs/2009.13032v1 )

ライセンス: Link先を確認
Hong Zhao(参考訳) パラメータ値の特定のセットにおけるシステムの時系列のセグメントが与えられたら、そのパラメータ空間におけるシステムのグローバルな振る舞いを推測できるだろうか? ここでは,学習機械を用いることで,ある程度の目標を達成できることを示す。 単調にコスト関数を減少させる適切なトレーニング戦略に従って、異なるトレーニング段階の学習機は異なるパラメータセットでシステムを模倣することができる。 その結果、システムの大域的な力学特性は、通常単純から複雑な順序で明かされる。 基本的なメカニズムはトレーニング戦略によるもので、学習機を時系列の背後にあるシステムの定性的に等価なシステムへと崩壊させる。 このように、学習機械は、運動方程式を人工的に確立することなく、ブラックボックスシステムの大域的な力学特性を調べる新しい方法を開く。 例えば、低次元非線形力学系の代表モデルと反応拡散系の時空間モデルがある。

Given a segment of time series of a system at a particular set of parameter values, can one infers the global behavior of the system in its parameter space? Here we show that by using a learning machine we can achieve such a goal to a certain extent. It is found that following an appropriate training strategy that monotonously decreases the cost function, the learning machine in different training stage can mimic the system at different parameter set. Consequently, the global dynamical properties of the system is subsequently revealed, usually in the simple-to-complex order. The underlying mechanism is attributed to the training strategy, which causes the learning machine to collapse to a qualitatively equivalent system of the system behind the time series. Thus, the learning machine opens up a novel way to probe the global dynamical properties of a black-box system without artificially establish the equations of motion. The given illustrating examples include a representative model of low-dimensional nonlinear dynamical systems and a spatiotemporal model of reaction-diffusion systems.
翻訳日:2022-10-13 22:43:16 公開日:2020-09-28
# エッジで学ぶためにコミュニケーションする

Communicate to Learn at the Edge ( http://arxiv.org/abs/2009.13269v1 )

ライセンス: Link先を確認
Deniz Gunduz, David Burth Kurka, Mikolaj Jankowski, Mohammad Mohammadi Amiri, Emre Ozfatura, and Sreejith Sreekumar(参考訳) 現代の機械学習(ml)技術をモバイルデバイスに導入することで、多くの新しいサービスやビジネスが可能になるが、技術的および研究上の大きな課題もある。 mlアルゴリズムの成功に不可欠である2つの要因は、大量のデータと処理能力である。 さらに、エッジデバイスは、ノイズ、時間変化、干渉に苦しむ帯域幅と電力制限の無線リンクを介して接続される。 情報と符号化理論は、現代の無線ネットワークにおける応用が大きな成功を収めたチャネル不完全性の存在下で、信頼性と効率のよい通信の基礎を築いた。 しかし、現在の符号化と通信方式と、ネットワークエッジにデプロイされるMLアルゴリズムとの間には明確な断線がある。 本稿では,これらの問題を別々に扱う現在のアプローチに挑戦し,エッジ学習の学習段階と推論段階の両方において,共同コミュニケーションと学習のパラダイムを論じる。

Bringing the success of modern machine learning (ML) techniques to mobile devices can enable many new services and businesses, but also poses significant technical and research challenges. Two factors that are critical for the success of ML algorithms are massive amounts of data and processing power, both of which are plentiful, yet highly distributed at the network edge. Moreover, edge devices are connected through bandwidth- and power-limited wireless links that suffer from noise, time-variations, and interference. Information and coding theory have laid the foundations of reliable and efficient communications in the presence of channel imperfections, whose application in modern wireless networks have been a tremendous success. However, there is a clear disconnect between the current coding and communication schemes, and the ML algorithms deployed at the network edge. In this paper, we challenge the current approach that treats these problems separately, and argue for a joint communication and learning paradigm for both the training and inference stages of edge learning.
翻訳日:2022-10-13 22:42:59 公開日:2020-09-28
# バイオサイバDNAストレージシステムにおける脅威検出のための機械学習アプローチ

A Machine Learning-based Approach to Detect Threats in Bio-Cyber DNA Storage Systems ( http://arxiv.org/abs/2009.13380v1 )

ライセンス: Link先を確認
Federico Tavella, Alberto Giaretta, Mauro Conti, Sasitharan Balasubramaniam(参考訳) データストレージは今世紀の主要なコンピューティング問題の一つだ。 ストレージデバイスは厳格な物理的制限に収束しているだけでなく、ユーザが生成するデータの量は信じられないほど増加している。 これらの課題に対処するため、過去数十年にわたってデータセンターは絶えず成長した。 しかし、この成長には、特に環境の観点から、価格が伴う。 様々な有望なメディアの中で、DNAは最も魅力的な候補の1つである。 先程の研究では,生物工学的細菌を用いてDNAにエンコードされたデータの保存と検索を行う自動アーカイブアーキテクチャを提案する。 このストレージ技術は、バイオメディアが効率の良いストレージソリューションを提供する方法の例である。 これらの生物学的メディアと古典的メディアの類似性もまた欠点であり、悪意ある当事者は生物学的手段や技術を用いて、旧来のアーカイブシステムに対する伝統的な攻撃を複製する可能性がある。 本稿では,まずストレージシステムの主な特徴と,それ上で実行可能なさまざまな種類の攻撃について分析する。 次に,現在進行中のアタックを識別することを目的として,従来のメトリクスや機械学習アルゴリズムに依存する検出手法を提案し,評価する。 この目的のために, 一般化エントロピーと情報距離という2つの適切な指標を特定し, 適用する。 さらに,AUROCを0.99以上,AUPRCを0.91以上とした。

Data storage is one of the main computing issues of this century. Not only storage devices are converging to strict physical limits, but also the amount of data generated by users is growing at an unbelievable rate. To face these challenges, data centres grew constantly over the past decades. However, this growth comes with a price, particularly from the environmental point of view. Among various promising media, DNA is one of the most fascinating candidate. In our previous work, we have proposed an automated archival architecture which uses bioengineered bacteria to store and retrieve data, previously encoded into DNA. This storage technique is one example of how biological media can deliver power-efficient storing solutions. The similarities between these biological media and classical ones can also be a drawback, as malicious parties might replicate traditional attacks on the former archival system, using biological instruments and techniques. In this paper, first we analyse the main characteristics of our storage system and the different types of attacks that could be executed on it. Then, aiming at identifying on-going attacks, we propose and evaluate detection techniques, which rely on traditional metrics and machine learning algorithms. We identify and adapt two suitable metrics for this purpose, namely generalized entropy and information distance. Moreover, our trained models achieve an AUROC over 0.99 and AUPRC over 0.91.
翻訳日:2022-10-13 22:42:43 公開日:2020-09-28
# Siamese Capsule Network for End-to-End Speaker Recognition in the Wild

Siamese Capsule Network for End-to-End Speaker Recognition In The Wild ( http://arxiv.org/abs/2009.13480v1 )

ライセンス: Link先を確認
Amirhossein Hajavi, Ali Etemad(参考訳) 本研究では,野生における話者検証のためのエンドツーエンドのディープモデルを提案する。 本モデルでは,音声から話者の埋め込みを抽出し,siameseカプセルネットワークと動的ルーティングをバックエンドとして利用し,類似度スコアを算出した。 我々は,我々のモデルを最先端ソリューションと比較した一連の実験を行い,トレーニングデータ量を大幅に削減することで,モデルが他のすべてのモデルを上回ることを示した。 また、シームズカプセルネットワークにおける異なる話者埋め込みの影響を研究するための追加実験を行った。 本稿では,フロントエンドの機能集約モジュールから直接取得した埋め込みを動的ルーティングを用いて高カプセルに渡すことで,最高の性能を実現することを示す。

We propose an end-to-end deep model for speaker verification in the wild. Our model uses thin-ResNet for extracting speaker embeddings from utterances and a Siamese capsule network and dynamic routing as the Back-end to calculate a similarity score between the embeddings. We conduct a series of experiments and comparisons on our model to state-of-the-art solutions, showing that our model outperforms all the other models using substantially less amount of training data. We also perform additional experiments to study the impact of different speaker embeddings on the Siamese capsule network. We show that the best performance is achieved by using embeddings obtained directly from the feature aggregation module of the Front-end and passing them to higher capsules using dynamic routing.
翻訳日:2022-10-13 22:42:04 公開日:2020-09-28
# シャッフルモデルのラウンド複素性について

On the Round Complexity of the Shuffle Model ( http://arxiv.org/abs/2009.13510v1 )

ライセンス: Link先を確認
Amos Beimel, Iftach Haitner, Kobbi Nissim, Uri Stemmer(参考訳) 分散微分プライベート計算の実行可能なモデルとして、微分プライバシのシャッフルモデルが提案された。 形式的には、モデルは信頼できないアナライザで構成されており、参加者からシャッフル機能を介してメッセージを受け取り、後者は送信者からのメッセージを解離する可能性がある。 先行研究は1ラウンドの差分プライベートシャッフルモデルプロトコルに焦点をあて、完全信頼の当事者が計算を行う差分プライバシーのキュレーターモデルと同様の精度で、加算やヒストグラムのような関数をこのモデルで実行できることを実証した。 シャッフルモデルのラウンド複雑性に着目し,2ラウンドの差分プライバシのシャッフルモデルに何が計算できるのかを本研究で問う。 Ishaiら。 FOCS 2006]は、2つのパーティ間で秘密鍵を確立するためにシャッフルの1ラウンドの使用方法を示した。 一般的なセキュアなマルチパーティプロトコルをシミュレートするためにこのプリミティブを使用すると、ラウンドの複雑さが1つ増える。 2つのパーティがシャッフルの1ラウンドを使って秘密のメッセージを送る方法を示します。 このプリミティブとApplebaunらの2ラウンド半正直なプロトコルを組み合わせる。 [TCC 2018]では、ランダム化された全ての機能は、正直な多数派を持つシャッフルモデルで、わずか2ラウンドで計算できる。 これには微分プライベートな計算が含まれる。 次にシャッフルモデルにおける微分プライベート計算について検討する。 (i)正直な多数派を仮定する必要はない。 (二)正直な多数派であっても一括のプロトコルは認めない。 そのため,1ラウンドプロトコルと2ラウンドプロトコルの分離を示す共通要素問題とネスト共通要素問題という2つの計算タスクを導入する。

The shuffle model of differential privacy was proposed as a viable model for performing distributed differentially private computations. Informally, the model consists of an untrusted analyzer that receives messages sent by participating parties via a shuffle functionality, the latter potentially disassociates messages from their senders. Prior work focused on one-round differentially private shuffle model protocols, demonstrating that functionalities such as addition and histograms can be performed in this model with accuracy levels similar to that of the curator model of differential privacy, where the computation is performed by a fully trusted party. Focusing on the round complexity of the shuffle model, we ask in this work what can be computed in the shuffle model of differential privacy with two rounds. Ishai et al. [FOCS 2006] showed how to use one round of the shuffle to establish secret keys between every two parties. Using this primitive to simulate a general secure multi-party protocol increases its round complexity by one. We show how two parties can use one round of the shuffle to send secret messages without having to first establish a secret key, hence retaining round complexity. Combining this primitive with the two-round semi-honest protocol of Applebaun et al. [TCC 2018], we obtain that every randomized functionality can be computed in the shuffle model with an honest majority, in merely two rounds. This includes any differentially private computation. We then move to examine differentially private computations in the shuffle model that (i) do not require the assumption of an honest majority, or (ii) do not admit one-round protocols, even with an honest majority. For that, we introduce two computational tasks: the common-element problem and the nested-common-element problem, for which we show separations between one-round and two-round protocols.
翻訳日:2022-10-13 22:41:50 公開日:2020-09-28
# 大きな加算誤差をもつ差分プライベートクラスタリングに関する一考察

A note on differentially private clustering with large additive error ( http://arxiv.org/abs/2009.13317v1 )

ライセンス: Link先を確認
Huy L. Nguyen(参考訳) 本稿では, k-clustering の微分プライベートなアルゴリズムを, 大多項式加法誤差を犠牲にして, 任意の非プライベートなアルゴリズムとほぼ同じ乗法係数で求める方法について述べる。 このアプローチは、プライバシーを考慮した単純な幾何学的観察と、一定の近似を持つ既存のプライベートアルゴリズムの組み合わせである。

In this note, we describe a simple approach to obtain a differentially private algorithm for k-clustering with nearly the same multiplicative factor as any non-private counterpart at the cost of a large polynomial additive error. The approach is the combination of a simple geometric observation independent of privacy consideration and any existing private algorithm with a constant approximation.
翻訳日:2022-10-13 22:33:49 公開日:2020-09-28
# ソフト・ディエンタングル・レートレスオートエンコーダを用いた普遍的生理表現学習

Universal Physiological Representation Learning with Soft-Disentangled Rateless Autoencoders ( http://arxiv.org/abs/2009.13453v1 )

ライセンス: Link先を確認
Mo Han, Ozan Ozdenizci, Toshiaki Koike-Akino, Ye Wang, Deniz Erdogmus(参考訳) ヒューマン・コンピュータ・インタラクション(HCI)は、ユーザの生理的状態を監視することによって外部機器の制御を達成できる技術が多分野融合される。 しかしながら、生理的バイオシグナーは、不安定な身体的/精神的状態とタスク非関連活動のために、ユーザや録音セッションによって異なることが多い。 この課題に対処するために,不整合,ニュアンス・ロバスト,普遍表現を活用するために,RAE(Rateless Autoencoder)の概念を用いた対角的特徴符号化手法を提案する。 本稿では,潜在表現の確率的不整合を利用して,ユーザ固有の特徴とタスク関連特徴との良好なトレードオフを実現する。 提案モデルは、未知のユーザやタスクの幅広い範囲、および異なる分類器に適用可能である。 クロスオブジェクト転送評価の結果、提案手法の利点が示され、平均被写体移動分類精度は最大11.6%向上した。

Human computer interaction (HCI) involves a multidisciplinary fusion of technologies, through which the control of external devices could be achieved by monitoring physiological status of users. However, physiological biosignals often vary across users and recording sessions due to unstable physical/mental conditions and task-irrelevant activities. To deal with this challenge, we propose a method of adversarial feature encoding with the concept of a Rateless Autoencoder (RAE), in order to exploit disentangled, nuisance-robust, and universal representations. We achieve a good trade-off between user-specific and task-relevant features by making use of the stochastic disentanglement of the latent representations by adopting additional adversarial networks. The proposed model is applicable to a wider range of unknown users and tasks as well as different classifiers. Results on cross-subject transfer evaluations show the advantages of the proposed framework, with up to an 11.6% improvement in the average subject-transfer classification accuracy.
翻訳日:2022-10-13 22:33:24 公開日:2020-09-28
# サービングenodebを用いた深層学習に基づくシンボリック屋内位置決め

Deep Learning-based Symbolic Indoor Positioning using the Serving eNodeB ( http://arxiv.org/abs/2009.13675v1 )

ライセンス: Link先を確認
Fahad Alhomayani and Mohammad Mahoor(参考訳) 本稿では,住宅を対象とした屋内位置決め手法を提案する。 提案手法では,特定の位置決めインフラストラクチャを必要とせず,サービングenodebから発するセル信号を利用する。 さらに、Denoising Autoencoderを使用して、細胞シグナル損失の影響を軽減する。 提案手法は, 2台の異なるスマートフォンから収集した実世界データを用いて, 8つの象徴空間の代表的なアパート内で評価した。 実験により,提案手法が従来の室内位置決め手法を各種性能指標で上回ることを確認した。 再現性の向上と新たな研究の推進を目的として,本研究に関連するすべてのデータとコードを公開した。

This paper presents a novel indoor positioning method designed for residential apartments. The proposed method makes use of cellular signals emitting from a serving eNodeB which eliminates the need for specialized positioning infrastructure. Additionally, it utilizes Denoising Autoencoders to mitigate the effects of cellular signal loss. We evaluated the proposed method using real-world data collected from two different smartphones inside a representative apartment of eight symbolic spaces. Experimental results verify that the proposed method outperforms conventional symbolic indoor positioning techniques in various performance metrics. To promote reproducibility and foster new research efforts, we made all the data and codes associated with this work publicly available.
翻訳日:2022-10-13 22:33:01 公開日:2020-09-28
# ベクトルマッチングを用いたスパースデータに基づく3次元表面再構成

Sparse-data based 3D surface reconstruction with vector matching ( http://arxiv.org/abs/2009.12994v1 )

ライセンス: Link先を確認
Bin Wu, Xue-Cheng Tai, and Talal Rahman(参考訳) 本論文では, 2次元スパース情報に基づく3次元表面再構成について, 構造的および非構造的ジオメトリを含む, 適度に複雑な構造を有する表面の少量の水平線のみを用いて検討する。 正規ベクトルマッチングと第1次および第2次全変分正規化器を組み合わせた新しいモデルが提案されている。 拡張ラグランジアンに基づく高速アルゴリズムも提案されている。 合成および実世界のデジタルマップの詳細な特徴と複雑な構造を持つ表面の再構成におけるモデルとアルゴリズムの有効性を示す数値実験を行った。

Three dimensional surface reconstruction based on two dimensional sparse information in the form of only a small number of level lines of the surface with moderately complex structures, containing both structured and unstructured geometries, is considered in this paper. A new model has been proposed which is based on the idea of using normal vector matching combined with a first order and a second order total variation regularizers. A fast algorithm based on the augmented Lagrangian is also proposed. Numerical experiments are provided showing the effectiveness of the model and the algorithm in reconstructing surfaces with detailed features and complex structures for both synthetic and real world digital maps.
翻訳日:2022-10-13 22:32:51 公開日:2020-09-28
# Cuid:知覚的画質と主観的評価に関する新しい研究

Cuid: A new study of perceived image quality and its subjective assessment ( http://arxiv.org/abs/2009.13304v1 )

ライセンス: Link先を確認
Lucie L\'ev\^eque (UNIV GUSTAVE EIFFEL), Ji Yang, Xiaohan Yang, Pengfei Guo, Kenneth Dasalla, Leida Li, Yingying Wu, Hantao Liu(参考訳) 画像品質評価(IQA)の研究は、人間の視覚知覚に関する不完全な知識が主な原因である。 既存のIQAアルゴリズムは、少ない刺激変動率の主観的データで設計または訓練されている。 このことが、現実世界のデジタルコンテンツの複雑さと多様性を扱うアルゴリズムの課題につながった。 人間の被験者による知覚的証拠は、高度なIQAアルゴリズムの開発の基礎となる。 したがって、視覚信号の歪みに対する人間の行動応答を忠実に反映する制御された知覚実験を用いて、信頼できる主観的データを得ることが重要である。 本稿では,制御された実験室環境において主観評価が収集される画質知覚に関する新しい研究を行う。 画像の異なるカテゴリと異なるタイプと歪みのレベルの組み合わせによって、品質知覚がどのように影響を受けるかを検討する。 このデータベースはIQAアルゴリズムの校正と検証を容易にするために公開されている。

Research on image quality assessment (IQA) remains limited mainly due to our incomplete knowledge about human visual perception. Existing IQA algorithms have been designed or trained with insufficient subjective data with a small degree of stimulus variability. This has led to challenges for those algorithms to handle complexity and diversity of real-world digital content. Perceptual evidence from human subjects serves as a grounding for the development of advanced IQA algorithms. It is thus critical to acquire reliable subjective data with controlled perception experiments that faithfully reflect human behavioural responses to distortions in visual signals. In this paper, we present a new study of image quality perception where subjective ratings were collected in a controlled lab environment. We investigate how quality perception is affected by a combination of different categories of images and different types and levels of distortions. The database will be made publicly available to facilitate calibration and validation of IQA algorithms.
翻訳日:2022-10-13 22:32:40 公開日:2020-09-28
# 深層学習のための個別公平度尺度を目指して

Towards a Measure of Individual Fairness for Deep Learning ( http://arxiv.org/abs/2009.13650v1 )

ライセンス: Link先を確認
Krystal Maughan, Joseph P. Near(参考訳) ディープラーニングは人工知能に大きな進歩をもたらしたが、トレーニングされたニューラルネットワークはトレーニングデータにバイアスを反映し、増幅することが多く、不公平な予測をもたらす。 本稿では,特定の予測が保護属性に依存する程度を近似する,予測感度という,個人的公正性の新たな尺度を提案する。 本稿では,最新のディープラーニングフレームワークにおける標準自動微分機能を用いて予測感度を計算する方法を示し,予測感度が個人予測のバイアス測定に有効であることを示す予備実験結果を示す。

Deep learning has produced big advances in artificial intelligence, but trained neural networks often reflect and amplify bias in their training data, and thus produce unfair predictions. We propose a novel measure of individual fairness, called prediction sensitivity, that approximates the extent to which a particular prediction is dependent on a protected attribute. We show how to compute prediction sensitivity using standard automatic differentiation capabilities present in modern deep learning frameworks, and present preliminary empirical results suggesting that prediction sensitivity may be effective for measuring bias in individual predictions.
翻訳日:2022-10-13 22:26:26 公開日:2020-09-28
# 黄斑光コヒーレンス・トモグラフィーによる緑内障進展予測のための条件付きGAN

Conditional GAN for Prediction of Glaucoma Progression with Macular Optical Coherence Tomography ( http://arxiv.org/abs/2010.04552v1 )

ライセンス: Link先を確認
Osama N. Hassan, Serhat Sahin, Vahid Mohammadzadeh, Xiaohe Yang, Navid Amini, Apoorva Mylavarapu, Jack Martinyan, Tae Hong, Golnoush Mahmoudinezhad, Daniel Rueckert, Kouros Nouri-Mahdavi, and Fabien Scalzo(参考訳) 緑内障の進行率の推定は、測定のばらつきや標準化の欠如といった他の要因に加えて、疾患進行率が個人によって異なるため、難しい課題である。 光コヒーレンストモグラフィ(oct)による網膜神経線維層や黄斑の厚さ測定などの構造検査は、緑内障眼の解剖学的変化を検出することができる。 このような変化は機能的な損傷の前に観測することができる。 本研究では,条件付きganアーキテクチャを用いた生成的深層学習モデルを構築し,緑内障進展の予測を行った。 患者のOCTスキャンは3~2回の先行測定から予測される。 予測画像は、地上の真理画像と高い類似性を示す。 さらに, 来院2回だけで得られたOCTスキャンは, 6カ月後に次のOCTスキャンを予測するのに十分である可能性が示唆された。

The estimation of glaucoma progression is a challenging task as the rate of disease progression varies among individuals in addition to other factors such as measurement variability and the lack of standardization in defining progression. Structural tests, such as thickness measurements of the retinal nerve fiber layer or the macula with optical coherence tomography (OCT), are able to detect anatomical changes in glaucomatous eyes. Such changes may be observed before any functional damage. In this work, we built a generative deep learning model using the conditional GAN architecture to predict glaucoma progression over time. The patient's OCT scan is predicted from three or two prior measurements. The predicted images demonstrate high similarity with the ground truth images. In addition, our results suggest that OCT scans obtained from only two prior visits may actually be sufficient to predict the next OCT scan of the patient after six months.
翻訳日:2022-10-13 22:26:16 公開日:2020-09-28
# 多施設共同深層学習による膵臓分節の自動作成

Automated Pancreas Segmentation Using Multi-institutional Collaborative Deep Learning ( http://arxiv.org/abs/2009.13148v1 )

ライセンス: Link先を確認
Pochuan Wang, Chen Shen, Holger R. Roth, Dong Yang, Daguang Xu, Masahiro Oda, Kazunari Misawa, Po-Ting Chen, Kao-Lang Liu, Wei-Chih Liao, Weichung Wang, Kensaku Mori(参考訳) ディープラーニングベースの手法のパフォーマンスは、トレーニングに使用するデータセットの数に大きく依存する。 医療画像解析分野のデータを増やすために多くの努力がなされている。 しかし、写真画像とは異なり、多くの技術的、法的、プライバシー上の問題のために、医療画像を集める集中データベースを生成するのは難しい。 本研究では、実世界における2つの機関間の連携学習を用いて、国境を越えて生データを共有せずにモデルを協調訓練する。 フェデレーション学習と局所訓練のみで得られたセグメンテーションモデルを定量的に比較した。 実験の結果,フェデレーション学習モデルはスタンドアロン学習よりも一般化性が高いことがわかった。

The performance of deep learning-based methods strongly relies on the number of datasets used for training. Many efforts have been made to increase the data in the medical image analysis field. However, unlike photography images, it is hard to generate centralized databases to collect medical images because of numerous technical, legal, and privacy issues. In this work, we study the use of federated learning between two institutions in a real-world setting to collaboratively train a model without sharing the raw data across national boundaries. We quantitatively compare the segmentation models obtained with federated learning and local training alone. Our experimental results show that federated learning models have higher generalizability than standalone training.
翻訳日:2022-10-13 22:25:18 公開日:2020-09-28
# 時間依存型脳グラフデータ合成のためのDeep EvoGraphNetアーキテクチャ

Deep EvoGraphNet Architecture For Time-Dependent Brain Graph Data Synthesis From a Single Timepoint ( http://arxiv.org/abs/2009.13217v1 )

ライセンス: Link先を確認
Ahmed Nebli, Ugur Ali Kaplan and Islem Rekik(参考訳) 脳のコネクトーム(すなわち、グラフ)の発達と老化の予測の仕方を学ぶことは、脳のディコネクティビティ進化の内外および横断的な風景のグラフ化において最重要となる。 実際、経時的(つまり時間に依存した)脳のジスコネクチビティが1つの時点から出現し、進化するにつれて予測することは、障害のある患者のパーソナライズされた治療を非常に早い段階で設計するのに役立ちます。 その重要性にもかかわらず、脳グラフの進化モデルはほとんど文献で見過ごされている。 本稿では,1つの時間点から時間依存性の脳グラフの進化を予測するための,幾何学的深層学習によるグラフ生成対向ネットワーク(gGAN)であるEvoGraphNetを提案する。 私たちのEvoGraphNetアーキテクチャは、時間依存のgGANをカスケードし、それぞれのgGANが予測された脳グラフを特定の時間ポイントで通信し、フォローアップタイムポイントで次のgGANをトレーニングします。 従って、各ジェネレータの出力をその後継の入力として設定することで、次の予測タイムポイントを得ることができ、エンドツーエンドで1つのタイムポイントのみを使用して、所定の回数のタイムポイントを予測できる。 各時点において、予測された脳グラフの分布と地絡グラフの分布をよりよく整合させるため、補助的なKullback-Leibler分散損失関数を統合する。 2つの連続した観測間の時間依存性を捉えるため、2つの連続した脳グラフ間のスパース距離を最小化するためにl1ロスを課した。 EvoGraphNetの変種と短縮バージョンに対する一連のベンチマークでは、単一のベースラインタイムポイントを使用して、最小の脳グラフ進化予測誤差を達成できることが示されている。 私たちのEvoGraphNetコードはhttp://github.com/basiralab/EvoGraphNetで利用可能です。

Learning how to predict the brain connectome (i.e. graph) development and aging is of paramount importance for charting the future of within-disorder and cross-disorder landscape of brain dysconnectivity evolution. Indeed, predicting the longitudinal (i.e., time-dependent ) brain dysconnectivity as it emerges and evolves over time from a single timepoint can help design personalized treatments for disordered patients in a very early stage. Despite its significance, evolution models of the brain graph are largely overlooked in the literature. Here, we propose EvoGraphNet, the first end-to-end geometric deep learning-powered graph-generative adversarial network (gGAN) for predicting time-dependent brain graph evolution from a single timepoint. Our EvoGraphNet architecture cascades a set of time-dependent gGANs, where each gGAN communicates its predicted brain graphs at a particular timepoint to train the next gGAN in the cascade at follow-up timepoint. Therefore, we obtain each next predicted timepoint by setting the output of each generator as the input of its successor which enables us to predict a given number of timepoints using only one single timepoint in an end- to-end fashion. At each timepoint, to better align the distribution of the predicted brain graphs with that of the ground-truth graphs, we further integrate an auxiliary Kullback-Leibler divergence loss function. To capture time-dependency between two consecutive observations, we impose an l1 loss to minimize the sparse distance between two serialized brain graphs. A series of benchmarks against variants and ablated versions of our EvoGraphNet showed that we can achieve the lowest brain graph evolution prediction error using a single baseline timepoint. Our EvoGraphNet code is available at http://github.com/basiralab/EvoGraphNet.
翻訳日:2022-10-13 22:24:37 公開日:2020-09-28
# マルチモーダル3次元U-Netを用いた完全自動椎間板分割

Fully Automatic Intervertebral Disc Segmentation Using Multimodal 3D U-Net ( http://arxiv.org/abs/2009.13583v1 )

ライセンス: Link先を確認
Chuanbo Wang, Ye Guo, Wei Chen, Zeyun Yu(参考訳) 椎間板 (IVDs) は, 隣接する椎間の小さな関節として, 圧緩衝や組織保護に重要な役割を果たしている。 IVDの完全自動局在とセグメンテーションは、疾患の診断と治療における定量的パラメータの提供に不可欠であるため、長年にわたって文献で議論されてきた。 伝統的に手作りの特徴は、画像強度と、IVDのローカライズとセグメント化に先立つ形状に基づいて導出される。 ディープラーニングの進歩により、さまざまなニューラルネットワークモデルが、椎間板の認識を含む画像解析で大きな成功を収めている。 特にu-netは、比較的少ないトレーニングデータを持つ生体画像において優れた性能を持つため、他のアプローチで際立っている。 本稿では,多モードMRI画像からIVDを分割する3次元U-Netに基づく新しい畳み込みフレームワークを提案する。 まず,椎間板の中心を各椎間板にローカライズし,その後,ローカライズした椎間板を中心とした切り抜かれた小体積に基づいてネットワークを訓練する。 マルチモーダルの様々な組み合わせによる結果の包括的分析について述べる。 さらに,拡張および非拡張データセットを用いた2次元および3次元U-Net実験を行い,Dice係数とハウスドルフ距離の比較を行った。 本手法は,89.0%の平均セグメンテーション係数と標準偏差1.4%で有効であることが証明された。

Intervertebral discs (IVDs), as small joints lying between adjacent vertebrae, have played an important role in pressure buffering and tissue protection. The fully-automatic localization and segmentation of IVDs have been discussed in the literature for many years since they are crucial to spine disease diagnosis and provide quantitative parameters in the treatment. Traditionally hand-crafted features are derived based on image intensities and shape priors to localize and segment IVDs. With the advance of deep learning, various neural network models have gained great success in image analysis including the recognition of intervertebral discs. Particularly, U-Net stands out among other approaches due to its outstanding performance on biomedical images with a relatively small set of training data. This paper proposes a novel convolutional framework based on 3D U-Net to segment IVDs from multi-modality MRI images. We first localize the centers of intervertebral discs in each spine sample and then train the network based on the cropped small volumes centered at the localized intervertebral discs. A detailed comprehensive analysis of the results using various combinations of multi-modalities is presented. Furthermore, experiments conducted on 2D and 3D U-Nets with augmented and non-augmented datasets are demonstrated and compared in terms of Dice coefficient and Hausdorff distance. Our method has proved to be effective with a mean segmentation Dice coefficient of 89.0% and a standard deviation of 1.4%.
翻訳日:2022-10-13 22:23:58 公開日:2020-09-28
# RS-MetaNet:数ショットリモートセンシングシーン分類のための深層メタメトリック学習

RS-MetaNet: Deep meta metric learning for few-shot remote sensing scene classification ( http://arxiv.org/abs/2009.13364v1 )

ライセンス: Link先を確認
Haifeng Li, Zhenqi Cui, Zhiqing Zhu, Li Chen, Jiawei Zhu, Haozhe Huang, Chao Tao(参考訳) 大規模ラベル付きサンプルで最新のディープニューラルネットワークをトレーニングすることは、リモートセンシングのシーン分類問題を解決する主なパラダイムであるが、ほんの数データポイントから学ぶことは依然として課題である。 既設のマイナショットリモートセンシングシーン分類手法をサンプルレベルで実施し、個々のサンプルへの学習特徴のオーバーフィットを容易にし、学習したカテゴリセグメンテーション面の不適切な一般化を実現する。 この問題を解決するためには、学習をサンプルレベルではなくタスクレベルで整理する必要がある。 タスクファミリからサンプリングされたタスクの学習は、そのファミリーでサンプリングされた新しいタスクでうまく機能するように学習アルゴリズムをチューニングするのに役立ちます。 そこで本研究では,実世界における数発のリモートセンシングシーン分類に関わる問題を解決するため,RS-MetaNetと呼ばれるシンプルで効果的な手法を提案する。 一方、RS-MetaNetは、メタ方法でトレーニングを組織することで、サンプルからタスクへの学習レベルを高め、一連のタスクからリモートセンシングシーンを適切に分類できるメトリクス空間を学習する。 また,各カテゴリ間の距離を最大化し,モデル適合性を確保しつつ,異なるカテゴリのシーンにより良い線形セグメンテーション平面を与えることで,モデルの新たなサンプルへの一般化能力を最大化する「バランス損失関数」を提案する。 UCMerced\_LandUse,NWPU-RESISC45,Aerial Image Dataの3つのオープンかつ挑戦的なリモートセンシングデータセットに対する実験結果から,提案手法が1~20個のラベル付きサンプルしか存在しない場合に,最先端の結果が得られることを示した。

Training a modern deep neural network on massive labeled samples is the main paradigm in solving the scene classification problem for remote sensing, but learning from only a few data points remains a challenge. Existing methods for few-shot remote sensing scene classification are performed in a sample-level manner, resulting in easy overfitting of learned features to individual samples and inadequate generalization of learned category segmentation surfaces. To solve this problem, learning should be organized at the task level rather than the sample level. Learning on tasks sampled from a task family can help tune learning algorithms to perform well on new tasks sampled in that family. Therefore, we propose a simple but effective method, called RS-MetaNet, to resolve the issues related to few-shot remote sensing scene classification in the real world. On the one hand, RS-MetaNet raises the level of learning from the sample to the task by organizing training in a meta way, and it learns to learn a metric space that can well classify remote sensing scenes from a series of tasks. We also propose a new loss function, called Balance Loss, which maximizes the generalization ability of the model to new samples by maximizing the distance between different categories, providing the scenes in different categories with better linear segmentation planes while ensuring model fit. The experimental results on three open and challenging remote sensing datasets, UCMerced\_LandUse, NWPU-RESISC45, and Aerial Image Data, demonstrate that our proposed RS-MetaNet method achieves state-of-the-art results in cases where there are only 1-20 labeled samples.
翻訳日:2022-10-13 22:18:15 公開日:2020-09-28
# 畳み込みニューラルネットワークとサポートベクターマシンを用いたアラビア語手書き文字認識

Arabic Handwritten Character Recognition based on Convolution Neural Networks and Support Vector Machine ( http://arxiv.org/abs/2009.13450v1 )

ライセンス: Link先を確認
Mahmoud Shams, Amira. A. Elsonbaty, Wael. Z. ElSawy(参考訳) アラビア文字の認識は自然言語処理やコンピュータビジョン分野において不可欠である。 手書きのアラビア語の文字や文字を認識し分類する必要性は基本的に必要である。 本稿では,deep convolution neural networks (dcnn) と support vector machine (svm) を用いて,アラビア語文字と文字を認識するアルゴリズムを提案する。 本稿では,完全連結DCNNとドロップアウトSVMの両方を用いて,入力テンプレートとプレストアテンプレートの類似性を決定することで,アラビア文字の認識の問題に対処する。 さらに,手書き文字の正しい分類率 (CRR) は,認識されたアラビア文字の補正された分類テンプレートの精度に依存する。 さらに,誤差分類率(ECR)を決定する。 本研究の実験的成果は,入力された手書きアラビア語文字を認識し,識別し,検証するアルゴリズムの能力を示している。 さらに,K-meansクラスタリング手法に基づくクラスタリングアルゴリズムを用いて類似のアラビア文字を判定し,アラビア文字のマルチストローク問題に対処する。 比較評価は述べられ、システム精度は95.07% CRR、ECRは4.93%に達した。

Recognition of Arabic characters is essential for natural language processing and computer vision fields. The need to recognize and classify the handwritten Arabic letters and characters are essentially required. In this paper, we present an algorithm for recognizing Arabic letters and characters based on using deep convolution neural networks (DCNN) and support vector machine (SVM). This paper addresses the problem of recognizing the Arabic handwritten characters by determining the similarity between the input templates and the pre-stored templates using both fully connected DCNN and dropout SVM. Furthermore, this paper determines the correct classification rate (CRR) depends on the accuracy of the corrected classified templates, of the recognized handwritten Arabic characters. Moreover, we determine the error classification rate (ECR). The experimental results of this work indicate the ability of the proposed algorithm to recognize, identify, and verify the input handwritten Arabic characters. Furthermore, the proposed system determines similar Arabic characters using a clustering algorithm based on the K-means clustering approach to handle the problem of multi-stroke in Arabic characters. The comparative evaluation is stated and the system accuracy reached 95.07% CRR with 4.93% ECR compared with the state of the art.
翻訳日:2022-10-13 22:17:42 公開日:2020-09-28
# convsequential-slam : 環境変化のためのシーケンスベース・トレーニングレス視覚位置認識手法

ConvSequential-SLAM: A Sequence-based, Training-less Visual Place Recognition Technique for Changing Environments ( http://arxiv.org/abs/2009.13454v1 )

ライセンス: Link先を確認
Mihnea-Alexandru Tomit\u{a}, Mubariz Zaffar, Michael Milford, Klaus McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的場所認識(VPR)は、以前訪れた場所を視点や外観を変えて正しく思い出させる能力である。 手工芸とディープラーニングに基づくVPR技術が多数存在し、前者は外観変化に悩まされ、後者は計算上の重要なニーズを持つ。 本稿では,挑戦条件下での最先端位置マッチング性能を実現する手作りVPR技術を提案する。 本手法は,2つの既存のトレーニングレスVPR技術であるSeqSLAMとCoHOGを組み合わせることで,それぞれが条件や視点の変化に対して堅牢である。 このブレンド、すなわちConvSequential-SLAMは、逐次情報とブロック正規化を利用して外観変化を処理する。 本稿では,クエリフレーム間のコンテンツオーバーラップを分析し,最小シーケンス長を求めるとともに,画像エントロピー情報を環境ベースのシーケンス長チューニングに再利用する。 最新のパフォーマンスは、4つのパブリックデータセット上の8つの現代vpr技術とは対照的に報告されている。 配列長に関する定性的洞察とアブレーション研究も提供する。

Visual Place Recognition (VPR) is the ability to correctly recall a previously visited place under changing viewpoints and appearances. A large number of handcrafted and deep-learning-based VPR techniques exist, where the former suffer from appearance changes and the latter have significant computational needs. In this paper, we present a new handcrafted VPR technique that achieves state-of-the-art place matching performance under challenging conditions. Our technique combines the best of 2 existing trainingless VPR techniques, SeqSLAM and CoHOG, which are each robust to conditional and viewpoint changes, respectively. This blend, namely ConvSequential-SLAM, utilises sequential information and block-normalisation to handle appearance changes, while using regional-convolutional matching to achieve viewpoint-invariance. We analyse content-overlap in-between query frames to find a minimum sequence length, while also re-using the image entropy information for environment-based sequence length tuning. State-of-the-art performance is reported in contrast to 8 contemporary VPR techniques on 4 public datasets. Qualitative insights and an ablation study on sequence length are also provided.
翻訳日:2022-10-13 22:17:22 公開日:2020-09-28
# デヴァナガリ文字の完全文字認識と書き起こし技術

A complete character recognition and transliteration technique for Devanagari script ( http://arxiv.org/abs/2009.13460v1 )

ライセンス: Link先を確認
Jasmine Kaur and Vinay Kumar(参考訳) 書き起こしは、2つの固有のスクリプトの文字間の音韻的類似性に基づいて、あるスクリプトを別のスクリプトに変換する。 本稿では,文字認識を用いたデヴァナガリ文字の自動書き起こし手法を提案する。 構成文字を分離するための最初のタスクの1つはセグメンテーションである。 本書の行分割手法は重なり合う行の場合について論じる。 文字分割アルゴリズムは、結束と別々の影文字を分割するように設計されている。 シャドウキャラクタのセグメンテーションスキームは連結成分法を用いてキャラクタを分離し、構成キャラクタをそのまま保持する。 2つの位相認識プロセスでは, 領域, ばらつき, 歪度, クルトシスなどの統計的特徴, 文字の構造的特徴が用いられる。 認識された後、デヴァナガリ文字は対応するローマ字にマッピングされ、その結果のローマ字は原文字と類似の発音を持つ。

Transliteration involves transformation of one script to another based on phonetic similarities between the characters of two distinctive scripts. In this paper, we present a novel technique for automatic transliteration of Devanagari script using character recognition. One of the first tasks performed to isolate the constituent characters is segmentation. Line segmentation methodology in this manuscript discusses the case of overlapping lines. Character segmentation algorithm is designed to segment conjuncts and separate shadow characters. Presented shadow character segmentation scheme employs connected component method to isolate the character, keeping the constituent characters intact. Statistical features namely different order moments like area, variance, skewness and kurtosis along with structural features of characters are employed in two phase recognition process. After recognition, constituent Devanagari characters are mapped to corresponding roman alphabets in way that resulting roman alphabets have similar pronunciation to source characters.
翻訳日:2022-10-13 22:17:01 公開日:2020-09-28
# Reactive Supervision: Sarcasmデータを収集する新しい方法

Reactive Supervision: A New Method for Collecting Sarcasm Data ( http://arxiv.org/abs/2009.13080v1 )

ライセンス: Link先を確認
Boaz Shmueli, Lun-Wei Ku, Soumya Ray(参考訳) サーカズム検出は感情コンピューティングにおいて重要なタスクであり、大量のラベル付きデータを必要とする。 本稿では,オンライン会話のダイナミクスを利用して,既存のデータ収集手法の限界を克服する新しいデータ収集手法であるリアクティブ監視を導入する。 我々は,新しい手法を用いて,サカズム・パースペクティブ・ラベルと新しいコンテキスト機能を備えたツイートの初歩的な大規模データセットを作成し,公開する。 データセットは、皮肉検出研究を進めることが期待されている。 本手法は他の感情コンピューティング分野にも適用可能であり,新たな研究機会が開かれる。

Sarcasm detection is an important task in affective computing, requiring large amounts of labeled data. We introduce reactive supervision, a novel data collection method that utilizes the dynamics of online conversations to overcome the limitations of existing data collection techniques. We use the new method to create and release a first-of-its-kind large dataset of tweets with sarcasm perspective labels and new contextual features. The dataset is expected to advance sarcasm detection research. Our method can be adapted to other affective computing domains, thus opening up new research opportunities.
翻訳日:2022-10-13 22:15:44 公開日:2020-09-28
# 物理インフォームド機械学習による高度製造・工学応用における伝熱方程式の解法

A Physics-Informed Machine Learning Approach for Solving Heat Transfer Equation in Advanced Manufacturing and Engineering Applications ( http://arxiv.org/abs/2010.02011v1 )

ライセンス: Link先を確認
Navid Zobeiry, Keith D. Humfeld(参考訳) 導電性伝熱偏微分方程式(pde)と対流伝熱方程式(pdes)を境界条件(bcs)として解くために、オーブンで部品を加熱する製造・工学的応用法を開発した。 対流係数は典型的には未知であるため、試行錯誤有限要素(FE)シミュレーションに基づく現在の解析手法は遅い。 損失関数は、PDE、BC、初期条件を満たすエラーに基づいて定義される。 損失項を同時に減少させる適応正規化方式を開発した。 また、熱伝達理論は特徴工学にも用いられる。 1Dおよび2D症例の予測はFE結果との比較により検証した。 工学的特徴を用いて,トレーニングゾーンを越える熱伝達を予測できることが示されている。 トレーニングされたモデルは、センサーデータに基づくアクティブな製造制御という産業用4.0の概念を実現するために、一連のBCの迅速な評価を可能にする。

A physics-informed neural network is developed to solve conductive heat transfer partial differential equation (PDE), along with convective heat transfer PDEs as boundary conditions (BCs), in manufacturing and engineering applications where parts are heated in ovens. Since convective coefficients are typically unknown, current analysis approaches based on trial and error finite element (FE) simulations are slow. The loss function is defined based on errors to satisfy PDE, BCs and initial condition. An adaptive normalizing scheme is developed to reduce loss terms simultaneously. In addition, theory of heat transfer is used for feature engineering. The predictions for 1D and 2D cases are validated by comparing with FE results. It is shown that using engineered features, heat transfer beyond the training zone can be predicted. Trained model allows for fast evaluation of a range of BCs to develop feedback loops, realizing Industry 4.0 concept of active manufacturing control based on sensor data.
翻訳日:2022-10-13 22:15:21 公開日:2020-09-28
# 信頼感を考慮した可視化心理学分析ツールの開発

The Development of Visualization Psychology Analysis Tools to Account for Trust ( http://arxiv.org/abs/2009.13200v1 )

ライセンス: Link先を確認
Rita Borgo and Darren J Edwards(参考訳) 信頼の定義は、人工知能(AI)、医療ロボット、ドローン、自動運転車、スマートファクトリ(19)など、新しく形成された自律産業のイノベーションの多くに対して、公衆のムードを評価することの適用性を考えると、重要な取り組みである。 信頼性のある指標や信頼度測定手段の開発を通じて、スマートシステムの受容と採用を促進することから、政策立案者に公衆の雰囲気や革新的変革の意思を伝えることまで幅広い影響を与える可能性がある。 本稿では,「信頼」のような複雑な構成物に対する定義や政策決定の問題の解決という文脈において,可視化心理学の発展の重要性と潜在的影響を考察する。

Defining trust is an important endeavor given its applicability to assessing public mood to much of the innovation in the newly formed autonomous industry, such as artificial intelligence (AI),medical bots, drones, autonomous vehicles, and smart factories [19].Through developing a reliable index or means to measure trust,this may have wide impact from fostering acceptance and adoption of smart systems to informing policy makers about the public atmosphere and willingness to adopt innovate change, and has been identified as an important indicator in a recent UK policy brief [8].In this paper, we reflect on the importance and potential impact of developing Visualization Psychology in the context of solving definitions and policy decision making problems for complex constructs such as "trust".
翻訳日:2022-10-13 22:15:05 公開日:2020-09-28
# RRPN++: より正確なシーンテキスト検出へのガイダンス

RRPN++: Guidance Towards More Accurate Scene Text Detection ( http://arxiv.org/abs/2009.13118v1 )

ライセンス: Link先を確認
Jianqi Ma(参考訳) RRPNは優れたシーンテキスト検出手法の1つであるが、手動で設計したアンカーと粗い提案の改良により、まだ性能は完璧には程遠い。 本稿では, RRPN ベースのモデルの可能性を活用するために RRPN++ を提案する。 RRPNに基づいて、アンカーフリーなピラミッド提案ネットワーク(APPN)を提案し、アンカーフリーな設計を採用して提案数を削減し、推論速度を高速化する。 第2段階では、検出ブランチと認識ブランチの両方を組み込んでマルチタスク学習を行う。 推測段階では、検出部は提案の洗練を出力し、認識部は精製されたテキスト領域の転写を予測する。 さらに、認識ブランチは、提案の再調整や、結合フィルタリング戦略による偽陽性提案の排除にも役立っている。 これらの拡張により,IRPNと比較してICDAR2015のF値が6.5%向上した。 他のベンチマークで行った実験では、モデルの優れた性能と効率が示されている。

RRPN is among the outstanding scene text detection approaches, but the manually-designed anchor and coarse proposal refinement make the performance still far from perfection. In this paper, we propose RRPN++ to exploit the potential of RRPN-based model by several improvements. Based on RRPN, we propose the Anchor-free Pyramid Proposal Networks (APPN) to generate first-stage proposals, which adopts the anchor-free design to reduce proposal number and accelerate the inference speed. In our second stage, both the detection branch and the recognition branch are incorporated to perform multi-task learning. In inference stage, the detection branch outputs the proposal refinement and the recognition branch predicts the transcript of the refined text region. Further, the recognition branch also helps rescore the proposals and eliminate the false positive proposals by the jointing filtering strategy. With these enhancements, we boost the detection results by $6\%$ of F-measure in ICDAR2015 compared to RRPN. Experiments conducted on other benchmarks also illustrate the superior performance and efficiency of our model.
翻訳日:2022-10-13 22:08:17 公開日:2020-09-28
# k-NNアルゴリズムを用いた視線リンクと頭部運動特徴に基づくドライバの眠気分類

Driver Drowsiness Classification Based on Eye Blink and Head Movement Features Using the k-NN Algorithm ( http://arxiv.org/abs/2009.13276v1 )

ライセンス: Link先を確認
Mariella Dreissig, Mohamed Hedi Baccour, Tim Schaeck, Enkelejda Kasneci(参考訳) 最近の先進運転支援システムは運転性能を分析し、運転状態に関する情報を収集する。 このようなシステムは、例えば、ステアリングやレーン維持動作を評価して眠気の兆候を検出し、眠気状態がクリティカルレベルに達したときにドライバーに警告することができる。 しかし、この種のシステムは運転者の状態に関する直接の手がかりにアクセスできない。 そこで本研究の目的は,運転者監視カメラの信号を用いて車両の眠気検出を拡張させることである。 この目的のために, 運転シミュレータ実験において, 運転者の点滅行動と頭部運動に関する35の特徴を抽出した。 この大きなデータセットに基づいて,運転者の状態分類のためのk-Nearest Neighborアルゴリズムに基づく特徴選択手法を開発し,評価した。 最高の特徴セットの分析は、運転者の瞬き行動と頭部の動きに対する眠気の影響についての貴重な洞察を与える。 これらの知見は、疲労による事故を防止するために、堅牢で信頼性の高い運転者の眠気モニタリングシステムの開発に役立ちます。

Modern advanced driver-assistance systems analyze the driving performance to gather information about the driver's state. Such systems are able, for example, to detect signs of drowsiness by evaluating the steering or lane keeping behavior and to alert the driver when the drowsiness state reaches a critical level. However, these kinds of systems have no access to direct cues about the driver's state. Hence, the aim of this work is to extend the driver drowsiness detection in vehicles using signals of a driver monitoring camera. For this purpose, 35 features related to the driver's eye blinking behavior and head movements are extracted in driving simulator experiments. Based on that large dataset, we developed and evaluated a feature selection method based on the k-Nearest Neighbor algorithm for the driver's state classification. A concluding analysis of the best performing feature sets yields valuable insights about the influence of drowsiness on the driver's blink behavior and head movements. These findings will help in the future development of robust and reliable driver drowsiness monitoring systems to prevent fatigue-induced accidents.
翻訳日:2022-10-13 22:07:59 公開日:2020-09-28
# 自己スーパービジョンによる多視点ステレオ適応学習

Learning to Adapt Multi-View Stereo by Self-Supervision ( http://arxiv.org/abs/2009.13278v1 )

ライセンス: Link先を確認
Arijit Mallick, J\"org St\"uckler, Hendrik Lensch(参考訳) 複数視点からの3次元シーン再構成はコンピュータビジョンの重要な古典的問題である。 ディープラーニングベースのアプローチは最近、印象的な再構築結果を示している。 このようなモデルをトレーニングする場合、教師付きトレーニングに必要な地上の真理データに頼らず、入手が困難な場合が多いため、自己管理手法が好ましい。 さらに、学習した多視点ステレオ再構成は環境変化を起こしやすく、異なる領域に堅牢に一般化すべきである。 本稿では,新しい対象領域への適応性を向上させるために,深層ニューラルネットワークを訓練する多視点ステレオの適応学習手法を提案する。 モデルに依存しないメタラーニング(MAML)をベースパラメータのトレーニングに使用し,新たなドメインのマルチビューステレオに自己教師付きトレーニングを施した。 提案手法は,新しいドメインにおける自己教師付き多視点ステレオ再構成の学習に有効であることを示す。

3D scene reconstruction from multiple views is an important classical problem in computer vision. Deep learning based approaches have recently demonstrated impressive reconstruction results. When training such models, self-supervised methods are favourable since they do not rely on ground truth data which would be needed for supervised training and is often difficult to obtain. Moreover, learned multi-view stereo reconstruction is prone to environment changes and should robustly generalise to different domains. We propose an adaptive learning approach for multi-view stereo which trains a deep neural network for improved adaptability to new target domains. We use model-agnostic meta-learning (MAML) to train base parameters which, in turn, are adapted for multi-view stereo on new domains through self-supervised training. Our evaluations demonstrate that the proposed adaptation method is effective in learning self-supervised multi-view stereo reconstruction in new domains.
翻訳日:2022-10-13 22:07:43 公開日:2020-09-28
# ポイントクラウド分類のためのマルチスケール受容場グラフ注意ネットワーク

Multi-scale Receptive Fields Graph Attention Network for Point Cloud Classification ( http://arxiv.org/abs/2009.13289v1 )

ライセンス: Link先を確認
Xi-An Li, Lei Zhang, Li-Yan Wang, Jian Lu(参考訳) 点雲の意味を理解することは、点雲の不規則でスパースな構造のため、分類や区分の目標を達成することが依然として難しい。 ご存知の通り、PointNetアーキテクチャはポイントクラウドのための画期的な作業であり、非秩序の3Dポイントクラウド上で機能を効率的に形作り、良好なパフォーマンスを実現しています。 しかし、このモデルは、ポイントクラウドの局所構造の細かな意味情報を考慮しない。 その後、ポイントクラウドのローカルパッチのセマンティックな特徴を利用して、ポイントネットの性能を高めるために、多くの貴重な作品が提案されている。 本稿では,ポイントクラウド分類のためのマルチスケール受容場グラフアテンションネットワーク(MRFGATに因んで名づけられた)を提案する。 ポイントクラウドの局所的な微細な特徴に着目し,チャネル親和性に基づくマルチアテンションモジュールを適用することにより,ネットワークの学習した特徴マップが,ポイントクラウドの豊富な特徴情報をうまく捉えることができる。 MRFGAT アーキテクチャは ModelNet10 と ModelNet40 のデータセットでテストされ,その結果,形状分類タスクにおける最先端性能が得られた。

Understanding the implication of point cloud is still challenging to achieve the goal of classification or segmentation due to the irregular and sparse structure of point cloud. As we have known, PointNet architecture as a ground-breaking work for point cloud which can learn efficiently shape features directly on unordered 3D point cloud and have achieved favorable performance. However, this model fail to consider the fine-grained semantic information of local structure for point cloud. Afterwards, many valuable works are proposed to enhance the performance of PointNet by means of semantic features of local patch for point cloud. In this paper, a multi-scale receptive fields graph attention network (named after MRFGAT) for point cloud classification is proposed. By focusing on the local fine features of point cloud and applying multi attention modules based on channel affinity, the learned feature map for our network can well capture the abundant features information of point cloud. The proposed MRFGAT architecture is tested on ModelNet10 and ModelNet40 datasets, and results show it achieves state-of-the-art performance in shape classification tasks.
翻訳日:2022-10-13 22:07:29 公開日:2020-09-28
# PIN: 音声言語理解のための新しい並列対話型ネットワーク

PIN: A Novel Parallel Interactive Network for Spoken Language Understanding ( http://arxiv.org/abs/2009.13431v1 )

ライセンス: Link先を確認
Peilin Zhou, Zhiqi Huang, Fenglin Liu, Yuexian Zou(参考訳) 音声言語理解(SLU)は、通常、意図検出(ID)とスロットフィリング(SF)タスクからなる音声対話システムにおいて不可欠な部分である。 近年、リカレントニューラルネットワーク(RNN)に基づく手法がSLUの最先端を達成している。 既存の RNN ベースのアプローチでは,ID と SF のタスクは,それらの相関情報を利用するために,しばしば共同でモデル化される。 しかし,これまでは,IDとSF間の双方向・明示的な情報交換を支援することで,より優れた性能を得るための取り組みが十分に研究されていない点に留意した。 そこで本研究では,IDとSFの相互誘導をモデル化するために,PIN(Parallel Interactive Network)を提案する。 具体的には、発話が与えられた場合、ガウスの自己注意エンコーダを導入して、ローカルコンテキスト情報をキャプチャ可能な発話のコンテキスト認識機能埋め込みを生成する。 Slot2IntentモジュールとIntent2Slotモジュールは、発話の機能を組み込んで、IDとSFタスクの双方向情報フローをキャプチャする。 最後に,Slot2IntentおよびIntent2Slotモジュールから得られた情報を融合して予測バイアスをさらに低減する協調機構を構築し,SNIPSとATISという2つのベンチマークデータセットを用いた実験により,最先端モデルによる競合的な結果が得られることを示す。 さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。

Spoken Language Understanding (SLU) is an essential part of the spoken dialogue system, which typically consists of intent detection (ID) and slot filling (SF) tasks. Recently, recurrent neural networks (RNNs) based methods achieved the state-of-the-art for SLU. It is noted that, in the existing RNN-based approaches, ID and SF tasks are often jointly modeled to utilize the correlation information between them. However, we noted that, so far, the efforts to obtain better performance by supporting bidirectional and explicit information exchange between ID and SF are not well studied.In addition, few studies attempt to capture the local context information to enhance the performance of SF. Motivated by these findings, in this paper, Parallel Interactive Network (PIN) is proposed to model the mutual guidance between ID and SF. Specifically, given an utterance, a Gaussian self-attentive encoder is introduced to generate the context-aware feature embedding of the utterance which is able to capture local context information. Taking the feature embedding of the utterance, Slot2Intent module and Intent2Slot module are developed to capture the bidirectional information flow for ID and SF tasks. Finally, a cooperation mechanism is constructed to fuse the information obtained from Slot2Intent and Intent2Slot modules to further reduce the prediction bias.The experiments on two benchmark datasets, i.e., SNIPS and ATIS, demonstrate the effectiveness of our approach, which achieves a competitive result with state-of-the-art models. More encouragingly, by using the feature embedding of the utterance generated by the pre-trained language model BERT, our method achieves the state-of-the-art among all comparison approaches.
翻訳日:2022-10-13 22:00:39 公開日:2020-09-28
# 相対的な位置埋め込みを改良したトランスフォーマーモデルの改善

Improve Transformer Models with Better Relative Position Embeddings ( http://arxiv.org/abs/2009.13658v1 )

ライセンス: Link先を確認
Zhiheng Huang, Davis Liang, Peng Xu, Bing Xiang(参考訳) トランスフォーマーアーキテクチャは、語順の概念を保存するために明示的な位置符号化に依存している。 本稿では,既存の作業が位置情報を十分に活用していないことを論じる。 例えば、正弦波埋め込みの最初の提案は固定され、学習できない。 本稿では,まず絶対位置埋め込みと既存の相対位置埋め込み法について検討する。 次に,クエリ,キー,および相対的な位置埋め込み間の相互作用を促進する新しい手法を提案する。 我々の最も有望なアプローチは絶対位置埋め込みの一般化であり、以前の位置埋め込みのアプローチと比較してSQuAD1.1の結果を改善する。 さらに、位置埋め込みが長い列を扱うのに十分な頑健であるかどうかという帰納的性質にも対処する。 我々は,相対的な位置埋め込み法が帰納的観点から合理的に一般化され,堅牢であることを示す。 最後に,提案手法は小型の計算予算で大規模モデルの精度を向上させるため,ほぼドロップインの代替として適用可能であることを示す。

Transformer architectures rely on explicit position encodings in order to preserve a notion of word order. In this paper, we argue that existing work does not fully utilize position information. For example, the initial proposal of a sinusoid embedding is fixed and not learnable. In this paper, we first review absolute position embeddings and existing methods for relative position embeddings. We then propose new techniques that encourage increased interaction between query, key and relative position embeddings in the self-attention mechanism. Our most promising approach is a generalization of the absolute position embedding, improving results on SQuAD1.1 compared to previous position embeddings approaches. In addition, we address the inductive property of whether a position embedding can be robust enough to handle long sequences. We demonstrate empirically that our relative position embedding method is reasonably generalized and robust from the inductive perspective. Finally, we show that our proposed method can be adopted as a near drop-in replacement for improving the accuracy of large models with a small computational budget.
翻訳日:2022-10-13 22:00:11 公開日:2020-09-28
# 確率論理とファジィ論理のフィブリングによる不確定線形論理

Uncertain Linear Logic via Fibring of Probabilistic and Fuzzy Logic ( http://arxiv.org/abs/2009.12990v1 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 命題の単純な意味論から始めて, 数え上げ観測に基づいて, 確率的論理とファジィ論理は, 証拠ベースが現在使用できない命題の組み合わせに関する2つの異なるヒューリスティックな仮定に対応することを示した。 これら2つの異なるヒューリスティックな仮定は、格子演算を通じて量的真理値を伝播する2つの異なる公式の集合をもたらす。 この2つの式は、線形論理における乗法および加法的作用素集合の自然な基底を与える。 線形論理の標準規則は、基礎となる意味論の結果として現れる。 ここでは「資源の論理」としての線形論理の概念が「証拠の保存」の原理によって示される -- 線形論理の弱化と収縮に対する制限は、証拠の二重カウントを避けるのに役立つ(ヒューリスティックな真理値関数によって得られる二重カウントに加えて)。

Beginning with a simple semantics for propositions, based on counting observations, it is shown that probabilistic and fuzzy logic correspond to two different heuristic assumptions regarding the combination of propositions whose evidence bases are not currently available. These two different heuristic assumptions lead to two different sets of formulas for propagating quantitative truth values through lattice operations. It is shown that these two sets of formulas provide a natural grounding for the multiplicative and additive operator-sets in linear logic. The standard rules of linear logic then emerge as consequences of the underlying semantics. The concept of linear logic as a ``logic of resources" is manifested here via the principle of ``conservation of evidence" -- the restrictions to weakening and contraction in linear logic serve to avoid double-counting of evidence (beyond any double-counting incurred via use of heuristic truth value functions).
翻訳日:2022-10-13 21:59:56 公開日:2020-09-28
# エントロピー的連想記憶

An Entropic Associative Memory ( http://arxiv.org/abs/2009.13058v1 )

ライセンス: Link先を確認
Luis A. Pineda and Gibr\'an Fuentes and Rafael Morales(参考訳) 自然記憶は連想的、宣言的、分散的である。 シンボリック・コンピューティング・メモリはその宣言的特徴において自然記憶に似ており、情報を明示的に保存して復元することができるが、それらは自然記憶の連想的および分散的特性を欠いている。 コネクショニストや人工ニューラルネットワークのパラダイム内で開発されたサブシンボリックメモリは、連想的かつ分散的だが、シンボル構造を表現することができず、情報を明示的に保存・取得することはできない。 このジレンマに対処するために、Relational-Indeterminate Computingを用いて、個々のオブジェクトの分散表現を保持する連想メモリレジスタをモデル化する。 この計算モードは、表現の不確定性を測定する固有の計算エントロピーを持つ。 このパラメータはメモリの動作特性を決定する。 連想レジスタは、モダリティ固有のバッファで表現された具体的な画像を抽象表現にマッピングするアーキテクチャに埋め込まれており、その逆もまた、メモリシステム全体が自然記憶の3つの特性を満たす。 このシステムは、手書きの数字の表現を保持する視覚的メモリのモデル化に使われており、認識とリコールの実験では、連想メモリレジスタが十分な性能を持つエントロピー値の範囲があることが示されている。 メモリ取得操作で回収されたcueとオブジェクトの類似性は、対応するオブジェクトの表現を保持するメモリレジスタのエントロピーに依存する。 実験は、標準的なコンピュータを使ったシミュレーションで実装されたが、メモリ操作が非常に少ない計算ステップを必要とする並列アーキテクチャを構築することができる。

Natural memories are associative, declarative and distributed. Symbolic computing memories resemble natural memories in their declarative character, and information can be stored and recovered explicitly; however, they lack the associative and distributed properties of natural memories. Sub-symbolic memories developed within the connectionist or artificial neural networks paradigm are associative and distributed, but are unable to express symbolic structure and information cannot be stored and retrieved explicitly; hence, they lack the declarative property. To address this dilemma, we use Relational-Indeterminate Computing to model associative memory registers that hold distributed representations of individual objects. This mode of computing has an intrinsic computing entropy which measures the indeterminacy of representations. This parameter determines the operational characteristics of the memory. Associative registers are embedded in an architecture that maps concrete images expressed in modality-specific buffers into abstract representations, and vice versa, and the memory system as a whole fulfills the three properties of natural memories. The system has been used to model a visual memory holding the representations of hand-written digits, and recognition and recall experiments show that there is a range of entropy values, not too low and not too high, in which associative memory registers have a satisfactory performance. The similarity between the cue and the object recovered in memory retrieve operations depends on the entropy of the memory register holding the representation of the corresponding object. The experiments were implemented in a simulation using a standard computer, but a parallel architecture may be built where the memory operations would take a very reduced number of computing steps.
翻訳日:2022-10-13 21:59:40 公開日:2020-09-28
# ビデオ・テンポラル超解像へのAIM 2020の挑戦

AIM 2020 Challenge on Video Temporal Super-Resolution ( http://arxiv.org/abs/2009.12987v1 )

ライセンス: Link先を確認
Sanghyun Son, Jaerin Lee, Seungjun Nah, Radu Timofte, Kyoung Mu Lee(参考訳) 実世界のビデオには、記録されたフレームレートが低い時間に不連続に見える様々なダイナミクスや動きが含まれている。 本稿では,ビデオ・テンポラリ・スーパーレゾリューション(vtsr, a.k.a. frame interpolation)に関する第2のaimチャレンジについて,提案する解,結果,分析に焦点を当てて報告する。 低フレームレート(15fps)ビデオから、時間的中間フレームを推定することにより、挑戦参加者は高フレームレート(30fpsと60fps)のシーケンスを提出する必要がある。 実世界の現実的かつ挑戦的なダイナミクスをシミュレートするために,手持ちカメラで撮影した多様なビデオから得られたREDS_VTSRデータセットを用いて,トレーニングと評価を行う。 大会には68人の登録参加者が参加し、5つのチーム(1人が離脱)が最終テストフェーズに出場した。 優勝チームは、強化された二次的ビデオ補間法を提案し、VTSRタスクの最先端を実現する。

Videos in the real-world contain various dynamics and motions that may look unnaturally discontinuous in time when the recordedframe rate is low. This paper reports the second AIM challenge on Video Temporal Super-Resolution (VTSR), a.k.a. frame interpolation, with a focus on the proposed solutions, results, and analysis. From low-frame-rate (15 fps) videos, the challenge participants are required to submit higher-frame-rate (30 and 60 fps) sequences by estimating temporally intermediate frames. To simulate realistic and challenging dynamics in the real-world, we employ the REDS_VTSR dataset derived from diverse videos captured in a hand-held camera for training and evaluation purposes. There have been 68 registered participants in the competition, and 5 teams (one withdrawn) have competed in the final testing phase. The winning team proposes the enhanced quadratic video interpolation method and achieves state-of-the-art on the VTSR task.
翻訳日:2022-10-13 21:58:43 公開日:2020-09-28
# 映像に基づく人物再同定のための集中型マルチグラインドマルチアテンションネットワーク

Concentrated Multi-Grained Multi-Attention Network for Video Based Person Re-Identification ( http://arxiv.org/abs/2009.13019v1 )

ライセンス: Link先を確認
Panwen Hu, Jiazhen Liu and Rui Huang(参考訳) 咬合はビデオベースのRe-ID(Re-ID)タスクにおいて依然として深刻な問題であり、これは成功率に大きな影響を与える。 注意機構は、多くの既存手法による閉塞問題の解決に有用であることが証明されている。 しかし、それらの注意機構は、ビデオから最終的な表現に十分な識別情報を抽出する能力に欠ける。 既存の手法で採用されているシングルアテンション・モジュール・スキームでは,マルチスケールな空間的手がかりが利用できないため,個人の複数のサニエント部分によってシングルアテンション・モジュールの注意が分散される。 本稿では,2つのマルチアテンションモジュールを設計し,マルチスケールの中間機能を処理して多粒度情報を抽出する,集中型マルチアテンションネットワーク(CMMANet)を提案する。 さらに、マルチアテンションモジュール内の複数のアテンションサブモジュールは、ビデオフレームの複数の識別領域を自動的に発見することができる。 この目的を達成するために,マルチアテンションモジュールのサブモジュールを多様化するための多様性損失と,それぞれのサブモジュールが特定の意味のある部分に集中できるように注意応答を統合するための集中損失を導入する。 実験の結果,提案手法は複数の公開データセットに対して,最先端の手法よりも大きなマージンを有することがわかった。

Occlusion is still a severe problem in the video-based Re-IDentification (Re-ID) task, which has a great impact on the success rate. The attention mechanism has been proved to be helpful in solving the occlusion problem by a large number of existing methods. However, their attention mechanisms still lack the capability to extract sufficient discriminative information into the final representations from the videos. The single attention module scheme employed by existing methods cannot exploit multi-scale spatial cues, and the attention of the single module will be dispersed by multiple salient parts of the person. In this paper, we propose a Concentrated Multi-grained Multi-Attention Network (CMMANet) where two multi-attention modules are designed to extract multi-grained information through processing multi-scale intermediate features. Furthermore, multiple attention submodules in each multi-attention module can automatically discover multiple discriminative regions of the video frames. To achieve this goal, we introduce a diversity loss to diversify the submodules in each multi-attention module, and a concentration loss to integrate their attention responses so that each submodule can strongly focus on a specific meaningful part. The experimental results show that the proposed approach outperforms the state-of-the-art methods by large margins on multiple public datasets.
翻訳日:2022-10-13 21:58:23 公開日:2020-09-28
# タイムスタンプ画像符号化ネットワークを用いたイベントベース行動認識

Event-based Action Recognition Using Timestamp Image Encoding Network ( http://arxiv.org/abs/2009.13049v1 )

ライセンス: Link先を確認
Chaoxing Huang(参考訳) イベントカメラは、人間の行動認識タスクに適した低消費電力の非同期で高周波な視覚センサである。 イベントデータの時空間情報を適切にエンコードし、標準コンピュータビジョンツールを用いてデータから学習することが不可欠である。 本研究では,イベントデータの空間時空間画像を入力とし,動作ラベルを出力する2Dネットワークを符号化するタイムスタンプ画像を提案する。 実験の結果,本手法は実世界の行動認識におけるRGBベースベンチマークと同等の性能を示し,ジェスチャー認識におけるSOTA結果も達成できることがわかった。

Event camera is an asynchronous, high frequency vision sensor with low power consumption, which is suitable for human action recognition task. It is vital to encode the spatial-temporal information of event data properly and use standard computer vision tool to learn from the data. In this work, we propose a timestamp image encoding 2D network, which takes the encoded spatial-temporal images of the event data as input and output the action label. Experiment results show that our method can achieve the same level of performance as those RGB-based benchmarks on real world action recognition, and also achieve the SOTA result on gesture recognition.
翻訳日:2022-10-13 21:58:00 公開日:2020-09-28
# ビデオからの唇読解における唇局所化手法の検討

A Study on Lip Localization Techniques used for Lip reading from a Video ( http://arxiv.org/abs/2009.13420v1 )

ライセンス: Link先を確認
S.D. Lalitha, K.K. Thyagharajan(参考訳) 本稿では,顔から唇を局所化する手法のいくつかについて検討し,その処理手順と対比する。 唇の位置は、ビデオ入力から視覚情報を抽出するために唇を読むために必要な基本的なステップである。 この技術は、非対称な唇や、目に見える歯、舌、口ひげを持つ口にも応用できる。 リップ読みの過程では、一般的に以下の手順が用いられる。 最初はビデオ入力の最初のフレームに唇を配置し、その後、最初のステップのピクセルポイントを用いて次のフレームで唇を追跡し、最後に追跡された唇モデルを対応する文字に変換して視覚情報を与える。 議論された手法から新しい提案も開始される。 このリップ読みは、通信システムにおいて、音声が欠落したり低音であったりした場合に、自動音声認識において有用である。 人間のコンピュータ通信も音声認識を必要とする。

In this paper some of the different techniques used to localize the lips from the face are discussed and compared along with its processing steps. Lip localization is the basic step needed to read the lips for extracting visual information from the video input. The techniques could be applied on asymmetric lips and also on the mouth with visible teeth, tongue & mouth with moustache. In the process of Lip reading the following steps are generally used. They are, initially locating lips in the first frame of the video input, then tracking the lips in the following frames using the resulting pixel points of initial step and at last converting the tracked lip model to its corresponding matched letter to give the visual information. A new proposal is also initiated from the discussed techniques. The lip reading is useful in Automatic Speech Recognition when the audio is absent or present low with or without noise in the communication systems. Human Computer communication also will require speech recognition.
翻訳日:2022-10-13 21:51:33 公開日:2020-09-28
# MPG-Net:OCT画像における網膜層分割のためのマルチプレディションガイドネットワーク

MPG-Net: Multi-Prediction Guided Network for Segmentation of Retinal Layers in OCT Images ( http://arxiv.org/abs/2009.13634v1 )

ライセンス: Link先を確認
Zeyu Fu, Yang Sun, Xiangyu Zhang, Scott Stainton, Shaun Barney, Jeffry Hogg, William Innes and Satnam Dlay(参考訳) 光コヒーレンストモグラフィ(OCT)は高分解能網膜情報を抽出する一般的な方法である。 さらに、網膜疾患の診断を容易にする自動網膜層分割の需要が高まっている。 本稿では,OCT画像の自動網膜層分割のための新しいマルチプレディション誘導アテンションネットワーク(MPG-Net)を提案する。 提案手法は,信頼性の高い自動セグメンテーションのためのU字型完全畳み込みネットワーク(FCN)の識別力を強化する2つの主要なステップから構成される。 まず、特徴チャネルを適応的に再重み付けする特徴改善モジュールをエンコーダに利用して、より情報性の高い特徴をキャプチャし、無関係な領域で情報を破棄する。 さらに,各スケールでのセグメンテーションマスクの復元性を高めるために,画素別意味予測ガイダンスを提供するマルチプレディクション誘導注意機構を提案する。 深い監督を監督対象に転換するこのメカニズムは、中間層間のよりセマンティックな情報で特徴集約を導くことができる。 公開されているDuke OCTデータセットの実験では、提案手法の有効性が確認され、他の最先端手法よりも性能が向上した。

Optical coherence tomography (OCT) is a commonly-used method of extracting high resolution retinal information. Moreover there is an increasing demand for the automated retinal layer segmentation which facilitates the retinal disease diagnosis. In this paper, we propose a novel multiprediction guided attention network (MPG-Net) for automated retinal layer segmentation in OCT images. The proposed method consists of two major steps to strengthen the discriminative power of a U-shape Fully convolutional network (FCN) for reliable automated segmentation. Firstly, the feature refinement module which adaptively re-weights the feature channels is exploited in the encoder to capture more informative features and discard information in irrelevant regions. Furthermore, we propose a multi-prediction guided attention mechanism which provides pixel-wise semantic prediction guidance to better recover the segmentation mask at each scale. This mechanism which transforms the deep supervision to supervised attention is able to guide feature aggregation with more semantic information between intermediate layers. Experiments on the publicly available Duke OCT dataset confirm the effectiveness of the proposed method as well as an improved performance over other state-of-the-art approaches.
翻訳日:2022-10-13 21:51:19 公開日:2020-09-28
# 解剖学的ランドマーク検出のためのクロスタスク表現学習

Cross-Task Representation Learning for Anatomical Landmark Detection ( http://arxiv.org/abs/2009.13635v1 )

ライセンス: Link先を確認
Zeyu Fu, Jianbo Jiao, Michael Suttie, J. Alison Noble(参考訳) 近年,後続の医用画像解析を容易にする構造情報を提供する解剖学的ランドマークを自動的に検出する需要が高まっている。 このタスクに関連する現在の手法はディープニューラルネットワークのパワーを利用することが多いが、医学的応用においてそのようなモデルを微調整する上で大きな課題はラベル付きサンプルの数が不足していることである。 そこで本稿では,クロスタスク表現学習を通じて,ソースとターゲットタスク間の知識伝達を規則化する手法を提案する。 提案手法は胎児アルコール症候群の診断を容易にする顔面解剖学的ランドマークの抽出に有用である。 この研究のソースとターゲットのタスクは、それぞれ顔認識とランドマーク検出である。 提案手法の主な考え方は、対象タスクデータに対するソースモデルの特徴表現を保持し、対象モデル学習を正則化するための監視信号の追加源として活用し、限られたトレーニングサンプルでの性能を向上させることである。 具体的には,対象モデル上で最終または中間のモデル特徴を制約することにより,提案する表現学習のための2つのアプローチを提案する。 臨床顔画像データセットにおける実験結果から,提案手法はラベル付きデータが少なく,他の比較手法よりも優れていることが示された。

Recently, there is an increasing demand for automatically detecting anatomical landmarks which provide rich structural information to facilitate subsequent medical image analysis. Current methods related to this task often leverage the power of deep neural networks, while a major challenge in fine tuning such models in medical applications arises from insufficient number of labeled samples. To address this, we propose to regularize the knowledge transfer across source and target tasks through cross-task representation learning. The proposed method is demonstrated for extracting facial anatomical landmarks which facilitate the diagnosis of fetal alcohol syndrome. The source and target tasks in this work are face recognition and landmark detection, respectively. The main idea of the proposed method is to retain the feature representations of the source model on the target task data, and to leverage them as an additional source of supervisory signals for regularizing the target model learning, thereby improving its performance under limited training samples. Concretely, we present two approaches for the proposed representation learning by constraining either final or intermediate model features on the target model. Experimental results on a clinical face image dataset demonstrate that the proposed approach works well with few labeled data, and outperforms other compared approaches.
翻訳日:2022-10-13 21:51:02 公開日:2020-09-28
# COVID-CT-MD: 機械学習とディープラーニングに適用可能な COVID-19 Computed Tomography (CT) Scan Dataset

COVID-CT-MD: COVID-19 Computed Tomography (CT) Scan Dataset Applicable in Machine Learning and Deep Learning ( http://arxiv.org/abs/2009.14623v1 )

ライセンス: Link先を確認
Parnian Afshar, Shahin Heidarian, Nastaran Enshaei, Farnoosh Naderkhani, Moezedin Javad Rafiee, Anastasia Oikonomou, Faranak Babaki Fard, Kaveh Samimi, Konstantinos N. Plataniotis, Arash Mohammadi(参考訳) 新型コロナウイルス(COVID-19)は、2019年後半の流行以来、数百万人以上が犠牲となり、100万人近くが命を落としている。 この非常に伝染性の病気は容易に拡散し、タイムリーに制御されないと、医療システムに急速に機能不全を引き起こす。 現在の標準診断法であるReverse Transcription Polymerase Chain Reaction (RT-PCR)は、時間がかかり、感度が低い。 Chest Radiograph (CXR) は、最初に使用される画像モダリティであり、すぐに利用でき、すぐに結果が得られる。 しかし、CT(Computed Tomography)よりも感度が低いことで知られており、他の診断法を効率的に補完することができる。 本稿では、COVID-19CTスキャンデータセット(COVID-CT-MD)を新たに導入し、COVID-19の患者だけでなく、健康な患者や、Community Acquired Pneumonia (CAP) に感染した患者も紹介する。 新型コロナウイルス(COVID-CT-MD)のデータセットには、ロブレベル、スライスレベル、および患者レベルのラベルが添付されているが、COVID-19の研究を促進する可能性があり、特にCOVID-CT-MDは、高度な機械学習(ML)とディープニューラルネットワーク(DNN)ベースのソリューションの開発を支援することができる。

Novel Coronavirus (COVID-19) has drastically overwhelmed more than 200 countries affecting millions and claiming almost 1 million lives, since its emergence in late 2019. This highly contagious disease can easily spread, and if not controlled in a timely fashion, can rapidly incapacitate healthcare systems. The current standard diagnosis method, the Reverse Transcription Polymerase Chain Reaction (RT- PCR), is time consuming, and subject to low sensitivity. Chest Radiograph (CXR), the first imaging modality to be used, is readily available and gives immediate results. However, it has notoriously lower sensitivity than Computed Tomography (CT), which can be used efficiently to complement other diagnostic methods. This paper introduces a new COVID-19 CT scan dataset, referred to as COVID-CT-MD, consisting of not only COVID-19 cases, but also healthy and subjects infected by Community Acquired Pneumonia (CAP). COVID-CT-MD dataset, which is accompanied with lobe-level, slice-level and patient-level labels, has the potential to facilitate the COVID-19 research, in particular COVID-CT-MD can assist in development of advanced Machine Learning (ML) and Deep Neural Network (DNN) based solutions.
翻訳日:2022-10-13 21:50:42 公開日:2020-09-28
# 補間条件下でのサドル点の脱出

Escaping Saddle-Points Faster under Interpolation-like Conditions ( http://arxiv.org/abs/2009.13016v1 )

ライセンス: Link先を確認
Abhishek Roy, Krishnakumar Balasubramanian, Saeed Ghadimi, Prasant Mohapatra(参考訳) 本稿では,過パラメータ化下では,いくつかの標準確率最適化アルゴリズムが鞍点を回避し,より高速に局所最小化器に収束することを示す。 過パラメータモデルの基本的な側面の1つは、トレーニングデータを補間できることだ。 過パラメトリゼーション設定における確率勾配で満たされる補間的仮定の下では、摂動確率勾配Descent(PSGD)アルゴリズムの1次オラクル複雑性が$\epsilon$-local-minimizerに到達し、対応する決定論的速度が$\tilde{\mathcal{O}}(1/\epsilon^{2})$と一致することを示す。 次に補間的立方体規則化ニュートン(SCRN)アルゴリズムを補間的条件下で解析し,補間的条件下で局所最小化器に到達するオラクルの複雑さが$\tilde{\mathcal{O}}(1/\epsilon^{2.5})$であることを示す。 この複雑性はPSGDやSCRNの補間的仮定のない複雑性よりも優れているが、決定論的立方正則化ニュートン法に対応する$\tilde{\mathcal{O}}(1/\epsilon^{1.5})$と一致しない。 このギャップを埋めるには、さらにヘッセンに基づく補間のような仮定が必要であるようである。 また,ゼロ次設定における複雑度の改善についても考察する。

In this paper, we show that under over-parametrization several standard stochastic optimization algorithms escape saddle-points and converge to local-minimizers much faster. One of the fundamental aspects of over-parametrized models is that they are capable of interpolating the training data. We show that, under interpolation-like assumptions satisfied by the stochastic gradients in an over-parametrization setting, the first-order oracle complexity of Perturbed Stochastic Gradient Descent (PSGD) algorithm to reach an $\epsilon$-local-minimizer, matches the corresponding deterministic rate of $\tilde{\mathcal{O}}(1/\epsilon^{2})$. We next analyze Stochastic Cubic-Regularized Newton (SCRN) algorithm under interpolation-like conditions, and show that the oracle complexity to reach an $\epsilon$-local-minimizer under interpolation-like conditions, is $\tilde{\mathcal{O}}(1/\epsilon^{2.5})$. While this obtained complexity is better than the corresponding complexity of either PSGD, or SCRN without interpolation-like assumptions, it does not match the rate of $\tilde{\mathcal{O}}(1/\epsilon^{1.5})$ corresponding to deterministic Cubic-Regularized Newton method. It seems further Hessian-based interpolation-like assumptions are necessary to bridge this gap. We also discuss the corresponding improved complexities in the zeroth-order settings.
翻訳日:2022-10-13 21:50:19 公開日:2020-09-28
# クレデンシャル・スコーリングにおける機械学習モデルの透明性, 聴取性, eXplainability

Transparency, Auditability and eXplainability of Machine Learning Models in Credit Scoring ( http://arxiv.org/abs/2009.13384v1 )

ライセンス: Link先を確認
Michael B\"ucker and Gero Szepannek and Alicja Gosiewska and Przemyslaw Biecek(参考訳) 信用スコアリングモデルの主要な要件は、最大限正確なリスク予測を提供することである。 さらに、規制当局はこれらのモデルを透明で監査可能であるように要求している。 したがって、クレジットスコアリングでは、ロジスティック回帰や決定木のような非常に単純な予測モデルが依然として広く使われており、現代の機械学習アルゴリズムの優れた予測能力は十分に活用できない。 そのため、大きな潜在能力が失われ、リザーブやクレジットのデフォルトが高くなる。 本稿では、クレジットスコアリングモデルを理解可能にするために考慮すべき異なる次元を取り上げ、‘ブラックボックス’の機械学習モデルを透過的かつ監査可能かつ説明可能なものにするためのフレームワークを提案する。 この枠組みに従い,信用スコアにどのように適用できるか,また,スコアカードの解釈可能性と結果の比較について概説する。 実世界のケーススタディでは、機械学習技術が予測能力を向上させる能力を維持しながら、同等の解釈可能性を達成することができる。

A major requirement for credit scoring models is to provide a maximally accurate risk prediction. Additionally, regulators demand these models to be transparent and auditable. Thus, in credit scoring, very simple predictive models such as logistic regression or decision trees are still widely used and the superior predictive power of modern machine learning algorithms cannot be fully leveraged. Significant potential is therefore missed, leading to higher reserves or more credit defaults. This paper works out different dimensions that have to be considered for making credit scoring models understandable and presents a framework for making ``black box'' machine learning models transparent, auditable and explainable. Following this framework, we present an overview of techniques, demonstrate how they can be applied in credit scoring and how results compare to the interpretability of score cards. A real world case study shows that a comparable degree of interpretability can be achieved while machine learning techniques keep their ability to improve predictive power.
翻訳日:2022-10-13 21:49:47 公開日:2020-09-28
# 長文生成のためのグラフベースマルチホップ推論

Graph-based Multi-hop Reasoning for Long Text Generation ( http://arxiv.org/abs/2009.13282v1 )

ライセンス: Link先を確認
Liang Zhao, Jingjing Xu, Junyang Lin, Yichang Zhang, Hongxia Yang, Xu Sun(参考訳) 長文生成は重要な課題だが難しい課題であり、主な問題は従来の生成モデルがしばしば抱える文レベルのセマンティック依存関係の学習にある。 本研究では,知識グラフ上のマルチホップ推論を取り入れ,文間の意味的依存関係を学習するマルチホップ推論生成(mrg)手法を提案する。 mrgはグラフベースのマルチホップ推論モジュールとパス認識文実現モジュールからなる。 推論モジュールは知識グラフから骨格経路を探索し、意味伝達のための人間の記述における想像過程を模倣する。 推論されたパスに基づいて、文実現モジュールが完全な文を生成する。 従来のブラックボックスモデルとは異なり、MRGはスケルトンパスを明示的に推論し、提案されたモデルがどのように機能するかを説明する説明的なビューを提供する。 ストーリー生成、レビュー生成、製品記述生成を含む3つの代表的なタスクについて実験を行った。 提案手法は,事前学習モデル(GPT-2など)や知識強化モデルなど,強いベースラインよりも情報的かつ一貫性のあるテキストを生成することができることを示す。

Long text generation is an important but challenging task.The main problem lies in learning sentence-level semantic dependencies which traditional generative models often suffer from. To address this problem, we propose a Multi-hop Reasoning Generation (MRG) approach that incorporates multi-hop reasoning over a knowledge graph to learn semantic dependencies among sentences. MRG consists of twoparts, a graph-based multi-hop reasoning module and a path-aware sentence realization module. The reasoning module is responsible for searching skeleton paths from a knowledge graph to imitate the imagination process in the human writing for semantic transfer. Based on the inferred paths, the sentence realization module then generates a complete sentence. Unlike previous black-box models, MRG explicitly infers the skeleton path, which provides explanatory views tounderstand how the proposed model works. We conduct experiments on three representative tasks, including story generation, review generation, and product description generation. Automatic and manual evaluation show that our proposed method can generate more informative and coherentlong text than strong baselines, such as pre-trained models(e.g. GPT-2) and knowledge-enhanced models.
翻訳日:2022-10-13 21:49:12 公開日:2020-09-28
# 抽象要約における量幻覚の低減

Reducing Quantity Hallucinations in Abstractive Summarization ( http://arxiv.org/abs/2009.13312v1 )

ライセンス: Link先を確認
Zheng Zhao, Shay B. Cohen, Bonnie Webber(参考訳) 抽象的な要約は、原文に支えられていない資料を含む幻覚の対象であることが知られている。 要約は一般の語句に限定することで幻覚のないものにすることができるが、そのような要約は情報に乏しい。 あるいは、要約中の特定のエンティティが同じ文脈で元のテキストに現れることを検証することで幻覚を避けようとすることもできる。 これが私たちのシステムであるHermanによるアプローチです。 本システムは、現在最先端のモデルが生成する抽象要約のビームワースにおける量実体(日付、数字、金額等)を認識し、検証することを学び、その量項が原文で支持されている要約を上書きする。 実験の結果, 上位のサマリーのROUGEスコアは, 上位のサマリーよりも精度が高く, リコールの損失に匹敵せず, F$_1$となることがわかった。 上位vs.オリジナル要約の予備的人間評価は、前者に対する人々の好みを示している。

It is well-known that abstractive summaries are subject to hallucination---including material that is not supported by the original text. While summaries can be made hallucination-free by limiting them to general phrases, such summaries would fail to be very informative. Alternatively, one can try to avoid hallucinations by verifying that any specific entities in the summary appear in the original text in a similar context. This is the approach taken by our system, Herman. The system learns to recognize and verify quantity entities (dates, numbers, sums of money, etc.) in a beam-worth of abstractive summaries produced by state-of-the-art models, in order to up-rank those summaries whose quantity terms are supported by the original text. Experimental results demonstrate that the ROUGE scores of such up-ranked summaries have a higher Precision than summaries that have not been up-ranked, without a comparable loss in Recall, resulting in higher F$_1$. Preliminary human evaluation of up-ranked vs. original summaries shows people's preference for the former.
翻訳日:2022-10-13 21:48:53 公開日:2020-09-28
# アンダーソースニューラル機械翻訳シナリオにおけるルールベース機械翻訳モデルにおける用語・エンティティ知識の諸相

Aspects of Terminological and Named Entity Knowledge within Rule-Based Machine Translation Models for Under-Resourced Neural Machine Translation Scenarios ( http://arxiv.org/abs/2009.13398v1 )

ライセンス: Link先を確認
Daniel Torregrosa and Nivranshu Pasricha and Maraim Masoud and Bharathi Raja Chakravarthi and Juan Alonso and Noe Casas and Mihael Arcan(参考訳) ルールベース機械翻訳(ルールベースきゅうがく、英: Rule-based machine translation)は、言語知識を専門家が翻訳する機械翻訳のパラダイムである。 このアプローチはシステムのアウトプットを広範囲に制御するが、必要な言語知識の形式化のコストは、機械学習アプローチを使用して例から翻訳を自動学習するコーパスベースのシステムのトレーニングよりもはるかに高い。 本稿では,ルールベース機械翻訳システムに含まれる情報を活用して,コーパスベースのもの,すなわち低リソースシナリオに着目したニューラルマシン翻訳モデルを改善するための異なる手法について述べる。 形態情報、名前付き実体、用語の3種類が用いられた。 システムの性能評価に加えて,対象とする現象に対処する際の提案手法の性能を体系的に分析した。 その結果,提案手法は外部情報から学習する能力に制限があり,そのほとんどは自動評価の結果に大きな影響を与えないが,予備的定性評価の結果から,受動的音声の使用を継続するなど,システムが生成する仮説が有利な行動を示すことが示された。

Rule-based machine translation is a machine translation paradigm where linguistic knowledge is encoded by an expert in the form of rules that translate text from source to target language. While this approach grants extensive control over the output of the system, the cost of formalising the needed linguistic knowledge is much higher than training a corpus-based system, where a machine learning approach is used to automatically learn to translate from examples. In this paper, we describe different approaches to leverage the information contained in rule-based machine translation systems to improve a corpus-based one, namely, a neural machine translation model, with a focus on a low-resource scenario. Three different kinds of information were used: morphological information, named entities and terminology. In addition to evaluating the general performance of the system, we systematically analysed the performance of the proposed approaches when dealing with the targeted phenomena. Our results suggest that the proposed models have limited ability to learn from external information, and most approaches do not significantly alter the results of the automatic evaluation, but our preliminary qualitative evaluation shows that in certain cases the hypothesis generated by our system exhibit favourable behaviour such as keeping the use of passive voice.
翻訳日:2022-10-13 21:48:35 公開日:2020-09-28
# ニューラルネットワークを用いた分類問題の事前推定

A priori estimates for classification problems using neural networks ( http://arxiv.org/abs/2009.13500v1 )

ライセンス: Link先を確認
Weinan E and Stephan Wojtowytsch(参考訳) ニューラルネットワークの仮説クラスを用いた二項分類と多項分類の問題を考察する。 与えられた仮説クラスに対して、ラデマッハ複雑性推定と直接近似定理を用いて正規化損失汎関数の事前誤差推定を求める。

We consider binary and multi-class classification problems using hypothesis classes of neural networks. For a given hypothesis class, we use Rademacher complexity estimates and direct approximation theorems to obtain a priori error estimates for regularized loss functionals.
翻訳日:2022-10-13 21:42:33 公開日:2020-09-28
# ディープラーニングのReLUネットワークを学習する

Learning Deep ReLU Networks Is Fixed-Parameter Tractable ( http://arxiv.org/abs/2009.13512v1 )

ライセンス: Link先を確認
Sitan Chen, Adam R. Klivans, Raghu Meka(参考訳) ガウス入力に関して未知のreluネットワークを学習する問題を考察し,深さ2以上のネットワークに対する最初の非自明な結果を得る。 実行時間が周囲次元の固定多項式であるアルゴリズムと、ネットワークのパラメータのみのいくつかの(指数的に大きい)関数を与える。 我々の境界は、隠れた単位数、深さ、重み行列のスペクトルノルム、および全体のネットワークのリプシッツ定数に依存する(リプシッツ定数へのいくつかの依存が必要であることを示す)。 また、ネットワークのサイズが2倍に指数関数的であるが、スペクトルノルムとは独立な境界を与える。 これらの結果は勾配に基づく手法では得られず、勾配降下が学習できない効率的な学習可能なニューラルネットワークのクラスの最初の例を与える。 対照的に、深度3以上のネットワークを学習するには、上記のパラメータが定数で有界であっても、周囲次元の指数時間を必要とする。 さらに、深度2のケースのすべての事前作業には、効率的な実行時間を得るために、十分な条件付き重みと/または正の係数が必要である。 我々のアルゴリズムはこれらの仮定を必要としない。 我々の主な技術ツールはフィルタPCAの一種であり、第1層に隠されたユニットが分散する部分空間の近似基底を反復的に復元することができる。 本解析は,熱帯幾何学による格子多項式の新たな構造的結果を活用する。

We consider the problem of learning an unknown ReLU network with respect to Gaussian inputs and obtain the first nontrivial results for networks of depth more than two. We give an algorithm whose running time is a fixed polynomial in the ambient dimension and some (exponentially large) function of only the network's parameters. Our bounds depend on the number of hidden units, depth, spectral norm of the weight matrices, and Lipschitz constant of the overall network (we show that some dependence on the Lipschitz constant is necessary). We also give a bound that is doubly exponential in the size of the network but is independent of spectral norm. These results provably cannot be obtained using gradient-based methods and give the first example of a class of efficiently learnable neural networks that gradient descent will fail to learn. In contrast, prior work for learning networks of depth three or higher requires exponential time in the ambient dimension, even when the above parameters are bounded by a constant. Additionally, all prior work for the depth-two case requires well-conditioned weights and/or positive coefficients to obtain efficient run-times. Our algorithm does not require these assumptions. Our main technical tool is a type of filtered PCA that can be used to iteratively recover an approximate basis for the subspace spanned by the hidden units in the first layer. Our analysis leverages new structural results on lattice polynomials from tropical geometry.
翻訳日:2022-10-13 21:42:28 公開日:2020-09-28
# 階層型GANによる異常検出とサンプリングコスト制御

Anomaly Detection and Sampling Cost Control via Hierarchical GANs ( http://arxiv.org/abs/2009.13598v1 )

ライセンス: Link先を確認
Chen Zhong, M. Cenk Gursoy, and Senem Velipasalar(参考訳) 異常検出は特定のサンプリングおよびセンシングコストを引き起こすため、検出精度とこれらのコストのバランスをとることが非常に重要である。 本研究では,確率時系列におけるしきい値交叉の検出を統計の知識を伴わずに考慮し,異常検出について検討する。 この検出プロセスにおけるサンプリングコストを削減するため,非一様サンプリングを行うために階層型生成逆ネットワーク(GAN)を提案する。 検出精度の向上と検出遅延の低減を目的として,提案するgan型検出器の動作においてバッファゾーンを導入する。 実験では, 検出遅延, ミス率, 誤差の平均コスト, サンプリング率の指標を考慮した階層型gan検出器の性能解析を行った。 バッファゾーンのサイズや階層内のGANレベルの数が異なるため,性能上のトレードオフを識別する。 また,確率過程のパラメータを考慮したサンプリング平均コストと誤差の和をほぼ最小化するサンプリングポリシーと比較した。 提案したGAN検出器は,バッファゾーンが大きい場合の検出遅延と平均誤差コストにおいて,サンプリングレートの増加による大幅な性能向上が期待できることを示した。

Anomaly detection incurs certain sampling and sensing costs and therefore it is of great importance to strike a balance between the detection accuracy and these costs. In this work, we study anomaly detection by considering the detection of threshold crossings in a stochastic time series without the knowledge of its statistics. To reduce the sampling cost in this detection process, we propose the use of hierarchical generative adversarial networks (GANs) to perform nonuniform sampling. In order to improve the detection accuracy and reduce the delay in detection, we introduce a buffer zone in the operation of the proposed GAN-based detector. In the experiments, we analyze the performance of the proposed hierarchical GAN detector considering the metrics of detection delay, miss rates, average cost of error, and sampling ratio. We identify the tradeoffs in the performance as the buffer zone sizes and the number of GAN levels in the hierarchy vary. We also compare the performance with that of a sampling policy that approximately minimizes the sum of average costs of sampling and error given the parameters of the stochastic process. We demonstrate that the proposed GAN-based detector can have significant performance improvements in terms of detection delay and average cost of error with a larger buffer zone but at the cost of increased sampling rates.
翻訳日:2022-10-13 21:41:34 公開日:2020-09-28
# 形態素画像処理を用いたスケッチトラスフレームのセグメンテーションと解析

Segmentation and Analysis of a Sketched Truss Frame Using Morphological Image Processing Techniques ( http://arxiv.org/abs/2009.13144v1 )

ライセンス: Link先を確認
Mirsalar Kamari and Oguz Gunes(参考訳) 建物の能力を分析し評価する計算ツールの開発は、土木工学に大きな影響を与えた。 構造的ソフトウェアパッケージとのインタラクションが容易になり,ソフトウェアとのインタラクション中にユーザの役割を自動化することによって,モデリングツールの賢さが向上している。 構造モデリングに関わる困難かつ最も時間を要するステップの1つは、分析を提供するために構造の幾何学を定義することである。 本稿では,紙に手書き又はコンピュータで生成したトラスフレームを自動解析する手法の開発について述べる。 まず,形態素画像処理手法を用いて,手描きトラス成分のセグメンテーション手法に着目し,トラス成分のリアルタイム解析を行う。 我々は,トラス幾何学と内部力の一般理解を容易にするため,入力画像の結果を可視化し,拡張する。 MATLABは画像処理目的のプログラミング言語として使用され、Sap2000 APIを用いてトラスを解析し、MATLABと統合して便利な構造解析を提供する。 本稿では, 画像処理による構造解析の自動化の可能性を強調し, 構造システムの効率を迅速に評価する。 このフレームワークのさらなる開発は、構造がモデル化され分析される方法に革命をもたらす可能性が高い。

Development of computational tools to analyze and assess the building capacities has had a major impact in civil engineering. The interaction with the structural software packages is becoming easier and the modeling tools are becoming smarter by automating the users role during their interaction with the software. One of the difficulties and the most time consuming steps involved in the structural modeling is defining the geometry of the structure to provide the analysis. This paper is dedicated to the development of a methodology to automate analysis of a hand sketched or computer generated truss frame drawn on a piece of paper. First, we focus on the segmentation methodologies for hand sketched truss components using the morphological image processing techniques, and then we provide a real time analysis of the truss. We visualize and augment the results on the input image to facilitate the public understanding of the truss geometry and internal forces. MATLAB is used as the programming language for the image processing purposes, and the truss is analyzed using Sap2000 API to integrate with MATLAB to provide a convenient structural analysis. This paper highlights the potential of the automation of the structural analysis using image processing to quickly assess the efficiency of structural systems. Further development of this framework is likely to revolutionize the way that structures are modeled and analyzed.
翻訳日:2022-10-13 21:41:14 公開日:2020-09-28
# amodal 3d reconstruction for robot manipulation via stability and connectivity (特集 ロボットマニピュレーション)

Amodal 3D Reconstruction for Robotic Manipulation via Stability and Connectivity ( http://arxiv.org/abs/2009.13146v1 )

ライセンス: Link先を確認
William Agnew, Christopher Xie, Aaron Walsman, Octavian Murad, Caelen Wang, Pedro Domingos, Siddhartha Srinivasa(参考訳) 学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。 ロボット工学にとってこれは、モデルに基づく手法が新しい物体やシーンに迅速に適応できる可能性を秘めている。 既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。 リアルで散らばったロボット環境に適用すると、これらのシステムは物理的リアリズムの低い再構成を発生し、モデルベース制御におけるタスク性能が低下することがわかった。 本研究では,(1)オブジェクト形状に先行する安定性,(2)接続先,(3)オブジェクト群間の関係を推論するマルチチャネル入力表現を導入するアモーダル3D再構成システムARMを提案する。 オブジェクトの物理的特性に対するこれらの先行性を利用することで、標準的な視覚メトリクスだけでなく、様々なロボット操作タスクにおけるモデルベース制御の性能も向上する。 コードはgithub.com/wagnew3/ARMで入手できる。

Learning-based 3D object reconstruction enables single- or few-shot estimation of 3D object models. For robotics, this holds the potential to allow model-based methods to rapidly adapt to novel objects and scenes. Existing 3D reconstruction techniques optimize for visual reconstruction fidelity, typically measured by chamfer distance or voxel IOU. We find that when applied to realistic, cluttered robotics environments, these systems produce reconstructions with low physical realism, resulting in poor task performance when used for model-based control. We propose ARM, an amodal 3D reconstruction system that introduces (1) a stability prior over object shapes, (2) a connectivity prior, and (3) a multi-channel input representation that allows for reasoning over relationships between groups of objects. By using these priors over the physical properties of objects, our system improves reconstruction quality not just by standard visual metrics, but also performance of model-based control on a variety of robotics manipulation tasks in challenging, cluttered environments. Code is available at github.com/wagnew3/ARM.
翻訳日:2022-10-13 21:40:55 公開日:2020-09-28
# 形状マッチングのための弱改良深部関数マップ

Weakly Supervised Deep Functional Map for Shape Matching ( http://arxiv.org/abs/2009.13339v1 )

ライセンス: Link先を確認
Abhishek Sharma and Maks Ovsjanikov(参考訳) 近年では、完全な教師付きから完全に教師なしまで、様々な損失関数と異なる正規化項を含む様々な深い関数写像が提案されている。 しかし、深層機能マップパイプラインの最小成分が何であるか、その成分が深層機能マップに関する最近のすべての作業を統一するか、あるいは一般化するかは、まだ明らかではない。 異なる損失関数を持つ芸術結果の状態を得るための経験的最小成分を示し,教師なしおよび教師なしの方法を示した。 さらに,フル・トゥ・フルとパーシャル・フル・シェイプ・マッチングの両方のために設計された新しいフレームワークを提案する。 私たちのコードはhttps://github.com/Not-IITian/Weakly-supervised-Functional-mapで公開されています。

A variety of deep functional maps have been proposed recently, from fully supervised to totally unsupervised, with a range of loss functions as well as different regularization terms. However, it is still not clear what are minimum ingredients of a deep functional map pipeline and whether such ingredients unify or generalize all recent work on deep functional maps. We show empirically minimum components for obtaining state of the art results with different loss functions, supervised as well as unsupervised. Furthermore, we propose a novel framework designed for both full-to-full as well as partial to full shape matching that achieves state of the art results on several benchmark datasets outperforming even the fully supervised methods by a significant margin. Our code is publicly available at https://github.com/Not-IITian/Weakly-supervised-Functional-map
翻訳日:2022-10-13 21:39:40 公開日:2020-09-28
# ガウス混合モデルのラピッドランドスケープと局所的ミニマ構造

Likelihood Landscape and Local Minima Structures of Gaussian Mixture Models ( http://arxiv.org/abs/2009.13040v1 )

ライセンス: Link先を確認
Yudong Chen and Xumei Xi(参考訳) 本稿では,一般成分を用いたガウス混合モデルの個体群負の対数類似関数の景観について検討する。 非凸性のため、混合が十分に分離されている場合でも、グローバルに最適ではない複数の局所極小が存在する。 すべての局所極小は、真の混合の成分中心を部分的に識別する構造を共有しており、各局所極小は、複数のガウス成分を1つの真の成分に当てはめ、1つのガウス成分を複数の真の成分に当てはめるような重複しない組み合わせを含む。 本結果は, 真の混合成分が一定の分離条件を満たす場合に適用し, 成分数が過大あるいは過小に指定された場合でも有効であることを示す。 3成分のガウス混合に対して、成分間の分離によるスケーリングの観点からよりシャープな結果が得られる。

In this paper, we study the landscape of the population negative log-likelihood function of Gaussian Mixture Models with a general number of components. Due to nonconvexity, there exist multiple local minima that are not globally optimal, even when the mixture is well-separated. We show that all local minima share the same form of structure that partially identifies the component centers of the true mixture, in the sense that each local minimum involves a non-overlapping combination of fitting multiple Gaussians to a single true component and fitting a single Gaussian to multiple true components. Our results apply to the setting where the true mixture components satisfy a certain separation condition, and are valid even when the number of components is over-or under-specified. For Gaussian mixtures with three components, we obtain sharper results in terms of the scaling with the separation between the components.
翻訳日:2022-10-13 21:33:44 公開日:2020-09-28
# ノイズエンハンスメントによる一般化の改善

Improved generalization by noise enhancement ( http://arxiv.org/abs/2009.13094v1 )

ライセンス: Link先を確認
Takashi Mori, Masahito Ueda(参考訳) 近年の研究では、確率的勾配降下(sgd)におけるノイズは一般化と密接に関連していることが示されている。 SGDノイズの共分散は$\eta^2/B$に比例するので、$\eta$は学習率、$B$はSGDのミニバッチサイズである。 しかし、大きすぎる$\eta$はトレーニングダイナミクスの不安定性をもたらし、小さな$B$はスケーラブルな並列計算を妨げます。 したがって、$\eta$と$B$を変更することなくSGDノイズを制御する方法を開発することが望ましい。 本稿では,実際に容易に実装できる ‘noise enhancement'' を用いて,この目標を達成する手法を提案する。 基礎となる理論概念を概説し、ノイズ強調が実際のデータセットの一般化を実際に改善することを示す。 ノイズエンハンスメントによる大規模バッチトレーニングは,小規模バッチトレーニングよりも一般化度が向上していることが分かりました。

Recent studies have demonstrated that noise in stochastic gradient descent (SGD) is closely related to generalization: A larger SGD noise, if not too large, results in better generalization. Since the covariance of the SGD noise is proportional to $\eta^2/B$, where $\eta$ is the learning rate and $B$ is the minibatch size of SGD, the SGD noise has so far been controlled by changing $\eta$ and/or $B$. However, too large $\eta$ results in instability in the training dynamics and a small $B$ prevents scalable parallel computation. It is thus desirable to develop a method of controlling the SGD noise without changing $\eta$ and $B$. In this paper, we propose a method that achieves this goal using ``noise enhancement'', which is easily implemented in practice. We expound the underlying theoretical idea and demonstrate that the noise enhancement actually improves generalization for real datasets. It turns out that large-batch training with the noise enhancement even shows better generalization compared with small-batch training.
翻訳日:2022-10-13 21:32:39 公開日:2020-09-28
# スペクトルアプローチによるニューラルネットワークからの重み付きオートマタの蒸留

Distillation of Weighted Automata from Recurrent Neural Networks using a Spectral Approach ( http://arxiv.org/abs/2009.13101v1 )

ライセンス: Link先を確認
Remi Eyraud and Stephane Ayache(参考訳) 本稿では,ディープラーニングと文法推論のギャップを埋める試みである。 実際、言語モデリングのために訓練されたリカレントニューラルネットワークから(確率的な)形式言語を抽出するアルゴリズムを提供する。 詳細は、アルゴリズムは訓練済みのネットワークをオラクルとして使用し、従ってブラックボックスの内部表現へのアクセスを必要とせず、重み付けされたオートマトンを推測するためにスペクトルアプローチを適用する。 重み付きオートマトンは線形関数を計算するため、ニューラルネットワークよりも計算効率が高いため、アプローチの性質は知識蒸留のものである。 提案アルゴリズムの能力について詳細な研究を可能にする62個のデータセット(合成および実世界のアプリケーションの両方)について実験を行った。 その結果,抽出したWAはRNNの近似が良好であることを示し,そのアプローチを検証した。 さらに、このプロセスが、データに基づいて学んだRNNの行動に対して興味深い洞察を与える方法を示し、この研究の範囲をディープラーニングモデルの説明可能性の1つに広げる。

This paper is an attempt to bridge the gap between deep learning and grammatical inference. Indeed, it provides an algorithm to extract a (stochastic) formal language from any recurrent neural network trained for language modelling. In detail, the algorithm uses the already trained network as an oracle -- and thus does not require the access to the inner representation of the black-box -- and applies a spectral approach to infer a weighted automaton. As weighted automata compute linear functions, they are computationally more efficient than neural networks and thus the nature of the approach is the one of knowledge distillation. We detail experiments on 62 data sets (both synthetic and from real-world applications) that allow an in-depth study of the abilities of the proposed algorithm. The results show the WA we extract are good approximations of the RNN, validating the approach. Moreover, we show how the process provides interesting insights toward the behavior of RNN learned on data, enlarging the scope of this work to the one of explainability of deep learning models.
翻訳日:2022-10-13 21:32:18 公開日:2020-09-28
# ecgdetect: 深層学習による虚血の検出

ECGDetect: Detecting Ischemia via Deep Learning ( http://arxiv.org/abs/2009.13232v1 )

ライセンス: Link先を確認
Atandra Burman, Jitto Titus, David Gbadebo, Melissa Burman(参考訳) 冠状動脈疾患(CAD)は心臓疾患の最も一般的なタイプであり、世界中で死因となっている[1]。 この疾患の進行状態は、急性冠症候群(英語版)(acs)としても知られる冠動脈のプラーク破裂と血栓形成を特徴とし、心筋と神経束を正常に灌流させる冠血管の一部または完全閉塞による突然の血流の減少に伴う心臓の状態であり、心臓の適切な機能に影響を与えている。 胸の痛みやきつさが米国における緊急部訪問の2番目に多い原因であることから、早期にACSを検出することが必須である。 これは、典型的な胸痛の症状を感じず、無症候性心筋障害の影響を受けやすい在宅糖尿病患者に特に関係がある。 本研究では, 心筋虚血に伴うST変化における形態パターンを検出する機械学習モデルであるCE-ECG-Detectアルゴリズムを開発した。 RCE-ECG-Detect を LTST データベースからのデータを用いて開発した。 RCEのECGウェアラブルを用いて収集したホールドアウトテストセットにおいて,機械学習モデルの予測性能を検証した。 我々のディープニューラルネットワークモデルは畳み込み層を備え、90.31%のROC-AUC、89.34%の感度、87.81%の特異性が得られる。

Coronary artery disease(CAD) is the most common type of heart disease and the leading cause of death worldwide[1]. A progressive state of this disease marked by plaque rupture and clot formation in the coronary arteries, also known as an acute coronary syndrome (ACS), is a condition of the heart associated with sudden, reduced blood flow caused due to partial or full occlusion of coronary vasculature that normally perfuses the myocardium and nerve bundles, compromising the proper functioning of the heart. Often manifesting with pain or tightness in the chest as the second most common cause of emergency department visits in the United States, it is imperative to detect ACS at the earliest. This is particularly relevant to diabetic patients at home, that may not feel classic chest pain symptoms, and are susceptible to silent myocardial injury. In this study, we developed the RCE- ECG-Detect algorithm, a machine learning model to detect the morphological patterns in significant ST change associated with myocardial ischemia. We developed the RCE- ECG-Detect using data from the LTST database which has a sufficiently large sample set to train a reliable model. We validated the predictive performance of the machine learning model on a holdout test set collected using RCE's ECG wearable. Our deep neural network model, equipped with convolution layers, achieves 90.31% ROC-AUC, 89.34% sensitivity, 87.81% specificity.
翻訳日:2022-10-13 21:31:48 公開日:2020-09-28
# BOML: メタ学習のためのPythonのモジュール化バイレベル最適化ライブラリ

BOML: A Modularized Bilevel Optimization Library in Python for Meta Learning ( http://arxiv.org/abs/2009.13357v1 )

ライセンス: Link先を確認
Yaohua Liu, Risheng Liu(参考訳) メタラーニング(英: meta-learning)は、様々なアプリケーションにとって有望なパラダイムとして最近登場した。 現在、多くのメタ学習手法があり、それぞれベースとメタ学習者の異なるモデリング側面に焦点を当てているが、全ては(再)特定の二段階最適化問題として表現することができる。 BOMLは、複数のメタ学習アルゴリズムを共通の双方向最適化フレームワークに統合するモジュール化された最適化ライブラリである。 さまざまなイテレーションモジュールとともに階層的な最適化パイプラインを提供し、メタ機能ベースやメタ初期化ベースの定式化といったメタ学習メソッドの主流カテゴリを解決するために使用できる。 ライブラリはpythonで書かれており、https://github.com/dut-media-lab/bomlで入手できる。

Meta-learning (a.k.a. learning to learn) has recently emerged as a promising paradigm for a variety of applications. There are now many meta-learning methods, each focusing on different modeling aspects of base and meta learners, but all can be (re)formulated as specific bilevel optimization problems. This work presents BOML, a modularized optimization library that unifies several meta-learning algorithms into a common bilevel optimization framework. It provides a hierarchical optimization pipeline together with a variety of iteration modules, which can be used to solve the mainstream categories of meta-learning methods, such as meta-feature-based and meta-initialization-based formulations. The library is written in Python and is available at https://github.com/dut-media-lab/BOML.
翻訳日:2022-10-13 21:31:21 公開日:2020-09-28
# Afro-MNIST:低リソース言語向けMNISTスタイルデータセットの合成

Afro-MNIST: Synthetic generation of MNIST-style datasets for low-resource languages ( http://arxiv.org/abs/2009.13509v1 )

ライセンス: Link先を確認
Daniel J Wu, Andrew C Yang, Vinay U Prabhu(参考訳) 本稿では,Afro-Asiatic と Niger-Congo 言語で使用されている4つの正書法のための合成 MNIST 形式のデータセットである Afro-MNIST について述べる。 これらのデータセットはMNISTの"ドロップイン"代替として機能する。 また,各桁の単一例からMNISTスタイルのデータセットを生成する手法について述べる。 これらのデータセットはhttps://github.com/Daniel-Wu/AfroMNISTで見ることができる。 MNISTスタイルのデータセットが他の数値システム向けに開発され、これらのデータセットが研究コミュニティの少数民族における機械学習教育を活性化することを期待している。

We present Afro-MNIST, a set of synthetic MNIST-style datasets for four orthographies used in Afro-Asiatic and Niger-Congo languages: Ge`ez (Ethiopic), Vai, Osmanya, and N'Ko. These datasets serve as "drop-in" replacements for MNIST. We also describe and open-source a method for synthetic MNIST-style dataset generation from single examples of each digit. These datasets can be found at https://github.com/Daniel-Wu/AfroMNIST. We hope that MNIST-style datasets will be developed for other numeral systems, and that these datasets vitalize machine learning education in underrepresented nations in the research community.
翻訳日:2022-10-13 21:24:11 公開日:2020-09-28
# 生物医学的暗黒データによる視覚探索と知識発見

Visual Exploration and Knowledge Discovery from Biomedical Dark Data ( http://arxiv.org/abs/2009.13059v1 )

ライセンス: Link先を確認
Shashwat Aggarwal, Ramesh Singh(参考訳) データビジュアライゼーション技術は、意思決定とパターン認識のプロセスを高速化するだけでなく、意思決定者がデータの洞察を完全に理解し、情報的な決定を行えるように、グラフィカルに魅力的なフォーマットでデータを整理し提示する手段を提供する。 時間が経つにつれて、技術と計算資源の増大とともに、世界の科学知識は指数関数的に増加した。 しかし、そのほとんどは構造が欠けており、簡単に分類や正規データベースへのインポートはできない。 このタイプのデータは、しばしばダークデータと呼ばれる。 データ可視化技術は、情報の迅速な理解、新たなトレンドの発見、関係とパターンの識別などを可能にすることで、このようなデータを探索するための有望なソリューションを提供する。 本研究では,バイオメディカル文献からの3000万以上の引用を含むPubMedのリッチコーパスを用いて,様々な情報可視化技術を用いて,基礎となるキーインサイトを視覚的に探索し,理解する。 我々は,自然言語処理に基づくパイプラインを用いて,生物医学的暗黒データから知識を発見する。 このパイプラインは、固有のトピックや主要な焦点領域を抽出するトピックモデリングや、科学文書やジャーナル、研究者、キーワードや用語など、さまざまなエンティティの関係を研究するネットワークグラフなど、さまざまな語彙分析技術で構成されている。 そこで本研究では,膨大な量の情報を分析し,その処理・分析における人間の認識・認識の限界を減少させる潜在的な解決法を提示することを目的とする。

Data visualization techniques proffer efficient means to organize and present data in graphically appealing formats, which not only speeds up the process of decision making and pattern recognition but also enables decision-makers to fully understand data insights and make informed decisions. Over time, with the rise in technological and computational resources, there has been an exponential increase in the world's scientific knowledge. However, most of it lacks structure and cannot be easily categorized and imported into regular databases. This type of data is often termed as Dark Data. Data visualization techniques provide a promising solution to explore such data by allowing quick comprehension of information, the discovery of emerging trends, identification of relationships and patterns, etc. In this empirical research study, we use the rich corpus of PubMed comprising of more than 30 million citations from biomedical literature to visually explore and understand the underlying key-insights using various information visualization techniques. We employ a natural language processing based pipeline to discover knowledge out of the biomedical dark data. The pipeline comprises of different lexical analysis techniques like Topic Modeling to extract inherent topics and major focus areas, Network Graphs to study the relationships between various entities like scientific documents and journals, researchers, and, keywords and terms, etc. With this analytical research, we aim to proffer a potential solution to overcome the problem of analyzing overwhelming amounts of information and diminish the limitation of human cognition and perception in handling and examining such large volumes of data.
翻訳日:2022-10-13 21:23:55 公開日:2020-09-28
# 自己学習が可能な熱力学的に一貫した化学スパイクニューロン

A thermodynamically consistent chemical spiking neuron capable of autonomous Hebbian learning ( http://arxiv.org/abs/2009.13207v1 )

ライセンス: Link先を確認
Jakub Fil and Dominique Chu(参考訳) 我々は、スパイキングニューロンを実装する完全自律的、熱力学的に一貫した化学反応セットを提案する。 この化学ニューロンはヘビアン方式で入力パターンを学習することができる。 このシステムは任意の数の入力チャネルにスケーラブルである。 入力チャネル間の相関だけでなく、入力の周波数バイアスの学習におけるその性能を示す。 時間相関の効率的な計算には高非線形活性化関数が必要である。 非線形活性化関数の資源要求について述べる。 CNの熱力学的に一貫したモデルに加えて、合成生物学の文脈で設計できる生物学的にもっともらしいバージョンも提案する。

We propose a fully autonomous, thermodynamically consistent set of chemical reactions that implements a spiking neuron. This chemical neuron is able to learn input patterns in a Hebbian fashion. The system is scalable to arbitrarily many input channels. We demonstrate its performance in learning frequency biases in the input as well as correlations between different input channels. Efficient computation of time-correlations requires a highly non-linear activation function. The resource requirements of a non-linear activation function are discussed. In addition to the thermodynamically consistent model of the CN, we also propose a biologically plausible version that could be engineered in a synthetic biology context.
翻訳日:2022-10-13 21:23:18 公開日:2020-09-28
# 進化的マルチモーダル多目的最適化の展望

A Review of Evolutionary Multi-modal Multi-objective Optimization ( http://arxiv.org/abs/2009.13347v1 )

ライセンス: Link先を確認
Ryoji Tanabe and Hisao Ishibuchi(参考訳) マルチモーダル多目的最適化は、目的空間における重なり合う解を含む全てのパレート最適解を見つけることを目的としている。 マルチモーダル多目的最適化は2005年から進化計算コミュニティで研究されている。 しかし,マルチモーダル・マルチ目的最適化(multi-modal multi-objective optimization)という用語を明示的に用いていないため,既存の研究を調査することは困難である。 本稿では,マルチモーダル・マルチ目的最適化とは別の名前で発表された研究を含む,進化的マルチモーダル・マルチ目的最適化に関する既存の研究を概説する。 また,本研究領域におけるオープンな課題も明らかにした。

Multi-modal multi-objective optimization aims to find all Pareto optimal solutions including overlapping solutions in the objective space. Multi-modal multi-objective optimization has been investigated in the evolutionary computation community since 2005. However, it is difficult to survey existing studies in this field because they have been independently conducted and do not explicitly use the term "multi-modal multi-objective optimization". To address this issue, this paper reviews existing studies of evolutionary multi-modal multi-objective optimization, including studies published under names that are different from "multi-modal multi-objective optimization". Our review also clarifies open issues in this research area.
翻訳日:2022-10-13 21:23:10 公開日:2020-09-28
# 手術における人工知能:ニューラルネットワークとディープラーニング

Artificial Intelligence in Surgery: Neural Networks and Deep Learning ( http://arxiv.org/abs/2009.13411v1 )

ライセンス: Link先を確認
Deepak Alapatt and Pietro Mascagni, Vinkle Srivastav, Nicolas Padoy(参考訳) 深層ニューラルネットワークは、自動運転車から、放射線学や病理学におけるコンピュータ支援診断まで、最新の人工知能の成功を支えている。 手術の高度なデータ集約処理は、そのような計算手法の恩恵を受ける可能性がある。 しかし、外科医やコンピュータ科学者は、患者や医療システムに対する価値の深層学習アプリケーションの開発と評価をパートナーとして行うべきである。 この章と付属するハンズオン素材は、ニューラルネットワークの背景にある直感を理解し、深層学習の概念やタスクに精通し、手術でディープラーニングモデルを実装することが何を意味するかを把握し、最終的に手術における深層ニューラルネットワークの具体的な課題と限界を理解するために設計された。 関連資料はhttps://github.com/camma-public/ai4surgeryを参照。

Deep neural networks power most recent successes of artificial intelligence, spanning from self-driving cars to computer aided diagnosis in radiology and pathology. The high-stake data intensive process of surgery could highly benefit from such computational methods. However, surgeons and computer scientists should partner to develop and assess deep learning applications of value to patients and healthcare systems. This chapter and the accompanying hands-on material were designed for surgeons willing to understand the intuitions behind neural networks, become familiar with deep learning concepts and tasks, grasp what implementing a deep learning model in surgery means, and finally appreciate the specific challenges and limitations of deep neural networks in surgery. For the associated hands-on material, please see https://github.com/CAMMA-public/ai4surgery.
翻訳日:2022-10-13 21:22:57 公開日:2020-09-28
# タスクベースfMRIデータセットにおけるニューラルシグネチャ解析のためのDeep Representational similarity Learning

Deep Representational Similarity Learning for analyzing neural signatures in task-based fMRI dataset ( http://arxiv.org/abs/2010.02012v1 )

ライセンス: Link先を確認
Muhammad Yousefnezhad, Jeffrey Sawalha, Alessandro Selvitella, Daoqiang Zhang(参考訳) 類似性分析は、ほとんどのfMRI研究において重要なステップの1つである。 表現的類似性解析(rsa)は、異なる認知状態によって生成される神経信号の類似性を測定することができる。 本稿では,多数の被験者を持つfMRIデータセットにおける様々な認知課題と,全脳画像などの高次元の類似性を分析するのに適した,RSAの深部拡張であるDep Representational similarity Learning(DRSL)を開発する。 以前の方法とは異なり、drslは線型変換やガウス核のような制限付き非線形核関数によって制限されない。 DRSLは、ニューラルネットワークを線形空間にマッピングするために多層ニューラルネットワークを使用し、各対象に対して個別にカスタマイズされた非線形変換を実装できる。 さらに、drslにおける勾配に基づく最適化を利用することで、最適な解を見つけるためにすべての神経応答ではなく、各イテレーションでサンプルのバッチを使用するため、大規模なデータセットの分析の実行時間を大幅に削減することができる。 視覚刺激, 意思決定, 味覚, 作業記憶など, 様々なタスクを持つ多目的fMRIデータセットの実証研究により, 提案手法が他の最先端RSAアルゴリズムよりも優れた性能を実現することを確認した。

Similarity analysis is one of the crucial steps in most fMRI studies. Representational Similarity Analysis (RSA) can measure similarities of neural signatures generated by different cognitive states. This paper develops Deep Representational Similarity Learning (DRSL), a deep extension of RSA that is appropriate for analyzing similarities between various cognitive tasks in fMRI datasets with a large number of subjects, and high-dimensionality -- such as whole-brain images. Unlike the previous methods, DRSL is not limited by a linear transformation or a restricted fixed nonlinear kernel function -- such as Gaussian kernel. DRSL utilizes a multi-layer neural network for mapping neural responses to linear space, where this network can implement a customized nonlinear transformation for each subject separately. Furthermore, utilizing a gradient-based optimization in DRSL can significantly reduce runtime of analysis on large datasets because it uses a batch of samples in each iteration rather than all neural responses to find an optimal solution. Empirical studies on multi-subject fMRI datasets with various tasks -- including visual stimuli, decision making, flavor, and working memory -- confirm that the proposed method achieves superior performance to other state-of-the-art RSA algorithms.
翻訳日:2022-10-13 21:22:43 公開日:2020-09-28
# 深層学習に基づく非定位マンモグラムの自動検出による再画像化のための患者訪問の最小化:実世界の応用

Deep Learning-Based Automatic Detection of Poorly Positioned Mammograms to Minimize Patient Return Visits for Repeat Imaging: A Real-World Application ( http://arxiv.org/abs/2009.13580v1 )

ライセンス: Link先を確認
Vikash Gupta and Clayton Taylor and Sarah Bonnet and Luciano M. Prevedello and Jeffrey Hawley and Richard D White and Mona G Flores and Barbaros Selnur Erdal(参考訳) スクリーニングマンモグラフィーは、乳がんを早期に検出し、この疾患による死亡率と死亡率を減少させる定期的な画像検査である。 乳癌検診プログラムの有効性を最大化するためには,適切なマンモグラフィー位置決めが最重要である。 適切な位置決めは乳房組織を適切に可視化し、乳癌の効果的な検出に必要である。 したがって、乳房画像撮影の放射線科医は、検査の最終的な解釈を提供する前に、位置決めの適切性について各マンモグラムを評価する必要がある。 本稿では,この意思決定過程を模倣・自動化し,位置不明のマンモグラムを同定する深層学習アルゴリズムを提案する。 このアルゴリズムの目的は,マンモグラフィ技術者が不適切な位置のマンモグラムをリアルタイムに認識すること,マンモグラフィの測位と性能を向上させること,および最終的に画像検査が不十分な患者に対する繰り返し訪問を減らすことである。 提案モデルは, 正定位が91.35%, 正定位が95.11%, 正定位が91.35%, 正定位が95.11%であった。 これらの結果に加えて, マンモグラフィー技術者が患者訪問時の矯正措置を取るのに役立つ, 自動生成レポートも提示した。

Screening mammograms are a routine imaging exam performed to detect breast cancer in its early stages to reduce morbidity and mortality attributed to this disease. In order to maximize the efficacy of breast cancer screening programs, proper mammographic positioning is paramount. Proper positioning ensures adequate visualization of breast tissue and is necessary for effective breast cancer detection. Therefore, breast-imaging radiologists must assess each mammogram for the adequacy of positioning before providing a final interpretation of the examination; this often necessitates return patient visits for additional imaging. In this paper, we propose a deep learning-algorithm method that mimics and automates this decision-making process to identify poorly positioned mammograms. Our objective for this algorithm is to assist mammography technologists in recognizing inadequately positioned mammograms real-time, improve the quality of mammographic positioning and performance, and ultimately reducing repeat visits for patients with initially inadequate imaging. The proposed model showed a true positive rate for detecting correct positioning of 91.35% in the mediolateral oblique view and 95.11% in the craniocaudal view. In addition to these results, we also present an automatically generated report which can aid the mammography technologist in taking corrective measures during the patient visit.
翻訳日:2022-10-13 21:22:21 公開日:2020-09-28
# 生成モデルに疎結合なフェデレーション学習

Loosely Coupled Federated Learning Over Generative Models ( http://arxiv.org/abs/2009.12999v1 )

ライセンス: Link先を確認
Shaoming Song, Yunfeng Shao, Jian Li(参考訳) プライベートデータをアップロードすることなく、さまざまなクライアント間で協調的な機械学習を実現するために、フェデレートラーニング(FL)が提案された。 しかし、モデル集約戦略のため、既存のフレームワークは厳密なモデル均質性を必要とし、より複雑なシナリオでアプリケーションを制限する。 また,FLモデルと勾配伝送の通信コストが非常に高い。 本稿では,送信媒体として生成モデルを用いた疎結合型フェデレート学習(lc-fl)を提案し,低通信コストとヘテロジニアスフェデレート学習を実現する。 LC-FLは、クライアントが異なる種類の機械学習モデルを持っているシナリオに適用できる。 異なるマルチパーティシナリオをカバーする実世界のデータセットに関する実験により,提案の有効性が示された。

Federated learning (FL) was proposed to achieve collaborative machine learning among various clients without uploading private data. However, due to model aggregation strategies, existing frameworks require strict model homogeneity, limiting the application in more complicated scenarios. Besides, the communication cost of FL's model and gradient transmission is extremely high. This paper proposes Loosely Coupled Federated Learning (LC-FL), a framework using generative models as transmission media to achieve low communication cost and heterogeneous federated learning. LC-FL can be applied on scenarios where clients possess different kinds of machine learning models. Experiments on real-world datasets covering different multiparty scenarios demonstrate the effectiveness of our proposal.
翻訳日:2022-10-13 21:21:55 公開日:2020-09-28
# エコー状態ネットワークを用いた貯留層観測者のパラメータ実験的解析

Parameter Experimental Analysis of the Reservoirs Observers using Echo State Network Approach ( http://arxiv.org/abs/2009.13498v1 )

ライセンス: Link先を確認
Diana C. Roca Arroyo, Josimar E. Chire Saire(参考訳) 動的システムには、その間に生成された新しい情報に対する様々な応用がある。 物理、化学、社会などの多くの現象は静的ではなく、時間とともに分析する必要がある。 本研究では, モデルエコー状態ネットワークのパラメータを実験的に解析し, 複雑ネットワークの種類の影響を考察し, 性能への影響について考察する。 実験はロスラー吸引機を用いて行われた。

Dynamical systems has a variety of applications for the new information generated during the time. Many phenomenons like physical, chemical or social are not static, then an analysis over the time is necessary. In this work, an experimental analysis of parameters of the model Echo State Network is performed and the influence of the kind of Complex Network is explored to understand the influence on the performance. The experiments are performed using the Rossler attractor.
翻訳日:2022-10-13 21:15:34 公開日:2020-09-28
# 属性-属性相互作用のモデル化による新しいネットワークベース高レベルデータ分類手法(Quipus)

A new network-base high-level data classification methodology (Quipus) by modeling attribute-attribute interactions ( http://arxiv.org/abs/2009.13511v1 )

ライセンス: Link先を確認
Esteban Wilfredo Vilca Zu\~niga, Liang Zhao(参考訳) 高レベルの分類アルゴリズムはインスタンス間の相互作用に焦点を当てている。 これらはデータの評価と分類のための新しい形式を生み出します。 このプロセスでは、コアは複雑なネットワーク構築方法論である。 現在の手法では、これらのグラフを生成するためにkNNのバリエーションを使用している。 しかし、これらのテクニックは属性間の隠れパターンを無視し、正確な正規化を必要とする。 本稿では,正規化を必要としない属性-属性相互作用に基づくネットワーク構築手法を提案する。 以上の結果から,この手法は,中間性中心性に基づくハイレベル分類アルゴリズムの精度を向上させることが判明した。

High-level classification algorithms focus on the interactions between instances. These produce a new form to evaluate and classify data. In this process, the core is a complex network building methodology. The current methodologies use variations of kNN to produce these graphs. However, these techniques ignore some hidden patterns between attributes and require normalization to be accurate. In this paper, we propose a new methodology for network building based on attribute-attribute interactions that do not require normalization. The current results show us that this approach improves the accuracy of the high-level classification algorithm based on betweenness centrality.
翻訳日:2022-10-13 21:14:49 公開日:2020-09-28
# 単一画像スーパーリゾリューションのための解釈可能な奥行きアテンションネットワーク

Interpretable Detail-Fidelity Attention Network for Single Image Super-Resolution ( http://arxiv.org/abs/2009.13134v1 )

ライセンス: Link先を確認
Yuanfei Huang, Jie Li, Xinbo Gao, Yanting Hu, Wen Lu(参考訳) 特徴表現と非線形マッピングのためのディープcnnの強力な能力から、ディープラーニングベースの手法は、単一画像の超解像において優れた性能を達成している。 しかし、既存のSR手法の多くは、当初視覚認識のために設計されたネットワークの高容量化に依存しており、細部への高解像度化の意図を考えることは滅多にない。 この目的を追求するために、(1)スムーズとディテールの多様な特性に適応した適切な演算子の学習、(2)低周波スムーズを保存し高周波ディテールを再構築するモデルの能力の向上、という2つの課題が解決される。 そこで本研究では,これらのスムースと詳細を分割・コンカレントに段階的に処理する,目的的かつ解釈可能な詳細忠実度注意ネットワークを提案する。これは局所受容領域における特徴表現のみのために,深部CNNアーキテクチャを盲目的に設計・採用する代わりに,詳細忠実度を改善するための画像超解像の新規かつ具体的な可能性である。 特に、細部推論で顕著な解釈可能な特徴表現のためのヘッセンフィルタ、拡張エンコーダデコーダと分布アライメントセルを提案し、それぞれ形態的および統計的手法で推論されたヘッセン特徴を改善する。 大規模実験により,提案手法は最先端手法よりも定量的かつ定性的に優れた性能を発揮することが示された。 コードはhttps://github.com/yuanfeihuang/defianで入手できる。

Benefiting from the strong capabilities of deep CNNs for feature representation and nonlinear mapping, deep-learning-based methods have achieved excellent performance in single image super-resolution. However, most existing SR methods depend on the high capacity of networks which is initially designed for visual recognition, and rarely consider the initial intention of super-resolution for detail fidelity. Aiming at pursuing this intention, there are two challenging issues to be solved: (1) learning appropriate operators which is adaptive to the diverse characteristics of smoothes and details; (2) improving the ability of model to preserve the low-frequency smoothes and reconstruct the high-frequency details. To solve them, we propose a purposeful and interpretable detail-fidelity attention network to progressively process these smoothes and details in divide-and-conquer manner, which is a novel and specific prospect of image super-resolution for the purpose on improving the detail fidelity, instead of blindly designing or employing the deep CNNs architectures for merely feature representation in local receptive fields. Particularly, we propose a Hessian filtering for interpretable feature representation which is high-profile for detail inference, a dilated encoder-decoder and a distribution alignment cell to improve the inferred Hessian features in morphological manner and statistical manner respectively. Extensive experiments demonstrate that the proposed methods achieve superior performances over the state-of-the-art methods quantitatively and qualitatively. Code is available at https://github.com/YuanfeiHuang/DeFiAN.
翻訳日:2022-10-13 21:13:31 公開日:2020-09-28
# EvolGAN: 進化的生成的敵ネットワーク

EvolGAN: Evolutionary Generative Adversarial Networks ( http://arxiv.org/abs/2009.13311v1 )

ライセンス: Link先を確認
Baptiste Roziere and Fabien Teytaud and Vlad Hosu and Hanhe Lin and Jeremy Rapin and Mariia Zameshina and Olivier Teytaud(参考訳) 本稿では,小型で難解なデータセットで学習した生成的敵ネットワークの潜伏空間の探索に品質推定器と進化的手法を用いることを提案する。 新たな手法は,生成元の多様性を保ちながら,極めて高品質な画像を生成する。 人間は、猫の周波数83.7pc、ファッションの74pc、馬の70.4pc、アートワークの69.2pc、そしてすでに優れた顔のガンの小さな改良を好みました。 このアプローチは、品質スコアとGANジェネレータに適用される。

We propose to use a quality estimator and evolutionary methods to search the latent space of generative adversarial networks trained on small, difficult datasets, or both. The new method leads to the generation of significantly higher quality images while preserving the original generator's diversity. Human raters preferred an image from the new version with frequency 83.7pc for Cats, 74pc for FashionGen, 70.4pc for Horses, and 69.2pc for Artworks, and minor improvements for the already excellent GANs for faces. This approach applies to any quality scorer and GAN generator.
翻訳日:2022-10-13 21:13:02 公開日:2020-09-28
# レーダhrrpターゲット認識のための変動時間深部生成モデル

Variational Temporal Deep Generative Model for Radar HRRP Target Recognition ( http://arxiv.org/abs/2009.13011v1 )

ライセンス: Link先を確認
Dandan Guo, Bo Chen (Senior Member, IEEE), Wenchao Chen, Chaojie Wang, Hongwei Liu (Member, IEEE), and Mingyuan Zhou(参考訳) 我々は高分解能レンジプロファイル(HRRP)に基づくレーダ自動目標認識(RATR)のためのリカレントガンマ信念ネットワーク(rGBN)を開発した。 提案したrGBNは、その時間的深層生成モデルを構築するためにガンマ分布の階層構造を採用する。 スケーラブルなトレーニングと高速アウト・オブ・サンプル予測のために,確率的段階のマルコフ連鎖モンテカルロ(mcmc)と反復的変分推論モデルのハイブリッドを提案する。 ラベル情報を利用してより識別的な潜在表現を抽出するために,HRRPサンプルと対応するラベルを共同でモデル化する教師付きrGBNを提案する。 HRRPデータを用いた実験結果から,提案手法は計算効率が高く,高い分類精度と一般化能力を有し,高度に解釈可能な多層構造を提供することが示された。

We develop a recurrent gamma belief network (rGBN) for radar automatic target recognition (RATR) based on high-resolution range profile (HRRP), which characterizes the temporal dependence across the range cells of HRRP. The proposed rGBN adopts a hierarchy of gamma distributions to build its temporal deep generative model. For scalable training and fast out-of-sample prediction, we propose the hybrid of a stochastic-gradient Markov chain Monte Carlo (MCMC) and a recurrent variational inference model to perform posterior inference. To utilize the label information to extract more discriminative latent representations, we further propose supervised rGBN to jointly model the HRRP samples and their corresponding labels. Experimental results on synthetic and measured HRRP data show that the proposed models are efficient in computation, have good classification accuracy and generalization ability, and provide highly interpretable multi-stochastic-layer latent structure.
翻訳日:2022-10-13 21:08:02 公開日:2020-09-28
# 重みの異なるdnnの融合によるマルチモデル推論の高速化

Accelerating Multi-Model Inference by Merging DNNs of Different Weights ( http://arxiv.org/abs/2009.13062v1 )

ライセンス: Link先を確認
Joo Seong Jeong, Soojeong Kim, Gyeong-In Yu, Yunseong Lee, Byung-Gon Chun(参考訳) 機械学習タスクでうまく機能することが証明された標準化されたDNNモデルは、下流タスクを解決するために広く使われ、しばしばas-isとして採用され、転送学習パラダイムを形成している。 しかし、GPUサーバのクラスタからこのようなDNNモデルの複数のインスタンスを提供する場合、バッチ処理のようなGPU利用を改善する既存の技術は適用不可能である。 我々は,異なる重みと異なる入力を持つ同一アーキテクチャを共有する複数のDNNモデルをマージする手法であるNetFuseを提案する。 NetFuseは、特定の入力セットのみに重みのセットを関連付ける、より一般的な操作に置き換えることによって実現されている。 ResNet-50、ResNeXt-50、BERT、XLNetの実験では、NetFuseは、GPU V100 GPUでDNN推論時間を最大3.6倍、32モデルインスタンスのマージ時にTITAN Xp GPUで最大3.0倍まで高速化でき、GPUメモリを少量しか使用できない。

Standardized DNN models that have been proved to perform well on machine learning tasks are widely used and often adopted as-is to solve downstream tasks, forming the transfer learning paradigm. However, when serving multiple instances of such DNN models from a cluster of GPU servers, existing techniques to improve GPU utilization such as batching are inapplicable because models often do not share weights due to fine-tuning. We propose NetFuse, a technique of merging multiple DNN models that share the same architecture but have different weights and different inputs. NetFuse is made possible by replacing operations with more general counterparts that allow a set of weights to be associated with only a certain set of inputs. Experiments on ResNet-50, ResNeXt-50, BERT, and XLNet show that NetFuse can speed up DNN inference time up to 3.6x on a NVIDIA V100 GPU, and up to 3.0x on a TITAN Xp GPU when merging 32 model instances, while only using up a small additional amount of GPU memory.
翻訳日:2022-10-13 21:07:29 公開日:2020-09-28
# 熱快適データセットのバランスをとる: 私たちはGANですが、すべきだろうか?

Balancing thermal comfort datasets: We GAN, but should we? ( http://arxiv.org/abs/2009.13154v1 )

ライセンス: Link先を確認
Matias Quintana, Stefano Schiavon, Kwok Wai Tham, and Clayton Miller(参考訳) センサの拡散や主観的フィードバックの手法により,建設環境の熱的快適性評価がアナリストや研究者に利用できるようになった。 これらのデータは、エネルギー効率と幸福への設計と操作をサポートするために快適行動のモデリングに使用できる。 自然界では、室内環境が快適に設計されているため、主観的なフィードバックはバランスがとれない。 この状況は、事前処理ステップとしてのクラスバランシングが、高性能な予測熱快適分類モデルの開発に有用である、機械学習ワークフローのシナリオを生み出します。 本稿では,本論文から得られた各種熱的快適性データセットのクラスバランス技術について検討し,この不均衡シナリオに対処するための条件付き生成適応ネットワーク(GAN),$\texttt{comfortGAN}$を提案する。 これらのアプローチは、30名と67名の参加者から、それぞれ1,474名、2,067名、66,397点からなる世界規模の熱快適データセットまで、3つの公開データセットに適用される。 この研究は、$\texttt{comfortgan}$から生成した実データと実データからなるバランスデータセットでトレーニングされた分類モデルは、他の拡張法よりも高いパフォーマンス(分類精度では4%から17%)を持つ。 しかし、不快を表すクラスをマージして3つにすると、より良い不均衡なパフォーマンスが期待でき、$\texttt{comfortGAN}$のパフォーマンスが1-2%に向上する。 これらの結果は, GANなどの高度な技術を用いて, 温度快適性モデリングのためのクラスバランスが有用であるが, 一定のシナリオではその価値が低下していることを示している。 このプロセスが役に立つシナリオと最善の方法を決定する上で,潜在的なユーザを支援するための議論が提供されている。

Thermal comfort assessment for the built environment has become more available to analysts and researchers due to the proliferation of sensors and subjective feedback methods. These data can be used for modeling comfort behavior to support design and operations towards energy efficiency and well-being. By nature, occupant subjective feedback is imbalanced as indoor conditions are designed for comfort, and responses indicating otherwise are less common. This situation creates a scenario for the machine learning workflow where class balancing as a pre-processing step might be valuable for developing predictive thermal comfort classification models with high-performance. This paper investigates the various thermal comfort dataset class balancing techniques from the literature and proposes a modified conditional Generative Adversarial Network (GAN), $\texttt{comfortGAN}$, to address this imbalance scenario. These approaches are applied to three publicly available datasets, ranging from 30 and 67 participants to a global collection of thermal comfort datasets, with 1,474; 2,067; and 66,397 data points, respectively. This work finds that a classification model trained on a balanced dataset, comprised of real and generated samples from $\texttt{comfortGAN}$, has higher performance (increase between 4% and 17% in classification accuracy) than other augmentation methods tested. However, when classes representing discomfort are merged and reduced to three, better imbalanced performance is expected, and the additional increase in performance by $\texttt{comfortGAN}$ shrinks to 1-2%. These results illustrate that class balancing for thermal comfort modeling is beneficial using advanced techniques such as GANs, but its value is diminished in certain scenarios. A discussion is provided to assist potential users in determining which scenarios this process is useful and which method works best.
翻訳日:2022-10-13 21:06:26 公開日:2020-09-28
# CASTLE: Auxiliary Causal Graph Discoveryによる正規化

CASTLE: Regularization via Auxiliary Causal Graph Discovery ( http://arxiv.org/abs/2009.13180v1 )

ライセンス: Link先を確認
Trent Kyono, Yao Zhang, Mihaela van der Schaar(参考訳) 正規化は教師付きモデルのサンプル外データへの一般化を改善する。 先行研究では、因果方向の予測(原因による影響)が反因果方向よりもテスト誤差が低いことが示されている。 しかし、既存の正規化法は因果関係を知らない。 因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。 CASTLEは、因果方向の非循環グラフ(DAG)をニューラルネットワークの入力層に埋め込まれた隣接行列として学習し、最適な予測器の発見を容易にする。 さらに、CASTLEは因果的隣り合う因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。 我々は、我々のアプローチに縛られた理論的一般化を提供し、CASTLEが他の人気のあるベンチマーク正則化器と比較して、一貫してサンプル外予測に結びつくことを示す、合成および実際の公開データセットの多元的実験を行う。

Regularization improves generalization of supervised models to out-of-sample data. Prior works have shown that prediction in the causal direction (effect from cause) results in lower testing error than the anti-causal direction. However, existing regularization methods are agnostic of causality. We introduce Causal Structure Learning (CASTLE) regularization and propose to regularize a neural network by jointly learning the causal relationships between variables. CASTLE learns the causal directed acyclical graph (DAG) as an adjacency matrix embedded in the neural network's input layers, thereby facilitating the discovery of optimal predictors. Furthermore, CASTLE efficiently reconstructs only the features in the causal DAG that have a causal neighbor, whereas reconstruction-based regularizers suboptimally reconstruct all input features. We provide a theoretical generalization bound for our approach and conduct experiments on a plethora of synthetic and real publicly available datasets demonstrating that CASTLE consistently leads to better out-of-sample predictions as compared to other popular benchmark regularizers.
翻訳日:2022-10-13 21:05:51 公開日:2020-09-28
# Fancy Man Lauches Zippo at WNUT 2020 Shared Task-1: A Bert Case Model for Wet Lab Entity extract

Fancy Man Lauches Zippo at WNUT 2020 Shared Task-1: A Bert Case Model for Wet Lab Entity Extraction ( http://arxiv.org/abs/2009.12997v1 )

ライセンス: Link先を確認
Haoding Meng, Qingcheng Zeng, Xiaoyang Fang, Zhexin Liang(参考訳) 実験手順を機械可読形式にするためのステップを指定するプロトコルの自動的または半自動的な変換は、生物学的研究に大いに役立つ。 これらのノイズ、高密度、ドメイン固有のラボプロトコル処理は、ディープラーニングの開発にますます関心を寄せている。 本稿では,WNUT 2020共有タスク-1:ウェットラボエンティティ抽出のチームワークについて,BiLSTM CRFモデルやBertケースモデルなど,いくつかのモデルで検討を行った。 また,従来十分な注意を払わなかったケース感度,例えば \emph{transformers} バージョンなどの異なる状況下での \textbf{Bert case} の性能差について検討した。

Automatic or semi-automatic conversion of protocols specifying steps in performing a lab procedure into machine-readable format benefits biological research a lot. These noisy, dense, and domain-specific lab protocols processing draws more and more interests with the development of deep learning. This paper presents our teamwork on WNUT 2020 shared task-1: wet lab entity extract, that we conducted studies in several models, including a BiLSTM CRF model and a Bert case model which can be used to complete wet lab entity extraction. And we mainly discussed the performance differences of \textbf{Bert case} under different situations such as \emph{transformers} versions, case sensitivity that may don't get enough attention before.
翻訳日:2022-10-13 20:57:25 公開日:2020-09-28
# SPARTA: Sparse Transformer Matching Retrievalによる効率的なオープンドメイン質問応答

SPARTA: Efficient Open-Domain Question Answering via Sparse Transformer Matching Retrieval ( http://arxiv.org/abs/2009.13013v1 )

ライセンス: Link先を確認
Tiancheng Zhao, Xiaopeng Lu, Kyusong Lee(参考訳) 本稿では,open-domain question answeringの性能,一般化,解釈性に優れたニューラル検索手法であるspartaを提案する。 SPARTAは、高密度ベクトル近接探索を用いる多くのニューラルランキング法とは異なり、インバートインデックスとして効率的に実装可能なスパース表現を学習する。 結果として得られる表現は、高価な近似ベクトル探索を必要としないスケーラブルなニューラルネットワーク検索を可能にする。 我々は4つのオープンドメイン質問応答(OpenQA)タスクと11の検索質問応答(ReQA)タスクに対するアプローチを検証する。 SPARTAは、オープンSQuAD、Natuarl Question、CMRCなど、英語と中国語のデータセットで、さまざまなオープンドメインの質問応答タスクにまたがって、最先端の新たな結果を達成する。 また,提案手法が人間の解釈可能な表現を生成し,性能と効率のトレードオフを柔軟に制御できることを確認した。

We introduce SPARTA, a novel neural retrieval method that shows great promise in performance, generalization, and interpretability for open-domain question answering. Unlike many neural ranking methods that use dense vector nearest neighbor search, SPARTA learns a sparse representation that can be efficiently implemented as an Inverted Index. The resulting representation enables scalable neural retrieval that does not require expensive approximate vector search and leads to better performance than its dense counterpart. We validated our approaches on 4 open-domain question answering (OpenQA) tasks and 11 retrieval question answering (ReQA) tasks. SPARTA achieves new state-of-the-art results across a variety of open-domain question answering tasks in both English and Chinese datasets, including open SQuAD, Natuarl Question, CMRC and etc. Analysis also confirms that the proposed method creates human interpretable representation and allows flexible control over the trade-off between performance and efficiency.
翻訳日:2022-10-13 20:57:09 公開日:2020-09-28
# 単語アライメントのためのニューラルベースライン

Neural Baselines for Word Alignment ( http://arxiv.org/abs/2009.13116v1 )

ライセンス: Link先を確認
Anh Khoa Ngo Ho (LIMSI), Fran\c{c}ois Yvon(参考訳) 単語アライメントは、並列文対の単語間の翻訳対応を識別し、例えば、バイリンガル辞書を学習したり、統計的機械翻訳システムを訓練したり、品質推定を行うために使用される。 自然言語処理のほとんどの分野において、現在ニューラルネットワークモデルは、単語アライメントモデルにも適用可能な、好ましいアプローチを構成している。 本研究では,4つの言語ペアに対する教師なし単語アライメントのためのニューラルモデルの研究と包括的評価を行った。 ほとんどの設定では、IBM-1のニューラルバージョンと隠れマルコフモデルは、個々のモデルよりも大幅に優れています。 また、モデルが克服するベースラインの典型的なアライメントエラーを分析し、形態的にリッチな言語に対するこれらの新しいモデルの利点と限界を説明する。

Word alignments identify translational correspondences between words in a parallel sentence pair and is used, for instance, to learn bilingual dictionaries, to train statistical machine translation systems , or to perform quality estimation. In most areas of natural language processing, neural network models nowadays constitute the preferred approach, a situation that might also apply to word alignment models. In this work, we study and comprehensively evaluate neural models for unsupervised word alignment for four language pairs, contrasting several variants of neural models. We show that in most settings, neural versions of the IBM-1 and hidden Markov models vastly outperform their discrete counterparts. We also analyze typical alignment errors of the baselines that our models overcome to illustrate the benefits-and the limitations-of these new models for morphologically rich languages.
翻訳日:2022-10-13 20:56:29 公開日:2020-09-28
# 単語自動アライメントのための生成潜時ニューラルネットワークモデル

Generative latent neural models for automatic word alignment ( http://arxiv.org/abs/2009.13117v1 )

ライセンス: Link先を確認
Anh Khoa Ngo Ho (LIMSI), Fran\c{c}ois Yvon(参考訳) 単語アライメントは、並列文対の単語間の翻訳対応を識別し、例えば、バイリンガル辞書を学習したり、統計的機械翻訳システムを訓練したり、品質推定を行うために使用される。 変分オートエンコーダは、言語生成タスクに有用な教師なしの潜在表現で学習するために、最近様々な自然言語処理で使用されている。 本稿では,単語アライメントの課題としてこれらのモデルを調査し,バニラ変分オートエンコーダのいくつかの進化を提案・評価する。 これらの手法は、Giza++と2つの言語ペアに対して強力なニューラルネットワークアライメントシステムに比較して、競争力のある結果が得られることを示す。

Word alignments identify translational correspondences between words in a parallel sentence pair and are used, for instance, to learn bilingual dictionaries, to train statistical machine translation systems or to perform quality estimation. Variational autoencoders have been recently used in various of natural language processing to learn in an unsupervised way latent representations that are useful for language generation tasks. In this paper, we study these models for the task of word alignment and propose and assess several evolutions of a vanilla variational autoencoders. We demonstrate that these techniques can yield competitive results as compared to Giza++ and to a strong neural network alignment system for two language pairs.
翻訳日:2022-10-13 20:56:15 公開日:2020-09-28
# セマンティックセグメンテーションとしての不完全発話書き換え

Incomplete Utterance Rewriting as Semantic Segmentation ( http://arxiv.org/abs/2009.13166v1 )

ライセンス: Link先を確認
Qian Liu, Bei Chen, Jian-Guang Lou, Bin Zhou, Dongmei Zhang(参考訳) 近年,不完全発話書き換えの課題が注目されている。 それまでの作業は通常、それを機械翻訳タスクとして形作り、コピー機構を備えたシーケンスベースのアーキテクチャを採用する。 本稿では,意味的セグメンテーションタスクとして定式化した,新規かつ広範囲なアプローチを提案する。 スクラッチから生成する代わりに、このような定式化は編集操作を導入し、単語レベルの編集行列の予測として問題を形作る。 ローカルな情報とグローバルな情報の両方をキャプチャできることから、我々のアプローチは、いくつかの公開データセット上で最先端のパフォーマンスを達成する。 さらに、私たちのアプローチは推論における標準的なアプローチの4倍高速です。

Recent years the task of incomplete utterance rewriting has raised a large attention. Previous works usually shape it as a machine translation task and employ sequence to sequence based architecture with copy mechanism. In this paper, we present a novel and extensive approach, which formulates it as a semantic segmentation task. Instead of generating from scratch, such a formulation introduces edit operations and shapes the problem as prediction of a word-level edit matrix. Benefiting from being able to capture both local and global information, our approach achieves state-of-the-art performance on several public datasets. Furthermore, our approach is four times faster than the standard approach in inference.
翻訳日:2022-10-13 20:56:02 公開日:2020-09-28
# 会話セマンティックパーシング

Conversational Semantic Parsing ( http://arxiv.org/abs/2009.13655v1 )

ライセンス: Link先を確認
Armen Aghajanyan, Jean Maillard, Akshat Shrivastava, Keith Diedrick, Mike Haeger, Haoran Li, Yashar Mehdad, Ves Stoyanov, Anuj Kumar, Mike Lewis, Sonal Gupta(参考訳) タスク指向アシスタントシステムにおける意味解析のための構造化表現は、ワンターンクエリの単純な理解に向けられている。 表現の制限のため、コリファレンスレゾリューションやコンテキストキャリーオーバといったセッションベースのプロパティは、パイプライン化されたシステムで下流で処理される。 本稿では,協調参照やコンテキストキャリーオーバといった概念を表現できるタスク指向対話システムのための意味表現を提案し,セッション内の問合せの包括的理解を可能にする。 我々は,60k発話からなる20kセッションからなる新しいセッションベース,コンポジション型タスク指向構文解析データセットをリリースする。 Dialog State Tracking Challengesとは異なり、データセットのクエリは構成形式を持つ。 セッションベース解析のためのSeq2Seqモデルの新たなファミリーを提案し、ATIS, SNIPS, TOP, DSTC2における現在の最先端技術と同等の性能を実現する。 特に、dstc2の最もよく知られた結果を、スロットキャリオーバで最大5ポイント改善します。

The structured representation for semantic parsing in task-oriented assistant systems is geared towards simple understanding of one-turn queries. Due to the limitations of the representation, the session-based properties such as co-reference resolution and context carryover are processed downstream in a pipelined system. In this paper, we propose a semantic representation for such task-oriented conversational systems that can represent concepts such as co-reference and context carryover, enabling comprehensive understanding of queries in a session. We release a new session-based, compositional task-oriented parsing dataset of 20k sessions consisting of 60k utterances. Unlike Dialog State Tracking Challenges, the queries in the dataset have compositional forms. We propose a new family of Seq2Seq models for the session-based parsing above, which achieve better or comparable performance to the current state-of-the-art on ATIS, SNIPS, TOP and DSTC2. Notably, we improve the best known results on DSTC2 by up to 5 points for slot-carryover.
翻訳日:2022-10-13 20:55:40 公開日:2020-09-28
# チェックポイントの効率的な構成について

On Efficient Constructions of Checkpoints ( http://arxiv.org/abs/2009.13003v1 )

ライセンス: Link先を確認
Yu Chen, Zhenming Liu, Bin Ren, Xin Jin(参考訳) チェックポイント/スナップショットの効率的な構築は、ディープラーニングモデルのトレーニングと診断のための重要なツールである。 本稿では,チェックポイント構造(LC-Checkpoint)の損失圧縮手法を提案する。 LC-Checkpointは、モデルのトレーニングにSGDを使用すると仮定して、同時に圧縮速度を最大化し、回復速度を最適化する。 LC-Checkpointは量子化と優先度の促進を行い、SGDの最も重要な情報を格納し、Huffman符号化を用いて勾配スケールの非一様分布を利用する。 我々の広範な実験により、LC-Checkpointは圧縮速度を最大28\times$、リカバリ速度を最大5.77\times$、最先端のアルゴリズム(SCAR)で達成している。

Efficient construction of checkpoints/snapshots is a critical tool for training and diagnosing deep learning models. In this paper, we propose a lossy compression scheme for checkpoint constructions (called LC-Checkpoint). LC-Checkpoint simultaneously maximizes the compression rate and optimizes the recovery speed, under the assumption that SGD is used to train the model. LC-Checkpointuses quantization and priority promotion to store the most crucial information for SGD to recover, and then uses a Huffman coding to leverage the non-uniform distribution of the gradient scales. Our extensive experiments show that LC-Checkpoint achieves a compression rate up to $28\times$ and recovery speedup up to $5.77\times$ over a state-of-the-art algorithm (SCAR).
翻訳日:2022-10-13 20:55:11 公開日:2020-09-28
# 新しい次元でaiチップのメモリ壁を壊す

Breaking the Memory Wall for AI Chip with a New Dimension ( http://arxiv.org/abs/2009.13664v1 )

ライセンス: Link先を確認
Eugene Tam, Shenfei Jiang, Paul Duan, Shawn Meng, Yue Pang, Cayden Huang, Yi Han, Jacke Xie, Yuanjun Cui, Jinsong Yu, Minggui Lu(参考訳) 近年のディープラーニングの進歩により、コンピュータビジョンや自然言語処理などの応用に人工知能(AI)が広く採用されている。 ニューラルネットワークがより深く大きくなるにつれて、aiモデリングは従来のチップアーキテクチャの能力を上回っている。 メモリ帯域幅は処理能力に遅れる。 エネルギー消費は総所有コストを支配することになる。 現在、メモリ容量は最も高度なNLPモデルをサポートするには不十分である。 本稿では,これら3つの課題を解決するために,近メモリコンピューティングアーキテクチャを備えた3次元aiチップsunriseを提案する。 この分散ニアメモリコンピューティングアーキテクチャにより、データ帯域幅の豊富なパフォーマンス制限されたメモリウォールを分解することができます。 7nm技術における競合チップと同等のエネルギー効率を40nm技術で達成する。 他のaiチップと同じような技術に移行することで、我々は、エネルギー効率の10倍以上、現在の最先端チップのパフォーマンスの7倍、各ベンチマークの最高チップの20倍のメモリ容量を達成することを計画しています。

Recent advancements in deep learning have led to the widespread adoption of artificial intelligence (AI) in applications such as computer vision and natural language processing. As neural networks become deeper and larger, AI modeling demands outstrip the capabilities of conventional chip architectures. Memory bandwidth falls behind processing power. Energy consumption comes to dominate the total cost of ownership. Currently, memory capacity is insufficient to support the most advanced NLP models. In this work, we present a 3D AI chip, called Sunrise, with near-memory computing architecture to address these three challenges. This distributed, near-memory computing architecture allows us to tear down the performance-limiting memory wall with an abundance of data bandwidth. We achieve the same level of energy efficiency on 40nm technology as competing chips on 7nm technology. By moving to similar technologies as other AI chips, we project to achieve more than ten times the energy efficiency, seven times the performance of the current state-of-the-art chips, and twenty times of memory capacity as compared with the best chip in each benchmark.
翻訳日:2022-10-13 20:48:24 公開日:2020-09-28
# この患者はどんな病気を患っていますか。 医学試験からの大規模オープンドメイン質問応答データセット

What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams ( http://arxiv.org/abs/2009.13081v1 )

ライセンス: Link先を確認
Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang and Peter Szolovits(参考訳) オープンドメイン質問応答(OpenQA)タスクは、最近、自然言語処理(NLP)コミュニティからますます注目を集めている。 本稿では,医療委員会の専門試験から収集したmedqa(free-form multi-choice openqa dataset for solve medical problems)を提案する。 英語、簡体字中国語、伝統中国語の3つの言語を含み、それぞれ12,723問、34,251問、14,123問からなる。 文書検索と機械理解モデルを順次組み合わせ,ルールベースと一般的なニューラルメソッドの両方を実装した。 実験により,現在の最良の方法でも,英語,中国語,簡体字中国語の質問に対して,それぞれ36.7\%,42.0\%,70.1\%の検査精度しか達成できないことがわかった。 我々は、MedQAが既存のOpenQAシステムに大きな課題を提示し、NLPコミュニティからより強力なOpenQAモデルを促進するプラットフォームとして機能することを期待しています。

Open domain question answering (OpenQA) tasks have been recently attracting more and more attention from the natural language processing (NLP) community. In this work, we present the first free-form multiple-choice OpenQA dataset for solving medical problems, MedQA, collected from the professional medical board exams. It covers three languages: English, simplified Chinese, and traditional Chinese, and contains 12,723, 34,251, and 14,123 questions for the three languages, respectively. We implement both rule-based and popular neural methods by sequentially combining a document retriever and a machine comprehension model. Through experiments, we find that even the current best method can only achieve 36.7\%, 42.0\%, and 70.1\% of test accuracy on the English, traditional Chinese, and simplified Chinese questions, respectively. We expect MedQA to present great challenges to existing OpenQA systems and hope that it can serve as a platform to promote much stronger OpenQA models from the NLP community in the future.
翻訳日:2022-10-13 20:48:09 公開日:2020-09-28
# タスク指向対話システムのためのパラメータを用いた知識ベース学習

Learning Knowledge Bases with Parameters for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2009.13656v1 )

ライセンス: Link先を確認
Andrea Madotto, Samuel Cahyawijaya, Genta Indra Winata, Yan Xu, Zihan Liu, Zhaojiang Lin, Pascale Fung(参考訳) タスク指向の対話システムは、個別の対話状態追跡(dst)と管理ステップ、エンドツーエンドのトレーニング可能なモジュール化されている。 いずれの場合も、ユーザ要求を満たす上で、知識ベース(KB)が重要な役割を果たす。 モジュール化されたシステムは、アノテーションと推論時間という面で高価であるKBと対話するためにDSTに依存している。 エンドツーエンドシステムでは、KBを直接入力として使用するが、KBが数百のエントリより大きい場合にはスケールできない。 本稿では,任意のサイズのKBをモデルパラメータに直接埋め込む手法を提案する。 結果のモデルはDSTやテンプレート応答やKBを入力として必要とせず、微調整でKBを動的に更新することができる。 我々は,小,中,大のKBサイズのタスク指向対話データセットを5つ評価した。 実験の結果, エンド・ツー・エンドのモデルでは, パラメータに知識ベースを効果的に埋め込むことができ, 評価されたすべてのデータセットにおいて, 競合性能を達成できることがわかった。

Task-oriented dialogue systems are either modularized with separate dialogue state tracking (DST) and management steps or end-to-end trainable. In either case, the knowledge base (KB) plays an essential role in fulfilling user requests. Modularized systems rely on DST to interact with the KB, which is expensive in terms of annotation and inference time. End-to-end systems use the KB directly as input, but they cannot scale when the KB is larger than a few hundred entries. In this paper, we propose a method to embed the KB, of any size, directly into the model parameters. The resulting model does not require any DST or template responses, nor the KB as input, and it can dynamically update its KB via fine-tuning. We evaluate our solution in five task-oriented dialogue datasets with small, medium, and large KB size. Our experiments show that end-to-end models can effectively embed knowledge bases in their parameters and achieve competitive performance in all evaluated datasets.
翻訳日:2022-10-13 20:46:24 公開日:2020-09-28
# 量子シナプス希釈はディープネットワークにおけるスパースエンコーディングとドロップアウト正規化を促進する

Quantal synaptic dilution enhances sparse encoding and dropout regularisation in deep networks ( http://arxiv.org/abs/2009.13165v1 )

ライセンス: Link先を確認
Gardave S Bhumbra(参考訳) ドロップアウト(Dropout)とは、深層ネットワークをトレーニングしてオーバーフィッティングを減らしながら、ユニットのアクティビティを統計的に沈黙させるテクニックである。 本稿では,神経シナプスの量子特性に基づくドロップアウト正規化の生物学的に妥当なモデルであるquantal synaptic dilution (qsd)について紹介する。 QSDはReLU多層パーセプトロンにおいて標準的なドロップアウトよりも優れており、トレーニング可能な重量やバイアス分布の変化なしに、ドロップアウトマスクをアイデンティティ関数に置き換えるテスト時にスパース符号化が強化されている。 畳み込みネットワークの場合、この手法は、追加の正規化形式を含むことなく、コンピュータビジョンタスクの一般化も改善する。 QSDはまた、言語モデリングと感情分析のためのリカレントネットワークにおける標準のドロップアウトよりも優れています。 ドロップアウトの多くのバリエーションに対するqsdの利点は、標準ドロップアウトが適用可能なすべての従来のディープネットワークで一般的に実装可能であることである。

Dropout is a technique that silences the activity of units stochastically while training deep networks to reduce overfitting. Here we introduce Quantal Synaptic Dilution (QSD), a biologically plausible model of dropout regularisation based on the quantal properties of neuronal synapses, that incorporates heterogeneities in response magnitudes and release probabilities for vesicular quanta. QSD outperforms standard dropout in ReLU multilayer perceptrons, with enhanced sparse encoding at test time when dropout masks are replaced with identity functions, without shifts in trainable weight or bias distributions. For convolutional networks, the method also improves generalisation in computer vision tasks with and without inclusion of additional forms of regularisation. QSD also outperforms standard dropout in recurrent networks for language modelling and sentiment analysis. An advantage of QSD over many variations of dropout is that it can be implemented generally in all conventional deep networks where standard dropout is applicable.
翻訳日:2022-10-13 20:39:18 公開日:2020-09-28
# エキスパートモデルによるスケーラブルトランスファー学習

Scalable Transfer Learning with Expert Models ( http://arxiv.org/abs/2009.13239v1 )

ライセンス: Link先を確認
Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Cedric Renggli, Andr\'e Susano Pinto, Sylvain Gelly, Daniel Keysers, Neil Houlsby(参考訳) 事前訓練された表現の転送は、サンプル効率を改善し、新しいタスクの計算要求を減らすことができる。 しかしながら、転送に使用される表現は通常は汎用的であり、下流タスクの特定の分布に適合しない。 我々は、シンプルで効果的な戦略で、転送のためのエキスパート表現の使用を探求する。 我々は,既存のラベル構造を利用して多様な専門家を訓練し,安価に計算できるパフォーマンスプロキシを用いて,対象タスクごとに関連する専門家を選定する。 この戦略は、転送中にトレーニング済みのデータを再考しないため、新しいタスクに転送するプロセスをスケールする。 したがって、ターゲットタスク当たりの計算量がほとんど必要とせず、競合するアプローチに比べて2~3桁のスピードアップとなる。 さらに、多くの専門家を単一のモデルに圧縮できるアダプタベースのアーキテクチャを提供する。 このアプローチを2つの異なるデータソースで評価し,両ケースとも20以上の多様なビジョンタスクのベースラインを上回っていることを実証した。

Transfer of pre-trained representations can improve sample efficiency and reduce computational requirements for new tasks. However, representations used for transfer are usually generic, and are not tailored to a particular distribution of downstream tasks. We explore the use of expert representations for transfer with a simple, yet effective, strategy. We train a diverse set of experts by exploiting existing label structures, and use cheap-to-compute performance proxies to select the relevant expert for each target task. This strategy scales the process of transferring to new tasks, since it does not revisit the pre-training data during transfer. Accordingly, it requires little extra compute per target task, and results in a speed-up of 2-3 orders of magnitude compared to competing approaches. Further, we provide an adapter-based architecture able to compress many experts into a single model. We evaluate our approach on two different data sources and demonstrate that it outperforms baselines on over 20 diverse vision tasks in both cases.
翻訳日:2022-10-13 20:37:24 公開日:2020-09-28