このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20200507となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 3体相互作用によるモット絶縁体欠陥の量子ウォーク Quantum walks of interacting Mott insulator defects with three-body interactions ( http://arxiv.org/abs/2001.08527v2 ) ライセンス: Link先を確認 | Suman Mondal and Tapan Mishra | (参考訳) 相互作用する粒子の量子ウォークは、統計的性質とそれに関連する多体相互作用との相互作用により、非自明な特徴を示す可能性がある。
単位充填時の一様ボソニックモット絶縁体上の相互作用欠陥の量子ウォークを1次元グラフで解析する。
単一粒子欠陥の量子ウォークは自明な特徴を示すが、2つの粒子の場合、追加のオンサイト3体相互作用の関数として量子ウォーク反転の興味深い現象を示す。
3体相互作用がない場合、粒子対の量子ウォークが得られ、3体相互作用の強さがますます魅力的になるにつれて、量子ウォークにおける独立な粒子挙動が現れる。
興味深いことに、3体相互作用のさらなる増加は、一対の粒子に関連する量子ウォークの再出現に繋がる。
この量子ウォーク反転現象は、実空間密度の進化、ブロッホ振動、および2粒子相関関数を用いて研究される。 Quantum walks of interacting particles may display non-trivial features due to the interplay between the statistical nature and the many-body interactions associated to them. We analyze the quantum walk of interacting defects on top of an uniform bosonic Mott insulator at unit filling in an one dimensional graph. While the quantum walk of single particle defect shows trivial features, the case of two particles exhibits interesting phenomenon of quantum walk reversal as a function of additional onsite three-body attractive interactions. In the absence of the three-body interaction a quantum walk of pairs of particles is obtained and as the strength of the three-body interaction becomes more and more attractive, the independent particle behavior in quantum walk appears. Interestingly, further increase in the three-body interaction leads to the re-appearance of the quantum walk associated to a pair of particles. This quantum-walk reversal phenomenon is studied using the real-space density evolution, Bloch oscillation as well as two-particle correlation functions. | 翻訳日:2023-06-06 04:56:33 公開日:2020-05-07 |
# 量子相対エントロピーは、生体磁気センシングのラジカル対機構の資源である一重項コヒーレンスを示す Quantum relative entropy shows singlet-triplet coherence is a resource in the radical-pair mechanism of biological magnetic sensing ( http://arxiv.org/abs/2001.09319v2 ) ライセンス: Link先を確認 | I. K. Kominis | (参考訳) 生体磁場センシングに関連するラジカル対反応は、量子生物学のパラダイム、複雑な生体系における量子コハレン効果の探索を示す理想的なシステムである。
ここでは、この生化学スピンシステムと量子情報科学の間には、さらに根本的なつながりがある。
我々は、量子相対エントロピーの概念を用いて、ラジカル対のシングルト・トリップ・コヒーレンスを定量化する公式な尺度を導入し、探求する。
一重項コヒーレンスを定量化する能力は、ラジカル対による磁気センシングの研究において、多くの可能性を開く。
まず、一重項三重項コヒーレンスを明示的に定量化し、量子生物学の主要な前提、すなわち量子コヒーレンスが磁気受容の操作上の優位性を肯定的に取り扱う。
第二に、核スピンの非コヒーレントな操作は、ラジカル対が電子核の絡み合いを示すとき、一重項のコヒーレンスに悪影響を及ぼすことを示した。
最後に、交換相互作用とその量子コヒーレンス促進における役割に関する微妙な効果を明らかにする。 Radical-pair reactions pertinent to biological magnetic field sensing are an ideal system for demonstrating the paradigm of quantum biology, the exploration of quantum coherene effects in complex biological systems. We here provide yet another fundamental connection between this biochemical spin system and quantum information science. We introduce and explore a formal measure quantifying singlet-triplet coherence of radical-pairs using the concept of quantum relative entropy. The ability to quantify singlet-triplet coherence opens up a number of possibilities in the study of magnetic sensing with radical-pairs. We first use the explicit quantification of singlet-triplet coherence to affirmatively address the major premise of quantum biology, namely that quantum coherence provides an operational advantage to magnetoreception. Secondly, we use the concept of incoherent operations to show that incoherent manipulations of nuclear spins can have a dire effect on singlet-triplet coherence when the radical-pair exhibits electronic-nuclear entanglement. Finally, we unravel subtle effects related to exchange interactions and their role in promoting quantum coherence. | 翻訳日:2023-06-06 01:10:45 公開日:2020-05-07 |
# 量子ポテンシャルの平均値と不確かさの関係 Mean Value of the Quantum Potential and Uncertainty Relations ( http://arxiv.org/abs/2002.01507v2 ) ライセンス: Link先を確認 | F. Nicacio, and F.T. Falciano | (参考訳) この研究において、任意の状態に対する量子ポテンシャルの平均値に対する下界を決定する。
さらに、robertson-schr\"odinger不等式よりも強く、したがってハイゼンベルクの不確実性原理よりも強い一般化の不確実性関係を導出する。
平均値はモーメント作用素の共分散の非古典的部分と関連付けられる。
これはモーメントの非古典的相関に対する最小境界を課し、量子システムの古典的および半古典的極限を物理的に特徴づける。
主に純状態に対して得られた結果は混合状態を記述する密度行列に対して一般化される。 In this work we determine a lower bound to the mean value of the quantum potential for an arbitrary state. Furthermore, we derive a generalized uncertainty relation that is stronger than the Robertson-Schr\"odinger inequality and hence also stronger than the Heisenberg uncertainty principle. The mean value is then associated to the nonclassical part of the covariances of the momenta operator. This imposes a minimum bound for the nonclassical correlations of momenta and gives a physical characterization of the classical and semiclassical limits of quantum systems. The results obtained primarily for pure states are then generalized for density matrices describing mixed states. | 翻訳日:2023-06-04 18:37:07 公開日:2020-05-07 |
# 量子状態の少ない参照フレーム非依存な測定デバイス非依存量子鍵分布 Reference-Frame-Independent, Measurement-Device-Independent quantum key distribution using fewer quantum states ( http://arxiv.org/abs/2002.01601v2 ) ライセンス: Link先を確認 | Donghwa Lee, Seong-Jin Hong, Young-Wook Cho, Hyang-Tag Lim, Sang-Wook Han, Hojoong Jung, Sung Moon, Kwangjo Lee, Yong-Su Kim | (参考訳) Reference-Frame-Independent Quantum Key Distribution (RFI-QKD)は、共通参照フレームを共有することなく、2つのリモートパーティ間で秘密鍵を生成する実用的な方法を提供する。
一方、測定デバイスに依存しないQKD(MDI-QKD)は、測定デバイスに対する全ての量子ハッキングに免疫するため、高いレベルのセキュリティを提供する。
これら2つのQKDプロトコル、すなわちRFI-MDI-QKDの組み合わせは、実用性とセキュリティの両方の利点があるため、最も魅力的なQKDプロトコルの1つである。
RFI-MDI-QKDのさらなる実用性のために、実装の複雑さを減らすことは有益である。
ここでは、RFI-MDI-QKDが元の提案よりも少ない量子状態で実装可能であることを示す。
原則として、当事者の1つの量子状態の数は、セキュリティを損なうことなく、6から3に削減できることがわかった。
従来のRFI-MDI-QKDでは、6つの量子状態を送信すべきであり、QKDプロトコルの実装を著しく単純化する。
また,本手法の有効性を実証実験により検証した。 Reference-Frame-Independent Quantum Key Distribution (RFI-QKD) provides a practical way to generate secret keys between two remote parties without sharing common reference frames. On the other hand, Measurement-Device-Independent QKD (MDI-QKD) offers high level of security as it immunes against all the quantum hacking attempts to the measurement devices. The combination of these two QKD protocols, i.e., RFI-MDI-QKD, is one of the most fascinating QKD protocols since it holds both advantages of practicality and security. For further practicality of RFI-MDI-QKD, it is beneficial to reduce the implementation complexity. Here, we have shown that RFI-MDI-QKD can be implemented using fewer quantum states than those of its original proposal. We found that, in principle, the number of quantum states for one of the parties can be reduced from six to three without compromising security. Comparing to the conventional RFI-MDI-QKD where both parties should transmit six quantum states, it significantly simplifies the implementation of the QKD protocol. We also verify the feasibility of the scheme with the proof-of-principle experiment. | 翻訳日:2023-06-04 16:36:10 公開日:2020-05-07 |
# su(2)-in-su(1,1)ネスト干渉計による量子密度計測 Quantum dense metrology by an SU(2)-in-SU(1,1) nested interferometer ( http://arxiv.org/abs/2002.02195v2 ) ライセンス: Link先を確認 | Wei Du, J.F.Chen, Z.Y.Ou, Weiping Zhang | (参考訳) 量子エンタングルメント(quantum entanglement, QDM)は、量子密度メートル法(quantum dense metrology, QDM)を用いて、標準量子限界を同時に上回る精度を持つ光学場の位相と振幅変調のような2つの共役量のジョイント推定を行う手法である。
SU(1,1)干渉計(SUI)は検出損失耐性を持つQDMを実現するが、絶対感度には制限がある。
ここでは、SU(1,1)干渉計内にネストした線形干渉計(SU(2))を用いたQDM方式を提案する。
SUIにおける退化SUIを用いて位相感度増幅器の位相角を制御することにより、位相変調と振幅変調の任意の混合の測定精度を最適に向上することができる。 With the help of quantum entanglement, quantum dense metrology (QDM) is a technique that can perform the joint estimates of two conjugate quantities such as phase and amplitude modulations of an optical field with an accuracy beating the standard quantum limit simultaneously. SU(1,1) interferometers (SUI) can realize QDM with detection loss tolerance but is limited in absolute sensitivity. Here we present a QDM scheme with a linear interferometer (SU(2)) nested inside an SU(1,1) interferometer. By using a degenerate SUI and controlling the phase angle of the phase-sensitive amplifers in SUI, we can achieve the optimum quantum enhancement in the measurement precision of arbitrary mixture of phase and amplitude modulation. | 翻訳日:2023-06-04 14:16:23 公開日:2020-05-07 |
# 単一電子状態の量子テレポーテーション Quantum teleportation of single-electron states ( http://arxiv.org/abs/2002.08134v2 ) ライセンス: Link先を確認 | Edvin Olofsson, Peter Samuelsson, Nicolas Brunner, and Patrick P. Potts | (参考訳) 単一電子源と検出器に基づく2重レール電子量子状態のオンデマンドテレポーテーション方式について検討する。
このスキームは25%の最大効率を持ち、共有絡み状態とベル状態の測定の両方によって制限される。
現在の技術で実現可能な2つの実験的実装について考察する。
1つ目は表面の音波に依存し、そこでは全ての材料が容易に入手できる。
2つ目は量子ホールエッジチャネルのローレンツ電圧パルスに基づいている。
これらのシステムでは単一電子検出はまだ実験的に確立されていないため、三階までの電流コリケータを用いたトモグラフィーによるテレポーテーションの検出を検討する。
環境への影響を考慮に入れます We consider a scheme for on-demand teleportation of a dual-rail electron qubit state, based on single-electron sources and detectors. The scheme has a maximal efficiency of 25%, which is limited both by the shared entangled state as well as the Bell-state measurement. We consider two experimental implementations, realizable with current technology. The first relies on surface acoustic waves, where all the ingredients are readily available. The second is based on Lorentzian voltage pulses in quantum Hall edge channels. As single-electron detection is not yet experimentally established in these systems, we consider a tomographic detection of teleportation using current correlators up to (and including) third order. For both implementations we take into account environmental effects. | 翻訳日:2023-06-03 04:56:36 公開日:2020-05-07 |
# 粗粒マスター方程式の熱力学 Thermodynamics of the Coarse-Graining Master Equation ( http://arxiv.org/abs/2004.01554v2 ) ライセンス: Link先を確認 | Gernot Schaller and Julian Abla{\ss}mayer | (参考訳) 有限時間間隔での開量子系の進化のための生成器を導出するための粗粒化法について検討する。
このアプローチは世俗近似を必要としないが、一般にリンドブラド-ゴリーニ-コサコフスキ-スダルシャン生成器に繋がる。
定式化と全数統計を組み合わせることで、結合や貯水池との疎結合に必要な切替作業が組み込まれると、一貫した熱力学の枠組みを実証できる。
特に、第2の法則を標準的な形で書けるが、熱電流が貯水池に関して定義しなければならない唯一の違いがある。
簡単な例を例に,本研究の成果を例証する。 We study the coarse-graining approach to derive a generator for the evolution of an open quantum system over a finite time interval. The approach does not require a secular approximation but nevertheless generally leads to a Lindblad-Gorini-Kossakowski-Sudarshan generator. By combining the formalism with Full Counting Statistics, we can demonstrate a consistent thermodynamic framework, once the switching work required for the coupling and decoupling with the reservoir is included. Particularly, we can write the second law in standard form, with the only difference that heat currents must be defined with respect to the reservoir. We exemplify our findings with simple but pedagogical examples. | 翻訳日:2023-05-27 00:52:42 公開日:2020-05-07 |
# 2モードガウス状態を持つ非古典的ステアリング Nonclassical steering with two-mode Gaussian states ( http://arxiv.org/abs/2005.00046v2 ) ライセンス: Link先を確認 | Massimo Frigerio, Claudio Destri, Stefano Olivares, Matteo G. A. Paris | (参考訳) グラウバー P-函数の特異性または負性は、量子光学において重要な意味を持つ非古典性の概念であり、既約資源の特性を持つ。
ここでは,二成分ガウス状態の条件付きガウス測定によってp-非古典性がどのように生成されるかを検討する。
この非古典的なステアリングは弱い形態で起こる可能性があり、これは絡み合いを意味するものではなく、eprステアビリティと絡み合いを暗示する強い形態である。
フィールド二次数は非古典性を生成するのに最適な測定値であることを示し、この結果を利用して弱く強い非古典性ステアリングに必要な十分条件を導出する。
2モード圧縮熱状態(tmst)では、弱いものと強い非古典的なステアリングが一致し、eprステアリングの概念と融合する。
これはまた、P-関数非古典性に対する新たな操作的解釈を、TMST上での片側絡み検証を可能にする特徴として提供する。 Singularity or negativity of Glauber P-function is a widespread notion of nonclassicality, with important implications in quantum optics and with the character of an irreducible resource. Here we explore how P-nonclassicality may be generated by conditional Gaussian measurements on bipartite Gaussian states. This nonclassical steering may occur in a weak form, which does not imply entanglement, and in a strong form that implies EPR-steerability and thus entanglement. We show that field quadratures are the best measurements to remotely generate nonclassicality, and exploit this result to derive necessary and sufficient conditions for weak and strong nonclassical steering. For two-mode squeezed thermal states (TMST), weak and strong nonclassical steering coincide, and merge with the notion of EPR steering. This also provides a new operational interpretation for P-function nonclassicality as the distinctive feature that allows one-party entanglement verification on TMSTs. | 翻訳日:2023-05-21 17:06:49 公開日:2020-05-07 |
# NISQデバイス上で実装可能な量子ポアソン解法 A quantum Poisson solver implementable on NISQ devices ( http://arxiv.org/abs/2005.00256v2 ) ライセンス: Link先を確認 | Shengbin Wang, Zhimin Wang, Wendong Li, Lixin Fan, Guolong Cui, Zhiqiang Wei, Yongjian Gu | (参考訳) 微分方程式を解くことは、量子コンピューティングの最も魅力的な応用の1つである。
一般の常微分方程式や偏微分方程式に対処する既存の量子アルゴリズムは、ノイズ中間量子(NISQ)デバイスでうまく実行するには高すぎると考えられている。
本稿では、簡単なry回転に基づく1次元ポアソン方程式を解くためのコンパクト量子アルゴリズムを提案する。
主な操作は確率振幅に基づいて行われる。
したがって, 本アルゴリズムは位相推定, ハミルトンシミュレーション, 算術の必要性を回避できる。
解誤差はポアソン方程式の有限差分近似からのみ生じる。
我々の量子ポアソン解法(QPS)は、方程式の線形系の次元の対数論である1ビットと2ビットのゲートにおいて3nと4n^3のゲート複素性を持つ。
解誤差 {\epsilon} の観点では、複雑性は qubits の log(1/{\epsilon}) と演算の poly(log(1/{\epsilon}) であり、最もよく知られた結果からなる。
現在のQPSは、NISQデバイスにおける潜在的な応用を表すかもしれない。 Solving differential equations is one of the most compelling applications of quantum computing. Most existing quantum algorithms addressing general ordinary and partial differential equations are thought to be too expensive to execute successfully on Noisy Intermediate-Scale Quantum (NISQ) devices. Here we propose a compact quantum algorithm for solving one-dimensional Poisson equation based on simple Ry rotation. The major operations are performed on probability amplitudes. Therefore, the present algorithm avoids the need to do phase estimation, Hamiltonian simulation and arithmetic. The solution error comes only from the finite difference approximation of the Poisson equation. Our quantum Poisson solver (QPS) has gate-complexity of 3n in qubits and 4n^3 in one- and two-qubit gates, where n is the logarithmic of the dimension of the linear system of equations. In terms of solution error {\epsilon}, the complexity is log(1/{\epsilon}) in qubits and poly(log(1/{\epsilon})) in operations, which is consist with the best known results. The present QPS may represent a potential application on NISQ devices. | 翻訳日:2023-05-21 15:09:23 公開日:2020-05-07 |
# パリティ違反超伝導量子ビットを用いた残留相互作用を抑制する高速パラメトリック2量子ゲート Fast parametric two-qubit gates with suppressed residual interaction using a parity-violated superconducting qubit ( http://arxiv.org/abs/2005.02630v2 ) ライセンス: Link先を確認 | Atsushi Noguchi, Alto Osada, Shumpei Masuda, Shingo Kono, Kentaro Heya, Samuel Piotr Wolski, Hiroki Takahashi, Takanori Sugiyama, Dany Lachance-Quirion, Yasunobu Nakamura | (参考訳) 有限磁束バイアス下の静電容量減衰非対称ジョセフソン接合ループからなるパリティ違反超伝導量子ビットを用いて高速2量子ビットゲートを示す。
量子ビットに現れる2階の非線形性は、隣接する単一接合トランスモン量子ビットとの1階の側バンド遷移と30〜MHzのラビ周波数との相互作用を可能にする。
同時に、サイドバンド遷移に近共振する連続マイクロ波駆動によって引き起こされる交流スタークシフトにより、不要な静的縦-(zz)相互作用が排除される。
cz, iswap, スワップゲートに対して, 2量子ビットゲートの平均フィパリティを0.967, 0.951, 0.956とランダム化ベンチマークで評価した。 We demonstrate fast two-qubit gates using a parity-violated superconducting qubit consisting of a capacitively-shunted asymmetric Josephson-junction loop under a finite magnetic flux bias. The second-order nonlinearity manifesting in the qubit enables the interaction with a neighboring single-junction transmon qubit via first-order inter-qubit sideband transitions with Rabi frequencies up to 30~MHz. Simultaneously, the unwanted static longitudinal~(ZZ) interaction is eliminated with ac Stark shifts induced by a continuous microwave drive near-resonant to the sideband transitions. The average fidelities of the two-qubit gates are evaluated with randomized benchmarking as 0.967, 0.951, 0.956 for CZ, iSWAP and SWAP gates, respectively. | 翻訳日:2023-05-21 00:53:39 公開日:2020-05-07 |
# 単一キュービットプローブによる熱浴の識別 Discrimination of thermal baths by single qubit probes ( http://arxiv.org/abs/2005.02820v2 ) ライセンス: Link先を確認 | Ilaria Gianani, Donato Farina, Marco Barbieri, Valeria Cimini, Vasco Cavina, Vittorio Giovannetti | (参考訳) 熱浴と接触する量子系の非平衡状態は、異なる温度または異なる統計値の環境を伝えるのに役立つ。
我々はこれらの研究を、不等温で異なる成分を持つ2つの浴室の識別に係わるより一般的な問題に拡張する。
特に、初期状態準備におけるコヒーレンスの存在が識別能力に有益である温度条件が存在する。
また、非平衡状態は普遍的に最適ではなく、プローブの完全な熱化を待つことが便利になる条件を詳述している。
これらの概念は線形光学シミュレーションで示される。 Non-equilibrium states of quantum systems in contact with thermal baths help telling environments with different temperatures or different statistics apart. We extend these studies to a more generic problem that consists in discriminating between two baths with disparate constituents at unequal temperatures. Notably there exist temperature regimes in which the presence of coherence in the initial state preparation is beneficial for the discrimination capability. We also find that non-equilibrium states are not universally optimal, and detail the conditions in which it becomes convenient to wait for complete thermalisation of the probe. These concepts are illustrated in a linear optical simulation. | 翻訳日:2023-05-21 00:36:26 公開日:2020-05-07 |
# 二次元電子-ホール系におけるエキシトン固体 Exciton solid in bilayer two dimensional electron-hole systems ( http://arxiv.org/abs/2005.03541v1 ) ライセンス: Link先を確認 | S. T. Chui, Ning Wang, and Chun Yu Wan | (参考訳) bnの薄層の両側に積層した遷移金属ジカルコゲナイド中の二重層2次元電子ホール系に対する励起子固体の状態を提案する。
リンデマン比や超固体挙動などの励起子格子の特性について検討した。
その結果,固体はBNによる電位によって流体に対して安定化可能であることがわかった。 We propose a state of excitonic solid for double layer two dimensional electron hole systems in transition metal dicalcogenides stacked on opposite sides of thin layers of BN. Properties of the exciton lattice such as its Lindemann ratio and possible supersolid behaviour are studied. We found that the solid can be stabilized relative to the fluid by the potential due to the BN. | 翻訳日:2023-05-20 22:37:30 公開日:2020-05-07 |
# p for political: 機関のない参加だけでは不十分 p for political: Participation Without Agency Is Not Enough ( http://arxiv.org/abs/2005.03534v1 ) ライセンス: Link先を確認 | Aakash Gautam, Deborah Tatar | (参考訳) 民主的参加という参加デザインのビジョンは、参加者の総合的な未来を思い起こさせるエージェンシーを前提にしている。
しかし、この仮定は、脆弱な人口を扱うときに漏れる可能性がある。
ネパールにおける性行為の生き残りグループによるエージェント・フューチャー・ビジョンを支援する一連の活動の結果を考察する。
生存者の間では家族に変化をもたらす役割を担えるという意識が高まっている。
彼らはまた、利用可能な機関資源とどのように相互作用できるかを知るようになった。
観察を反映して、より大規模な政治参加を要求する前に、小規模かつ個人的相互作用に基づく参加機関の構築が必要であると論じる。
特に、PDの価値は、特に脆弱な人口にとって、参加者がより大きな世界のアクターとして自らを位置づける手助けをすれば、プロセス自体に横たわる可能性がある。 Participatory Design's vision of democratic participation assumes participants' feelings of agency in envisioning a collective future. But this assumption may be leaky when dealing with vulnerable populations. We reflect on the results of a series of activities aimed at supporting agentic-future-envisionment with a group of sex-trafficking survivors in Nepal. We observed a growing sense among the survivors that they could play a role in bringing about change in their families. They also became aware of how they could interact with available institutional resources. Reflecting on the observations, we argue that building participant agency on the small and personal interactions is necessary before demanding larger Political participation. In particular, a value of PD, especially for vulnerable populations, can lie in the process itself if it helps participants position themselves as actors in the larger world. | 翻訳日:2023-05-20 22:37:21 公開日:2020-05-07 |
# 光マイクロキャビティのための基本熱雑音限界 Fundamental thermal noise limits for optical microcavities ( http://arxiv.org/abs/2005.03533v1 ) ライセンス: Link先を確認 | Christopher Panuski, Dirk Englund, Ryan Hamerly | (参考訳) 本稿では,高品位率(q$),小モード体積(v$)光マイクロキャビティにおける熱屈折率雑音の理論的,実験的キャラクタリゼーションについて述べる。
マクロファブリ・ペロ共振器におけるブラウン運動による安定限界と類似して、微小キャビティ熱屈折音はモード体積依存の最大有効品質因子をもたらす。
最先端の加工されたマイクロキャビティは、この境界の1桁以内である。
我々は,高Q/V$シリコンフォトニック結晶キャビティのノイズスペクトルを測定し,提案した室温全光量子ビットのキャビティ強化バルク材料非線形性を用いた最適性能を推定するために,本理論の仮定を検証した。 We present a joint theoretical and experimental characterization of thermo-refractive noise in high quality factor ($Q$), small mode volume ($V$) optical microcavities. Analogous to well-studied stability limits imposed by Brownian motion in macroscopic Fabry-Perot resonators, microcavity thermo-refractive noise gives rise to a mode volume-dependent maximum effective quality factor. State-of-the-art fabricated microcavities are found to be within one order of magnitude of this bound. We confirm the assumptions of our theory by measuring the noise spectrum of high-$Q/V$ silicon photonic crystal cavities and apply our results to estimate the optimal performance of proposed room temperature, all-optical qubits using cavity-enhanced bulk material nonlinearities. | 翻訳日:2023-05-20 22:37:06 公開日:2020-05-07 |
# 量子ウォークの離散事象シミュレーション Discrete-event simulation of quantum walks ( http://arxiv.org/abs/2005.03401v1 ) ライセンス: Link先を確認 | Madita Willsch, Dennis Willsch, Kristel Michielsen, Hans De Raedt | (参考訳) 実験可能な量子ウォークの2つの異なるモデルを研究するために,ディジタルコンピュータ上で離散事象シミュレーションを行う。
アインシュタイン局所性に準拠したシミュレーションモデルは、粒子が十分に定義された軌道に従うという単純なランダムウォークの1つのように「現実的」であり、粒子-波動双対性や波動関数の崩壊といった概念を欠き、原因-効果、事象-事象過程によって量子理論的結果を再現する。
c. robens et al., phys. rev. x 5, 011003 (2015) で示された量子ウォーク実験のシミュレーションモデルは、その実験の結果を再現します。
したがって、実験の結果が「古典的、よく定義された軌跡に基づく量子輸送の説明を厳格に排除する」という主張を改訂する必要がある。 We use discrete-event simulation on a digital computer to study two different models of experimentally realizable quantum walks. The simulation models comply with Einstein locality, are as "realistic" as the one of the simple random walk in that the particles follow well-defined trajectories, are void of concepts such as particle-wave duality and wave-function collapse, and reproduce the quantum-theoretical results by means of a cause-and-effect, event-by-event process. Our simulation model for the quantum walk experiment presented in [C. Robens et al., Phys. Rev. X 5, 011003 (2015)] reproduces the result of that experiment. Therefore, the claim that the result of the experiment "rigorously excludes (i.e., falsifies) any explanation of quantum transport based on classical, well-defined trajectories" needs to be revised. | 翻訳日:2023-05-20 22:36:04 公開日:2020-05-07 |
# アクチニウム中の低次原子状態の欠如の検出 Detection of missing low-lying atomic states in actinium ( http://arxiv.org/abs/2005.03713v1 ) ライセンス: Link先を確認 | Ke Zhang, Dominik Studer, Felix Weber, Vadim M. Gadelshin, Nina Kneip, Sebastian Raeder, Dmitry Budker, Klaus Wendt, Tom Kieck, Sergey G. Porsev, Charles Cheung, Marianna S. Safronova, Mikhail G. Kozlov | (参考訳) 7s^27p 2P^o_1/2, 7s^27p 2P^o_3/2を2段階共鳴レーザーイオン化分光法により観測し, それぞれのエネルギーを7477.36(4) cm^-1, 12276.59(2) cm^-1とした。
これらの状態の寿命はそれぞれ668(11) nsと255(7) nsと決定された。
さらに,これらの特性は,コンフィグレーションインタラクションと結合クラスタメソッドをうまく組み合わせたハイブリッドアプローチを用いて計算された。
このデータは、アクチニドの複雑な原子スペクトルの理解と、アクチニウムの効率的なレーザー冷却およびイオン化スキームの開発に関連しており、高純度医療同位体生成および将来の基礎物理学実験に応用可能である。 Two lowest-energy odd-parity atomic levels of actinium, 7s^27p 2P^o_1/2, 7s^27p 2P^o_3/2, were observed via two-step resonant laser-ionization spectroscopy and their respective energies were measured to be 7477.36(4) cm^-1 and 12 276.59(2) cm^-1. The lifetimes of these states were determined as 668(11) ns and 255(7) ns, respectively. In addition, these properties were calculated using a hybrid approach that combines configuration interaction and coupled-cluster methods in good agreement. The data are of relevance for understanding the complex atomic spectra of actinides and for developing efficient laser-cooling and ionization schemes for actinium, with possible applications for high-purity medicalisotope production and future fundamental physics experiments with this atom. | 翻訳日:2023-05-20 22:28:48 公開日:2020-05-07 |
# エンタングル電子はコバルトキノイド二量体における非超交換機構を駆動する Entangled Electrons Drive a non-Superexchange Mechanism in a Cobalt Quinoid Dimer Complex ( http://arxiv.org/abs/2005.03637v1 ) ライセンス: Link先を確認 | Jan-Niklas Boyn, Jiaze Xie, John S. Anderson, and David A. Mazziotti | (参考訳) 化学における中心的なテーマは、化学変換を駆動するメカニズムを理解することである。
有機金属化学においてよく知られた機構は、2つ以上の金属中心の非対電子が架橋配位子の電子対を介して相互作用する超交換機構である。
このような相互作用は、2つの金属中心の直接量子絡み合いに基づく超交換よりも直接的に起こる可能性があることを示すために、新しい合成と計算の組み合わせを用いる。
具体的には, ベンゾキノイド架橋配位子を有する新規コバルト二量体錯体を合成・実験的にキャラクタリゼーションし, その電子構造を大きな活性空間を用いた2電子還元密度行列法を用いて調べた。
この結果は、無機機構と量子エンタングルメントの間に新たなつながりを持ち、磁性とスピン特性が超伝導体、エネルギー貯蔵、熱電、スピントロニクスに応用される強い相関を持つ有機金属化合物の設計の新たな可能性を開く。 A central theme in chemistry is the understanding of the mechanisms that drive chemical transformations. A well-known, highly cited mechanism in organometallic chemistry is the superexchange mechanism in which unpaired electrons on two or more metal centers interact through an electron pair of the bridging ligand. We use a combination of novel synthesis and computation to show that such interactions may in fact occur by a more direct mechanism than superexchange that is based on direct quantum entanglement of the two metal centers. Specifically, we synthesize and experimentally characterize a novel cobalt dimer complex with benzoquinoid bridging ligands and investigate its electronic structure with the variational two-electron reduced density matrix method using large active spaces. The result draws novel connections between inorganic mechanisms and quantum entanglement, thereby opening new possibilities for the design of strongly correlated organometallic compounds whose magnetic and spin properties have applications in superconductors, energy storage, thermoelectrics, and spintronics. | 翻訳日:2023-05-20 22:26:52 公開日:2020-05-07 |
# 弱値増幅を用いた不完全検出器による量子制限気象学へのアプローチ Approaching quantum-limited metrology with imperfect detectors by using weak-value amplification ( http://arxiv.org/abs/2005.03629v1 ) ライセンス: Link先を確認 | Liang Xu, Zexuan Liu, Animesh Datta, George C. Knee, Jeff S. Lundeen, Yan-qing Lu and Lijian Zhang | (参考訳) 弱値増幅(WVA)は、超小さな物理効果を増幅する気象プロトコルである。
しかし、増幅結果は高い確率で必然的に起こり、従来の測定値(CM)と比較して総合的な測定精度が向上するかどうかの広範な議論に繋がる。
ここでは、光検出のノイズや飽和といった実用的限界を克服し、光検出器のダイナミックレンジを超えて広い入力光強度に対するショットノイズスケーリング精度を維持するWVAの明確な利点を実験的に示す。
WVAによって達成された精度は、我々の設定におけるCMの6倍である。
この結果から,精密気象学や商用センサなどの小型信号計測を応用して,WVAを広く活用する方法が明らかとなった。 Weak value amplification (WVA) is a metrological protocol that amplifies ultra-small physical effects. However, the amplified outcomes necessarily occur with highly suppressed probabilities, leading to the extensive debate on whether the overall measurement precision is improved in comparison to that of conventional measurement (CM). Here, we experimentally demonstrate the unambiguous advantages of WVA that overcome practical limitations including noise and saturation of photo-detection and maintain a shot-noise-scaling precision for a large range of input light intensity well beyond the dynamic range of the photodetector. The precision achieved by WVA is six times higher than that of CM in our setup. Our results clear the way for the widespread use of WVA in applications involving the measurement of small signals including precision metrology and commercial sensors. | 翻訳日:2023-05-20 22:26:11 公開日:2020-05-07 |
# 地域分散参加者の共通位置に関する会議への最適旅行 Optimized Travel to Meetings on a Common Location of Geographical Distributed Participants ( http://arxiv.org/abs/2005.08633v1 ) ライセンス: Link先を確認 | Peter Hillmann, Bastian K\"uhnel, Tobias Uhlig, Gabi Dreo Rodosek, and Oliver Rose | (参考訳) 国際組織のメンバーはしばしば議論のために共通の場所で直接会合する。
会議の場所と時間については、メンバーの異なる旅行努力のためにしばしば意見が一致しない。
彼らは通常飛行機で旅行し、旅行費はフライト接続に依存する。
本稿では,分散パートナが出会うべき場所とタイミングを最適化した位置と時間を計算する手法を提案する。
提案システムでは,各メンバの要件と仕様を検討する。
イベントや非夜間飛行の開始時刻を考慮に入れている。
最適化された結果は、複数の目的に対して評価される。
コストと旅行時間の最小化に重点を置いています。
我々の探索アルゴリズムは、潜在的なイベントに対する全てのメンバーの個々の旅行データを識別する。
アウトプットはグローバルなベストアポイントのレコメンデーションを提供し、パートナーにさらなる情報を提供する。
当社のシステムは、全メンバーの費用と時間を節約し、調整と補償を可能にします。 Members of international organizations often meet in person at a common location for discussions. There is frequently disagreement over the place and time of the meeting due to the different travel efforts of the members. They usually travel by plane and their travel expenses depend on the flight connections. This paper presents an approach to calculate the optimized location and time, where and when distributed partners should meet. The presented system considers the requirements and specifications of each individual member. It respects earliest starting time of an event and non night flights. The optimized result is evaluated with regard to multiple objectives. We focus on the minimization of costs and travel time. Our search algorithm identifies individual travel data for all members for a potential event. The output provides recommendations for the global best appointments and offers further information for the partners. Our system saves expenses and time for all members and allows adjustment as well as compensation. | 翻訳日:2023-05-20 22:18:40 公開日:2020-05-07 |
# A Quantum G\"odelian Hunch A Quantum G\"odelian Hunch ( http://arxiv.org/abs/2005.04274v1 ) ライセンス: Link先を確認 | Hippolyte Dourdent | (参考訳) 量子論のパラドックス的性質が、g\"odelの不完全性定理のそれと類似する不確定性の中でその出所を見つけるとしたらどうだろう?
This essay aims at arguing for such G\"odelian hunch via two case studies. Firstly, using a narrative based on the Newcomb problem, the theological motivational origin of quantum contextuality is introduced in order to show how this result might be related to a Liar-like undecidability. A topological generalization of contextuality by Abramsky et al. in which the logical structure of quantum contextuality is compared with "Liar cycles" is also presented. Secondly, the measurement problem is analyzed as emerging from a logical error. A personal analysis of the related Wigner's friend thought experiment and and a recent paradox by Frauchiger and Renner is presented, by introducing the notion of "meta-contextuality" as a Liar-like feature underlying the neo-Copenhagen interpretations of quantum theory.
最後に、この量子 G\"deodelian hunch は、量子物理学のパラドキカルな性質と、自己矛盾から時間自体が出現することに関する議論を開く。 What if the paradoxical nature of quantum theory could find its source in some undecidability analog to that of G\"odel's incompleteness theorem ? This essay aims at arguing for such G\"odelian hunch via two case studies. Firstly, using a narrative based on the Newcomb problem, the theological motivational origin of quantum contextuality is introduced in order to show how this result might be related to a Liar-like undecidability. A topological generalization of contextuality by Abramsky et al. in which the logical structure of quantum contextuality is compared with "Liar cycles" is also presented. Secondly, the measurement problem is analyzed as emerging from a logical error. A personal analysis of the related Wigner's friend thought experiment and and a recent paradox by Frauchiger and Renner is presented, by introducing the notion of "meta-contextuality" as a Liar-like feature underlying the neo-Copenhagen interpretations of quantum theory. Finally, this quantum G\"odelian hunch opens a discussion of the paradoxical nature of quantum physics and the emergence of time itself from self-contradiction. | 翻訳日:2023-05-20 22:18:11 公開日:2020-05-07 |
# 二次元材料における励起状態トリオン Excited-State Trions in Two Dimensional Materials ( http://arxiv.org/abs/2005.03722v1 ) ライセンス: Link先を確認 | Jun Jan and Kalman Varga | (参考訳) 複素スケーリングと安定化法を確率的変分法と組み合わせることで,電子と孔の2次元3粒子系における狭い共鳴状態がクーロン相互作用を介して相互作用することを示した。
これらの共鳴は、励起状態励起子のゆるやかな結合系であり、周囲に第3粒子が循環している。
励起状態トリオンの最近の実験的研究は、これらの共鳴状態によって説明され、同定される。 Using the complex scaling and the stabilization method combined with the stochastic variational approach, we have shown that there are narrow resonance states in two-dimensional three particle systems of electrons and holes interacting via screened Coulomb interaction. These resonances are loosely bound systems of excited state excitons with a third particle circling around them. Recent experimental studies of excited state trions might be explained and identified by these resonant states. | 翻訳日:2023-05-20 22:17:04 公開日:2020-05-07 |
# ウェルバリア散乱電位における零または低エネルギーでの低反射 Low reflection at zero or low-energies in the well-barrier scattering potentials ( http://arxiv.org/abs/2005.03721v1 ) ライセンス: Link先を確認 | Zafar Ahmed, Sachin Kumar and Dhruv Sharma | (参考訳) 反射の確率$R(E)$ ゼロまたは低エネルギーでの有限誘電性散乱ポテンシャルは、通常1となる。
しかし、完全に魅力的なポテンシャルは、そのポテンシャルの有効パラメータ$q$が特別な離散値を持つとき、$R(0)=0$または$R(0)<1$というパラドックス的な結果を示す。
ここでは、ある低値のバンドが$q$であるとき、より少ない反射をゼロで、低エネルギーで持てるような(誘引的)有理型有限ポテンシャルのクラスを報告する。
これらの well-barrier potential は、$E=0$を除いて、$E \in(V_{min}, V_{max})$の2つの実転回点しか持たない。
この現象を確認するために,2つの解法と2つの数値解法モデルを提案する。 Probability of reflection $R(E)$ off a finite attractive scattering potential at zero or low energies is ordinarily supposed to be 1. However, a fully attractive potential presents a paradoxical result that $R(0)=0$ or $R(0)<1$, when an effective parameter $q$ of the potential admits special discrete values. Here, we report another class of finite potentials which are well-barrier (attractive-repulsive) type and which can be made to possess much less reflection at zero and low energies for a band of low values of $q$. These well-barrier potentials have only two real turning points for $E \in(V_{min}, V_{max})$, excepting $E=0$. We present two exactly solvable and two numerically solved models to confirm this phenomenon. | 翻訳日:2023-05-20 22:16:57 公開日:2020-05-07 |
# ガウスビームの傾斜角の干渉センシング Interferometric sensing of the tilt angle of a Gaussian beam ( http://arxiv.org/abs/2005.03719v1 ) ライセンス: Link先を確認 | S. P. Walborn, G. H. Aguilar, P. L. Saldanha, L. Davidovich and R. L. de Matos Filho | (参考訳) 我々は、光ビームの偏向角を推定するための干渉計技術を調査し、光ビームの偏向を直接検出する手法と比較する。
量子メロロジー法は単一光子と古典場の両方に統一的な処理をもたらすことを示す。
干渉計方式の精度限界を評価するためにフィッシャー情報を用いて、ビームの初期横変位を利用して精度を高めることができることを示す。
この利得は、sagnac と mach-zehnder のような構成の両方に存在し、非干渉法と比較するとかなり大きい。
精度の根本的な向上に加えて、インターフェロメトリスキームには技術的優位性がある。
(i)フィールド上の単独偏光測定で精度限界を飽和させることができる。
(ii)ビームに沿った任意の長手位置に検出システムを置くことができる。
また, 位置依存偏光測定についても検討し, この場合, 伝播距離と初期横変位により精度が上昇することを示した。 We investigate interferometric techniques to estimate the deflection angle of an optical beam and compare them to the direct detection of the beam deflection. We show that quantum metrology methods lead to a unifying treatment for both single photons and classical fields. Using the Fisher information to assess the precision limits of the interferometric schemes, we show that the precision can be increased by exploiting the initial transverse displacement of the beam. This gain, which is present for both Sagnac and Mach-Zehnder-like configurations, can be considerable when compared to non-interferometric methods. In addition to the fundamental increase in precision, the interferometric schemes have the technical advantage that (i) the precision limits can be saturated by a sole polarization measurement on the field, and that (ii) the detection system can be placed at any longitudinal position along the beam. We also consider position-dependent polarization measurements, and show that in this case the precision increases with the propagation distance, as well as the initial transverse displacement. | 翻訳日:2023-05-20 22:16:42 公開日:2020-05-07 |
# 捕捉イオン中の制御回転の効率的な合成のための信号処理技術 Signal processing techniques for efficient compilation of controlled rotations in trapped ions ( http://arxiv.org/abs/2001.05231v3 ) ライセンス: Link先を確認 | Koen Groenland, Freek Witteveen, Kareljan Schoutens and Rene Gerritsma | (参考訳) 多くの制御量子ビットを持つ量子論理ゲートは、多くの量子アルゴリズムで必須であるが、現在の実験では実行が困難である。
閉じ込められたイオン量子コンピュータは、異なる種類の絡み合い操作、すなわち全ての量子ビットにイジング相互作用を同時に適用するmolmer-sorensen (ms)ゲートを備える。
我々は、1つの特別なキュービットにのみ作用する単一のキュービットゲートとインターリーブされた全てのms操作の列を考える。
量子信号処理技術との接続を用いて、他の全ての量子ビットが状態 |1> にある場合に限り、特別な量子ビット上で任意のSU(2)回転を行うことができる。
N-1制御キュービットの制御された回転ゲートはMSゲートの2Nの応用を必要とし、単一のキュービットをアンシラに分解することで従来のトフォリゲートにマッピングすることができる。 Quantum logic gates with many control qubits are essential in many quantum algorithms, but remain challenging to perform in current experiments. Trapped ion quantum computers natively feature a different type of entangling operation, namely the Molmer-Sorensen (MS) gate which effectively applies an Ising interaction to all qubits at the same time. We consider a sequence of equal all-to-all MS operations, interleaved with single qubit gates that act only on one special qubit. Using a connection with quantum signal processing techniques, we find that it is possible to perform an arbitray SU(2) rotation on the special qubit if and only if all other qubits are in the state |1>. Such controlled rotation gates with N-1 control qubits require 2N applications of the MS gate, and can be mapped to a conventional Toffoli gate by demoting a single qubit to ancilla. | 翻訳日:2023-01-11 07:08:17 公開日:2020-05-07 |
# 連続音声分離:データセットと分析 Continuous speech separation: dataset and analysis ( http://arxiv.org/abs/2001.11482v3 ) ライセンス: Link先を確認 | Zhuo Chen, Takuya Yoshioka, Liang Lu, Tianyan Zhou, Zhong Meng, Yi Luo, Jian Wu, Xiong Xiao, Jinyu Li | (参考訳) 本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
音声分離におけるほとんどの先行研究は、主に「emph{fully}」と重複する人工混合音声の事前分離信号を用いており、そのアルゴリズムは信号対歪み比や類似のパフォーマンス指標に基づいて評価される。
しかし、自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
さらに,信号に基づくメトリクスは自動音声認識(ASR)の精度と非常に弱い相関関係を持つ。
これにより、テスト対象のアルゴリズムの実用的妥当性を評価することが難しくなるだけでなく、実際のシナリオに容易に適用可能なシステムを開発する研究者の妨げになると考えています。
本稿では, 連続音声分離(CSS)を, 様々な程度に重なり合う複数の発話を含む音声ストリームから, 重複しない音声信号の集合を生成するタスクとして定義する。
LibriCSSと呼ばれる新しい実際のデータセットは、会話をシミュレートするためにコーパス発話を連結し、遠距離マイクでオーディオ再生をキャプチャすることで、LibriSpeechから派生した。
十分に訓練された多条件音響モデルを用いて、カルディに基づくASR評価プロトコルも確立する。
このデータセットを用いて、最近提案された話者非依存CSSアルゴリズムのいくつかの側面について検討した。
この方向の研究を容易にするためにデータセットと評価スクリプトが利用できる。 This paper describes a dataset and protocols for evaluating continuous speech separation algorithms. Most prior studies on speech separation use pre-segmented signals of artificially mixed speech utterances which are mostly \emph{fully} overlapped, and the algorithms are evaluated based on signal-to-distortion ratio or similar performance metrics. However, in natural conversations, a speech signal is continuous, containing both overlapped and overlap-free components. In addition, the signal-based metrics have very weak correlations with automatic speech recognition (ASR) accuracy. We think that not only does this make it hard to assess the practical relevance of the tested algorithms, it also hinders researchers from developing systems that can be readily applied to real scenarios. In this paper, we define continuous speech separation (CSS) as a task of generating a set of non-overlapped speech signals from a \textit{continuous} audio stream that contains multiple utterances that are \emph{partially} overlapped by a varying degree. A new real recorded dataset, called LibriCSS, is derived from LibriSpeech by concatenating the corpus utterances to simulate a conversation and capturing the audio replays with far-field microphones. A Kaldi-based ASR evaluation protocol is also established by using a well-trained multi-conditional acoustic model. By using this dataset, several aspects of a recently proposed speaker-independent CSS algorithm are investigated. The dataset and evaluation scripts are available to facilitate the research in this direction. | 翻訳日:2023-01-05 12:47:14 公開日:2020-05-07 |
# 視覚的予測制御タスクのための動作記憶 A memory of motion for visual predictive control tasks ( http://arxiv.org/abs/2001.11759v3 ) ライセンス: Link先を確認 | Antonio Paolillo, Teguh Santoso Lembono, Sylvain Calinon | (参考訳) 本稿では,視覚的予測制御タスクを効率的に行うという課題に対処する。
この目的のために、オフラインで構築された一連の軌道を含む動きの記憶は、事前計算の活用と難しい視覚タスクの処理に使用される。
k-nearest neighborsやgaussian process regressionといった標準的な回帰技術は、メモリを照会し、オンラインにウォームスタートと制御最適化プロセスへの道筋を提供するために使用される。
提案手法により制御方式は高い性能を達成でき、同時に計算時間を制限し続けることができる。
7軸マニピュレータを用いたシミュレーションと実験結果から, 本手法の有効性が示された。 This paper addresses the problem of efficiently achieving visual predictive control tasks. To this end, a memory of motion, containing a set of trajectories built off-line, is used for leveraging precomputation and dealing with difficult visual tasks. Standard regression techniques, such as k-nearest neighbors and Gaussian process regression, are used to query the memory and provide on-line a warm-start and a way point to the control optimization process. The proposed technique allows the control scheme to achieve high performance and, at the same time, keep the computational time limited. Simulation and experimental results, carried out with a 7-axis manipulator, show the effectiveness of the approach. | 翻訳日:2023-01-05 06:56:54 公開日:2020-05-07 |
# 核質量モデルの統計的側面 Statistical aspects of nuclear mass models ( http://arxiv.org/abs/2002.04151v3 ) ライセンス: Link先を確認 | Vojtech Kejzlar, L\'eo Neufcourt, Witold Nazarewicz, Paul-Gerhard Reinhard | (参考訳) 我々は,核結合エネルギーのグローバルモデルの観点から,核質量の情報量について検討する。
この目的のために,ベイズ校正法,ベイズモデル平均化法,チ-二乗相関解析法,主成分分析法,経験的カバレッジ確率などの統計手法と診断ツールを用いる。
ベイジアン・フレームワークを用いて, キャリブレーションのための離散質量領域を考慮し, 4パラメータ液滴モデルの構造について検討する。
次に,均質および異質なデータセットを用いてキャリブレーションした14パラメータskyrmeエネルギー密度関数をchi-square相関フレームワークを用いて解析する。
いずれの場合においても,非常に劇的なパラメータ削減が可能となる。
不確実性定量化を改善するためのベイズモデル平均化の利点を示す。
この文脈では、この研究は将来の応用のためのガイドとなりうる。 We study the information content of nuclear masses from the perspective of global models of nuclear binding energies. To this end, we employ a number of statistical methods and diagnostic tools, including Bayesian calibration, Bayesian model averaging, chi-square correlation analysis, principal component analysis, and empirical coverage probability. Using a Bayesian framework, we investigate the structure of the 4-parameter Liquid Drop Model by considering discrepant mass domains for calibration. We then use the chi-square correlation framework to analyze the 14-parameter Skyrme energy density functional calibrated using homogeneous and heterogeneous datasets. We show that a quite dramatic parameter reduction can be achieved in both cases. The advantage of Bayesian model averaging for improving uncertainty quantification is demonstrated. The statistical approaches used are pedagogically described; in this context this work can serve as a guide for future applications. | 翻訳日:2023-01-02 02:39:18 公開日:2020-05-07 |
# 視覚的注意モデルの評価改善に向けて--クラウドソーシングアプローチ Toward Improving the Evaluation of Visual Attention Models: a Crowdsourcing Approach ( http://arxiv.org/abs/2002.04407v2 ) ライセンス: Link先を確認 | Dario Zanca, Stefano Melacci, Marco Gori | (参考訳) 人間の視覚的注意は複雑な現象である。
この現象の計算モデルでは、人々がどの場所を見るか(固定の空間分布)、探索の時間的発展(固定の時間的順序)を理解するためにそれらの場所を見るとき、そしてシーンの力学と目(力学)の力学に関して、ある場所から別の場所へどのように移動するかを考慮に入れなければならない。
最先端のモデルは、その現象の空間的構成要素のみを考慮し、その時間的および動的対応を無視するプロセスである、人間のデータから塩分マップを学習することに焦点を当てている。
本研究では,人間の視覚的注意のモデルの評価手法に焦点をあてる。
そこで本研究では, サリエンシー予測とスキャンパス類似性に関する現在の指標の限界を概説し, シミュレーション眼球運動の動態評価のための統計的尺度を提案する。
深層学習モデルは塩分予測において驚くべき性能を達成するが,本解析の結果は,プロセスのダイナミクスを捉える上での限界を示している。
教師なしの重力モデルは、単純さにもかかわらず、全ての競合より優れています。
最後に,クラウドソーシングプラットフォームを利用して,教師なしの重力モデルで生成されたスキャンパスが,有能で熟練した観察者にとっていかに強固に見えるかを評価することを目的とした研究を行った。 Human visual attention is a complex phenomenon. A computational modeling of this phenomenon must take into account where people look in order to evaluate which are the salient locations (spatial distribution of the fixations), when they look in those locations to understand the temporal development of the exploration (temporal order of the fixations), and how they move from one location to another with respect to the dynamics of the scene and the mechanics of the eyes (dynamics). State-of-the-art models focus on learning saliency maps from human data, a process that only takes into account the spatial component of the phenomenon and ignore its temporal and dynamical counterparts. In this work we focus on the evaluation methodology of models of human visual attention. We underline the limits of the current metrics for saliency prediction and scanpath similarity, and we introduce a statistical measure for the evaluation of the dynamics of the simulated eye movements. While deep learning models achieve astonishing performance in saliency prediction, our analysis shows their limitations in capturing the dynamics of the process. We find that unsupervised gravitational models, despite of their simplicity, outperform all competitors. Finally, exploiting a crowd-sourcing platform, we present a study aimed at evaluating how strongly the scanpaths generated with the unsupervised gravitational models appear plausible to naive and expert human observers. | 翻訳日:2023-01-02 01:47:11 公開日:2020-05-07 |
# 再帰は再帰的ではない:ジャリング結果 Recursed is not Recursive: A Jarring Result ( http://arxiv.org/abs/2002.05131v2 ) ライセンス: Link先を確認 | Erik Demaine and Justin Kopinsky and Jayson Lynch | (参考訳) Recursedは、2Dパズルのプラットフォームゲームで、宝の胸が飛び込んだら、あとで退院できる部屋(関数呼び出しに似ている)をインスタンス化し、オプションでその部屋に戻る瓶(継続と似ている)を生成する。
Recursed は Re-complete であり,それ故に Post Corssociatedence Problem の削減によって (再帰的でない) 決定不能であることを示す。
我々の削減は「実践的」であり、PCPの削減はメインゲーム用に設計されたすべての制約(15×20部屋サイズを含む)に従属する完全なプレイ可能なレベルをもたらす。
チューリングマシンは、チューリングマシンのエンコーディングサイズが線形で、チューリングマシンのランニング時間における解長が多項式である再帰レベルによってシミュレーションすることができる。 Recursed is a 2D puzzle platform video game featuring treasure chests that, when jumped into, instantiate a room that can later be exited (similar to function calls), optionally generating a jar that returns back to that room (similar to continuations). We prove that Recursed is RE-complete and thus undecidable (not recursive) by a reduction from the Post Correspondence Problem. Our reduction is "practical": the reduction from PCP results in fully playable levels that abide by all constraints governing levels (including the 15x20 room size) designed for the main game. Our reduction is also "efficient": a Turing machine can be simulated by a Recursed level whose size is linear in the encoding size of the Turing machine and whose solution length is polynomial in the running time of the Turing machine. | 翻訳日:2023-01-01 20:22:00 公開日:2020-05-07 |
# 曲線最大化モデルにおける分布ロバスト領域 A Distributionally Robust Area Under Curve Maximization Model ( http://arxiv.org/abs/2002.07345v2 ) ライセンス: Link先を確認 | Wenbo Ma, Miguel A. Lejeune | (参考訳) ROC曲線(AUC)は分類モデルにおいて広く用いられる性能指標である。
本研究では,関東ロビッチ計量に依存し,ヒンジ損失関数を用いてAUCを近似する2つの新しい分布ロバストなAUC最大化モデル(DR-AUC)を提案する。
最低ケース分布に対する固定および可変サポートの2つのケースについて検討する。
我々は双対理論を用いてDR-AUCモデルを再構成し、トラクタブル凸最適化問題を導出する。
数値実験により、提案したDR-AUCモデルは、標準決定論的AUCとサポートベクターマシンモデルとベンチマークされ、一般的な性能が向上し、特に、検討されたデータセットの大半よりも最悪のアウトオブサンプル性能が向上し、堅牢性を示した。
実験の結果は, サンプル外性能の低下に寄与することが知られている小型のトレーニングセットを用いて, 数値実験を行った結果, 特に好意的であった。 Area under ROC curve (AUC) is a widely used performance measure for classification models. We propose two new distributionally robust AUC maximization models (DR-AUC) that rely on the Kantorovich metric and approximate the AUC with the hinge loss function. We consider the two cases with respectively fixed and variable support for the worst-case distribution. We use duality theory to reformulate the DR-AUC models and derive tractable convex optimization problems. The numerical experiments show that the proposed DR-AUC models -- benchmarked with the standard deterministic AUC and the support vector machine models - perform better in general and in particular improve the worst-case out-of-sample performance over the majority of the considered datasets, thereby showing their robustness. The results are particularly encouraging since our numerical experiments are conducted with training sets of small size which have been known to be conducive to low out-of-sample performance. | 翻訳日:2022-12-30 19:43:06 公開日:2020-05-07 |
# 核物理学における樹木と森林 Trees and Forests in Nuclear Physics ( http://arxiv.org/abs/2002.10290v2 ) ライセンス: Link先を確認 | Marco Carnini and Alessandro Pastore | (参考訳) 本稿では,核物理学の例を用いて決定木アルゴリズムの簡単な紹介を行う。
決定木を用いて特徴工学を行うことにより,古典的な液滴核質量モデルの精度を向上させる方法を示す。
最後に, この手法をDuflo-Zukerモデルに適用し, その単純さにもかかわらず, 決定木は限られた数の自由パラメータを用いて核質量の記述を改善することができることを示した。 We present a simple introduction to the decision tree algorithm using some examples from nuclear physics. We show how to improve the accuracy of the classical liquid drop nuclear mass model by performing Feature Engineering with a decision tree. Finally, we apply the method to the Duflo-Zuker model showing that, despite their simplicity, decision trees are capable of improving the description of nuclear masses using a limited number of free parameters. | 翻訳日:2022-12-29 04:46:56 公開日:2020-05-07 |
# world go by: ラベルのないビデオからの表現学習 Watching the World Go By: Representation Learning from Unlabeled Videos ( http://arxiv.org/abs/2003.07990v2 ) ライセンス: Link先を確認 | Daniel Gordon, Kiana Ehsani, Dieter Fox, Ali Farhadi | (参考訳) 近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
これらの作業の基本原理は、インスタンス識別である。同じ画像の2つの拡張バージョンと、無関係な画像の大きなバッチを区別する学習。
ネットワークは拡張ノイズを無視し、意味的に意味のある表現を抽出する。
以前の作業では、クロッピングやカラージッタといった人工的なデータ拡張技術を使用しており、表面的な方法でしかイメージに影響を与えず、オブジェクトの実際の変化、例えば、咬合、変形、視点の変化と一致しない。
本稿では,この自然な拡張をビデオが無償で提供することを論じる。
ビデオはオブジェクトのまったく新しいビューを提供し、変形を示し、意味的に似ているが視覚的に異なる概念を接続する。
本研究では,無ラベル映像を用いた強固な単一画像表現の学習手法であるビデオノイズコントラスト推定を提案する。
我々は、最近の教師なしシングルイメージ技術と、時間的・非時間的タスクにおけるフル教師付きイメージネット事前トレーニングの改善を実証する。
コードとランダムな関連ビデオビューデータセットは、https://www.github.com/danielgordon10/vinceで入手できる。 Recent single image unsupervised representation learning techniques show remarkable success on a variety of tasks. The basic principle in these works is instance discrimination: learning to differentiate between two augmented versions of the same image and a large batch of unrelated images. Networks learn to ignore the augmentation noise and extract semantically meaningful representations. Prior work uses artificial data augmentation techniques such as cropping, and color jitter which can only affect the image in superficial ways and are not aligned with how objects actually change e.g. occlusion, deformation, viewpoint change. In this paper, we argue that videos offer this natural augmentation for free. Videos can provide entirely new views of objects, show deformation, and even connect semantically similar but visually distinct concepts. We propose Video Noise Contrastive Estimation, a method for using unlabeled video to learn strong, transferable single image representations. We demonstrate improvements over recent unsupervised single image techniques, as well as over fully supervised ImageNet pretraining, across a variety of temporal and non-temporal tasks. Code and the Random Related Video Views dataset are available at https://www.github.com/danielgordon10/vince | 翻訳日:2022-12-22 10:18:41 公開日:2020-05-07 |
# 複合信号ニューラルネットワークを用いた軌跡特異点の捕捉と説明 Capturing and Explaining Trajectory Singularities using Composite Signal Neural Networks ( http://arxiv.org/abs/2003.10810v2 ) ライセンス: Link先を確認 | Hippolyte Dubois, Patrick Le Callet, Michael Hornberger, Hugo J. Spiers, Antoine Coutrot | (参考訳) 空間軌道はユビキタスかつ複雑な信号である。
彼らの分析は、都市計画から神経科学まで、多くの研究分野において重要である。
クラスター軌道に対するいくつかのアプローチが提案されている。
それらは手作りの機能に依存しており、信号の時空間的複雑さを捉えるのに苦労している。
本稿では,航法士の人口動態を考慮しつつ,一組の軌道に特徴的な時空間パターンを捉えた新しいANNアーキテクチャを提案する。
したがって、我々のモデルは行動と人口統計の両方に関連するマーカーを抽出する。
3つの単純な ANN モジュールを組み合わせた複合信号解析器 (CompSNN) を提案する。
これらのモジュールはそれぞれ、解釈可能なまま軌跡の異なる信号表現を使用する。
当社のcompsnnは,分離したモジュールよりも大幅にパフォーマンスが向上し,信号のどの部分がトラジェクタの識別に最も有用であったかを可視化できる。 Spatial trajectories are ubiquitous and complex signals. Their analysis is crucial in many research fields, from urban planning to neuroscience. Several approaches have been proposed to cluster trajectories. They rely on hand-crafted features, which struggle to capture the spatio-temporal complexity of the signal, or on Artificial Neural Networks (ANNs) which can be more efficient but less interpretable. In this paper we present a novel ANN architecture designed to capture the spatio-temporal patterns characteristic of a set of trajectories, while taking into account the demographics of the navigators. Hence, our model extracts markers linked to both behaviour and demographics. We propose a composite signal analyser (CompSNN) combining three simple ANN modules. Each of these modules uses different signal representations of the trajectory while remaining interpretable. Our CompSNN performs significantly better than its modules taken in isolation and allows to visualise which parts of the signal were most useful to discriminate the trajectories. | 翻訳日:2022-12-20 08:23:44 公開日:2020-05-07 |
# 患者の健康に関する知識グラフ Personal Health Knowledge Graphs for Patients ( http://arxiv.org/abs/2004.00071v2 ) ライセンス: Link先を確認 | Nidhi Rastogi and Mohammed J. Zaki | (参考訳) 既存の患者データ分析プラットフォームは、コンテキストを持ち、個人的で、患者にとってトピックな情報を取り込んでいない。
質問に対して適切な回答をしたり、患者データから有意義な洞察を導き出すための推薦システムは、患者の健康履歴に関する個人情報を考慮すべきである。
本稿では,この分野での既存の文献を批判するとともに,患者のための個人保健知識グラフ(PHKG)の設計,構築,運用に関わる様々な研究課題について論じる。 Existing patient data analytics platforms fail to incorporate information that has context, is personal, and topical to patients. For a recommendation system to give a suitable response to a query or to derive meaningful insights from patient data, it should consider personal information about the patient's health history, including but not limited to their preferences, locations, and life choices that are currently applicable to them. In this review paper, we critique existing literature in this space and also discuss the various research challenges that come with designing, building, and operationalizing a personal health knowledge graph (PHKG) for patients. | 翻訳日:2022-12-18 01:42:43 公開日:2020-05-07 |
# テキスト独立話者検証のための特徴マップスケーリングによるRawNetの改良 Improved RawNet with Feature Map Scaling for Text-independent Speaker Verification using Raw Waveforms ( http://arxiv.org/abs/2004.00526v2 ) ライセンス: Link先を確認 | Jee-weon Jung, Seung-bin Kim, Hye-jin Shim, Ju-ho Kim, and Ha-Jin Yu | (参考訳) 近年のディープラーニングの進歩により、生波形を直接入力する話者検証システムの設計が容易になった。
例えば、RawNetは生波形から話者埋め込みを抽出し、プロセスパイプラインを単純化し、競争性能を示す。
本研究では,様々な手法を用いて特徴マップをスケーリングすることでRawNetを改善する。
提案機構は、シグモイド非線型関数を採用するスケールベクトルを利用する。
これは、与えられた特徴写像におけるフィルタの数に等しい次元を持つベクトルを指す。
スケールベクトルを用いて, 特徴写像を乗法的, 加法的, あるいはその両方にスケールすることを提案する。
さらに,第1の畳み込み層をSincNetの sinc-畳み込み層に置き換える検討を行った。
voxceleb1評価データセットで行った実験では,提案手法の有効性が示され,最良性能のシステムは,元のrawnetと比較して誤差率を半減する。
VoxCeleb1-E と VoxCeleb-H プロトコルを用いて得られた評価結果は,既存の最先端システムよりわずかに優れている。 Recent advances in deep learning have facilitated the design of speaker verification systems that directly input raw waveforms. For example, RawNet extracts speaker embeddings from raw waveforms, which simplifies the process pipeline and demonstrates competitive performance. In this study, we improve RawNet by scaling feature maps using various methods. The proposed mechanism utilizes a scale vector that adopts a sigmoid non-linear function. It refers to a vector with dimensionality equal to the number of filters in a given feature map. Using a scale vector, we propose to scale the feature map multiplicatively, additively, or both. In addition, we investigate replacing the first convolution layer with the sinc-convolution layer of SincNet. Experiments performed on the VoxCeleb1 evaluation dataset demonstrate the effectiveness of the proposed methods, and the best performing system reduces the equal error rate by half compared to the original RawNet. Expanded evaluation results obtained using the VoxCeleb1-E and VoxCeleb-H protocols marginally outperform existing state-of-the-art systems. | 翻訳日:2022-12-17 19:23:40 公開日:2020-05-07 |
# リアルブラッシングによる劣化 Deblurring by Realistic Blurring ( http://arxiv.org/abs/2004.01860v2 ) ライセンス: Link先を確認 | Kaihao Zhang, Wenhan Luo, Yiran Zhong, Lin Ma, Bjorn Stenger, Wei Liu, Hongdong Li | (参考訳) 画像の難読化のための既存のディープラーニング手法は、通常、鋭い画像とぼやけた画像を使ってモデルを訓練する。
しかし、合成的にぼやけた画像は、必ずしも実際のシナリオにおける真のぼやけた過程を十分な精度でモデル化するとは限らない。
そこで本研究では,2つのGANモデル,すなわちBGAN(Learning-to-Blur GAN)とDBGAN(Learning-to-DeBlur GAN)を組み合わせて,画像のぼかしを学習することで画像の劣化を改善する手法を提案する。
第1のモデルであるBGANは、未ペアのシャープでぼやけた画像セットでシャープな画像をぼやかす方法を学習し、第2のモデルであるDBGANをガイドして、そのような画像を正しくデブロアする方法を学ぶ。
実際のぼかしと合成したぼかしとの差を低減するため、相対論的ぼかし損失を利用する。
追加の貢献として,多彩なぼやき画像を含む実世界のぼやき画像(rwbi)データセットも紹介する。
本実験により,提案手法は,新たに提案したデータセットと公開GOPROデータセットの両方において,一貫した定量的性能と高い知覚品質を実現する。 Existing deep learning methods for image deblurring typically train models using pairs of sharp images and their blurred counterparts. However, synthetically blurring images do not necessarily model the genuine blurring process in real-world scenarios with sufficient accuracy. To address this problem, we propose a new method which combines two GAN models, i.e., a learning-to-Blur GAN (BGAN) and learning-to-DeBlur GAN (DBGAN), in order to learn a better model for image deblurring by primarily learning how to blur images. The first model, BGAN, learns how to blur sharp images with unpaired sharp and blurry image sets, and then guides the second model, DBGAN, to learn how to correctly deblur such images. In order to reduce the discrepancy between real blur and synthesized blur, a relativistic blur loss is leveraged. As an additional contribution, this paper also introduces a Real-World Blurred Image (RWBI) dataset including diverse blurry images. Our experiments show that the proposed method achieves consistently superior quantitative performance as well as higher perceptual quality on both the newly proposed dataset and the public GOPRO dataset. | 翻訳日:2022-12-16 23:09:49 公開日:2020-05-07 |
# 単一覚醒検出改善のための深層伝達学習 Deep transfer learning for improving single-EEG arousal detection ( http://arxiv.org/abs/2004.05111v2 ) ライセンス: Link先を確認 | Alexander Neergaard Olesen, Poul Jennum, Emmanuel Mignot, Helge B. D. Sorensen | (参考訳) 睡眠科学におけるデータセットは、クリニック間の記録設定の違いによる機械学習アルゴリズムの課題を示す。
単一EEGモデルにおいて,2つのデータセットが全く同じ設定を含まない場合において,チャネルミスマッチ問題を克服するための2つのディープトランスファー学習戦略を検討する。
具体的には,多変量ポリソムノグラフィデータに基づくベースラインモデルを訓練し,最初の2層を置換し,単一チャネル脳波データのアーキテクチャを作成する。
微調整戦略を用いることで,本モデルはベースラインモデル(f1=0.682,f1=0.694)と同等の性能を示し,同等の単一チャネルモデルよりも有意に優れていた。
我々の研究結果は、大規模データベースで事前学習されたディープラーニングモデルを利用したい小さなデータベースを扱う研究者に有望である。 Datasets in sleep science present challenges for machine learning algorithms due to differences in recording setups across clinics. We investigate two deep transfer learning strategies for overcoming the channel mismatch problem for cases where two datasets do not contain exactly the same setup leading to degraded performance in single-EEG models. Specifically, we train a baseline model on multivariate polysomnography data and subsequently replace the first two layers to prepare the architecture for single-channel electroencephalography data. Using a fine-tuning strategy, our model yields similar performance to the baseline model (F1=0.682 and F1=0.694, respectively), and was significantly better than a comparable single-channel model. Our results are promising for researchers working with small databases who wish to use deep learning models pre-trained on larger databases. | 翻訳日:2022-12-14 20:25:53 公開日:2020-05-07 |
# 高品質翻訳学習コーパスを用いた言語間意味的役割ラベリング Cross-Lingual Semantic Role Labeling with High-Quality Translated Training Corpus ( http://arxiv.org/abs/2004.06295v2 ) ライセンス: Link先を確認 | Hao Fei and Meishan Zhang and Donghong Ji | (参考訳) 多くの研究は、自然言語理解に不可欠な意味的役割ラベリング(SRL)に費やされている。
英語などの資源に富む言語で大規模コーパスが利用可能となると、改善されたアプローチは印象的なパフォーマンスを達成した。
注釈付きSRLデータセットを持たない低リソース言語では、競争力のあるパフォーマンスを得るのは難しい。
言語間SRLはこの問題に対処するための有望な方法の一つであり、モデル転送とアノテーション投影の助けを借りて大きな進歩を遂げている。
本稿では,コーパス翻訳に基づく新たな代替案を提案し,ゴールドスタンダードSRLアノテーションからターゲット言語のための高品質なトレーニングデータセットを構築する。
また,Universal Proposition Bankの実験結果から,翻訳に基づく手法が極めて有効であること,自動擬似データセットがターゲット言語SRLの性能を大幅に向上できることを示した。 Many efforts of research are devoted to semantic role labeling (SRL) which is crucial for natural language understanding. Supervised approaches have achieved impressing performances when large-scale corpora are available for resource-rich languages such as English. While for the low-resource languages with no annotated SRL dataset, it is still challenging to obtain competitive performances. Cross-lingual SRL is one promising way to address the problem, which has achieved great advances with the help of model transferring and annotation projection. In this paper, we propose a novel alternative based on corpus translation, constructing high-quality training datasets for the target languages from the source gold-standard SRL annotations. Experimental results on Universal Proposition Bank show that the translation-based method is highly effective, and the automatic pseudo datasets can improve the target-language SRL performances significantly. | 翻訳日:2022-12-13 09:31:10 公開日:2020-05-07 |
# Warwick Image forensics Dataset for Device Fingerprinting in Multimedia forensics Warwick Image Forensics Dataset for Device Fingerprinting In Multimedia Forensics ( http://arxiv.org/abs/2004.10469v2 ) ライセンス: Link先を確認 | Yijun Quan, Chang-Tsun Li, Yujue Zhou and Li Li | (参考訳) センサパターンノイズ(SPN)のようなデバイス指紋は、証明分析や画像認証に広く使われている。
過去数年間、デジタル写真技術の急速な進歩は、消費者レベルのモバイルデバイスにおける画像撮影プロセスのパイプラインを大きく変えた。
カメラパラメータ設定の柔軟性とマルチフレーム撮影アルゴリズムの出現、特にハイダイナミックレンジ(hdr)イメージングは、デバイスの指紋認証に新たな課題をもたらす。
これらのトピックに関するその後の研究は、新しい目的に構築されたイメージデータセットを必要とする。
本稿では,14台のデジタルカメラを用いて撮影された58,600枚以上の画像のデータセットであるwarwick image forensics datasetについて述べる。
露出設定への特別な注意により、画像は異なるマルチフレームの計算写真アルゴリズムとその後のデバイス指紋認証に採用することができる。
データセットはオープンソースとしてリリースされ、デジタル法医学コミュニティで無料で利用できる。 Device fingerprints like sensor pattern noise (SPN) are widely used for provenance analysis and image authentication. Over the past few years, the rapid advancement in digital photography has greatly reshaped the pipeline of image capturing process on consumer-level mobile devices. The flexibility of camera parameter settings and the emergence of multi-frame photography algorithms, especially high dynamic range (HDR) imaging, bring new challenges to device fingerprinting. The subsequent study on these topics requires a new purposefully built image dataset. In this paper, we present the Warwick Image Forensics Dataset, an image dataset of more than 58,600 images captured using 14 digital cameras with various exposure settings. Special attention to the exposure settings allows the images to be adopted by different multi-frame computational photography algorithms and for subsequent device fingerprinting. The dataset is released as an open-source, free for use for the digital forensic community. | 翻訳日:2022-12-10 18:50:45 公開日:2020-05-07 |
# 後期gadolinium-enhanced heart magnetic resonance画像のセグメンテーションアルゴリズムのグローバルベンチマーク A Global Benchmark of Algorithms for Segmenting Late Gadolinium-Enhanced Cardiac Magnetic Resonance Imaging ( http://arxiv.org/abs/2004.12314v3 ) ライセンス: Link先を確認 | Zhaohan Xiong, Qing Xia, Zhiqiang Hu, Ning Huang, Cheng Bian, Yefeng Zheng, Sulaiman Vesal, Nishant Ravikumar, Andreas Maier, Xin Yang, Pheng-Ann Heng, Dong Ni, Caizi Li, Qianqian Tong, Weixin Si, Elodie Puybareau, Younes Khoudli, Thierry Geraud, Chen Chen, Wenjia Bai, Daniel Rueckert, Lingchao Xu, Xiahai Zhuang, Xinzhe Luo, Shuman Jia, Maxime Sermesant, Yashu Liu, Kuanquan Wang, Davide Borra, Alessandro Masci, Cristiana Corsi, Coen de Vente, Mitko Veta, Rashed Karim, Chandrakanth Jayachandran Preetha, Sandy Engelhardt, Menyun Qiao, Yuanyuan Wang, Qian Tao, Marta Nunez-Garcia, Oscar Camara, Nicolo Savioli, Pablo Lamata, Jichao Zhao | (参考訳) 心臓画像,特に後期ガドリニウム強調磁気共鳴画像(LGE-MRI)の分画は,臨床診断と治療にとって重要な第一歩である。
しかし,LGE-MRIの直接分割はコントラストの減衰により困難である。
ほとんどの臨床研究は手作業や労働集約的なアプローチに依存しているため、自動的な手法は特に最適化された機械学習アプローチに特に関心がある。
これに対処するために、現在世界最大の心臓lge-mriデータセットである154の3d lge-mriと、3人の医療専門家によって区分された関連する左心房のラベルを用いて、「2018 left atrium segmentation challenge」を組織し、最終的に27の国際チームによる参加を惹きつけた。
本稿では, 畳み込みニューラルネットワーク (CNN) の設計選択の全体像と, 最先端の左心房セグメンテーションを実現するための実践的考察を, サブグループ解析とハイパーパラメータ解析により行った。
以上の結果から, 上面は93.2%, 平均表面は0.7mmであり, 先行技術よりも有意に優れていた。
特に,CNNを1次CNNを1次CNNを1次CNNに,その後CNNを1次CNNを1次CNNを1次CNNを含む従来の方法やパイプラインよりもはるかに優れていることを示す。
この大規模ベンチマーク研究は、より改良された心臓のlge-mriのセグメンテーション法へ大きな一歩を踏み出し、この分野の今後の業績を評価し比較するための重要なベンチマークとなる。 Segmentation of cardiac images, particularly late gadolinium-enhanced magnetic resonance imaging (LGE-MRI) widely used for visualizing diseased cardiac structures, is a crucial first step for clinical diagnosis and treatment. However, direct segmentation of LGE-MRIs is challenging due to its attenuated contrast. Since most clinical studies have relied on manual and labor-intensive approaches, automatic methods are of high interest, particularly optimized machine learning approaches. To address this, we organized the "2018 Left Atrium Segmentation Challenge" using 154 3D LGE-MRIs, currently the world's largest cardiac LGE-MRI dataset, and associated labels of the left atrium segmented by three medical experts, ultimately attracting the participation of 27 international teams. In this paper, extensive analysis of the submitted algorithms using technical and biological metrics was performed by undergoing subgroup analysis and conducting hyper-parameter analysis, offering an overall picture of the major design choices of convolutional neural networks (CNNs) and practical considerations for achieving state-of-the-art left atrium segmentation. Results show the top method achieved a dice score of 93.2% and a mean surface to a surface distance of 0.7 mm, significantly outperforming prior state-of-the-art. Particularly, our analysis demonstrated that double, sequentially used CNNs, in which a first CNN is used for automatic region-of-interest localization and a subsequent CNN is used for refined regional segmentation, achieved far superior results than traditional methods and pipelines containing single CNNs. This large-scale benchmarking study makes a significant step towards much-improved segmentation methods for cardiac LGE-MRIs, and will serve as an important benchmark for evaluating and comparing the future works in the field. | 翻訳日:2022-12-09 12:52:31 公開日:2020-05-07 |
# エンボディードシーンの解説に向けて Towards Embodied Scene Description ( http://arxiv.org/abs/2004.14638v2 ) ライセンス: Link先を確認 | Sinan Tan, Huaping Liu, Di Guo, Xinyu Zhang, Fuchun Sun | (参考訳) エンボディメントは知的エージェント(創造物やロボット)にとって重要な特徴であり、既存のシーン記述タスクは受動的に画像を分析することに集中しており、シナリオの意味的理解はエージェントと環境の間の相互作用から分離されている。
本研究では,エージェントの具体化能力を利用してシーン記述タスクの環境における最適な視点を求める,具体化シーン記述を提案する。
模倣学習と強化学習のパラダイムを持つ学習フレームワークが確立され、知的エージェントに対応するセンサモジュレータアクティビティを生成することを教える。
提案するフレームワークは,AI2Thorデータセットと実世界のロボットプラットフォームの両方でテストされ,本手法の有効性と拡張性を示す。 Embodiment is an important characteristic for all intelligent agents (creatures and robots), while existing scene description tasks mainly focus on analyzing images passively and the semantic understanding of the scenario is separated from the interaction between the agent and the environment. In this work, we propose the Embodied Scene Description, which exploits the embodiment ability of the agent to find an optimal viewpoint in its environment for scene description tasks. A learning framework with the paradigms of imitation learning and reinforcement learning is established to teach the intelligent agent to generate corresponding sensorimotor activities. The proposed framework is tested on both the AI2Thor dataset and a real world robotic platform demonstrating the effectiveness and extendability of the developed method. | 翻訳日:2022-12-08 05:26:46 公開日:2020-05-07 |
# デジタル病理学における生成的敵ネットワーク--トレンドと将来の可能性に関する調査研究 Generative Adversarial Networks in Digital Pathology: A Survey on Trends and Future Potential ( http://arxiv.org/abs/2004.14936v2 ) ライセンス: Link先を確認 | Maximilian Ernst Tschuchnig, Gertie Janneke Oostingh, Michael Gadermayr | (参考訳) デジタル病理学の分野における画像解析が最近人気が高まっている。
高品質な全スライドスキャナーを使用することで、大量の画像データを素早く取得でき、同時にコンテキストと微視的詳細を同時に表示する。
同時に、新しい機械学習アルゴリズムは、画像分析アプローチのパフォーマンスを高めた。
本稿では,特に強力なアーキテクチャであるGAN(Generative Adversarial Networks)に着目し,組織像データに適用する。
パフォーマンスの改善に加えて、これまで難解だったこの分野のアプリケーションシナリオも実現している。
しかし、GANはバイアスを導入する可能性がある。
本稿では,最新の技術開発を一般化した表記法で要約し,gansの主な応用例を示し,選択された有望なアプローチと今後の応用の可能性について概観する。
さらに、将来的な応用の可能性のある現在利用できない手法を同定する。 Image analysis in the field of digital pathology has recently gained increased popularity. The use of high-quality whole slide scanners enables the fast acquisition of large amounts of image data, showing extensive context and microscopic detail at the same time. Simultaneously, novel machine learning algorithms have boosted the performance of image analysis approaches. In this paper, we focus on a particularly powerful class of architectures, called Generative Adversarial Networks (GANs), applied to histological image data. Besides improving performance, GANs also enable application scenarios in this field, which were previously intractable. However, GANs could exhibit a potential for introducing bias. Hereby, we summarize the recent state-of-the-art developments in a generalizing notation, present the main applications of GANs and give an outlook of some chosen promising approaches and their possible future applications. In addition, we identify currently unavailable methods with potential for future applications. | 翻訳日:2022-12-08 03:49:18 公開日:2020-05-07 |
# 時系列パラメータ化のための再帰オートエンコーダを用いたデータ空間インバージョン Data-Space Inversion Using a Recurrent Autoencoder for Time-Series Parameterization ( http://arxiv.org/abs/2005.00061v2 ) ライセンス: Link先を確認 | Su Jiang, Louis J. Durlofsky | (参考訳) data-space inversion (dsi) と関連する手順は、地下流れの設定におけるデータ同化に適用可能な方法群を表す。
これらの手法はモデルに基づく手法と異なり、パラメータを校正した後続モデルではなく、興味のある量(時系列)に対する後続予測のみを提供する。
dsi法では, 先に地質学的実現を行うために, 多数の流れシミュレーションが必要となる。
観測されたデータから、後続の予測を直接生成することができる。
DSIはベイズの設定で動作し、データベクトルの後方サンプルを提供する。
本研究ではDSIにおけるデータパラメータ化の新しい手法の開発と評価を行う。
パラメータ化は、インバージョンで決定すべき変数の数を減らし、データ変数の物理的性質を維持する。
新たなパラメータ化では、次元削減のためにリカレントオートエンコーダ(RAE)と、フローレート時系列を表現するために長期メモリ(LSTM)ネットワークを使用する。
RAEベースのパラメータ化は、後続生成のための複数のデータ同化(ESMDA)とアンサンブルスムースラーと組み合わせられる。
2次元チャネル化システムと3次元マルチガウスモデルにおける2次元および3次元流れについて検討した。
RAE法は、既存のDSI治療とともに、基準拒絶サンプリング(RS)結果と比較して評価される。
新しいDSI手法は、RS結果との統計的一致の観点から、既存のアプローチを一貫して上回ることを示す。
この方法はまた、dsiで直接考慮される変数から計算される導出量を正確に捉えることも示される。
これは変数間の相関と共分散を必要とし、これらの関係の正確性を示す。
ここで開発されたRAEに基づくパラメータ化はDSIにおいて明らかに有用であり、他の地下流れ問題にも適用できる可能性がある。 Data-space inversion (DSI) and related procedures represent a family of methods applicable for data assimilation in subsurface flow settings. These methods differ from model-based techniques in that they provide only posterior predictions for quantities (time series) of interest, not posterior models with calibrated parameters. DSI methods require a large number of flow simulations to first be performed on prior geological realizations. Given observed data, posterior predictions can then be generated directly. DSI operates in a Bayesian setting and provides posterior samples of the data vector. In this work we develop and evaluate a new approach for data parameterization in DSI. Parameterization reduces the number of variables to determine in the inversion, and it maintains the physical character of the data variables. The new parameterization uses a recurrent autoencoder (RAE) for dimension reduction, and a long-short-term memory (LSTM) network to represent flow-rate time series. The RAE-based parameterization is combined with an ensemble smoother with multiple data assimilation (ESMDA) for posterior generation. Results are presented for two- and three-phase flow in a 2D channelized system and a 3D multi-Gaussian model. The RAE procedure, along with existing DSI treatments, are assessed through comparison to reference rejection sampling (RS) results. The new DSI methodology is shown to consistently outperform existing approaches, in terms of statistical agreement with RS results. The method is also shown to accurately capture derived quantities, which are computed from variables considered directly in DSI. This requires correlation and covariance between variables to be properly captured, and accuracy in these relationships is demonstrated. The RAE-based parameterization developed here is clearly useful in DSI, and it may also find application in other subsurface flow problems. | 翻訳日:2022-12-08 03:32:04 公開日:2020-05-07 |
# リカレントニューラルネットワークモデル - 英語のような相対的クロースアタッチメントを常に学習する Recurrent Neural Network Language Models Always Learn English-Like Relative Clause Attachment ( http://arxiv.org/abs/2005.00165v3 ) ライセンス: Link先を確認 | Forrest Davis and Marten van Schijndel | (参考訳) 言語モデルを評価するための標準的なアプローチは、モデルが有効か無効かの構文構成に確率を割り当てる方法を分析する(すなわち、文法的な文は非文法的な文よりも確率が高い)。
本研究はあいまいな関係節アタッチメントを用いて,文法的差異が欠落している複数の同時的正当解釈の場合にその評価を拡張している。
英語とスペイン語のモデル性能を比較し,RNN LMにおける非言語的バイアスが英語の構文構造と有利に重なることを示す。
このように、英語モデルは人間に似た構文的嗜好を取得するように見えるが、スペイン語で訓練されたモデルは人間に似た嗜好を取得することができない。
結論として,これらの結果から,理解能力(典型的な言語モデル利用事例)と生産能力(言語モデルの訓練データを生成する)の関係に関する幅広い関心事に関連し,学習信号に必要となる言語バイアスが全く存在しないことを示唆した。 A standard approach to evaluating language models analyzes how models assign probabilities to valid versus invalid syntactic constructions (i.e. is a grammatical sentence more probable than an ungrammatical sentence). Our work uses ambiguous relative clause attachment to extend such evaluations to cases of multiple simultaneous valid interpretations, where stark grammaticality differences are absent. We compare model performance in English and Spanish to show that non-linguistic biases in RNN LMs advantageously overlap with syntactic structure in English but not Spanish. Thus, English models may appear to acquire human-like syntactic preferences, while models trained on Spanish fail to acquire comparable human-like preferences. We conclude by relating these results to broader concerns about the relationship between comprehension (i.e. typical language model use cases) and production (which generates the training data for language models), suggesting that necessary linguistic biases are not present in the training signal at all. | 翻訳日:2022-12-07 23:38:13 公開日:2020-05-07 |
# 強力なニューラルネットワークは、より弱いニューラルネットワークの教師になれるか? Can a powerful neural network be a teacher for a weaker neural network? ( http://arxiv.org/abs/2005.00393v2 ) ライセンス: Link先を確認 | Nicola Landro and Ignazio Gallo and Riccardo La Grassa | (参考訳) 伝達学習技術は、ある文脈で学習し、別の状況、すなわち獲得した知識とスキルを新しい状況に適用する能力に広く用いられている。
しかし、深層ニューラルネットワークから弱いニューラルネットワークへの学習の転送は可能だろうか?
より強力なニューラルネットワークが獲得した知識を使って、弱いニューラルネットワークの性能を改善することは可能か?
本研究では,弱ネットワークの学習過程において,弱ネットワークが学習しなければならない特徴を持つ強ニューラルネットワークから学習した特徴間の距離を最小化する損失関数を付加する。
提案手法の有効性とロバスト性を示すために,3つの既知のデータセットを用いた多数の実験を行い,学習プロセスがより強力なニューラルネットワークによって駆動される場合,弱いニューラルネットワークがその性能を向上させることを実証した。 The transfer learning technique is widely used to learning in one context and applying it to another, i.e. the capacity to apply acquired knowledge and skills to new situations. But is it possible to transfer the learning from a deep neural network to a weaker neural network? Is it possible to improve the performance of a weak neural network using the knowledge acquired by a more powerful neural network? In this work, during the training process of a weak network, we add a loss function that minimizes the distance between the features previously learned from a strong neural network with the features that the weak network must try to learn. To demonstrate the effectiveness and robustness of our approach, we conducted a large number of experiments using three known datasets and demonstrated that a weak neural network can increase its performance if its learning process is driven by a more powerful neural network. | 翻訳日:2022-12-07 23:09:23 公開日:2020-05-07 |
# ウィノグラード・スキーマ摂動に対する言語モデルと人間の感受性 The Sensitivity of Language Models and Humans to Winograd Schema Perturbations ( http://arxiv.org/abs/2005.01348v2 ) ライセンス: Link先を確認 | Mostafa Abdou, Vinit Ravishankar, Maria Barrett, Yonatan Belinkov, Desmond Elliott, Anders S{\o}gaard | (参考訳) 大規模な事前訓練型言語モデルは、共通感覚推論能力のテストであるWinograd Schema Challengeにおける最近のパフォーマンス向上の主要な推進力である。
しかし、新しい診断データセットでは、これらのモデルが人間の理解に最小限に影響を及ぼすウィノグラードの例の言語摂動に敏感であることが示されている。
言語モデルは、人間よりも数や性別の交替や同義語置換に敏感であり、人間は予測においてより安定的で一貫性があり、絶対的なパフォーマンスを保ち、連想しないものよりも非連想的なインスタンスでより優れたパフォーマンスを発揮する。
全体として、人間は既定のモデルよりも正確であり、そのモデルが間違った理由のために正しい場合もあります。
最後に、大きなタスク固有のデータセットの微調整によって、これらの問題に対する解決策が得られることを示します。 Large-scale pretrained language models are the major driving force behind recent improvements in performance on the Winograd Schema Challenge, a widely employed test of common sense reasoning ability. We show, however, with a new diagnostic dataset, that these models are sensitive to linguistic perturbations of the Winograd examples that minimally affect human understanding. Our results highlight interesting differences between humans and language models: language models are more sensitive to number or gender alternations and synonym replacements than humans, and humans are more stable and consistent in their predictions, maintain a much higher absolute performance, and perform better on non-associative instances than associative ones. Overall, humans are correct more often than out-of-the-box models, and the models are sometimes right for the wrong reasons. Finally, we show that fine-tuning on a large, task-specific dataset can offer a solution to these issues. | 翻訳日:2022-12-07 00:12:39 公開日:2020-05-07 |
# カスケード変換器:効率的な解答文選択への応用 The Cascade Transformer: an Application for Efficient Answer Sentence Selection ( http://arxiv.org/abs/2005.02534v2 ) ライセンス: Link先を確認 | Luca Soldaini and Alessandro Moschitti | (参考訳) 大規模なトランスフォーマーベースの言語モデルは、多くの分類タスクで非常に効果的であることが示されている。
しかし、計算の複雑さは、多数の候補の分類を必要とするアプリケーションでの使用を妨げている。
従来の研究では,モデルサイズ削減のアプローチが検討されているが,推論時のバッチスループット向上手法にはあまり注目されていない。
本稿では,変圧器に基づくモデルを複数のランチャーに適応させるための,単純かつ効果的な手法であるカスケードトランスフォーマーを提案する。
各ローダは、バッチ内の候補のサブセットをプルークするために使用され、推論時にスループットが劇的に増加する。
トランスフォーマモデルからの部分的なエンコーディングはリカクタ間で共有され、さらなるスピードアップを提供する。
最新のトランスフォーマーモデルと比較すると,2つの英語質問応答データセットで測定したように,計算精度にほとんど影響を与えず,計算量を37%削減する。 Large transformer-based language models have been shown to be very effective in many classification tasks. However, their computational complexity prevents their use in applications requiring the classification of a large set of candidates. While previous works have investigated approaches to reduce model size, relatively little attention has been paid to techniques to improve batch throughput during inference. In this paper, we introduce the Cascade Transformer, a simple yet effective technique to adapt transformer-based models into a cascade of rankers. Each ranker is used to prune a subset of candidates in a batch, thus dramatically increasing throughput at inference time. Partial encodings from the transformer model are shared among rerankers, providing further speed-up. When compared to a state-of-the-art transformer model, our approach reduces computation by 37% with almost no impact on accuracy, as measured on two English Question Answering datasets. | 翻訳日:2022-12-06 14:07:11 公開日:2020-05-07 |
# デジタル病理のためのディープニューラルネットワークのマルチタスク事前学習 Multi-task pre-training of deep neural networks for digital pathology ( http://arxiv.org/abs/2005.02561v2 ) ライセンス: Link先を確認 | Romain Mormont, Pierre Geurts, Rapha\"el Mar\'ee | (参考訳) 本研究では,デジタル病理学における分類タスクの事前学習モデルとしてのマルチタスク学習について検討する。
多くの中小データセットが長年にわたってコミュニティによってリリースされているのに対して、ドメインにImageNetに似た大規模なデータセットは存在しないという事実に動機づけられている。
最初に、多くのデジタル病理データセットを22の分類タスクと900万近い画像のプールに組み立て、変換しました。
そして,本手法を評価するために,転送可能なモデルとロバストな評価・選択プロトコルを作成するための簡単なアーキテクチャとトレーニング手法を提案する。
対象のタスクに応じて、特徴抽出器として使用されるモデルは、ImageNet事前訓練されたモデルよりも大幅に改善するか、同等のパフォーマンスを提供するかを示す。
微調整は機能抽出よりもパフォーマンスが向上し、imagenetの機能の特異性の欠如を回復することができる。 In this work, we investigate multi-task learning as a way of pre-training models for classification tasks in digital pathology. It is motivated by the fact that many small and medium-size datasets have been released by the community over the years whereas there is no large scale dataset similar to ImageNet in the domain. We first assemble and transform many digital pathology datasets into a pool of 22 classification tasks and almost 900k images. Then, we propose a simple architecture and training scheme for creating a transferable model and a robust evaluation and selection protocol in order to evaluate our method. Depending on the target task, we show that our models used as feature extractors either improve significantly over ImageNet pre-trained models or provide comparable performance. Fine-tuning improves performance over feature extraction and is able to recover the lack of specificity of ImageNet features, as both pre-training sources yield comparable performance. | 翻訳日:2022-12-06 14:00:00 公開日:2020-05-07 |
# 変分オートエンコーダのレートゆらぎの解釈とモデル不確かさを用いた異常検出 Interpreting Rate-Distortion of Variational Autoencoder and Using Model Uncertainty for Anomaly Detection ( http://arxiv.org/abs/2005.01889v2 ) ライセンス: Link先を確認 | Seonho Park, George Adosoglou, Panos M. Pardalos | (参考訳) 表現学習による教師なし異常検出のためのスケーラブルな機械学習システムの構築が望ましい。
代表的な方法の1つは、証拠の下位境界を最大化することで、変分オートエンコーダ(VAE)の再構成誤差を使用することである。
我々は情報理論の観点からvaeを再検討し,再構成誤差の利用に関する理論的基礎を提供し,最終的により単純で効果的な異常検出モデルに到達した。
さらに,異常検出の有効性を高めるために,実際のモデル不確実性尺度を指標に組み込んだ。
ベンチマークデータセットに対するアプローチの競合性能を実証的に示す。 Building a scalable machine learning system for unsupervised anomaly detection via representation learning is highly desirable. One of the prevalent methods is using a reconstruction error from variational autoencoder (VAE) via maximizing the evidence lower bound. We revisit VAE from the perspective of information theory to provide some theoretical foundations on using the reconstruction error, and finally arrive at a simpler and more effective model for anomaly detection. In addition, to enhance the effectiveness of detecting anomalies, we incorporate a practical model uncertainty measure into the metric. We show empirically the competitive performance of our approach on benchmark datasets. | 翻訳日:2022-12-06 13:40:28 公開日:2020-05-07 |
# 知的指導システムにおけるパーソナライズフィードバックの自動化による学習向上 Automated Personalized Feedback Improves Learning Gains in an Intelligent Tutoring System ( http://arxiv.org/abs/2005.02431v2 ) ライセンス: Link先を確認 | Ekaterina Kochmar, Dung Do Vu, Robert Belfer, Varun Gupta, Iulian Vlad Serban, and Joelle Pineau | (参考訳) 大規模知的学習システム(its)において,データ駆動型,パーソナライズされたフィードバックが学生の学習成果をいかに改善するかを検討する。
本稿では,個別の学生のニーズを考慮したパーソナライズされたフィードバックを生成する機械学習手法を提案する。
我々は,最先端の機械学習と自然言語処理技術を用いて,学生にパーソナライズされたヒント,wikipediaに基づく説明,数学的ヒントを提供する。
本モデルは,2019年に開始された大規模対話型itsであるkorbitにおいて,個人化されたフィードバックによって学生の学習結果が大幅に向上し,主観評価が向上することを示す。 We investigate how automated, data-driven, personalized feedback in a large-scale intelligent tutoring system (ITS) improves student learning outcomes. We propose a machine learning approach to generate personalized feedback, which takes individual needs of students into account. We utilize state-of-the-art machine learning and natural language processing techniques to provide the students with personalized hints, Wikipedia-based explanations, and mathematical hints. Our model is used in Korbit, a large-scale dialogue-based ITS with thousands of students launched in 2019, and we demonstrate that the personalized feedback leads to considerable improvement in student learning outcomes and in the subjective evaluation of the feedback. | 翻訳日:2022-12-06 13:13:42 公開日:2020-05-07 |
# 3次元顔モデリング技術とディープラーニング手法を用いた熱画像データサンプル生成 Generating Thermal Image Data Samples using 3D Facial Modelling Techniques and Deep Learning Methodologies ( http://arxiv.org/abs/2005.01923v2 ) ライセンス: Link先を確認 | Muhammad Ali Farooq and Peter Corcoran | (参考訳) 畳み込みニューラルネットワーク(cnn)ベースのディープラーニング技術に必要な大規模データセットを、幅広いコンピュータビジョンアプリケーション向けに構築することが、合成データを生成する方法の重要性が高まっている。
本研究では,2次元熱顔データを用いて3次元顔モデルを実現する方法を示すため,既存の手法を拡張した。
提案する研究では,タフツデータセットを用いて,正面の1つのポーズを用いて3次元の異なる顔ポーズを生成する。
このシステムは、融合ベースの画像前処理操作をすることで、既存の画像品質を精査する。
精製された出力はコントラスト調整が良く、ノイズレベルが低く、暗黒領域の露出度も高い。
顔のランドマークや、人間の顔の温度パターンを、元の生データと比べて識別しやすく、目に見えるものにします。
画像の精細なバージョンと原画像を比較するために、画像品質のメトリクスが異なる。
提案研究の次の段階では、畳み込みニューラルネットワーク(cnn)を用いて3次元顔形状構造を作成するために画像の洗練版が用いられる。
生成した出力はブレンダーソフトウェアにインポートされ、最終的に男性と女性の3D熱顔出力を抽出する。
同様の技術は、プロトタイプのサーマルカメラ(heliaus euプロジェクトによって開発された)で得られた熱顔データでも、屋内実験室環境で使用され、様々なヨー顔角とともに合成3d顔データを生成するのに使われ、最後に顔深度マップが生成される。 Methods for generating synthetic data have become of increasing importance to build large datasets required for Convolution Neural Networks (CNN) based deep learning techniques for a wide range of computer vision applications. In this work, we extend existing methodologies to show how 2D thermal facial data can be mapped to provide 3D facial models. For the proposed research work we have used tufts datasets for generating 3D varying face poses by using a single frontal face pose. The system works by refining the existing image quality by performing fusion based image preprocessing operations. The refined outputs have better contrast adjustments, decreased noise level and higher exposedness of the dark regions. It makes the facial landmarks and temperature patterns on the human face more discernible and visible when compared to original raw data. Different image quality metrics are used to compare the refined version of images with original images. In the next phase of the proposed study, the refined version of images is used to create 3D facial geometry structures by using Convolution Neural Networks (CNN). The generated outputs are then imported in blender software to finally extract the 3D thermal facial outputs of both males and females. The same technique is also used on our thermal face data acquired using prototype thermal camera (developed under Heliaus EU project) in an indoor lab environment which is then used for generating synthetic 3D face data along with varying yaw face angles and lastly facial depth map is generated. | 翻訳日:2022-12-06 13:04:25 公開日:2020-05-07 |
# アクティブラーニングによるナノ閉じ込め効果のモデル化 Modeling nanoconfinement effects using active learning ( http://arxiv.org/abs/2005.02587v2 ) ライセンス: Link先を確認 | Javier E. Santos, Mohammed Mehana, Hao Wu, Masa Prodanovic, Michael J. Pyrcz, Qinjun Kang, Nicholas Lubbers, Hari Viswanathan | (参考訳) シェール形成のナノポーラス中のガス分子の空間配置の予測は, 流動予測と炭化水素予備量推定に不可欠である。
これらの密な形成において鍵となる課題は、孔径の大部分が50nm未満であることである。
このスケールでは、流体-固体相互作用の増大によるナノコンフィニメント効果によって流体特性が影響を受ける。
例えば、気孔壁へのガスの吸着は、タイトな貯水池の炭化水素総量の最大85%を占める可能性がある。
この現象を単純な測地のために記述する解析解はあるが、表面粗さと幾何学的異方性が重要な役割を果たす現実的な孔を記述するには適していない。
これらを説明するために、分子レベルでの流体-固体および流体-流体相互作用を考えるため、分子動力学(MD)シミュレーションが用いられる。
しかし、mdシミュレーションは計算コストが高く、いくつかの接続されたナノ孔よりも大きなスケールをシミュレートできない。
本稿では,ナノ孔内の気体の分子配置を高速かつ正確に予測する物理に基づく深層学習サロゲートモデルを構築・訓練する手法を提案する。
ディープラーニングモデルのトレーニングには計算コストのかかる広範なデータベースが必要であるため、アクティブラーニング(AL)を採用しています。
ALは、モデルの不確実性が最も大きい場所を判断し、それを最小化するためにフライでシミュレーションを実行することで、包括的な高忠実度データのセットを作成するオーバーヘッドを低減する。
提案したワークフローは, 炭化水素回収やCO2回収などの複雑なナノ孔制御キーとなるメソスケールにおいて, ナノコンフィニッション効果を厳格に考慮することができる。 Predicting the spatial configuration of gas molecules in nanopores of shale formations is crucial for fluid flow forecasting and hydrocarbon reserves estimation. The key challenge in these tight formations is that the majority of the pore sizes are less than 50 nm. At this scale, the fluid properties are affected by nanoconfinement effects due to the increased fluid-solid interactions. For instance, gas adsorption to the pore walls could account for up to 85% of the total hydrocarbon volume in a tight reservoir. Although there are analytical solutions that describe this phenomenon for simple geometries, they are not suitable for describing realistic pores, where surface roughness and geometric anisotropy play important roles. To describe these, molecular dynamics (MD) simulations are used since they consider fluid-solid and fluid-fluid interactions at the molecular level. However, MD simulations are computationally expensive, and are not able to simulate scales larger than a few connected nanopores. We present a method for building and training physics-based deep learning surrogate models to carry out fast and accurate predictions of molecular configurations of gas inside nanopores. Since training deep learning models requires extensive databases that are computationally expensive to create, we employ active learning (AL). AL reduces the overhead of creating comprehensive sets of high-fidelity data by determining where the model uncertainty is greatest, and running simulations on the fly to minimize it. The proposed workflow enables nanoconfinement effects to be rigorously considered at the mesoscale where complex connected sets of nanopores control key applications such as hydrocarbon recovery and CO2 sequestration. | 翻訳日:2022-12-06 06:34:12 公開日:2020-05-07 |
# GraCIAS: 敵の安全のために崩壊した画像のグラスマン派 GraCIAS: Grassmannian of Corrupted Images for Adversarial Security ( http://arxiv.org/abs/2005.02936v2 ) ライセンス: Link先を確認 | Ankita Shukla, Pavan Turaga and Saket Anand | (参考訳) 入力変換に基づく防御戦略は、強力な敵の攻撃に対する防御に不足している。
いくつかの防御は、適用された変換のランダム性を高めるか、防御を計算的に集中させるかのいずれかのアプローチを採用する。
しかし、リトレーニングやネットワーク修正を用いて摂動に対する堅牢性を達成する計算的に重いアプローチと同様に、前処理ステップとしてそのような防御の適用性を制限する。
本研究では,入力画像のみにランダムな画像破損を適用し,自己相関に基づく部分空間を構築し,投影操作を行い,対向的摂動を抑制する防衛戦略を提案する。
その単純さのため、提案された防御は最先端技術と比較して計算的に効率的であり、大きな摂動に耐えられる。
さらに, クリーン画像の投影演算子とその逆摂動バージョンとの近接関係を, グラスマン多様体上の測地線距離と行列フロベニウスノルムとの関係を境界として発展させる。
我々は、われわれの戦略がJPEG圧縮のような他の弱い防御と相補的なものであることを実証的に示す。
本稿では,4つの異なるモデル,inceptionv3,resnet50,vgg16,mobilenetモデルのイメージネットデータセットについて,摂動等級を"epsilon} = 16"に設定した広範な実験を行う。
最先端のアプローチとは異なり、再訓練がなくても、提案された戦略はimagenetの防御精度が約4.5%向上する。 Input transformation based defense strategies fall short in defending against strong adversarial attacks. Some successful defenses adopt approaches that either increase the randomness within the applied transformations, or make the defense computationally intensive, making it substantially more challenging for the attacker. However, it limits the applicability of such defenses as a pre-processing step, similar to computationally heavy approaches that use retraining and network modifications to achieve robustness to perturbations. In this work, we propose a defense strategy that applies random image corruptions to the input image alone, constructs a self-correlation based subspace followed by a projection operation to suppress the adversarial perturbation. Due to its simplicity, the proposed defense is computationally efficient as compared to the state-of-the-art, and yet can withstand huge perturbations. Further, we develop proximity relationships between the projection operator of a clean image and of its adversarially perturbed version, via bounds relating geodesic distance on the Grassmannian to matrix Frobenius norms. We empirically show that our strategy is complementary to other weak defenses like JPEG compression and can be seamlessly integrated with them to create a stronger defense. We present extensive experiments on the ImageNet dataset across four different models namely InceptionV3, ResNet50, VGG16 and MobileNet models with perturbation magnitude set to {\epsilon} = 16. Unlike state-of-the-art approaches, even without any retraining, the proposed strategy achieves an absolute improvement of ~ 4.5% in defense accuracy on ImageNet. | 翻訳日:2022-12-06 05:25:16 公開日:2020-05-07 |
# 健康なadlからの教師なし事前訓練モデルによる歩行パターンのパーキンソン病分類の改善 Unsupervised Pre-trained Models from Healthy ADLs Improve Parkinson's Disease Classification of Gait Patterns ( http://arxiv.org/abs/2005.02589v2 ) ライセンス: Link先を確認 | Anirudh Som, Narayanan Krishnamurthi, Matthew Buman and Pavan Turaga | (参考訳) さまざまな医療アプリケーションに対するディープラーニングアルゴリズムの適用と利用は、着実に関心を集めている。
しかし、そのようなアルゴリズムの使用は、異なる可能性のあるバリエーションをキャプチャする大量のトレーニングデータを必要とするため、困難であることが証明される。
ほとんどの健康アプリケーションでは、研究者は限られたデータを扱う必要があるため、臨床環境での使用は困難です。
データが少ないとディープラーニングモデルが過度に適合する可能性がある。
本稿では, 異なる環境, 異なるユースケース, 異なるデータ分布からのデータをどのように利用できるかを問う。
本稿では,パーキンソン病分類のためのマルチセンサー加速度計歩行データ(target dataset)に関連する特徴を抽出するために,日常生活活動を行う健常者(adls(source dataset))の単一センサ加速度計データを用いて,このユースケースを例示する。
ソースデータセットを使って事前トレーニングしたモデルをトレーニングし、特徴抽出器として使用します。
対象データセットから抽出した特徴は,効果的な分類モデルの訓練に利用できることを示す。
我々の事前学習したソースモデルは畳み込みオートエンコーダで構成されており、ターゲット分類モデルは単純な多層パーセプトロンモデルである。
異なる活動群を用いて訓練された2つの訓練済みソースモデルを調査し,パーキンソン病分類の課題に対する訓練済みモデルの選択の影響を分析した。 Application and use of deep learning algorithms for different healthcare applications is gaining interest at a steady pace. However, use of such algorithms can prove to be challenging as they require large amounts of training data that capture different possible variations. This makes it difficult to use them in a clinical setting since in most health applications researchers often have to work with limited data. Less data can cause the deep learning model to over-fit. In this paper, we ask how can we use data from a different environment, different use-case, with widely differing data distributions. We exemplify this use case by using single-sensor accelerometer data from healthy subjects performing activities of daily living - ADLs (source dataset), to extract features relevant to multi-sensor accelerometer gait data (target dataset) for Parkinson's disease classification. We train the pre-trained model using the source dataset and use it as a feature extractor. We show that the features extracted for the target dataset can be used to train an effective classification model. Our pre-trained source model consists of a convolutional autoencoder, and the target classification model is a simple multi-layer perceptron model. We explore two different pre-trained source models, trained using different activity groups, and analyze the influence the choice of pre-trained model has over the task of Parkinson's disease classification. | 翻訳日:2022-12-06 04:38:39 公開日:2020-05-07 |
# LinksIQ:不完全スペクトルスコープを用いたロバストかつ効率的な変調認識 LinksIQ: Robust and Efficient Modulation Recognition with Imperfect Spectrum Scans ( http://arxiv.org/abs/2005.04149v1 ) ライセンス: Link先を確認 | Wei Xiong, Karyn Doke, Petko Bogdanov, Mariya Zheleva | (参考訳) スペクトル共有の実践的な進歩には批判的だが、変調認識は非現実的な仮定の下で研究されている。
(i)送信機の帯域幅を単体でスキャンしなければならない。
二 技術に関する事前の知識が利用可能でなければならないこと
(iii)送信機が信頼できること。
実際、これらの仮定は容易には満たせないが、送信機の帯域幅は断続的に、部分的に、または他の送信機と共にのみスキャンされ、変調難読化は短命のスキャンや悪意ある活動によって導入される。
本稿では,実世界のスペクトルセンシングと,仮定を単純化したモデック法とのギャップを埋めるLinksIQを提案する。
我々の重要な洞察は、順序付きIQサンプルが、スキャン不足であっても持続する変調の異なるパターンを形成することである。
我々はこれらのパターンをフィッシャーカーネルフレームワークを通じて発掘し、変調分類に軽量な線形サポートベクターマシンを用いる。
linksiqは、送信技術の事前知識を使わずに、ノイズ、スキャニング部分性、データバイアスに頑健である。
その精度は、シミュレートされたトレースと実トレースの両方でベースラインを一貫して上回る。
RTL-SDRとUSRPの2つのSDRプラットフォームを用いたテストベッドにおけるLinksIQの性能評価を行った。
送信機を50%オーバーラップした20ドルのRTL-SDRスキャンでも高い検出精度(すなわち0.74)を示す。
これはrtl-sdrスキャンで採用されている既存のスキャンと比べて平均43%の改善である。
また,プラットフォーム認識型分類器教育の効果についても検討し,実世界のモデックシステム設計への影響について考察する。
本研究は, 低コスト送信指紋認証の実現可能性を示す。 While critical for the practical progress of spectrum sharing, modulation recognition has so far been investigated under unrealistic assumptions: (i) a transmitter's bandwidth must be scanned alone and in full, (ii) prior knowledge of the technology must be available and (iii) a transmitter must be trustworthy. In reality these assumptions cannot be readily met, as a transmitter's bandwidth may only be scanned intermittently, partially, or alongside other transmitters, and modulation obfuscation may be introduced by short-lived scans or malicious activity. This paper presents LinksIQ, which bridges the gap between real-world spectrum sensing and the growing body of modrec methods designed under simplifying assumptions. Our key insight is that ordered IQ samples form distinctive patterns across modulations, which persist even with scan deficiencies. We mine these patterns through a Fisher Kernel framework and employ lightweight linear support vector machine for modulation classification. LinksIQ is robust to noise, scan partiality and data biases without utilizing prior knowledge of transmitter technology. Its accuracy consistently outperforms baselines in both simulated and real traces. We evaluate LinksIQ performance in a testbed using two popular SDR platforms, RTL-SDR and USRP. We demonstrate high detection accuracy (i.e. 0.74) even with a $20 RTL-SDR scanning at 50% transmitter overlap. This constitutes an average of 43% improvement over existing counterparts employed on RTL-SDR scans. We also explore the effects of platform-aware classifier training and discuss implications on real-world modrec system design. Our results demonstrate the feasibility of low-cost transmitter fingerprinting at scale. | 翻訳日:2022-12-06 00:22:58 公開日:2020-05-07 |
# 医療用IoTデバイスのためのフェデレーション学習フレームワーク A Federated Learning Framework for Healthcare IoT devices ( http://arxiv.org/abs/2005.05083v1 ) ライセンス: Link先を確認 | Binhang Yuan and Song Ge and Wenhui Xing | (参考訳) IoT(Internet of Things)革命は、IoTデバイスによって収集された大量の医療データにアクセス可能な、多くの医療アプリケーションを生み出す可能性を示している。
しかし、医療データプライバシとセキュリティの需要が高まっているため、各IoTデバイスは独立したデータの島になっている。
さらに、ウェアラブル医療機器の限られた計算能力と通信能力は、バニラ連合学習の適用を制限する。
そこで本研究では,ネットワークを分割し,iotデバイスと集中型サーバに割り当てる深層ニューラルネットワークを訓練するための,高度なフェデレーション学習フレームワークを提案する。
そして、ほとんどのトレーニング計算は強力なサーバによって処理されます。
アクティベーションと勾配のスパース化は、通信オーバーヘッドを著しく減少させる。
実験的な研究により、提案フレームワークは、バニラフェデレート学習における同期トラフィックの0.2%しか必要とせず、低い精度の損失を保証することが示唆されている。 The Internet of Things (IoT) revolution has shown potential to give rise to many medical applications with access to large volumes of healthcare data collected by IoT devices. However, the increasing demand for healthcare data privacy and security makes each IoT device an isolated island of data. Further, the limited computation and communication capacity of wearable healthcare devices restrict the application of vanilla federated learning. To this end, we propose an advanced federated learning framework to train deep neural networks, where the network is partitioned and allocated to IoT devices and a centralized server. Then most of the training computation is handled by the powerful server. The sparsification of activations and gradients significantly reduces the communication overhead. Empirical study have suggested that the proposed framework guarantees a low accuracy loss, while only requiring 0.2% of the synchronization traffic in vanilla federated learning. | 翻訳日:2022-12-06 00:22:35 公開日:2020-05-07 |
# スパースデータと構造化イメージセット変換 Sparse data to structured imageset transformation ( http://arxiv.org/abs/2005.10045v1 ) ライセンス: Link先を確認 | Baris Kanber | (参考訳) スパースデータセットを含む機械学習の問題は、サンプルと特徴の数が非常に大きい場合、畳み込みニューラルネットワークの使用の恩恵を受ける可能性がある。
このようなデータセットは、さまざまなドメインで頻繁に発生する。
このようなデータセットをイメージセットに変換しながら,畳み込みニューラルネットワークで使用可能な各イメージ構造を付与する。
公開されている2つのスパースデータセットでの実験的結果は、このアプローチが他の方法と比較して分類性能を向上させる可能性があることを示している。 Machine learning problems involving sparse datasets may benefit from the use of convolutional neural networks if the numbers of samples and features are very large. Such datasets are increasingly more frequently encountered in a variety of different domains. We convert such datasets to imagesets while attempting to give each image structure that is amenable for use with convolutional neural networks. Experimental results on two publicly available, sparse datasets show that the approach can boost classification performance compared to other methods, which may be attributed to the formation of visually distinguishable shapes on the resultant images. | 翻訳日:2022-12-06 00:20:06 公開日:2020-05-07 |
# 点雲登録に関する力学的展望 A Dynamical Perspective on Point Cloud Registration ( http://arxiv.org/abs/2005.03190v1 ) ライセンス: Link先を確認 | Heng Yang | (参考訳) 我々は3次元点雲登録と対応の古典的問題に対する動的視点を提供する。
点雲は粒子からなる剛体と見なされる。
2つの点クラウドを登録する問題は力学系として定式化され、動的モデルポイントクラウドは粘性環境において、対応する2つの点の間に置かれた仮想バネによって引き起こされる力とトルクの下で、静的なシーンポイントクラウドへと翻訳・回転する。
まず,システムのポテンシャルエネルギーが最大確率推定の目的関数を回復することを示す。
次に、リヤプノフ解析(特に不変集合定理)を採用して、剛体力学を解析し、この系がグローバルに漸近的に平衡点の集合に傾き、大域的最適登録解が存在することを示す。
我々は、地球規模の最適平衡点の他に、系は3つまたは無限個の「スパーラス」平衡点を持ち、これらの突発平衡は局所的に不安定であると予想する。
3つの突発平衡は点雲の一般的な形状に対応し、一方無限の突発平衡は点雲が対称性を示すときに起こる。
したがって、ランダムな摂動で力学をシミュレートすると、グローバルに最適な登録ソリューションが得られる。
数値実験は我々の分析と予想をサポートする。 We provide a dynamical perspective on the classical problem of 3D point cloud registration with correspondences. A point cloud is considered as a rigid body consisting of particles. The problem of registering two point clouds is formulated as a dynamical system, where the dynamic model point cloud translates and rotates in a viscous environment towards the static scene point cloud, under forces and torques induced by virtual springs placed between each pair of corresponding points. We first show that the potential energy of the system recovers the objective function of the maximum likelihood estimation. We then adopt Lyapunov analysis, particularly the invariant set theorem, to analyze the rigid body dynamics and show that the system globally asymptotically tends towards the set of equilibrium points, where the globally optimal registration solution lies in. We conjecture that, besides the globally optimal equilibrium point, the system has either three or infinite "spurious" equilibrium points, and these spurious equilibria are all locally unstable. The case of three spurious equilibria corresponds to generic shape of the point cloud, while the case of infinite spurious equilibria happens when the point cloud exhibits symmetry. Therefore, simulating the dynamics with random perturbations guarantees to obtain the globally optimal registration solution. Numerical experiments support our analysis and conjecture. | 翻訳日:2022-12-06 00:19:57 公開日:2020-05-07 |
# ネットワークセキュリティにおけるコンピュータビジョン手法の検討 A Review of Computer Vision Methods in Network Security ( http://arxiv.org/abs/2005.03318v1 ) ライセンス: Link先を確認 | Jiawei Zhao, Rahat Masood, Suranga Seneviratne | (参考訳) ネットワークセキュリティは、データ漏洩の数、重要なインフラストラクチャへの攻撃、ほぼ毎日報告されるマルウェア/ランサムウェア/暗号ジャック攻撃などによって、これまで以上に重要な領域になっている。
IoTの出現に伴い、何十億ものデバイスがインターネットに接続され、攻撃者がより多くの機会を利用できるようになる。
従来の機械学習手法はネットワークセキュリティの文脈で頻繁に用いられてきた。
しかし,このような手法は,バイナリや電子メール,パケットフローなどのソースから抽出した統計的特徴に基づいている。
一方,近年では,畳み込みニューラルネットワークの分野の発展が中心となって,コンピュータビジョンの驚異的な成長が見られた。
一見すると、コンピュータビジョン手法がネットワークセキュリティとどのように関係しているかを見るのは簡単ではない。
それでも、攻撃の検出やセキュリティソリューションの構築において、コンピュータビジョンによる方法がネットワークセキュリティにどのように適用できるかを強調する作業は、かなりの量である。
本稿では,これらの研究の包括的調査を3つのトピックで実施する。
一 フィッシング未遂の検出、
二 マルウェア検出、及び
三 交通異常検出
次に,公開情報を提供する商用製品のセットをレビューし,それらの製品においてコンピュータビジョン手法が効果的に使われているかを検討する。
最後に,既存の研究ギャップと今後の研究方向性,特にネットワークセキュリティ研究コミュニティと産業が,コンピュータビジョン手法の指数的成長を活用して,よりセキュアなネットワークシステムを構築する方法について論じる。 Network security has become an area of significant importance more than ever as highlighted by the eye-opening numbers of data breaches, attacks on critical infrastructure, and malware/ransomware/cryptojacker attacks that are reported almost every day. Increasingly, we are relying on networked infrastructure and with the advent of IoT, billions of devices will be connected to the internet, providing attackers with more opportunities to exploit. Traditional machine learning methods have been frequently used in the context of network security. However, such methods are more based on statistical features extracted from sources such as binaries, emails, and packet flows. On the other hand, recent years witnessed a phenomenal growth in computer vision mainly driven by the advances in the area of convolutional neural networks. At a glance, it is not trivial to see how computer vision methods are related to network security. Nonetheless, there is a significant amount of work that highlighted how methods from computer vision can be applied in network security for detecting attacks or building security solutions. In this paper, we provide a comprehensive survey of such work under three topics; i) phishing attempt detection, ii) malware detection, and iii) traffic anomaly detection. Next, we review a set of such commercial products for which public information is available and explore how computer vision methods are effectively used in those products. Finally, we discuss existing research gaps and future research directions, especially focusing on how network security research community and the industry can leverage the exponential growth of computer vision methods to build much secure networked systems. | 翻訳日:2022-12-06 00:19:14 公開日:2020-05-07 |
# 検証データを用いた粗面CFD二相流シミュレーションにおける深層学習界面モーメントの閉鎖 Deep Learning Interfacial Momentum Closures in Coarse-Mesh CFD Two-Phase Flow Simulation Using Validation Data ( http://arxiv.org/abs/2005.03767v1 ) ライセンス: Link先を確認 | Han Bao, Jinyong Feng, Nam Dinh, Hongbin Zhang | (参考訳) 産業用途では多相流現象が広く観測されているが,未解決問題である。
3次元計算流体力学 (cfd) は, より微細な空間的, 時間的スケール上の流れ場の解法にアプローチし, 専用の実験研究を補完する。
しかし、閉包は多相流の物理を反映するために導入する必要がある。
このうち, 抵抗, 昇降, 乱流分散, 壁面潤滑力などの界面力は, 液相二相流の気泡分布や移動に重要な役割を果たしている。
これらのクロージャの開発は伝統的に実験データと分析的導出に依存しており、単純化された仮定により、通常は広範囲のフロー条件で普遍的な解が得られない。
本稿では,FSM(Feature-Similarity Measurement)と呼ばれるデータ駆動型手法を開発し,粗面CFD法を用いて二相流のシミュレーション性能を向上させる。
断熱気泡流中の界面運動量移動が本研究の焦点となっている。
低忠実度データとして、成熟した界面クロージャと簡易な界面クロージャの両方を用いる。
高忠実度データとして検証データ(関連する実験データと検証されたcfdシミュレーション結果を含む)を採用する。
本稿では,質的,定量的な分析を行う。
これらの結果から,FSMは界面閉鎖の選択によらず,粗いメッシュCFDモデルの予測を大幅に改善し,不連続流路間のスケーラビリティと整合性を提供することがわかった。
データ駆動手法は,局所的な物理的特徴とシミュレーション誤差の関係を探究することにより,多相フローモデリングを支援する。 Multiphase flow phenomena have been widely observed in the industrial applications, yet it remains a challenging unsolved problem. Three-dimensional computational fluid dynamics (CFD) approaches resolve of the flow fields on finer spatial and temporal scales, which can complement dedicated experimental study. However, closures must be introduced to reflect the underlying physics in multiphase flow. Among them, the interfacial forces, including drag, lift, turbulent-dispersion and wall-lubrication forces, play an important role in bubble distribution and migration in liquid-vapor two-phase flows. Development of those closures traditionally rely on the experimental data and analytical derivation with simplified assumptions that usually cannot deliver a universal solution across a wide range of flow conditions. In this paper, a data-driven approach, named as feature-similarity measurement (FSM), is developed and applied to improve the simulation capability of two-phase flow with coarse-mesh CFD approach. Interfacial momentum transfer in adiabatic bubbly flow serves as the focus of the present study. Both a mature and a simplified set of interfacial closures are taken as the low-fidelity data. Validation data (including relevant experimental data and validated fine-mesh CFD simulations results) are adopted as high-fidelity data. Qualitative and quantitative analysis are performed in this paper. These reveal that FSM can substantially improve the prediction of the coarse-mesh CFD model, regardless of the choice of interfacial closures, and it provides scalability and consistency across discontinuous flow regimes. It demonstrates that data-driven methods can aid the multiphase flow modeling by exploring the connections between local physical features and simulation errors. | 翻訳日:2022-12-06 00:17:44 公開日:2020-05-07 |
# YANG2UML: YANGのUMLへのオブジェクト変換と単純化 YANG2UML: Bijective Transformation and Simplification of YANG to UML ( http://arxiv.org/abs/2005.03292v1 ) ライセンス: Link先を確認 | Mario Golling, Robert Koch, Peter Hillmann, Rick Hofstede, Frank Tietze | (参考訳) ソフトウェア定義ネットワークは、ネットワーク制御(制御プレーン)を転送機能(データプレーン)から切り離し、ネットワーク制御が直接プログラム可能になり、基盤となるインフラストラクチャがアプリケーションやネットワークサービスのために抽象化され、コンピュータネットワークに革命をもたらしている。
有名なOpenFlowプロトコルの隣で、XMLベースのNETCONFプロトコルは、管理プラットフォームから設定情報を交換する重要な手段であり、今ではOpenFlowの一部ですらあります。
NETCONFと組み合わせて、YANGは、ほぼ全てのネットワーク構成プロトコルをサポートする関連するデータ構造を定義する対応するプロトコルである。
YANG自体はセマンティックにリッチな言語で、(関連する主題に親しみやすくするために)、他の専門家や開発者を巻き込み、日々の作業(YANGを利用するアプリケーションを書くこと)でそれらをサポートするために可視化されることが多い。
本稿では,このプロセスを支援するために,YANGデータモデルを最適化し,単純化し,複雑度を低減するため,管理・実装(特にインターフェース)とのさらなる議論を支援する新しいアプローチを提案する。
そこで我々は,YANGのUMLへの双方向マッピングを定義し,生成したUML図を描画するツールを開発した。
これは、フォーマルな言語YANGと、他の専門家や開発者を巻き込むために自動的に保守されたUMLダイアグラムを使用することの利点を組み合わせて、技術的に改善されたデータモデルと人間の可読性の間のギャップを埋めます。 Software Defined Networking is currently revolutionizing computer networking by decoupling the network control (control plane) from the forwarding functions (data plane) enabling the network control to become directly programmable and the underlying infrastructure to be abstracted for applications and network services. Next to the well-known OpenFlow protocol, the XML-based NETCONF protocol is also an important means for exchanging configuration information from a management platform and is nowadays even part of OpenFlow. In combination with NETCONF, YANG is the corresponding protocol that defines the associated data structures supporting virtually all network configuration protocols. YANG itself is a semantically rich language, which -- in order to facilitate familiarization with the relevant subject -- is often visualized to involve other experts or developers and to support them by their daily work (writing applications which make use of YANG). In order to support this process, this paper presents an novel approach to optimize and simplify YANG data models to assist further discussions with the management and implementations (especially of interfaces) to reduce complexity. Therefore, we have defined a bidirectional mapping of YANG to UML and developed a tool that renders the created UML diagrams. This combines the benefits to use the formal language YANG with automatically maintained UML diagrams to involve other experts or developers, closing the gap between technically improved data models and their human readability. | 翻訳日:2022-12-06 00:11:27 公開日:2020-05-07 |
# ランダム化数値線形代数における決定点過程 Determinantal Point Processes in Randomized Numerical Linear Algebra ( http://arxiv.org/abs/2005.03185v1 ) ライセンス: Link先を確認 | Micha{\l} Derezi\'nski and Michael W. Mahoney | (参考訳) ランダム化された数値線形代数(RandNLA)は、科学計算、データサイエンス、機械学習などで生じる行列問題に対する改良されたアルゴリズムを開発するためにランダム性を利用する。
決定点過程 (Determinantal Point Processes, DPPs) は、純粋および応用数学において、カーネル行列のサブ行列式によって特徴づけられる確率分布を持つ確率点過程のクラスである。
最近の研究により、DPPとRandNLAの間の深い実りある関係が明らかになり、両方の分野に関心を持つ新たな保証とアルゴリズムの改善につながった。
我々は、RandNLAとDPPの簡単な紹介や、最小二乗回帰、低ランク近似、Nystr\"om法といった古典線形代数問題へのDPPの適用を含む、このエキサイティングな新しい研究ラインの概要を述べる。
例えば、DPPを用いたランダムサンプリングは、最小二乗に対する新しい種類の非バイアス推定を導き、これらのアルゴリズムのより洗練された統計的および推論的理解を可能にし、ある意味では、Nystr\"om法のための最適なランダム化アルゴリズムであり、レバレッジスコアサンプリングと呼ばれるRandNLA手法は、DPPの限界分布として導出することができる。
また、最近のアルゴリズム開発についても論じ、標準RandNLA技術ほど効率的ではないが、DPPベースのアルゴリズムは適度に高価である。 Randomized Numerical Linear Algebra (RandNLA) uses randomness to develop improved algorithms for matrix problems that arise in scientific computing, data science, machine learning, etc. Determinantal Point Processes (DPPs), a seemingly unrelated topic in pure and applied mathematics, is a class of stochastic point processes with probability distribution characterized by sub-determinants of a kernel matrix. Recent work has uncovered deep and fruitful connections between DPPs and RandNLA which lead to new guarantees and improved algorithms that are of interest to both areas. We provide an overview of this exciting new line of research, including brief introductions to RandNLA and DPPs, as well as applications of DPPs to classical linear algebra tasks such as least squares regression, low-rank approximation and the Nystr\"om method. For example, random sampling with a DPP leads to new kinds of unbiased estimators for least squares, enabling more refined statistical and inferential understanding of these algorithms; a DPP is, in some sense, an optimal randomized algorithm for the Nystr\"om method; and a RandNLA technique called leverage score sampling can be derived as the marginal distribution of a DPP. We also discuss recent algorithmic developments, illustrating that, while not quite as efficient as standard RandNLA techniques, DPP-based algorithms are only moderately more expensive. | 翻訳日:2022-12-06 00:10:59 公開日:2020-05-07 |
# 多次元および非定常最大エントロピー原理の計算可能スパース定式化について On a computationally-scalable sparse formulation of the multidimensional and non-stationary maximum entropy principle ( http://arxiv.org/abs/2005.03253v1 ) ライセンス: Link先を確認 | Horenko Illia and Marchenko Ganna and Gagliardini Patrick | (参考訳) 最大エントロピー原理(MaxEnt-principle)に基づくデータ駆動モデリングと計算予測は、データ過度な問題を避けるためのモデルを見つけることを目的としている。
多変量非パラメトリックおよび非定常なマクセント原理の定式化を導出し、その解は正規化を伴うスパース制約付き最適化問題の数値的最大化によって近似できることを示した。
得られたアルゴリズムを一般的な金融ベンチマークに適用すると、主要な株式市場の指標データの単純で質的な説明を可能にするメモリレスモデルが明らかになる。
得られたマクセントモデルと計算計量学(garch, garch-gjr, ms-garch, garch-pml4)のヘテロスケジュールモデルを比較し, モデル適合性, 複雑性, 予測品質について検討した。
得られたモデルログ類似度,ベイズ情報基準の値,後続モデル確率,データ自己相関関数の品質,リスク価値予測品質を比較した。
これら7つの主要な金融ベンチマーク時系列(dji, spx, ftse, stoxx, smi, hsi, n225)は,非定常レジームスイッチを伴う条件付きメモリレスマゼントモデルの方が,有限記憶の一般的な計量モデルよりもよく記述できることを示す。
この分析は、異なる市場における正および負の潜伏変化に対する統計的に重要な時間的関係のスパースネットワークを明らかにしている。
コードはオープンアクセス用に提供されている。 Data-driven modelling and computational predictions based on maximum entropy principle (MaxEnt-principle) aim at finding as-simple-as-possible - but not simpler then necessary - models that allow to avoid the data overfitting problem. We derive a multivariate non-parametric and non-stationary formulation of the MaxEnt-principle and show that its solution can be approximated through a numerical maximisation of the sparse constrained optimization problem with regularization. Application of the resulting algorithm to popular financial benchmarks reveals memoryless models allowing for simple and qualitative descriptions of the major stock market indexes data. We compare the obtained MaxEnt-models to the heteroschedastic models from the computational econometrics (GARCH, GARCH-GJR, MS-GARCH, GARCH-PML4) in terms of the model fit, complexity and prediction quality. We compare the resulting model log-likelihoods, the values of the Bayesian Information Criterion, posterior model probabilities, the quality of the data autocorrelation function fits as well as the Value-at-Risk prediction quality. We show that all of the considered seven major financial benchmark time series (DJI, SPX, FTSE, STOXX, SMI, HSI and N225) are better described by conditionally memoryless MaxEnt-models with nonstationary regime-switching than by the common econometric models with finite memory. This analysis also reveals a sparse network of statistically-significant temporal relations for the positive and negative latent variance changes among different markets. The code is provided for open access. | 翻訳日:2022-12-06 00:10:13 公開日:2020-05-07 |
# 機械学習を用いた光胸腺X線信号と画像特徴からの血圧推定 Estimating Blood Pressure from Photoplethysmogram Signal and Demographic Features using Machine Learning Techniques ( http://arxiv.org/abs/2005.03357v1 ) ライセンス: Link先を確認 | Moajjem Hossain Chowdhury, Md Nazmul Islam Shuzan, Muhammad E.H. Chowdhury, Zaid B Mahbub, M. Monir Uddin, Amith Khandakar, Mamun Bin Ibne Reaz | (参考訳) 高血圧は潜在的に安全でない健康障害であり、血圧(BP)から直接示すことができる。
高血圧は常に他の健康合併症を引き起こす。
BPの連続モニタリングは非常に重要であるが、カフベースのBP測定はユーザにとって離散的で不快である。
このニーズに対処するために、フォトプルチスモグラム(PPG)信号と機械学習(ML)アルゴリズムを用いて、カフレス、連続、非侵襲的なBP測定システムを提案する。
PPG信号は219名の被験者から取得され, 前処理と特徴抽出を行った。
PPGとその派生信号から時間・周波数・周波数領域の特徴を抽出した。
特徴選択技術は計算複雑性を減らし、MLアルゴリズムを過度に適合させる可能性を減らすために用いられた。
その後、MLアルゴリズムのトレーニングと評価に使用された。
最適な回帰モデルがSystolic BP (SBP) とDistolic BP (DBP) でそれぞれ選択された。
ガウス過程回帰(GPR)とReliefF特徴選択アルゴリズムは、それぞれ6.74と3.59のルート平均二乗誤差(RMSE)でSBPとDBPを推定する他のアルゴリズムよりも優れている。
このMLモデルはハードウェアシステムに実装でき、BPを継続的に監視し、突然の変化による重大な健康状態を回避することができる。 Hypertension is a potentially unsafe health ailment, which can be indicated directly from the Blood pressure (BP). Hypertension always leads to other health complications. Continuous monitoring of BP is very important; however, cuff-based BP measurements are discrete and uncomfortable to the user. To address this need, a cuff-less, continuous and a non-invasive BP measurement system is proposed using Photoplethysmogram (PPG) signal and demographic features using machine learning (ML) algorithms. PPG signals were acquired from 219 subjects, which undergo pre-processing and feature extraction steps. Time, frequency and time-frequency domain features were extracted from the PPG and their derivative signals. Feature selection techniques were used to reduce the computational complexity and to decrease the chance of over-fitting the ML algorithms. The features were then used to train and evaluate ML algorithms. The best regression models were selected for Systolic BP (SBP) and Diastolic BP (DBP) estimation individually. Gaussian Process Regression (GPR) along with ReliefF feature selection algorithm outperforms other algorithms in estimating SBP and DBP with a root-mean-square error (RMSE) of 6.74 and 3.59 respectively. This ML model can be implemented in hardware systems to continuously monitor BP and avoid any critical health conditions due to sudden changes. | 翻訳日:2022-12-06 00:09:26 公開日:2020-05-07 |
# AutoSOS: 軽量AIとエッジコンピューティングによる海中探索と救助を支援するマルチUAVシステムを目指す AutoSOS: Towards Multi-UAV Systems Supporting Maritime Search and Rescue with Lightweight AI and Edge Computing ( http://arxiv.org/abs/2005.03409v1 ) ライセンス: Link先を確認 | Jorge Pe\~na Queralta, Jenni Raitoharju, Tuan Nguyen Gia, Nikolaos Passalis, Tomi Westerlund | (参考訳) 救助船は海上の安全と救助活動の主役である。
同時に、空飛ぶドローンはこのシナリオに大きな利点をもたらす。
本稿では,新しい軽量AIモデルを用いた組み込みデバイスにおけるセンサフュージョンと物体検出が可能な自律型マルチロボット探索・救助支援プラットフォームの開発を支援するAutoSOSプロジェクトの方向性について述べる。
このプラットフォームは、ドローンや救助船で利用可能なセンサーと計算資源を効率的に利用する新しい適応型ディープラーニングアルゴリズムを使用して、環境の初期評価のための偵察ミッションを実行することを目的としている。
ドローンが潜在的な物体を見つけたら、そのセンサーデータを船に送り、その発見を精度良く検証する。
実際の救助・処理作業は救助員の責任として残されている。
ドローンは、複数のホップ通信を可能にするために、自律的に空間分布を再構成する。 Rescue vessels are the main actors in maritime safety and rescue operations. At the same time, aerial drones bring a significant advantage into this scenario. This paper presents the research directions of the AutoSOS project, where we work in the development of an autonomous multi-robot search and rescue assistance platform capable of sensor fusion and object detection in embedded devices using novel lightweight AI models. The platform is meant to perform reconnaissance missions for initial assessment of the environment using novel adaptive deep learning algorithms that efficiently use the available sensors and computational resources on drones and rescue vessel. When drones find potential objects, they will send their sensor data to the vessel to verity the findings with increased accuracy. The actual rescue and treatment operation are left as the responsibility of the rescue personnel. The drones will autonomously reconfigure their spatial distribution to enable multi-hop communication, when a direct connection between a drone transmitting information and the vessel is unavailable. | 翻訳日:2022-12-06 00:09:03 公開日:2020-05-07 |
# グラフ畳み込みネットワークによるバンドル勧告 Bundle Recommendation with Graph Convolutional Networks ( http://arxiv.org/abs/2005.03475v1 ) ライセンス: Link先を確認 | Jianxin Chang, Chen Gao, Xiangnan He, Yong Li, Depeng Jin | (参考訳) bundle recommendationは、ユーザが全体として消費するアイテムのバンドルを推奨することを目的としている。
既存のソリューションでは,モデルパラメータや学習をマルチタスク形式で共有することで,ユーザと項目のインタラクションモデリングをバンドルレコメンデーションに統合している。
本研究では,バンドルレコメンデーションのためのグラフニューラルネットワークモデルBGCN (short for \textit{\textBF{B}undle \textBF{G}raph \textBF{C}onvolutional \textBF{N}etwork})を提案する。
BGCNは、ユーザ-itemインタラクション、ユーザ-バンドルインタラクション、バンドル-itemアフィリエイトをヘテロジニアスグラフに統合する。
アイテムノードをブリッジとして、ユーザとバンドルノード間のグラフ畳み込み伝搬により、学習された表現はアイテムレベルのセマンティクスをキャプチャする。
強陰性サンプリングに基づくトレーニングにより、類似バンドルに対するユーザのきめ細かい好みをさらに区別する。
2つの実世界のデータセットに対する実証的な結果は、最先端のベースラインを10.77\%から23.18\%に上回るBGCNのパフォーマンス向上を示す。 Bundle recommendation aims to recommend a bundle of items for a user to consume as a whole. Existing solutions integrate user-item interaction modeling into bundle recommendation by sharing model parameters or learning in a multi-task manner, which cannot explicitly model the affiliation between items and bundles, and fail to explore the decision-making when a user chooses bundles. In this work, we propose a graph neural network model named BGCN (short for \textit{\textBF{B}undle \textBF{G}raph \textBF{C}onvolutional \textBF{N}etwork}) for bundle recommendation. BGCN unifies user-item interaction, user-bundle interaction and bundle-item affiliation into a heterogeneous graph. With item nodes as the bridge, graph convolutional propagation between user and bundle nodes makes the learned representations capture the item level semantics. Through training based on hard-negative sampler, the user's fine-grained preferences for similar bundles are further distinguished. Empirical results on two real-world datasets demonstrate the strong performance gains of BGCN, which outperforms the state-of-the-art baselines by 10.77\% to 23.18\%. | 翻訳日:2022-12-06 00:08:48 公開日:2020-05-07 |
# 大規模視覚像定位のための意味署名 Semantic Signatures for Large-scale Visual Localization ( http://arxiv.org/abs/2005.03388v1 ) ライセンス: Link先を確認 | Li Weng, Valerie Gouet-Brunet, Bahman Soheilian | (参考訳) 視覚的ローカライゼーションは、標準的なローカライゼーション手法の代替となる。
カメラを利用する。
典型的なシナリオでは、画像から特徴を抽出し、地理参照データベースと比較する。
そして、一致する結果から位置情報を推測する。
従来のスキームは主に低レベルの視覚特徴を使用する。
これらのアプローチは高い精度を提供するが、スケーラビリティの問題に悩まされる。
都市部における局所化を支援するため,高レベルな意味情報を利用して異なる経路を探索する。
ストリートビューのオブジェクト情報は、ローカライゼーションを容易にすることが判明した。
この情報を要約するために"semantic signature"と呼ばれる新しい記述子スキームが提案されている。
意味的シグネチャは、空間的位置における可視物体のタイプと角度情報からなる。
いくつかのメトリクスとプロトコルが署名の比較と検索のために提案されている。
正確さと複雑さの間には、異なるトレードオフがある。
大規模応用における提案手法の可能性を大規模シミュレーションにより検証した。
本論文はCBMI'18における会議用紙の拡張版である。
より効率的な検索プロトコルにさらなる実験結果を示す。 Visual localization is a useful alternative to standard localization techniques. It works by utilizing cameras. In a typical scenario, features are extracted from captured images and compared with geo-referenced databases. Location information is then inferred from the matching results. Conventional schemes mainly use low-level visual features. These approaches offer good accuracy but suffer from scalability issues. In order to assist localization in large urban areas, this work explores a different path by utilizing high-level semantic information. It is found that object information in a street view can facilitate localization. A novel descriptor scheme called "semantic signature" is proposed to summarize this information. A semantic signature consists of type and angle information of visible objects at a spatial location. Several metrics and protocols are proposed for signature comparison and retrieval. They illustrate different trade-offs between accuracy and complexity. Extensive simulation results confirm the potential of the proposed scheme in large-scale applications. This paper is an extended version of a conference paper in CBMI'18. A more efficient retrieval protocol is presented with additional experiment results. | 翻訳日:2022-12-06 00:01:35 公開日:2020-05-07 |
# rgb画像からのスペクトル再構成に関するntire 2020チャレンジ NTIRE 2020 Challenge on Spectral Reconstruction from an RGB Image ( http://arxiv.org/abs/2005.03412v1 ) ライセンス: Link先を確認 | Boaz Arad, Radu Timofte, Ohad Ben-Shahar, Yi-Tun Lin, Graham Finlayson, Shai Givati, and others | (参考訳) 本稿では,RGB画像からのスペクトル再構成,すなわち3チャンネルRGB画像からの全シーンハイパースペクトル(HS)情報の回復に関する第2の課題について述べる。
以前の挑戦と同様に2線が設けられた。
(i)ノイズのないrgbからhs画像を推定し、rgb画像自体を接地hs画像と供給されたスペクトル感度関数を用いて数値計算する「クリーン」トラック
(II) ノイズの多いJPEG圧縮RGB画像からHS画像が回収される未校正で未知のカメラによるキャプチャーをシミュレートする「リアルワールド」トラック。
総計510 HS画像を含む、より大きく、より大きく、自然なハイパースペクトル画像データセットが提示される。
クリーンワールドとリアルワールドのトラックには、それぞれ103と78の登録参加者があり、14チームが最終テストフェーズに出場した。
また,提案手法について,チャレンジスコアと合わせて記述し,トップパフォーマンス手法の広範な評価を行った。
彼らはRGB画像からスペクトル再構成の最先端を計測する。 This paper reviews the second challenge on spectral reconstruction from RGB images, i.e., the recovery of whole-scene hyperspectral (HS) information from a 3-channel RGB image. As in the previous challenge, two tracks were provided: (i) a "Clean" track where HS images are estimated from noise-free RGBs, the RGB images are themselves calculated numerically using the ground-truth HS images and supplied spectral sensitivity functions (ii) a "Real World" track, simulating capture by an uncalibrated and unknown camera, where the HS images are recovered from noisy JPEG-compressed RGB images. A new, larger-than-ever, natural hyperspectral image data set is presented, containing a total of 510 HS images. The Clean and Real World tracks had 103 and 78 registered participants respectively, with 14 teams competing in the final testing phase. A description of the proposed methods, alongside their challenge scores and an extensive evaluation of top performing methods is also provided. They gauge the state-of-the-art in spectral reconstruction from an RGB image. | 翻訳日:2022-12-06 00:01:25 公開日:2020-05-07 |
# CNNはどのようにして画像位置をセグメンテーションに利用できるか? How Can CNNs Use Image Position for Segmentation? ( http://arxiv.org/abs/2005.03463v1 ) ライセンス: Link先を確認 | Rito Murase, Masanori Suganuma and Takayuki Okatani | (参考訳) 畳み込みは同変演算であり、画像位置はその結果に影響を与えない。
最近の研究では、CNNの畳み込み層に使用されるゼロパディングが、CNNに位置情報を提供することを示している。
さらに,位置情報は,物体認識やセグメンテーションなど,複数のタスクに対して正確な推論を可能にする。
しかし, 実験の設計には技術的な問題があるため, 請求の正確性はまだ検証されていない。
さらに、対象オブジェクトが任意の画像位置に現れる自然画像のセグメンテーションには、絶対的な画像位置は必須ではないかもしれない。
本研究では,位置情報がどのようにしてセグメンテーションタスクに活用できるかを検討する。
この目的のために、入力画像に画像位置を埋め込んだチャネルを付加する PE ( {\em positional encoding}) について検討し、複数のパディング手法と比較する。
以上の自然画像の特徴を考慮すると、同一の臓器(異なる患者の臓器)が同じ大きさと位置で捕獲されるため、絶対的な位置が比較的重要であるように見える医療画像分割タスクを選択する。
位置エンコーディングは、いくつかのケースでは確実に機能するが、絶対像位置は、私たちが考えるようなセグメンテーションタスクでは重要ではないかもしれない。 Convolution is an equivariant operation, and image position does not affect its result. A recent study shows that the zero-padding employed in convolutional layers of CNNs provides position information to the CNNs. The study further claims that the position information enables accurate inference for several tasks, such as object recognition, segmentation, etc. However, there is a technical issue with the design of the experiments of the study, and thus the correctness of the claim is yet to be verified. Moreover, the absolute image position may not be essential for the segmentation of natural images, in which target objects will appear at any image position. In this study, we investigate how positional information is and can be utilized for segmentation tasks. Toward this end, we consider {\em positional encoding} (PE) that adds channels embedding image position to the input images and compare PE with several padding methods. Considering the above nature of natural images, we choose medical image segmentation tasks, in which the absolute position appears to be relatively important, as the same organs (of different patients) are captured in similar sizes and positions. We draw a mixed conclusion from the experimental results; the positional encoding certainly works in some cases, but the absolute image position may not be so important for segmentation tasks as we think. | 翻訳日:2022-12-06 00:01:07 公開日:2020-05-07 |
# 手動誘導による調音とセグメンテーション推定 A Hand Motion-guided Articulation and Segmentation Estimation ( http://arxiv.org/abs/2005.03691v1 ) ライセンス: Link先を確認 | Richard Sahala Hartanto, Ryoichi Ishikawa, Menandro Roxas, Takeshi Oishi | (参考訳) 本稿では,人間の手の動きを用いたrgb-d画像における調音物体の同時調音モデル推定とセグメンテーション手法を提案する。
本手法では,初期調音モデル推定,icpに基づくモデルパラメータ最適化,対象物体の領域選択のプロセスにおいて手の動きを用いる。
手の動きは調音モデルの最初の推測を与える: 主観的関節(prismatic joint)または回旋関節(revolute joint)。
RGB-D画像を手の動きの制約に合わせることで関節パラメータを推定する。
最後に、明瞭度モデルに沿って対称に移動するクラスタ領域から対象領域を選択する。
実験により,提案手法の頑健性について検討した。 In this paper, we present a method for simultaneous articulation model estimation and segmentation of an articulated object in RGB-D images using human hand motion. Our method uses the hand motion in the processes of the initial articulation model estimation, ICP-based model parameter optimization, and region selection of the target object. The hand motion gives an initial guess of the articulation model: prismatic or revolute joint. The method estimates the joint parameters by aligning the RGB-D images with the constraint of the hand motion. Finally, the target regions are selected from the cluster regions which move symmetrically along with the articulation model. Our experimental results show the robustness of the proposed method for the various objects. | 翻訳日:2022-12-06 00:00:46 公開日:2020-05-07 |
# 旅行セールスマン問題とその変数に対する最適制御理論 An Optimal Control Theory for the Traveling Salesman Problem and Its Variants ( http://arxiv.org/abs/2005.03186v1 ) ライセンス: Link先を確認 | I. M. Ross, R. J. Proulx, M. Karpenko | (参考訳) 旅行セールスマン問題(TSP)とその多くの変種は,グラフ上の関数最適化問題としてモデル化できることを示す。
この定式化において、グラフのすべての頂点と弧は函数であり、すなわち、可測函数の空間から実数体への写像である。
tspの多くの変種、例えば、禁止された近隣の地域、時間窓と利益がある地域は、全てこの構成の下で構成することができる。
離散最適化とは対照的に,本論文で提示したモデリング構造は,TSPとその変種に対する解析と計算の基本的な新しい領域を表現している。
グラフ理論における問題のクラスを数学的に統一するだけでなく、新しいアプローチの主な利点は、測定可能な関数のホーム空間における特定の応用固有の問題のモデリングを容易にすることである。
したがって、力学モデルや連続時間コスト/利益関数といった経済システム理論の特定の要素は、新しい最適化問題定式化に直接組み込むことができる。
さらに、離散最適化の定式化で一般的なサブター除去制約は、連続性要件によって自然に強制される。
新しいモデリングフレームワークの価格は、非スムース関数である。
提案した数学的枠組みでは,多くの理論的問題が解き放たれているが,本論文では,広範囲に制約された実践的問題に対するエンドツーエンドのTSPソリューションの迅速な生成を示すために,新しいモデリング構成の計算可能性を示す。 We show that the traveling salesman problem (TSP) and its many variants may be modeled as functional optimization problems over a graph. In this formulation, all vertices and arcs of the graph are functionals; i.e., a mapping from a space of measurable functions to the field of real numbers. Many variants of the TSP, such as those with neighborhoods, with forbidden neighborhoods, with time-windows and with profits, can all be framed under this construct. In sharp contrast to their discrete-optimization counterparts, the modeling constructs presented in this paper represent a fundamentally new domain of analysis and computation for TSPs and their variants. Beyond its apparent mathematical unification of a class of problems in graph theory, the main advantage of the new approach is that it facilitates the modeling of certain application-specific problems in their home space of measurable functions. Consequently, certain elements of economic system theory such as dynamical models and continuous-time cost/profit functionals can be directly incorporated in the new optimization problem formulation. Furthermore, subtour elimination constraints, prevalent in discrete optimization formulations, are naturally enforced through continuity requirements. The price for the new modeling framework is nonsmooth functionals. Although a number of theoretical issues remain open in the proposed mathematical framework, we demonstrate the computational viability of the new modeling constructs over a sample set of problems to illustrate the rapid production of end-to-end TSP solutions to extensively-constrained practical problems. | 翻訳日:2022-12-06 00:00:21 公開日:2020-05-07 |
# CounQER:知識ベースにおけるカウント情報の発見とリンクシステム CounQER: A System for Discovering and Linking Count Information in Knowledge Bases ( http://arxiv.org/abs/2005.03529v1 ) ライセンス: Link先を確認 | Shrestha Ghosh, Simon Razniewski, Gerhard Weikum | (参考訳) Wikidata、DBpedia、Freebaseなどの汎用知識ベース(KB)の述語制約は、サブプロパティ、ドメイン、範囲制約に制限されることが多い。
このデモでは、CounQERを紹介します。これは、 StaffSizeのような述語を数え、WorkInstitution^{-1}のような述語を列挙するシステムです。
デモセッションでは、参加者はこれらのアライメントを検査でき、kbの質問応答とキュレーションにおけるこれらのアライメントの重要性を知ることができる。
CounQERはhttps://counqer.mpi-inf.mpg.de/spoで入手できる。 Predicate constraints of general-purpose knowledge bases (KBs) like Wikidata, DBpedia and Freebase are often limited to subproperty, domain and range constraints. In this demo we showcase CounQER, a system that illustrates the alignment of counting predicates, like staffSize, and enumerating predicates, like workInstitution^{-1} . In the demonstration session, attendees can inspect these alignments, and will learn about the importance of these alignments for KB question answering and curation. CounQER is available at https://counqer.mpi-inf.mpg.de/spo. | 翻訳日:2022-12-05 23:59:57 公開日:2020-05-07 |
# レニアと拡張宇宙 Lenia and Expanded Universe ( http://arxiv.org/abs/2005.03742v1 ) ライセンス: Link先を確認 | Bert Wang-Chak Chan | (参考訳) 生命に似た自己組織型自律パターンを生成できる連続セルオートマトンであるLeniaを実験的に拡張した。
レニアの規則は高次元、複数のカーネル、複数のチャネルに一般化された。
最後のアーキテクチャは、リカレントな畳み込みニューラルネットワークと見なせるものにアプローチする。
遺伝的アルゴリズムなどの半自動探索を用いて,多面体対称性,個性,自己複製,放出,摂食による成長などの新しい現象を発見し,内的労働分業と型分化を有する「仮想真核生物」の出現を見出した。
生物学、人工生命、人工知能の文脈における結果について議論する。 We report experimental extensions of Lenia, a continuous cellular automata family capable of producing lifelike self-organizing autonomous patterns. The rule of Lenia was generalized into higher dimensions, multiple kernels, and multiple channels. The final architecture approaches what can be seen as a recurrent convolutional neural network. Using semi-automatic search e.g. genetic algorithm, we discovered new phenomena like polyhedral symmetries, individuality, self-replication, emission, growth by ingestion, and saw the emergence of "virtual eukaryotes" that possess internal division of labor and type differentiation. We discuss the results in the contexts of biology, artificial life, and artificial intelligence. | 翻訳日:2022-12-05 23:59:47 公開日:2020-05-07 |
# 確率的予測の逐次集約 -風速アンサンブル予測への適用- Sequential Aggregation of Probabilistic Forecasts -- Applicaton to Wind Speed Ensemble Forecasts ( http://arxiv.org/abs/2005.03540v1 ) ライセンス: Link先を確認 | Micha\"el Zamo, Liliane Bel, Olivier Mestre | (参考訳) 数値気象予測(nwp)の分野では、大気の将来の状態の確率分布は、アンサンブルと呼ばれるモンテカルロのようなシミュレーションによってサンプリングされる。
これらのアンサンブルには、統計的後処理方法によって修正できる欠陥(条件バイアスなど)がある。
いくつかのアンサンブルが存在し、異なるスタチティスカル法で修正することができる。
さらなるステップは、これらの生または後処理されたアンサンブルを組み合わせることである。
専門家の助言による予測理論により,予測性能に関する理論的保証と組み合わせアルゴリズムを構築することができる。
本稿では、ステップワイズ累積分布関数 (CDF) として発行される確率的予測の場合に適応する。
この理論は風速予測に応用され、CDFとして考慮されたいくつかの生または後処理アンサンブルを組み合わせている。
本研究の第2の目的は,連続格付け確率スコア(CRPS)とJolliffe-Primoテストの2つの予測性能基準の利用を検討することである。
両基準を比較した結果から,CRPSの最小化に基づく有能な確率予測を構築する方法が再検討される。
CRPSの最小化は、Jolliffe-Primoテストによって必ずしも信頼できる予測を生成するとは限らない。
Jolliffe-Primo テストは一般的に信頼性のある予測を選択するが、CRPS の観点からは最適以下の予測を発行する可能性がある。
信頼性の高い確率予測と熟練した確率予測を両立させることが提案されている。 In the field of numerical weather prediction (NWP), the probabilistic distribution of the future state of the atmosphere is sampled with Monte-Carlo-like simulations, called ensembles. These ensembles have deficiencies (such as conditional biases) that can be corrected thanks to statistical post-processing methods. Several ensembles exist and may be corrected with different statistiscal methods. A further step is to combine these raw or post-processed ensembles. The theory of prediction with expert advice allows us to build combination algorithms with theoretical guarantees on the forecast performance. This article adapts this theory to the case of probabilistic forecasts issued as step-wise cumulative distribution functions (CDF). The theory is applied to wind speed forecasting, by combining several raw or post-processed ensembles, considered as CDFs. The second goal of this study is to explore the use of two forecast performance criteria: the Continous ranked probability score (CRPS) and the Jolliffe-Primo test. Comparing the results obtained with both criteria leads to reconsidering the usual way to build skillful probabilistic forecasts, based on the minimization of the CRPS. Minimizing the CRPS does not necessarily produce reliable forecasts according to the Jolliffe-Primo test. The Jolliffe-Primo test generally selects reliable forecasts, but could lead to issuing suboptimal forecasts in terms of CRPS. It is proposed to use both criterion to achieve reliable and skillful probabilistic forecasts. | 翻訳日:2022-12-05 23:59:35 公開日:2020-05-07 |
# 学習句が確率的局所探索に及ぼす影響について On the Effect of Learned Clauses on Stochastic Local Search ( http://arxiv.org/abs/2005.04022v1 ) ライセンス: Link先を確認 | Jan-Hendrik Lorenz and Florian W\"orz | (参考訳) SATソルバには、衝突駆動節学習(CDCL)と確率局所探索(SLS)の2つの競合パラダイムがある。
CDCLは検索空間を体系的に探索し、新しい節を学習する能力を持つ。
SLSは、現在の完全な割り当ての近傍を調べます。
cdclとは異なり、失敗から学ぶ能力が欠けている。
この研究は、SLSが元の式に新しい節を追加することが有益かどうかという問題を中心に展開されている。
我々は、多数の正しいリテラルを持つ節を実験的に示す。
r.
tだ
固定解はSLSのランタイムに有益である。
このような節を高品質な節と呼ぶ。
経験的評価はCDCLによって学習された短い節が高品質な属性を持っていることを示している。
ランダムに生成されたインスタンスのいくつかのドメインを調査し、前処理ステップとして高品質な節を追加する最も有益な戦略を導出する。
これらの戦略はSLSソルバに実装されており、ランダムに生成されたインスタンスの最先端性を大幅に改善することを示す。
結果は統計的に有意である。 There are two competing paradigms in successful SAT solvers: Conflict-driven clause learning (CDCL) and stochastic local search (SLS). CDCL uses systematic exploration of the search space and has the ability to learn new clauses. SLS examines the neighborhood of the current complete assignment. Unlike CDCL, it lacks the ability to learn from its mistakes. This work revolves around the question whether it is beneficial for SLS to add new clauses to the original formula. We experimentally demonstrate that clauses with a large number of correct literals w. r. t. a fixed solution are beneficial to the runtime of SLS. We call such clauses high-quality clauses. Empirical evaluations show that short clauses learned by CDCL possess the high-quality attribute. We study several domains of randomly generated instances and deduce the most beneficial strategies to add high-quality clauses as a preprocessing step. The strategies are implemented in an SLS solver, and it is shown that this considerably improves the state-of-the-art on randomly generated instances. The results are statistically significant. | 翻訳日:2022-12-05 23:52:27 公開日:2020-05-07 |
# 頂点被覆問題における周辺評価基準 Neighbourhood Evaluation Criteria for Vertex Cover Problem ( http://arxiv.org/abs/2005.05065v1 ) ライセンス: Link先を確認 | Kaustubh K Joshi | (参考訳) 近隣評価基準 (Neighbourhood Evaluation Criteria) は、最小頂点被覆を解くためのヒューリスティック近似アルゴリズムである。
各頂点について次数を検査し、最上位のカウントベース頂点を被覆集合に含める。
複数の等価頂点の場合、最も近傍の影響が低いものを選択する。
既設の複数同値頂点の場合、最下位のアクティブ頂点数(最大独立集合許容数)を有するものをタイブレーカとして選択する。 Neighbourhood Evaluation Criteria is a heuristical approximate algorithm that attempts to solve the Minimum Vertex Cover. degree count is kept in check for each vertex and the highest count based vertex is included in our cover set. In the case of multiple equivalent vertices, the one with the lowest neighbourhood influence is selected. In the case of still existing multiple equivalent vertices, the one with the lowest remaining active vertex count (the highest Independent Set enabling count) is selected as a tie-breaker. | 翻訳日:2022-12-05 23:52:12 公開日:2020-05-07 |
# 音声知覚モデルのための知覚英語ベンチマーク The Perceptimatic English Benchmark for Speech Perception Models ( http://arxiv.org/abs/2005.03418v1 ) ライセンス: Link先を確認 | Juliette Millet and Ewan Dunbar | (参考訳) 英語における音声知覚の定量的モデルを評価するためのオープンな実験ベンチマークであるPerceptimatic English Benchmarkを提案する。
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
刺激テストは、多くの英語とフランス語の音声のコントラストを識別する。
これらは読み上げ音声のコーパスから直接抽出され、典型的な音声データセットに基づいて訓練された統計的音響モデル(自動音声認識など)を評価するのに適している。
本研究は,電話の識別が複数のモデルと相関していることを示し,実験的な刺激の音響距離の基準を求める研究者に推奨する。
英語の標準音声認識器であるDeepSpeechは、英語の聞き手よりも英語の音素識別に特化しており、人間に与えられた判断タスクに低誤差を与えるにもかかわらず、その振る舞いと相関が低いことを示す。 We present the Perceptimatic English Benchmark, an open experimental benchmark for evaluating quantitative models of speech perception in English. The benchmark consists of ABX stimuli along with the responses of 91 American English-speaking listeners. The stimuli test discrimination of a large number of English and French phonemic contrasts. They are extracted directly from corpora of read speech, making them appropriate for evaluating statistical acoustic models (such as those used in automatic speech recognition) trained on typical speech data sets. We show that phone discrimination is correlated with several types of models, and give recommendations for researchers seeking easily calculated norms of acoustic distance on experimental stimuli. We show that DeepSpeech, a standard English speech recognizer, is more specialized on English phoneme discrimination than English listeners, and is poorly correlated with their behaviour, even though it yields a low error on the decision task given to humans. | 翻訳日:2022-12-05 23:51:48 公開日:2020-05-07 |
# 優れた対話型ビデオ生成とは何か?
アンケート調査とベンチマーク What comprises a good talking-head video generation?: A Survey and Benchmark ( http://arxiv.org/abs/2005.03201v1 ) ライセンス: Link先を確認 | Lele Chen, Guofeng Cui, Ziyi Kou, Haitian Zheng, Chenliang Xu | (参考訳) 長年にわたり、コンピュータビジョンにおいて性能評価が不可欠となり、多くのサブフィールドで目に見える進歩を可能にしてきた。
対話型ビデオ生成は新たな研究課題となっているが,既存の評価には多くの限界がある。
例えば、ほとんどのアプローチでは、人的対象(例えば、Amazon MTurkを介して)を直接的に評価する。
この主観評価は複雑で再現不可能であり、新しい研究の進化を妨げる可能性がある。
そこで本研究では,標準化されたデータセット前処理戦略を用いて,対話型ビデオ生成の評価を行う。
評価については,新たな指標を提案するか,あるいは適切な指標を選択して,良好な対話型ビデオの望ましい特性,すなわちアイデンティティ保持,唇同期,高画質,自然共起運動について評価する。
いくつかの最先端のトーキング・ヘッド・ジェネレーション・アプローチに対して思慮深い分析を行うことで,現在の手法のメリットと欠点を明らかにし,将来的な作業の方向性を指摘する。
すべての評価コードは、https://github.com/lelechen63/talking-head-generation-survey.comで入手できる。 Over the years, performance evaluation has become essential in computer vision, enabling tangible progress in many sub-fields. While talking-head video generation has become an emerging research topic, existing evaluations on this topic present many limitations. For example, most approaches use human subjects (e.g., via Amazon MTurk) to evaluate their research claims directly. This subjective evaluation is cumbersome, unreproducible, and may impend the evolution of new research. In this work, we present a carefully-designed benchmark for evaluating talking-head video generation with standardized dataset pre-processing strategies. As for evaluation, we either propose new metrics or select the most appropriate ones to evaluate results in what we consider as desired properties for a good talking-head video, namely, identity preserving, lip synchronization, high video quality, and natural-spontaneous motion. By conducting a thoughtful analysis across several state-of-the-art talking-head generation approaches, we aim to uncover the merits and drawbacks of current methods and point out promising directions for future work. All the evaluation code is available at: https://github.com/lelechen63/talking-head-generation-survey. | 翻訳日:2022-12-05 23:51:35 公開日:2020-05-07 |
# エッジ同期モバイルを用いたマルチビューデータキャプチャ Multi-view data capture using edge-synchronised mobiles ( http://arxiv.org/abs/2005.03286v1 ) ライセンス: Link先を確認 | Matteo Bortolon, Paul Chippendale, Stefano Messelodi and Fabio Poiesi | (参考訳) マルチビューデータキャプチャは、自由視点ビデオ(FVV)コンテンツ作成を可能にする。
この目的のために、複数のユーザがビデオストリームをキャプチャし、時間とポーズを調整し、異なる視点から同じオブジェクト/シーンをフレーミングしなければならない。
次世代ネットワークアーキテクチャ(例えば5G)は、信頼性の高いFVVキャプチャーに理想的な特性である強力なエッジコンピューティングによってサポートされている低レイテンシとより大きな帯域幅接続を約束する。
我々は、複数の視点からシーンをキャプチャする際に、個別の同期ハードウェアの必要性をなくすことを目的として、この可能性を探究した。
本稿では,フレームキャプチャの同期と取得にエッジリソースを活用する,新しいスケーラブルなデータキャプチャアーキテクチャを提案する。
我々は,複数の移動体へのタイミングトリガーの中継を監視できるエッジコンピューティングユニットを設計し,フレームの同期化を行った。
我々は、レイテンシを分析してエッジコンピューティングユニットの利点を実証的に示し、Unity3Dに基づく代替で人気のある集中型ソリューションに対して、3D再構成出力の品質を示す。 Multi-view data capture permits free-viewpoint video (FVV) content creation. To this end, several users must capture video streams, calibrated in both time and pose, framing the same object/scene, from different viewpoints. New-generation network architectures (e.g. 5G) promise lower latency and larger bandwidth connections supported by powerful edge computing, properties that seem ideal for reliable FVV capture. We have explored this possibility, aiming to remove the need for bespoke synchronisation hardware when capturing a scene from multiple viewpoints, making it possible through off-the-shelf mobiles. We propose a novel and scalable data capture architecture that exploits edge resources to synchronise and harvest frame captures. We have designed an edge computing unit that supervises the relaying of timing triggers to and from multiple mobiles, in addition to synchronising frame harvesting. We empirically show the benefits of our edge computing unit by analysing latencies and show the quality of 3D reconstruction outputs against an alternative and popular centralised solution based on Unity3D. | 翻訳日:2022-12-05 23:50:50 公開日:2020-05-07 |
# ダークグランドチャレンジにおけるエンコーディング:概要 Encoding in the Dark Grand Challenge: An Overview ( http://arxiv.org/abs/2005.03315v1 ) ライセンス: Link先を確認 | Nantheera Anantrasirichai, Fan Zhang, Alexandra Malyugina, Paul Hill, and Angeliki Katsenou | (参考訳) 私たちがビデオプロバイダから消費するビデオコンテンツの大部分は、低照度美学を特徴とするジャンルで構成されています。
低照度シーケンスは、時空間の異なる取得ノイズやライトフリッカリングなどの特別な特性を持ち、符号化プロセスは困難である。
時空間的非コヒーレントノイズに対処するために、高いビットレートを用いて高い客観的品質を実現する。
さらに、品質評価のメトリクスとメソッドは、この種のコンテンツのために設計、トレーニング、またはテストされていない。
これにより、この分野の研究のきっかけとなり、低照度ビデオシーケンスを符号化するグランドチャレンジが提案されました。
本稿では,提案する課題の概要と,参加者が提供可能な評価の段階におけるベンチマーク手法の一部となる最先端手法の検証について述べる。
この結果から,vvcはエンコーディング前に映像ソースをデノベートするよりも高い性能を実現していることが示された。
さらに、後処理画像強調法を用いることで、映像ストリームの品質をさらに向上することができる。 A big part of the video content we consume from video providers consists of genres featuring low-light aesthetics. Low light sequences have special characteristics, such as spatio-temporal varying acquisition noise and light flickering, that make the encoding process challenging. To deal with the spatio-temporal incoherent noise, higher bitrates are used to achieve high objective quality. Additionally, the quality assessment metrics and methods have not been designed, trained or tested for this type of content. This has inspired us to trigger research in that area and propose a Grand Challenge on encoding low-light video sequences. In this paper, we present an overview of the proposed challenge, and test state-of-the-art methods that will be part of the benchmark methods at the stage of the participants' deliverable assessment. From this exploration, our results show that VVC already achieves a high performance compared to simply denoising the video source prior to encoding. Moreover, the quality of the video streams can be further improved by employing a post-processing image enhancement method. | 翻訳日:2022-12-05 23:50:32 公開日:2020-05-07 |
# セマンティクスセグメンテーションを用いたキャッサバの根壊死のスコアリング Scoring Root Necrosis in Cassava Using Semantic Segmentation ( http://arxiv.org/abs/2005.03367v1 ) ライセンス: Link先を確認 | Jeremy Francis Tusubira, Benjamin Akera, Solomon Nsumba, Joyce Nakatumba-Nabende, Ernest Mwebaze | (参考訳) カッサバはアフリカの多くの地域で主要な食料作物であり、主にカッサバ・ブラウン・ストリーク病(CBSD)の影響を受けている。
この疾患は管状根に影響を及ぼし、デンプン含有組織内の黄色/茶色、乾燥、角質壊死を含む症状を呈する。
カッサヴァの繁殖品種は、根の壊死を、非常に主観的な質的なスコアに基づいて、視覚検査に頼っている。
本稿では,意味的セグメンテーションを用いた深部畳み込みニューラルネットワークを用いた根壊死自動スコアリング手法を提案する。
実験の結果,UNetモデルは,テストセット上で平均0.90のIoU(Intersection over Union)を達成するために,高い精度でこのタスクを実行することがわかった。
この方法は、根断面のネクロシススコアの定量的尺度を使用する手段を提供する。
これは、キャッサバ根断面のネクロト化および非ネクロト化ピクセルを、追加の機能工学を使わずに分割して分類する。 Cassava a major food crop in many parts of Africa, has majorly been affected by Cassava Brown Streak Disease (CBSD). The disease affects tuberous roots and presents symptoms that include a yellow/brown, dry, corky necrosis within the starch-bearing tissues. Cassava breeders currently depend on visual inspection to score necrosis in roots based on a qualitative score which is quite subjective. In this paper we present an approach to automate root necrosis scoring using deep convolutional neural networks with semantic segmentation. Our experiments show that the UNet model performs this task with high accuracy achieving a mean Intersection over Union (IoU) of 0.90 on the test set. This method provides a means to use a quantitative measure for necrosis scoring on root cross-sections. This is done by segmentation and classifying the necrotized and non-necrotized pixels of cassava root cross-sections without any additional feature engineering. | 翻訳日:2022-12-05 23:50:18 公開日:2020-05-07 |
# NH-HAZE:非均一なヘイズフリー画像を用いた画像デハージングベンチマーク NH-HAZE: An Image Dehazing Benchmark with Non-Homogeneous Hazy and Haze-Free Images ( http://arxiv.org/abs/2005.03560v1 ) ライセンス: Link先を確認 | Codruta O. Ancuti, Cosmin Ancuti, Radu Timofte | (参考訳) 画像のデハジングは、近年広く研究されている不適切な問題である。
本手法の目標性能評価は,参照データセットの欠如による大きな障害の1つである。
合成データセットは重要な制限を示しているが、最近導入された数少ない現実的なデータセットは、シーン全体にわたって均質なヘイズを仮定している。
多くの実例において、ヘイズが均一に分布しないため、実際のヘイズとそれに対応するヘイズフリーの画像のペアを持つ非均一な現実的データセットであるNH-HAZEを導入する。
これは、55の屋外シーンを含む、最初の均質でない画像デハージングデータセットである。
非均質のヘイズがプロのヘイズジェネレータを使ってシーンに導入され、ハズシーンの実態を模倣している。
さらに,nh-hazeデータセットを用いて評価した,最先端の単一画像デハジング手法を客観的に評価した。 Image dehazing is an ill-posed problem that has been extensively studied in the recent years. The objective performance evaluation of the dehazing methods is one of the major obstacles due to the lacking of a reference dataset. While the synthetic datasets have shown important limitations, the few realistic datasets introduced recently assume homogeneous haze over the entire scene. Since in many real cases haze is not uniformly distributed we introduce NH-HAZE, a non-homogeneous realistic dataset with pairs of real hazy and corresponding haze-free images. This is the first non-homogeneous image dehazing dataset and contains 55 outdoor scenes. The non-homogeneous haze has been introduced in the scene using a professional haze generator that imitates the real conditions of hazy scenes. Additionally, this work presents an objective assessment of several state-of-the-art single image dehazing methods that were evaluated using NH-HAZE dataset. | 翻訳日:2022-12-05 23:43:36 公開日:2020-05-07 |
# 植生指標を用いた有効データ融合:農業における土地被覆区分による実証 Effective Data Fusion with Generalized Vegetation Index: Evidence from Land Cover Segmentation in Agriculture ( http://arxiv.org/abs/2005.03743v1 ) ライセンス: Link先を確認 | Hao Sheng, Xiao Chen, Jingyi Su, Ram Rajagopal, and Andrew Ng | (参考訳) リモートセンシングによるドメイン知識を効果的に活用して,衛星画像から農業用土地被覆を分割できるのか?
本稿では,植生関連コンピュータビジョンタスクのための新しいモデル非依存データフュージョン手法を提案する。
ドメインの専門家が導入した各種植生指標(VIs)に触発され,リモートセンシングに広く用いられているVIsと,深層ニューラルネットワークに組み込む可能性について系統的に検討した。
近赤外チャネル,従来の赤-緑-青チャネル,植生指数あるいはその変種をフル活用するために,多くのニューラルネットワークアーキテクチャに簡単に接続して追加情報入力を行う軽量モジュールであるGeneralized Vegetation Index (GVI)を提案する。
GVIを用いてモデルを円滑にトレーニングするために、所定のニューラルネットワークの余分なパラメータを必要としない追加グループ正規化(AGN)モジュールを開発した。
我々のアプローチは植生関連クラスのIoUを0.9-1.3%改善し、mIoU全体の2%をベースラインで継続的に改善している。 How can we effectively leverage the domain knowledge from remote sensing to better segment agriculture land cover from satellite images? In this paper, we propose a novel, model-agnostic, data-fusion approach for vegetation-related computer vision tasks. Motivated by the various Vegetation Indices (VIs), which are introduced by domain experts, we systematically reviewed the VIs that are widely used in remote sensing and their feasibility to be incorporated in deep neural networks. To fully leverage the Near-Infrared channel, the traditional Red-Green-Blue channels, and Vegetation Index or its variants, we propose a Generalized Vegetation Index (GVI), a lightweight module that can be easily plugged into many neural network architectures to serve as an additional information input. To smoothly train models with our GVI, we developed an Additive Group Normalization (AGN) module that does not require extra parameters of the prescribed neural networks. Our approach has improved the IoUs of vegetation-related classes by 0.9-1.3 percent and consistently improves the overall mIoU by 2 percent on our baseline. | 翻訳日:2022-12-05 23:42:17 公開日:2020-05-07 |
# 微視的スナップショットにおける拡大レベル認識 Recognizing Magnification Levels in Microscopic Snapshots ( http://arxiv.org/abs/2005.03748v1 ) ライセンス: Link先を確認 | Manit Zaveri, Shivam Kalra, Morteza Babaie, Sultaan Shah, Savvas Damskinos, Hany Kashani, H.R. Tizhoosh | (参考訳) デジタルイメージングの最近の進歩は、コンピュータビジョンと機械学習を、病理画像を分析する新しいツールに変えた。
この傾向は、診断病理学におけるいくつかのタスクを自動化し、病理医の作業量を増加させる可能性がある。
がん診断の最終段階は、専門家の病理医によって行われる。
これらの専門家は、高レベルの光学倍率顕微鏡を使用して、生検で得られた組織の微細な特性を観察し、ガラススライドに固定する。
異なる倍率の間を切り替え、悪性組織の有無を識別する倍率レベルを見つけることが重要である。
病理学者の大多数がデジタルスキャナーと比較して光顕微鏡を使っているため、多くの場合、顕微鏡に装着されたカメラは、重要な視野からのスナップショットをキャプチャするために使用される。
このようなスナップショットのリポジトリは通常、倍率情報を含まない。
本稿では,TCGAデータセットで利用可能な画像の深い特徴を抽出し,画像認識のための分類器を訓練する。
その結果,手作り特徴抽出法としてよく知られているlppと比較した。
提案手法は,多層パーセプトロンを分類器として訓練し,平均96%の精度を達成した。 Recent advances in digital imaging has transformed computer vision and machine learning to new tools for analyzing pathology images. This trend could automate some of the tasks in the diagnostic pathology and elevate the pathologist workload. The final step of any cancer diagnosis procedure is performed by the expert pathologist. These experts use microscopes with high level of optical magnification to observe minute characteristics of the tissue acquired through biopsy and fixed on glass slides. Switching between different magnifications, and finding the magnification level at which they identify the presence or absence of malignant tissues is important. As the majority of pathologists still use light microscopy, compared to digital scanners, in many instance a mounted camera on the microscope is used to capture snapshots from significant field-of-views. Repositories of such snapshots usually do not contain the magnification information. In this paper, we extract deep features of the images available on TCGA dataset with known magnification to train a classifier for magnification recognition. We compared the results with LBP, a well-known handcrafted feature extraction method. The proposed approach achieved a mean accuracy of 96% when a multi-layer perceptron was trained as a classifier. | 翻訳日:2022-12-05 23:41:57 公開日:2020-05-07 |
# リンクデータに対する質問回答におけるリンクデータとは? Where is Linked Data in Question Answering over Linked Data? ( http://arxiv.org/abs/2005.03640v1 ) ライセンス: Link先を確認 | Tommaso Soru, Edgard Marx, Andr\'e Valdestilhas, Diego Moussallem, Gustavo Publio, and Muhammad Saleem | (参考訳) 我々は、Linked Dataを明示的に扱うことを宣言しているにもかかわらず、現在、"Question Answering with Knowledge Base"と"Question Answering over Linked Data"は、同じ問題の2つの事例であると主張している。
クラウドへの外部リンクを利用したり、共通スキーマを共有するデータセット上で質問応答を評価する方法が存在しないことを指摘する。
そこで本研究では,セマンティックウェブの利点を活用してAI完全質問応答を実現するための新しい評価設定を提案する。 We argue that "Question Answering with Knowledge Base" and "Question Answering over Linked Data" are currently two instances of the same problem, despite one explicitly declares to deal with Linked Data. We point out the lack of existing methods to evaluate question answering on datasets which exploit external links to the rest of the cloud or share common schema. To this end, we propose the creation of new evaluation settings to leverage the advantages of the Semantic Web to achieve AI-complete question answering. | 翻訳日:2022-12-05 23:41:14 公開日:2020-05-07 |
# SUPERT:マルチドキュメント要約のための教師なし評価基準の新しいフロンティアに向けて SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization ( http://arxiv.org/abs/2005.03724v1 ) ライセンス: Link先を確認 | Yang Gao, Wei Zhao, Steffen Eger | (参考訳) 本研究では,人文参照要約や人文アノテーション(嗜好,評価など)を必要としない,教師なし多文書要約評価指標について検討する。
本稿では,その意味的類似度を疑似参照要約,すなわち,文脈的埋め込みとソフトトークンアライメント技術を用いて,ソース文書から選択した有意な文とで評価し,要約の質を評価する。
最先端の教師なし評価指標と比較すると、SUPERTは人間の評価と18~39%の相関がある。
さらに,SPERTをニューラルネットワークを用いた強化学習要約器の指導に利用し,最先端の教師なし要約器と比較して良好な性能を示した。
すべてのソースコードはhttps://github.com/yg211/acl20-ref-free-evalで入手できる。 We study unsupervised multi-document summarization evaluation metrics, which require neither human-written reference summaries nor human annotations (e.g. preferences, ratings, etc.). We propose SUPERT, which rates the quality of a summary by measuring its semantic similarity with a pseudo reference summary, i.e. selected salient sentences from the source documents, using contextualized embeddings and soft token alignment techniques. Compared to the state-of-the-art unsupervised evaluation metrics, SUPERT correlates better with human ratings by 18-39%. Furthermore, we use SUPERT as rewards to guide a neural-based reinforcement learning summarizer, yielding favorable performance compared to the state-of-the-art unsupervised summarizers. All source code is available at https://github.com/yg211/acl20-ref-free-eval. | 翻訳日:2022-12-05 23:41:04 公開日:2020-05-07 |
# 実行トレースによるビジネスプロセスの突然および漸進的ドリフトの検出 Detecting sudden and gradual drifts in business processes from execution traces ( http://arxiv.org/abs/2005.04016v1 ) ライセンス: Link先を確認 | Abderrahmane Maaradji, Marlon Dumas, Marcello La Rosa, and Alireza Ostovar | (参考訳) ビジネスプロセスは予期せぬ変更をしがちで、プロセスワーカーは、ワークロードや季節、その他の外部要因の変化を調整するために、突然、あるいは徐々にプロセスを実行し始めます。
ビジネスプロセスの変更を早期に検出することで、マネージャはプロセスパフォーマンスに影響を及ぼす可能性のある変更を特定し、行動することができる。
ビジネスプロセスドリフト検出(Business Process drift detection)は、プロセスの実行をサポートするシステムから抽出されたイベントログを分析して、ビジネスプロセスの変化を検出する一連の方法である。
既存のプロセスドリフト検出方法は、潜在的に大きな特徴空間の爆発的解析に基づいており、場合によっては、ユーザがドリフトを特徴付ける特定の特徴を手動で識別する必要がある。
探索された機能空間によって、これらのメソッドは様々なタイプの変更を見逃す。
さらに、突然の漂流や徐々に漂流を検出するように設計されているが、両方ではない。
本稿では,一元的な枠組みの下で,突然かつ漸進的なビジネスプロセスドリフトを自動的かつ統計的に検出する手法を提案する。
実験により,本手法は従来手法よりも精度が高く,検出遅延の少ない典型的変化パターンを検出するとともに,突然のドリフトと漸進的なドリフトを正確に区別することを示した。 Business processes are prone to unexpected changes, as process workers may suddenly or gradually start executing a process differently in order to adjust to changes in workload, season, or other external factors. Early detection of business process changes enables managers to identify and act upon changes that may otherwise affect process performance. Business process drift detection refers to a family of methods to detect changes in a business process by analyzing event logs extracted from the systems that support the execution of the process. Existing methods for business process drift detection are based on an explorative analysis of a potentially large feature space and in some cases they require users to manually identify specific features that characterize the drift. Depending on the explored feature space, these methods miss various types of changes. Moreover, they are either designed to detect sudden drifts or gradual drifts but not both. This paper proposes an automated and statistically grounded method for detecting sudden and gradual business process drifts under a unified framework. An empirical evaluation shows that the method detects typical change patterns with significantly higher accuracy and lower detection delay than existing methods, while accurately distinguishing between sudden and gradual drifts. | 翻訳日:2022-12-05 23:35:01 公開日:2020-05-07 |
# 実時間における運動の認識と数え方 Recognizing Exercises and Counting Repetitions in Real Time ( http://arxiv.org/abs/2005.03194v1 ) ライセンス: Link先を確認 | Talal Alatiah and Chen Chen | (参考訳) 人工知能技術は、フィットネス業界を含むさまざまな業界で、絶対に必要とされてきた。
人間のポーズ推定は、コンピュータビジョン分野における過去数年間の重要な研究の1つである。
本プロジェクトでは,ポーズ推定と深層機械学習を組み合わせることで,パフォーマンスを分析し,実時間演習の繰り返しに対するフィードバックを報告する。
フィットネス業界における機械学習技術の導入によって、裁判官は重量挙げやクロスフィット競技におけるあらゆるエクササイズの繰り返しを数えることができる。 Artificial intelligence technology has made its way absolutely necessary in a variety of industries including the fitness industry. Human pose estimation is one of the important researches in the field of Computer Vision for the last few years. In this project, pose estimation and deep machine learning techniques are combined to analyze the performance and report feedback on the repetitions of performed exercises in real-time. Involving machine learning technology in the fitness industry could help the judges to count repetitions of any exercise during Weightlifting or CrossFit competitions. | 翻訳日:2022-12-05 23:34:41 公開日:2020-05-07 |
# 行動セグメンテーションのための階層的注意ネットワーク Hierarchical Attention Network for Action Segmentation ( http://arxiv.org/abs/2005.03209v1 ) ライセンス: Link先を確認 | Harshala Gammulle, Simon Denman, Sridha Sridharan, Clinton Fookes | (参考訳) イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
注意を通してフレームレベルのサルエントな側面を捉えようとする試みはいくつか行われてきたが、フレーム間の時間的関係を効果的にマッピングする能力が不足している。
この目的のために,行動間の関係をよりよく学習し,全体的なセグメンテーション性能を向上させるための,エンドツーエンドの教師付き学習手法を提案する。
提案する階層的リカレント・アテンション・フレームワークは,複数の時間スケールで入力映像を分析し,フレームレベルとセグメントレベルで埋め込みを形成し,細粒度アクションセグメンテーションを行う。
これは、連続的なビデオストリームをセグメント化するためのシンプルで軽量で非常に効果的なアーキテクチャを生成し、複数のアプリケーションドメインを持つ。
MERLショッピング、50サラダ、ジョージア工科大学のエゴセントリックデータセットなど、複数の挑戦的な公開ベンチマークデータセットでシステムを評価し、最先端のパフォーマンスを達成する。
評価されたデータセットは、静的なオーバーヘッドカメラビューと動的でエゴ中心のヘッドマウントカメラビューを含む多数のビデオキャプチャ設定を包含しており、様々な設定で提案されたフレームワークの直接的適用性を示している。 The temporal segmentation of events is an essential task and a precursor for the automatic recognition of human actions in the video. Several attempts have been made to capture frame-level salient aspects through attention but they lack the capacity to effectively map the temporal relationships in between the frames as they only capture a limited span of temporal dependencies. To this end we propose a complete end-to-end supervised learning approach that can better learn relationships between actions over time, thus improving the overall segmentation performance. The proposed hierarchical recurrent attention framework analyses the input video at multiple temporal scales, to form embeddings at frame level and segment level, and perform fine-grained action segmentation. This generates a simple, lightweight, yet extremely effective architecture for segmenting continuous video streams and has multiple application domains. We evaluate our system on multiple challenging public benchmark datasets, including MERL Shopping, 50 salads, and Georgia Tech Egocentric datasets, and achieves state-of-the-art performance. The evaluated datasets encompass numerous video capture settings which are inclusive of static overhead camera views and dynamic, ego-centric head-mounted camera views, demonstrating the direct applicability of the proposed framework in a variety of settings. | 翻訳日:2022-12-05 23:34:32 公開日:2020-05-07 |
# エンド・ツー・エンドのドメイン適応型注意ネットワーク End-to-End Domain Adaptive Attention Network for Cross-Domain Person Re-Identification ( http://arxiv.org/abs/2005.03222v1 ) ライセンス: Link先を確認 | Amena Khatun, Simon Denman, Sridha Sridharan and Clinton Fookes | (参考訳) 個人の再識別(re-ID)は、ドメイン間のバリエーションが存在する場合、ターゲットデータを完全に見えないように一般化するために訓練されたネットワークを必要とするため、現実のシナリオでは依然として困難である。
近年, 訓練データの多様性を高めるために, 生成型adversarialモデルが広く採用されている。
しかし、これらのアプローチは、既存の生成型人物再同定モデルが生成型要素と識別的特徴学習段階の間にあるため、他の領域への一般化に失敗することが多い。
モデル一般化に関する現在進行中の課題に対処するために,ドメイン間の画像の翻訳と識別的re-id特徴の学習を行うエンドツーエンドのドメイン適応型アテンションネットワークを提案する。
ドメインギャップ問題に対処するため,我々は,人物のアイデンティティに影響を与えることなく,ソースからターゲットドメインへの画像変換のためのアテンションモジュールを提案する。
より具体的には、被写体の全体像ではなく背景に注意を向け、被写体の識別特性を確実に保存する。
提案したジョイントラーニングネットワークは,いくつかのベンチマークデータセット上での最先端手法よりも大幅な性能向上を実現している。 Person re-identification (re-ID) remains challenging in a real-world scenario, as it requires a trained network to generalise to totally unseen target data in the presence of variations across domains. Recently, generative adversarial models have been widely adopted to enhance the diversity of training data. These approaches, however, often fail to generalise to other domains, as existing generative person re-identification models have a disconnect between the generative component and the discriminative feature learning stage. To address the on-going challenges regarding model generalisation, we propose an end-to-end domain adaptive attention network to jointly translate images between domains and learn discriminative re-id features in a single framework. To address the domain gap challenge, we introduce an attention module for image translation from source to target domains without affecting the identity of a person. More specifically, attention is directed to the background instead of the entire image of the person, ensuring identifying characteristics of the subject are preserved. The proposed joint learning network results in a significant performance improvement over state-of-the-art methods on several benchmark datasets. | 翻訳日:2022-12-05 23:34:10 公開日:2020-05-07 |
# 深層学習に基づく人物識別 Deep Learning based Person Re-identification ( http://arxiv.org/abs/2005.03293v1 ) ライセンス: Link先を確認 | Nirbhay Kumar Tagore, Ayushman Singh, Sumanth Manche, Pratik Chattopadhyay | (参考訳) マルチカメラ監視装置における自動人物識別は,群集の動きを効果的に追跡・監視するために非常に重要である。
近年, 深層学習に基づく再同定手法が開発されており, 精度は高いが時間集約的であり, 実用目的にはあまり適していない。
本稿では,まずカラーヒストグラムに基づく比較を行い,ギャラリーセットの最も近いマッチングを見出す効率的な階層的再同定手法を提案し,siamese networkを用いて次の深い特徴量に基づく比較を行う。
第1レベルのマッチング後の検索スペースの削減は、高速応答時間を達成すると同時に、非常に異なる要素を排除して、シャムネットワークによる予測精度を向上させるのに役立つ。
各階層の階層レベルでシルエット部分に基づく特徴抽出スキームを採用し、異なるボディ構造の相対的な位置を保存し、外観記述子を自然に識別しやすくする。
提案手法は、5つの公開データセットと、我々の研究チームによって得られた新しいデータセットで評価されている。
その結果、全体的な正確性において、最先端のアプローチよりも優れています。 Automated person re-identification in a multi-camera surveillance setup is very important for effective tracking and monitoring crowd movement. In the recent years, few deep learning based re-identification approaches have been developed which are quite accurate but time-intensive, and hence not very suitable for practical purposes. In this paper, we propose an efficient hierarchical re-identification approach in which color histogram based comparison is first employed to find the closest matches in the gallery set, and next deep feature based comparison is carried out using Siamese network. Reduction in search space after the first level of matching helps in achieving a fast response time as well as improving the accuracy of prediction by the Siamese network by eliminating vastly dissimilar elements. A silhouette part-based feature extraction scheme is adopted in each level of hierarchy to preserve the relative locations of the different body structures and make the appearance descriptors more discriminating in nature. The proposed approach has been evaluated on five public data sets and also a new data set captured by our team in our laboratory. Results reveal that it outperforms most state-of-the-art approaches in terms of overall accuracy. | 翻訳日:2022-12-05 23:33:50 公開日:2020-05-07 |
# レグレッションフォレストに基づく膵分画におけるアトラス局在と方向特異的アトラス生成 Regression Forest-Based Atlas Localization and Direction Specific Atlas Generation for Pancreas Segmentation ( http://arxiv.org/abs/2005.03345v1 ) ライセンス: Link先を確認 | Masahiro Oda, Natsuki Shimizu, Ken'ichi Karasawa, Yukitaka Nimura, Takayuki Kitasaka, Kazunari Misawa, Michitaka Fujiwara, Daniel Rueckert, Kensaku Mori | (参考訳) 本稿では,レグレッションフォレストによるアラス局在と血管情報を用いたアラス生成を利用したCTボリュームからの完全自動膵分画法を提案する。
以前の確率的アトラスに基づく膵分画法は、膵臓によく見られる空間的変化に対応できない。
また、形状の変化は平均的なアトラスで表現されない。
本稿では,上述の2種類の変種に対応する完全自動化膵管分節法を提案する。
回帰林法を用いて膵臓の位置と大きさを推定した。
局所化後、血管の位置と膵周囲の方向情報を反映する新しい画像類似性に基づいて、患者特異的確率アトラスを生成する。
先に述べたように, EMアルゴリズムをアトラスで分割し, グラフカットで分割する。
147のCTボリュームを用いた評価では, 提案手法のJaccard indexとDice overlapはそれぞれ62.1%, 75.1%であった。
セグメンテーションプロセスはすべて自動化したが, セグメンテーション結果はDice重なり合う他の最先端手法よりも優れていた。 This paper proposes a fully automated atlas-based pancreas segmentation method from CT volumes utilizing atlas localization by regression forest and atlas generation using blood vessel information. Previous probabilistic atlas-based pancreas segmentation methods cannot deal with spatial variations that are commonly found in the pancreas well. Also, shape variations are not represented by an averaged atlas. We propose a fully automated pancreas segmentation method that deals with two types of variations mentioned above. The position and size of the pancreas is estimated using a regression forest technique. After localization, a patient-specific probabilistic atlas is generated based on a new image similarity that reflects the blood vessel position and direction information around the pancreas. We segment it using the EM algorithm with the atlas as prior followed by the graph-cut. In evaluation results using 147 CT volumes, the Jaccard index and the Dice overlap of the proposed method were 62.1% and 75.1%, respectively. Although we automated all of the segmentation processes, segmentation results were superior to the other state-of-the-art methods in the Dice overlap. | 翻訳日:2022-12-05 23:32:38 公開日:2020-05-07 |
# 単眼映像からの自己監督型深度推定 Self-Supervised Human Depth Estimation from Monocular Videos ( http://arxiv.org/abs/2005.03358v1 ) ライセンス: Link先を確認 | Feitong Tan, Hao Zhu, Zhaopeng Cui, Siyu Zhu, Marc Pollefeys, Ping Tan | (参考訳) 人間の深度を推定する従来の方法は、しばしば「地下真実」深度データを用いた教師あり訓練を必要とする。
本稿では,学習データ収集をシンプルにし,学習ネットワークの一般化を改良した,youtubeビデオで学習できる自己教師あり手法を提案する。
この自己教師付き学習は、推定深度及び人体の3次元非剛性運動に応じて歪んだビデオフレームとその隣り合うフレーム間で評価されるフォトコンシスタンスロスを最小にすることで達成される。
この非剛性動作を解決するために,まず各映像フレームの粗いsmplモデルを推定し,それに従って非剛性体の動きを計算し,形状の詳細を推定して自己教師付き学習を可能にする。
実験により,本手法はより一般化され,野生のデータに対してより優れた性能を発揮することが示された。 Previous methods on estimating detailed human depth often require supervised training with `ground truth' depth data. This paper presents a self-supervised method that can be trained on YouTube videos without known depth, which makes training data collection simple and improves the generalization of the learned network. The self-supervised learning is achieved by minimizing a photo-consistency loss, which is evaluated between a video frame and its neighboring frames warped according to the estimated depth and the 3D non-rigid motion of the human body. To solve this non-rigid motion, we first estimate a rough SMPL model at each video frame and compute the non-rigid body motion accordingly, which enables self-supervised learning on estimating the shape details. Experiments demonstrate that our method enjoys better generalization and performs much better on data in the wild. | 翻訳日:2022-12-05 23:32:22 公開日:2020-05-07 |
# 非均質デハジングに関するntire 2020チャレンジ NTIRE 2020 Challenge on NonHomogeneous Dehazing ( http://arxiv.org/abs/2005.03457v1 ) ライセンス: Link先を確認 | Codruta O. Ancuti, Cosmin Ancuti, Florin-Alexandru Vasluianu, Radu Timofte, Jing Liu, Haiyan Wu, Yuan Xie, Yanyun Qu, Lizhuang Ma, Ziling Huang, Qili Deng, Ju-Chin Chao, Tsung-Shan Yang, Peng-Wen Chen, Po-Min Hsu, Tzu-Yi Liao, Chung-En Sun, Pei-Yuan Wu, Jeonghyeok Do, Jongmin Park, Munchurl Kim, Kareem Metwaly, Xuelu Li, Tiantong Guo, Vishal Monga, Mingzhao Yu, Venkateswararao Cherukuri, Shiue-Yuan Chuang, Tsung-Nan Lin, David Lee, Jerome Chang, Zhan-Han Wang, Yu-Bang Chang, Chang-Hong Lin, Yu Dong, Hongyu Zhou, Xiangzhen Kong, Sourya Dipta Das, Saikat Dutta, Xuan Zhao, Bing Ouyang, Dennis Estrada, Meiqi Wang, Tianqi Su, Siyi Chen, Bangyong Sun, Vincent Whannou de Dravo, Zhe Yu, Pratik Narang, Aryan Mehra, Navaneeth Raghunath, Murari Mandal | (参考訳) 本稿は,NTIRE 2020 Challenge on Nonhomogeneous Dehazing of image (Hyzy imageの豊富な詳細の復元)をレビューする。
本研究では,55対のリアルヘイズフリーおよび非均一ヘイズ画像からなる新しいデータセットであるNH-Hazeを用いて,提案手法とその評価を行った。
NH-Hazeは、地上の真理画像を提供する最初の現実的な非均一なヘイズデータセットである。
非均質なヘイズは、ヘイズシーンの実際の状態を模倣するプロのヘイズジェネレータを用いて生成されている。
168人が挑戦に登録し、27チームが最終テストフェーズに出場した。
提案手法は, 画像デハージングにおける最先端性を評価する。 This paper reviews the NTIRE 2020 Challenge on NonHomogeneous Dehazing of images (restoration of rich details in hazy image). We focus on the proposed solutions and their results evaluated on NH-Haze, a novel dataset consisting of 55 pairs of real haze free and nonhomogeneous hazy images recorded outdoor. NH-Haze is the first realistic nonhomogeneous haze dataset that provides ground truth images. The nonhomogeneous haze has been produced using a professional haze generator that imitates the real conditions of haze scenes. 168 participants registered in the challenge and 27 teams competed in the final testing phase. The proposed solutions gauge the state-of-the-art in image dehazing. | 翻訳日:2022-12-05 23:32:09 公開日:2020-05-07 |
# ニューラルマシン翻訳における露出バイアス, 幻覚, ドメインシフトについて On Exposure Bias, Hallucination and Domain Shift in Neural Machine Translation ( http://arxiv.org/abs/2005.03642v1 ) ライセンス: Link先を確認 | Chaojun Wang and Rico Sennrich | (参考訳) ニューラルネットワーク翻訳(NMT)の標準的なトレーニングアルゴリズムは露光バイアスに悩まされており、これを緩和するために代替アルゴリズムが提案されている。
しかし、露出バイアスの実際的な影響は議論中である。
本稿では,nmtにおける他の既知の問題,すなわち領域シフト下で幻覚を発生させる傾向と露出バイアスを関連付ける。
複数のテスト領域を持つ3つのデータセットの実験では、露光バイアスが幻覚の原因の一部であり、露光バイアスを回避する最小限のリスクトレーニングによるトレーニングがこれを緩和できることが示されている。
本解析では,領域シフト下で露光バイアスがより問題となる理由を説明し,露光バイアスとビームサーチ問題,すなわちビームサイズの増加による性能劣化を関連付ける。
ドメイン内テストセットのパフォーマンスが向上しなかったとしても、ドメインシフトに対するモデルのロバスト性が向上します。 The standard training algorithm in neural machine translation (NMT) suffers from exposure bias, and alternative algorithms have been proposed to mitigate this. However, the practical impact of exposure bias is under debate. In this paper, we link exposure bias to another well-known problem in NMT, namely the tendency to generate hallucinations under domain shift. In experiments on three datasets with multiple test domains, we show that exposure bias is partially to blame for hallucinations, and that training with Minimum Risk Training, which avoids exposure bias, can mitigate this. Our analysis explains why exposure bias is more problematic under domain shift, and also links exposure bias to the beam search problem, i.e. performance deterioration with increasing beam size. Our results provide a new justification for methods that reduce exposure bias: even if they do not increase performance on in-domain test sets, they can increase model robustness to domain shift. | 翻訳日:2022-12-05 23:26:04 公開日:2020-05-07 |
# FEQA:抽象要約における忠実度評価のための質問応答評価フレームワーク FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization ( http://arxiv.org/abs/2005.03754v1 ) ライセンス: Link先を確認 | Esin Durmus and He He and Mona Diab | (参考訳) ニューラルネットワークの抽象的要約モデルは、ソース文書と矛盾するコンテンツを生成する傾向にある。
既存の自動メトリクスはそのようなミスを効果的に捉えない。
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
まず,2つのデータセット上の多数のモデルからの出力に対して忠実な人間のアノテーションを収集した。
現在のモデルでは、抽象性と忠実性の間にトレードオフがあることが分かっています。
次に,近年の読解理解の進歩を生かした,信頼度に基づく自動質問応答(QA)尺度FEQAを提案する。
要約から生成された質問と回答のペアが与えられた場合、QAモデルは文書から回答を抽出する。
単語重複、埋め込み類似性、学習言語理解モデルに基づくメトリクスのうち、我々のQAベースのメトリクスは、特に抽象的な要約において、人間の忠実度スコアと著しく高い相関を持つ。 Neural abstractive summarization models are prone to generate content inconsistent with the source document, i.e. unfaithful. Existing automatic metrics do not capture such mistakes effectively. We tackle the problem of evaluating faithfulness of a generated summary given its source document. We first collected human annotations of faithfulness for outputs from numerous models on two datasets. We find that current models exhibit a trade-off between abstractiveness and faithfulness: outputs with less word overlap with the source document are more likely to be unfaithful. Next, we propose an automatic question answering (QA) based metric for faithfulness, FEQA, which leverages recent advances in reading comprehension. Given question-answer pairs generated from the summary, a QA model extracts answers from the document; non-matched answers indicate unfaithful information in the summary. Among metrics based on word overlap, embedding similarity, and learned language understanding models, our QA-based metric has significantly higher correlation with human faithfulness scores, especially on highly abstractive summaries. | 翻訳日:2022-12-05 23:25:17 公開日:2020-05-07 |
# Phonotactic Complexityとそのトレードオフ Phonotactic Complexity and its Trade-offs ( http://arxiv.org/abs/2005.03774v1 ) ライセンス: Link先を確認 | Tiago Pimentel, Brian Roark, Ryan Cotterell | (参考訳) 本稿では,音素毎のビット数-音素毎の音韻論的複雑性の尺度を求める手法を提案する。
国際音韻アルファベットの記号などの音韻セグメントの列や、言語からの単語タイプサンプルに基づいて訓練された統計モデルとして表現された単語を与えられると、その単語の負の対数確率を用いて音素あたりのビットをおよそ測定することができる。
この単純な測度により、言語間のエントロピーを比較することができ、言語の音韻法がいかに複雑であるかを洞察することができる。
106言語にまたがる1016の基本的な概念語の集合を用いて、音素当たりのビット数と単語の平均長との間に-0.74の強い負の相関を示す。 We present methods for calculating a measure of phonotactic complexity---bits per phoneme---that permits a straightforward cross-linguistic comparison. When given a word, represented as a sequence of phonemic segments such as symbols in the international phonetic alphabet, and a statistical model trained on a sample of word types from the language, we can approximately measure bits per phoneme using the negative log-probability of that word under the model. This simple measure allows us to compare the entropy across languages, giving insight into how complex a language's phonotactics are. Using a collection of 1016 basic concept words across 106 languages, we demonstrate a very strong negative correlation of -0.74 between bits per phoneme and the average length of words. | 翻訳日:2022-12-05 23:25:00 公開日:2020-05-07 |
# 複雑なソーシャルネットワークにおけるコミュニティ検出のための進化的多目的最適化アルゴリズム Evolutionary Multi Objective Optimization Algorithm for Community Detection in Complex Social Networks ( http://arxiv.org/abs/2005.03181v1 ) ライセンス: Link先を確認 | Shaik Tanveer ul Huq, Vadlamani Ravi and Kalyanmoy Deb | (参考訳) ほとんどの最適化ベースのコミュニティ検出アプローチは、単一または双方向のフレームワークで問題を定式化する。
本稿では,nsga-iii(non-dominated sorting genetic algorithm iii, nga-iii)を用いて,ネットワーク内のコミュニティ構造を同定する手法を提案する。
NSGA-III-KRMと命名された第1変種では、カーネルkは3つの目的としてRatio Cut、Modularityを、第2変種はNSGA-III-CCMは3つの目的関数として、コミュニティスコア、コミュニティ適合度、モジュラリティを考察した。
4つのベンチマークネットワークデータセットで実験を行う。
分解に基づく多目的進化アルゴリズムの変種(MOEA/D-KRMとMOEA/D-CCM)と比較すると、提案された変種は同等またはより良い結果が得られる。
これは第3の目的の追加が他の2つの目的の結果を悪化させることはないため、特に重要である。
また,超容積と逆世代距離(igd)の比率という新しい尺度を提案し,パレート解をランク付けする簡単な方法を提案する。
比率が高ければ高いほど、パレート集合は良くなる。
この戦略は、目的の数が2つを超える多目的フレームワークにおける経験的達成機能がない場合に特に有用である。 Most optimization-based community detection approaches formulate the problem in a single or bi-objective framework. In this paper, we propose two variants of a three-objective formulation using a customized non-dominated sorting genetic algorithm III (NSGA-III) to find community structures in a network. In the first variant, named NSGA-III-KRM, we considered Kernel k means, Ratio cut, and Modularity, as the three objectives, whereas the second variant, named NSGA-III-CCM, considers Community score, Community fitness and Modularity, as three objective functions. Experiments are conducted on four benchmark network datasets. Comparison with state-of-the-art approaches along with decomposition-based multi-objective evolutionary algorithm variants (MOEA/D-KRM and MOEA/D-CCM) indicates that the proposed variants yield comparable or better results. This is particularly significant because the addition of the third objective does not worsen the results of the other two objectives. We also propose a simple method to rank the Pareto solutions so obtained by proposing a new measure, namely the ratio of the hyper-volume and inverted generational distance (IGD). The higher the ratio, the better is the Pareto set. This strategy is particularly useful in the absence of empirical attainment function in the multi-objective framework, where the number of objectives is more than two. | 翻訳日:2022-12-05 23:24:43 公開日:2020-05-07 |
# TIRAMISU:Dense and Sparse Deep Learningのための多面的コンパイラ TIRAMISU: A Polyhedral Compiler for Dense and Sparse Deep Learning ( http://arxiv.org/abs/2005.04091v1 ) ライセンス: Link先を確認 | Riyadh Baghdadi, Abdelkader Nadir Debbagh, Kamel Abdous, Fatima Zohra Benhamida, Alex Renda, Jonathan Elliott Frankle, Michael Carbin and Saman Amarasinghe | (参考訳) 本稿では、既存のニューラルネットワークコンパイラの範囲外であるスパースおよびリカレントニューラルネットワークを最適化できるコンパイラを実証する(ここでは、スパーステンソル代数技術で高速化可能なネットワークをスパースニューラルネットワークと呼ぶ)。
私たちのデモには、スパースニューラルネットワークとリカレントニューラルネットワークをポリヘドラルモデルにマッピングすることと、最先端のポリヘドラルコンパイラであるTIRAMISUでのアプローチの実装が含まれています。
本手法を深層学習ベンチマークで評価し,手動最適化産業図書館との比較を行った。
我々の手法は少なくともIntel MKL-DNNと一致し、場合によっては5倍の性能を発揮する。 In this paper, we demonstrate a compiler that can optimize sparse and recurrent neural networks, both of which are currently outside of the scope of existing neural network compilers (sparse neural networks here stand for networks that can be accelerated with sparse tensor algebra techniques). Our demonstration includes a mapping of sparse and recurrent neural networks to the polyhedral model along with an implementation of our approach in TIRAMISU, our state-of-the-art polyhedral compiler. We evaluate our approach on a set of deep learning benchmarks and compare our results with hand-optimized industrial libraries. Our results show that our approach at least matches Intel MKL-DNN and in some cases outperforms it by 5x (on multicore-CPUs). | 翻訳日:2022-12-05 23:24:17 公開日:2020-05-07 |
# エピソード記憶を有するインテリジェントエージェントの提案 A Proposal for Intelligent Agents with Episodic Memory ( http://arxiv.org/abs/2005.03182v1 ) ライセンス: Link先を確認 | David Murphy and Thomas S. Paula and Wagston Staehler and Juliano Vacaro and Gabriel Paz and Guilherme Marques and Bruna Oliveira | (参考訳) 将来的には、一度デプロイされた人工知能エージェントは、運用期間中に経験から継続的に学ぶ必要があると期待できる。
このようなエージェントは、特定の状況下で彼らの行動を説明することや、エージェントが割り当てられたタスクに必ずしも関係しない経験について人間とより自然に関連づけることを目的として、彼らの経験の内容について人間や他のエージェントとコミュニケーションをとる必要がある。
つまり、エージェントが経験を再現し、その経験を伝え、過去の経験を使い、エージェントが過去のアクションを包含し、より効果的なモデルやポリシーを学ぶことができるように、エージェントの経験をエンコードするメモリである。
本稿では,このような能力を持つAIエージェントを提供するための潜在的アプローチを提案する。
哺乳類における中間側頭葉(MTL)の機能と機能を調べ、人工神経ネットワーク(ANN)からなるAIエージェントにエピソード記憶機能を加えることを指導する。
そこで我々は,記憶組織において考慮すべき重要な側面を強調し,記憶の記憶と検索を支援するために,ANNと標準計算機科学技術を組み合わせたアーキテクチャを提案する。
初期の作業にも関わらず、この短い論文が、記憶を持ったインテリジェントエージェントの作成に関する議論を引き起こしたり、少なくとも、対象について異なる視点を提供することを期待しています。 In the future we can expect that artificial intelligent agents, once deployed, will be required to learn continually from their experience during their operational lifetime. Such agents will also need to communicate with humans and other agents regarding the content of their experience, in the context of passing along their learnings, for the purpose of explaining their actions in specific circumstances or simply to relate more naturally to humans concerning experiences the agent acquires that are not necessarily related to their assigned tasks. We argue that to support these goals, an agent would benefit from an episodic memory; that is, a memory that encodes the agent's experience in such a way that the agent can relive the experience, communicate about it and use its past experience, inclusive of the agents own past actions, to learn more effective models and policies. In this short paper, we propose one potential approach to provide an AI agent with such capabilities. We draw upon the ever-growing body of work examining the function and operation of the Medial Temporal Lobe (MTL) in mammals to guide us in adding an episodic memory capability to an AI agent composed of artificial neural networks (ANNs). Based on that, we highlight important aspects to be considered in the memory organization and we propose an architecture combining ANNs and standard Computer Science techniques for supporting storage and retrieval of episodic memories. Despite being initial work, we hope this short paper can spark discussions around the creation of intelligent agents with memory or, at least, provide a different point of view on the subject. | 翻訳日:2022-12-05 23:23:40 公開日:2020-05-07 |
# MLGaze: 消費者の視線追跡システムにおける視線誤差パターンの機械学習による分析 MLGaze: Machine Learning-Based Analysis of Gaze Error Patterns in Consumer Eye Tracking Systems ( http://arxiv.org/abs/2005.03795v1 ) ライセンス: Link先を確認 | Anuradha Kar | (参考訳) 視線追跡アプリケーションの非理想的動作条件に頻繁に影響を受けるため,視線追跡装置の視線精度特性を分析することは重要な課題である。
本研究では,市販の視線追跡装置が生成する視線誤差パターンを,分類器や回帰モデルといった機械学習アルゴリズムの助けを借りて研究した。
視線データは複数の条件下で参加者のグループから収集され、デスクトップおよびハンドヘルドプラットフォームで動作するアイトラッカーに一般的に影響を及ぼした。
これらの条件(エラーソースとして参照)には、ユーザ距離、頭部ポーズ、アイトラッカーのポーズのバリエーションが含まれ、収集された視線データを分類器と回帰モデルのトレーニングに使用した。
視線データ特性に対する異なる誤差源の影響は,視覚検査やデータ統計と区別することはほぼ不可能であったものの,異なる誤差源の影響を識別し,これらの条件による視線誤差レベルの変動を予測できる機械学習モデルが成功した。
本研究の目的は,アイトラッカーの操作条件下でのデータ品質と信頼性を深く理解することを可能にするため,視線誤りパターンの検出と予測への機械学習手法の有効性を検討することである。
この研究で採用されたすべての機械学習メソッドのコーディングリソースは、MLGazeという名前のオープンリポジトリに含まれており、研究者が自身のアイトラッカーのデータを使って、ここで提示された原則を再現することができる。 Analyzing the gaze accuracy characteristics of an eye tracker is a critical task as its gaze data is frequently affected by non-ideal operating conditions in various consumer eye tracking applications. In this study, gaze error patterns produced by a commercial eye tracking device were studied with the help of machine learning algorithms, such as classifiers and regression models. Gaze data were collected from a group of participants under multiple conditions that commonly affect eye trackers operating on desktop and handheld platforms. These conditions (referred here as error sources) include user distance, head pose, and eye-tracker pose variations, and the collected gaze data were used to train the classifier and regression models. It was seen that while the impact of the different error sources on gaze data characteristics were nearly impossible to distinguish by visual inspection or from data statistics, machine learning models were successful in identifying the impact of the different error sources and predicting the variability in gaze error levels due to these conditions. The objective of this study was to investigate the efficacy of machine learning methods towards the detection and prediction of gaze error patterns, which would enable an in-depth understanding of the data quality and reliability of eye trackers under unconstrained operating conditions. Coding resources for all the machine learning methods adopted in this study were included in an open repository named MLGaze to allow researchers to replicate the principles presented here using data from their own eye trackers. | 翻訳日:2022-12-05 23:16:55 公開日:2020-05-07 |
# CT画像を用いたハイパーグラフ学習によるCOVID-19の同定 Hypergraph Learning for Identification of COVID-19 with CT Imaging ( http://arxiv.org/abs/2005.04043v1 ) ライセンス: Link先を確認 | Donglin Di, Feng Shi, Fuhua Yan, Liming Xia, Zhanhao Mo, Zhongxiang Ding, Fei Shan, Shengrui Li, Ying Wei, Ying Shao, Miaofei Han, Yaozong Gao, He Sui, Yue Gao, Dinggang Shen | (参考訳) 新型コロナウイルス(COVID-19)は、2020年初めから世界最大規模の公衆衛生危機となっている。
早期検診を補助する補助具としてCT画像が用いられており、特に地域性肺炎(CAP)患者の迅速同定に用いられている。
早期スクリーニングの主な課題は、新型コロナウイルスとCAPグループの混乱したケースを、非常に似た臨床症状と画像の特徴でモデル化する方法である。
この課題に対処するために、CT画像を用いてCAPからCOVID-19を識別するUncertainty Vertex-weighted Hypergraph Learning (UVHL)法を提案する。
特に、複数のタイプの特徴(地域的特徴と放射線学的特徴を含む)が、各ケースのct画像から最初に抽出される。
そして、異なるケース間の関係をハイパーグラフ構造で定式化し、各ケースはハイパーグラフの頂点として表される。
各頂点の不確かさは不確かさスコア測定によってさらに計算され、ハイパーグラフの重みとして使用される。
最後に、頂点重み付きハイパーグラフの学習プロセスを使用して、新しいテストケースがcovid-19に属するかどうかを予測する。
新型コロナウイルス2,148例, CAP1,182例からなる大規模多施設肺炎データセットの実験を行い, 提案手法の性能評価を行った。
その結果,提案手法の有効性とロバスト性を示し,最新手法との比較を行った。 The coronavirus disease, named COVID-19, has become the largest global public health crisis since it started in early 2020. CT imaging has been used as a complementary tool to assist early screening, especially for the rapid identification of COVID-19 cases from community acquired pneumonia (CAP) cases. The main challenge in early screening is how to model the confusing cases in the COVID-19 and CAP groups, with very similar clinical manifestations and imaging features. To tackle this challenge, we propose an Uncertainty Vertex-weighted Hypergraph Learning (UVHL) method to identify COVID-19 from CAP using CT images. In particular, multiple types of features (including regional features and radiomics features) are first extracted from CT image for each case. Then, the relationship among different cases is formulated by a hypergraph structure, with each case represented as a vertex in the hypergraph. The uncertainty of each vertex is further computed with an uncertainty score measurement and used as a weight in the hypergraph. Finally, a learning process of the vertex-weighted hypergraph is used to predict whether a new testing case belongs to COVID-19 or not. Experiments on a large multi-center pneumonia dataset, consisting of 2,148 COVID-19 cases and 1,182 CAP cases from five hospitals, are conducted to evaluate the performance of the proposed method. Results demonstrate the effectiveness and robustness of our proposed method on the identification of COVID-19 in comparison to state-of-the-art methods. | 翻訳日:2022-12-05 23:16:30 公開日:2020-05-07 |
# 漁業情報の非パラメトリック推定とその応用 Nonparametric Estimation of the Fisher Information and Its Applications ( http://arxiv.org/abs/2005.03622v1 ) ライセンス: Link先を確認 | Wei Cao, Alex Dytso, Michael Fau{\ss}, H. Vincent Poor, and Gang Feng | (参考訳) 本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
まず, bhattacharya が提案する推定器を再検討し, 収束率の向上を導出する。
次に,クリッピング推定器と呼ばれる新しい推定器を提案する。
収束率の上界は、異なる正規性条件を持つにもかかわらず、バッタチャリヤ推定器と比較して新しい推定器に対して示せる。
第3に、両推定器はガウス雑音によって汚染されたランダム変数の実用的なケースに対して評価される。
さらに、フィッシャー情報とガウス雑音における最小平均二乗誤差(MMSE)を関連づけたブラウンの同一性を用いて、MMSEに対する2つの一貫した推定器を提案する。
Bhattacharya 推定器とクリッピング推定器とMMSE 推定器のシミュレーション例を示す。
実例では, クリッピングした推定器は, Bhattacharya推定器と比較して, 特定の信頼区間を確保するために, 必要なサンプルサイズを大幅に削減できることを示した。 This paper considers the problem of estimation of the Fisher information for location from a random sample of size $n$. First, an estimator proposed by Bhattacharya is revisited and improved convergence rates are derived. Second, a new estimator, termed a clipped estimator, is proposed. Superior upper bounds on the rates of convergence can be shown for the new estimator compared to the Bhattacharya estimator, albeit with different regularity conditions. Third, both of the estimators are evaluated for the practically relevant case of a random variable contaminated by Gaussian noise. Moreover, using Brown's identity, which relates the Fisher information and the minimum mean squared error (MMSE) in Gaussian noise, two corresponding consistent estimators for the MMSE are proposed. Simulation examples for the Bhattacharya estimator and the clipped estimator as well as the MMSE estimators are presented. The examples demonstrate that the clipped estimator can significantly reduce the required sample size to guarantee a specific confidence interval compared to the Bhattacharya estimator. | 翻訳日:2022-12-05 23:16:08 公開日:2020-05-07 |
# 連続時間離散イベント過程の推測・予測・エントロピー・レート推定 Inference, Prediction, and Entropy-Rate Estimation of Continuous-time, Discrete-event Processes ( http://arxiv.org/abs/2005.03750v1 ) ライセンス: Link先を確認 | S. E. Marzen and J. P. Crutchfield | (参考訳) モデルの推定、未来予測、離散時間離散イベントプロセスのエントロピー率の推定は、十分に成り立っている。
しかし、より広い種類の離散イベントプロセスは連続時間で動作します。
ここでは,推測,予測,推定を行う新しい手法を提案する。
これらの手法は、ニューラルネットワークの普遍近似力を利用するベイズ構造推論の拡張に依存している。
複雑な合成データを用いた実験に基づいて、予測とエントロピーレート推定のための最先端技術と競合する。 Inferring models, predicting the future, and estimating the entropy rate of discrete-time, discrete-event processes is well-worn ground. However, a much broader class of discrete-event processes operates in continuous-time. Here, we provide new methods for inferring, predicting, and estimating them. The methods rely on an extension of Bayesian structural inference that takes advantage of neural network's universal approximation power. Based on experiments with complex synthetic data, the methods are competitive with the state-of-the-art for prediction and entropy-rate estimation. | 翻訳日:2022-12-05 23:15:54 公開日:2020-05-07 |
# Nakdan: プロのヘブライ語発音器 Nakdan: Professional Hebrew Diacritizer ( http://arxiv.org/abs/2005.03312v1 ) ライセンス: Link先を確認 | Avi Shmidman, Shaltiel Shmidman, Moshe Koppel, Yoav Goldberg | (参考訳) 本稿では,ヘブライ語のテキストの自動読取システムを提案する。
このシステムは、現代的なニューラルモデルと、慎重にキュレートされた宣言的言語知識と、手作業で構築されたテーブルと辞書を組み合わせる。
このシステムは、美術診断の精度の向上に加えて、自動出力の手動編集と修正のためのインタフェースもサポートしており、ヘブライ語の文章の科学版の作成に特に役立ついくつかの特徴を持っている。
このシステムは現代ヘブライ語、ラビ語ヘブライ語、詩語ヘブライ語をサポートする。
システムはhttp://nakdanpro.dicta.org.il.com/で自由に利用できる。 We present a system for automatic diacritization of Hebrew text. The system combines modern neural models with carefully curated declarative linguistic knowledge and comprehensive manually constructed tables and dictionaries. Besides providing state of the art diacritization accuracy, the system also supports an interface for manual editing and correction of the automatic output, and has several features which make it particularly useful for preparation of scientific editions of Hebrew texts. The system supports Modern Hebrew, Rabbinic Hebrew and Poetic Hebrew. The system is freely accessible for all use at http://nakdanpro.dicta.org.il. | 翻訳日:2022-12-05 23:15:44 公開日:2020-05-07 |
# jass: ニューラルマシン翻訳のための日本語固有のシーケンスからシーケンス事前学習 JASS: Japanese-specific Sequence to Sequence Pre-training for Neural Machine Translation ( http://arxiv.org/abs/2005.03361v1 ) ライセンス: Link先を確認 | Zhuoyuan Mao, Fabien Cromieres, Raj Dabre, Haiyue Song, Sadao Kurohashi | (参考訳) ニューラルマシン翻訳(nmt)は最先端の翻訳品質のために大きな並列コーパスを必要とする。
低リソースNMTは通常、事前学習のために大きな単言語または並列コーパスを利用する転送学習によって対処される。
MASS(MAsked Sequence to Sequence)のような単言語による事前学習アプローチは、小さな並列コーパスを持つ言語に対するNTT品質向上に極めて有効である。
しかし、いくつかの自然言語処理(NLP)タスクで有用であることが知られている構文解析器を用いて得られる言語情報を考慮していない。
そこで本研究では,日本語を対象言語とするNMTのためのMASSの新たな事前学習として,日本語固有のシーケンスであるJASSを提案する。
JASSはBMASS(Bunsetsu MASS)とBRSS(Bunsetsu Reordering Sequence to Sequence)の合同で、文節と呼ばれる日本語言語単位に焦点を当てている。
ASPEC 日本語-英語・ニュース解説日本語-ロシア語翻訳実験の結果,MASS が与える結果と競合する結果が得られることが示された。
さらに,jassプリトレーニングとジョイントマスが相補的性質を示す個々の方法を大幅に上回る結果を与えることを示す。
我々は、研究者が自身のNLPタスクで使用するリソースとして、コード、事前訓練されたモデル、および文節アノテーション付きデータを公開します。 Neural machine translation (NMT) needs large parallel corpora for state-of-the-art translation quality. Low-resource NMT is typically addressed by transfer learning which leverages large monolingual or parallel corpora for pre-training. Monolingual pre-training approaches such as MASS (MAsked Sequence to Sequence) are extremely effective in boosting NMT quality for languages with small parallel corpora. However, they do not account for linguistic information obtained using syntactic analyzers which is known to be invaluable for several Natural Language Processing (NLP) tasks. To this end, we propose JASS, Japanese-specific Sequence to Sequence, as a novel pre-training alternative to MASS for NMT involving Japanese as the source or target language. JASS is joint BMASS (Bunsetsu MASS) and BRSS (Bunsetsu Reordering Sequence to Sequence) pre-training which focuses on Japanese linguistic units called bunsetsus. In our experiments on ASPEC Japanese--English and News Commentary Japanese--Russian translation we show that JASS can give results that are competitive with if not better than those given by MASS. Furthermore, we show for the first time that joint MASS and JASS pre-training gives results that significantly surpass the individual methods indicating their complementary nature. We will release our code, pre-trained models and bunsetsu annotated data as resources for researchers to use in their own NLP tasks. | 翻訳日:2022-12-05 23:15:34 公開日:2020-05-07 |
# 2kenize:中国語スクリプト変換のためのサブワードシーケンスのタイピング 2kenize: Tying Subword Sequences for Chinese Script Conversion ( http://arxiv.org/abs/2005.03375v1 ) ライセンス: Link先を確認 | Pranav A, Isabelle Augenstein | (参考訳) 簡素な中国語から伝統的な漢字への変換は、中国語のNLPにおいて一般的な前処理ステップである。
それにもかかわらず、簡体字が複数の伝統的な文字に対応できることを考慮していないため、現在のアプローチは性能が劣っている。
本稿では,2つのスクリプト間のマッピングと変換を曖昧にできるモデルを提案する。
このモデルは、サブワードセグメンテーションと2つの言語モデル、およびサブワードシーケンス間のマッピング方法に基づいている。
さらに,トピック分類とスクリプト変換のためのベンチマークデータセットを構築する。
提案手法は,従来の漢字変換手法を6点精度で上回っている。
これらの結果は、トピック分類のために事前トレーニングデータセットを変換するために2kenizeを使用する下流アプリケーションでさらに確認される。
エラー解析により,提案手法の強みはコードミキシングや名前付きエンティティを扱うことにあることが明らかとなった。 Simplified Chinese to Traditional Chinese character conversion is a common preprocessing step in Chinese NLP. Despite this, current approaches have poor performance because they do not take into account that a simplified Chinese character can correspond to multiple traditional characters. Here, we propose a model that can disambiguate between mappings and convert between the two scripts. The model is based on subword segmentation, two language models, as well as a method for mapping between subword sequences. We further construct benchmark datasets for topic classification and script conversion. Our proposed method outperforms previous Chinese Character conversion approaches by 6 points in accuracy. These results are further confirmed in a downstream application, where 2kenize is used to convert pretraining dataset for topic classification. An error analysis reveals that our method's particular strengths are in dealing with code-mixing and named entities. | 翻訳日:2022-12-05 23:15:10 公開日:2020-05-07 |
# 制約マルコフ決定過程に対する勾配認識探索アルゴリズム A Gradient-Aware Search Algorithm for Constrained Markov Decision Processes ( http://arxiv.org/abs/2005.03718v1 ) ライセンス: Link先を確認 | Sami Khairy, Prasanna Balaprakash, Lin X. Cai | (参考訳) 有限制約マルコフ決定過程(CMDP)の標準解法は、期待される無限水平割引コスト制約の対象となる無限水平割引報酬を最大化することを目的としており、凸線形プログラミングに基づいている。
本稿では,有限CMDPの双対線形プログラムにおける最適化の目的が,ラグランジュペナルティ乗算器に関して,ピースワイズ線形凸関数(PWLC)であることを最初に証明する。
次に、PWLC構造を利用して、有限CMDPの最適状態値関数とラグランジュペナルティ乗算器を求める2レベルグラディエント・アウェア・サーチ(GAS)アルゴリズムを提案する。
提案アルゴリズムは,グリッド環境におけるロボットナビゲーションと,ソーラーパワーの無人航空機(UAV)による無線ネットワーク管理の2つの制約付き確率制御問題に適用される。
本稿では,提案したGASアルゴリズムの収束性能を,二進探索(BS),ラグランジアン原始双対最適化(PDO),線形計画法(LP)と比較した。
ベンチマークアルゴリズムと比較すると,提案手法は最適解に高速に収束し,超パラメータチューニングを必要とせず,ラグランジュペナルティ乗算器の初期化に敏感でないことが示された。 The canonical solution methodology for finite constrained Markov decision processes (CMDPs), where the objective is to maximize the expected infinite-horizon discounted rewards subject to the expected infinite-horizon discounted costs constraints, is based on convex linear programming. In this brief, we first prove that the optimization objective in the dual linear program of a finite CMDP is a piece-wise linear convex function (PWLC) with respect to the Lagrange penalty multipliers. Next, we propose a novel two-level Gradient-Aware Search (GAS) algorithm which exploits the PWLC structure to find the optimal state-value function and Lagrange penalty multipliers of a finite CMDP. The proposed algorithm is applied in two stochastic control problems with constraints: robot navigation in a grid world and solar-powered unmanned aerial vehicle (UAV)-based wireless network management. We empirically compare the convergence performance of the proposed GAS algorithm with binary search (BS), Lagrangian primal-dual optimization (PDO), and Linear Programming (LP). Compared with benchmark algorithms, it is shown that the proposed GAS algorithm converges to the optimal solution faster, does not require hyper-parameter tuning, and is not sensitive to initialization of the Lagrange penalty multiplier. | 翻訳日:2022-12-05 23:08:00 公開日:2020-05-07 |
# 多重テストにおける下限: 分散プロキシに基づくフレームワーク Lower bounds in multiple testing: A framework based on derandomized proxies ( http://arxiv.org/abs/2005.03725v1 ) ライセンス: Link先を確認 | Max Rabinovich and Michael I. Jordan and Martin J. Wainwright | (参考訳) 複数のテストにおける多くの作業は、偽発見率(FDR)を制御する手順を特定することに集中しており、偽非発見率(FNR)として知られるII型エラーに対する注意は比較的少ない。
fdrとfnrのトレードオフを調査し、モデル構造に依存する手順のパフォーマンスの限界を低くするために、複数のテストにおける最近の一連の作業が始まっている。
しかし、これまでは、幅広いクラスのモデルの下位境界を得るための一般的なアプローチであった。
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
我々の主な成果はメタ理論であり、FDRとFNRの組み合わせの下位境界を得るための一般的なレシピを提供する。
このメタ理論は、依存するインスタンス、スケール変換された代替品、非ガウス的な分布を含むいくつかのモデルに対する明示的な境界を導出したものである。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。 The large bulk of work in multiple testing has focused on specifying procedures that control the false discovery rate (FDR), with relatively less attention being paid to the corresponding Type II error known as the false non-discovery rate (FNR). A line of more recent work in multiple testing has begun to investigate the tradeoffs between the FDR and FNR and to provide lower bounds on the performance of procedures that depend on the model structure. Lacking thus far, however, has been a general approach to obtaining lower bounds for a broad class of models. This paper introduces an analysis strategy based on derandomization, illustrated by applications to various concrete models. Our main result is meta-theorem that gives a general recipe for obtaining lower bounds on the combination of FDR and FNR. We illustrate this meta-theorem by deriving explicit bounds for several models, including instances with dependence, scale-transformed alternatives, and non-Gaussian-like distributions. We provide numerical simulations of some of these lower bounds, and show a close relation to the actual performance of the Benjamini-Hochberg (BH) algorithm. | 翻訳日:2022-12-05 23:07:39 公開日:2020-05-07 |
# 指骨セグメンテーションにおける深い教師付きアクティブラーニング Deeply Supervised Active Learning for Finger Bones Segmentation ( http://arxiv.org/abs/2005.03225v1 ) ライセンス: Link先を確認 | Ziyuan Zhao, Xiaoyan Yang, Bharadwaj Veeravalli, Zeng Zeng | (参考訳) セグメンテーションは、医療画像解析において必要不可欠な課題である。
本稿では,指骨分節化のための新しい教師付き能動学習手法を提案する。
提案するアーキテクチャは反復的かつ漸進的な学習方法で微調整される。
各ステップでは、深い監視機構が隠れたレイヤの学習プロセスをガイドし、ラベル付けされるサンプルを選択する。
その結果,全アノテーションと比較してラベルの少ないサンプルを用いて,競合セグメンテーションの結果が得られた。 Segmentation is a prerequisite yet challenging task for medical image analysis. In this paper, we introduce a novel deeply supervised active learning approach for finger bones segmentation. The proposed architecture is fine-tuned in an iterative and incremental learning manner. In each step, the deep supervision mechanism guides the learning process of hidden layers and selects samples to be labeled. Extensive experiments demonstrated that our method achieves competitive segmentation results using less labeled samples as compared with full annotation. | 翻訳日:2022-12-05 23:06:30 公開日:2020-05-07 |
# 多目的深層学習による藻類検出と分類 Multi-Target Deep Learning for Algal Detection and Classification ( http://arxiv.org/abs/2005.03232v1 ) ライセンス: Link先を確認 | Peisheng Qian, Ziyuan Zhao, Haobing Liu, Yingcai Wang, Yu Peng, Sheng Hu, Jing Zhang, Yue Deng, Zeng Zeng | (参考訳) 水質は産業、農業、公衆衛生に直接影響を及ぼす。
藻類は水質の一般的な指標である。
藻類群落は生息地の変化に敏感であり、水質の変化について貴重な知識を与えるためである。
しかし水質分析には、顕微鏡下での藻類の検出と分類の専門的な検査が必要である。
本稿では,藻類検出と分類のための多目的深層学習フレームワークを提案する。
大規模な色の微細藻類データセットで広範な実験が行われた。
実験の結果,提案手法は藻類の検出,分類同定,属の同定に有望な性能をもたらすことが示された。 Water quality has a direct impact on industry, agriculture, and public health. Algae species are common indicators of water quality. It is because algal communities are sensitive to changes in their habitats, giving valuable knowledge on variations in water quality. However, water quality analysis requires professional inspection of algal detection and classification under microscopes, which is very time-consuming and tedious. In this paper, we propose a novel multi-target deep learning framework for algal detection and classification. Extensive experiments were carried out on a large-scale colored microscopic algal dataset. Experimental results demonstrate that the proposed method leads to the promising performance on algal detection, class identification and genus identification. | 翻訳日:2022-12-05 23:06:23 公開日:2020-05-07 |
# 胸部CTによるCOVID-19分類のための森林の適応的特徴選択 Adaptive Feature Selection Guided Deep Forest for COVID-19 Classification with Chest CT ( http://arxiv.org/abs/2005.03264v1 ) ライセンス: Link先を確認 | Liang Sun, Zhanhao Mo, Fuhua Yan, Liming Xia, Fei Shan, Zhongxiang Ding, Wei Shao, Feng Shi, Huan Yuan, Huiting Jiang, Dijia Wu, Ying Wei, Yaozong Gao, Wanchun Gao, He Sui, Daoqiang Zhang, Dinggang Shen | (参考訳) 胸部CTは、新型コロナウイルス(COVID-19)の診断を支援する有効なツールとなる。
新型コロナウイルス(COVID-19)の世界的な流行により、CT画像に基づく新型コロナウイルスの分類のためのコンピュータ支援診断技術を用いることで、臨床医の負担が軽減される可能性がある。
本稿では,胸部CT画像に基づくCOVID-19分類のための適応的特徴選択ガイド(AFS-DF)を提案する。
具体的には,まずCT画像から位置特異的な特徴を抽出する。
そして,これらの特徴の高レベル表現を比較的小規模なデータで捉えるために,深い森林モデルを用いて特徴の高レベル表現を学習する。
さらに, 訓練された深層林モデルに基づく特徴選択手法を提案し, 特徴選択を新型コロナウイルス分類モデルに適応的に組み込むことが可能な特徴の冗長性を低減する。
提案するafs-dfは1495人のcovid-19患者と1027人のcommunity acquired pneumonia (cap)患者でcovid-19データセット上で評価した。
精度 (acc), 感度 (sen), 特異度 (spe) および auc はそれぞれ 91.79%, 93.05%, 89.95%, 96.35% であった。
実験結果から,提案するafs-dfは,広く使用されている4つの機械学習手法と比較して,covid-19とcapの分類において優れた性能を発揮することが示唆された。 Chest computed tomography (CT) becomes an effective tool to assist the diagnosis of coronavirus disease-19 (COVID-19). Due to the outbreak of COVID-19 worldwide, using the computed-aided diagnosis technique for COVID-19 classification based on CT images could largely alleviate the burden of clinicians. In this paper, we propose an Adaptive Feature Selection guided Deep Forest (AFS-DF) for COVID-19 classification based on chest CT images. Specifically, we first extract location-specific features from CT images. Then, in order to capture the high-level representation of these features with the relatively small-scale data, we leverage a deep forest model to learn high-level representation of the features. Moreover, we propose a feature selection method based on the trained deep forest model to reduce the redundancy of features, where the feature selection could be adaptively incorporated with the COVID-19 classification model. We evaluated our proposed AFS-DF on COVID-19 dataset with 1495 patients of COVID-19 and 1027 patients of community acquired pneumonia (CAP). The accuracy (ACC), sensitivity (SEN), specificity (SPE) and AUC achieved by our method are 91.79%, 93.05%, 89.95% and 96.35%, respectively. Experimental results on the COVID-19 dataset suggest that the proposed AFS-DF achieves superior performance in COVID-19 vs. CAP classification, compared with 4 widely used machine learning methods. | 翻訳日:2022-12-05 23:06:14 公開日:2020-05-07 |
# 胸部CTスキャンによる重篤な症状を呈するCOVID-19の同時予測と時間推定 Joint Prediction and Time Estimation of COVID-19 Developing Severe Symptoms using Chest CT Scan ( http://arxiv.org/abs/2005.03405v1 ) ライセンス: Link先を確認 | Xiaofeng Zhu, Bin Song, Feng Shi, Yanbo Chen, Rongyao Hu, Jiangzhang Gan, Wenhai Zhang, Man Li, Liye Wang, Yaozong Gao, Fei Shan, Dinggang Shen | (参考訳) 新型コロナウイルスの世界的な拡大(covid-19)に伴い、早期診断を行い、効果的な治療計画の設計や臨床医の負担軽減など、患者が重篤な段階へ転換する時期を予測することが極めて重要である。
本研究は,患者が重篤な症状を発症するかどうかを判断するための共同分類と回帰法を提案し,もしそうであれば,患者が重篤な段階への転換に費やすであろう転換時間を予測する。
これを実現するために提案する手法は
1)各試料の重量は,外れ値の影響を減少させ,不均衡分類の問題を探究する。
2)高次元データの冗長な特徴を取り除き,分類タスクと回帰タスク間で共有情報を学習するために,空間規則化項による各特徴量の重み付けを行う。
我々の知る限り、この研究は病気の進行と変換時間を予測する最初の研究であり、臨床医が重篤な患者を治療したり、患者の命を救ったりするのに役立ちます。
422胸部ct(ct)スキャンを施行した2施設の実例について, 平均5.64日で52例, 入院時に34例の重症化を認めた。
その結果,すべての比較法と比較して,最良分類(精度85.91%)と回帰性能(相関係数0.462)を達成した。
さらに, 本手法では, 重症症例の予測精度76.97%, 相関係数0.524, 変換時間0.55日差が得られた。 With the rapidly worldwide spread of Coronavirus disease (COVID-19), it is of great importance to conduct early diagnosis of COVID-19 and predict the time that patients might convert to the severe stage, for designing effective treatment plan and reducing the clinicians' workloads. In this study, we propose a joint classification and regression method to determine whether the patient would develop severe symptoms in the later time, and if yes, predict the possible conversion time that the patient would spend to convert to the severe stage. To do this, the proposed method takes into account 1) the weight for each sample to reduce the outliers' influence and explore the problem of imbalance classification, and 2) the weight for each feature via a sparsity regularization term to remove the redundant features of high-dimensional data and learn the shared information across the classification task and the regression task. To our knowledge, this study is the first work to predict the disease progression and the conversion time, which could help clinicians to deal with the potential severe cases in time or even save the patients' lives. Experimental analysis was conducted on a real data set from two hospitals with 422 chest computed tomography (CT) scans, where 52 cases were converted to severe on average 5.64 days and 34 cases were severe at admission. Results show that our method achieves the best classification (e.g., 85.91% of accuracy) and regression (e.g., 0.462 of the correlation coefficient) performance, compared to all comparison methods. Moreover, our proposed method yields 76.97% of accuracy for predicting the severe cases, 0.524 of the correlation coefficient, and 0.55 days difference for the converted time. | 翻訳日:2022-12-05 23:05:51 公開日:2020-05-07 |
# Kunster -- AR Art Video Maker -- モバイルデバイス上でのリアルタイムビデオニューラルスタイル転送 Kunster -- AR Art Video Maker -- Real time video neural style transfer on mobile devices ( http://arxiv.org/abs/2005.03415v1 ) ライセンス: Link先を確認 | Wojciech Dudzik, Damian Kosowski | (参考訳) ニューラルスタイルの伝達は、多くの興味深い研究と2つの大きな欠点を持つ、ディープラーニング研究のよく知られた分野である。
この分野の作業の大部分は、専門家でないユーザでは使用が困難であり、ハードウェアリソースが相当必要である。
本稿では,これら2つの問題に対する解決策を提案する。
我々は,モバイルデバイス上で動作可能なリアルタイムビデオ(毎秒25フレーム以上)に,ニューラルスタイルトランスファーを適用した。
また,テンポラリコヒーレンスの実現に関する研究や,すでに訓練済みの微調整モデルによる安定的な映像の実現について述べる。
さらに,一般的なディープニューラルネットワークアーキテクチャがモバイルデバイスの性能に与える影響についても,レイヤ数やフィルタ数について分析した。
実験部では,我々の研究成果をiosデバイスについて紹介するとともに,現在のandroidデバイスに存在する問題点と今後の可能性について考察する。
最終的に、iPhone 11 ProとiPhone 6sでテストされたスタイリゼーションの質的な結果と定量的なパフォーマンス結果を示す。
プレゼンテーションはAppleのApp Storeで利用可能なKunster - AR Art Video Makerアプリケーションに組み込まれている。 Neural style transfer is a well-known branch of deep learning research, with many interesting works and two major drawbacks. Most of the works in the field are hard to use by non-expert users and substantial hardware resources are required. In this work, we present a solution to both of these problems. We have applied neural style transfer to real-time video (over 25 frames per second), which is capable of running on mobile devices. We also investigate the works on achieving temporal coherence and present the idea of fine-tuning, already trained models, to achieve stable video. What is more, we also analyze the impact of the common deep neural network architecture on the performance of mobile devices with regard to number of layers and filters present. In the experiment section we present the results of our work with respect to the iOS devices and discuss the problems present in current Android devices as well as future possibilities. At the end we present the qualitative results of stylization and quantitative results of performance tested on the iPhone 11 Pro and iPhone 6s. The presented work is incorporated in Kunster - AR Art Video Maker application available in the Apple's App Store. | 翻訳日:2022-12-05 23:05:19 公開日:2020-05-07 |
# eコマース製品検索のためのロバストモデル学習 Learning Robust Models for e-Commerce Product Search ( http://arxiv.org/abs/2005.03624v1 ) ライセンス: Link先を確認 | Thanh V. Nguyen, Nikhil Rao and Karthik Subbian | (参考訳) 検索クエリインテントにマッチしない項目の表示は、eコマースにおける顧客エクスペリエンスを低下させる。
これらのミスマッチは、検索ログのクリックや購入などのノイズの多い行動信号に対するランキングアルゴリズムの反実バイアスに起因する。
問題を緩和するには大きなラベル付きデータセットが必要である。
本稿では,ミスマッチを効果的に分類し,不整合な例を生成して分類器を改善するための,エンド・ツー・エンドの深層モデルを開発した。
実際のサンプルと生成されたサンプルを交互に使用するクロスエントロピー損失に潜在変数を導入することで、モデルエンドツーエンドをトレーニングする。
これにより分類器がより堅牢になるだけでなく、全体的なランキングパフォーマンスも向上する。
本モデルは,f-scoreでは26%,pr曲線下の領域では17%以上,ベースラインと比較して相対的に向上する。
ライブ検索トラフィックでは、複数の国でモデルが大きく改善されている。 Showing items that do not match search query intent degrades customer experience in e-commerce. These mismatches result from counterfactual biases of the ranking algorithms toward noisy behavioral signals such as clicks and purchases in the search logs. Mitigating the problem requires a large labeled dataset, which is expensive and time-consuming to obtain. In this paper, we develop a deep, end-to-end model that learns to effectively classify mismatches and to generate hard mismatched examples to improve the classifier. We train the model end-to-end by introducing a latent variable into the cross-entropy loss that alternates between using the real and generated samples. This not only makes the classifier more robust but also boosts the overall ranking performance. Our model achieves a relative gain compared to baselines by over 26% in F-score, and over 17% in Area Under PR curve. On live search traffic, our model gains significant improvement in multiple countries. | 翻訳日:2022-12-05 22:58:48 公開日:2020-05-07 |
# モバイルデバイスにおけるAIモデルとフレームワークの比較とベンチマーク Comparison and Benchmarking of AI Models and Frameworks on Mobile Devices ( http://arxiv.org/abs/2005.05085v1 ) ライセンス: Link先を確認 | Chunjie Luo, Xiwen He, Jianfeng Zhan, Lei Wang, Wanling Gao, Jiahui Dai | (参考訳) データ量と計算リソースの増加により、ディープラーニングはさまざまな領域で多くの成功を収める。
モバイルおよび組み込みデバイスにおけるディープラーニングの適用は、ますます注目され、モバイルおよび組み込みデバイスのAI能力のベンチマークとランキングは、解決すべき緊急の問題となっている。
モデルの多様性とフレームワークの多様性を考慮して,モバイルおよび組み込みデバイスの推論能力の評価に焦点を当てたベンチマークスイートAIoTBenchを提案する。
AIoTBenchは、ResNet50、InceptionV3、DenseNet121、およびSqueezeNet、MobileNetV2、MnasNetの3つの軽量ネットワークをカバーしている。
各ネットワークは,Tensorflow Lite, Caffe2, Pytorch Mobileという,モバイルおよび組み込みデバイス用に設計された3つのフレームワークによって実装されている。
デバイスのAI能力を比較してランク付けするために、AIスコアとして、VIPS(Valid Images Per Second)とVOPS(Valid FLOPs Per Second)の2つの統合メトリクスを提案する。
現在、ベンチマークを用いて5つのモバイルデバイスを比較してランク付けしています。
このリストはすぐに拡張され、更新される。 Due to increasing amounts of data and compute resources, deep learning achieves many successes in various domains. The application of deep learning on the mobile and embedded devices is taken more and more attentions, benchmarking and ranking the AI abilities of mobile and embedded devices becomes an urgent problem to be solved. Considering the model diversity and framework diversity, we propose a benchmark suite, AIoTBench, which focuses on the evaluation of the inference abilities of mobile and embedded devices. AIoTBench covers three typical heavy-weight networks: ResNet50, InceptionV3, DenseNet121, as well as three light-weight networks: SqueezeNet, MobileNetV2, MnasNet. Each network is implemented by three frameworks which are designed for mobile and embedded devices: Tensorflow Lite, Caffe2, Pytorch Mobile. To compare and rank the AI capabilities of the devices, we propose two unified metrics as the AI scores: Valid Images Per Second (VIPS) and Valid FLOPs Per Second (VOPS). Currently, we have compared and ranked 5 mobile devices using our benchmark. This list will be extended and updated soon after. | 翻訳日:2022-12-05 22:58:33 公開日:2020-05-07 |
# 複数のカーネルによるアクティブラーニング Active Learning with Multiple Kernels ( http://arxiv.org/abs/2005.03188v1 ) ライセンス: Link先を確認 | Songnam Hong and Jeongmin Chae | (参考訳) オンラインマルチカーネル学習(OMKL)は非線形関数学習タスクにおいて魅力的な性能を提供している。
ランダムな特徴近似を利用して、次元性の呪いとして知られるOMKLの大きな欠点は、最近緩和されている。
本稿では,学習者が選択基準に従ってオラクルから選択したデータをラベル付けすることができるAMKL(stream-based active multiple kernel learning)と呼ばれる新しい研究問題を提案する。
これは多くの現実世界のアプリケーションにおいて、真のラベルを取得するのにコストがかかるか時間がかかるため必要である。
AMKLが最適なサブ線形後悔を達成できることを証明し、提案した選択基準が本当に役に立たないラベル要求を回避することを示唆する。
さらに,無関係なカーネルを「オンザフライ」のカーネル辞書から排除できる適応型カーネル選択(amkl-aks)を持つamklを提案する。
このアプローチは、能動学習の効率と関数近似の精度を向上させることができる。
各種実データを用いた数値実験により,amkl-aksは最もよく知られたomklと同等あるいは優れた性能を得られ,ラベル付きデータも少ない。 Online multiple kernel learning (OMKL) has provided an attractive performance in nonlinear function learning tasks. Leveraging a random feature approximation, the major drawback of OMKL, known as the curse of dimensionality, has been recently alleviated. In this paper, we introduce a new research problem, termed (stream-based) active multiple kernel learning (AMKL), in which a learner is allowed to label selected data from an oracle according to a selection criterion. This is necessary in many real-world applications as acquiring true labels is costly or time-consuming. We prove that AMKL achieves an optimal sublinear regret, implying that the proposed selection criterion indeed avoids unuseful label-requests. Furthermore, we propose AMKL with an adaptive kernel selection (AMKL-AKS) in which irrelevant kernels can be excluded from a kernel dictionary 'on the fly'. This approach can improve the efficiency of active learning as well as the accuracy of a function approximation. Via numerical tests with various real datasets, it is demonstrated that AMKL-AKS yields a similar or better performance than the best-known OMKL, with a smaller number of labeled data. | 翻訳日:2022-12-05 22:58:00 公開日:2020-05-07 |
# 複合ニューラルネットワークを用いた多要素データ融合による動的応答変動の効率的な評価 Efficient Characterization of Dynamic Response Variation Using Multi-Fidelity Data Fusion through Composite Neural Network ( http://arxiv.org/abs/2005.03213v1 ) ライセンス: Link先を確認 | Kai Zhou, Jiong Tang | (参考訳) 構造内の不確かさは必然であり、一般に動的応答予測のばらつきにつながる。
複雑な構造の場合、応答変動解析のためのブルート力モンテカルロシミュレーションは、1回のランが既に計算コストがかかるため実現不可能である。
したがって、効率的なエミュレーションと統計推論を容易にするために、データ駆動型メタモデリングアプローチが研究されている。
メタモデルのパフォーマンスは、トレーニングデータセットの品質と量の両方にかかっている。
しかし実際には、高次元有限要素シミュレーションや実験から得られる忠実度データは一般的には乏しいため、メタモデルの確立には大きな課題がある。
本研究では、構造力学解析における多レベル応答予測の機会、すなわち、低次モデリングから大量の低忠実度データを迅速に取得し、フルスケール有限要素解析から少量の高忠実度データを精度良く取得する。
具体的には、得られた多レベル不均質なデータセットを十分に活用できる複合ニューラルネットワーク融合手法を定式化する。
低忠実度データセットと高忠実度データセットの相関を暗黙的に識別し、最先端のデータセットと比較すると精度が向上する。
周波数応答変動特性を事例として包括的調査を行い,性能の検証を行った。 Uncertainties in a structure is inevitable, which generally lead to variation in dynamic response predictions. For a complex structure, brute force Monte Carlo simulation for response variation analysis is infeasible since one single run may already be computationally costly. Data driven meta-modeling approaches have thus been explored to facilitate efficient emulation and statistical inference. The performance of a meta-model hinges upon both the quality and quantity of training dataset. In actual practice, however, high-fidelity data acquired from high-dimensional finite element simulation or experiment are generally scarce, which poses significant challenge to meta-model establishment. In this research, we take advantage of the multi-level response prediction opportunity in structural dynamic analysis, i.e., acquiring rapidly a large amount of low-fidelity data from reduced-order modeling, and acquiring accurately a small amount of high-fidelity data from full-scale finite element analysis. Specifically, we formulate a composite neural network fusion approach that can fully utilize the multi-level, heterogeneous datasets obtained. It implicitly identifies the correlation of the low- and high-fidelity datasets, which yields improved accuracy when compared with the state-of-the-art. Comprehensive investigations using frequency response variation characterization as case example are carried out to demonstrate the performance. | 翻訳日:2022-12-05 22:57:42 公開日:2020-05-07 |
# フラクショナルリッジ回帰 : 高速かつ解釈可能なリッジ回帰の再パラメータ化 Fractional ridge regression: a fast, interpretable reparameterization of ridge regression ( http://arxiv.org/abs/2005.03220v1 ) ライセンス: Link先を確認 | Ariel Rokem, Kendrick Kay | (参考訳) ridge regression (rr) は線形回帰における係数の l2-ノルムをペナライズする正規化技法である。
RRを使用する際の課題の1つは、正規化の量を制御するハイパーパラメータ($\alpha$)を設定する必要があることである。
クロスバリデーションは通常、候補から最高の$\alpha$を選択するために使われる。
しかし、特に大量のデータが分析される場合、$\alpha$の効率的かつ適切な選択は困難である。
選択された$\alpha$ はデータと予測器の規模に依存するため、簡単には解釈できない。
ここでは正規化係数と非正規化係数の l2-ノルム間の比 $\gamma$ でrrを再パラメータ化する。
FRR ( fractional RR) と呼ばれるこのアプローチにはいくつかの利点がある: 異なる$\gamma$ に対して得られる解は変化することが保証され、無駄な計算を防ぎ、関連する正規化の範囲を自動的に分散し、厳しい手作業による探索を避ける。
我々は、FRRを解くアルゴリズムと、PythonとMATLAB(https://github.com/nrdg/fracridge)のオープンソースソフトウェア実装を提供する。
提案手法は大規模データ問題に対して高速かつスケーラブルであることを示し,モデルとデータセット間で簡単に解釈および比較できる結果を提供する。 Ridge regression (RR) is a regularization technique that penalizes the L2-norm of the coefficients in linear regression. One of the challenges of using RR is the need to set a hyperparameter ($\alpha$) that controls the amount of regularization. Cross-validation is typically used to select the best $\alpha$ from a set of candidates. However, efficient and appropriate selection of $\alpha$ can be challenging, particularly where large amounts of data are analyzed. Because the selected $\alpha$ depends on the scale of the data and predictors, it is not straightforwardly interpretable. Here, we propose to reparameterize RR in terms of the ratio $\gamma$ between the L2-norms of the regularized and unregularized coefficients. This approach, called fractional RR (FRR), has several benefits: the solutions obtained for different $\gamma$ are guaranteed to vary, guarding against wasted calculations, and automatically span the relevant range of regularization, avoiding the need for arduous manual exploration. We provide an algorithm to solve FRR, as well as open-source software implementations in Python and MATLAB (https://github.com/nrdg/fracridge). We show that the proposed method is fast and scalable for large-scale data problems, and delivers results that are straightforward to interpret and compare across models and datasets. | 翻訳日:2022-12-05 22:57:23 公開日:2020-05-07 |
# 表面破壊き裂の超音波非破壊定量化のための物理インフォームニューラルネットワーク Physics-informed neural network for ultrasound nondestructive quantification of surface breaking cracks ( http://arxiv.org/abs/2005.03596v1 ) ライセンス: Link先を確認 | Khemraj Shukla, Patricio Clark Di Leoni, James Blackshire, Daniel Sparkman and George Em Karniadakis | (参考訳) 本研究では,金属板の表面破壊ひび割れの同定と特徴化の問題を解決するために,最適化された物理情報ニューラルネットワーク(PINN)を導入する。
PINNは、損失関数に部分微分方程式系の残基を追加することによって、学習過程におけるデータと物理を組み合わせることができるニューラルネットワークである。
PINNは5MHzの周波数で取得した現実的な超音波音波データを教師する。
超音波表面波データは、金属板の上面の表面変形として表現され、レーザ振動計法を用いて測定される。
PINNは音波方程式により物理的に情報を伝達し、その収束を適応活性化関数を用いて高速化する。
アダプティブアクティベーション関数は、アクティベーション関数にスケーラブルなハイパーパラメータを使用し、最適化プロセスに関わる損失関数のトポロジを動的に変化させるため、ネットワークの最高の性能を達成するように最適化される。
アダプティブアクティベーション関数の使用は、現在の研究で特に観察されている収束を著しく改善する。
PINNを用いて金属板の音速を1\%の誤差で推定し,音速の空間依存性を許容することにより,音速が低下した位置としてひび割れを識別・特徴付ける。
また,データのサブサンプリングが音速推定の感度に及ぼす影響についても検討した。
より広範に、結果のモデルは、不適切な逆問題に対する有望なディープニューラルネットワークモデルを示している。 We introduce an optimized physics-informed neural network (PINN) trained to solve the problem of identifying and characterizing a surface breaking crack in a metal plate. PINNs are neural networks that can combine data and physics in the learning process by adding the residuals of a system of Partial Differential Equations to the loss function. Our PINN is supervised with realistic ultrasonic surface acoustic wave data acquired at a frequency of 5 MHz. The ultrasonic surface wave data is represented as a surface deformation on the top surface of a metal plate, measured by using the method of laser vibrometry. The PINN is physically informed by the acoustic wave equation and its convergence is sped up using adaptive activation functions. The adaptive activation function uses a scalable hyperparameter in the activation function, which is optimized to achieve best performance of the network as it changes dynamically the topology of the loss function involved in the optimization process. The usage of adaptive activation function significantly improves the convergence, notably observed in the current study. We use PINNs to estimate the speed of sound of the metal plate, which we do with an error of 1\%, and then, by allowing the speed of sound to be space dependent, we identify and characterize the crack as the positions where the speed of sound has decreased. Our study also shows the effect of sub-sampling of the data on the sensitivity of sound speed estimates. More broadly, the resulting model shows a promising deep neural network model for ill-posed inverse problems. | 翻訳日:2022-12-05 22:50:03 公開日:2020-05-07 |
# Lifted Regression/Reconstruction Networks Lifted Regression/Reconstruction Networks ( http://arxiv.org/abs/2005.03452v1 ) ライセンス: Link先を確認 | Rasmus Kj{\ae}r H{\o}ier, Christopher Zach | (参考訳) 本研究では,昇降型ニューラルネットワークと,出力層に対するリプシッツ連続性を考慮した昇降型回帰/再構成ネットワーク(lrrns)を提案する。
リフテッドニューラルネットワークは、ユニットアクティベーションを推測するためにエネルギーモデルを明示的に最適化し、標準フィードフォワードニューラルネットワークとは対照的に、レイヤ間の双方向フィードバックを許容する。
これまでのところ、ニューラルネットワークは標準フィードフォワードアーキテクチャを中心にモデル化されてきた。
本稿では,各層が同時に回帰と再構成を行うことにより,フィードバック特性をさらに活用することを提案する。
結果として引き揚げられたネットワークアーキテクチャは所望の量のリプシッツ連続性を制御することが可能であり、これは敵対的にロバストな回帰法と分類法を得る上で重要な特徴である。
教師なし学習と教師なし学習の応用を解析し,数値的に示す。 In this work we propose lifted regression/reconstruction networks (LRRNs), which combine lifted neural networks with a guaranteed Lipschitz continuity property for the output layer. Lifted neural networks explicitly optimize an energy model to infer the unit activations and therefore---in contrast to standard feed-forward neural networks---allow bidirectional feedback between layers. So far lifted neural networks have been modelled around standard feed-forward architectures. We propose to take further advantage of the feedback property by letting the layers simultaneously perform regression and reconstruction. The resulting lifted network architecture allows to control the desired amount of Lipschitz continuity, which is an important feature to obtain adversarially robust regression and classification methods. We analyse and numerically demonstrate applications for unsupervised and supervised learning. | 翻訳日:2022-12-05 22:48:08 公開日:2020-05-07 |
# マルチスケール特徴フュージョンベースニューラルネットワークを用いた耐震シートノイズ定位 Seismic Shot Gather Noise Localization Using a Multi-Scale Feature-Fusion-Based Neural Network ( http://arxiv.org/abs/2005.03626v1 ) ライセンス: Link先を確認 | Antonio Jos\'e G. Busson, S\'ergio Colcher, Ruy Luiz Milidi\'u, Bruno Pereira Dias, and Andr\'e Bulc\~ao | (参考訳) 畳み込みニューラルネットワークのようなディープラーニングベースのモデルは、コンピュータビジョンの様々なセグメントを進化させた。
しかし, この技術は, 地震動群集ノイズローカライズ問題にはほとんど適用されない。
本報告では,マルチスケール特徴流型ネットワークによる地震時発声音定位の有効性について検討する。
本稿では,(1)6,500の地震動に基づく実世界の地震音定位データセットの構築,(2)特徴ピラミッドネットと組み合わされたモビルネットをバックボーンとするマルチスケール特徴流型検出器,(3)ボックス分類/回帰のための単一ショットマルチボックス検出器について述べる。
さらに,検出者の予測精度を向上させる焦点損失関数の利用を提案する。
提案した検出器は実験評価においてAP@0.5の78.67\%を達成する。 Deep learning-based models, such as convolutional neural networks, have advanced various segments of computer vision. However, this technology is rarely applied to seismic shot gather noise localization problem. This letter presents an investigation on the effectiveness of a multi-scale feature-fusion-based network for seismic shot-gather noise localization. Herein, we describe the following: (1) the construction of a real-world dataset of seismic noise localization based on 6,500 seismograms; (2) a multi-scale feature-fusion-based detector that uses the MobileNet combined with the Feature Pyramid Net as the backbone; and (3) the Single Shot multi-box detector for box classification/regression. Additionally, we propose the use of the Focal Loss function that improves the detector's prediction accuracy. The proposed detector achieves an AP@0.5 of 78.67\% in our empirical evaluation. | 翻訳日:2022-12-05 22:47:55 公開日:2020-05-07 |
# 構造エッジ付き条件付きganを用いた損傷領域分割のための合成画像拡張 Synthetic Image Augmentation for Damage Region Segmentation using Conditional GAN with Structure Edge ( http://arxiv.org/abs/2005.08628v1 ) ライセンス: Link先を確認 | Takato Yasuno, Michihiro Nakajima, Tomoharu Sekiguchi, Kazuhiro Noda, Kiyoshi Aoyanagi, Sakura Kato | (参考訳) 近年,社会基盤が高齢化しており,その予測メンテナンスが重要になっている。
インフラの状態を監視するため、人間の目やベイドローンで橋の検査を行う。
診断には、修復目標に対する一次損傷領域が認識される。
しかし、低いレベルの劣化は滅多に起こらず、関心のある損傷領域はしばしば狭く、画像当たりの比率は0.6から1.5%という非常に小さいピクセル数である。
損益領域における損益及び不均衡性は、被害を検出するために限られた性能に影響を及ぼす。
損傷画像の追加データ集合が生成可能であれば、損傷領域分割アルゴリズムの精度を向上させることができる。
本稿では,意味ラベルと構造エッジの両方からなる3カテゴリーラベルから実際の損傷画像への画像-画像変換マッピングを用いて,損傷画像を生成する合成拡張手法を提案する。
構造エッジの強化にはソベル勾配演算子を用いる。
実際に,橋梁検査の場合,レバー露光による208枚の目視写真が得られたRCコンクリート構造物に適用し,サイズ224×224の840枚のブロック画像を作成した。
我々は,FCN-8s,SegNet,DeepLabv3+Xception-v2などの画素ごとのセグメンテーションアルゴリズムを適用した。
実験画像の予測には, 平均IoU, 興味の損傷領域IoU, 精度, リコール, BFスコアの指標に基づいて, 合成増強法で加算したデータセットの再学習が, 精度が高いことを示した。 Recently, social infrastructure is aging, and its predictive maintenance has become important issue. To monitor the state of infrastructures, bridge inspection is performed by human eye or bay drone. For diagnosis, primary damage region are recognized for repair targets. But, the degradation at worse level has rarely occurred, and the damage regions of interest are often narrow, so their ratio per image is extremely small pixel count, as experienced 0.6 to 1.5 percent. The both scarcity and imbalance property on the damage region of interest influences limited performance to detect damage. If additional data set of damaged images can be generated, it may enable to improve accuracy in damage region segmentation algorithm. We propose a synthetic augmentation procedure to generate damaged images using the image-to-image translation mapping from the tri-categorical label that consists the both semantic label and structure edge to the real damage image. We use the Sobel gradient operator to enhance structure edge. Actually, in case of bridge inspection, we apply the RC concrete structure with the number of 208 eye-inspection photos that rebar exposure have occurred, which are prepared 840 block images with size 224 by 224. We applied popular per-pixel segmentation algorithms such as the FCN-8s, SegNet, and DeepLabv3+Xception-v2. We demonstrates that re-training a data set added with synthetic augmentation procedure make higher accuracy based on indices the mean IoU, damage region of interest IoU, precision, recall, BF score when we predict test images. | 翻訳日:2022-12-05 22:47:17 公開日:2020-05-07 |
# ビヘイビアクローンでMinecraftをプレイする Playing Minecraft with Behavioural Cloning ( http://arxiv.org/abs/2005.03374v1 ) ライセンス: Link先を確認 | Anssi Kanervisto, Janne Karttunen, Ville Hautam\"aki | (参考訳) MineRL 2019コンペティションでは、人間のゲームプレイのデータセットと環境の制限されたステップ数を使用して、Minecraftをプレイするサンプル効率のエージェントをトレーニングする参加者に挑戦した。
我々は、人間の行動を予測することによって、この課題にアプローチし、最終ランキングで5位に達した。
単純なアルゴリズムであるにもかかわらず、トレーニングの停止時間に基づいて、そのようなアプローチの性能は著しく変化する。
本稿では,本コンペティションへの応募について詳述し,トレーニングによってパフォーマンスがどう変化したか,エンジニアリングの異なる決定がこれらの結果に与える影響について検討する。 MineRL 2019 competition challenged participants to train sample-efficient agents to play Minecraft, by using a dataset of human gameplay and a limit number of steps the environment. We approached this task with behavioural cloning by predicting what actions human players would take, and reached fifth place in the final ranking. Despite being a simple algorithm, we observed the performance of such an approach can vary significantly, based on when the training is stopped. In this paper, we detail our submission to the competition, run further experiments to study how performance varied over training and study how different engineering decisions affected these results. | 翻訳日:2022-12-05 22:41:16 公開日:2020-05-07 |
# D-Wave 2000Q上の制限ボルツマンマシンによる訓練と分類 Training and Classification using a Restricted Boltzmann Machine on the D-Wave 2000Q ( http://arxiv.org/abs/2005.03247v1 ) ライセンス: Link先を確認 | Vivek Dixit, Raja Selvarajan, Muhammad A. Alam, Travis S. Humble, and Sabre Kais | (参考訳) Restricted Boltzmann Machine (RBM) はエネルギーベースで非方向性のグラフィカルモデルである。
教師なしの機械学習や教師なしの機械学習によく用いられる。
通常、RBMはコントラスト分岐(CD)を用いて訓練される。
しかし、CDによるトレーニングは遅く、ログライクなコスト関数の正確な勾配を推定しない。
本研究では,cdで使用されるマルコフ連鎖モンテカルロ (mcmc) よりもはるかに高速な量子アニーラ (d-wave 2000q) を用いて,rbm の勾配学習のモデル期待値を算出した。
トレーニングと分類結果はCDと比較される。
分類精度は両手法の類似性能を示す。
RBMトレーニングにおける量子アルゴリズムと古典アルゴリズムのパフォーマンスを比較するために、画像再構成とログライクな計算が用いられる。
量子アニールから得られた試料は、CDで訓練されたRBMに似た分類性能を持つ64ビットの「バー・アンド・ストライプ」データセット上で、RBMのトレーニングに使用できる。
CDに基づくトレーニングでは学習性能が向上したが、量子アニールを用いたトレーニングでは計算コストのかかるCDのMCMCステップが排除される。 Restricted Boltzmann Machine (RBM) is an energy based, undirected graphical model. It is commonly used for unsupervised and supervised machine learning. Typically, RBM is trained using contrastive divergence (CD). However, training with CD is slow and does not estimate exact gradient of log-likelihood cost function. In this work, the model expectation of gradient learning for RBM has been calculated using a quantum annealer (D-Wave 2000Q), which is much faster than Markov chain Monte Carlo (MCMC) used in CD. Training and classification results are compared with CD. The classification accuracy results indicate similar performance of both methods. Image reconstruction as well as log-likelihood calculations are used to compare the performance of quantum and classical algorithms for RBM training. It is shown that the samples obtained from quantum annealer can be used to train a RBM on a 64-bit `bars and stripes' data set with classification performance similar to a RBM trained with CD. Though training based on CD showed improved learning performance, training using a quantum annealer eliminates computationally expensive MCMC steps of CD. | 翻訳日:2022-12-05 22:40:29 公開日:2020-05-07 |
# 雑音トレーニングセットを用いたニューラルネットワークのインクリメンタル学習に関する実験的検討 An Empirical Study of Incremental Learning in Neural Network with Noisy Training Set ( http://arxiv.org/abs/2005.03266v1 ) ライセンス: Link先を確認 | Shovik Ganguly, Atrayee Chatterjee, Debasmita Bhoumik, Ritajit Majumdar | (参考訳) 漸進的な学習の概念は、新しいトレーニングデータが到着した時点で、ANNアルゴリズムを段階的にトレーニングすることである。
近年,ディープラーニングの出現に伴い,インクリメンタル学習が普及している。
トレーニングデータのノイズはアルゴリズムの精度を低下させる。
本稿では,学習段階における雑音の影響を実証的に検討する。
我々は,アルゴリズムの精度が誤差の割合よりも誤差の位置に依存することを数値的に示す。
Perceptron, Feed Forward Neural Network, Radial Basis Function Neural Network を用いて, 誤差の同じ割合において, アルゴリズムの精度は誤差の位置によって大きく変化することを示す。
さらに,誤差の位置に対する精度の依存性はアルゴリズムに依存しないことを示した。
しかし,より高度なアルゴリズムにより劣化曲線の傾きは減少する。 The notion of incremental learning is to train an ANN algorithm in stages, as and when newer training data arrives. Incremental learning is becoming widespread in recent times with the advent of deep learning. Noise in the training data reduces the accuracy of the algorithm. In this paper, we make an empirical study of the effect of noise in the training phase. We numerically show that the accuracy of the algorithm is dependent more on the location of the error than the percentage of error. Using Perceptron, Feed Forward Neural Network and Radial Basis Function Neural Network, we show that for the same percentage of error, the accuracy of the algorithm significantly varies with the location of error. Furthermore, our results show that the dependence of the accuracy with the location of error is independent of the algorithm. However, the slope of the degradation curve decreases with more sophisticated algorithms | 翻訳日:2022-12-05 22:40:12 公開日:2020-05-07 |
# 弱情報ハイパープライアーと拡張予測情報基準を備えた関連ベクトルマシン Relevance Vector Machine with Weakly Informative Hyperprior and Extended Predictive Information Criterion ( http://arxiv.org/abs/2005.03419v1 ) ライセンス: Link先を確認 | Kazuaki. Murayama and Shuichi. Kawano | (参考訳) 変分関連ベクトルマシンにおいて、ガンマ分布は、前述した自動関連判定のノイズ精度よりも高優先度として表される。
ガンマハイパープリオールの代わりに、ゼロに近い形状パラメータとゼロに近いスケールパラメータを持つ逆ガンマハイパープリオールを用いることを提案する。
このハイパープライアーは弱い情報量優先の概念と関係している。
この超高次効果は、非均一データへの回帰を通じて研究される。
このようなデータの構造を単一のカーネル関数で捉えることは困難であるため、入力データに対して異なる幅の複数のカーネル関数を配置する多重カーネル法を適用する。
モデル内の自由度は、スケールパラメータを調整し、形状パラメータをゼロにすることで制御されることを確認した。
スケールパラメータを選択する候補は、予測情報基準である。
しかし、この基準を用いた推定モデルは過度な適合を引き起こすと思われる。
これは、多重カーネル法によってモデルのサイズがデータサイズよりも大きい状況になるためである。
このような状況でも適切なスケールパラメータを選択するために,拡張予測情報基準を提案する。
拡張予測情報基準を最小化するスケールパラメータを選択することにより、予測精度の良い多重カーネル関連ベクトル回帰モデルが得られることを確認した。 In the variational relevance vector machine, the gamma distribution is representative as a hyperprior over the noise precision of automatic relevance determination prior. Instead of the gamma hyperprior, we propose to use the inverse gamma hyperprior with a shape parameter close to zero and a scale parameter not necessary close to zero. This hyperprior is associated with the concept of a weakly informative prior. The effect of this hyperprior is investigated through regression to non-homogeneous data. Because it is difficult to capture the structure of such data with a single kernel function, we apply the multiple kernel method, in which multiple kernel functions with different widths are arranged for input data. We confirm that the degrees of freedom in a model is controlled by adjusting the scale parameter and keeping the shape parameter close to zero. A candidate for selecting the scale parameter is the predictive information criterion. However the estimated model using this criterion seems to cause over-fitting. This is because the multiple kernel method makes the model a situation where the dimension of the model is larger than the data size. To select an appropriate scale parameter even in such a situation, we also propose an extended prediction information criterion. It is confirmed that a multiple kernel relevance vector regression model with good predictive accuracy can be obtained by selecting the scale parameter minimizing extended prediction information criterion. | 翻訳日:2022-12-05 22:39:27 公開日:2020-05-07 |
# 不均衡データによるICU医療関連感染症の予測モデル
アンサンブルとクラスタリングに基づくアンダーサンプリングアプローチ Predictive Modeling of ICU Healthcare-Associated Infections from Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling Approach ( http://arxiv.org/abs/2005.03582v1 ) ライセンス: Link先を確認 | Fernando S\'anchez-Hern\'andez, Juan Carlos Ballesteros-Herr\'aez, Mohamed S. Kraiem, Mercedes S\'anchez-Barba and Mar\'ia N. Moreno-Garc\'ia | (参考訳) 病院における感染症の早期発見は,患者の死亡率や医療費に影響を及ぼすため,現在の医療システムでは課題となっている。
本研究は, 集中治療室におけるリスク因子の同定と, 機械学習による医療関連感染症の予測に焦点をあてた。
感染発生率の低減に向けた意思決定を支援することを目的とする。
この分野では、不均衡データセットから信頼できる分類器を構築する問題に対処する必要がある。
本稿では,アンサンブル分類器と組み合わせたクラスタリングに基づくアンダーサンプリング手法を提案する。
4616例のデータを比較検討し,本提案の妥当性を検証した。
元のデータセットと異なる再サンプリング手法を用いて事前処理されたデータの両方に,複数の単一およびアンサンブル分類器を適用した。
その結果、不均衡なデータ分類に特化して設計された古典的および最近の指標を用いて分析した。
彼らはこの提案が他のアプローチよりも効率的であることを明かした。 Early detection of patients vulnerable to infections acquired in the hospital environment is a challenge in current health systems given the impact that such infections have on patient mortality and healthcare costs. This work is focused on both the identification of risk factors and the prediction of healthcare-associated infections in intensive-care units by means of machine-learning methods. The aim is to support decision making addressed at reducing the incidence rate of infections. In this field, it is necessary to deal with the problem of building reliable classifiers from imbalanced datasets. We propose a clustering-based undersampling strategy to be used in combination with ensemble classifiers. A comparative study with data from 4616 patients was conducted in order to validate our proposal. We applied several single and ensemble classifiers both to the original dataset and to data preprocessed by means of different resampling methods. The results were analyzed by means of classic and recent metrics specifically designed for imbalanced data classification. They revealed that the proposal is more efficient in comparison with other approaches. | 翻訳日:2022-12-05 22:38:13 公開日:2020-05-07 |
# ガウス過程アップサンプリングモデルによる光文字認識の改善 A Gaussian Process Upsampling Model for Improvements in Optical Character Recognition ( http://arxiv.org/abs/2005.03780v1 ) ライセンス: Link先を確認 | Steven I Reeves, Dongwook Lee, Anurag Singh, and Kunal Verma | (参考訳) 光文字認識と抽出は財務状況における文書の自動評価において重要なツールである。
しかし、自動化システムに提供された画像データは信頼性が低く、本質的に低解像度またはダウンサンプリングされ、送信プログラムによって圧縮される。
本稿では,OCRの改良と低解像度文書のアップサンプリングによる抽出を目的としたガウスプロセスアップサンプリングモデルの有効性について述べる。 Optical Character Recognition and extraction is a key tool in the automatic evaluation of documents in a financial context. However, the image data provided to automated systems can have unreliable quality, and can be inherently low-resolution or downsampled and compressed by a transmitting program. In this paper, we illustrate the efficacy of a Gaussian Process upsampling model for the purposes of improving OCR and extraction through upsampling low resolution documents. | 翻訳日:2022-12-05 22:31:22 公開日:2020-05-07 |
# 非トレーニングニューラルネットワークによる圧縮センシング:勾配降下が最も滑らかな近似を求める Compressive sensing with un-trained neural networks: Gradient descent finds the smoothest approximation ( http://arxiv.org/abs/2005.03991v1 ) ライセンス: Link先を確認 | Reinhard Heckel and Mahdi Soltanolkotabi | (参考訳) 訓練されていない畳み込みニューラルネットワークは、画像の復元と修復に非常に成功したツールとして出現した。
彼らは、ニューラルネットワークモデルを単一の画像や信号から測定に適合させることで、追加のトレーニングデータを必要とせずに、ノイズ除去や圧縮センシングなどの標準的な逆問題を優れた結果で解決することができる。
一部のアプリケーションでは、最適化の早期停止という形で追加の正規化が必要となる。
ネットワークは任意の画像に完全に適合するが、ネットワークは勾配降下から収束まで訓練された時に、少数の測定値から自然なイメージを復元する。
本稿では,この性質の数値的証拠を提供し,理論的に研究する。
トレーニングされていない畳み込みニューラルネットワークは、ほぼ最小限のランダムな測定値から、十分に構造化された信号や画像を概ね再構成することができる。 Un-trained convolutional neural networks have emerged as highly successful tools for image recovery and restoration. They are capable of solving standard inverse problems such as denoising and compressive sensing with excellent results by simply fitting a neural network model to measurements from a single image or signal without the need for any additional training data. For some applications, this critically requires additional regularization in the form of early stopping the optimization. For signal recovery from a few measurements, however, un-trained convolutional networks have an intriguing self-regularizing property: Even though the network can perfectly fit any image, the network recovers a natural image from few measurements when trained with gradient descent until convergence. In this paper, we provide numerical evidence for this property and study it theoretically. We show that---without any further regularization---an un-trained convolutional neural network can approximately reconstruct signals and images that are sufficiently structured, from a near minimal number of random measurements. | 翻訳日:2022-12-05 22:30:46 公開日:2020-05-07 |
# 隠れ視とユーザモデリングによる適応的対話政策学習 Adaptive Dialog Policy Learning with Hindsight and User Modeling ( http://arxiv.org/abs/2005.03299v1 ) ライセンス: Link先を確認 | Yan Cao, Keting Lu, Xiaoping Chen, Shiqi Zhang | (参考訳) 言語に基づく対話体験からダイアログポリシーを計算するために,強化学習法が用いられている。
効率性は、人との対話のかなりのコストと、低品質な会話によるユーザエクスペリエンスが極めて低いため、ダイアログポリシー学習において特に重要である。
対話政策学習の効率向上を目的としたアルゴリズムlhua(後見性,ユーザモデリング,適応性)を開発し,対話エージェントがシミュレーションと実ユーザの両方から後見性で適応的に学習できるようにする。
シミュレーションと後見は、ダイアログエージェントにそれぞれより経験と(肯定的な)強化を提供する。
実験結果から、LHUAは成功率と政策品質において、ノンシミュレート、ノーアダプテーション、ノーアダプテーションなど、文学の競争ベースラインを上回っていることが示唆された。 Reinforcement learning methods have been used to compute dialog policies from language-based interaction experiences. Efficiency is of particular importance in dialog policy learning, because of the considerable cost of interacting with people, and the very poor user experience from low-quality conversations. Aiming at improving the efficiency of dialog policy learning, we develop algorithm LHUA (Learning with Hindsight, User modeling, and Adaptation) that, for the first time, enables dialog agents to adaptively learn with hindsight from both simulated and real users. Simulation and hindsight provide the dialog agent with more experience and more (positive) reinforcements respectively. Experimental results suggest that, in success rate and policy quality, LHUA outperforms competitive baselines from the literature, including its no-simulation, no-adaptation, and no-hindsight counterparts. | 翻訳日:2022-12-05 22:30:10 公開日:2020-05-07 |
# WSMN: MLPとNSGA-IIを用いたシャーレット領域の多目的ブラインド透かし最適化 WSMN: An optimized multipurpose blind watermarking in Shearlet domain using MLP and NSGA-II ( http://arxiv.org/abs/2005.03382v1 ) ライセンス: Link先を確認 | Behrouz Bolourian Haghighi, Amir Hossein Taherinia, Ahad Harati, Modjtaba Rouhani | (参考訳) デジタル透かしは、マルチメディアネットワークにおける画像の誤用を避けるため、情報セキュリティの分野では顕著な問題である。
暗号化によって不正な人物へのアクセスを防げるが、著作権保護やコンテンツ認証と画像の整合性を維持するために同時に使用することはできない。
そこで本論文では,MLPやNSGA-IIといったアルゴリズムを用いて,シャーレット領域における多目的ブラインド透かしを最適化する手法を提案する。
この方法では、有効量子化手法を用いて、ロバストな著作権ロゴの4つのコピーをシアーレットの近似係数に埋め込む。
さらに、ニューラルネットワークにより詳細から半脆弱認証マークとしての埋め込みランダムシーケンスを効果的に抽出する。
最適な埋め込みしきい値を選択するための効果的な最適化アルゴリズムの実行と、ブロックのテクスチャの識別により、インセプタビリティとロバスト性が保たれてきた。
実験結果から,透かし画像の品質と,他の最先端スキームに対するハイブリッド攻撃に対する堅牢性に関して,このスキームの優位性を明らかにした。
二重透かし画像の平均PSNRとSSIMはそれぞれ38dBと0.95であり、また、著作権ロゴを効果的に抽出し、良好な精度で厳しい攻撃を受ける偽の領域を特定することができる。 Digital watermarking is a remarkable issue in the field of information security to avoid the misuse of images in multimedia networks. Although access to unauthorized persons can be prevented through cryptography, it cannot be simultaneously used for copyright protection or content authentication with the preservation of image integrity. Hence, this paper presents an optimized multipurpose blind watermarking in Shearlet domain with the help of smart algorithms including MLP and NSGA-II. In this method, four copies of the robust copyright logo are embedded in the approximate coefficients of Shearlet by using an effective quantization technique. Furthermore, an embedded random sequence as a semi-fragile authentication mark is effectively extracted from details by the neural network. Due to performing an effective optimization algorithm for selecting optimum embedding thresholds, and also distinguishing the texture of blocks, the imperceptibility and robustness have been preserved. The experimental results reveal the superiority of the scheme with regard to the quality of watermarked images and robustness against hybrid attacks over other state-of-the-art schemes. The average PSNR and SSIM of the dual watermarked images are 38 dB and 0.95, respectively; Besides, it can effectively extract the copyright logo and locates forgery regions under severe attacks with satisfactory accuracy. | 翻訳日:2022-12-05 22:29:54 公開日:2020-05-07 |
# Plan2Vec: 潜在計画による教師なし表現学習 Plan2Vec: Unsupervised Representation Learning by Latent Plans ( http://arxiv.org/abs/2005.03648v1 ) ライセンス: Link先を確認 | Ge Yang, Amy Zhang, Ari S. Morcos, Joelle Pineau, Pieter Abbeel, Roberto Calandra | (参考訳) 本稿では,強化学習にインスパイアされた教師なし表現学習手法である plan2vec を紹介する。
Plan2vecは、近距離を用いて画像データセット上に重み付きグラフを構築し、その局所距離を、計画された経路上の経路積分を蒸留することによって、グローバルな埋め込みに外挿する。
Plan2vecは、制御に適用すると、計算とサンプル効率の両方の長い地平線上で正確なゴール条件付き値推定を学習する方法を提供する。
1つのシミュレーションと2つの実世界の画像データセットに対する Plan2vec の有効性を示す。
実験の結果, Plan2vec は計画コストの削減に成功し, メモリの線形なリアクティブ計画と計算の複雑さを実現した。 In this paper we introduce plan2vec, an unsupervised representation learning approach that is inspired by reinforcement learning. Plan2vec constructs a weighted graph on an image dataset using near-neighbor distances, and then extrapolates this local metric to a global embedding by distilling path-integral over planned path. When applied to control, plan2vec offers a way to learn goal-conditioned value estimates that are accurate over long horizons that is both compute and sample efficient. We demonstrate the effectiveness of plan2vec on one simulated and two challenging real-world image datasets. Experimental results show that plan2vec successfully amortizes the planning cost, enabling reactive planning that is linear in memory and computation complexity rather than exhaustive over the entire state space. | 翻訳日:2022-12-05 22:21:48 公開日:2020-05-07 |
# フィードバックグラフを用いた強化学習 Reinforcement Learning with Feedback Graphs ( http://arxiv.org/abs/2005.03789v1 ) ライセンス: Link先を確認 | Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari, Karthik Sridharan | (参考訳) マルコフ決定過程において,エージェントがいくつかの遷移観察の形でステップごとに追加フィードバックを受けるとき,エピソディック強化学習について検討する。
このような追加観測は、拡張センサーや環境に関する事前知識(例えば、ある行動が同様の結果をもたらす場合)を通じて、様々なタスクで利用可能である。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
対数係数や下位項を無視することは、フィードバックグラフの最大非巡回部分グラフのサイズにのみ依存し、フィードバックグラフが存在しない状態の数や動作に対する多項式依存とは対照的である。
最後に,フィードバックグラフの小さな支配集合をバンディット設定に比較して活用する際の課題を強調し,そのような支配集合の知識を用いて,ほぼ最適ポリシーのよりサンプル効率の良い学習を行う新しいアルゴリズムを提案する。 We study episodic reinforcement learning in Markov decision processes when the agent receives additional feedback per step in the form of several transition observations. Such additional observations are available in a range of tasks through extended sensors or prior knowledge about the environment (e.g., when certain actions yield similar outcome). We formalize this setting using a feedback graph over state-action pairs and show that model-based algorithms can leverage the additional feedback for more sample-efficient learning. We give a regret bound that, ignoring logarithmic factors and lower-order terms, depends only on the size of the maximum acyclic subgraph of the feedback graph, in contrast with a polynomial dependency on the number of states and actions in the absence of a feedback graph. Finally, we highlight challenges when leveraging a small dominating set of the feedback graph as compared to the bandit setting and propose a new algorithm that can use knowledge of such a dominating set for more sample-efficient learning of a near-optimal policy. | 翻訳日:2022-12-05 22:21:35 公開日:2020-05-07 |
# 潜伏ガウス過程ダイナミクスを用いた画像からの計画 Planning from Images with Deep Latent Gaussian Process Dynamics ( http://arxiv.org/abs/2005.03770v1 ) ライセンス: Link先を確認 | Nathanael Bosch, Jan Achterhold, Laura Leal-Taix\'e, J\"org St\"uckler | (参考訳) 計画は既知の環境力学の問題を制御するための強力なアプローチである。
未知の環境では、エージェントは計画を適用するためにシステムダイナミクスのモデルを学ぶ必要がある。
基礎となる状態が画像を通して間接的にしか観測できない場合、これは特に困難である。
本研究では,環境相互作用と視覚観察から低次元システムダイナミクスを学習する,潜伏ガウス過程ダイナミクス(dlgpd)モデルを提案する。
この方法は、ニューラルネットワークを用いた観測から潜時状態表現を推論し、ガウス過程を用いて学習された潜時空間の系力学をモデル化する。
モデルのすべての部分は、画像空間の遷移の可能性の低い境界を最適化することで、共同で訓練することができる。
制御問題を解くために,学習された動的モデルを用いて潜在空間を計画する際の振り子発振タスクに対する提案手法の評価を行った。
また,本手法では,ほんの数回のロールアウトからシステムダイナミクスの変化に対して,トレーニングエージェントを迅速に適用できることを実証する。
本手法を最先端の純粋深層学習法と比較し,ガウス過程と深層学習を組み合わせたデータ効率とトランスファー学習の利点を示す。 Planning is a powerful approach to control problems with known environment dynamics. In unknown environments the agent needs to learn a model of the system dynamics to make planning applicable. This is particularly challenging when the underlying states are only indirectly observable through images. We propose to learn a deep latent Gaussian process dynamics (DLGPD) model that learns low-dimensional system dynamics from environment interactions with visual observations. The method infers latent state representations from observations using neural networks and models the system dynamics in the learned latent space with Gaussian processes. All parts of the model can be trained jointly by optimizing a lower bound on the likelihood of transitions in image space. We evaluate the proposed approach on the pendulum swing-up task while using the learned dynamics model for planning in latent space in order to solve the control problem. We also demonstrate that our method can quickly adapt a trained agent to changes in the system dynamics from just a few rollouts. We compare our approach to a state-of-the-art purely deep learning based method and demonstrate the advantages of combining Gaussian processes with deep learning for data efficiency and transfer learning. | 翻訳日:2022-12-05 22:20:16 公開日:2020-05-07 |