このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200323となっている論文です。

PDF登録状況(公開日: 20200323)

TitleAuthorsAbstract論文公表日・翻訳日
# カシャの法則を超える光物理学への半古典的アプローチとコンドン近似を超える振動分光 Azuleneの事例

Semiclassical Approach to Photophysics Beyond Kasha's Rule and Vibronic Spectroscopy Beyond the Condon Approximation. The Case of Azulene ( http://arxiv.org/abs/2001.08414v2 )

ライセンス: Link先を確認
Antonio Prlj, Tomislav Begu\v{s}i\'c, Zhan Tong Zhang, George Cameron Fish, Marius Wehrle, Tom\'a\v{s} Zimmermann, Seonghoon Choi, Julien Roulet, Jacques-Edouard Moser, Ji\v{r}\'i Van\'i\v{c}ek(参考訳) アズレンは2番目の励起電子状態から異常な蛍光を持つ原型分子であり、カシャの法則に違反し、コンドン近似では理解できない放射スペクトルを持つ。 アズレンやその他の非慣習分子の光物理と分光をよりよく理解するため、原子核の半古典的ダイナミクスとab慣性電子構造を組み合わせた体系的で汎用的で効率的な計算手法を開発した。 まず, 非断熱的効果を解析するために, マルチサーフェスデファス表現を用いて推定した, 厳密な断熱度測定により, 標準個体群動態を補完する。 第2に,拡張ソードガウス近似と効率的な単一ヘッセンアプローチを組み合わせた非コンドンスペクトルのシミュレーション手法を提案する。 S$_{1} \leftarrow$ S$_0$ and S$_{2} \leftarrow$ S$_0$ absorption and S$_{2} \rightarrow$ S$_0$ emission spectra of azulene, recorded in a new set of experiment, is very well with our calculations。 評価されたスペクトルの精度は、アンハーモニシティ、ヘルツベルク-テラー、モード混合効果の処理を必要とする。

Azulene is a prototypical molecule with an anomalous fluorescence from the second excited electronic state, thus violating Kasha's rule, and with an emission spectrum that cannot be understood within the Condon approximation. To better understand photophysics and spectroscopy of azulene and other non-conventional molecules, we develop a systematic, general, and efficient computational approach combining semiclassical dynamics of nuclei with ab initio electronic structure. First, to analyze the nonadiabatic effects, we complement the standard population dynamics by a rigorous measure of adiabaticity, estimated with the multiple-surface dephasing representation. Second, we propose a new semiclassical method for simulating non-Condon spectra, which combines the extended thawed Gaussian approximation with the efficient single-Hessian approach. S$_{1} \leftarrow$ S$_0$ and S$_{2} \leftarrow$ S$_0$ absorption and S$_{2} \rightarrow$ S$_0$ emission spectra of azulene, recorded in a new set of experiments, agree very well with our calculations. We find that accuracy of the evaluated spectra requires the treatment of anharmonicity, Herzberg--Teller, and mode-mixing effects.
翻訳日:2023-06-06 05:08:18 公開日:2020-03-23
# エキシトン-ポーラリトン超流動体中の暗いソリトン分子

Dark-soliton molecules in an exciton-polariton superfluid ( http://arxiv.org/abs/2001.10653v2 )

ライセンス: Link先を確認
Anne Ma\^itre, Giovanni Lerario, Adri\`a Medeiros, Ferdinand Claude, Quentin Glorieux, Elisabeth Giacobino, Simon Pigeon and Alberto Bramati(参考訳) ダークソリトン一般理論は反発的な相互作用に依存し、したがってダークソリトン結合状態を形成することができないことを予測している。 この予測の重要な例外は、非局所非線形媒体における境界ソリトンの観測である。 ここで,エキシトン-ポーラリトン超流動体は,相互作用が完全に局所的であるにもかかわらず,ダークソリトン分子も維持可能であることを報告する。 全く新しい光学技術で、2つのダークソリトンを生成し、それらを互いに結合させ、非伝統的なダークソリトン分子を形成する。 この構造の安定性と2つのダークソリトン間の分離距離は、偏光子流体の駆動散逸性に強く結びついていることを示す。

The general theory of dark solitons relies on repulsive interactions and therefore predicts the impossibility to form dark-soliton bound states. One important exception to this prediction is the observation of bound solitons in non-local nonlinear media. Here, we report that exciton-polariton superfluids can also sustain dark-soliton molecules although the interactions are fully local. With a novel all optical technique, we create two dark solitons and bind them to each other to form an unconventional dark-soliton molecule. We demonstrate that the stability of this structure and the separation distance between two dark-solitons is tightly connected to the driven-dissipative nature of the polariton fluid.
翻訳日:2023-06-05 07:02:48 公開日:2020-03-23
# 射影的測定による3ドル準位系の量子熱ゆらぎ関係

Quantum-heat fluctuation relations in $3$-level systems under projective measurements ( http://arxiv.org/abs/2002.12059v3 )

ライセンス: Link先を確認
Guido Giachetti, Stefano Gherardini, Andrea Trombettoni, Stefano Ruffo(参考訳) 本研究では,3レベル量子系のエネルギーゆらぎの統計を,射影量子測定の系列に照らして検討する。 予想通り、量子ジャージンスキー等式(quantum jarzynski equal)は初期状態が熱的であることを保証する。 後者の条件は2段階のシステムでは自明に満足するが、一般的には$n$-レベルシステムでは$n > 2$では正しくない。 3段階の系に焦点をあて、ジャジンスキー等式における有効な逆温度の役割を正式に果たす一意的なエネルギースケール因子 $\beta_{\rm eff}$ の発生について議論する。 本研究の目的は, 温度および非熱成分の観点から初期状態の適切なパラメトリゼーションを導入することである。 我々は、多数の測定値に対して$\beta_{\rm eff}$の値を決定し、初期状態への依存性を研究する。 我々の予測は量子光学で実験的に検証できる。

We study the statistics of energy fluctuations in a three-level quantum system subject to a sequence of projective quantum measurements. We check that, as expected, the quantum Jarzynski equality holds provided that the initial state is thermal. The latter condition is trivially satisfied for two-level systems, while this is generally no longer true for $N$-level systems, with $N > 2$. Focusing on three-level systems, we discuss the occurrence of a unique energy scale factor $\beta_{\rm eff}$ that formally plays the role of an effective inverse temperature in the Jarzynski equality. To this aim, we introduce a suitable parametrization of the initial state in terms of a thermal and a non-thermal component. We determine the value of $\beta_{\rm eff}$ for a large number of measurements and study its dependence on the initial state. Our predictions could be checked experimentally in quantum optics.
翻訳日:2023-06-01 12:36:32 公開日:2020-03-23
# 量子アニーリングを用いたシャストリー・サザランドアイシングモデルのシミュレーション

Simulating the Shastry-Sutherland Ising Model using Quantum Annealing ( http://arxiv.org/abs/2003.01019v2 )

ライセンス: Link先を確認
Paul Kairys, Andrew D. King, Isil Ozfidan, Kelly Boothby, Jack Raymond, Arnab Banerjee, Travis S. Humble(参考訳) フラストレーションは、微視的ハミルトニアンの制約が同時に満たされないとき、磁性物質の挙動において不可欠な特徴である。 これにより、スピン液体、スピン氷、ストライプ相を含む物質のエキゾチックな相が生じる。 ここでは,468スピンのシャストリー・サザーランド・イジング・ハミルトンの位相を量子アニーラーを用いて計算することにより,フラストレーションの微視的効果を理解するためのアプローチを示す。 提案手法では, 平均場境界条件を用いて, 有限サイズおよび欠陥の影響を緩和し, 統計物理のシミュレーションを行う。 有名な分数磁化台地を含むシャストリー・サザーランド・イジングモデルのすべての相と、これらの遷移における臨界挙動を特徴づける静的構造因子を回復する。 これらの結果は、新しい物質の相の出現に対するフラストレーションの影響を理解する新しい方法として量子アニールを確立し、実際の実験と将来の比較の道を開く。

Frustration represents an essential feature in the behavior of magnetic materials when constraints on the microscopic Hamiltonian cannot be satisfied simultaneously. This gives rise to exotic phases of matter including spin liquids, spin ices, and stripe phases. Here we demonstrate an approach to understanding the microscopic effects of frustration by computing the phases of a 468-spin Shastry-Sutherland Ising Hamiltonian using a quantum annealer. Our approach uses mean-field boundary conditions to mitigate effects of finite size and defects alongside an iterative quantum annealing protocol to simulate statistical physics. We recover all phases of the Shastry-Sutherland Ising model -- including the well-known fractional magnetization plateau -- and the static structure factor characterizing the critical behavior at these transitions. These results establish quantum annealing as an emerging method in understanding the effects of frustration on the emergence of novel phases of matter and pave the way for future comparisons with real experiments.
翻訳日:2023-05-31 12:22:40 公開日:2020-03-23
# タイル構造からの拡張不能な製品ベースとその局所絡み合い支援識別性

Unextendible product bases from tile structures and their local entanglement-assisted distinguishability ( http://arxiv.org/abs/2003.03898v2 )

ライセンス: Link先を確認
Fei Shi, Xiande Zhang, and Lin Chen(参考訳) タイル構造が拡張不可能な積基底(UPB)を提供するときの条件を完全に特徴づけ、任意の$n\geq m\geq 3$に対して$\mathbb{C}^m\otimes\mathbb{C}^n$で異なる大きさの UPB を構成する。 これは[S. Halder et al., Phys. Rev. A 99, 062329 (2019)]の開問題を解く。 アプリケーションとして、我々の UPBs of size $(mn-4\lfloor\frac{m-1}{2}\rfloor)$ in $\mathbb{C}^m\otimes\mathbb{C}^n$ は、局所的な演算と古典的な通信によって完全に区別できることを示し、$\lceil\frac{m}{2}\rceil\otimes\lceil\frac{m}{2}\rceil$ maximally entangled state を補助する。

We completely characterize the condition when a tile structure provides an unextendible product basis (UPB), and construct UPBs of different large sizes in $\mathbb{C}^m\otimes\mathbb{C}^n$ for any $n\geq m\geq 3$. This solves an open problem in [S. Halder et al., Phys. Rev. A 99, 062329 (2019)]. As an application, we show that our UPBs of size $(mn-4\lfloor\frac{m-1}{2}\rfloor)$ in $\mathbb{C}^m\otimes\mathbb{C}^n$ can be perfectly distinguished by local operations and classical communications assisted with a $\lceil\frac{m}{2}\rceil\otimes\lceil\frac{m}{2}\rceil$ maximally entangled state.
翻訳日:2023-05-30 03:23:23 公開日:2020-03-23
# ハイゼンベルクXYZスピンモデルにおける環境の影響

Effect of environment in Heisenberg XYZ spin model ( http://arxiv.org/abs/2003.09173v2 )

ライセンス: Link先を確認
Indrajith. V.S and R. Sankaranarayanan(参考訳) ハイゼンベルクXYZスピン系における環境存在下でのバイパートライト状態の量子相関について検討した。 システムが環境とエネルギーを交換することが許された場合、初期状態は進化し、漸近的限界の中で非相関状態に落ち着く。 また,忠実度に基づく非局所性測定は相関量子状態の特徴付けに有用であることを示した。

Quantum correlation of bipartite states (beyond entanglement) in presence of environment is studied for Heisenberg XYZ spin system. It is shown that if the system is allowed to exchange energy with environment, the initial state evolves and settles down to uncorrelated state in asymptotic limit. We have also demonstrated that fidelity based measurement induced non-locality is a useful quantity in characterizing correlated quantum states.
翻訳日:2023-05-28 15:47:46 公開日:2020-03-23
# 共振子と共振子による量子干渉のロバスト安定性

Robust stability of quantum interference realized by coexisting detuned and resonant STIRAPs ( http://arxiv.org/abs/2003.10058v1 )

ライセンス: Link先を確認
Yichun Gao and Jianqin Xu and Jing Qian(参考訳) 最近の実験[Phys]に触発された。 Rev. Letts 既往の量子干渉がStimulated Raman adiabatic passage (STIRAP) で観測されたのは、共振共振器とデチュートされたSTIRAPによるものであり、この効果をレーザーノイズ、不完全共振条件および励起状態崩壊の外部磁場変動に対するロバスト性を明らかにするために包括的に研究した。 準暗黒状態によって保持時間に蓄積された補助動的位相は、干渉縞の可視性と周波数を敏感に操作することができ、超微細エネルギーを正確に測定するための新しい指標を示す。 スキームの頑健な安定性は、STIRAP自体に埋め込まれた固有の優越性から来ており、実際的な実装において量子干渉品質の顕著な保存を約束している。

Inspired by a recent experiment [Phys. Rev. Letts. \textbf{122}, 253201(2019)] that an unprecedented quantum interference was observed in the way of Stimulated Raman adiabatic passage (STIRAP) due to the coexisting resonant- and detuned-STIRAPs, we comprehensively study this effect for uncovering its robustness towards the external-field fluctuations of laser noise, imperfect resonance condition as well as the excited-state decaying. We verify that, an auxiliary dynamical phase accumulated in hold time caused by the quasi-dark state can sensitively manipulate the visibility and frequency of the interference fringe, representing a new hallmark to measure the hyperfine energy accurately. The robust stability of scheme comes from the intrinsic superiority embedded in STIRAP itself, which promises a remarkable preservation of the quantum interference quality in a practical implementation.
翻訳日:2023-05-28 07:49:10 公開日:2020-03-23
# 量子技術のための最適制御入門

An introduction into optimal control for quantum technologies ( http://arxiv.org/abs/2003.10132v1 )

ライセンス: Link先を確認
Frank K. Wilhelm (1), Susanna Kirchhoff (1), Shai Machnes (1), Nicolas Wittler (1), and Dominique Sugny (2) ((1) Theoretical Physics, Saarland University, Saarbr\"ucken, (2) Laboratoire Interdisciplinaire Carnot de Bourgogne (ICB) UMR 6303 CNRS-Universit\'e Bourgogne-Franche Comt\'e)(参考訳) この一連の講義では,量子最適制御を聴衆に紹介したい。 最初の講義では、最適制御の基本的な考え方と原則を、ジャーゴンのデミスト化の目標として取り上げる。 第2の講義では、その実装と概念的な背景のために計算ツール(紙上とコンピュータ上での計算)について説明する。 第3章では、量子技術のさまざまな応用から人気の例を紹介します。

In this series of lectures, we would like to introduce the audience to quantum optimal control. The first lecture will cover basic ideas and principles of optimal control with the goal of demystifying its jargon. The second lecture will describe computational tools (for computations both on paper and in a computer) for its implementation as well as their conceptual background. The third chapter will go through a series of popular examples from different applications of quantum technology.
翻訳日:2023-05-28 07:46:40 公開日:2020-03-23
# 磁化可能な原子と強磁性誘電体プレート間のカシミール・ポルダー相互作用のNernst熱定理

Nernst heat theorem for the Casimir-Polder interaction between a magnetizable atom and ferromagnetic dielectric plate ( http://arxiv.org/abs/2003.10101v1 )

ライセンス: Link先を確認
C. C. Korikov and V. M. Mostepanenko(参考訳) 強磁性誘電体材料からなる板と相互作用する偏光・磁化性原子に対するカシミール-ポルダー自由エネルギーの低温挙動を見いだした。 対応するカシミール・ポルダーエントロピーは消滅温度でゼロとなること、すなわち、プレート材料のdc伝導率が計算で無視されている場合、ネルンスト熱定理が満たされることが示されている。 dc の導電性を考慮すると、ネルンストの定理は破られる。 これらの結果は最近の実験に照らして論じられている。

We find the low-temperature behavior of the Casimir-Polder free energy for a polarizable and magnetizable atom interacting with a plate made of ferromagnetic dielectric material. It is shown that the corresponding Casimir-Polder entropy goes to zero with vanishing temperature, i.e., the Nernst heat theorem is satisfied, if the dc conductivity of the plate material is disregarded in calculations. If the dc conductivity is taken into account, the Nernst theorem is violated. These results are discussed in light of recent experiments.
翻訳日:2023-05-28 07:45:53 公開日:2020-03-23
# $\mathcal{RT}$対称性を持つ非エルミートイジングモデルの退化基底状態に対する有効非エルミート物理学

Effective non-Hermitian physics for degenerate ground states of a nonHermitian Ising model with $\mathcal{RT}$ symmetry ( http://arxiv.org/abs/2003.10099v1 )

ライセンス: Link先を確認
Can Wang, Meng-Lei Yang, Cui-Xian Guo, Xiao-Ming Zhao and Su-Peng Kou(参考訳) 本稿では、2つの(ほぼ)縮退した基底状態に対する非エルミート物理学について,$\mathcal{rt}$-invariant項を持つ1次元非エルミートスピンモデルに基づいて検討する。 高次摂動法を用いて、数値計算と正確に一致する2つの(ほぼ)縮退した基底状態に対する非エルミート物理学を記述する効果的な擬似スピンモデルを得る。 2つの(ほぼ)縮退した基底状態の効果的な擬スピンモデルに対して、有効な(anti)$\mathcal{pt}$ symmetry が存在することを見出した。 特に、外部場に可変パラメータを持つ位相的縮退基底状態に対する自発的(anti)$\mathcal{pt}$-symmetry breakingが存在する。 また、非常に小さな想像上の外部フィールドが適用しても、$\mathcal{pt}$位相遷移が促進されることもわかりました。

In this paper, based on a one-dimensional non-Hermitian spin model with $\mathcal{RT}$-invariant term, we study the non-Hermitian physics for the two (nearly) degenerate ground states. By using the high-order perturbation method, an effective pseudo-spin model is obtained to describe non-Hermitian physics for the two (nearly) degenerate ground states, which are precisely consistent with the numerical calculations. We found that there may exist effective (anti) $\mathcal{PT}$ symmetry for the effective pseudo-spin model of the two (nearly) degenerate ground states. In particular, there exists spontaneous (anti) $\mathcal{PT}$ -symmetry breaking for the topological degenerate ground states with tunable parameters in external fields. We also found that even a very tiny imaginary external field applied will drive $\mathcal{PT}$ phase transition.
翻訳日:2023-05-28 07:45:43 公開日:2020-03-23
# 駆動散逸性Rydberg分極の量子多体ダイナミクス

Quantum many-body dynamics of driven-dissipative Rydberg polaritons ( http://arxiv.org/abs/2003.10463v1 )

ライセンス: Link先を確認
T. Pistorius, J. Kazemi, H. Weimer(参考訳) 一次元光学格子中の原子媒質中における強い相互作用を持つリドベルク偏光子の伝播について検討した。 我々は、現実的な仮定の下での暗黒状態ポラリトンのダイナミクスを記述するために有効な単バンドハバードモデルを求める。 本モデルでは,一方のコヒーレントドライブを考慮し,また準安定リドベルク状態の自然放出を含めることで,極性粒子の系中への駆動散逸輸送を解析する。 多体問題を解くために変分法を用いて、ライドバーグ状態の崩壊による損失にもかかわらず、放出する光子の強い反束を見つける。

We study the propagation of strongly interacting Rydberg polaritons through an atomic medium in a one-dimensional optical lattice. We derive an effective single-band Hubbard model to describe the dynamics of the dark state polaritons under realistic assumptions. Within this model, we analyze the driven-dissipative transport of polaritons through the system by considering a coherent drive on one side and by including the spontaneous emission of the metastable Rydberg state. Using a variational approch to solve the many-body problem, we find strong antibunching of the outgoing photons despite the losses from the Rydberg state decay.
翻訳日:2023-05-28 07:37:00 公開日:2020-03-23
# 合成フロッケ超格子におけるカオス支援トンネル共鳴

Chaos-assisted tunneling resonances in a synthetic Floquet superlattice ( http://arxiv.org/abs/2003.10387v1 )

ライセンス: Link先を確認
M. Arnal, G. Chatelain, M. Martinez, N. Dupont, O. Giraud, D. Ullmo, B. Georgeot, G. Lemari\'e, J. Billy and D. Gu\'ery-Odelin(参考訳) チューナブル量子システムを使って他の量子システムをシミュレートする量子シミュレーションの分野は、過去数年間、全目的量子コンピュータに代わるものとして急速に発展してきた。 特に、時間駆動の使用は、ある高速運転が新しいトポロジカル効果を生じさせることを示したことや、強い運転は例えばアンダーソン局在化物理学に導かれることなどから、近年大きな関心を集めている。 本研究では、カオス支援トンネル法と呼ばれる量子カオス輸送機構を観測する中間状態に着目し、量子シミュレーションのための新しい制御可能性を提供する。 実際、この構造は、安定した軌道が不安定なカオス軌道の大きな海に囲まれた島を形成するリッチな古典的位相空間を生み出す。 これは、レギュラー諸島に局在する量子状態に対する効果的な超格子を模倣し、新しい制御可能なトンネル特性を持つ。 潜在的な障壁を通る標準的な教科書のトンネルの他に、カオス支援トンネルは、隣の常島にある量子状態間のカップリングがカオス海に広がる他の状態によって媒介される、よりリッチなトンネルプロセスに対応する。 この過程は、トンネル速度が短い範囲のパラメータで桁違いに変化する鋭い共鳴を引き起こす。 量子システムで初めてこれらの共鳴を実験的に実証し、特徴付ける。 これにより、長距離輸送による新しい種類の量子シミュレーションと、複雑性による量子システムの新しいタイプの制御への道が開ける。

The field of quantum simulation, which aims at using a tunable quantum system to simulate another, has been developing fast in the past years as an alternative to the all-purpose quantum computer. In particular, the use of temporal driving has attracted a huge interest recently as it was shown that certain fast drivings can create new topological effects, while a strong driving leads to e.g. Anderson localization physics. In this work, we focus on the intermediate regime to observe a quantum chaos transport mechanism called chaos-assisted tunneling which provides new possibilities of control for quantum simulation. Indeed, this regime generates a rich classical phase space where stable trajectories form islands surrounded by a large sea of unstable chaotic orbits. This mimics an effective superlattice for the quantum states localized in the regular islands, with new controllable tunneling properties. Besides the standard textbook tunneling through a potential barrier, chaos-assisted tunneling corresponds to a much richer tunneling process where the coupling between quantum states located in neighboring regular islands is mediated by other states spread over the chaotic sea. This process induces sharp resonances where the tunneling rate varies by orders of magnitude over a short range of parameters. We experimentally demonstrate and characterize these resonances for the first time in a quantum system. This opens the way to new kinds of quantum simulations with long-range transport and new types of control of quantum systems through complexity.
翻訳日:2023-05-28 07:36:30 公開日:2020-03-23
# 状態の崩壊と不確実性原理について

On the collapse of states and the uncertainty principle ( http://arxiv.org/abs/2003.10385v1 )

ライセンス: Link先を確認
Sankarshan Sahu(参考訳) 一般的なコペンハーゲン解釈を用いた量子力学の以前の説明は成功していた。 本稿では、電磁場理論からコペンハーゲン解釈の等価な数学的構造を構築し、不確実性原理が状態の崩壊とどのように関連しているかを示す。 また,量子力学の理解に向けて,より直感的な方法を提案する。

There had been previous successful explanations of Quantum Mechanics using the popular Copenhagen interpretation. In this paper,we build an equivalent mathematical structure of Copenhagen Interpretation from the Electromagnetic Field Theory and show how un-certainty principle is associated with the collapse of states. We also try to provide a more intuitive method towards our understanding of Quantum Mechanics.
翻訳日:2023-05-28 07:36:09 公開日:2020-03-23
# リオデジャネイロ大都市圏における魅力と社会経済的複雑性の指標としてのエントロピー

Entropy as a measure of attractiveness and socioeconomic complexity in Rio de Janeiro metropolitan area ( http://arxiv.org/abs/2003.10340v1 )

ライセンス: Link先を確認
Maxime Lenormand, Horacio Samaniego, Julio C. Chaves, Vinicius F. Vieira, Moacyr A. H. B. da Silva and Alexandre G. Evsukoff(参考訳) 都市環境全体の空間的不等式の定義と測定は複雑で分かりにくい作業であり、大規模な位置情報データベースの可用性の向上によって促進されている。 本研究では,リオデジャネイロ大都市圏 (brazil) における訪問客の居住場所の多様性として,携帯電話データセットとエントロピーに基づく指標を用いて,居住地の魅力を測定した。 その結果、エントロピーによって測定された特定の位置の魅力は、その位置の社会経済状態の重要な記述者であり、複雑な社会経済指標のプロキシとして使用できることが示された。

Defining and measuring spatial inequalities across the urban environment remains a complex and elusive task that has been facilitated by the increasing availability of large geolocated databases. In this study, we rely on a mobile phone dataset and an entropy-based metric to measure the attractiveness of a location in the Rio de Janeiro Metropolitan Area (Brazil) as the diversity of visitors' location of residence. The results show that the attractiveness of a given location measured by entropy is an important descriptor of the socioeconomic status of the location, and can thus be used as a proxy for complex socioeconomic indicators.
翻訳日:2023-05-28 07:35:38 公開日:2020-03-23
# キラル分子のエナンチオマー選択的状態転移に対する二経路干渉

Two-path interference for enantiomer-selective state transfer of chiral molecules ( http://arxiv.org/abs/2003.10334v1 )

ライセンス: Link先を確認
Jin-Lei Wu, Yan Wang, Jin-Xuan Han, Cong Wang, Shi-Lei Su, Yan Xia, Yongyuan Jiang, and Jie Song(参考訳) マイクロ波-電子サイクリック三状態構成により、直接1光子カップリングと有効2光子カップリングの2経路干渉によりエナンチオマー選択状態転送~(ESST)を行う。 2つのエナンチオマー間の1光子過程における$\pi$-phaseの差は、1つのエナンチオマーの干渉を妨害するが、もう1つのエナンチオマーは破壊的である。 したがって、1つのエナンチオマーのみがより高い回転状態に励起され、もう1つは基底状態に留まる。 このスキームはパルス波形と2つの経路の時間順序に柔軟性がある。 このスキームをシクロヘキシルメタノール~(c$_7$h$_{14}$o)分子のサンプルでシミュレートした。 実験的関心事を考慮した場合, 堅牢かつ高忠実なESSTが得られることを示す。 最後に、enantio-separationを実装し、enantiomeric excessを決定するために、完了したESSTを採用することを提案する。

With a microwave-regime cyclic three-state configuration, an enantiomer-selective state transfer~(ESST) is carried out through the two-path interference between a direct one-photon coupling and an effective two-photon coupling. The $\pi$-phase difference in the one-photon process between two enantiomers makes the interference constructive for one enantiomer but destructive for the other. Therefore only one enantiomer is excited into a higher rotational state while the other remains in the ground state. The scheme is of flexibility in the pulse waveforms and the time order of two paths. We simulate the scheme in a sample of cyclohexylmethanol~(C$_7$H$_{14}$O) molecules. Simulative results show the robust and high-fidelity ESST can be obtained when experimental concerns are considered. Finally, we propose to employ the finished ESST in implementing enantio-separation and determining enantiomeric excess.
翻訳日:2023-05-28 07:35:26 公開日:2020-03-23
# 二次元電子系における一般化スピン軌道相互作用

Generalized spin-orbit interaction in two-dimensional electron systems ( http://arxiv.org/abs/2003.14245v1 )

ライセンス: Link先を確認
A. A. Eremko, L. Brizhik, V.M. Loktev(参考訳) スピン場の基本励起として電子と陽電子を記述するディラック量子場理論のフレームにおいて、スピン-軌道相互作用の一般化作用素は、外部ポテンシャルの存在を考慮したスピノル場のハミルトン作用素における非相対論的近似を用いて得られる。 この演算子は既知のものに加えて新しい用語を含むことが示されている。 量子井戸の形でのモデルポテンシャルの例により、一般化されたスピン軌道相互作用作用素を持つシュレーディンガー方程式がディラック方程式から直接得られるすべてのスピン状態を記述することを示した。 量子井戸に局在した準2次元電子系のスピン状態に対するスピン軌道相互作用の依存性を解析する。 量子井戸層内の電流は電荷キャリアのスピン分極を層の境界面付近で誘導し、電荷キャリアの分極は異なる表面で反対であることを実証した。 この現象はスピン軌道相互作用によって現れ、スピンホール効果(英語版)として知られる。

In frame of Dirac quantum field theory that describes electrons and positrons as elementary excitations of the spinor field, the generalized operator of the spin-orbit interaction is obtained using non-relativistic approximation in the Hamilton operator of the spinor field taking into account the presence of an external potential. This operator is shown to contain a new term in addition to the known ones. By an example of a model potential in the form of a quantum well, it is demonstrated that the Schroedinger equation with the generalized spin-orbit interaction operator describes all spin states obtained directly from the Dirac equation. The dependence of the spin-orbit interaction on the spin states in quasi-two-dimensional systems of electrons localized in a quantum well is analyzed. It is demonstrated that the electric current in the quantum well layer induces the spin polarization of charge carriers near the boundary surfaces of the layer, with the polarization of the charge carriers being opposite at the different surfaces. This phenomenon appears due to the spin-orbit interaction and is known as the spin Hall effect, which was observed experimentally in heterostructures with the corresponding geometry.
翻訳日:2023-05-28 07:28:41 公開日:2020-03-23
# 真空複屈折検出のためのハイゼンベルク限界について

On the Heisenberg limit for detecting vacuum birefringence ( http://arxiv.org/abs/2003.10519v1 )

ライセンス: Link先を確認
N. Ahmadiniaz, T.E. Cowan, R. Sauerbrey, U. Schramm, H.-P. Schlenvoigt and R. Sch\"utzhold(参考訳) 量子電磁力学は真空が双屈折などの効果を含む非線形媒質として振る舞うことを予測する。 しかし、実験で利用可能な電界強度に対して、この真空偏光性は極めて小さく測定が困難である。 量子距離論におけるハイゼンベルク極限に類似して、与えられた強磁場(ポンプ場)におけるそのような検出の最小限の要件を研究する。 プローブ場としてレーザーパルスを用いると、そのエネルギーは相互作用時間によって一定の閾値を超えなければならない。 しかし、このしきい値、すなわちハイゼンベルク極限における検出は、非常に非線形な測定スキームを必要とするが、通常の線形光学スキームでは、必要なエネルギー(ポアソンやショットノイズの限界)ははるかに大きい。 最後に,現在検討中のいくつかの実験シナリオについて考察する。

Quantum electrodynamics predicts the vacuum to behave as a non-linear medium, including effects such as birefringence. However, for experimentally available field strengths, this vacuum polarizability is extremely small and thus very hard to measure. In analogy to the Heisenberg limit in quantum metrology, we study the minimum requirements for such a detection in a given strong field (the pump field). Using a laser pulse as the probe field, we find that its energy must exceed a certain threshold depending on the interaction time. However, a detection at that threshold, i.e., the Heisenberg limit, requires highly non-linear measurement schemes - while for ordinary linear-optics schemes, the required energy (Poisson or shot noise limit) is much larger. Finally, we discuss several currently considered experimental scenarios from this point of view.
翻訳日:2023-05-28 07:27:28 公開日:2020-03-23
# 学術的トピックがaltmetricソースにどのように移行するか? ビッグデータ研究領域の事例研究

How do academic topics shift across altmetric sources? A case study of the research area of Big Data ( http://arxiv.org/abs/2003.10508v1 )

ライセンス: Link先を確認
Xiaozan Lyu and Rodrigo Costas(参考訳) ビッグデータの研究領域をケーススタディとして、さまざまなアルトメトリックソースをまたがるオーディエンス間のインタラクションを通じて、学術的トピックがどのように変化するかを検討するためのアプローチを提案する。 データはWeb of Science(WoS)とAltmetric.comから入手され、ブログ、ニュース、ポリシー、ウィキペディア、Twitterに焦点が当てられている。 出版物からの著者キーワードとオンラインイベントからの用語は、altmetricで出版物の主要なトピックと彼らの聴衆のオンライン議論として抽出される。 著者が提示するトピックとオンラインオーディエンスが提示するトピックとの(相違)類似性を決定するために、異なる尺度が適用される。 結果は、ビッグデータ科学研究に関する2つのトピックには、全体として大きな違いがあることを示している。 主な例外はTwitterで、ツイート中の高周波ハッシュタグは出版物の著者のキーワードと強く一致している。 オンラインコミュニティの中で、ブログやニュースは一般的に使われる用語に強い類似性を示し、政策文書やwikipediaの記事はビッグデータ関連の研究を考察し解釈する上で最も異なる類似性を示している。 特に、聴衆は、社会的または一般的な問題に関するより分かりやすい学術的トピックに焦点をあてるだけでなく、オンライン議論において幅広いトピックに拡張する。 本研究は,オンライン・コミュニティにおける学術的話題の変容におけるオンライン・オーディエンスの役割,および学術的内容の関心度と受容度に関するさらなる調査の基盤となるものである。

Taking the research area of Big Data as a case study, we propose an approach for exploring how academic topics shift through the interactions among audiences across different altmetric sources. Data used is obtained from Web of Science (WoS) and Altmetric.com, with a focus on Blog, News, Policy, Wikipedia, and Twitter. Author keywords from publications and terms from online events are extracted as the main topics of the publications and the online discussion of their audiences at Altmetric. Different measures are applied to determine the (dis)similarities between the topics put forward by the publication authors and those by the online audiences. Results show that overall there are substantial differences between the two sets of topics around Big Data scientific research. The main exception is Twitter, where high-frequency hashtags in tweets have a stronger concordance with the author keywords in publications. Among the online communities, Blogs and News show a strong similarity in the terms commonly used, while Policy documents and Wikipedia articles exhibit the strongest dissimilarity in considering and interpreting Big Data related research. Specifically, the audiences not only focus on more easy-to-understand academic topics related to social or general issues, but also extend them to a broader range of topics in their online discussions. This study lays the foundations for further investigations about the role of online audiences in the transformation of academic topics across altmetric sources, and the degree of concern and reception of scholarly contents by online communities.
翻訳日:2023-05-28 07:26:55 公開日:2020-03-23
# 量子鍵配電システムのセキュリティ脆弱性としてのバックフラッシュ光

Backflash Light as a Security Vulnerability in Quantum Key Distribution Systems ( http://arxiv.org/abs/2003.10478v1 )

ライセンス: Link先を確認
Ivan Vybornyi, Abderrahmen Trichili, Mohamed-Slim Alouini(参考訳) 量子力学の基本的なルールに基づいて、2つの通信相手が秘密のランダムキーを生成し、共有し、セキュアでないチャネルで送信されたメッセージを暗号化して復号することができる。 この過程は量子鍵分布 (qkd) と呼ばれる。 古典的な暗号方式とは異なり、qkdシステムのセキュリティは特定の数学的問題の計算複雑性に依存しない。 しかし、QKDシステムは様々な種類の攻撃を受け、システムを構成するコンポーネントのエンジニアリングと技術的欠陥を利用することができる。 ここでは、QKDのセキュリティ脆弱性についてレビューする。 我々は主に、盗聴攻撃の源となるバックフラッシュ光と呼ばれる特定の効果に焦点を当てている。 バックフラッシュの排出を定量化する手法と、この効果を緩和するさまざまな方法を同様に強調する。

Based on the fundamental rules of quantum mechanics, two communicating parties can generate and share a secret random key that can be used to encrypt and decrypt messages sent over an insecure channel. This process is known as quantum key distribution (QKD). Contrary to classical encryption schemes, the security of a QKD system does not depend on the computational complexity of specific mathematical problems. However, QKD systems can be subject to different kinds of attacks, exploiting engineering and technical imperfections of the components forming the systems. Here, we review the security vulnerabilities of QKD. We mainly focus on a particular effect known as backflash light, which can be a source of eavesdropping attacks. We equally highlight the methods for quantifying backflash emission and the different ways to mitigate this effect.
翻訳日:2023-05-28 07:26:05 公開日:2020-03-23
# インスタンス探索のための深部活性化塩分領域

Deeply Activated Salient Region for Instance Search ( http://arxiv.org/abs/2002.00185v3 )

ライセンス: Link先を確認
Hui-Chu Xiao, Wan-Lei Zhao, Jie Lin, and Chong-Wah Ngo(参考訳) インスタンス検索のパフォーマンスは、ビデオ/イメージコレクション内のさまざまなオブジェクトインスタンスの特定と記述能力に大きく依存します。 インスタンスの配置と特徴表現の導出に適切なメカニズムがないため、インスタンス検索は一般的に既知のオブジェクトカテゴリのインスタンス検索にのみ有効である。 本稿では,単純だが効果的なインスタンスレベルの特徴表現を提案する。 他のアプローチとは異なり、クラス非依存なインスタンスのローカライゼーションと特徴表現の問題は考慮される。 前者は、層毎のバックプロパゲーションプロセスによって画像から突出したインスタンス領域を検出することで達成される。 バックプロパゲーションは、もともと分類に使用されたトレーニング済みのCNNの最後の畳み込み層から始まる。 バックプロパゲーションは入力層に到達するまで層単位で進行する。 これにより、既知のカテゴリと未知のカテゴリの両方から入力イメージ内のサルエントインスタンスリージョンを起動することができる。 活性化されたそれぞれのサリエント領域は、全領域または通常、インスタンスの主要な範囲をカバーする。 特徴的特徴表現は、検出されたインスタンス領域のある層の特徴マップ上で平均プールすることで生成される。 実験により、このような特徴表現は既存のほとんどのアプローチよりもかなり優れたパフォーマンスを示します。 さらに,提案する特徴記述子は,コンテンツに基づく画像検索にも適していることを示す。

The performance of instance search depends heavily on the ability to locate and describe a wide variety of object instances in a video/image collection. Due to the lack of proper mechanism in locating instances and deriving feature representation, instance search is generally only effective for retrieving instances of known object categories. In this paper, a simple but effective instance-level feature representation is presented. Different from other approaches, the issues in class-agnostic instance localization and distinctive feature representation are considered. The former is achieved by detecting salient instance regions from an image by a layer-wise back-propagation process. The back-propagation starts from the last convolution layer of a pre-trained CNN that is originally used for classification. The back-propagation proceeds layer-by-layer until it reaches the input layer. This allows the salient instance regions in the input image from both known and unknown categories to be activated. Each activated salient region covers the full or more usually a major range of an instance. The distinctive feature representation is produced by average-pooling on the feature map of certain layer with the detected instance region. Experiments show that such kind of feature representation demonstrates considerably better performance over most of the existing approaches. In addition, we show that the proposed feature descriptor is also suitable for content-based image search.
翻訳日:2023-01-05 01:05:16 公開日:2020-03-23
# BABO: 効率的なオブジェクト検出のためのバックグラウンドアクティベーションブラックアウト

BABO: Background Activation Black-Out for Efficient Object Detection ( http://arxiv.org/abs/2002.01609v2 )

ライセンス: Link先を確認
Byungseok Roh, Han-Cheol Cho, Myung-Ho Ju, Soon Hyung Pyo(参考訳) 近年のディープラーニングの進歩により、複数の視覚タスクからなる複雑な実世界のユースケースが実現され、ワークロード全体の前処理ステップとして検出タスクがエッジ側に移動している。 リソース制約デバイス上での深いモデルの実行は困難であるため、効率的な推論手法が要求される。 本稿では,対象オブジェクトが存在しない背景領域において,アクティベーション値をスパースすることで計算コストを低減できるオブジェクト検出手法を提案する。 スパース化アクティベーションは、ソフトウェアやハードウェアアクセラレーションのスパース畳み込み技術によって推論速度を上げるために利用することができる。 この目的を達成するために、オブジェクト検出(OD)ネットワークの前に軽量なオブジェクトマスマスク生成(OMG)ネットワークを組み込むことにより、ODネットワークに入力される前に、入力画像の不要な背景領域をゼロにすることができる。 実験では、バックグラウンドアクティベーション値をゼロに切り替えることで、ms-cocoの精度を維持しつつreluアクティベーションにおいても、mobilenetv2-ssdliteの平均値が36%から68%に増加する。 その結果,OMGネットワークとODネットワークの両方を含むMACは,非ゼロ乗算演算のみを考慮した場合,元のODモデルの62%に削減できることがわかった。 さらに、重ネットワーク(VGGとRetinaNet)と追加データセット(PASCAL VOC)でも同様の傾向を示す。

Recent advances in deep learning have enabled complex real-world use cases comprised of multiple vision tasks and detection tasks are being shifted to the edge side as a pre-processing step of the entire workload. Since running a deep model on resource-constraint devices is challenging, techniques for efficient inference methods are demanded. In this paper, we present an objectness-aware object detection method to reduce computational cost by sparsifying activation values on background regions where target objects don't exist. Sparsified activation can be exploited to increase inference speed by software or hardware accelerated sparse convolution techniques. To accomplish this goal, we incorporate a light-weight objectness mask generation (OMG) network in front of an object detection (OD) network so that it can zero out unnecessary background areas of an input image before being fed into the OD network. In experiments, by switching background activation values to zero, the average number of zero values increases further from 36% to 68% on MobileNetV2-SSDLite even with ReLU activation while maintaining accuracy on MS-COCO. This result indicates that the total MAC including both OMG and OD networks can be reduced to 62% of the original OD model when only non-zero multiply-accumulate operations are considered. Moreover, we show a similar tendency in heavy networks (VGG and RetinaNet) and an additional dataset (PASCAL VOC).
翻訳日:2023-01-03 21:39:31 公開日:2020-03-23
# 2層ニューラルネットにおける平均場学習理論:エントロピー正則化とマッキーン・ブラソフダイナミクスの制御

A mean-field theory of lazy training in two-layer neural nets: entropic regularization and controlled McKean-Vlasov dynamics ( http://arxiv.org/abs/2002.01987v3 )

ライセンス: Link先を確認
Belinda Tzen and Maxim Raginsky(参考訳) クルバック・リーブラーの発散という意味では、「ほぼガウス的」なランダム重みを持つ2層ニューラルネットワークによる関数の普遍近似の問題を考える。 この問題は、確率勾配降下によって生じる重み付けがガウス初期化から順応的に動かない遅延学習の最近の研究によって動機づけられている。 まず,隠れた層内のニューロンの有限個数が連続的なアンサンブルに置き換えられる平均場限界を考察し,本問題を重み付け上の確率測度の空間上の自由エネルギー汎関数の大域的最小化として表現できることを示した。 この関数はKLの発散に対する$L^2$近似リスクをガウスの先行中心に対して引き離す。 We characterize the unique global minimizer and then construct a controlled nonlinear dynamics in the space of probability measures over weights that solves a McKean--Vlasov optimal control problem. This control problem is closely related to the Schr\"odinger bridge (or entropic optimal transport) problem, and its value is proportional to the minimum of the free energy. Finally, we show that SGD in the lazy training regime (which can be ensured by jointly tuning the variance of the Gaussian prior and the entropic regularization parameter) serves as a greedy approximation to the optimal McKean--Vlasov distributional dynamics and provide quantitative guarantees on the $L^2$ approximation error.

We consider the problem of universal approximation of functions by two-layer neural nets with random weights that are "nearly Gaussian" in the sense of Kullback-Leibler divergence. This problem is motivated by recent works on lazy training, where the weight updates generated by stochastic gradient descent do not move appreciably from the i.i.d. Gaussian initialization. We first consider the mean-field limit, where the finite population of neurons in the hidden layer is replaced by a continual ensemble, and show that our problem can be phrased as global minimization of a free-energy functional on the space of probability measures over the weights. This functional trades off the $L^2$ approximation risk against the KL divergence with respect to a centered Gaussian prior. We characterize the unique global minimizer and then construct a controlled nonlinear dynamics in the space of probability measures over weights that solves a McKean--Vlasov optimal control problem. This control problem is closely related to the Schr\"odinger bridge (or entropic optimal transport) problem, and its value is proportional to the minimum of the free energy. Finally, we show that SGD in the lazy training regime (which can be ensured by jointly tuning the variance of the Gaussian prior and the entropic regularization parameter) serves as a greedy approximation to the optimal McKean--Vlasov distributional dynamics and provide quantitative guarantees on the $L^2$ approximation error.
翻訳日:2023-01-03 21:21:06 公開日:2020-03-23
# Waymoオープンデータセットを用いたLSTMに基づく自律走行モデル

An LSTM-Based Autonomous Driving Model Using Waymo Open Dataset ( http://arxiv.org/abs/2002.05878v2 )

ライセンス: Link先を確認
Zhicheng Gu, Zhihao Li, Xuan Di, Rongye Shi(参考訳) waymo open datasetが最近リリースされた。3d検出やトラッキングなど、自動運転車(av)の基本的な課題をクラウドソースするプラットフォームを提供する。 このデータセットは、大量の高品質でマルチソースな運転情報を提供するが、学界の人々は、Waymoの自動運転車でプログラムされている基礎的な運転ポリシーにもっと興味を持っている。 したがって、研究者はモデルやシミュレーションにAVコンポーネントを実装するための様々な仮定をしなければならないが、これは現実世界の交通における現実的な相互作用を表現していないかもしれない。 そこで本稿では,Waymoの自動運転モデルの動作を模倣する長期記憶モデル(LSTM)を学習するためのアプローチを提案する。 提案モデルは平均絶対誤差(mae)に基づいて評価されている。 実験の結果,本モデルは複数のベースラインモデルよりも動作予測に優れていることがわかった。 さらに、モデルの性能を検証するための可視化ツールが提示される。

The Waymo Open Dataset has been released recently, providing a platform to crowdsource some fundamental challenges for automated vehicles (AVs), such as 3D detection and tracking. While~the dataset provides a large amount of high-quality and multi-source driving information, people in academia are more interested in the underlying driving policy programmed in Waymo self-driving cars, which is inaccessible due to AV manufacturers' proprietary protection. Accordingly, academic researchers have to make various assumptions to implement AV components in their models or simulations, which may not represent the realistic interactions in real-world traffic. Thus, this paper introduces an approach to learn a long short-term memory (LSTM)-based model for imitating the behavior of Waymo's self-driving model. The proposed model has been evaluated based on Mean Absolute Error (MAE). The experimental results show that our model outperforms several baseline models in driving action prediction. In addition, a visualization tool is presented for verifying the performance of the model.
翻訳日:2023-01-01 04:40:54 公開日:2020-03-23
# シーケンシャル埋め込みによる医療記録評価のための比較ビジュアル分析

Comparative Visual Analytics for Assessing Medical Records with Sequence Embedding ( http://arxiv.org/abs/2002.08356v2 )

ライセンス: Link先を確認
Rongchen Guo, Takanori Fujiwara, Yiran Li, Kelly M. Lima, Soman Sen, Nam K. Tran, and Kwan-Liu Ma(参考訳) データ駆動診断のための機械学習は、より良い医療を提供するために医学で積極的に研究されている。 治療中の患者と類似した患者のコホートの分析を支援することは、臨床医が高い信頼度で決定を下すための重要な課題である。 しかし、このような分析は、高次元性、時間の不規則性、空間性といった医療記録の特徴から、簡単ではない。 この課題に対処するために,医療記録の類似性計算手法を提案する。 本手法はイベントおよびシーケンス埋め込みを用いる。 イベント埋め込みにはautoencoderを使用しますが、その変異をシーケンス埋め込みのセルフアテンションメカニズムに適用します。 さらに,データの不規則性をよりよく扱うために,時間間隔の異なる自己認識機構を強化する。 患者記録の比較研究を支援するビジュアル分析システムを開発した。 長さの異なるシーケンスの比較を容易にするため,本システムではシーケンスアライメント手法を採用している。 対話的なインタフェースにより、ユーザは興味のある患者を素早く識別し、患者の記録の時間的側面と多変量の両方を便利にレビューすることができる。 本研究は,ucデービスの新生児集中治療ユニットによる実世界データセットを用いた事例スタディを用いて,デザインとシステムの有効性を実証する。

Machine learning for data-driven diagnosis has been actively studied in medicine to provide better healthcare. Supporting analysis of a patient cohort similar to a patient under treatment is a key task for clinicians to make decisions with high confidence. However, such analysis is not straightforward due to the characteristics of medical records: high dimensionality, irregularity in time, and sparsity. To address this challenge, we introduce a method for similarity calculation of medical records. Our method employs event and sequence embeddings. While we use an autoencoder for the event embedding, we apply its variant with the self-attention mechanism for the sequence embedding. Moreover, in order to better handle the irregularity of data, we enhance the self-attention mechanism with consideration of different time intervals. We have developed a visual analytics system to support comparative studies of patient records. To make a comparison of sequences with different lengths easier, our system incorporates a sequence alignment method. Through its interactive interface, the user can quickly identify patients of interest and conveniently review both the temporal and multivariate aspects of the patient records. We demonstrate the effectiveness of our design and system with case studies using a real-world dataset from the neonatal intensive care unit of UC Davis.
翻訳日:2022-12-30 20:01:01 公開日:2020-03-23
# 臨床データの多モデル比較のためのビジュアル分析システム

A Visual Analytics System for Multi-model Comparison on Clinical Data Predictions ( http://arxiv.org/abs/2002.10998v2 )

ライセンス: Link先を確認
Yiran Li, Takanori Fujiwara, Yong K. Choi, Katherine K. Kim, Kwan-Liu Ma(参考訳) 患者の将来の状態を予測するため、医療データセットに機械学習手法を適用する傾向が高まっている。 これらの手法のいくつかは高い性能を達成するが、解釈可能な情報を通じて異なるモデルの比較と評価にはまだ課題がある。 このような分析は、臨床医が証拠に基づく医療意思決定を改善するのに役立つ。 本研究では,複数のモデルの予測基準を比較し,一貫性を評価する視覚分析システムを開発する。 我々のシステムでは,患者は,異なるモデルの内的基準と,特定の患者に対する各モデルの予測にどれほど自信を持って頼れるかを知ることができる。 本研究は,一般公開された臨床データセットのケーススタディを通じて,臨床医や研究者による異なる機械学習手法の比較と定量的評価を支援する視覚分析システムの有効性を実証する。

There is a growing trend of applying machine learning methods to medical datasets in order to predict patients' future status. Although some of these methods achieve high performance, challenges still exist in comparing and evaluating different models through their interpretable information. Such analytics can help clinicians improve evidence-based medical decision making. In this work, we develop a visual analytics system that compares multiple models' prediction criteria and evaluates their consistency. With our system, users can generate knowledge on different models' inner criteria and how confidently we can rely on each model's prediction for a certain patient. Through a case study of a publicly available clinical dataset, we demonstrate the effectiveness of our visual analytics system to assist clinicians and researchers in comparing and quantitatively evaluating different machine learning methods.
翻訳日:2022-12-30 20:00:26 公開日:2020-03-23
# 多要素最適化による深層強化学習モデルの進化

Simultaneously Evolving Deep Reinforcement Learning Models using Multifactorial Optimization ( http://arxiv.org/abs/2002.12133v2 )

ライセンス: Link先を確認
Aritz D. Martinez, Eneko Osaba, Javier Del Ser and Francisco Herrera(参考訳) 近年,MFO(Multifactorial Optimization)が研究コミュニティで注目されている。 MFOは、複数の最適化タスクに効率的に対処すると同時に、それらの収束速度を改善するために、それらのタスク間で情報を転送する能力で知られている。 一方、機械学習分野におけるDeep Q Learning(DQL)による量子飛躍は、前例のない複雑さの強化学習(RL)問題に直面した。 残念ながら、複雑なDQLモデルは通常、探索やスパース報酬の欠如のために最適なポリシに収束することが難しい。 これらの欠点を克服するために、事前学習されたモデルは、転送学習を通じて広く活用され、ソースタスクで取得した知識を対象タスクに推定する。 さらに、メタヒューリスティック最適化は、DQLモデルの探索の欠如を減らすことが示されている。 この研究は、複数のDQLモデルを同時に進化させ、関連するRLタスクを解決するためのMFOフレームワークを提案する。 具体的には,分散rlエージェントの知識伝達とポリシー学習のプロセスを自動化するために,メタヒューリスティック最適化,転送学習,dqlの利点を融合したフレームワークを提案する。 フレームワークの性能を評価するための徹底的な実験, 収束性, 速度, 政策品質の観点からのトランスファーラーニングの従来の方法論との比較, 検索プロセス上で発見・活用されるインタータスクの関係について検討した。

In recent years, Multifactorial Optimization (MFO) has gained a notable momentum in the research community. MFO is known for its inherent capability to efficiently address multiple optimization tasks at the same time, while transferring information among such tasks to improve their convergence speed. On the other hand, the quantum leap made by Deep Q Learning (DQL) in the Machine Learning field has allowed facing Reinforcement Learning (RL) problems of unprecedented complexity. Unfortunately, complex DQL models usually find it difficult to converge to optimal policies due to the lack of exploration or sparse rewards. In order to overcome these drawbacks, pre-trained models are widely harnessed via Transfer Learning, extrapolating knowledge acquired in a source task to the target task. Besides, meta-heuristic optimization has been shown to reduce the lack of exploration of DQL models. This work proposes a MFO framework capable of simultaneously evolving several DQL models towards solving interrelated RL tasks. Specifically, our proposed framework blends together the benefits of meta-heuristic optimization, Transfer Learning and DQL to automate the process of knowledge transfer and policy learning of distributed RL agents. A thorough experimentation is presented and discussed so as to assess the performance of the framework, its comparison to the traditional methodology for Transfer Learning in terms of convergence, speed and policy quality , and the intertask relationships found and exploited over the search process.
翻訳日:2022-12-28 20:18:51 公開日:2020-03-23
# クラスタ型ソーシャル強化学習

Cluster-Based Social Reinforcement Learning ( http://arxiv.org/abs/2003.00627v2 )

ライセンス: Link先を確認
Mahak Goindani, Jennifer Neville(参考訳) 大規模ネットワークにおけるエージェントをモデル化するソーシャル強化学習手法は、偽ニュースの緩和、パーソナライズされた教育/医療、バイラルマーケティングに有用であるが、ネットワークサイズとスパースなインタラクションデータにより、モデルにエージェント間の依存関係を効果的に組み込むことは困難である。 従来のソーシャルRLアプローチは、エージェント依存を無視したり、計算集約的な方法でそれらをモデル化する。 本研究では,利用者の報酬と目標への貢献に基づく)クラスタ化によるコンパクトモデルにおいて,エージェント依存性を効率的に取り入れ,クラスタレベルのポリシからエージェントレベルのポリシをパーソナライズする手法と組み合わせる。 また,ユーザ行動の変化を捉える動的クラスタリング手法を提案する。 実世界のデータセットの実験では,エージェント相関や静的クラスタのみを使用しないいくつかのベースラインと比較して,提案手法がより正確なポリシ推定を学習し,より高速に収束することを示す。

Social Reinforcement Learning methods, which model agents in large networks, are useful for fake news mitigation, personalized teaching/healthcare, and viral marketing, but it is challenging to incorporate inter-agent dependencies into the models effectively due to network size and sparse interaction data. Previous social RL approaches either ignore agents dependencies or model them in a computationally intensive manner. In this work, we incorporate agent dependencies efficiently in a compact model by clustering users (based on their payoff and contribution to the goal) and combine this with a method to easily derive personalized agent-level policies from cluster-level policies. We also propose a dynamic clustering approach that captures changing user behavior. Experiments on real-world datasets illustrate that our proposed approach learns more accurate policy estimates and converges more quickly, compared to several baselines that do not use agent correlations or only use static clusters.
翻訳日:2022-12-27 04:23:55 公開日:2020-03-23
# 非定常時系列に対する移動推定器による適応指数的電力分布

Adaptive exponential power distribution with moving estimator for nonstationary time series ( http://arxiv.org/abs/2003.02149v2 )

ライセンス: Link先を確認
Jarek Duda(参考訳) 標準推定では、すべてのデータポイントは、同じ固定パラメータの確率分布である$\theta$を前提としているが、非定常時系列の最大確率(ml)適応推定に焦点をあてる: パラメータを個別に推定する $\theta_t$ for each time $t$ using (exponential) moving ml estimator $\theta_t=\arg\max_\theta l_t$ for $l_t=\sum_{t<t} \eta^{t-t} \ln(\rho_\theta (x_t))$ and some $\eta\in(0,1]$。 このような移動推定器の計算コストは、ログライク度を複数回最適化する必要があるため、一般的にははるかに高くなります。 例えば、$\rho(x)\propto \exp(-|(x-\mu)/\sigma|^\kappa/\kappa)$ exponential power distribution (epd)ファミリは、gaussian (\kappa=2$)やlaplace (\kappa=1$)ディストリビューションのような幅広いテール動作をカバーする。 また、標準ml推定値が$\sigma^\kappa$であり平均$\|x-\mu\|^\kappa$であるため、スケールパラメータ$\sigma$の適応推定にも便利である。 平均を指数移動平均に置き換えるだけで、$(\sigma_{t+1})^\kappa=\eta(\sigma_t)^\kappa +(1-\eta)|x_t-\mu|^\kappa$ 安価に適応できる。 これはdjia企業の日々のログリターンシリーズでテストされており、標準(静的)推定よりもログライク度が向上し、最適な$\kappa$tailsタイプが企業によって異なる。 一般的な代替推定哲学は、非定常時系列解析のためのより良いモデルを構築するのに役立つツールを提供する。

While standard estimation assumes that all datapoints are from probability distribution of the same fixed parameters $\theta$, we will focus on maximum likelihood (ML) adaptive estimation for nonstationary time series: separately estimating parameters $\theta_T$ for each time $T$ based on the earlier values $(x_t)_{t<T}$ using (exponential) moving ML estimator $\theta_T=\arg\max_\theta l_T$ for $l_T=\sum_{t<T} \eta^{T-t} \ln(\rho_\theta (x_t))$ and some $\eta\in(0,1]$. Computational cost of such moving estimator is generally much higher as we need to optimize log-likelihood multiple times, however, in many cases it can be made inexpensive thanks to dependencies. We focus on such example: $\rho(x)\propto \exp(-|(x-\mu)/\sigma|^\kappa/\kappa)$ exponential power distribution (EPD) family, which covers wide range of tail behavior like Gaussian ($\kappa=2$) or Laplace ($\kappa=1$) distribution. It is also convenient for such adaptive estimation of scale parameter $\sigma$ as its standard ML estimation is $\sigma^\kappa$ being average $\|x-\mu\|^\kappa$. By just replacing average with exponential moving average: $(\sigma_{T+1})^\kappa=\eta(\sigma_T)^\kappa +(1-\eta)|x_T-\mu|^\kappa$ we can inexpensively make it adaptive. It is tested on daily log-return series for DJIA companies, leading to essentially better log-likelihoods than standard (static) estimation, with optimal $\kappa$ tails types varying between companies. Presented general alternative estimation philosophy provides tools which might be useful for building better models for analysis of nonstationary time-series.
翻訳日:2022-12-26 13:26:09 公開日:2020-03-23
# エンスモールデンによるフレキシブル数値最適化

Flexible numerical optimization with ensmallen ( http://arxiv.org/abs/2003.04103v3 )

ライセンス: Link先を確認
Ryan R. Curtin, Marcus Edel, Rahul Ganesh Prabhu, Suryoday Basak, Zhihao Lou, Conrad Sanderson(参考訳) 本報告では,数値最適化ライブラリの小型化について紹介するとともに,その動作に関する技術的な詳細を詳しく解説する。 このライブラリは、任意のユーザー供給関数の数学的最適化のための高速で柔軟なc++フレームワークを提供する。 多数のプレビルドオプティマイザが提供されており、Stochastic Gradient DescentとQuasi-Newtonオプティマイザの多くのバリエーションが含まれている。 微分可能、分離可能、制約付き、カテゴリー的目的関数など、いくつかの目的関数がサポートされている。 新しいオプティマイザの実装は1つのメソッドしか必要とせず、新しいobjective関数は1つまたは2つのc++メソッドしか必要としない。 C++テンプレートのメタプログラミングを内部で使用することにより、Ensmallenは任意のユーザから供給されるコールバックと、実行時のオーバーヘッドのないアンサプライドメソッドの自動推論をサポートする。 経験的な比較は、en Smallenが他の最適化フレームワーク(JuliaやSciPyなど)を上回っていることを示している。 このライブラリはhttps://ensmallen.orgで利用可能であり、パーミッシブBSDライセンスの下で配布されている。

This report provides an introduction to the ensmallen numerical optimization library, as well as a deep dive into the technical details of how it works. The library provides a fast and flexible C++ framework for mathematical optimization of arbitrary user-supplied functions. A large set of pre-built optimizers is provided, including many variants of Stochastic Gradient Descent and Quasi-Newton optimizers. Several types of objective functions are supported, including differentiable, separable, constrained, and categorical objective functions. Implementation of a new optimizer requires only one method, while a new objective function requires typically only one or two C++ methods. Through internal use of C++ template metaprogramming, ensmallen provides support for arbitrary user-supplied callbacks and automatic inference of unsupplied methods without any runtime overhead. Empirical comparisons show that ensmallen outperforms other optimization frameworks (such as Julia and SciPy), sometimes by large margins. The library is available at https://ensmallen.org and is distributed under the permissive BSD license.
翻訳日:2022-12-25 09:36:23 公開日:2020-03-23
# 凸包型モンテカルロ木探索

Convex Hull Monte-Carlo Tree Search ( http://arxiv.org/abs/2003.04445v2 )

ライセンス: Link先を確認
Michael Painter, Bruno Lacerda and Nick Hawes(参考訳) 本研究は,複数の目的を持った確率環境におけるエージェントのモンテカルロ計画について検討する。 本研究では,大規模環境における多目的計画の解決策として,Trial Based Heuristic Tree Search と Convex Hull Value Iteration (CHVI) をベースにした Convex Hull Monte-Carlo Tree-Search (CHMCTS) フレームワークを提案する。 さらに,多目的計画ソリューションを文脈的多武装バンディット問題として近似する問題を提起する方法を考察し,文脈的後悔の観点から行動選択の原則的動機付けを与える。 これにより、アクション選択にContextual Zoomingを使用することで、Zooming CHMCTSが得られます。 我々は, 汎用深海宝の環境を用いて, Zooming CHMCTS が, 与えられた計算予算においてCHVI よりも精度良く, サブ線形の文脈的後悔を達成できることを実証した。

This work investigates Monte-Carlo planning for agents in stochastic environments, with multiple objectives. We propose the Convex Hull Monte-Carlo Tree-Search (CHMCTS) framework, which builds upon Trial Based Heuristic Tree Search and Convex Hull Value Iteration (CHVI), as a solution to multi-objective planning in large environments. Moreover, we consider how to pose the problem of approximating multiobjective planning solutions as a contextual multi-armed bandits problem, giving a principled motivation for how to select actions from the view of contextual regret. This leads us to the use of Contextual Zooming for action selection, yielding Zooming CHMCTS. We evaluate our algorithm using the Generalised Deep Sea Treasure environment, demonstrating that Zooming CHMCTS can achieve a sublinear contextual regret and scales better than CHVI on a given computational budget.
翻訳日:2022-12-25 08:51:40 公開日:2020-03-23
# 複数のデータ型と制約付き電子健康記録の作成

Generating Electronic Health Records with Multiple Data Types and Constraints ( http://arxiv.org/abs/2003.07904v2 )

ライセンス: Link先を確認
Chao Yan, Ziqi Zhang, Steve Nyemba, Bradley A. Malin(参考訳) 電子健康記録(EHR)を大規模に共有することは、プライバシー侵害につながる可能性がある。 近年の研究では、GAN(Generative Adversarial Network)フレームワークを通じてEHRをシミュレートすることでリスクを軽減することが示されている。 しかし、これまで開発された手法は限られている。 1)1つのタイプのデータ(診断符号など)の生成、他のタイプのデータ(人口統計学、手順、重要な兆候など)の無視、および 2) 特徴間の制約を表現しない。 本稿では,複数のデータ型からなるEHRをシミュレートする手法を提案する。 1) GANモデルを精錬する。 2)特徴的制約の計算、及び 3)このような生成作業において重要な効用措置を組み込むこと。 Vanderbilt University Medical Centerの70万ドル以上のEHRによる分析によると、この新モデルは、プライバシーを犠牲にすることなく、基本的な統計、クロスフィーチャー相関、潜在構造特性、機能制約、および実際のデータからの関連パターンを保持することで、より高いパフォーマンスを実現している。

Sharing electronic health records (EHRs) on a large scale may lead to privacy intrusions. Recent research has shown that risks may be mitigated by simulating EHRs through generative adversarial network (GAN) frameworks. Yet the methods developed to date are limited because they 1) focus on generating data of a single type (e.g., diagnosis codes), neglecting other data types (e.g., demographics, procedures or vital signs) and 2) do not represent constraints between features. In this paper, we introduce a method to simulate EHRs composed of multiple data types by 1) refining the GAN model, 2) accounting for feature constraints, and 3) incorporating key utility measures for such generation tasks. Our analysis with over $770,000$ EHRs from Vanderbilt University Medical Center demonstrates that the new model achieves higher performance in terms of retaining basic statistics, cross-feature correlations, latent structural properties, feature constraints and associated patterns from real data, without sacrificing privacy.
翻訳日:2022-12-22 20:53:39 公開日:2020-03-23
# ニューロモルフィックカメラのためのイベント確率マスク(epm)とイベントデノージング畳み込みニューラルネットワーク(edncnn)

Event Probability Mask (EPM) and Event Denoising Convolutional Neural Network (EDnCNN) for Neuromorphic Cameras ( http://arxiv.org/abs/2003.08282v2 )

ライセンス: Link先を確認
R. Wes Baldwin, Mohammed Almatrafi, Vijayan Asari, Keigo Hirakawa(参考訳) 本稿では,実世界のニューロモルフィックカメラセンサデータに,短時間のウィンドウ内で各画素でイベントを発生させる確率を計算してラベル付けする手法を提案する。 その応用には (i)イベント異状化性能の客観的ベンチマーク (ii)"event denoising convolutional neural network"(edncnn)という,ノイズ除去のための畳み込みニューラルネットワークのトレーニング (iii)内的神経形態的カメラパラメータの推定 ノイズ除去のための実世界のラベル付きニューロモルフィックカメライベントの最初のデータセット(DVSNOISE20)を提供する。

This paper presents a novel method for labeling real-world neuromorphic camera sensor data by calculating the likelihood of generating an event at each pixel within a short time window, which we refer to as "event probability mask" or EPM. Its applications include (i) objective benchmarking of event denoising performance, (ii) training convolutional neural networks for noise removal called "event denoising convolutional neural network" (EDnCNN), and (iii) estimating internal neuromorphic camera parameters. We provide the first dataset (DVSNOISE20) of real-world labeled neuromorphic camera events for noise removal.
翻訳日:2022-12-22 12:51:34 公開日:2020-03-23
# 任意のシーケンス長に対するアルゴリズム学習の進歩

Progress Extrapolating Algorithmic Learning to Arbitrary Sequence Lengths ( http://arxiv.org/abs/2003.08494v2 )

ライセンス: Link先を確認
Andreas Robinson(参考訳) アルゴリズムタスクのための最近のニューラルネットワークモデルでは、トレーニングよりも長いシーケンスの補間が大幅に改善されているが、非常に長いシーケンスや逆行シーケンスでは、まだ性能が低下している。 我々はこれらの問題に対処するための代替アーキテクチャと損失期間を提案し、これらのアプローチのテストはメモリ制約の中で残されている外挿エラーを検知していない。 我々は、コピー、括弧解析、バイナリ追加を含む線形時間アルゴリズムタスクに焦点を当てる。 まず、連続操作からの計算ドリフトを避けるために、トレーニングネットワークの離散化にアクティベーションビンニングを用い、識別可能な表現を促進するために、ビニングベースのデジタル損失項を追加した。 さらに、分散メモリアクセスとは対照的に、ローカライズされた微分可能メモリ(LDM)アーキテクチャは、残りの外挿エラーに対処し、内部計算状態の非有界成長を避ける。 前回の研究では、アルゴリズムによる外挿問題はプログラムトレースに依存するアプローチでも緩和できるが、現在の取り組みはそのようなトレースに依存していない。

Recent neural network models for algorithmic tasks have led to significant improvements in extrapolation to sequences much longer than training, but it remains an outstanding problem that the performance still degrades for very long or adversarial sequences. We present alternative architectures and loss-terms to address these issues, and our testing of these approaches has not detected any remaining extrapolation errors within memory constraints. We focus on linear time algorithmic tasks including copy, parentheses parsing, and binary addition. First, activation binning was used to discretize the trained network in order to avoid computational drift from continuous operations, and a binning-based digital loss term was added to encourage discretizable representations. In addition, a localized differentiable memory (LDM) architecture, in contrast to distributed memory access, addressed remaining extrapolation errors and avoided unbounded growth of internal computational states. Previous work has found that algorithmic extrapolation issues can also be alleviated with approaches relying on program traces, but the current effort does not rely on such traces.
翻訳日:2022-12-22 09:41:18 公開日:2020-03-23
# ドメインラベルのない高分解能日時翻訳

High-Resolution Daytime Translation Without Domain Labels ( http://arxiv.org/abs/2003.08791v2 )

ライセンス: Link先を確認
Ivan Anokhin, Pavel Solovev, Denis Korzhenkov, Alexey Kharlamov, Taras Khakhulin, Alexey Silvestrov, Sergey Nikolenko, Victor Lempitsky, Gleb Sterkin(参考訳) 例えば、昼、夜、夜明けに典型的な異なる照度の下で同じシーンを再レンダリングするといった、高解像度写真の昼間変化のモデル化は、難しい画像操作タスクです。 本稿では,高分解能日時翻訳(HiDT)モデルを提案する。 HiDTは、画像間の生成モデルと、高解像度で画像翻訳を適用可能な新しいアップサンプリングスキームを組み合わせる。 このモデルは、一般的に使用されるGANメトリクスと人的評価の両方の観点から、競争結果を示す。 重要なことに、この優れたパフォーマンスは、日中ラベルのない静止した風景画像のデータセットをトレーニングした結果である。 結果はhttps://saic-mdal.github.io/hidt/で入手できます。

Modeling daytime changes in high resolution photographs, e.g., re-rendering the same scene under different illuminations typical for day, night, or dawn, is a challenging image manipulation task. We present the high-resolution daytime translation (HiDT) model for this task. HiDT combines a generative image-to-image model and a new upsampling scheme that allows to apply image translation at high resolution. The model demonstrates competitive results in terms of both commonly used GAN metrics and human evaluation. Importantly, this good performance comes as a result of training on a dataset of still landscape images with no daytime labels available. Our results are available at https://saic-mdal.github.io/HiDT/.
翻訳日:2022-12-22 04:06:56 公開日:2020-03-23
# マスク付き顔認識データセットとその応用

Masked Face Recognition Dataset and Application ( http://arxiv.org/abs/2003.09093v2 )

ライセンス: Link先を確認
Zhongyuan Wang, Guangcheng Wang, Baojin Huang, Zhangyang Xiong, Qi Hong, Hao Wu, Peng Yi, Kui Jiang, Nanxi Wang, Yingjiao Pei, Heling Chen, Yu Miao, Zhibing Huang, Jinbi Liang(参考訳) 新型コロナウイルスの感染拡大を効果的に防止するため、ほぼ全員がマスクを着用している。 これにより、コミュニティアクセス制御、顔アクセス制御、顔の出席、駅での顔のセキュリティチェックなど、多くのケースで従来の顔認識技術はほとんど効果がない。 したがって、マスク面上の既存の顔認識技術の認識性能を向上させることは極めて緊急である。 現在の高度な顔認識アプローチは、多くの顔サンプルに依存するディープラーニングに基づいて設計されている。 しかし、現時点ではマスク付き顔認識データセットは公開されていない。 そこで本研究では,MFDD(Masked Face Detection Dataset),RMFRD(Real-world Masked Face Recognition Dataset),SMFRD(Simulated Masked Face Recognition Dataset)の3種類のマスク付き顔データセットを提案する。 私たちの知る限りでは、RMFRDは現在、世界最大規模のマスク付き顔データセットです。 これらのデータセットは、マスクされた顔に様々なアプリケーションを開発することができる産業や学術に自由に利用できる。 開発したマルチグラニュラリティマスク顔認証モデルは,業界が報告した結果を上回る95%の精度を実現している。 データセットは、https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset.comから入手可能です。

In order to effectively prevent the spread of COVID-19 virus, almost everyone wears a mask during coronavirus epidemic. This almost makes conventional facial recognition technology ineffective in many cases, such as community access control, face access control, facial attendance, facial security checks at train stations, etc. Therefore, it is very urgent to improve the recognition performance of the existing face recognition technology on the masked faces. Most current advanced face recognition approaches are designed based on deep learning, which depend on a large number of face samples. However, at present, there are no publicly available masked face recognition datasets. To this end, this work proposes three types of masked face datasets, including Masked Face Detection Dataset (MFDD), Real-world Masked Face Recognition Dataset (RMFRD) and Simulated Masked Face Recognition Dataset (SMFRD). Among them, to the best of our knowledge, RMFRD is currently theworld's largest real-world masked face dataset. These datasets are freely available to industry and academia, based on which various applications on masked faces can be developed. The multi-granularity masked face recognition model we developed achieves 95% accuracy, exceeding the results reported by the industry. Our datasets are available at: https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset.
翻訳日:2022-12-21 22:33:14 公開日:2020-03-23
# 画像ベースGrasp検証のための低コストマシンビジョンカメラの性能評価

Performance Evaluation of Low-Cost Machine Vision Cameras for Image-Based Grasp Verification ( http://arxiv.org/abs/2003.10167v1 )

ライセンス: Link先を確認
Deebul Nair, Amirhossein Pakdaman and Paul G. Pl\"oger(参考訳) タスク完了に成功するための高レベルな計画コンポーネントに必要なフィードバックを提供するため、自律操作ロボットにとって、把持検証は有利である。 しかし、把握検証を行う上での大きな障害はセンサ選択である。 本稿では,画像分類タスクとして検証問題を定式化した,機械ビジョンカメラを用いた視覚ベースの把握検証システムを提案する。 マシンビジョンカメラは、カメラと深層学習推論が可能な処理ユニットで構成されている。 これらの低消費電力ハードウェアの推論はデータソースの近くで行われ、集中型サーバへのロボットの依存度が低下し、レイテンシが低下し、信頼性が向上する。 マシンビジョンカメラは、異なるニューラルアクセラレータを使用してディープラーニング推論機能を提供する。 しかし、これらのカメラのドキュメントから、これらのニューラルアクセラレーションがレイテンシやスループットといったパフォーマンス指標に与える影響は明らかではない。 これらのマシンビジョンカメラを体系的にベンチマークするために,畳み込みニューラルネットワーク(cnn)のエンドツーエンドモデルを生成するパラメータ付きモデル生成器を提案する。 これらの生成されたモデルを使用して、2つのマシンビジョンカメラ、JeVois A33とSipeed Maix Bitのレイテンシとスループットをベンチマークする。 実験では,選択したマシンビジョンカメラとディープラーニングモデルを用いて,フレーム精度97%のグルーピングを堅牢に検証できることを示した。

Grasp verification is advantageous for autonomous manipulation robots as they provide the feedback required for higher level planning components about successful task completion. However, a major obstacle in doing grasp verification is sensor selection. In this paper, we propose a vision based grasp verification system using machine vision cameras, with the verification problem formulated as an image classification task. Machine vision cameras consist of a camera and a processing unit capable of on-board deep learning inference. The inference in these low-power hardware are done near the data source, reducing the robot's dependence on a centralized server, leading to reduced latency, and improved reliability. Machine vision cameras provide the deep learning inference capabilities using different neural accelerators. Although, it is not clear from the documentation of these cameras what is the effect of these neural accelerators on performance metrics such as latency and throughput. To systematically benchmark these machine vision cameras, we propose a parameterized model generator that generates end to end models of Convolutional Neural Networks(CNN). Using these generated models we benchmark latency and throughput of two machine vision cameras, JeVois A33 and Sipeed Maix Bit. Our experiments demonstrate that the selected machine vision camera and the deep learning models can robustly verify grasp with 97% per frame accuracy.
翻訳日:2022-12-21 00:50:10 公開日:2020-03-23
# 直交非負行列分解のためのブロック座標降下に基づく投影勾配アルゴリズム

A Block Coordinate Descent-based Projected Gradient Algorithm for Orthogonal Non-negative Matrix Factorization ( http://arxiv.org/abs/2003.10269v1 )

ライセンス: Link先を確認
Soodabeh Asadi and Janez Povh(参考訳) 本稿では,非負行列分解問題 (NMF) の射影勾配法 (PG) を用いる。 正則性制約をペナライズし,ブロック座標降下法によるPG法を適用した。 これは、ある時点である行列因子が固定され、他方がペナルティ化された対象関数から計算された最も急な降下方向に沿って移動し、非負の行列の空間に射影することによって更新されることを意味する。 本手法は,ペナルティパラメータの値の異なる2種類の合成データに対して試験を行う。 この性能は、Ding (2006) のよく知られた乗法更新法 (MU) と比較され、Mirzal (2014) が最近提案したMUアルゴリズムのグローバル収束変種を修正したものである。 その結果,本手法は高い競合性を示し,他の2つの手法よりも優れることがわかった。

This article utilizes the projected gradient method (PG) for a non-negative matrix factorization problem (NMF), where one or both matrix factors must have orthonormal columns or rows. We penalise the orthonormality constraints and apply the PG method via a block coordinate descent approach. This means that at a certain time one matrix factor is fixed and the other is updated by moving along the steepest descent direction computed from the penalised objective function and projecting onto the space of non-negative matrices. Our method is tested on two sets of synthetic data for various values of penalty parameters. The performance is compared to the well-known multiplicative update (MU) method from Ding (2006), and with a modified global convergent variant of the MU algorithm recently proposed by Mirzal (2014). We provide extensive numerical results coupled with appropriate visualizations, which demonstrate that our method is very competitive and usually outperforms the other two methods.
翻訳日:2022-12-21 00:49:50 公開日:2020-03-23
# mesonsのbaryons: マシンラーニングの観点から

Baryons from Mesons: A Machine Learning Perspective ( http://arxiv.org/abs/2003.10445v1 )

ライセンス: Link先を確認
Yarin Gal, Vishnu Jejjala, Damian Kaloni Mayorga Pena, Challenger Mishra(参考訳) 量子色力学(QCD)は強い相互作用の理論である。 qcd、クォーク、グルーオンの基本粒子は、色電荷を持ち、低エネルギーで無色の結合状態を形成する。 私たちにとって主要な関心を持つハドロン境界状態は、中間子とバリオンである。 中間子スペクトルの知識から、ニューラルネットワークとガウス過程を用いてバリオンの質量をそれぞれ90.3%と96.6%の精度で予測する。 これらの結果は構成クォークモデルと好適に比較できる。 ペンタクォークやその他のエキゾチックなハドロンの質量も予測できる。

Quantum chromodynamics (QCD) is the theory of the strong interaction. The fundamental particles of QCD, quarks and gluons, carry colour charge and form colourless bound states at low energies. The hadronic bound states of primary interest to us are the mesons and the baryons. From knowledge of the meson spectrum, we use neural networks and Gaussian processes to predict the masses of baryons with 90.3% and 96.6% accuracy, respectively. These results compare favourably to the constituent quark model. We as well predict the masses of pentaquarks and other exotic hadrons.
翻訳日:2022-12-21 00:48:55 公開日:2020-03-23
# 内視鏡的アーテファクトセグメンテーションと検出のためのマルチプレートアンサンブル

Multi-Plateau Ensemble for Endoscopic Artefact Segmentation and Detection ( http://arxiv.org/abs/2003.10129v1 )

ライセンス: Link先を確認
Suyog Jadhav, Udbhav Bamba, Arnav Chavan, Rishabh Tiwari, Aryan Raj(参考訳) 内視鏡的アーティファクト検出の試み 1)アーティファクト検出, 2)意味セグメンテーション,及び 3) サンプル外一般化。 セマンティックセグメンテーションタスクでは,FPN(Feature Pyramid Network)のマルチプレートアンサンブルを特徴抽出/エンコーダとして有効に構成する。 オブジェクト検出タスクでは、resnet50backboneとfasterrcnn(fpn + dc5)の3つのモデルアンサンブルをresnext101backboneで使用しました。 この問題に対する我々のアプローチに対するpytorchの実装は、https://github.com/ubamba98/ead2020で利用可能です。

Endoscopic artefact detection challenge consists of 1) Artefact detection, 2) Semantic segmentation, and 3) Out-of-sample generalisation. For Semantic segmentation task, we propose a multi-plateau ensemble of FPN (Feature Pyramid Network) with EfficientNet as feature extractor/encoder. For Object detection task, we used a three model ensemble of RetinaNet with Resnet50 Backbone and FasterRCNN (FPN + DC5) with Resnext101 Backbone}. A PyTorch implementation to our approach to the problem is available at https://github.com/ubamba98/EAD2020.
翻訳日:2022-12-21 00:44:29 公開日:2020-03-23
# cf2-net : 乳房超音波画像分割のための核融合畳み込みネットワーク

CF2-Net: Coarse-to-Fine Fusion Convolutional Network for Breast Ultrasound Image Segmentation ( http://arxiv.org/abs/2003.10144v1 )

ライセンス: Link先を確認
Zhenyuan Ning, Ke Wang, Shengzhou Zhong, Qianjin Feng, Yu Zhang(参考訳) 乳房超音波(BUS)画像セグメンテーションは,乳がん診断の精度を高めるための有用なツールとして,コンピュータ支援診断システムにおいて重要な役割を担っている。 近年,バス画像のセグメンテーションのための深層学習手法が数多く開発され,従来型,モデル型,従来型学習方式と比較して,いくつかの利点がある。 しかし、従来のディープラーニング手法では、通常、スキップ接続を使ってエンコーダとデコーダを結合するが、これはエンコーダとデコーダの粗い機能を完全に融合させるものではない。 バス画像における病変の構造とエッジはぼやけやすいため、構造とエッジの識別情報を学習し、性能を低下させることが困難となる。 そこで本稿では,BUS画像セグメンテーションのための新たな機能統合戦略("E"ライクな型を生成する)に基づいて,粗大な融合畳み込みネットワーク(CF2-Net)を提案し,評価する。 輪郭を強化し、構造情報を提供するため、cf2-netの入力としてスーパーピクセル画像と原画像とを結合する。 一方,病変領域の差異を強調し,不均衡問題を緩和するため,cf2-netを効果的に訓練するための重み付きバランス損失関数を更に設計する。 提案するcf2-netは4次元クロス検証を用いてオープンデータセット上で評価された。 実験の結果、CF2-Netは、他の深層学習法と比較して最先端の性能が得られることを示した。

Breast ultrasound (BUS) image segmentation plays a crucial role in a computer-aided diagnosis system, which is regarded as a useful tool to help increase the accuracy of breast cancer diagnosis. Recently, many deep learning methods have been developed for segmentation of BUS image and show some advantages compared with conventional region-, model-, and traditional learning-based methods. However, previous deep learning methods typically use skip-connection to concatenate the encoder and decoder, which might not make full fusion of coarse-to-fine features from encoder and decoder. Since the structure and edge of lesion in BUS image are common blurred, these would make it difficult to learn the discriminant information of structure and edge, and reduce the performance. To this end, we propose and evaluate a coarse-to-fine fusion convolutional network (CF2-Net) based on a novel feature integration strategy (forming an 'E'-like type) for BUS image segmentation. To enhance contour and provide structural information, we concatenate a super-pixel image and the original image as the input of CF2-Net. Meanwhile, to highlight the differences in the lesion regions with variable sizes and relieve the imbalance issue, we further design a weighted-balanced loss function to train the CF2-Net effectively. The proposed CF2-Net was evaluated on an open dataset by using four-fold cross validation. The results of the experiment demonstrate that the CF2-Net obtains state-of-the-art performance when compared with other deep learning-based methods
翻訳日:2022-12-21 00:44:18 公開日:2020-03-23
# 画像超解像のための深部展開ネットワーク

Deep Unfolding Network for Image Super-Resolution ( http://arxiv.org/abs/2003.10428v1 )

ライセンス: Link先を確認
Kai Zhang, Luc Van Gool, Radu Timofte(参考訳) 学習ベースのシングルイメージスーパーレゾリューション(sisr)法は、主にエンドツーエンドのトレーニングによって、従来のモデルベース手法よりも優れた効果と効率を示している。 しかし、SISR問題に異なるスケールファクター、カーネル、ノイズレベルを統一MAP(maximum a reari)フレームワークで処理できるモデルベースの手法とは異なり、学習ベースの手法は一般的にそのような柔軟性を欠いている。 本稿では,学習に基づく手法とモデルに基づく手法の両方を活用する,エンドツーエンドのトレーニング可能な展開ネットワークを提案する。 具体的には、半量子分割アルゴリズムを介して地図推論を展開することにより、データサブプログレムと先行サブプログレムとを交互に解決する固定数の反復を求めることができる。 2つのサブプロブレムはニューラルネットワークモジュールによって解決され、エンドツーエンドのトレーニング可能な反復ネットワークとなる。 その結果,提案ネットワークはモデルベース手法の柔軟性を継承し,学習ベース手法の利点を保ちつつ,単一モデルによる異なるスケールファクターのぼやけたノイズ画像の超解像を行う。 拡張実験は、柔軟性、有効性、および一般化可能性の観点から提案された深層展開ネットワークの優位性を示す。

Learning-based single image super-resolution (SISR) methods are continuously showing superior effectiveness and efficiency over traditional model-based methods, largely due to the end-to-end training. However, different from model-based methods that can handle the SISR problem with different scale factors, blur kernels and noise levels under a unified MAP (maximum a posteriori) framework, learning-based methods generally lack such flexibility. To address this issue, this paper proposes an end-to-end trainable unfolding network which leverages both learning-based methods and model-based methods. Specifically, by unfolding the MAP inference via a half-quadratic splitting algorithm, a fixed number of iterations consisting of alternately solving a data subproblem and a prior subproblem can be obtained. The two subproblems then can be solved with neural modules, resulting in an end-to-end trainable, iterative network. As a result, the proposed network inherits the flexibility of model-based methods to super-resolve blurry, noisy images for different scale factors via a single model, while maintaining the advantages of learning-based methods. Extensive experiments demonstrate the superiority of the proposed deep unfolding network in terms of flexibility, effectiveness and also generalizability.
翻訳日:2022-12-21 00:43:18 公開日:2020-03-23
# 感情電位としての情報理論自由エネルギー:複雑さとノベルティの関数としての感情的妥当性

Information-Theoretic Free Energy as Emotion Potential: Emotional Valence as a Function of Complexity and Novelty ( http://arxiv.org/abs/2003.10073v1 )

ライセンス: Link先を確認
Hideyoshi Yanagisawa(参考訳) 本研究は,前述した感情次元の数学的モデル(柳沢ら,2019年,前者コンプットニューロシ)を拡張し,感情の複雑さと新しさを覚醒電位の源として捉えた。 バーリンの強誘電ポテンシャルのヘドニック関数(あるいは逆U字型曲線、いわゆるワント曲線)が仮定される。 我々は感覚刺激が知覚された(あるいは認識された)後、脳内で処理される情報内容として覚醒電位をモデル化した。 本研究では,感覚代名詞が自由エネルギーを表すことを数学的に証明し,情報ゲイン(新奇性からの情報)と知覚複雑性(複雑性からの情報)の合計と等価であることを示した。 視覚刺激(蝶の目立たない形状)を用いて,新奇さと複雑さの複合が逆u型美容関数を形作るという仮説を裏付ける実証的な証拠を示した。 感情開始者を説明する数学的原理として自由エネルギーの可能性について議論した。

This study extends the mathematical model of emotion dimensions that we previously proposed (Yanagisawa, et al. 2019, Front Comput Neurosci) to consider perceived complexity as well as novelty, as a source of arousal potential. Berlyne's hedonic function of arousal potential (or the inverse U-shaped curve, the so-called Wundt curve) is assumed. We modeled the arousal potential as information contents to be processed in the brain after sensory stimuli are perceived (or recognized), which we termed sensory surprisal. We mathematically demonstrated that sensory surprisal represents free energy, and it is equivalent to a summation of information gain (or information from novelty) and perceived complexity (or information from complexity), which are the collative variables forming the arousal potential. We demonstrated empirical evidence with visual stimuli (profile shapes of butterfly) supporting the hypothesis that the summation of perceived novelty and complexity shapes the inverse U-shaped beauty function. We discussed the potential of free energy as a mathematical principle explaining emotion initiators.
翻訳日:2022-12-21 00:42:28 公開日:2020-03-23
# サッカーにおけるゲーム戦術の最適化

Optimising Game Tactics for Football ( http://arxiv.org/abs/2003.10294v1 )

ライセンス: Link先を確認
Ryan Beal, Georgios Chalkiadakis, Timothy J. Norman and Sarvapali D. Ramchurn(参考訳) 本稿では,サッカーにおける戦術的,戦略的意思決定を最適化するための新しいアプローチを提案する。 我々は,試合前決定をベイズゲームからモデル化し,試合内状態遷移や決定を確率ゲームとしてモデル化する多段階ゲームとしてフットボールゲームをモデル化する。 この定式化を用いて,ゲーム結果の確率とチーム行動の成果を予測できる手法を提案する。 これに基づいて、異なる目的のチーム形成とゲーム内戦術を最適化するアルゴリズムを開発します。 760試合の実際のデータセットに対する我々のアプローチの実証的評価は、ベイズゲームと確率ゲームから最適化された戦術を用いることで、それぞれ16.1\%と3.4\%の勝利率を上げることができることを示している。

In this paper we present a novel approach to optimise tactical and strategic decision making in football (soccer). We model the game of football as a multi-stage game which is made up from a Bayesian game to model the pre-match decisions and a stochastic game to model the in-match state transitions and decisions. Using this formulation, we propose a method to predict the probability of game outcomes and the payoffs of team actions. Building upon this, we develop algorithms to optimise team formation and in-game tactics with different objectives. Empirical evaluation of our approach on real-world datasets from 760 matches shows that by using optimised tactics from our Bayesian and stochastic games, we can increase a team chances of winning by up to 16.1\% and 3.4\% respectively.
翻訳日:2022-12-21 00:42:08 公開日:2020-03-23
# DeepFit:ニューラルネットワークによる3D表面のフィッティング

DeepFit: 3D Surface Fitting via Neural Network Weighted Least Squares ( http://arxiv.org/abs/2003.10826v1 )

ライセンス: Link先を確認
Yizhak Ben-Shabat and Stephen Gould(参考訳) 本研究では,非構造3次元点雲の表面フィッティング法を提案する。 この手法はDeepFitと呼ばれ、ニューラルネットワークを使って最小二乗多項式表面の重み付けの点重みを学習する。 学習した重みは表面点近傍のソフト選択として働き、それゆえ以前の方法のスケール選択を回避できる。 ネットワークをトレーニングするために,点重み推定を改善する新しい表面整合損失を提案する。 この方法では、通常のベクトルや主曲率などの幾何学的性質を抽出することができ、後者は訓練中に基底真理として提示されなかった。 ベンチマーク正規値および曲率推定データセットで最新の結果を達成し,雑音,異常値,密度変動に対するロバスト性を示し,ノイズ除去への応用を示す。

We propose a surface fitting method for unstructured 3D point clouds. This method, called DeepFit, incorporates a neural network to learn point-wise weights for weighted least squares polynomial surface fitting. The learned weights act as a soft selection for the neighborhood of surface points thus avoiding the scale selection required of previous methods. To train the network we propose a novel surface consistency loss that improves point weight estimation. The method enables extracting normal vectors and other geometrical properties, such as principal curvatures, the latter were not presented as ground truth during training. We achieve state-of-the-art results on a benchmark normal and curvature estimation dataset, demonstrate robustness to noise, outliers and density variations, and show its application on noise removal.
翻訳日:2022-12-21 00:34:45 公開日:2020-03-23
# Laplace-Beltrami演算子による高次元データセットの簡易化

High-Dimensional Data Set Simplification by Laplace-Beltrami Operator ( http://arxiv.org/abs/2004.02808v1 )

ライセンス: Link先を確認
Chenkai Xu, Hongwei Lin(参考訳) インターネットや他のデジタル技術の発展により、データ生成の速度はデータ処理の速度よりもかなり速くなってきている。 ビッグデータは通常、大量の冗長情報を含んでいるため、そのキー情報を保持しながら、ビッグデータセットを著しく単純化することができる。 本稿では,Laplace-Beltrami演算子(LBO)の固有値と固有関数に基づくビッグデータ単純化手法を提案する。 具体的には、高次元空間における非整理データ集合と見なすことのできるデータセットが与えられたとき、そのビッグデータ集合上に定義された離散lboを構築し、その固有値と固有ベクトルを算出する。 そこで, 固有関数の局所極小点とサドル点を高次元空間に設定したデータセットの特徴点とし, 単純化したデータセットを構成する。 さらに,高次元空間における非整理データ集合上に定義された関数の特徴点検出手法を開発し,簡易データセットの原集合への忠実度を測定するためのメトリクスを考案する。 最後に,提案手法の有効性と有効性を検証し,データセットの単純化が限られたデータ処理能力を用いて最大サイズのデータセットを処理する方法であることを示す。

With the development of the Internet and other digital technologies, the speed of data generation has become considerably faster than the speed of data processing. Because big data typically contain massive redundant information, it is possible to significantly simplify a big data set while maintaining the key information it contains. In this paper, we develop a big data simplification method based on the eigenvalues and eigenfunctions of the Laplace-Beltrami operator (LBO). Specifically, given a data set that can be considered as an unorganized data point set in high-dimensional space, a discrete LBO defined on the big data set is constructed and its eigenvalues and eigenvectors are calculated. Then, the local extremum and the saddle points of the eigenfunctions are proposed to be the feature points of a data set in high-dimensional space, constituting a simplified data set. Moreover, we develop feature point detection methods for the functions defined on an unorganized data point set in high-dimensional space, and devise metrics for measuring the fidelity of the simplified data set to the original set. Finally, examples and applications are demonstrated to validate the efficiency and effectiveness of the proposed methods, demonstrating that data set simplification is a method for processing a maximum-sized data set using a limited data processing capability.
翻訳日:2022-12-21 00:34:31 公開日:2020-03-23
# 動作セグメントの教師なし学習に基づくロボット行動のキャプション生成

Caption Generation of Robot Behaviors based on Unsupervised Learning of Action Segments ( http://arxiv.org/abs/2003.10066v1 )

ライセンス: Link先を確認
Koichiro Yoshino, Kohei Wakimoto, Yuta Nishimura, Satoshi Nakamura(参考訳) ロボットのアクションシーケンスとその自然言語キャプションをブリッジすることは、近年進化している分野における人間のアシストロボットの説明可能性を高める重要な課題である。 本稿では,人間支援ロボットの動作を記述した自然言語キャプションを生成するシステムを提案する。 このシステムは、ロボットの観察、アクチュエータシステムとカメラの履歴、ロボットアクションと自然言語キャプションの間のエンドツーエンドのブリッジへのロボットアクションを記述する。 2つの理由により、このマッピングに既存のシーケンシャル・ツー・シーケンスモデルを適用するのは困難である。 1)どんな種類のロボットや環境に対しても大規模なデータセットを作成するのは難しい。 2) ロボット行動観測から得られたサンプル数とキャプションの生成した単語列との間にはギャップがある。 k-meansクラスタリングに基づく教師なしセグメンテーションを導入し,一般的なロボット観察パターンをクラスに統一した。 この手法により、ネットワークは少量のデータから関係を学習することができる。 さらに,バイトペア符号化(BPE)に基づくチャンキング手法を用いて,ロボット行動観測のサンプル数とキャプション中の単語とのギャップを埋めた。 また,セグメンテーションタスクに注意機構を適用した。 実験の結果,教師なし学習に基づく提案モデルは,他の手法よりも優れた記述を生成できることがわかった。 また,低リソース環境では注意機構がうまく機能しないことを示した。

Bridging robot action sequences and their natural language captions is an important task to increase explainability of human assisting robots in their recently evolving field. In this paper, we propose a system for generating natural language captions that describe behaviors of human assisting robots. The system describes robot actions by using robot observations; histories from actuator systems and cameras, toward end-to-end bridging between robot actions and natural language captions. Two reasons make it challenging to apply existing sequence-to-sequence models to this mapping: 1) it is hard to prepare a large-scale dataset for any kind of robots and their environment, and 2) there is a gap between the number of samples obtained from robot action observations and generated word sequences of captions. We introduced unsupervised segmentation based on K-means clustering to unify typical robot observation patterns into a class. This method makes it possible for the network to learn the relationship from a small amount of data. Moreover, we utilized a chunking method based on byte-pair encoding (BPE) to fill in the gap between the number of samples of robot action observations and words in a caption. We also applied an attention mechanism to the segmentation task. Experimental results show that the proposed model based on unsupervised learning can generate better descriptions than other methods. We also show that the attention mechanism did not work well in our low-resource setting.
翻訳日:2022-12-21 00:34:12 公開日:2020-03-23
# cp-netsを用いた逆デューティのモデル化

Modeling Contrary-to-Duty with CP-nets ( http://arxiv.org/abs/2003.10480v1 )

ライセンス: Link先を確認
Roberta Calegari, Andrea Loreggia, Emiliano Lorini, Francesca Rossi, Giovanni Sartor(参考訳) deontic logicのceteris-paribusセマンティクスでは、より大きな処方のセットが尊重される事柄の状況は、それらのいくつかが違反している事柄の状況よりも好ましい。 条件付き選好ネット(CP-nets)は、セテリスパリバス選好を表現・分析するためのコンパクトな形式であり、優れた計算特性を持つ。 本稿では,条件付き嗜好モデルを用いてデオン概念を捉える方法について述べる。 制限されたデオン論理は定義され、条件付き選好ネットにマッピングされる。 また、cp-netsにおける義務義務違反のモデル化方法と、この形式化において、強い権限と弱い権限の区別を捉える方法を示す。

In a ceteris-paribus semantics for deontic logic, a state of affairs where a larger set of prescriptions is respected is preferable to a state of affairs where some of them are violated. Conditional preference nets (CP-nets) are a compact formalism to express and analyse ceteris paribus preferences, which nice computational properties. This paper shows how deontic concepts can be captured through conditional preference models. A restricted deontic logic will be defined, and mapped into conditional preference nets. We shall also show how to model contrary to duties obligations in CP-nets and how to capture in this formalism the distinction between strong and weak permission.
翻訳日:2022-12-21 00:33:50 公開日:2020-03-23
# 二元分類における確率的勾配降下の終了基準

A termination criterion for stochastic gradient descent for binary classification ( http://arxiv.org/abs/2003.10312v1 )

ライセンス: Link先を確認
Sina Baghal, Courtney Paquette, Stephen A. Vavasis(参考訳) 等質線形予測器を用いたロジスティックおよびヒンジ損失の2値分類に適用し, 定常的なステップサイズ確率勾配勾配(SGD)に対する新しい, 単純で, 計算コストのかかる終了試験を提案する。 この理論結果は,ガウス分布における停止基準の有効性を裏付けるものである。 このノイズの存在は、非分離データの可能性を可能にする。 実験の終了回数が有限であることを示すとともに,データ中のノイズが大きすぎると,終了時の予測分類器が誤分類の確率を最小化することを示す。 最後に, 数値実験により, 終端試験が精度および走行時間に有意な予測可能性を示す実データと合成データの両方を示す。

We propose a new, simple, and computationally inexpensive termination test for constant step-size stochastic gradient descent (SGD) applied to binary classification on the logistic and hinge loss with homogeneous linear predictors. Our theoretical results support the effectiveness of our stopping criterion when the data is Gaussian distributed. This presence of noise allows for the possibility of non-separable data. We show that our test terminates in a finite number of iterations and when the noise in the data is not too large, the expected classifier at termination nearly minimizes the probability of misclassification. Finally, numerical experiments indicate for both real and synthetic data sets that our termination test exhibits a good degree of predictability on accuracy and running time.
翻訳日:2022-12-21 00:33:39 公開日:2020-03-23
# BaitWatcher:違和感のないニュースの見出しを検出する軽量Webインターフェース

BaitWatcher: A lightweight web interface for the detection of incongruent news headlines ( http://arxiv.org/abs/2003.11459v1 )

ライセンス: Link先を確認
Kunwoo Park, Taegyun Kim, Seunghyun Yoon, Meeyoung Cha, and Kyomin Jung(参考訳) 大量の情報をオンラインで共有するデジタル環境では、ニュースの見出しはニュース記事の選択と拡散に不可欠な役割を果たす。 一部のニュース記事は誇張されたり誤解を招く見出しを見せることで観客の注目を集めている。 本研究は、ニュース見出しが対応する記事の内容と無関係または逆の主張を行う「textit{headline incongruity}」問題に対処する。 記事の見出しをクリックする前に、ニュース記事の違和感の可能性を読者に見積もる、軽量なwebインターフェースである \textit{baitwatcher} を提案する。 BaitWatcherは階層的なリカレントエンコーダを使用し、ニュース見出しとその関連するボディテキストの複雑なテキスト表現を効率的に学習する。 このモデルをトレーニングするために,100万件のニュース記事のデータセットを構築した。 フォーカスグループインタビューの結果に基づき、オンライン誤情報の影響を軽減するためのより良いインタフェース設計のための解釈可能なAIエージェントを開発することの重要性について論じる。

In digital environments where substantial amounts of information are shared online, news headlines play essential roles in the selection and diffusion of news articles. Some news articles attract audience attention by showing exaggerated or misleading headlines. This study addresses the \textit{headline incongruity} problem, in which a news headline makes claims that are either unrelated or opposite to the contents of the corresponding article. We present \textit{BaitWatcher}, which is a lightweight web interface that guides readers in estimating the likelihood of incongruence in news articles before clicking on the headlines. BaitWatcher utilizes a hierarchical recurrent encoder that efficiently learns complex textual representations of a news headline and its associated body text. For training the model, we construct a million scale dataset of news articles, which we also release for broader research use. Based on the results of a focus group interview, we discuss the importance of developing an interpretable AI agent for the design of a better interface for mitigating the effects of online misinformation.
翻訳日:2022-12-21 00:33:08 公開日:2020-03-23
# 意味セグメンテーションのための空間ピラミッドに基づくグラフ推論

Spatial Pyramid Based Graph Reasoning for Semantic Segmentation ( http://arxiv.org/abs/2003.10211v1 )

ライセンス: Link先を確認
Xia Li, Yibo Yang, Qijie Zhao, Tiancheng Shen, Zhouchen Lin, Hong Liu(参考訳) 畳み込み操作は限定的な受容性に苦しむ一方、グローバルモデリングはセマンティックセグメンテーションのような密集した予測タスクの基本である。 本稿では,グラフの畳み込みをセマンティックセグメンテーションタスクに適用し,改良されたラプラシアンを提案する。 グラフ推論は、空間ピラミッドとして組織された元の特徴空間で直接実行される。 既存の手法と異なり、我々のラプラシアンはデータに依存しており、より良い距離の計量を学ぶために注意対角行列を導入する。 プロジェクションと再プロジェクションのプロセスは不要となり、提案手法は現在のコンピュータビジョンアーキテクチャに簡単にプラグインできる軽量モジュールとなる。 さらに重要なことは、特徴空間で直接グラフ推論を行うことは空間的関係を保ち、異なるスケールから複数の長距離コンテキストパターンを探索できるようにする。 都市景観,COCOスタッフ,PASCALコンテキスト,PASCALVOCに関する実験により,提案手法が意味的セグメンテーションに与える影響を実証した。 計算とメモリのオーバーヘッドの利点と同等の性能を達成します。

The convolution operation suffers from a limited receptive filed, while global modeling is fundamental to dense prediction tasks, such as semantic segmentation. In this paper, we apply graph convolution into the semantic segmentation task and propose an improved Laplacian. The graph reasoning is directly performed in the original feature space organized as a spatial pyramid. Different from existing methods, our Laplacian is data-dependent and we introduce an attention diagonal matrix to learn a better distance metric. It gets rid of projecting and re-projecting processes, which makes our proposed method a light-weight module that can be easily plugged into current computer vision architectures. More importantly, performing graph reasoning directly in the feature space retains spatial relationships and makes spatial pyramid possible to explore multiple long-range contextual patterns from different scales. Experiments on Cityscapes, COCO Stuff, PASCAL Context and PASCAL VOC demonstrate the effectiveness of our proposed methods on semantic segmentation. We achieve comparable performance with advantages in computational and memory overhead.
翻訳日:2022-12-21 00:27:22 公開日:2020-03-23
# ニューラルネットワークのためのサンプル特異出力制約

Sample-Specific Output Constraints for Neural Networks ( http://arxiv.org/abs/2003.10258v1 )

ライセンス: Link先を確認
Mathis Brosowsky (1 and 2), Olaf D\"unkel (1), Daniel Slieter (1), Marius Z\"ollner (2) ((1) Dr. Ing. h.c. F. Porsche AG, (2) FZI Research Center for Information Technology)(参考訳) ニューラルネットワークは、さまざまな学習タスクで最先端のパフォーマンスに達する。 しかし、意思決定プロセスの理解の欠如は、ブラックボックスとして現れることになる。 そこで本研究では,各フォワードパスの出力空間を付加入力で制約する機能を持つニューラルネットワークであるconsttionnetを提案する。 ConstraintNetの予測は、指定されたドメイン内で証明されている。 これによりConstraintNetは意図しないあるいは危険な出力を明示的に排除できるが、最終的な予測はまだデータから学習されている。 我々は,凸ポリトープの形式での制約に着目し,制約のさらなるクラスへの一般化を示す。 ConstraintNetは、既存のニューラルネットワークアーキテクチャを変更することで簡単に構築できる。 ConstraintNetは、前と後ろのパスにオーバーヘッドがなく、エンドツーエンドのトレーニングが可能であることを強調します。 図示目的のために、私たちはCNNを変更してConstraintNetをモデル化し、顔のランドマーク予測タスクの制約を構築します。 さらに,安全クリティカルなアプリケーションとして,車両用追従オブジェクトコントローラへの適用例を示す。 我々は,ドイツの特許商標庁において,制約ネットに基づくエンティティの安全クリティカルな出力生成のためのアプローチとシステムを提出し,公式登録マーク de10 2019 119 739 を提出した。

Neural networks reach state-of-the-art performance in a variety of learning tasks. However, a lack of understanding the decision making process yields to an appearance as black box. We address this and propose ConstraintNet, a neural network with the capability to constrain the output space in each forward pass via an additional input. The prediction of ConstraintNet is proven within the specified domain. This enables ConstraintNet to exclude unintended or even hazardous outputs explicitly whereas the final prediction is still learned from data. We focus on constraints in form of convex polytopes and show the generalization to further classes of constraints. ConstraintNet can be constructed easily by modifying existing neural network architectures. We highlight that ConstraintNet is end-to-end trainable with no overhead in the forward and backward pass. For illustration purposes, we model ConstraintNet by modifying a CNN and construct constraints for facial landmark prediction tasks. Furthermore, we demonstrate the application to a follow object controller for vehicles as a safety-critical application. We submitted an approach and system for the generation of safety-critical outputs of an entity based on ConstraintNet at the German Patent and Trademark Office with the official registration mark DE10 2019 119 739.
翻訳日:2022-12-21 00:27:04 公開日:2020-03-23
# 粗い特徴適応によるクロスドメインオブジェクト検出

Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation ( http://arxiv.org/abs/2003.10275v1 )

ライセンス: Link先を確認
Yangtao Zheng, Di Huang, Songtao Liu and Yunhong Wang(参考訳) 近年,ディープラーニングに基づく物体検出が大きな進歩を遂げている。 しかし、ドメインシフトの問題により、市販の検出器を目に見えないドメインに適用すると、性能が大幅に低下する。 このような問題に対処するために,クロスドメインオブジェクト検出のための新しい粗い特徴適応手法を提案する。 この粗粒化段階では、文献で使用する粗画像レベルやインスタンスレベルの特徴アライメントとは違い、注目機構を採用して前景領域を抽出し、共通特徴空間における多層対角学習を介してその辺縁分布に応じて整列する。 細粒度段階では,同じカテゴリではなく異なる領域のグローバルプロトタイプの距離を最小化し,前景の条件分布アライメントを行う。 この細かな特徴適応により、前景領域のドメイン知識を効果的に転送することができる。 様々なクロスドメイン検出シナリオで大規模な実験を行う。 その結果,提案手法の幅広い適用性と有効性を示す最新技術が得られた。

Recent years have witnessed great progress in deep learning based object detection. However, due to the domain shift problem, applying off-the-shelf detectors to an unseen domain leads to significant performance drop. To address such an issue, this paper proposes a novel coarse-to-fine feature adaptation approach to cross-domain object detection. At the coarse-grained stage, different from the rough image-level or instance-level feature alignment used in the literature, foreground regions are extracted by adopting the attention mechanism, and aligned according to their marginal distributions via multi-layer adversarial learning in the common feature space. At the fine-grained stage, we conduct conditional distribution alignment of foregrounds by minimizing the distance of global prototypes with the same category but from different domains. Thanks to this coarse-to-fine feature adaptation, domain knowledge in foreground regions can be effectively transferred. Extensive experiments are carried out in various cross-domain detection scenarios. The results are state-of-the-art, which demonstrate the broad applicability and effectiveness of the proposed approach.
翻訳日:2022-12-21 00:26:50 公開日:2020-03-23
# 単眼深度推定における逆攻撃

Adversarial Attacks on Monocular Depth Estimation ( http://arxiv.org/abs/2003.10315v1 )

ライセンス: Link先を確認
Ziqi Zhang, Xinge Zhu, Yingwei Li, Xiangqun Chen, Yao Guo(参考訳) 近年のディープラーニングの進歩は、セマンティックセグメンテーションや深さ推定といった多くのコンピュータビジョンタスクにおいて、例外的なパフォーマンスをもたらしている。 しかし、敵の例に対するディープニューラルネットワークの脆弱性は、現実世界の展開に重大な懸念を引き起こしている。 本稿では,自律運転やロボットナビゲーションといったシナリオにおける3次元シーン理解の重要な課題である,単眼深度推定に対する敵対的攻撃に関する最初の体系的研究について,我々の知る限りの知見を紹介する。 敵の攻撃が深さ推定に与える影響を理解するために,まず,非標的攻撃,標的攻撃,普遍攻撃など,深さ推定のための異なる攻撃シナリオの分類を定義する。 次に,深度推定の分野の分類にいくつかの最先端攻撃手法を適用した。 さらに、ユニバーサルアタックの攻撃性能をさらに向上するためにマルチタスクアタックが導入されている。 実験結果から,深度推定において重大な誤差が生じる可能性が示唆された。 特に,本手法が与えられた対象物(車など)に対して標的攻撃を行い,基底真理(例えば20mから80m)から3~4倍の深さを推定できることを実証する。

Recent advances of deep learning have brought exceptional performance on many computer vision tasks such as semantic segmentation and depth estimation. However, the vulnerability of deep neural networks towards adversarial examples have caused grave concerns for real-world deployment. In this paper, we present to the best of our knowledge the first systematic study of adversarial attacks on monocular depth estimation, an important task of 3D scene understanding in scenarios such as autonomous driving and robot navigation. In order to understand the impact of adversarial attacks on depth estimation, we first define a taxonomy of different attack scenarios for depth estimation, including non-targeted attacks, targeted attacks and universal attacks. We then adapt several state-of-the-art attack methods for classification on the field of depth estimation. Besides, multi-task attacks are introduced to further improve the attack performance for universal attacks. Experimental results show that it is possible to generate significant errors on depth estimation. In particular, we demonstrate that our methods can conduct targeted attacks on given objects (such as a car), resulting in depth estimation 3-4x away from the ground truth (e.g., from 20m to 80m).
翻訳日:2022-12-21 00:26:04 公開日:2020-03-23
# セマンティックセグメンテーションのための動的ルーティング学習

Learning Dynamic Routing for Semantic Segmentation ( http://arxiv.org/abs/2003.10401v1 )

ライセンス: Link先を確認
Yanwei Li, Lin Song, Yukang Chen, Zeming Li, Xiangyu Zhang, Xingang Wang, Jian Sun(参考訳) 近年,セマンティックセグメンテーションに多数の手作り検索ネットワークが応用されている。 しかし、以前の研究はFCN、U-Net、DeepLabシリーズなど、事前定義された静的アーキテクチャの様々なスケールで入力を処理することを目的としていた。 本稿では,動的ルーティングと呼ばれる意味表現のスケール分散を緩和する概念的に新しい手法を提案する。 提案フレームワークは,各画像のスケール分布に応じて,データ依存経路を生成する。 この目的のために、ハエのスケール変換経路を選択するために、ソフト条件ゲートと呼ばれる微分可能なゲーティング関数を提案する。 さらに、ゲーティング関数に予算制約を与えることで、エンドツーエンドで計算コストをさらに削減することができる。 さらに,ネットワークレベルのルーティング空間を緩和し,マルチパス伝搬とスキップ接続をサポートすることにより,ネットワーク容量が大幅に向上する。 動的特性の優位性を示すために、ルーティング空間の特別なケースとしてモデル化できるいくつかの静的アーキテクチャと比較した。 CityscapesとPASCAL VOC 2012で大規模な実験を行い、動的フレームワークの有効性を実証した。 コードはhttps://github.com/yanwei-li/dynamicroutingで入手できる。

Recently, numerous handcrafted and searched networks have been applied for semantic segmentation. However, previous works intend to handle inputs with various scales in pre-defined static architectures, such as FCN, U-Net, and DeepLab series. This paper studies a conceptually new method to alleviate the scale variance in semantic representation, named dynamic routing. The proposed framework generates data-dependent routes, adapting to the scale distribution of each image. To this end, a differentiable gating function, called soft conditional gate, is proposed to select scale transform paths on the fly. In addition, the computational cost can be further reduced in an end-to-end manner by giving budget constraints to the gating function. We further relax the network level routing space to support multi-path propagations and skip-connections in each forward, bringing substantial network capacity. To demonstrate the superiority of the dynamic property, we compare with several static architectures, which can be modeled as special cases in the routing space. Extensive experiments are conducted on Cityscapes and PASCAL VOC 2012 to illustrate the effectiveness of the dynamic framework. Code is available at https://github.com/yanwei-li/DynamicRouting.
翻訳日:2022-12-21 00:25:28 公開日:2020-03-23
# ラベルノイズの種類と深層学習への影響

Label Noise Types and Their Effects on Deep Learning ( http://arxiv.org/abs/2003.10471v1 )

ライセンス: Link先を確認
G\"orkem Algan, \.Ilkay Ulusoy(参考訳) 最近のディープラーニングの成功は主に、クリーンなアノテーションを備えた大きなデータセットが利用可能であることによるものだ。 しかし、実用的な課題のため、クリーンな注釈付きデータセットの収集は必ずしも不可能ではない。 その結果、データセットではラベルノイズが一般的な問題となり、ノイズラベルの存在下でディープニューラルネットワークをトレーニングする多くの方法が文献に提案されている。 これらの手法は、トレーニングセットに合成ラベルノイズを持つベンチマークデータセットを一般的に使用する。 しかしながら、ラベルノイズには複数の種類があり、それぞれが学習に独自の影響を与える。 それぞれの作業が異なる種類のラベルノイズを生成するため、これらのアルゴリズムを文献で公正にテストし比較することが問題となる。 本研究では,異なる種類のラベルノイズが学習に与える影響を詳細に分析する。 さらに,特徴に依存しないラベルノイズを生成するための汎用フレームワークを提案する。 提案手法は,機能領域に分散することで,データインスタンス間の類似性を強調することを目的としている。 このアプローチでは、誤ってラベル付けされる可能性が高いサンプルをsoftmax確率から検出し、それらのラベルを対応するクラスに反転させる。 提案手法は,どのクリーンデータセットにも適用でき,特徴に依存しない雑音ラベルを合成できる。 他の研究者が騒がしいラベルでアルゴリズムをテストするのを容易にするために、最もよく使われるベンチマークデータセットのために、腐敗したラベルを共有します。 私たちのコードと生成された騒がしい合成ラベルはオンラインで利用可能です。

The recent success of deep learning is mostly due to the availability of big datasets with clean annotations. However, gathering a cleanly annotated dataset is not always feasible due to practical challenges. As a result, label noise is a common problem in datasets, and numerous methods to train deep neural networks in the presence of noisy labels are proposed in the literature. These methods commonly use benchmark datasets with synthetic label noise on the training set. However, there are multiple types of label noise, and each of them has its own characteristic impact on learning. Since each work generates a different kind of label noise, it is problematic to test and compare those algorithms in the literature fairly. In this work, we provide a detailed analysis of the effects of different kinds of label noise on learning. Moreover, we propose a generic framework to generate feature-dependent label noise, which we show to be the most challenging case for learning. Our proposed method aims to emphasize similarities among data instances by sparsely distributing them in the feature domain. By this approach, samples that are more likely to be mislabeled are detected from their softmax probabilities, and their labels are flipped to the corresponding class. The proposed method can be applied to any clean dataset to synthesize feature-dependent noisy labels. For the ease of other researchers to test their algorithms with noisy labels, we share corrupted labels for the most commonly used benchmark datasets. Our code and generated noisy synthetic labels are available online.
翻訳日:2022-12-21 00:24:35 公開日:2020-03-23
# 視覚的質問推論のための言語駆動型グラフカプセルネットワーク

Linguistically Driven Graph Capsule Network for Visual Question Reasoning ( http://arxiv.org/abs/2003.10065v1 )

ライセンス: Link先を確認
Qingxing Cao and Xiaodan Liang and Keze Wang and Liang Lin(参考訳) 近年、視覚的質問応答の研究は、エンド・ツー・エンド・ネットワークの様々なアーキテクチャを探索し、自然・合成両方のデータセットで有望な結果を得た。 しかしながら、これらのブラックボックスアプローチは結果の解釈可能性に欠けており、したがってデータセットバイアスの過度な適合により一般化タスクではうまく機能しない。 本研究では,両サイドの利点を融合し,その限界を克服し,レイアウトアノテーションを必要とせず,汎用画像に対してエンドツーエンドで解釈可能な構造的推論を実現することを目的とする。 通常の畳み込みニューラルネットワーク(CNN)内で木構造を彫ることができるカプセルネットワークの特性に着想を得て,その構成過程を言語解析木でガイドする"Linguistically driven Graph Capsule Network"と呼ばれる階層型構成推論モデルを提案する。 具体的には、各カプセルを最下層に結合させて、元の質問に1つの単語の言語的埋め込みを視覚的証拠でブリッジし、パースツリーの兄弟である場合、それらを同じカプセルにルーティングする。 この構成過程は、言語的に駆動された条件付きランダムフィールド(CRF)で推論を行い、複数のグラフカプセル層にわたって実行され、CNN内の構成的推論プロセスをもたらす。 CLEVRデータセット、CLEVR合成生成テスト、およびFinalQAデータセットの実験は、我々のエンドツーエンドモデルの有効性と構成一般化能力を示す。

Recently, studies of visual question answering have explored various architectures of end-to-end networks and achieved promising results on both natural and synthetic datasets, which require explicitly compositional reasoning. However, it has been argued that these black-box approaches lack interpretability of results, and thus cannot perform well on generalization tasks due to overfitting the dataset bias. In this work, we aim to combine the benefits of both sides and overcome their limitations to achieve an end-to-end interpretable structural reasoning for general images without the requirement of layout annotations. Inspired by the property of a capsule network that can carve a tree structure inside a regular convolutional neural network (CNN), we propose a hierarchical compositional reasoning model called the "Linguistically driven Graph Capsule Network", where the compositional process is guided by the linguistic parse tree. Specifically, we bind each capsule in the lowest layer to bridge the linguistic embedding of a single word in the original question with visual evidence and then route them to the same capsule if they are siblings in the parse tree. This compositional process is achieved by performing inference on a linguistically driven conditional random field (CRF) and is performed across multiple graph capsule layers, which results in a compositional reasoning process inside a CNN. Experiments on the CLEVR dataset, CLEVR compositional generation test, and FigureQA dataset demonstrate the effectiveness and composition generalization ability of our end-to-end model.
翻訳日:2022-12-21 00:18:21 公開日:2020-03-23
# イルミネーションに基づく皮膚画像の皮膚病変セグメンテーションの改善

Illumination-based Transformations Improve Skin Lesion Segmentation in Dermoscopic Images ( http://arxiv.org/abs/2003.10111v1 )

ライセンス: Link先を確認
Kumar Abhishek, Ghassan Hamarneh, and Mark S. Drew(参考訳) 皮膚病変のセマンティックセグメンテーションは,コンピュータによる皮膚内視鏡画像の診断において重要かつ一般的な初期課題である。 深層学習に基づくアプローチはセグメンテーション精度を大幅に向上させたが,病変の形状や大きさ,色,コントラストレベルなど,大きな課題に対処することで改善の余地がある。 そこで本研究では,皮膚照明と画像の物理を用いて抽出された情報とrgb画像とを併用した,最初の深部セマンティックセグメンテーションフレームワークを提案する。 特に,特定の色帯,照明不変グレースケール画像,シェーディング減衰画像からの情報を取り入れる。 我々は,ISBI ISIC 2017 Skin Lesion Segmentation Challengeデータセット,DermoFit Image Library,PH2データセットの3つのデータセットを用いて,それぞれ12.02%,4.30%,8.86%の改善点を,RGB画像のみをトレーニングしたベースラインモデル上で平均ジャカード指数で評価した。

The semantic segmentation of skin lesions is an important and common initial task in the computer aided diagnosis of dermoscopic images. Although deep learning-based approaches have considerably improved the segmentation accuracy, there is still room for improvement by addressing the major challenges, such as variations in lesion shape, size, color and varying levels of contrast. In this work, we propose the first deep semantic segmentation framework for dermoscopic images which incorporates, along with the original RGB images, information extracted using the physics of skin illumination and imaging. In particular, we incorporate information from specific color bands, illumination invariant grayscale images, and shading-attenuated images. We evaluate our method on three datasets: the ISBI ISIC 2017 Skin Lesion Segmentation Challenge dataset, the DermoFit Image Library, and the PH2 dataset and observe improvements of 12.02%, 4.30%, and 8.86% respectively in the mean Jaccard index over a baseline model trained only with RGB images.
翻訳日:2022-12-21 00:17:35 公開日:2020-03-23
# sparse depth upsamplingのための深度エッジ誘導cnn

Depth Edge Guided CNNs for Sparse Depth Upsampling ( http://arxiv.org/abs/2003.10138v1 )

ライセンス: Link先を確認
Yi Guo, Ji Liu(参考訳) guided sparse depth upsamplingは、アラインされた高解像度カラーイメージがガイダンスとして与えられると、不規則にサンプリングされたスパース深度マップをサンプリングすることを目的としている。 このタスクのために多くのニューラルネットワークが設計されている。 しかし、深度と色画像の構造的な違いを無視することが多く、その結果、テクスチャのコピーや奥行きのぼやけなどの明らかなアーティファクトが生じる。 正規化畳み込み操作にインスパイアされたガイド状畳み込み層は,深度エッジ画像を用いたスパース・不規則深度画像から深度を復元する。 我々の新しいガイドネットワークは、深度値が深度エッジを横切るのを防止し、アップサンプリングを容易にする。 さらに,提案する畳み込み層に基づく畳み込みネットワークの設計を行い,異なるアルゴリズムの利点を活かし,よりよい性能を実現する。 本手法を実世界の屋内および合成屋外データセット上で検証するための包括的な実験を行う。 我々の方法は強い結果をもたらす。 Virtual KITTIデータセットとMiddleburyデータセットの最先端メソッドよりも優れています。 また、異なる3次元点密度、様々な照明、気象条件下で強い一般化能力を示す。

Guided sparse depth upsampling aims to upsample an irregularly sampled sparse depth map when an aligned high-resolution color image is given as guidance. Many neural networks have been designed for this task. However, they often ignore the structural difference between the depth and the color image, resulting in obvious artifacts such as texture copy and depth blur at the upsampling depth. Inspired by the normalized convolution operation, we propose a guided convolutional layer to recover dense depth from sparse and irregular depth image with an depth edge image as guidance. Our novel guided network can prevent the depth value from crossing the depth edge to facilitate upsampling. We further design a convolution network based on proposed convolutional layer to combine the advantages of different algorithms and achieve better performance. We conduct comprehensive experiments to verify our method on real-world indoor and synthetic outdoor datasets. Our method produces strong results. It outperforms state-of-the-art methods on the Virtual KITTI dataset and the Middlebury dataset. It also presents strong generalization capability under different 3D point densities, various lighting and weather conditions.
翻訳日:2022-12-21 00:16:48 公開日:2020-03-23
# 顔認識のためのバランスアライメント:共同学習アプローチ

Balanced Alignment for Face Recognition: A Joint Learning Approach ( http://arxiv.org/abs/2003.10168v1 )

ライセンス: Link先を確認
Huawei Wei, Peng Lu, Yichen Wei(参考訳) 顔のアライメントは顔認識に不可欠であり、広く採用されている。 しかし、現在のプラクティスは単純すぎるし、探索不足である。 顔のアライメントがいかに重要か、どのように行うべきか、認識のためには理解できない。 この研究はこれらの問題を研究し、2つの貢献をする。 まず、アライメント強度が認識精度にどのように影響するかを詳細に定量的に研究する。 以上の結果から,過剰なアライメントは有害であり,最適なアライメントポイントが必要であることが示唆された。 バランスを取るために第2の貢献は,アライメント学習はその強みに対して制御可能であり,認識によって駆動される,新たな共同学習手法である。 提案手法は,いくつかのベンチマーク,特にポーズが大きい課題に対する包括的実験によって検証される。

Face alignment is crucial for face recognition and has been widely adopted. However, current practice is too simple and under-explored. There lacks an understanding of how important face alignment is and how it should be performed, for recognition. This work studies these problems and makes two contributions. First, it provides an in-depth and quantitative study of how alignment strength affects recognition accuracy. Our results show that excessive alignment is harmful and an optimal balanced point of alignment is in need. To strike the balance, our second contribution is a novel joint learning approach where alignment learning is controllable with respect to its strength and driven by recognition. Our proposed method is validated by comprehensive experiments on several benchmarks, especially the challenging ones with large pose.
翻訳日:2022-12-21 00:15:25 公開日:2020-03-23
# 手書きディジット認識の促進のための発達型ニューロロボティクスアプローチ

A Developmental Neuro-Robotics Approach for Boosting the Recognition of Handwritten Digits ( http://arxiv.org/abs/2003.10308v1 )

ライセンス: Link先を確認
Alessandro Di Nuovo(参考訳) 発達心理学と神経画像研究は、数字と指の密接な関係を同定し、子供の最初の数字の知識を高めた。 最近の証拠は、子供の身体戦略をシミュレーションすることで、機械の知性も改善できることを示している。 本稿では,神経ロボティクスの発達過程における畳み込みニューラルネットワークモデルへの具体的戦略の適用について検討する。 実験結果から,ロボット指からの固有受容情報は,訓練例や時代が少ない場合,手書きのアラビア数字の認識においてネットワーク精度を向上させることが示されている。 この結果は、幼児の脳画像と縦断的研究に匹敵する。 結論として、これらの知見は、エージェントのトレーニングにおける具体化の関連性を裏付けると同時に、ロボットが人工知能の内部プロセスを表現でき、人間にとってより理解しやすいものにすることができる学習プロセスの人間化への可能性を示す。

Developmental psychology and neuroimaging research identified a close link between numbers and fingers, which can boost the initial number knowledge in children. Recent evidence shows that a simulation of the children's embodied strategies can improve the machine intelligence too. This article explores the application of embodied strategies to convolutional neural network models in the context of developmental neuro-robotics, where the training information is likely to be gradually acquired while operating rather than being abundant and fully available as the classical machine learning scenarios. The experimental analyses show that the proprioceptive information from the robot fingers can improve network accuracy in the recognition of handwritten Arabic digits when training examples and epochs are few. This result is comparable to brain imaging and longitudinal studies with young children. In conclusion, these findings also support the relevance of the embodiment in the case of artificial agents' training and show a possible way for the humanization of the learning process, where the robotic body can express the internal processes of artificial intelligence making it more understandable for humans.
翻訳日:2022-12-21 00:09:23 公開日:2020-03-23
# 画像処理センサ選択のための確率戦略の学習

Learning a Probabilistic Strategy for Computational Imaging Sensor Selection ( http://arxiv.org/abs/2003.10424v1 )

ライセンス: Link先を確認
He Sun, Adrian V. Dalca and Katherine L. Bouman(参考訳) 低リソース環境において、非常に限られた測定値から画像を取り戻さなければならない場合、最適化されたセンシングは計算イメージングにおいて重要である。 本稿では,最適センサ設計のための確率的センササンプリング戦略を学習する物理制約付き完全微分可能オートエンコーダを提案する。 提案手法は,センサ選択の相関関係を連成完全連結Isingモデルとして特徴付ける,システムの好むサンプリング分布を学習する。 学習された確率モデルはgibbsサンプリングをインスパイアしたネットワークアーキテクチャを用いて実現され、効率的な共同設計のためにレコンストラクションネットワークと共にエンドツーエンドで訓練される。 提案手法は,様々な計算イメージング応用においてセンサ選択問題に適用できる。 本稿では,超長ベースライン干渉法(vlbi)アレー設計タスクにおいて,センサ相関と大気雑音が独特の課題を呈する手法を示す。 今後の観測・設計計画に活用可能な望遠鏡アレイ幾何に好まれる特定の構造に注意を向け,期待値と概ね一致した結果を示す。

Optimized sensing is important for computational imaging in low-resource environments, when images must be recovered from severely limited measurements. In this paper, we propose a physics-constrained, fully differentiable, autoencoder that learns a probabilistic sensor-sampling strategy for optimized sensor design. The proposed method learns a system's preferred sampling distribution that characterizes the correlations between different sensor selections as a binary, fully-connected Ising model. The learned probabilistic model is achieved by using a Gibbs sampling inspired network architecture, and is trained end-to-end with a reconstruction network for efficient co-design. The proposed framework is applicable to sensor selection problems in a variety of computational imaging applications. In this paper, we demonstrate the approach in the context of a very-long-baseline-interferometry (VLBI) array design task, where sensor correlations and atmospheric noise present unique challenges. We demonstrate results broadly consistent with expectation, and draw attention to particular structures preferred in the telescope array geometry that can be leveraged to plan future observations and design array expansions.
翻訳日:2022-12-21 00:08:30 公開日:2020-03-23
# E2EET: Transformerベースの埋め込みによるパイプラインからエンドツーエンドのエンティティタイプ

E2EET: From Pipeline to End-to-end Entity Typing via Transformer-Based Embeddings ( http://arxiv.org/abs/2003.10097v1 )

ライセンス: Link先を確認
Michael Stewart and Wei Liu(参考訳) Entity Typing(ET)は、コーパス内のすべてのエンティティの意味型を特定するプロセスである。 名前付きエンティティ認識とは対照的に、文の各トークンはゼロまたは1つのクラスラベルでラベル付けされ、etは1つ以上のクラスラベルで各エンティティの参照をラベル付けする。 既存のエンティティ型付けモデルは、参照レベルで動作し、最近提案されたコンテキスト依存の埋め込みを使用しず、固定されたコンテキストウィンドウでトレーニングされる。 したがって、それらはウィンドウサイズ選択に敏感であり、ドキュメント全体のコンテキストを取り込むことができない。 これらの欠点を考慮し, 参照レベルモデルに対するトランスフォーマーベースの埋め込みと, Bi-GRU を用いたエンドツーエンドモデルを用いて, ウィンドウサイズ依存の除去を提案する。 広範囲にわたるアブレーション研究は、参照レベルのモデルに対する文脈的埋め込みの有効性とエンティティ型付けのためのエンドツーエンドモデルの競争性を示している。

Entity Typing (ET) is the process of identifying the semantic types of every entity within a corpus. In contrast to Named Entity Recognition, where each token in a sentence is labelled with zero or one class label, ET involves labelling each entity mention with one or more class labels. Existing entity typing models, which operate at the mention level, are limited by two key factors: they do not make use of recently-proposed context-dependent embeddings, and are trained on fixed context windows. They are therefore sensitive to window size selection and are unable to incorporate the context of the entire document. In light of these drawbacks we propose to incorporate context using transformer-based embeddings for a mention-level model, and an end-to-end model using a Bi-GRU to remove the dependency on window size. An extensive ablative study demonstrates the effectiveness of contextualised embeddings for mention-level models and the competitiveness of our end-to-end model for entity typing.
翻訳日:2022-12-21 00:08:12 公開日:2020-03-23
# ニューラルセンス編集による高速クロスドメインデータ拡張

Fast Cross-domain Data Augmentation through Neural Sentence Editing ( http://arxiv.org/abs/2003.10254v1 )

ライセンス: Link先を確認
Guillaume Raille, Sandra Djambazovska, Claudiu Musat(参考訳) データ拡張はデータの不足を軽減することを約束する。 これは、初期データが不足している場合に最も重要なことです。 これは、既存のメソッドにおいても、完全なデータ分散を学ぶことは不可能であるため、拡張が最も難しい。 自然言語の場合、文編集は、元の言語に対する小さいが意味のある変更に依存するソリューションを提供する。 変化が意味のある学習も、大量のトレーニングデータを必要とする。 したがって、データを豊富に含むソースドメインでこれを学習し、データを不足している別のターゲットドメイン、すなわちクロスドメイン拡張に適用することを目標としています。 Edit-transformer は Transformer ベースの文エディタで,最先端技術よりもはるかに高速で,ドメイン間で動作する。 我々は、その構造上、Edit-transformerは編集ベースの前バージョンよりもクロスドメイン環境に適していると論じている。 この性能差をYelp-Wikipediaドメインペアに示す。 最後に、ドメイン間のパフォーマンス上の優位性から、Edit-transformerは複数の下流タスクにおいて有意義なパフォーマンス向上をもたらすことを示す。

Data augmentation promises to alleviate data scarcity. This is most important in cases where the initial data is in short supply. This is, for existing methods, also where augmenting is the most difficult, as learning the full data distribution is impossible. For natural language, sentence editing offers a solution - relying on small but meaningful changes to the original ones. Learning which changes are meaningful also requires large amounts of training data. We thus aim to learn this in a source domain where data is abundant and apply it in a different, target domain, where data is scarce - cross-domain augmentation. We create the Edit-transformer, a Transformer-based sentence editor that is significantly faster than the state of the art and also works cross-domain. We argue that, due to its structure, the Edit-transformer is better suited for cross-domain environments than its edit-based predecessors. We show this performance gap on the Yelp-Wikipedia domain pairs. Finally, we show that due to this cross-domain performance advantage, the Edit-transformer leads to meaningful performance gains in several downstream tasks.
翻訳日:2022-12-21 00:07:36 公開日:2020-03-23
# electra: ジェネレータではなく識別子としてテキストエンコーダを事前トレーニングする

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators ( http://arxiv.org/abs/2003.10555v1 )

ライセンス: Link先を確認
Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning(参考訳) masked language modeling (mlm) bertのような事前学習メソッドは、いくつかのトークンを[mask]に置き換え、元のトークンを再構築するためにモデルをトレーニングすることで入力を破壊した。 下流のNLPタスクに転送すると良い結果が得られるが、通常、大量の計算を効果的に行う必要がある。 代替案として,代替トークン検出という,よりサンプル効率の良い事前学習タスクを提案する。 入力をマスクする代わりに、いくつかのトークンを小さなジェネレータネットワークからサンプリングした有望な代替品に置き換えることで、この手法を悪用します。 そこで, 劣化したトークンの同一性を予測するモデルを訓練する代わりに, 劣化した入力の各トークンがジェネレータのサンプルに置き換えられたかどうかを予測する識別モデルを訓練する。 詳細な実験により、この新しい事前学習タスクは、マスクアウトされた小さなサブセットだけでなく、すべての入力トークン上で定義されたため、MLMよりも効率的であることが示されている。 その結果,我々の手法で学習した文脈表現は,同じモデルサイズ,データ,計算量で,BERTが学習したものよりも大幅に優れていた。 例えば、1つのGPU上で4日間モデルをトレーニングし、GLUE自然言語理解ベンチマークでGPT(30倍の計算でトレーニング)を上回っます。 提案手法は,RoBERTaやXLNetと互換性があり,計算量の1/4以下であり,同じ計算量を使用する場合,性能が優れている。

Masked language modeling (MLM) pre-training methods such as BERT corrupt the input by replacing some tokens with [MASK] and then train a model to reconstruct the original tokens. While they produce good results when transferred to downstream NLP tasks, they generally require large amounts of compute to be effective. As an alternative, we propose a more sample-efficient pre-training task called replaced token detection. Instead of masking the input, our approach corrupts it by replacing some tokens with plausible alternatives sampled from a small generator network. Then, instead of training a model that predicts the original identities of the corrupted tokens, we train a discriminative model that predicts whether each token in the corrupted input was replaced by a generator sample or not. Thorough experiments demonstrate this new pre-training task is more efficient than MLM because the task is defined over all input tokens rather than just the small subset that was masked out. As a result, the contextual representations learned by our approach substantially outperform the ones learned by BERT given the same model size, data, and compute. The gains are particularly strong for small models; for example, we train a model on one GPU for 4 days that outperforms GPT (trained using 30x more compute) on the GLUE natural language understanding benchmark. Our approach also works well at scale, where it performs comparably to RoBERTa and XLNet while using less than 1/4 of their compute and outperforms them when using the same amount of compute.
翻訳日:2022-12-21 00:07:19 公開日:2020-03-23
# yor\`ub\'aダイアクリティック修復の改善

Improving Yor\`ub\'a Diacritic Restoration ( http://arxiv.org/abs/2003.10564v1 )

ライセンス: Link先を確認
Iroro Orife, David I. Adelani, Timi Fasubaa, Victor Williamson, Wuraola Fisayo Oyewusi, Olamilekan Wahab, Kola Tubosun(参考訳) Yor\`ub\'a は西アフリカで広く話されている言語で、書記体系は正書法と声調のダイアクリティカルスに富んでいる。 形態情報を提供し、語彙の曖昧さ、発音に不可欠であり、あらゆる計算音声や自然言語処理タスクに不可欠である。 しかしながら、ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。 我々は,最近のデータセット栽培の取り組みについて報告する。 webやさまざまな個人ライブラリから異なるテキストを集約し、改善することで、クリーンなyor\`ub\'aデータセットを3つのソースから数十以上のソースから数百万のトークンに拡大することが可能になりました。 我々は,現代ジャーナリストのニューステキストの評価データセットであるYor\ub\'aを,多目的かつ現代的利用を反映した更新ダイアクリティカル復元モデルの評価を行った。 事前トレーニングされたモデル、データセット、ソースコードはすべて、yor\`ub\'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。

Yor\`ub\'a is a widely spoken West African language with a writing system rich in orthographic and tonal diacritics. They provide morphological information, are crucial for lexical disambiguation, pronunciation and are vital for any computational Speech or Natural Language Processing tasks. However diacritic marks are commonly excluded from electronic texts due to limited device and application support as well as general education on proper usage. We report on recent efforts at dataset cultivation. By aggregating and improving disparate texts from the web and various personal libraries, we were able to significantly grow our clean Yor\`ub\'a dataset from a majority Bibilical text corpora with three sources to millions of tokens from over a dozen sources. We evaluate updated diacritic restoration models on a new, general purpose, public-domain Yor\`ub\'a evaluation dataset of modern journalistic news text, selected to be multi-purpose and reflecting contemporary usage. All pre-trained models, datasets and source-code have been released as an open-source project to advance efforts on Yor\`ub\'a language technology.
翻訳日:2022-12-21 00:06:53 公開日:2020-03-23
# 深層ニューラルネットワークとしてのモノのインターネット

The Internet of Things as a Deep Neural Network ( http://arxiv.org/abs/2003.10538v1 )

ライセンス: Link先を確認
Rong Du, Sindri Magn\'usson, Carlo Fischione(参考訳) IoT(Internet of Things)における重要なタスクは、フィールド監視である。複数のIoTノードが測定を行い、処理、推論、分析のためにベースステーションまたはクラウドに通信する。 この通信は、高次元(ビデオや時系列データなど)の場合、コストがかかる。 帯域幅が限られ、低消費電力のデバイスを持つIoTネットワークは、そのような頻繁な送信を高いデータレートでサポートできない可能性がある。 通信効率を確保するため,本稿では,IoTノードにおける計測圧縮と,基地局やクラウドにおける推論をディープニューラルネットワーク(DNN)としてモデル化することを提案する。 本稿では,ノードから送信するデータをDNNの中間出力とする新しいフレームワークを提案する。 本稿では,dnnのモデルパラメータを学習する方法を示し,通信速度と推定精度のトレードオフについて検討する。 実験の結果,推定精度は2.5%しか低下せず,約96%の伝送を節約できることがわかった。 我々の発見は、多くの新しいIoTデータ分析アプリケーションが大量の測定値を生成する可能性を秘めている。

An important task in the Internet of Things (IoT) is field monitoring, where multiple IoT nodes take measurements and communicate them to the base station or the cloud for processing, inference, and analysis. This communication becomes costly when the measurements are high-dimensional (e.g., videos or time-series data). The IoT networks with limited bandwidth and low power devices may not be able to support such frequent transmissions with high data rates. To ensure communication efficiency, this article proposes to model the measurement compression at IoT nodes and the inference at the base station or cloud as a deep neural network (DNN). We propose a new framework where the data to be transmitted from nodes are the intermediate outputs of a layer of the DNN. We show how to learn the model parameters of the DNN and study the trade-off between the communication rate and the inference accuracy. The experimental results show that we can save approximately 96% transmissions with only a degradation of 2.5% in inference accuracy. Our findings have the potentiality to enable many new IoT data analysis applications generating large amount of measurements.
翻訳日:2022-12-21 00:00:47 公開日:2020-03-23
# BPSK制約付きガウスワイアタップチャネルにおけるエンドツーエンド符号の学習

Learning End-to-End Codes for the BPSK-constrained Gaussian Wiretap Channel ( http://arxiv.org/abs/2003.10577v1 )

ライセンス: Link先を確認
Alireza Nooraiepour and Sina Rezaei Aghdam(参考訳) 通信相手がディープニューラルネットワーク(DNN)を備えており、バイナリ位相シフトキー(BPSK)変調スキームを介して通信していると仮定して、ガウスワイヤタップチャネルの有限長符号をエンドツーエンドに学習する。 目標は、一対の送信機と受信機が、秘密のメッセージをデコードしようとする敵の存在下で確実に安全に通信できるようにするdnnによるコードを見つけることである。 情報理論的な秘密原則に従い、マイニング(mutual information neural estimation)と呼ばれる深層学習ツールを用いた相互情報の観点からセキュリティを評価する。 システム性能は、送信側で既存のセキュアな符号化方式に基づいて設計された異なるDNNアーキテクチャに対して評価される。 数値的な結果から,学習符号が等価領域の境界付近の点を達成できるため,正統派は確実にセキュアな伝送を確立できることが示された。

Finite-length codes are learned for the Gaussian wiretap channel in an end-to-end manner assuming that the communication parties are equipped with deep neural networks (DNNs), and communicate through binary phase-shift keying (BPSK) modulation scheme. The goal is to find codes via DNNs which allow a pair of transmitter and receiver to communicate reliably and securely in the presence of an adversary aiming at decoding the secret messages. Following the information-theoretic secrecy principles, the security is evaluated in terms of mutual information utilizing a deep learning tool called MINE (mutual information neural estimation). System performance is evaluated for different DNN architectures, designed based on the existing secure coding schemes, at the transmitter. Numerical results demonstrate that the legitimate parties can indeed establish a secure transmission in this setting as the learned codes achieve points on almost the boundary of the equivocation region.
翻訳日:2022-12-20 23:59:19 公開日:2020-03-23
# Slow and Stale Gradientsはレースに勝てる

Slow and Stale Gradients Can Win the Race ( http://arxiv.org/abs/2003.10579v1 )

ライセンス: Link先を確認
Sanghamitra Dutta, Jianyu Wang, Gauri Joshi(参考訳) 分散確率勾配降下(distributed stochasticgradient descent, sgd) 同期方式で実行すると、最も遅い作業者(ストラグラー)を待つため、実行時に遅延が発生する。 非同期メソッドはストラグラーを緩和するが、収束エラーに悪影響を及ぼす勾配不安定を引き起こす。 本稿では,非同期手法によって提供される高速化の理論的特徴を,トレーニングモデルにおける誤差と実際のトレーニング実行時間(ウォールクロック時間)とのトレードオフを解析して述べる。 私たちの研究の主な特徴は、実行時解析がランダムなストラグリング遅延を考慮し、ストラグリングと安定化のバランスをとる分散SGDアルゴリズムの設計と比較に役立ちます。 また,有界あるいは指数的遅延仮定を伴わない非同期SGD変種に対する新しい誤り収束解析も提供する。 最後に,誤差ランタイムトレードオフの理論的特徴から,分散SGDにおける同期性を徐々に変化させる手法を提案し,その性能をCIFAR10データセット上で実証する。

Distributed Stochastic Gradient Descent (SGD) when run in a synchronous manner, suffers from delays in runtime as it waits for the slowest workers (stragglers). Asynchronous methods can alleviate stragglers, but cause gradient staleness that can adversely affect the convergence error. In this work, we present a novel theoretical characterization of the speedup offered by asynchronous methods by analyzing the trade-off between the error in the trained model and the actual training runtime(wallclock time). The main novelty in our work is that our runtime analysis considers random straggling delays, which helps us design and compare distributed SGD algorithms that strike a balance between straggling and staleness. We also provide a new error convergence analysis of asynchronous SGD variants without bounded or exponential delay assumptions. Finally, based on our theoretical characterization of the error-runtime trade-off, we propose a method of gradually varying synchronicity in distributed SGD and demonstrate its performance on CIFAR10 dataset.
翻訳日:2022-12-20 23:59:04 公開日:2020-03-23
# Lossy Compression を用いたロスレス圧縮の学習

Learning Better Lossless Compression Using Lossy Compression ( http://arxiv.org/abs/2003.10184v1 )

ライセンス: Link先を確認
Fabian Mentzer, Luc Van Gool, Michael Tschannen(参考訳) 我々は、ロスレス画像圧縮システムを構築するために、強力なロスレス画像圧縮アルゴリズムBPGを利用する。 具体的には、BPGと対応する残留物とを圧縮した後に得られた損失再構成に、原画像が最初に分解される。 次に,bpg再構成を条件とした畳み込みニューラルネットワークに基づく確率モデルを用いて残差の分布をモデル化し,残差を損失なく符号化するエントロピー符号化と組み合わせる。 最後に、bpgが生成するビットストリームと学習残差符号化器との結合を用いて画像を保存する。 得られた圧縮システムは、PNG、WebP、JPEG2000と同様に、学習済みのロスレスフル解像度画像圧縮において最先端の性能を達成する。

We leverage the powerful lossy image compression algorithm BPG to build a lossless image compression system. Specifically, the original image is first decomposed into the lossy reconstruction obtained after compressing it with BPG and the corresponding residual. We then model the distribution of the residual with a convolutional neural network-based probabilistic model that is conditioned on the BPG reconstruction, and combine it with entropy coding to losslessly encode the residual. Finally, the image is stored using the concatenation of the bitstreams produced by BPG and the learned residual coder. The resulting compression system achieves state-of-the-art performance in learned lossless full-resolution image compression, outperforming previous learned approaches as well as PNG, WebP, and JPEG2000.
翻訳日:2022-12-20 23:57:54 公開日:2020-03-23
# 胸部X線肺セグメンテーションのための注意型U-Net対応アーキテクチャ

Attention U-Net Based Adversarial Architectures for Chest X-ray Lung Segmentation ( http://arxiv.org/abs/2003.10304v1 )

ライセンス: Link先を確認
Guszt\'av Ga\'al, Bal\'azs Maga, Andr\'as Luk\'acs(参考訳) 胸部X線は医用画像における最も一般的な検査である。 肺がん、結核、肺炎の発見と分化に応用され、最後にはCOVID-19の流行により重要となる。 放射線科医の診断パイプラインへのコンピュータ支援検出手法の統合は、医師の作業負荷を大幅に削減し、信頼性と定量的分析を増加させる。 ここでは,診断パイプラインにおける基礎的,しかし困難な課題である肺分節の新しい深層学習手法を提案する。 本手法では, 逆批判モデルとともに, 最先端の完全畳み込みニューラルネットワークを用いる。 患者プロファイルの異なる未確認データセットのCXRイメージをよく一般化し、JSRTデータセットで97.5%の最終的なDSCを達成した。

Chest X-ray is the most common test among medical imaging modalities. It is applied for detection and differentiation of, among others, lung cancer, tuberculosis, and pneumonia, the last with importance due to the COVID-19 disease. Integrating computer-aided detection methods into the radiologist diagnostic pipeline, greatly reduces the doctors' workload, increasing reliability and quantitative analysis. Here we present a novel deep learning approach for lung segmentation, a basic, but arduous task in the diagnostic pipeline. Our method uses state-of-the-art fully convolutional neural networks in conjunction with an adversarial critic model. It generalized well to CXR images of unseen datasets with different patient profiles, achieving a final DSC of 97.5% on the JSRT dataset.
翻訳日:2022-12-20 23:57:39 公開日:2020-03-23
# 対話型機械学習と認知フィードバックの可能性について

On Interactive Machine Learning and the Potential of Cognitive Feedback ( http://arxiv.org/abs/2003.10365v1 )

ライセンス: Link先を確認
Chris J. Michael, Dina Acklin, Jaelle Scheuerman(参考訳) 生産性、能力、データエクスプロイトを向上させるために、多くの防衛アプリケーションは最先端の機械学習とAIをアーキテクチャに統合している。 特に防衛アプリケーションでは、品質管理、説明責任、複雑な主題に関する専門知識がAIによって容易に自動化または複製されないため、人間のアナリストがループにいることが注目されている。 しかし、多くのアプリケーションは非常に遅い移行に苦しんでいる。 これは、特に予期せぬクラスやミッションコンテキストの変更に適応する場合に、信頼、ユーザビリティ、生産性が欠如しているためである。 インタラクティブ機械学習は、機械学習の実装を直感的なヒューマンコンピュータインターフェースを通じてトレーニング、最適化、評価、活用する新たな分野である。 本稿では,対話型機械学習を導入し,その利点と限界を防衛的応用の文脈で説明する。 さらに,インタラクティブな機械学習の欠点のいくつかを,認知的フィードバックが特徴やデータ,結果にどのように影響を与えるか,という議論から解決する。 我々は、自己報告、暗黙的な認知フィードバック、モデル化された認知フィードバックの3つの手法を定義した。 それぞれの手法の利点と欠点について論じる。

In order to increase productivity, capability, and data exploitation, numerous defense applications are experiencing an integration of state-of-the-art machine learning and AI into their architectures. Especially for defense applications, having a human analyst in the loop is of high interest due to quality control, accountability, and complex subject matter expertise not readily automated or replicated by AI. However, many applications are suffering from a very slow transition. This may be in large part due to lack of trust, usability, and productivity, especially when adapting to unforeseen classes and changes in mission context. Interactive machine learning is a newly emerging field in which machine learning implementations are trained, optimized, evaluated, and exploited through an intuitive human-computer interface. In this paper, we introduce interactive machine learning and explain its advantages and limitations within the context of defense applications. Furthermore, we address several of the shortcomings of interactive machine learning by discussing how cognitive feedback may inform features, data, and results in the state of the art. We define the three techniques by which cognitive feedback may be employed: self reporting, implicit cognitive feedback, and modeled cognitive feedback. The advantages and disadvantages of each technique are discussed.
翻訳日:2022-12-20 23:52:21 公開日:2020-03-23
# 普通であること、奇妙であること、知識グラフに欠けていること:帰納的要約による統一キャラクタリゼーション

What is Normal, What is Strange, and What is Missing in a Knowledge Graph: Unified Characterization via Inductive Summarization ( http://arxiv.org/abs/2003.10412v1 )

ライセンス: Link先を確認
Caleb Belth, Xinyi Zheng, Jilles Vreeken, Danai Koutra(参考訳) 知識グラフ(KG)は、グラフの構造において世界に関する非常に異質な情報を格納し、質問応答や推論などのタスクに有用である。 しかし、エラーをしばしば含んでおり、情報が欠落している。 KGリファインメントの活力ある研究は、これらの問題を解決し、特定の種類のエラーを検知するか、KGを完了させるテクニックを調整してきた。 そこで本研究では,KGの非教師的KG要約を,KGの正規性を記述する帰納的ソフトルールの集合を用いて定式化することにより,KG特徴量に対する統一解を導入する。 一階述語論理規則と異なり、我々の規則はラベル付けされ、根付きグラフ、すなわち、その型とkgの情報に基づいて、(seenまたはunseen)ノード周辺の期待される近傍を記述するパターンである。 従来のサポート/信頼に基づくルールマイニング技術から離れ、KGist, Knowledge Graph Inductive SummarizaTionを提案する。これは、KGルールマイニングの文脈で最初に使用する定式化である最小記述長さ(Minimum Description Length)に基づいて、KGを最もよく圧縮する帰納的ルールの要約を学習する。 このルールを3つの大きなkgs(nell、dbpedia、yago)に適用し、圧縮、様々なタイプのエラー検出、不完全な情報の識別などのタスクを適用した。 我々は,KGistがタスク固有の,教師なし,教師なしのベースラインを,エラー検出や不完全性識別において上回り(欠落したエンティティの最大93%の場所を同定する),また,大規模知識グラフの効率性も向上していることを示す。

Knowledge graphs (KGs) store highly heterogeneous information about the world in the structure of a graph, and are useful for tasks such as question answering and reasoning. However, they often contain errors and are missing information. Vibrant research in KG refinement has worked to resolve these issues, tailoring techniques to either detect specific types of errors or complete a KG. In this work, we introduce a unified solution to KG characterization by formulating the problem as unsupervised KG summarization with a set of inductive, soft rules, which describe what is normal in a KG, and thus can be used to identify what is abnormal, whether it be strange or missing. Unlike first-order logic rules, our rules are labeled, rooted graphs, i.e., patterns that describe the expected neighborhood around a (seen or unseen) node, based on its type, and information in the KG. Stepping away from the traditional support/confidence-based rule mining techniques, we propose KGist, Knowledge Graph Inductive SummarizaTion, which learns a summary of inductive rules that best compress the KG according to the Minimum Description Length principle---a formulation that we are the first to use in the context of KG rule mining. We apply our rules to three large KGs (NELL, DBpedia, and Yago), and tasks such as compression, various types of error detection, and identification of incomplete information. We show that KGist outperforms task-specific, supervised and unsupervised baselines in error detection and incompleteness identification, (identifying the location of up to 93% of missing entities---over 10% more than baselines), while also being efficient for large knowledge graphs.
翻訳日:2022-12-20 23:52:02 公開日:2020-03-23
# 絶対シャプリー値

Absolute Shapley Value ( http://arxiv.org/abs/2003.10076v1 )

ライセンス: Link先を確認
Jinfei Liu(参考訳) シェープリー値(英: Shapley value)は、ロイド・シェープリーに因んで命名された、各参加者の貢献を測定する協調ゲーム理論における概念である。 shapleyの値は最近、データマーケットプレースにおいて、モデルへの貢献に基づいて報酬の割り当てに適用される。 シャプリー価値は、グループ合理性、公平性、付加性という3つの望ましい基準を満たす補償割当に使用される唯一の価値割当スキームである。 協調ゲーム理論では、各連立に対する各貢献者の限界貢献は非負の値である。 しかしながら、機械学習モデルのトレーニングでは、各結合(データタプルの集合)に対する各貢献者(データタプル)の限界貢献度は負の値となり、つまり、追加のデータタプルを持つデータセットでトレーニングされたモデルの精度は、データセットのみによって訓練されたモデルの精度よりも低くすることができる。 本稿では,Shapley値の計算における負の限界寄与の扱い方について検討する。 3つの哲学を探求します 1) 原価(Original Shapley Value)の取得 2) 元の値の大きい値とゼロ値(シャプリー値ゼロ)を取ること,及び 3)原値の絶対値(絶対シャプリー値)を取る。 Irisデータセットの実験では、絶対共有値の定義は、データの重要性(トレーニングされたモデルへの各データタプルの貢献)を評価するという点で、他の2つの定義よりも大幅に優れています。

Shapley value is a concept in cooperative game theory for measuring the contribution of each participant, which was named in honor of Lloyd Shapley. Shapley value has been recently applied in data marketplaces for compensation allocation based on their contribution to the models. Shapley value is the only value division scheme used for compensation allocation that meets three desirable criteria: group rationality, fairness, and additivity. In cooperative game theory, the marginal contribution of each contributor to each coalition is a nonnegative value. However, in machine learning model training, the marginal contribution of each contributor (data tuple) to each coalition (a set of data tuples) can be a negative value, i.e., the accuracy of the model trained by a dataset with an additional data tuple can be lower than the accuracy of the model trained by the dataset only. In this paper, we investigate the problem of how to handle the negative marginal contribution when computing Shapley value. We explore three philosophies: 1) taking the original value (Original Shapley Value); 2) taking the larger of the original value and zero (Zero Shapley Value); and 3) taking the absolute value of the original value (Absolute Shapley Value). Experiments on Iris dataset demonstrate that the definition of Absolute Shapley Value significantly outperforms the other two definitions in terms of evaluating data importance (the contribution of each data tuple to the trained model).
翻訳日:2022-12-20 23:51:06 公開日:2020-03-23
# スパース回帰のための効率的なテンソルカーネル法

Efficient Tensor Kernel methods for sparse regression ( http://arxiv.org/abs/2003.10482v1 )

ライセンス: Link先を確認
Feliks Hibraj, Marcello Pelillo, Saverio Salzo, Massimiliano Pontil(参考訳) 近年、古典的カーネル法は、基礎となる回帰問題の解におけるスパーシティを促進するために適切なテンソルカーネルの導入によって拡張されている。 実際、彼らは p=m/(m-1) と m 偶数で lp-ノルム正規化問題を解くが、これはラッソ問題に近い。 しかし、この方法の大きな欠点は、テンソルの保存にはかなりのメモリが必要であり、最終的に適用性を制限することである。 本研究では2つの進歩を提案し,この問題に対処する。 まず、データを格納するための新しいより効率的なレイアウトを導入することにより、メモリ要求を直接削減する。 第2に,nystrom型サブサンプリング手法を用いて,データ点数の少ないトレーニングフェーズを実現することで,計算コストの低減を図る。 合成データセットと読み取りデータセットの両方の実験は、提案された改善の有効性を示している。 最後に,C++でコーズを実装して計算の高速化を図る。

Recently, classical kernel methods have been extended by the introduction of suitable tensor kernels so to promote sparsity in the solution of the underlying regression problem. Indeed, they solve an lp-norm regularization problem, with p=m/(m-1) and m even integer, which happens to be close to a lasso problem. However, a major drawback of the method is that storing tensors requires a considerable amount of memory, ultimately limiting its applicability. In this work we address this problem by proposing two advances. First, we directly reduce the memory requirement, by intriducing a new and more efficient layout for storing the data. Second, we use a Nystrom-type subsampling approach, which allows for a training phase with a smaller number of data points, so to reduce the computational cost. Experiments, both on synthetic and read datasets, show the effectiveness of the proposed improvements. Finally, we take case of implementing the cose in C++ so to further speed-up the computation.
翻訳日:2022-12-20 23:49:26 公開日:2020-03-23
# ProGraML: プログラム最適化と分析のためのグラフベースのディープラーニング

ProGraML: Graph-based Deep Learning for Program Optimization and Analysis ( http://arxiv.org/abs/2003.10536v1 )

ライセンス: Link先を確認
Chris Cummins, Zacharias V. Fisches, Tal Ben-Nun, Torsten Hoefler, Hugh Leather(参考訳) 計算システムの複雑さが増すことで、コンパイラの最適化に多大な負担がかかり、より正確で積極的な最適化が必要となる。 機械学習は最適化ヒューリスティックを構築する上で大きなメリットを提供するが、最先端のメソッドが達成するものと最適なヒューリスティックのパフォーマンスとの間には相違点がある。 このギャップを閉じるには、プログラムの意味を正確に捉える表現と、この表現を推論するのに十分な表現力を持つモデルアーキテクチャという、2つの重要な領域の改善が必要である。 ProGraML - 機械学習のためのプログラムグラフ - 低レベル、言語非依存、ポータブルフォーマットを使った新しいグラフベースのプログラム表現、およびこれらのグラフ上で複雑な下流タスクを実行できる機械学習モデルを紹介する。 ProGraML表現は、制御、データ、呼び出し関係をキャプチャし、命令とオペランドの型と順序を要約する属性付きマルチグラフである。 メッセージパッシングニューラルネットワークはこの構造化された表現を通じて情報を伝達し、プログラム全体または頂点ごとの分類タスクを可能にする。 ProGraMLは、学習可能なモデルを使って最適化の基本となるプログラム分析を行う汎用プログラム表現を提供する。 そこで本研究では,制御フローの到達性,ドミネータツリー,データ依存,変数の生存性,共通部分表現検出といった,従来のコンパイラ解析タスクに対して,まずアプローチの性能を評価する。 6つのソースコード言語をカバーする250kのLLVM-IRファイルのベンチマークデータセットで、ProGraMLは平均94.0 F1スコアを獲得し、最先端のアプローチよりも大幅に優れている。 そして、このアプローチを2つのハイレベルなタスク – 異種デバイスマッピングとプログラム分類 – に適用しました。

The increasing complexity of computing systems places a tremendous burden on optimizing compilers, requiring ever more accurate and aggressive optimizations. Machine learning offers significant benefits for constructing optimization heuristics but there remains a gap between what state-of-the-art methods achieve and the performance of an optimal heuristic. Closing this gap requires improvements in two key areas: a representation that accurately captures the semantics of programs, and a model architecture with sufficient expressiveness to reason about this representation. We introduce ProGraML - Program Graphs for Machine Learning - a novel graph-based program representation using a low level, language agnostic, and portable format; and machine learning models capable of performing complex downstream tasks over these graphs. The ProGraML representation is a directed attributed multigraph that captures control, data, and call relations, and summarizes instruction and operand types and ordering. Message Passing Neural Networks propagate information through this structured representation, enabling whole-program or per-vertex classification tasks. ProGraML provides a general-purpose program representation that equips learnable models to perform the types of program analysis that are fundamental to optimization. To this end, we evaluate the performance of our approach first on a suite of traditional compiler analysis tasks: control flow reachability, dominator trees, data dependencies, variable liveness, and common subexpression detection. On a benchmark dataset of 250k LLVM-IR files covering six source programming languages, ProGraML achieves an average 94.0 F1 score, significantly outperforming the state-of-the-art approaches. We then apply our approach to two high-level tasks - heterogeneous device mapping and program classification - setting new state-of-the-art performance in both.
翻訳日:2022-12-20 23:49:11 公開日:2020-03-23
# 拡散型深層アクティブラーニング

Diffusion-based Deep Active Learning ( http://arxiv.org/abs/2003.10339v1 )

ライセンス: Link先を確認
Dan Kushnir, Luca Venturi(参考訳) ディープニューラルネットワークの顕著なパフォーマンスは、大量のラベル付きデータの可用性に依存する。 データアノテーションの負荷を軽減するため、アクティブディープラーニングはラベル付けすべき最小限のトレーニングポイントを選択し、最大モデルの精度を得る。 既存のほとんどのアプローチでは、データとラベルの共分散を探求する「探索型選択基準」や、検出された決定境界のローカライズを目的とした「補充型選択基準」が実装されている。 本研究では,分布が十分にマッピングされたときに探索から精細化へ自動的に切り替える多用途で効率的な基準を提案する。 我々の基準は、ニューラルネットワークが提供するデータセットの隠れた表現から構築されたグラフ上で既存のラベル情報を拡散するプロセスに依存している。 このグラフ表現は、近似ラベル関数の内在幾何学をキャプチャする。 拡散に基づく基準は、深い能動的学習の既存の基準を上回り、有利であることが示されている。

The remarkable performance of deep neural networks depends on the availability of massive labeled data. To alleviate the load of data annotation, active deep learning aims to select a minimal set of training points to be labelled which yields maximal model accuracy. Most existing approaches implement either an `exploration'-type selection criterion, which aims at exploring the joint distribution of data and labels, or a `refinement'-type criterion which aims at localizing the detected decision boundaries. We propose a versatile and efficient criterion that automatically switches from exploration to refinement when the distribution has been sufficiently mapped. Our criterion relies on a process of diffusing the existing label information over a graph constructed from the hidden representation of the data set as provided by the neural network. This graph representation captures the intrinsic geometry of the approximated labeling function. The diffusion-based criterion is shown to be advantageous as it outperforms existing criteria for deep active learning.
翻訳日:2022-12-20 23:42:11 公開日:2020-03-23
# 微分帰納論理プログラミングによる強化学習への関係背景知識の導入

Incorporating Relational Background Knowledge into Reinforcement Learning via Differentiable Inductive Logic Programming ( http://arxiv.org/abs/2003.10386v1 )

ライセンス: Link先を確認
Ali Payani and Faramarz Fekri(参考訳) リレーショナル強化学習(RRL)は様々な望ましい特徴を提供する。 最も重要なのは、専門知識を学習に取り入れることであり、標準の深層強化学習よりも学習の高速化と一般化の促進につながる。 しかしながら、既存のrrlアプローチのほとんどは、(例えば明示的な述語という形で)専門的なバックグラウンド知識を取り入れられないか、画像のような非関係データから直接学習できないかのどちらかである。 本稿では、画像から関係情報を効果的に学習し、第1次論理述語として環境の状態を示す、微分帰納的論理プログラミング(ILP)に基づく新しい深いRRLを提案する。 さらに、専門家のバックグラウンド知識を適切な述語を用いて学習問題に組み込むこともできる。 差別化可能なILPは、RRLでポリシーを学ぶためのフレームワーク全体のエンドツーエンドの最適化を可能にする。 本稿では,BoxWorld,GridWorldなどの環境とSolt-of-CLEVRデータセットのリレーショナル推論を用いた新しいRRLフレームワークの有効性を示す。

Relational Reinforcement Learning (RRL) can offers various desirable features. Most importantly, it allows for incorporating expert knowledge into the learning, and hence leading to much faster learning and better generalization compared to the standard deep reinforcement learning. However, most of the existing RRL approaches are either incapable of incorporating expert background knowledge (e.g., in the form of explicit predicate language) or are not able to learn directly from non-relational data such as image. In this paper, we propose a novel deep RRL based on a differentiable Inductive Logic Programming (ILP) that can effectively learn relational information from image and present the state of the environment as first order logic predicates. Additionally, it can take the expert background knowledge and incorporate it into the learning problem using appropriate predicates. The differentiable ILP allows an end to end optimization of the entire framework for learning the policy in RRL. We show the efficacy of this novel RRL framework using environments such as BoxWorld, GridWorld as well as relational reasoning for the Sort-of-CLEVR dataset.
翻訳日:2022-12-20 23:41:56 公開日:2020-03-23
# G-Net:動的処理レジームによる成果予測のためのG-Computationへのディープラーニングアプローチ

G-Net: A Deep Learning Approach to G-computation for Counterfactual Outcome Prediction Under Dynamic Treatment Regimes ( http://arxiv.org/abs/2003.10551v1 )

ライセンス: Link先を確認
Rui Li, Zach Shahn, Jun Li, Mingyu Lu, Prithwish Chakraborty, Daby Sow, Mohamed Ghalwash, Li-wei H. Lehman(参考訳) 事実予測は意思決定の基本的な課題である。 G-computationは、動的時間変化処理戦略の下で予測される対実結果を予測する方法である。 既存のG計算の実装は主に、複雑な時間的および非線形依存構造を捉えるために限られた能力を持つ古典回帰モデルを用いている。 本稿では, 複雑な時系列データを処理し, モデル仮説を最小化しつつ, 個人あるいは集団レベルでの時間的変化による治療効果を推定する, g-計算のための新しい逐次的深層学習フレームワークであるg-netについて述べる。 我々は,循環器系の力学モデルであるCVSimを用いて,現実的に複雑な時間シミュレーションデータを用いて,代替G-Netの実装を評価する。

Counterfactual prediction is a fundamental task in decision-making. G-computation is a method for estimating expected counterfactual outcomes under dynamic time-varying treatment strategies. Existing G-computation implementations have mostly employed classical regression models with limited capacity to capture complex temporal and nonlinear dependence structures. This paper introduces G-Net, a novel sequential deep learning framework for G-computation that can handle complex time series data while imposing minimal modeling assumptions and provide estimates of individual or population-level time varying treatment effects. We evaluate alternative G-Net implementations using realistically complex temporal simulated data obtained from CVSim, a mechanistic model of the cardiovascular system.
翻訳日:2022-12-20 23:41:03 公開日:2020-03-23
# マーカーレス容積センサアライメントのための深軟突起

Deep Soft Procrustes for Markerless Volumetric Sensor Alignment ( http://arxiv.org/abs/2003.10176v1 )

ライセンス: Link先を確認
Vladimiros Sterzentsenko and Alexandros Doumanoglou and Spyridon Thermos and Nikolaos Zioulis and Dimitrios Zarpalas and Petros Daras(参考訳) コンシューマーグレードの深度センサーの出現により、低コストのボリュームキャプチャーシステムは容易に展開できる。 広く採用されているのは、ユーザビリティと、複数のセンサを空間的に調整する実用性の拡張によるものだ。 既存のアライメントアプローチのほとんどは、例えばチェッカーボードやマーカーのような視覚パターンを採用しており、高いユーザの関与と技術的な知識を必要とする。 よりユーザフレンドリーで使いやすいアプローチは、物理的な構造の幾何学的パターンを利用するマーカーレスメソッドに依存している。 しかし、現在のSoAアプローチは、配置の制限とセンサーの数によって制限されている。 本研究では,より堅牢で柔軟なマルチセンサ空間アライメントを実現するために,マーカーレスデータ駆動対応推定を改善する。 特に,典型的なセグメンテーションベースモデルに幾何学的制約をエンドツーエンドに取り入れ,対象ポーズ推定タスクと中間密分類タスクを橋渡しする。 これは、セグメンテーションを定式化し、ボリュームキャプチャシステムのセンサ数に制限されずに、拡張されたセンサ配置構成で高い外部キャリブレーション性能を達成するソフトで微分可能なprocrustes分析によって達成される。 実験により,マーカーベースの手法で同様の結果が得られ,マーカーレス手法よりも優れ,キャリブレーション構造のポーズ変動にも頑健であることがわかった。 コードと事前トレーニングされたモデルはhttps://vcl3d.github.io/structurenet/で入手できる。

With the advent of consumer grade depth sensors, low-cost volumetric capture systems are easier to deploy. Their wider adoption though depends on their usability and by extension on the practicality of spatially aligning multiple sensors. Most existing alignment approaches employ visual patterns, e.g. checkerboards, or markers and require high user involvement and technical knowledge. More user-friendly and easier-to-use approaches rely on markerless methods that exploit geometric patterns of a physical structure. However, current SoA approaches are bounded by restrictions in the placement and the number of sensors. In this work, we improve markerless data-driven correspondence estimation to achieve more robust and flexible multi-sensor spatial alignment. In particular, we incorporate geometric constraints in an end-to-end manner into a typical segmentation based model and bridge the intermediate dense classification task with the targeted pose estimation one. This is accomplished by a soft, differentiable procrustes analysis that regularizes the segmentation and achieves higher extrinsic calibration performance in expanded sensor placement configurations, while being unrestricted by the number of sensors of the volumetric capture system. Our model is experimentally shown to achieve similar results with marker-based methods and outperform the markerless ones, while also being robust to the pose variations of the calibration structure. Code and pretrained models are available at https://vcl3d.github.io/StructureNet/.
翻訳日:2022-12-20 23:40:37 公開日:2020-03-23
# BitからBedsideへ:医療における人工知能製品開発のための実践的フレームワーク

From Bit To Bedside: A Practical Framework For Artificial Intelligence Product Development In Healthcare ( http://arxiv.org/abs/2003.10303v1 )

ライセンス: Link先を確認
David Higgins and Vince I. Madai(参考訳) 医療における人工知能(AI)は、システム全体のコストを削減しつつ、高品質な医療へのアクセスを拡大する大きな可能性を秘めている。 定期的な見出しや概念実証の多くの出版物にぶつかっているにもかかわらず、認定された製品はクリニックにブレークスルーすることができない。 医療におけるAIは、複数の個々のドメインで必要な深い知識を持つ多人数のプロセスである。 ドメイン内の特定の課題に対する理解の欠如は、大きな約束を果たすことができないことへの主要な貢献である。 そこで,我々は,概念から市場投入まで,ai駆動生物医学製品開発のための意思決定視点の枠組みを提案する。 我々のフレームワークは、検証済みの医療AI製品の市場投入まで3段階のプロセスを進めるのに必要なリスク、目標、および重要な結果を強調します。 我々は,臨床検証,規制問題,データ戦略,アルゴリズム開発に関する課題に焦点をあてる。 医療ソフトウェアにおけるAI開発プロセスは、現代の消費者ソフトウェア開発プロセスと大きく異なる。 我々は、設立者、投資家、および主要な利害関係者がプロセスの関連部分を通してガイドするための重要な時間ポイントを強調する。 私たちのフレームワークはイノベーションフレームワークのテンプレートとして見なされるべきであり、チームコミュニケーションと責任を合理的な製品開発ロードマップに向けて調整するために使用できるため、医学におけるAIの可能性を解き放ちます。

Artificial Intelligence (AI) in healthcare holds great potential to expand access to high-quality medical care, whilst reducing overall systemic costs. Despite hitting the headlines regularly and many publications of proofs-of-concept, certified products are failing to breakthrough to the clinic. AI in healthcare is a multi-party process with deep knowledge required in multiple individual domains. The lack of understanding of the specific challenges in the domain is, therefore, the major contributor to the failure to deliver on the big promises. Thus, we present a decision perspective framework, for the development of AI-driven biomedical products, from conception to market launch. Our framework highlights the risks, objectives and key results which are typically required to proceed through a three-phase process to the market launch of a validated medical AI product. We focus on issues related to Clinical validation, Regulatory affairs, Data strategy and Algorithmic development. The development process we propose for AI in healthcare software strongly diverges from modern consumer software development processes. We highlight the key time points to guide founders, investors and key stakeholders throughout their relevant part of the process. Our framework should be seen as a template for innovation frameworks, which can be used to coordinate team communications and responsibilities towards a reasonable product development roadmap, thus unlocking the potential of AI in medicine.
翻訳日:2022-12-20 23:40:15 公開日:2020-03-23
# 2次元環境における自律容器の深部強化学習手法

Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D Environments ( http://arxiv.org/abs/2003.10249v1 )

ライセンス: Link先を確認
Mohammad Etemad, Nader Zare, Mahtab Sarvmaili, Amilcar Soares, Bruno Brandoli Machado, Stan Matwin(参考訳) Unmanned Surface Vehicles Technology(USV)は、基本的にミッションを安全に効率的に実行するアルゴリズムをデプロイするエキサイティングなトピックである。 強化学習はそのようなタスクをモデル化するためのよく知られたアプローチであるが、オフポリシーと関数近似を組み合わせると不安定と発散が生じることがある。 本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。 当社の方法論では,深いq-learningを使って,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。 本手法は,未知の環境でミッションを行うために2つの重要な部分を含む。 1つ目はルートプランナーで、ルートの詳細を考慮せずに目的地への潜在的効果的な経路を生成する。 後者は意思決定モジュールであり、バリュー関数のコンテキスト内でのUSV利用の近い将来のステップにおいて、障害を回避するための短期的な決定を行う。 基礎となるバニラ容器ナビゲータ (vvn) と, プランナーと局所視 (vnplv) を備えた船舶ナビゲータ (vnplv) に対する改良版 (vvn) の2つのアルゴリズムを用いてシミュレーションを行った。 実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。 本モデルでは,未知環境における適応経路計画を用いた深層強化学習により障害物回避効果を実証した。

Unmanned Surface Vehicles technology (USVs) is an exciting topic that essentially deploys an algorithm to safely and efficiently performs a mission. Although reinforcement learning is a well-known approach to modeling such a task, instability and divergence may occur when combining off-policy and function approximation. In this work, we used deep reinforcement learning combining Q-learning with a neural representation to avoid instability. Our methodology uses deep q-learning and combines it with a rolling wave planning approach on agile methodology. Our method contains two critical parts in order to perform missions in an unknown environment. The first is a path planner that is responsible for generating a potential effective path to a destination without considering the details of the root. The latter is a decision-making module that is responsible for short-term decisions on avoiding obstacles during the near future steps of USV exploitation within the context of the value function. Simulations were performed using two algorithms: a basic vanilla vessel navigator (VVN) as a baseline and an improved one for the vessel navigator with a planner and local view (VNPLV). Experimental results show that the proposed method enhanced the performance of VVN by 55.31 on average for long-distance missions. Our model successfully demonstrated obstacle avoidance by means of deep reinforcement learning using planning adaptive paths in unknown environments.
翻訳日:2022-12-20 23:33:34 公開日:2020-03-23
# 非定常一般化線形バンディットのアルゴリズム

Algorithms for Non-Stationary Generalized Linear Bandits ( http://arxiv.org/abs/2003.10113v1 )

ライセンス: Link先を確認
Yoan Russac (DI-ENS), Olivier Capp\'e (DI-ENS), Aur\'elien Garivier (UMPA-ENSL)(参考訳) 一般化線形モデル(GLM)の統計的枠組みは、例えばクリック、お気に入りまたはレーティングに関連するカテゴリー的または順序的な報酬を含むシーケンシャルな問題に適用することができる。 二項報酬の例では、ロジスティック回帰は標準線形モデリングの使用よりも好ましいことが知られている。 これまで,環境が静止していると仮定された場合,包括的フィードバックによる文脈オンライン学習におけるGLMの扱い方法が示されてきた。 本稿では、後者の仮定を緩和し、スライディングウインドウまたはディスカウントされた最大形推定器を利用する2つの高信頼境界ベースアルゴリズムを提案する。 一般的な文脈系列に対するこれらのアルゴリズムの挙動と急激な変化の存在に関する理論的保証を提供する。 これらの結果は、d^2/3 G^1/3 T^2/3 の次数である動的後悔に対する高い確率上界の形式をとり、d, T と G はそれぞれ未知のパラメータの次元、ラウンドの数、時間 T までのブレークポイントの数である。

The statistical framework of Generalized Linear Models (GLM) can be applied to sequential problems involving categorical or ordinal rewards associated, for instance, with clicks, likes or ratings. In the example of binary rewards, logistic regression is well-known to be preferable to the use of standard linear modeling. Previous works have shown how to deal with GLMs in contextual online learning with bandit feedback when the environment is assumed to be stationary. In this paper, we relax this latter assumption and propose two upper confidence bound based algorithms that make use of either a sliding window or a discounted maximum-likelihood estimator. We provide theoretical guarantees on the behavior of these algorithms for general context sequences and in the presence of abrupt changes. These results take the form of high probability upper bounds for the dynamic regret that are of order d^2/3 G^1/3 T^2/3 , where d, T and G are respectively the dimension of the unknown parameter, the number of rounds and the number of breakpoints up to time T. The empirical performance of the algorithms is illustrated in simulated environments.
翻訳日:2022-12-20 23:33:10 公開日:2020-03-23
# 自然進化戦略と確率勾配による深層多タスク学習のための学習重量共有

Learned Weight Sharing for Deep Multi-Task Learning by Natural Evolution Strategy and Stochastic Gradient Descent ( http://arxiv.org/abs/2003.10159v1 )

ライセンス: Link先を確認
Jonas Prellberg, Oliver Kramer(参考訳) 深層マルチタスク学習では、タスク固有のネットワークの重みがタスク間で共有され、各タスクのパフォーマンスが向上する。 レイヤ間でどの重みを共有するかは答えが難しいため、ヒューマンデザインアーキテクチャは最後のタスク固有のレイヤのみを共有することが多い。 多くの場合、この単純なアプローチはパフォーマンスを著しく制限します。 そこで本研究では,共有重みとタスク固有の階層間の割り当てを学習するアルゴリズムを提案する。 微分不可能な割り当てを最適化し、同時に異なる重みを訓練するために、学習は自然進化戦略と確率勾配降下の組み合わせによって行われる。 結果として、重みは共有するが独立した推論を可能にするタスク固有のネットワークとなる。 3つのマルチタスク学習データセットの文献から、ベースラインやメソッドよりも低いテストエラーを実現する。

In deep multi-task learning, weights of task-specific networks are shared between tasks to improve performance on each single one. Since the question, which weights to share between layers, is difficult to answer, human-designed architectures often share everything but a last task-specific layer. In many cases, this simplistic approach severely limits performance. Instead, we propose an algorithm to learn the assignment between a shared set of weights and task-specific layers. To optimize the non-differentiable assignment and at the same time train the differentiable weights, learning takes place via a combination of natural evolution strategy and stochastic gradient descent. The end result are task-specific networks that share weights but allow independent inference. They achieve lower test errors than baselines and methods from literature on three multi-task learning datasets.
翻訳日:2022-12-20 23:32:37 公開日:2020-03-23
# Depthがリカレントニューラルネットワークの長期記憶を可能にする

Depth Enables Long-Term Memory for Recurrent Neural Networks ( http://arxiv.org/abs/2003.10163v1 )

ライセンス: Link先を確認
Alon Ziv(参考訳) シーケンシャルなデータを含む学習タスクにおいて、現代的なリカレントニューラルネットワーク(RNN)が前例のない成功を収めた理由のひとつは、複雑な時間的依存関係をモデル化できることにある。 しかし、RNNの長期記憶能力の確立された尺度は欠如しており、時間を通してデータを相関する深度の影響の形式的理解は限られている。 具体的には、畳み込みネットワーク上の既存の深度効率は、様々な長さのデータに基づいて深度RNNを成功させるのに十分ではない。 そこで本研究では,入力列の始端と終端の依存関係をモデル化せず,リカレントネットワークによって実現される関数の距離を反映した初期分離ランク(start-end separation rank)と呼ばれる,時間を越えた情報フローを支援するネットワークの能力の尺度を提案する。 より深い再帰的ネットワークは、浅いネットワークによって支えられるものよりも組合せ的に高いスタートエンド分離ランクをサポートすることを証明している。 したがって、長期依存をモデル化する再帰ネットワークの能力において、奥行きが圧倒的なアドバンテージとなり、このキー属性を定量化する例を与えることができる。 本研究では,隠れ-隠れ行列を直交に制限する最適化手法を用いて,広範囲な実験評価を行い,共通rnn上で議論される現象を実証する。 最後に,量子テンソルネットワークのツールを用いて,リカレントネットワークの奥行きによる複雑性に関するさらなるグラフィックインサイトを得る。

A key attribute that drives the unprecedented success of modern Recurrent Neural Networks (RNNs) on learning tasks which involve sequential data, is their ability to model intricate long-term temporal dependencies. However, a well established measure of RNNs long-term memory capacity is lacking, and thus formal understanding of the effect of depth on their ability to correlate data throughout time is limited. Specifically, existing depth efficiency results on convolutional networks do not suffice in order to account for the success of deep RNNs on data of varying lengths. In order to address this, we introduce a measure of the network's ability to support information flow across time, referred to as the Start-End separation rank, which reflects the distance of the function realized by the recurrent network from modeling no dependency between the beginning and end of the input sequence. We prove that deep recurrent networks support Start-End separation ranks which are combinatorially higher than those supported by their shallow counterparts. Thus, we establish that depth brings forth an overwhelming advantage in the ability of recurrent networks to model long-term dependencies, and provide an exemplar of quantifying this key attribute. We empirically demonstrate the discussed phenomena on common RNNs through extensive experimental evaluation using the optimization technique of restricting the hidden-to-hidden matrix to being orthogonal. Finally, we employ the tool of quantum Tensor Networks to gain additional graphic insights regarding the complexity brought forth by depth in recurrent networks.
翻訳日:2022-12-20 23:32:23 公開日:2020-03-23
# 電子健康記録における不確実性推定のためのディープベイズガウス過程

Deep Bayesian Gaussian Processes for Uncertainty Estimation in Electronic Health Records ( http://arxiv.org/abs/2003.10170v1 )

ライセンス: Link先を確認
Yikuan Li, Shishir Rao, Abdelaali Hassaine, Rema Ramakrishnan, Yajie Zhu, Dexter Canoy, Gholamreza Salimi-Khorshidi, Thomas Lukasiewicz, Kazem Rahimi(参考訳) 臨床的意思決定にディープラーニングを広く活用する上での大きな障害のひとつは、モデル予測に信頼度を割り当てることの難しさである。 現在、ディープベイズニューラルネットワークとスパースガウス過程は、2つのスケーラブルな不確実性推定方法である。 しかし、ディープベイズ型ニューラルネットワークは表現力の欠如に苦しんでおり、疎ガウス過程の拡張であるディープ・カーネル・ラーニングのようなより表現力のあるモデルでは、高レベルな潜在空間から不確かさのみをキャプチャする。 したがって、深層学習モデルは解釈可能性に欠け、生データから不確実性を無視する。 本稿では,深層ベイズ学習フレームワークの特徴と深層カーネル学習を融合し,両手法の強みを活かし,より包括的不確実性推定を行う。 大規模電子カルテに応用された心不全,糖尿病,うつ病の発生率の予測に関する一連の実験を通じて,本手法はガウス過程と深部ベイズニューラルネットワークよりも,データ不足を示し,真の正と偽の正の予測を同一の一般化性能で識別できることを示す。 さらに,予測確率よりも,受信者の動作特性曲線の精度と面積を評価することにより,不均衡データセットのマイノリティクラスにおいて,信頼度の高い予測を行う傾向が小さくなることを示す。 最後に,モデルから導かれる不確実性情報が,モデル解釈可能性に対するリスク要因分析にどのように影響を与えるかを示す。

One major impediment to the wider use of deep learning for clinical decision making is the difficulty of assigning a level of confidence to model predictions. Currently, deep Bayesian neural networks and sparse Gaussian processes are the main two scalable uncertainty estimation methods. However, deep Bayesian neural network suffers from lack of expressiveness, and more expressive models such as deep kernel learning, which is an extension of sparse Gaussian process, captures only the uncertainty from the higher level latent space. Therefore, the deep learning model under it lacks interpretability and ignores uncertainty from the raw data. In this paper, we merge features of the deep Bayesian learning framework with deep kernel learning to leverage the strengths of both methods for more comprehensive uncertainty estimation. Through a series of experiments on predicting the first incidence of heart failure, diabetes and depression applied to large-scale electronic medical records, we demonstrate that our method is better at capturing uncertainty than both Gaussian processes and deep Bayesian neural networks in terms of indicating data insufficiency and distinguishing true positive and false positive predictions, with a comparable generalisation performance. Furthermore, by assessing the accuracy and area under the receiver operating characteristic curve over the predictive probability, we show that our method is less susceptible to making overconfident predictions, especially for the minority class in imbalanced datasets. Finally, we demonstrate how uncertainty information derived by the model can inform risk factor analysis towards model interpretability.
翻訳日:2022-12-20 23:31:57 公開日:2020-03-23
# 正規化流れによる明示密度からの効率的なサンプリング生成

Efficient sampling generation from explicit densities via Normalizing Flows ( http://arxiv.org/abs/2003.10200v1 )

ライセンス: Link先を確認
Sebastian Pina-Otey and Thorsten Lux and Federico S\'anchez and Vicens Gaitan(参考訳) 異なる大きさの期待値の計算のような多くのアプリケーションでは、既知の確率密度関数、ターゲット密度からのサンプリングは不可欠だが、逆変換によっては困難である。 これらの場合、拒絶と重要度サンプリングは適切な提案密度を必要とし、効率よく評価およびサンプリングすることができる。 本稿では, 流れの正規化に基づく手法を提案し, 流れ変換の領域に0の値を持つターゲット密度による逆カルバック・リーバの発散問題に対する解を提案する。 本手法の性能は,マルチモード複素密度関数を用いて実証する。

For many applications, such as computing the expected value of different magnitudes, sampling from a known probability density function, the target density, is crucial but challenging through the inverse transform. In these cases, rejection and importance sampling require suitable proposal densities, which can be evaluated and sampled from efficiently. We will present a method based on normalizing flows, proposing a solution for the common problem of exploding reverse Kullback-Leibler divergence due to the target density having values of 0 in regions of the flow transformation. The performance of the method will be demonstrated using a multi-mode complex density function.
翻訳日:2022-12-20 23:31:08 公開日:2020-03-23
# ワイズスライディングウィンドウセグメンテーション:軌道分割のための分類支援アプローチ

Wise Sliding Window Segmentation: A classification-aided approach for trajectory segmentation ( http://arxiv.org/abs/2003.10248v1 )

ライセンス: Link先を確認
Mohammad Etemad, Zahra Etemad, Amilcar Soares, Vania Bogorny, Stan Matwin, Luis Torgo(参考訳) 多くの異なるソースから大量のモビリティデータが生成されており、このデータに対していくつかのデータマイニング手法が提案されている。 軌道データマイニングの最も重要なステップの1つはセグメンテーションである。 このタスクは、軌道をいくつかの意味のある連続的なサブシーケンスに分割する前処理ステップと見なすことができる。 このプロセスは、軌跡パターンが全軌跡に留まらず、軌跡部分に保持されるためである。 本研究では,Wise Sliding Window Segmentation (WS-II) と呼ばれるトラジェクトリ・セグメンテーションアルゴリズムを提案する。 軌道座標を処理し、空間と時間の挙動変化を見つけ、軌道データをセグメント化するバイナリ分類器の訓練にさらに使用されるエラー信号を生成する。 このアルゴリズムは柔軟で、異なる領域で使用することができる。 提案手法は,異なる領域(気象,漁業,個体運動)の3つの実際のデータセットに対して評価し,OWS,GRASP-UTS,CB-SMoT,SPDの4つのトラジェクトリセグメンテーションアルゴリズムと比較した。 提案アルゴリズムは,純度とカバレッジの調和平均で統計的に有意な差がある全データセットに対して,最高性能を達成している。

Large amounts of mobility data are being generated from many different sources, and several data mining methods have been proposed for this data. One of the most critical steps for trajectory data mining is segmentation. This task can be seen as a pre-processing step in which a trajectory is divided into several meaningful consecutive sub-sequences. This process is necessary because trajectory patterns may not hold in the entire trajectory but on trajectory parts. In this work, we propose a supervised trajectory segmentation algorithm, called Wise Sliding Window Segmentation (WS-II). It processes the trajectory coordinates to find behavioral changes in space and time, generating an error signal that is further used to train a binary classifier for segmenting trajectory data. This algorithm is flexible and can be used in different domains. We evaluate our method over three real datasets from different domains (meteorology, fishing, and individuals movements), and compare it with four other trajectory segmentation algorithms: OWS, GRASP-UTS, CB-SMoT, and SPD. We observed that the proposed algorithm achieves the highest performance for all datasets with statistically significant differences in terms of the harmonic mean of purity and coverage.
翻訳日:2022-12-20 23:31:01 公開日:2020-03-23
# マルチエージェント強化学習のための進化的人口カリキュラム

Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2003.10423v1 )

ライセンス: Link先を確認
Qian Long, Zihan Zhou, Abhibav Gupta, Fei Fang, Yi Wu, Xiaolong Wang(参考訳) マルチエージェントゲームでは,エージェントの数が増加するにつれて環境の複雑さが指数関数的に増加するため,エージェントの数が大きくなると適切なポリシーを学ぶことは特に困難である。 本稿では,MARL(Multi-Agent Reinforcement Learning, マルチエージェント強化学習)を段階的に増加させるカリキュラム学習パラダイムであるEPC(Evolutionary Population Curriculum)を紹介する。 さらに、EPCは、カリキュラム全体を通して客観的な不正調整の問題を修正するために進化的アプローチを用いている。 具体的には、EPCは各ステージに複数のエージェントセットを保持し、これらのセットに対してミックス・アンド・マッチと微調整を行い、次のステージに最適な適合性を持つエージェントセットを促進する。 我々は、人気のあるMARLアルゴリズムであるMADDPGにEPCを実装し、エージェントの数が指数関数的に増加するにつれて、我々のアプローチがベースラインを一貫して上回ることを示す。

In multi-agent games, the complexity of the environment can grow exponentially as the number of agents increases, so it is particularly challenging to learn good policies when the agent population is large. In this paper, we introduce Evolutionary Population Curriculum (EPC), a curriculum learning paradigm that scales up Multi-Agent Reinforcement Learning (MARL) by progressively increasing the population of training agents in a stage-wise manner. Furthermore, EPC uses an evolutionary approach to fix an objective misalignment issue throughout the curriculum: agents successfully trained in an early stage with a small population are not necessarily the best candidates for adapting to later stages with scaled populations. Concretely, EPC maintains multiple sets of agents in each stage, performs mix-and-match and fine-tuning over these sets and promotes the sets of agents with the best adaptability to the next stage. We implement EPC on a popular MARL algorithm, MADDPG, and empirically show that our approach consistently outperforms baselines by a large margin as the number of agents grows exponentially.
翻訳日:2022-12-20 23:24:29 公開日:2020-03-23
# 深部ネットワーク損失の勾配領域を探索する臨界点フィンディング法

Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep Network Losses ( http://arxiv.org/abs/2003.10397v1 )

ライセンス: Link先を確認
Charles G. Frye, James Simon, Neha S. Wadia, Andrew Ligeralde, Michael R. DeWeese, Kristofer E. Bouchard(参考訳) ディープニューラルネットワークの損失関数は非常に非凸であるにもかかわらず、勾配に基づく最適化アルゴリズムは多くのランダム初期点からほぼ同じ性能に収束する。 ある研究のスレッドは、勾配がゼロに近い損失関数の臨界点付近の局所曲率を特徴付け、ニューラルネットワークの損失がバッド局所最小特性とサドル点の豊富さを享受していることを示すことで、この現象を説明することに焦点を当てている。 ここで,これらの臨界点を求めるために用いられる手法は,局所的な極小問題に苦しむことがあり,勾配ノルムが定常点を持つ領域に収束したり通過したりすることがしばしばある。 これらの勾配平坦領域は、勾配がヘッセン核のほぼ内側で発生し、損失が勾配の方向において局所的にほぼ直線的あるいは平坦であるときに生じるため、これらの勾配平坦領域と呼ばれる。 本稿では、これらの領域の存在が、ニューラルネットワークの損失の重要なポイントを見出したとする過去の結果の解釈と、ニューラルネットワークを最適化するための2階法の設計において、いかに注意が必要であるかを述べる。

Despite the fact that the loss functions of deep neural networks are highly non-convex, gradient-based optimization algorithms converge to approximately the same performance from many random initial points. One thread of work has focused on explaining this phenomenon by characterizing the local curvature near critical points of the loss function, where the gradients are near zero, and demonstrating that neural network losses enjoy a no-bad-local-minima property and an abundance of saddle points. We report here that the methods used to find these putative critical points suffer from a bad local minima problem of their own: they often converge to or pass through regions where the gradient norm has a stationary point. We call these gradient-flat regions, since they arise when the gradient is approximately in the kernel of the Hessian, such that the loss is locally approximately linear, or flat, in the direction of the gradient. We describe how the presence of these regions necessitates care in both interpreting past results that claimed to find critical points of neural network losses and in designing second-order methods for optimizing neural networks.
翻訳日:2022-12-20 23:24:09 公開日:2020-03-23
# ニューラルネットワークと多項式回帰。 過パラメトリゼーション現象の解明

Neural Networks and Polynomial Regression. Demystifying the Overparametrization Phenomena ( http://arxiv.org/abs/2003.10523v1 )

ライセンス: Link先を確認
Matt Emschwiller, David Gamarnik, Eren C. K{\i}z{\i}lda\u{g}, Ilias Zadik(参考訳) ニューラルネットワークモデルの文脈では、過剰パラメータ化(overparametrization)とは、パラメータ数がサンプルサイズを大幅に上回っても、これらのモデルが見えないデータでうまく一般化しているように見える現象を指し、モデルがトレーニング中のデータに完全に適合する。 この現象の従来の説明は、データの訓練に用いられるアルゴリズムの自己正規化特性に基づいている。 本稿では,いくつかの異なる説明を与える一連の結果を示す。 Adopting a teacher/student model where the teacher network is used to generate the predictions and student network is trained on the observed labeled data, and then tested on out-of-sample data, we show that any student network interpolating the data generated by a teacher network generalizes well, provided that the sample size is at least an explicit quantity controlled by data dimension and approximation guarantee alone, regardless of the number of internal nodes of either teacher or student network. 我々の主張は、所望の精度とネットワーク深度に依存した多項式(テンソル)回帰モデルによる教師と学生のネットワークの近似に基づいている。 このようなパラメータ化は、内部ノードの数に依存しない。 したがって、隠れノード数による広帯域ニューラルネットワークのパラメータ化は誤解を招くものであり、パラメータ化複雑性のより適切な尺度は、テンソル化データに関連する回帰係数の数である。 特に、これはデータ複雑性と一般化境界のより古典的な統計概念を持つニューラルネットワークの一般化能力と幾分調和している。 MNISTとFashion-MNISTのデータセットに対する実験結果から、テンソルの度合いが最大2である場合でも、テンソル化回帰が優れたアウト・オブ・サンプル性能を達成することが確認できた。

In the context of neural network models, overparametrization refers to the phenomena whereby these models appear to generalize well on the unseen data, even though the number of parameters significantly exceeds the sample sizes, and the model perfectly fits the in-training data. A conventional explanation of this phenomena is based on self-regularization properties of algorithms used to train the data. In this paper we prove a series of results which provide a somewhat diverging explanation. Adopting a teacher/student model where the teacher network is used to generate the predictions and student network is trained on the observed labeled data, and then tested on out-of-sample data, we show that any student network interpolating the data generated by a teacher network generalizes well, provided that the sample size is at least an explicit quantity controlled by data dimension and approximation guarantee alone, regardless of the number of internal nodes of either teacher or student network. Our claim is based on approximating both teacher and student networks by polynomial (tensor) regression models with degree depending on the desired accuracy and network depth only. Such a parametrization notably does not depend on the number of internal nodes. Thus a message implied by our results is that parametrizing wide neural networks by the number of hidden nodes is misleading, and a more fitting measure of parametrization complexity is the number of regression coefficients associated with tensorized data. In particular, this somewhat reconciles the generalization ability of neural networks with more classical statistical notions of data complexity and generalization bounds. Our empirical results on MNIST and Fashion-MNIST datasets indeed confirm that tensorized regression achieves a good out-of-sample performance, even when the degree of the tensor is at most two.
翻訳日:2022-12-20 23:23:50 公開日:2020-03-23
# データ駆動モデルとニューロ言語学の計算ツール--言語技術の視点から

Data-driven models and computational tools for neurolinguistics: a language technology perspective ( http://arxiv.org/abs/2003.10540v1 )

ライセンス: Link先を確認
Ekaterina Artemova and Amir Bakarov and Aleksey Artemov and Evgeny Burnaev and Maxim Sharaev(参考訳) 本稿では,神経言語学研究における言語技術のつながりと影響について考察する。 本稿では、単語埋め込みや事前学習言語モデルなどの自然言語表現に焦点を当てた脳画像に基づく神経言語学的研究について概説する。 神経言語学と言語技術の相互強化は、脳を認識する自然言語表現の発展に繋がる。 この研究領域の重要性は医学的応用によって強調される。

In this paper, our focus is the connection and influence of language technologies on the research in neurolinguistics. We present a review of brain imaging-based neurolinguistic studies with a focus on the natural language representations, such as word embeddings and pre-trained language models. Mutual enrichment of neurolinguistics and language technologies leads to development of brain-aware natural language representations. The importance of this research area is emphasized by medical applications.
翻訳日:2022-12-20 23:23:25 公開日:2020-03-23
# ScrabbleGAN:半スーパービジョンの手書きテキスト生成

ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation ( http://arxiv.org/abs/2003.10557v1 )

ライセンス: Link先を確認
Sharon Fogel (1), Hadar Averbuch-Elor (2), Sarel Cohen, Shai Mazor (1) and Roee Litman (1) ((1) Amazon Rekognition Israel, (2) Cornell University)(参考訳) 光文字認識(OCR)システムの性能はディープラーニング時代に大幅に向上した。 これは、手書きテキスト認識(HTR)において特に当てはまり、各著者は、印刷されたテキストとは異なり、そのバリエーションが設計によって小さくなる。 とはいえ、ディープラーニングベースのhtrは他のタスクと同様に、トレーニング例の数によって制限されている。 データの収集は困難でコストのかかる作業であり、さらに重要なのは、私たちがここで注目しているラベル付け作業です。 データアノテーションの負担を軽減する一つの可能なアプローチは、半教師付き学習である。 半教師付きメソッドはラベル付きデータに加えて、完全な教師付きデータに比べて性能を改善するためにラベルなしのサンプルを使用する。 これにより、テスト期間中に見えない画像に適応することができる。 ScrabbleGANは、手書きのテキストイメージを半教師付きで合成する手法で、スタイルと語彙の両方が多用できる。 ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。 本稿では,HTRの現状に対するパフォーマンス向上など,前述のメリットを享受しながら,半教師付き手法によるアプローチの運用方法を示す。 さらに、生成元は結果のテキストスタイルを操作できる。 これにより、例えば、テキストが曲がりくねっているか、ペンのストロークがどれくらい薄いかなど、変更できます。

Optical character recognition (OCR) systems performance have improved significantly in the deep learning era. This is especially true for handwritten text recognition (HTR), where each author has a unique style, unlike printed text, where the variation is smaller by design. That said, deep learning based HTR is limited, as in every other task, by the number of training examples. Gathering data is a challenging and costly task, and even more so, the labeling task that follows, of which we focus here. One possible approach to reduce the burden of data annotation is semi-supervised learning. Semi supervised methods use, in addition to labeled data, some unlabeled samples to improve performance, compared to fully supervised ones. Consequently, such methods may adapt to unseen images during test time. We present ScrabbleGAN, a semi-supervised approach to synthesize handwritten text images that are versatile both in style and lexicon. ScrabbleGAN relies on a novel generative model which can generate images of words with an arbitrary length. We show how to operate our approach in a semi-supervised manner, enjoying the aforementioned benefits such as performance boost over state of the art supervised HTR. Furthermore, our generator can manipulate the resulting text style. This allows us to change, for instance, whether the text is cursive, or how thin is the pen stroke.
翻訳日:2022-12-20 23:22:59 公開日:2020-03-23
# 乳癌検診におけるディープニューラルネットワーク分類器の堅牢性の検討

Understanding the robustness of deep neural network classifiers for breast cancer screening ( http://arxiv.org/abs/2003.10041v1 )

ライセンス: Link先を確認
Witold Oleszkiewicz, Taro Makino, Stanis{\l}aw Jastrz\k{e}bski, Tomasz Trzci\'nski, Linda Moy, Kyunghyun Cho, Laura Heacock, Krzysztof J. Geras(参考訳) ディープニューラルネットワーク(DNN)は乳がん検診において有望であるが、その入力摂動に対する堅牢性は臨床的に実装される前によりよく理解する必要がある。 この主題には、潜在的に構築可能な自然画像の文脈において、広範な文献が存在する。 しかし,この2つの画像間に有意な差異があるため,頑健性に関する結論が自然画像からマンモグラム画像に移されるとは考えられない。 結論が伝達されるかどうかを判断するために,放射線技師レベルのマンモグラム画像分類器の感度を,自然画像分類器が敏感である4つの入力摂動に対して測定する。 マンモグラム画像分類器もこれらの摂動に敏感であり,既存の文献に基づいて構築できることが示唆された。 また,低域通過フィルタの効果について詳細な解析を行い,マイクロ石灰化と呼ばれる臨床的意義のある特徴の視認性を低下させることを示した。 低パスフィルタは乳癌の予測に意味的に有意な情報を除去するので,マンモグラム画像分類器がそれに不変であることは望ましくない。 これは、人間の理解できない情報を除去する傾向があるため、DNNが低域フィルタリングに敏感になることを望まない自然画像とは対照的である。

Deep neural networks (DNNs) show promise in breast cancer screening, but their robustness to input perturbations must be better understood before they can be clinically implemented. There exists extensive literature on this subject in the context of natural images that can potentially be built upon. However, it cannot be assumed that conclusions about robustness will transfer from natural images to mammogram images, due to significant differences between the two image modalities. In order to determine whether conclusions will transfer, we measure the sensitivity of a radiologist-level screening mammogram image classifier to four commonly studied input perturbations that natural image classifiers are sensitive to. We find that mammogram image classifiers are also sensitive to these perturbations, which suggests that we can build on the existing literature. We also perform a detailed analysis on the effects of low-pass filtering, and find that it degrades the visibility of clinically meaningful features called microcalcifications. Since low-pass filtering removes semantically meaningful information that is predictive of breast cancer, we argue that it is undesirable for mammogram image classifiers to be invariant to it. This is in contrast to natural images, where we do not want DNNs to be sensitive to low-pass filtering due to its tendency to remove information that is human-incomprehensible.
翻訳日:2022-12-20 23:21:58 公開日:2020-03-23