このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200913となっている論文です。

PDF登録状況(公開日: 20200913)

TitleAuthorsAbstract論文公表日・翻訳日
# 共振器の回転による反$\mathcal{pt}$対称性の破れ

Breaking Anti-$\mathcal{PT}$ Symmetry by Spinning a Resonator ( http://arxiv.org/abs/2003.04246v2 )

ライセンス: Link先を確認
Huilai Zhang, Ran Huang, Sheng-Dian Zhang, Ying Li, Cheng-Wei Qiu, Franco Nori, and Hui Jing(参考訳) 対称あるいは反対称ハミルトニアンがパリティ時間 (\mathcal{pt}$) 演算の下で成り立つ非エルミート系は、完全に実固有値を持つことができる。 この事実は、損失誘起ラシングやトポロジカルエネルギー移動などの驚くべき発見につながった。 反$\mathcal{PT}$系のメリットは自由であるが、反$\mathcal{PT}$デバイスを作る最近の取り組みにおいて、非線形性は依然として必要である。 ここでは、損失共振器を回転させることにより、反$\mathcal{PT}$対称性とその自発的破壊を実現する方法を示す。 エルミート回転装置と比較して、抗$$\mathcal{PT}$-breakken相では、光学分離と超感度ナノ粒子センシングが著しく向上する。 より広い視点で見ると、我々の研究は、反$\mathcal{PT}$物理学を研究するための新しいツールを提供しており、反$\mathcal{PT}$レーザー、反$\mathcal{PT}$ジャイロスコープ、反$\mathcal{PT}$トポロジカルフォトニクスまたはオプトメカニクスのような幅広い応用がある。

Non-Hermitian systems, with symmetric or antisymmetric Hamiltonians under the parity-time ($\mathcal{PT}$) operations, can have entirely real eigenvalues. This fact has led to surprising discoveries such as loss-induced lasing and topological energy transfer. A merit of anti-$\mathcal{PT}$ systems is free of gain, but in recent efforts on making anti-$\mathcal{PT}$ devices, nonlinearity is still required. Here, counterintuitively, we show how to achieve anti-$\mathcal{PT}$ symmetry and its spontaneous breaking in a linear device by spinning a lossy resonator. Compared with a Hermitian spinning device, significantly enhanced optical isolation and ultrasensitive nanoparticle sensing are achievable in the anti-$\mathcal{PT}$-broken phase. In a broader view, our work provides a new tool to study anti-$\mathcal{PT}$ physics, with such a wide range of applications as anti-$\mathcal{PT}$ lasers, anti-$\mathcal{PT}$ gyroscopes, and anti-$\mathcal{PT}$ topological photonics or optomechanics.
翻訳日:2023-05-30 03:16:10 公開日:2020-09-13
# 2つの駆動場を持つ非エルミタン振動子模型における実験的アクセシブル量子相転移

Experimentally Accessible Quantum Phase Transition in a non-Hermitian Tavis-Cummings Model Engineered with Two Drive Fields ( http://arxiv.org/abs/2004.14211v2 )

ライセンス: Link先を確認
Guo-Qiang Zhang, Zhen Chen, and J. Q. You(参考訳) 実験的にアクセス可能なパラメータの非エルミート tavis-cummings (tc) モデルにおける量子相転移 (qpt) について検討し, 2次元系 (tlss) とキャビティのアンサンブルに対して2つの駆動場をそれぞれ適用した。 2つの駆動場が与えられたパラメータマッチング条件を満たすとき、結合キャビティ-TLSアンサンブル系は、回転フレームの有効標準TCハミルトニアンにより記述することができる。 この理想的エルミートの場合、エンジニアリングされたTCモデルは、スピン保存を持つ超放射能QPTを実験的に許容される臨界カップリング強度で示すことができるが、QPTはデコヒーレンスによって損なわれる。 この非エルミート的症例では、TLSアンサンブルの損失のバランスをとるために空洞に利得を導入することでQPTを回復することができる。 また、スピン保存法則は系のデコヒーレンスにより違反している。 本研究は,非エルミートTCモデルにおけるQPTの実装に対して,実験的に実現可能なアプローチを提供する。

We study the quantum phase transition (QPT) in a non-Hermitian Tavis-Cummings (TC) model of experimentally accessible parameters, which is engineered with two drive fields applied to an ensemble of two-level systems (TLSs) and a cavity, respectively. When the two drive fields satisfy a given parameter-matching condition, the coupled cavity-TLS ensemble system can be described by an effective standard TC Hamiltonian in the rotating frame. In this ideal Hermitian case, the engineered TC model can exhibit the super-radiant QPT with spin conservation at an experimentally accessible critical coupling strength, but the QPT is, however, spoiled by the decoherence. We find that in this non-Hermitian case, the QPT can be recovered by introducing a gain in the cavity to balance the loss of the TLS ensemble. Also, the spin-conservation law is found to be violated due to the decoherence of the system. Our study offers an experimentally realizable approach to implementing QPT in the non-Hermitian TC model.
翻訳日:2023-05-21 19:37:17 公開日:2020-09-13
# 多体チャーン絶縁体の単元化:断熱バルク境界対応

Unitary preparation of many body Chern insulators: Adiabatic bulk boundary correspondence ( http://arxiv.org/abs/2005.01455v3 )

ライセンス: Link先を確認
Souvik Bandyopadhyay and Amit Dutta(参考訳) 平衡多体チャーン絶縁体(ci)とそれに伴うバルク・バウンダリー対応を一元的に作成する長期問題にアプローチする。 ここで、これはciのバルク巨視的電偏光(resta polarization)の性質を利用した動的多体チャーン不変量を構築することで解決される。 可観測相関から定義されるこのチャーン不変量は、位相的に多くのチャーン状態を平衡で分類するためにも確立される。 不変量の非平衡挙動は、グラフェンのパラダイム的ハルデンモデル(英語版)を自明な状態からトポロジカル相へと傾斜させることによって探索される。 本研究では, 非線形ランプがより効率的にトポロジカルな状態に近づき, 最適なトポロジカルな状態の準備ができることを示す。 さらに,量子臨界点を横断する近接断熱力学を保証するために,新しい逆断熱スキームを提案する。 準備状態の位相的性質は、出現する$U(1)$トポロジカル電荷を観測することによって確実に確立される。 また,半周期境界条件下での系の時間発展状態におけるエッジ電流を計算し,多体不変量の有効性を確証する断熱バルク・バウンダリー対応を確立した。

We approach the long-standing problem of preparing an out-of-equilibrium many-body Chern insulator (CI) and associated bulk-boundary correspondence unitarily. Herein, this is addressed by constructing a dynamical many-body Chern invariant exploiting the property of the bulk macroscopic electric polarisation (Resta polarisation) of the CI. This Chern invariant defined from observable correlations is also established to topologically classify many body Chern states in equilibrium. The non-equilibrium behavior of the invariant is probed by ramping the paradigmatic Haldane model of graphene from its trivial to the topological phase. We show that a non-linear ramp may work more efficiently in approaching the topological state, thereby establishing the existence of an optimal topological state preparation. Furthermore, to ensure the near adiabatic dynamics across the quantum critical point, we propose a novel counter-diabatic scheme. The topological nature of the prepared state is firmly established by observing an emerging $U(1)$ topological charge. We also compute the edge current in the time evolved state of the system under a semi-periodic boundary condition and clearly establish an adiabatic bulk-boundary correspondence which firmly ensconces the validity of the many-body invariant.
翻訳日:2023-05-21 05:25:02 公開日:2020-09-13
# 重力による騒音とデコヒーレンス

Noise and decoherence induced by gravitons ( http://arxiv.org/abs/2007.09838v2 )

ライセンス: Link先を確認
Sugumi Kanno, Jiro Soda, Junsei Tokuda(参考訳) 重力によって引き起こされる量子ノイズとデコヒーレンスについて研究する。 重力場の存在下での測地線偏差のランジュバン方程式を導出する。 ノイズ相関の振幅は、ノイズを検出するには大きなスクイーズが必要であることを示している。 また,真空状態における重力による2つの粒子の空間的重ね合わせのデコヒーレンスを考察し,そのデコヒーレンスに重力が関連することを見出した。 重力によって引き起こされるデコヒーレンスは、テーブルトップ実験で量子重力をテストするための新しいビスタを提供する。

We study quantum noise and decoherence induced by gravitons. We derive a Langevin equation of geodesic deviation in the presence of gravitons. The amplitude of noise correlations tells us that large squeezing is necessary to detect the noise. We also consider the decoherence of spatial superpositions of two massive particles caused by gravitons in the vacuum state and find that gravitons could give a relevant contribution to the decoherence. The decoherence induced by gravitons would offer new vistas to test quantum gravity in tabletop experiments.
翻訳日:2023-05-08 23:26:24 公開日:2020-09-13
# 因果パースペクティビズムの物理的根拠

Physical grounds for causal perspectivalism ( http://arxiv.org/abs/2009.04121v2 )

ライセンス: Link先を確認
G J Milburn and S. Shrapnel(参考訳) 本稿では,特殊な開散物理系である因果剤の内部物理状態における因果関係の非対称性について述べる。 因果エージェントは、正確なセンサーとアクチュエータを備えた低エントロピーエネルギー源によって平衡から遠く離れた自律的な物理システムである。 センサーの測定とアクチュエータ操作を記録するメモリを備えている。 センサーとアクチュエータの記録にアクセスして因果関係を学習し表現できる学習システムを含んでいる。 我々は、因果関係は内部センサとアクチュエータレコードの関係であり、これらの相関に固有の因果概念は、内部学習機械の物理力学に記述されると主張している。 付随する内部記憶状態の存在は、各因果エージェントが異なる物理的状態にあることを意味する。 この意味では因果関係が懐疑的であると論じる。 外から見ると、内部状態を平均すると、因果剤は同じ熱力学系である。

In this paper we ground the asymmetry of causal relations in the internal physical states of a special kind of open dissipative physical system, a causal agent. A causal agent is an autonomous physical system, maintained far from equilibrium by a low entropy source of energy, with accurate sensors and actuators. It has a memory to record sensor measurements and actuator operations. It contains a learning system that can access the sensor and actuator records to learn and represent the causal relations. We claim that causal relations are relations between the internal sensor and actuator records and the causal concept inherent in these correlations is then inscribed in the physical dynamics of the internal learning machine. The existence of contingent internal memory states means each causal agent is in a different physical state. We argue that it is in this sense that causal relations are perspectival. From the outside, averaging over internal states, the causal agents are identical thermodynamic systems.
翻訳日:2023-05-03 03:12:03 公開日:2020-09-13
# pauli測定による試料高効率トモグラフィ

Sample efficient tomography via Pauli Measurements ( http://arxiv.org/abs/2009.04610v2 )

ライセンス: Link先を確認
Nengkun Yu(参考訳) パウリ測定は、量子情報科学の理論的および実験的側面において最も重要な測定である。 本稿では,状態トモグラフィー関連問題におけるパウリ測定のパワーについて検討する。 まず, n$-qubit system の \textit{quantum state tomography} 問題は, pauli の測定値を用いて, ${\mathcal{o}}(\frac{10^n}{\epsilon^2})$ の未知状態のコピーで解決できることを示す。 直接応用として,Cotler と Wilczek が Ref で導入した \textit{quantum overlapping tomography} 問題を検討した。 通称「Cotler_2020」。 サンプル複雑性は$\mathcal{O}(\frac{10^k\cdot\log({{n}\choose{k}}/\delta))}{\epsilon^{2}})$ for quantum overlapping tomography of $k$-qubit reduced density matrices among $n$ is quantum system, where $1-\delta$ is the Secret level, $\epsilon$ is the trace distance error。 これはパウリ測度を用いて達成できる。 さらに、$\Omega(\frac{\log(n/\delta)}{\epsilon^{2}})$コピーが必要であることを証明します。 言い換えれば、定数$k$の場合、関節が高く絡み合った測定はパウリ測度よりも漸近的に効率的ではない。

Pauli Measurements are the most important measurements in both theoretical and experimental aspects of quantum information science. In this paper, we explore the power of Pauli measurements in the state tomography related problems. Firstly, we show that the \textit{quantum state tomography} problem of $n$-qubit system can be accomplished with ${\mathcal{O}}(\frac{10^n}{\epsilon^2})$ copies of the unknown state using Pauli measurements. As a direct application, we studied the \textit{quantum overlapping tomography} problem introduced by Cotler and Wilczek in Ref. \cite{Cotler_2020}. We show that the sample complexity is $\mathcal{O}(\frac{10^k\cdot\log({{n}\choose{k}}/\delta))}{\epsilon^{2}})$ for quantum overlapping tomography of $k$-qubit reduced density matrices among $n$ is quantum system, where $1-\delta$ is the confidential level, and $\epsilon$ is the trace distance error. This can be achieved using Pauli measurements. Moreover, we prove that $\Omega(\frac{\log(n/\delta)}{\epsilon^{2}})$ copies are needed. In other words, for constant $k$, joint, highly entangled, measurements are not asymptotically more efficient than Pauli measurements.
翻訳日:2023-05-03 00:55:16 公開日:2020-09-13
# クロスカー非線形性を持つ絡み合ったW状態の一段階直接測定

One-step direct measurement of the entangled W states with cross-Kerr nonlinearity ( http://arxiv.org/abs/2009.05943v1 )

ライセンス: Link先を確認
Si-Le Lin, Chun-Lin Zhang, Si-Yang Hao, Pei-Yao Hong(参考訳) クロスケラ非線形媒質を用いた絡み合ったw状態を直接測定する手法を提案する。 このスキームは1ステップで3光子、4光子、さらにN光子W状態を測定することができる。 このスキームではPBSとクロスカー非線形性媒質のみが使用されており、実験で実現可能である。 3光子状態の測定プロセスを説明し、4光子状態とN光子状態に拡張する。

We propose a scheme to directly measure the entangled W states with cross-Kerr nonlinearity mediums. This scheme can measure three-photon, four-photon, and even N-photon W states in one step. Only PBSs and cross-Kerr nonlinearity mediums are used in this scheme, which is feasible for experiments. We describe the three-photon W states measurement process and extend it to four-photon and N-photon W states.
翻訳日:2023-05-02 08:39:21 公開日:2020-09-13
# p$-wave相互作用を持つスピン偏極フェルミオン

Spin-polarized fermions with $p$-wave interactions ( http://arxiv.org/abs/2009.05913v1 )

ライセンス: Link先を確認
Furkan \c{C}a\u{g}r{\i} Top (1), Yair Margalit (1), Wolfgang Ketterle (1) ((1) Research Laboratory of Electronics, MIT-Harvard Center for Ultracold Atoms, and Department of Physics, Massachusetts Institute of Technology)(参考訳) 高密度の${^6}$Li原子の量子退化フェルミガス($10^{15}$ cm$^{-3}$)を研究し、フェシュバッハ共鳴から遠く離れた弾性および非弾性の$p$波衝突を観測する。 p$-wave evaporation は$t/t_f=0.42$ の温度に達し、一部は$p$-wave 衝突による高速度から低速度へのエネルギーの緩やかな移動によって制限される。 断面熱化により、$p$波背景散乱体積を$\lvert V_p \rvert =(39^{+1.3}_{-1.6}a_0)^3$とする。 p$-waveの双極子緩和は、最も低い状態と最も高い状態の準安定な混合物を生み出す。

We study quantum degenerate Fermi gases of ${^6}$Li atoms at high densities ($10^{15}$ cm$^{-3}$) and observe elastic and inelastic $p$-wave collisions far away from any Feshbach resonance. $P$-wave evaporation reaches temperatures of $T/T_F=0.42$ partially limited by the slow transfer of energy from high to low velocities through $p$-wave collisions. Via cross-dimensional thermalization, the $p$-wave background scattering volume is determined to be $\lvert V_p \rvert =(39^{+1.3}_{-1.6}a_0)^3$. $P$-wave dipolar relaxation creates a metastable mixture of the lowest and highest hyperfine states.
翻訳日:2023-05-02 08:39:14 公開日:2020-09-13
# コヒーレンス測度としてのschatten-$p$-norm-based functionalsの妥当性の検討

Examining the validity of Schatten-$p$-norm-based functionals as coherence measures ( http://arxiv.org/abs/2009.05895v1 )

ライセンス: Link先を確認
Xiao-Dan Cui, C. L. Liu, D. M. Tong(参考訳) Schatten-$p$-norm-based functionals $C_p(\rho)=\min_{\sigma\in\mathcal{I}}||\rho-\sigma|||_p$ と $ \tilde{C}_p(\rho)= \|\rho-\Delta\rho\|_{p}$ with $p\geq 1$ の2つのクラスは、厳密なコヒーレントな操作の下で有効なコヒーレントな操作であり、真に非コヒーレントな操作である。 これらの疑問のうち、$C_p(\rho)$ は非一貫性演算や厳密な非一貫性演算の下では有効なコヒーレンス測度ではないが、他のすべての側面は依然としてオープンである。 本稿では、(1)$\tilde{c}_1(\rho)$ が厳密な非コヒーレント操作と真に非コヒーレント操作の両方で有効なコヒーレンス測度であるが、非コヒーレント操作では有効なコヒーレンス測度ではないこと、(2)$c_1(\rho)$ が真に非コヒーレント操作でも有効なコヒーレンス測度ではないこと、(3)${c}_{p>1}(\rho)$ も$\tilde{c}_{p>1}(\rho)$ も3つの操作のいずれかにおいて有効なコヒーレンス測度ではないことを証明する。 この論文は、コヒーレンス対策として$C_p(\rho)$と$\tilde{C}_p(\rho)$を取ることの妥当性を徹底的に検証するだけでなく、厳密な非コヒーレントな操作の下で単調性を満たすが、非コヒーレントな操作ではそれを侵害する例も見出す。

It has been asked by different authors whether the two classes of Schatten-$p$-norm-based functionals $C_p(\rho)=\min_{\sigma\in\mathcal{I}}||\rho-\sigma||_p$ and $ \tilde{C}_p(\rho)= \|\rho-\Delta\rho\|_{p}$ with $p\geq 1$ are valid coherence measures under incoherent operations, strictly incoherent operations, and genuinely incoherent operations, respectively, where $\mathcal{I}$ is the set of incoherent states and $\Delta\rho$ is the diagonal part of density operator $\rho$. Of these questions, all we know is that $C_p(\rho)$ is not a valid coherence measure under incoherent operations and strictly incoherent operations, but all other aspects remain open. In this paper, we prove that (1) $\tilde{C}_1(\rho)$ is a valid coherence measure under both strictly incoherent operations and genuinely incoherent operations but not a valid coherence measure under incoherent operations, (2) $C_1(\rho)$ is not a valid coherence measure even under genuinely incoherent operations, and (3) neither ${C}_{p>1}(\rho)$ nor $\tilde{C}_{p>1}(\rho)$ is a valid coherence measure under any of the three sets of operations. This paper not only provides a thorough examination on the validity of taking $C_p(\rho)$ and $\tilde{C}_p(\rho)$ as coherence measures, but also finds an example that fulfills the monotonicity under strictly incoherent operations but violates it under incoherent operations.
翻訳日:2023-05-02 08:39:02 公開日:2020-09-13
# コメント: "rashba coupling induced by lorentz symmetry breaking effects" アン Phys (ベルリン)textbf{526},187(2013)

Comment on: "Rashba coupling induced by Lorentz symmetry breaking effects". Ann. Phys. (Berlin) \textbf{526}, 187 (2013) ( http://arxiv.org/abs/2009.07039v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) スピン1/2中性粒子が外部場と相互作用する非相対論的量子力学におけるローレンツ対称性の破れ効果によって引き起こされるラシュバ様カップリング、ゼーマン様項、ダーウィン様項の発生」に関する論文の結果を分析した。 筆者らは,固有値方程式のスペクトルは得られず,モデルパラメータ間の特定の関係に対して1つの固有値しか得られなかった。 特に、著者らによって予想されるサイクロトロン周波数の存在は、放射固有値方程式の正確な解を得るために用いられるトランケーション条件の単なるアーティファクトである。

We analyze the results of a paper on "the arising of a Rashba-like coupling, a Zeeman-like term and a Darwin-like term induced by Lorentz symmetry breaking effects in the non-relativistic quantum dynamics of a spin-1/2 neutral particle interacting with external fields". We show that the authors did not obtain the spectrum of the eigenvalue equation but only one eigenvalue for a specific relationship between model parameters. In particular, the existence of allowed cyclotron frequencies conjectured by the authors is a mere artifact of the truncation condition used to obtain exact solutions to the radial eigenvalue equation.
翻訳日:2023-05-02 08:33:42 公開日:2020-09-13
# 同時量子機械学習トレーニングとアーキテクチャ発見

Simultaneous Quantum Machine Learning Training and Architecture Discovery ( http://arxiv.org/abs/2009.06093v1 )

ライセンス: Link先を確認
Dominic Pasquali(参考訳) ゲート量子機械学習の開始により、そのようなシステムのアーキテクチャはオープンな問題となる。 多くの建築はアドホックまたは既知の古典建築と直接的に類似している。 ここでは、パラメータを学習しながらゲート型量子機械学習アーキテクチャを学習する新しいアルゴリズムを提案する。 この概念の証明とそのバリエーションのいくつかは検討され、議論されている。

With the onset of gated quantum machine learning, the architecture for such a system is an open question. Many architectures are created either ad hoc or are directly analogous from known classical architectures. Presented here is a novel algorithm which learns a gated quantum machine learning architecture while simultaneously learning its parameters. This proof of concept and some of its variations are explored and discussed.
翻訳日:2023-05-02 08:33:29 公開日:2020-09-13
# 多光子パルスとユニタリk設計のためのプライベート量子チャネル

Private quantum channels for multi-photon pulses and unitary k-designs ( http://arxiv.org/abs/2009.06067v1 )

ライセンス: Link先を確認
Jan Bouda and Michal Sedl\'ak and Mario Ziman(参考訳) 我々は、光子の偏光度でエンコードされた量子ビットに対するプライベート量子チャネルの存在に関する問題に対処する。 SU(2) Haar測度に従って分布するランダムなユニタリチャネルがこの性質を持つことを示す。 さらに、キュービットユニタリk-設計を解析する。 ソースの光子のパリティが保証されている場合、セキュリティを保証する。 さもなくば、qubitユニタリk設計は完全セキュリティを保証しない。

We address the question of existence of private quantum channel for qubits encoded in polarization degrees of freedom of a photon, that remains secure even if multi-photon (instead of single-photon) pulse is emitted. We show that random unitary channel distributed according to SU(2) Haar measure has this property. Further we analyze the qubit unitary k-designs. We show they ensure security if the photons' parity of the source is guaranteed. Otherwise, the qubit unitary k-designs do not guarantee perfect security.
翻訳日:2023-05-02 08:33:15 公開日:2020-09-13
# 量子力学における効率的なツールとしてのヒルベルト・シュミット速度

Hilbert-Schmidt speed as an efficient tool in quantum metrology ( http://arxiv.org/abs/2009.06050v1 )

ライセンス: Link先を確認
Hossein Rangani Jahromi and Rosario Lo Franco(参考訳) 我々は,量子統計速度の特殊型であるヒルベルト・シュミット速度(HSS)を,$n$-qubit系における量子位相推定のための強力かつ容易に計算可能なツールとして活用する方法を検討する。 我々は,HSSと量子フィッシャー情報(QFI)の両方が$n$-qubitレジスタの初期状態に符号化された位相パラメータに対して計算されると,HSSダイナミクスの零点は本質的にQFIダイナミクスの零点と同じであることを示した。 さらに、HSSの時間微分の正性(負性)は、QFIの時間微分の正性(負性)と正確に一致する。 以上の結果から,HSS の高次元系における完全正および微量保存マップ下での収縮性を示す強い証拠が得られた。

We investigate how the Hilbert-Schmidt speed (HSS), a special type of quantum statistical speed, can be exploited as a powerful and easily computable tool for quantum phase estimation in a $n$-qubit system. We find that, when both the HSS and quantum Fisher information (QFI) are computed with respect to the phase parameter encoded into the initial state of the $n$-qubit register, the zeros of the HSS dynamics are essentially the same as those of the QFI dynamics. Moreover, the positivity (negativity) of the time-derivative of the HSS exactly coincides with the positivity (negativity) of the time-derivative of the QFI. Our results also provide strong evidence for contractivity of the HSS under completely positive and trace preserving maps in high-dimensional systems, as predicted in previous studies.
翻訳日:2023-05-02 08:33:06 公開日:2020-09-13
# 高精度物体検出のためのモジュールネットワーク

Modular network for high accuracy object detection ( http://arxiv.org/abs/2001.09203v3 )

ライセンス: Link先を確認
Erez Yahalomi(参考訳) 本稿では,オブジェクト検出の精度を大幅に向上させるモジュール型オブジェクト検出畳み込みニューラルネットワークを提案する。 ネットワークは階層構造の2つのステージから構成される。 第1段階は一般的なクラスを検出するネットワークである。 第2段階は、各一般的なクラスオブジェクトの分類とローカライゼーションを洗練するための別々のネットワークで構成されている。 artオブジェクト検出ネットワークの状態と比較して、モジュールネットワークの分類誤差は12%から2.5%-4.5%に約3~5倍改善されている。 このネットワークは実装が容易で、0.94 mAPである。 ネットワークアーキテクチャは、アートオブジェクト検出ネットワークやその他の種類のディープラーニングネットワークの広範な状態の正確性を向上させるプラットフォームになり得る。 トランスファー学習によって初期化される深層学習ネットワークは,後から学習したクラス数が小さくなるにつれて精度が向上することを示す。

We present a novel modular object detection convolutional neural network that significantly improves the accuracy of object detection. The network consists of two stages in a hierarchical structure. The first stage is a network that detects general classes. The second stage consists of separate networks to refine the classification and localization of each of the general classes objects. Compared to a state of the art object detection networks the classification error in the modular network is improved by approximately 3-5 times, from 12% to 2.5 %-4.5%. This network is easy to implement and has a 0.94 mAP. The network architecture can be a platform to improve the accuracy of widespread state of the art object detection networks and other kinds of deep learning networks. We show that a deep learning network initialized by transfer learning becomes more accurate as the number of classes it later trained to detect becomes smaller.
翻訳日:2023-01-07 04:40:36 公開日:2020-09-13
# MRNETO:意図しない磁気放射によるUSBフラッシュドライブのフィンガープリント

MAGNETO: Fingerprinting USB Flash Drives via Unintentional Magnetic Emissions ( http://arxiv.org/abs/2002.05905v3 )

ライセンス: Link先を確認
Omar Adel Ibrahim, Savio Sciancalepore, Gabriele Oligeri, Roberto Di Pietro(参考訳) Universal Serial Bus (USB) Flash Drivesは、特にインターネット接続が利用できない場合、ファイルを転送する最も便利で普及した方法の1つである。 しかし、usbフラッシュドライブはホストデバイスへの不正アクセスを得るために使われる最も一般的な攻撃ベクターの1つである。 例えば、usbドライブを交換することで、usbキーが接続されると、パスワード盗むツール、ルートキットソフトウェア、その他の破壊的なマルウェアをインストールすることができる。 これにより、攻撃者はUSB接続されたデバイスを介して機密情報を盗み、悪意のあるソフトウェアをホストに注入することができる。 そこで我々は,その意図しない磁気放射の解析に根ざした,usbフラッシュドライブの信頼性を検証するための,効率的で非対話的,プライバシ保護の枠組みであるマグニートーを提案する。 特定のホスト上でのブート操作中に放射される磁気放射は、各デバイスに固有のものであり、使用機器によっては、USBフラッシュドライブのブランドとモデル、または特定のUSBデバイスの両方に固有の指紋を付けるのに十分であることを示す。 59種類のUSBフラッシュドライブに関する調査は、2019年半ばにAmazonで購入した上位ブランドを含む17ブランドに短縮され、ブランドとモデルの識別において98.2%の最小分類精度が示され、無視できる時間と計算上のオーバーヘッドが伴った。 MAGNETOは特定のUSBフラッシュドライブを識別でき、最小分類精度は91.2%である。 全体として、マグニートーは意図しない磁気放射を指紋読み取り専用usbフラッシュドライブの実用的かつ信頼性の高い手段と見なすことができることを証明している。 最後に,本領域における今後の研究方向性についても論じる。

Universal Serial Bus (USB) Flash Drives are nowadays one of the most convenient and diffused means to transfer files, especially when no Internet connection is available. However, USB flash drives are also one of the most common attack vectors used to gain unauthorized access to host devices. For instance, it is possible to replace a USB drive so that when the USB key is connected, it would install passwords stealing tools, root-kit software, and other disrupting malware. In such a way, an attacker can steal sensitive information via the USB-connected devices, as well as inject any kind of malicious software into the host. To thwart the above-cited raising threats, we propose MAGNETO, an efficient, non-interactive, and privacy-preserving framework to verify the authenticity of a USB flash drive, rooted in the analysis of its unintentional magnetic emissions. We show that the magnetic emissions radiated during boot operations on a specific host are unique for each device, and sufficient to uniquely fingerprint both the brand and the model of the USB flash drive, or the specific USB device, depending on the used equipment. Our investigation on 59 different USB flash drives---belonging to 17 brands, including the top brands purchased on Amazon in mid-2019---, reveals a minimum classification accuracy of 98.2% in the identification of both brand and model, accompanied by a negligible time and computational overhead. MAGNETO can also identify the specific USB Flash drive, with a minimum classification accuracy of 91.2%. Overall, MAGNETO proves that unintentional magnetic emissions can be considered as a viable and reliable means to fingerprint read-only USB flash drives. Finally, future research directions in this domain are also discussed.
翻訳日:2023-01-01 05:17:56 公開日:2020-09-13
# 水中画像のセマンティックセグメンテーション:データセットとベンチマーク

Semantic Segmentation of Underwater Imagery: Dataset and Benchmark ( http://arxiv.org/abs/2004.01241v3 )

ライセンス: Link先を確認
Md Jahidul Islam, Chelsey Edge, Yuyang Xiao, Peigen Luo, Muntaqim Mehtaz, Christopher Morse, Sadman Sakib Enan and Junaed Sattar(参考訳) 本稿では,水中画像のセマンティックセマンティックセグメンテーション(SUIM)のための,最初の大規模データセットを提案する。 この画像には、魚(脊椎動物)、サンゴ礁(無脊椎動物)、水生植物、難破物/ルール、人間のダイバー、ロボット、海底の8つのカテゴリーのピクセルアノテーションが付いた1500以上の画像が含まれている。 この画像は海洋探査や人間とロボットによる共同実験で厳密に収集され、人間が注釈を付けている。 また,標準性能指標に基づく最先端意味セグメンテーション手法のベンチマーク評価を行う。 さらに,性能と計算効率のトレードオフを均衡させる完全畳み込みエンコーダデコーダモデルSUIM-Netを提案する。 これは、視覚誘導水中ロボットの自律パイプラインでの使用に不可欠な、エンドツーエンドの迅速な推論を保証しながら、競争力のあるパフォーマンスを提供する。 特に,視覚サーボ,サリエンシー予測,詳細なシーン理解におけるユーザビリティのメリットを実証する。 さまざまなユースケースにおいて、提案されたモデルとベンチマークデータセットは、将来の水中ロボットビジョン研究の有望な機会を開く。

In this paper, we present the first large-scale dataset for semantic Segmentation of Underwater IMagery (SUIM). It contains over 1500 images with pixel annotations for eight object categories: fish (vertebrates), reefs (invertebrates), aquatic plants, wrecks/ruins, human divers, robots, and sea-floor. The images have been rigorously collected during oceanic explorations and human-robot collaborative experiments, and annotated by human participants. We also present a benchmark evaluation of state-of-the-art semantic segmentation approaches based on standard performance metrics. In addition, we present SUIM-Net, a fully-convolutional encoder-decoder model that balances the trade-off between performance and computational efficiency. It offers competitive performance while ensuring fast end-to-end inference, which is essential for its use in the autonomy pipeline of visually-guided underwater robots. In particular, we demonstrate its usability benefits for visual servoing, saliency prediction, and detailed scene understanding. With a variety of use cases, the proposed model and benchmark dataset open up promising opportunities for future research in underwater robot vision.
翻訳日:2022-12-17 13:14:36 公開日:2020-09-13
# マルチカメラ領域適応による無人車両計数

Unsupervised Vehicle Counting via Multiple Camera Domain Adaptation ( http://arxiv.org/abs/2004.09251v2 )

ライセンス: Link先を確認
Luca Ciampi and Carlos Santiago and Joao Paulo Costeira and Claudio Gennaro and Giuseppe Amato(参考訳) 市民の生活の質と都市環境を改善するためには, 都市内の車両流のモニタリングが不可欠である。 画像は、広範囲の車両の流れを知覚し、評価するのに最も適している。 画像のヒンジを大量の注釈付きデータにカウントする現在の技術は、新しいカメラがシステムに追加されるにつれて、都市規模へのスケーラビリティを損なう。 これは、物理システムと機械学習とAIにおける重要な研究領域を扱う際に、繰り返し発生する問題である。 本稿では,複数カメラ領域の適応によるラベル付きデータが少ない画像に基づく車両密度推定器の設計手法を提案する。

Monitoring vehicle flows in cities is crucial to improve the urban environment and quality of life of citizens. Images are the best sensing modality to perceive and assess the flow of vehicles in large areas. Current technologies for vehicle counting in images hinge on large quantities of annotated data, preventing their scalability to city-scale as new cameras are added to the system. This is a recurrent problem when dealing with physical systems and a key research area in Machine Learning and AI. We propose and discuss a new methodology to design image-based vehicle density estimators with few labeled data via multiple camera domain adaptations.
翻訳日:2022-12-11 18:01:44 公開日:2020-09-13
# deepfakesの作成と検出:調査

The Creation and Detection of Deepfakes: A Survey ( http://arxiv.org/abs/2004.11138v3 )

ライセンス: Link先を確認
Yisroel Mirsky, Wenke Lee(参考訳) 生成的ディープラーニングアルゴリズムは、何が本物かと何が偽なのかを区別することが難しい点まで進歩している。 2018年、誤報の拡散、政治指導者の偽装、無実の個人に対する非難など、非倫理的で悪意のある応用にこの技術を使うのがいかに簡単かが判明した。 それ以来、これらの「ディープフェイク」は著しく進歩した。 本稿では,deepfakesの作成と検出について検討し,これらのアーキテクチャがどのように動作するのかを詳細に見ていく。 本調査の目的は,(1)ディープフェイクの発生と検出方法,(2)この領域における現在の動向と進展,(3)現在の防衛ソリューションの欠点,(4)さらなる研究と注意を要する領域について,より深く理解することである。

Generative deep learning algorithms have progressed to a point where it is difficult to tell the difference between what is real and what is fake. In 2018, it was discovered how easy it is to use this technology for unethical and malicious applications, such as the spread of misinformation, impersonation of political leaders, and the defamation of innocent individuals. Since then, these `deepfakes' have advanced significantly. In this paper, we explore the creation and detection of deepfakes and provide an in-depth view of how these architectures work. The purpose of this survey is to provide the reader with a deeper understanding of (1) how deepfakes are created and detected, (2) the current trends and advancements in this domain, (3) the shortcomings of the current defense solutions, and (4) the areas which require further research and attention.
翻訳日:2022-12-10 09:28:34 公開日:2020-09-13
# グラフニューラルネットワークによる相関型教師なし変化点検出

Correlation-aware Unsupervised Change-point Detection via Graph Neural Networks ( http://arxiv.org/abs/2004.11934v2 )

ライセンス: Link先を確認
Ruohong Zhang, Yu Hao, Donghan Yu, Wei-Cheng Chang, Guokun Lai, Yiming Yang(参考訳) 変化点検出(CPD)は、時系列データによる突然の変化を検出することを目的としている。 直観的には、多変量時系列上で有効なcpdは、入力変数間の依存関係を明示的にモデル化する必要がある。 しかし、既存のPD法は依存構造を完全に無視するか、あるいは相関構造が時間とともに静的であるという(非現実的な)仮定に依存している。 本稿では,グラフニューラルネットワークをエンコーダ・デコーダフレームワークに組み込むことにより,変数の相関構造とダイナミクスを明示的にモデル化する相関認識ダイナミクスモデルを提案する。 合成および実世界のデータセットに関する広範な実験は、強いベースラインに対するcpdタスクにおける提案モデルの有利な性能と、相関性の変化や独立性の変化として変更点を分類する能力を示している。 キーワード:多変量時系列、変化点検出、グラフニューラルネットワーク

Change-point detection (CPD) aims to detect abrupt changes over time series data. Intuitively, effective CPD over multivariate time series should require explicit modeling of the dependencies across input variables. However, existing CPD methods either ignore the dependency structures entirely or rely on the (unrealistic) assumption that the correlation structures are static over time. In this paper, we propose a Correlation-aware Dynamics Model for CPD, which explicitly models the correlation structure and dynamics of variables by incorporating graph neural networks into an encoder-decoder framework. Extensive experiments on synthetic and real-world datasets demonstrate the advantageous performance of the proposed model on CPD tasks over strong baselines, as well as its ability to classify the change-points as correlation changes or independent changes. Keywords: Multivariate Time Series, Change-point Detection, Graph Neural Networks
翻訳日:2022-12-10 02:57:29 公開日:2020-09-13
# ELF: 長期分類のための初期段階フレームワーク

ELF: An Early-Exiting Framework for Long-Tailed Classification ( http://arxiv.org/abs/2006.11979v2 )

ライセンス: Link先を確認
Rahul Duggal, Scott Freitas, Sunny Dhamnani, Duen Horng Chau, Jimeng Sun(参考訳) 自然界は多くの場合、例のほとんどを少数のクラスしか説明できない長い尾を持つデータ分布に従う。 このロングテールにより、分類器は多数派クラスに過剰に適合する。 これを軽減するために、事前のソリューションでは、データリサンプリングや損失リフォームといったクラスリバランス戦略が一般的である。 しかし、クラス内の各例を等しく扱うことにより、これらのメソッドは、例の硬さという重要な概念、すなわち各クラス内では、他の例よりも分類しやすい概念を考慮できない。 この難易度の概念を学習プロセスに組み込むため,EarLy-exiting Framework(ELF)を提案する。 トレーニング中、ELFはバックボーンネットワークにアタッチされた補助ブランチを通じて簡単なサンプルを早期に出力することを学ぶ。 1) ニューラルネットワークは、ネットワーク全体の損失により多くの貢献をするので、ハードな例にますます焦点を合わせ、(2) 難しい例を区別するために追加のモデルの容量を解放します。 ImageNet LTとiNaturalist'18という2つの大規模データセットの実験結果は、ELFが最先端の精度を3%以上向上できることを示した。 これは、最大20%の推測時間のFLOPSを削減できる追加の利点がある。 ELFは以前の作業と相補的であり、様々な既存手法と自然に統合して、長い尾の分布の課題に取り組むことができる。

The natural world often follows a long-tailed data distribution where only a few classes account for most of the examples. This long-tail causes classifiers to overfit to the majority class. To mitigate this, prior solutions commonly adopt class rebalancing strategies such as data resampling and loss reshaping. However, by treating each example within a class equally, these methods fail to account for the important notion of example hardness, i.e., within each class some examples are easier to classify than others. To incorporate this notion of hardness into the learning process, we propose the EarLy-exiting Framework(ELF). During training, ELF learns to early-exit easy examples through auxiliary branches attached to a backbone network. This offers a dual benefit-(1) the neural network increasingly focuses on hard examples, since they contribute more to the overall network loss; and (2) it frees up additional model capacity to distinguish difficult examples. Experimental results on two large-scale datasets, ImageNet LT and iNaturalist'18, demonstrate that ELF can improve state-of-the-art accuracy by more than 3 percent. This comes with the additional benefit of reducing up to 20 percent of inference time FLOPS. ELF is complementary to prior work and can naturally integrate with a variety of existing methods to tackle the challenge of long-tailed distributions.
翻訳日:2022-11-18 04:27:02 公開日:2020-09-13
# AutoCP: 正確な予測間隔のための自動パイプライン

AutoCP: Automated Pipelines for Accurate Prediction Intervals ( http://arxiv.org/abs/2006.14099v2 )

ライセンス: Link先を確認
Yao Zhang and William Zame and Mihaela van der Schaar(参考訳) 金融予測やパーソナライズされた医療といった現実世界の予測問題への機械学習モデルの適用の成功は、モデル予測の不確実性を制限し、定量化する必要があるため、困難であることが証明されている。 共形予測(conformal prediction)は、有限サンプルにおける妥当な予測間隔を構築するための分布のないアプローチである。 しかし、共形予測によって構築される予測間隔は、しばしば(過剰フィッティング、不適切な非共形性の尺度、その他の問題のために)過度に保守的であり、したがって手前の用途に不適当である。 本稿では,Automatic Machine Learning for Conformal Prediction (AutoCP)と呼ばれるAutoMLフレームワークを提案する。 最適な予測モデルを選択しようとするよく知られたautomlフレームワークとは異なり、autocpはユーザの特定対象カバレッジ率を達成する予測インターバルを構築し、インターバル長を正確かつ控えめに最適化する。 さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。

Successful application of machine learning models to real-world prediction problems, e.g. financial forecasting and personalized medicine, has proved to be challenging, because such settings require limiting and quantifying the uncertainty in the model predictions, i.e. providing valid and accurate prediction intervals. Conformal Prediction is a distribution-free approach to construct valid prediction intervals in finite samples. However, the prediction intervals constructed by Conformal Prediction are often (because of over-fitting, inappropriate measures of nonconformity, or other issues) overly conservative and hence inadequate for the application(s) at hand. This paper proposes an AutoML framework called Automatic Machine Learning for Conformal Prediction (AutoCP). Unlike the familiar AutoML frameworks that attempt to select the best prediction model, AutoCP constructs prediction intervals that achieve the user-specified target coverage rate while optimizing the interval length to be accurate and less conservative. We tested AutoCP on a variety of datasets and found that it significantly outperforms benchmark algorithms.
翻訳日:2022-11-17 09:31:17 公開日:2020-09-13
# 回帰の確率自由ガウス過程

Likelihood-Free Gaussian Process for Regression ( http://arxiv.org/abs/2006.13456v2 )

ライセンス: Link先を確認
Yuta Shikuri(参考訳) ガウス過程回帰は、その可能性に関する十分な情報が与えられた利子パラメータの後方分布を柔軟に表現することができる。 しかし、場合によっては確率モデルに関する知識がほとんどない場合もある。 例えば、金融機器に投資する場合、キャッシュフローの確率モデルは一般的に不明である。 本稿では,確率自由ガウス過程(LFGP)と呼ばれる新しいフレームワークを提案する。これは,確率関数を直接設定することなく,拡張性のある問題に対する関心パラメータの後方分布を表現できる。 LFGPは、興味パラメータの値をほぼ同一とみなすことのできるクラスタを確立し、最大極大推定器の漸近正規性を用いて、各クラスタにおける関心パラメータの確率をガウスに近似する。 提案手法は,確率モデルに対する仮定と拡張性のある問題に対する計算コストを低減し,可能性のないモデリングに多大な貢献を期待する。

Gaussian process regression can flexibly represent the posterior distribution of an interest parameter given sufficient information on the likelihood. However, in some cases, we have little knowledge regarding the probability model. For example, when investing in a financial instrument, the probability model of cash flow is generally unknown. In this paper, we propose a novel framework called the likelihood-free Gaussian process (LFGP), which allows representation of the posterior distributions of interest parameters for scalable problems without directly setting their likelihood functions. The LFGP establishes clusters in which the value of the interest parameter can be considered approximately identical, and it approximates the likelihood of the interest parameter in each cluster to a Gaussian using the asymptotic normality of the maximum likelihood estimator. We expect that the proposed framework will contribute significantly to likelihood-free modeling, particularly by reducing the assumptions for the probability model and the computational costs for scalable problems.
翻訳日:2022-11-17 09:15:04 公開日:2020-09-13
# 単一画像からの適応的3次元顔再構成

Adaptive 3D Face Reconstruction from a Single Image ( http://arxiv.org/abs/2007.03979v2 )

ライセンス: Link先を確認
Kun Li, Jing Yang, Nianhong Jiao, Jinsong Zhang, and Yu-Kun Lai(参考訳) 一つの画像からの3D顔の再構成は、特に部分閉塞と極端なポーズ下では難しい問題である。 これは、推定2次元ランドマークの不確かさが顔の復元の質に影響を与えるためである。 本論文では,3次元ランドマークの奥行きを組み合わせることで,見えないランドマークの検出を不確かに解決する,1枚の画像から3次元顔形状を適応的に再構成する2次元および3次元共同最適化手法を提案する。 本手法は,2次元と3次元の両方のランドマークを用いた粗いポーズ推定と,精密なポーズパラメータに基づく適応的な2次元と3次元の再重み付けという2つの側面を含む。 複数のデータセットを用いた実験の結果,単一のカラー画像から高品質な再構成が可能であり,自己完結と大きなポーズに頑健であることが判明した。

3D face reconstruction from a single image is a challenging problem, especially under partial occlusions and extreme poses. This is because the uncertainty of the estimated 2D landmarks will affect the quality of face reconstruction. In this paper, we propose a novel joint 2D and 3D optimization method to adaptively reconstruct 3D face shapes from a single image, which combines the depths of 3D landmarks to solve the uncertain detections of invisible landmarks. The strategy of our method involves two aspects: a coarse-to-fine pose estimation using both 2D and 3D landmarks, and an adaptive 2D and 3D re-weighting based on the refined pose parameter to recover accurate 3D faces. Experimental results on multiple datasets demonstrate that our method can generate high-quality reconstruction from a single color image and is robust for self-occlusion and large poses.
翻訳日:2022-11-12 13:14:33 公開日:2020-09-13
# Lie PCA:対称多様体の密度推定

Lie PCA: Density estimation for symmetric manifolds ( http://arxiv.org/abs/2008.04278v2 )

ライセンス: Link先を確認
Jameson Cahill, Dustin G. Mixon, Hans Parshall(参考訳) 学習対称多様体に対する局所主成分分析の拡張を提案する。 特に、スペクトル法を用いて基底多様体の対称性群に対応するリー代数を近似する。 密度推定を改善するために様々なデータセットに適用する前に, 様々な多様体に対して本手法のサンプル複雑性を導出する。

We introduce an extension to local principal component analysis for learning symmetric manifolds. In particular, we use a spectral method to approximate the Lie algebra corresponding to the symmetry group of the underlying manifold. We derive the sample complexity of our method for a variety of manifolds before applying it to various data sets for improved density estimation.
翻訳日:2022-10-31 22:36:55 公開日:2020-09-13
# 人文推定を用いたリアルタイム手話検出

Real-Time Sign Language Detection using Human Pose Estimation ( http://arxiv.org/abs/2008.04637v2 )

ライセンス: Link先を確認
Amit Moryossef, Ioannis Tsochantaridis, Roee Aharoni, Sarah Ebling, and Srini Narayanan(参考訳) 我々は,ビデオ会議におけるこのようなケースの必要性を明らかにするため,軽量なリアルタイム手話検出モデルを提案する。 人間のポーズ推定に基づく光学的流れの特徴を抽出し、線形分類器を用いてDGS Corpusで評価した80%の精度でこれらの特徴が有意であることを示す。 入力に直接リカレントモデルを使用することで、最大91%の精度が向上し、しかも4ms以下で動作します。 ビデオ会議アプリケーションでの使用可能性を示すために,ブラウザ上での言語検出にサインするデモアプリケーションを記述した。

We propose a lightweight real-time sign language detection model, as we identify the need for such a case in videoconferencing. We extract optical flow features based on human pose estimation and, using a linear classifier, show these features are meaningful with an accuracy of 80%, evaluated on the DGS Corpus. Using a recurrent model directly on the input, we see improvements of up to 91% accuracy, while still working under 4ms. We describe a demo application to sign language detection in the browser in order to demonstrate its usage possibility in videoconferencing applications.
翻訳日:2022-10-31 10:36:00 公開日:2020-09-13
# AWNet: Image ISPのための注意ウェーブレットネットワーク

AWNet: Attentive Wavelet Network for Image ISP ( http://arxiv.org/abs/2008.09228v2 )

ライセンス: Link先を確認
Linhui Dai, Xiaohong Liu, Chengqi Li, and Jun Chen(参考訳) 過去10年でスマートフォンのパフォーマンスが劇的に向上した今、モバイル写真は大部分のスマートフォンユーザーの間でもっとも一般的な方法の1つになっている。 しかし、携帯電話のカメラセンサーのサイズが限られているため、撮影された画像はデジタル一眼レフ(dslr)カメラで撮影されたものとは視覚的に区別されている。 この性能ギャップを狭めるためには、カメラ画像信号処理装置(isp)を再設計し、画質を改善することである。 ディープラーニングの急速な普及に伴い、最近の研究は、深層畳み込みニューラルネットワーク(CNN)を利用して、電話でキャプチャされた画像をDSLRにマッピングする高度なデータ駆動ISPを開発している。 本稿では,この学習可能な画像ISP問題に対処するために,AWNetと呼ばれるアテンション機構とウェーブレット変換を利用する新しいネットワークを提案する。 提案手法では,ウェーブレット変換を付加することにより,生情報から良好な画像詳細を復元し,計算コストの面で高い効率を維持しつつ,より大きな受容場を実現することができる。 グローバルコンテキストブロックは,rgb画像生成のための非局所色マッピングを学習するために用いられる。 さらに、このブロックは、提供されたデータセットで起きた画像の不一致の影響を軽減する。 実験結果から,定性的,定量的両測定における設計の進歩が示唆された。 コードは一般に公開されている。

As the revolutionary improvement being made on the performance of smartphones over the last decade, mobile photography becomes one of the most common practices among the majority of smartphone users. However, due to the limited size of camera sensors on phone, the photographed image is still visually distinct to the one taken by the digital single-lens reflex (DSLR) camera. To narrow this performance gap, one is to redesign the camera image signal processor (ISP) to improve the image quality. Owing to the rapid rise of deep learning, recent works resort to the deep convolutional neural network (CNN) to develop a sophisticated data-driven ISP that directly maps the phone-captured image to the DSLR-captured one. In this paper, we introduce a novel network that utilizes the attention mechanism and wavelet transform, dubbed AWNet, to tackle this learnable image ISP problem. By adding the wavelet transform, our proposed method enables us to restore favorable image details from RAW information and achieve a larger receptive field while remaining high efficiency in terms of computational cost. The global context block is adopted in our method to learn the non-local color mapping for the generation of appealing RGB images. More importantly, this block alleviates the influence of image misalignment occurred on the provided dataset. Experimental results indicate the advances of our design in both qualitative and quantitative measurements. The code is available publically.
翻訳日:2022-10-27 04:09:32 公開日:2020-09-13
# セグメンテーション性能評価における平均ハウスドルフ距離の利用について:ランク付け時に隠れバイアス

On The Usage Of Average Hausdorff Distance For Segmentation Performance Assessment: Hidden Bias When Used For Ranking ( http://arxiv.org/abs/2009.00215v2 )

ライセンス: Link先を確認
Orhun Utku Aydin, Abdel Aziz Taha, Adam Hilbert, Ahmed A. Khalil, Ivana Galinovic, Jochen B. Fiebach, Dietmar Frey and Vince Istvan Madai(参考訳) 平均ハウスドルフ距離(英: Average Hausdorff Distance, AVD)は、2つの点集合間の距離を計算するために広く用いられる性能測度である。 医用画像セグメンテーションでは、avdは基底真理画像とそれらのランキングを可能にするセグメンテーション結果を比較するために使用される。 しかし,avdのランキングバイアスにより,セグメンテーションランキングにはあまり適さないことがわかった。 このバイアスを軽減するため、バランスの取れたAVD(bAVD)を作成したAVDの修正型計算を提案する。 分類のためのセグメンテーションをシミュレートするため,脳血管セグメンテーションに共通する非重複セグメンテーションエラーを手作業で作成した。 生成した誤りを連続的に無作為に付加し, 誤り数の増加を伴うシミュレーションセグメンテーションのセットを作成した。 各セグメンテーションは, AVD と bAVD を用いてランク付けした。 我々は,各セグメンテーションにおけるセグメンテーションランキングと誤差数との相関係数を計算した。 bAVDによるランキングは、AVD (0.847) よりも有意に高い平均相関 (0.969) を示した。 合計ランキング200位では、bAVDは52位、AVDは179位だった。 提案した評価指標であるbAVDは,AVDのランキングバイアスを緩和し,セグメンテーションのランク付けや品質評価に適している。

Average Hausdorff Distance (AVD) is a widely used performance measure to calculate the distance between two point sets. In medical image segmentation, AVD is used to compare ground truth images with segmentation results allowing their ranking. We identified, however, a ranking bias of AVD making it less suitable for segmentation ranking. To mitigate this bias, we present a modified calculation of AVD that we have coined balanced AVD (bAVD). To simulate segmentations for ranking, we manually created non-overlapping segmentation errors common in cerebral vessel segmentation as our use-case. Adding the created errors consecutively and randomly to the ground truth, we created sets of simulated segmentations with increasing number of errors. Each set of simulated segmentations was ranked using AVD and bAVD. We calculated the Kendall-rank-correlation-coefficient between the segmentation ranking and the number of errors in each simulated segmentation. The rankings produced by bAVD had a significantly higher average correlation (0.969) than those of AVD (0.847). In 200 total rankings, bAVD misranked 52 and AVD misranked 179 segmentations. Our proposed evaluation measure, bAVD, alleviates AVDs ranking bias making it more suitable for rankings and quality assessment of segmentations.
翻訳日:2022-10-23 01:45:22 公開日:2020-09-13
# 低・高品位rgb-dセンサを用いた自己教師付き深度推定

Self-supervised Depth Denoising Using Lower- and Higher-quality RGB-D sensors ( http://arxiv.org/abs/2009.04776v2 )

ライセンス: Link先を確認
Akhmedkhan Shabanov, Ilya Krotov, Nikolay Chinaev, Vsevolod Poletaev, Sergei Kozlukov, Igor Pasechnik, Bulat Yakupov, Artsiom Sanakoyeu, Vadim Lebedev, Dmitry Ulyanov(参考訳) モバイルデバイスに埋め込まれた消費者レベルの深度カメラと深度センサーは、ARゲームや顔認証など、数多くのアプリケーションを可能にする。 しかし、3次元復元、追跡、その他のコンピュータビジョンタスクでは、撮影深度の質が不十分な場合がある。 本稿では,低品質センサからの奥行きを識別・精細化するための自己教師型深度Denoisingアプローチを提案する。 rgb-dシークエンスを非接合低質・高画質カメラで同時記録し,時間的・空間的にシークエンスを整列させる課題を解決する。 次に,類似した高品質データを監督信号の源として用いることで,低品質の深さを推定する深層ニューラルネットワークを学習する。 本手法は,最先端のフィルタリングベースおよび深層ノイズ除去手法に対して実験的に検証し,より詳細な融合面とより良いトラッキングを実現する3次元オブジェクト再構成タスクに応用することを示す。

Consumer-level depth cameras and depth sensors embedded in mobile devices enable numerous applications, such as AR games and face identification. However, the quality of the captured depth is sometimes insufficient for 3D reconstruction, tracking and other computer vision tasks. In this paper, we propose a self-supervised depth denoising approach to denoise and refine depth coming from a low quality sensor. We record simultaneous RGB-D sequences with unzynchronized lower- and higher-quality cameras and solve a challenging problem of aligning sequences both temporally and spatially. We then learn a deep neural network to denoise the lower-quality depth using the matched higher-quality data as a source of supervision signal. We experimentally validate our method against state-of-the-art filtering-based and deep denoising techniques and show its application for 3D object reconstruction tasks where our approach leads to more detailed fused surfaces and better tracking.
翻訳日:2022-10-20 03:45:59 公開日:2020-09-13
# 適応型ニューロファジー推論システムとgrey wolfオプティマイザを用いた多層パーセプトロンモデルによる太陽拡散率の予測

Adaptive Neuro-Fuzzy Inference System and a Multilayer Perceptron Model Trained with Grey Wolf Optimizer for Predicting Solar Diffuse Fraction ( http://arxiv.org/abs/2009.08275v1 )

ライセンス: Link先を確認
Randall Claywell, Laszlo Nadai, Felde Imre, Amir Mosavi(参考訳) 太陽拡散率(Diffuse Ratio)と呼ばれる太陽拡散率(DF)の正確な予測は、太陽エネルギー研究において重要なトピックである。 本研究では,Diffuse Irradiance Researchの現状を考察し,スペイン・アルメリアの3つの頑健な機械学習(ML)モデルについて,時間単位の大規模なデータセット(ほぼ8年)を用いて検討した。 ここで使用されるMLモデルは、Adaptive Network-based Fuzzy Inference System (ANFIS)、Multi-Layer Perceptron (MLP)、Multi-Layer Perceptron-Grey Wolf Optimizer (MLP-GWO)である。 これらのモデルは、スペインからの様々な太陽および拡散分率(df)データを用いて予測精度を評価した。 その結果, 平均絶対誤差 (MAE) とルート平均角誤差 (RMSE) の2つの評価基準を用いて評価した。 その結果,MLP-GWOモデル,およびANFISモデルが,トレーニングおよびテスト手順の両方において高い性能を示した。

The accurate prediction of the solar Diffuse Fraction (DF), sometimes called the Diffuse Ratio, is an important topic for solar energy research. In the present study, the current state of Diffuse Irradiance research is discussed and then three robust, Machine Learning (ML) models, are examined using a large dataset (almost 8 years) of hourly readings from Almeria, Spain. The ML models used herein, are a hybrid Adaptive Network-based Fuzzy Inference System (ANFIS), a single Multi-Layer Perceptron (MLP) and a hybrid Multi-Layer Perceptron-Grey Wolf Optimizer (MLP-GWO). These models were evaluated for their predictive precision, using various Solar and Diffuse Fraction (DF) irradiance data, from Spain. The results were then evaluated using two frequently used evaluation criteria, the Mean Absolute Error (MAE) and the Root Mean Square Error (RMSE). The results showed that the MLP-GWO model, followed by the ANFIS model, provided a higher performance, in both the training and the testing procedures.
翻訳日:2022-10-19 03:24:23 公開日:2020-09-13
# 畳み込みニューラルネットを用いた動的PETからの直接膝蓋骨再建術

Clinically Translatable Direct Patlak Reconstruction from Dynamic PET with Motion Correction Using Convolutional Neural Network ( http://arxiv.org/abs/2009.05901v1 )

ライセンス: Link先を確認
Nuobei Xie, Kuang Gong, Ning Guo, Zhixing Qin, Jianan Cui, Zhifang Wu, Huafeng Liu, Quanzheng Li(参考訳) パトラクモデルは18F-FDGダイナミックポジトロン断層撮影(PET)において広く用いられており、推定パラメトリック画像は重要な生化学的および生理的情報を示す。 より優れたノイズモデリングと生のシノグラムから抽出された情報により、直接パトラク再構成は、動的PET画像のみを再構成する間接的アプローチよりも人気を得る。 直接Patlak法の前提条件として, 動的PETからの生データを臨床に保管することは稀であり, 入手が困難である。 また,マルチフレーム・リコンストラクションのボトルネックにより,直接復元には時間を要する。 本研究では, 動的PET画像から畳み込みニューラルネットワークを用いて, 高品質な運動補正型直接パトラク画像にマッピングする, データ駆動型フレームワークを提案する。 ダイナミックPETスキャンの長期における患者の動きについて, 後方投射と後方投射を併用して直接再建を行い, 統計モデルに適合した。 臨床18F-FDGダイナミック脳内PETデータセットを用いて,画像バイアスとコントラスト・ツー・ノイズ比に関して,ガウス平均,非局所平均,BM4Dよりも優れた傾向を示した。

Patlak model is widely used in 18F-FDG dynamic positron emission tomography (PET) imaging, where the estimated parametric images reveal important biochemical and physiology information. Because of better noise modeling and more information extracted from raw sinogram, direct Patlak reconstruction gains its popularity over the indirect approach which utilizes reconstructed dynamic PET images alone. As the prerequisite of direct Patlak methods, raw data from dynamic PET are rarely stored in clinics and difficult to obtain. In addition, the direct reconstruction is time-consuming due to the bottleneck of multiple-frame reconstruction. All of these impede the clinical adoption of direct Patlak reconstruction.In this work, we proposed a data-driven framework which maps the dynamic PET images to the high-quality motion-corrected direct Patlak images through a convolutional neural network. For the patient motion during the long period of dynamic PET scan, we combined the correction with the backward/forward projection in direct reconstruction to better fit the statistical model. Results based on fifteen clinical 18F-FDG dynamic brain PET datasets demonstrates the superiority of the proposed framework over Gaussian, nonlocal mean and BM4D denoising, regarding the image bias and contrast-to-noise ratio.
翻訳日:2022-10-19 03:23:56 公開日:2020-09-13
# Calibration Venus: 探索アルゴリズムと詩分解に基づく対話型カメラキャリブレーション手法

Calibration Venus: An Interactive Camera Calibration Method Based on Search Algorithm and Pose Decomposition ( http://arxiv.org/abs/2009.05983v1 )

ライセンス: Link先を確認
Wentai Lei, Mengdi Xu, Feifei Hou, Wensi Jiang(参考訳) ロボットの位置決めや無人運転など、カメラを応用する多くのシナリオにおいて、カメラキャリブレーションは最も重要な事前作業の1つである。 平面板を用いたインタラクティブキャリブレーション法は, 再現性と操作上の利点から, カメラキャリブレーション分野で人気が高まっている。 しかし、既存の手法では、主観的な経験に基づいて、予め定義されたポーズの固定データセットから提案を選択する。 さらに、特定のポーズでボードを配置する方法について、ユーザに明確な指示を与えていない。

In many scenarios where cameras are applied, such as robot positioning and unmanned driving, camera calibration is one of the most important pre-work. The interactive calibration method based on the plane board is becoming popular in camera calibration field due to its repeatability and operation advantages. However, the existing methods select suggestions from a fixed dataset of pre-defined poses based on subjective experience, which leads to a certain degree of one-sidedness. Moreover, they does not give users clear instructions on how to place the board in the specified pose.
翻訳日:2022-10-19 03:18:52 公開日:2020-09-13
# ライダーポイント雲からの表面の意味セグメンテーション

Semantic Segmentation of Surface from Lidar Point Cloud ( http://arxiv.org/abs/2009.05994v1 )

ライセンス: Link先を確認
Aritra Mukherjee, Sourya Dipta Das, Jasorsi Ghosh, Ananda S. Chowdhury, Sanjoy Kumar Saha(参考訳) ロボットナビゲーションにおけるSLAM(Simultaneous Localization and Mapping)の分野では,環境マッピングが重要な課題である。 この点において、Lidarセンサーは、ポイントクラウドの形式で環境のほぼ正確な3Dマップをリアルタイムで生成することができる。 データはSLAMに関連する情報を抽出するのに適しているが、ポイントクラウドでの何百万ポイントの処理は非常に高価である。 提案手法は,クラウドから意味的にラベル付けされた表面セグメントをリアルタイムに抽出し,直接的ナビゲーションや高レベルなコンテクストシーン再構成を行うための高速アルゴリズムを提案する。 まず、回転するLidarからの1つのスキャンを使用して、オンラインのサブサンプルクラウドポイントのメッシュを生成する。 生成されたメッシュは、表面セグメントの推定に基づいて、これらの点の表面正規計算にさらに使用される。 表面セグメントを表す新しい記述子を提案し,分類器の助けを借りてセグメントの表面クラス(セマンティックラベル)を決定する。 これらのセマンティックサーフェスセグメントは、シーン内のオブジェクトの幾何学的再構成にさらに利用したり、ロボットによる最適な軌道計画に使用できる。 提案手法は,ポイントクラウドセグメンテーション手法の数と技術意味セグメンテーション手法の状態を比較し,その有効性をスピードと精度の観点から強調する。

In the field of SLAM (Simultaneous Localization And Mapping) for robot navigation, mapping the environment is an important task. In this regard the Lidar sensor can produce near accurate 3D map of the environment in the format of point cloud, in real time. Though the data is adequate for extracting information related to SLAM, processing millions of points in the point cloud is computationally quite expensive. The methodology presented proposes a fast algorithm that can be used to extract semantically labelled surface segments from the cloud, in real time, for direct navigational use or higher level contextual scene reconstruction. First, a single scan from a spinning Lidar is used to generate a mesh of subsampled cloud points online. The generated mesh is further used for surface normal computation of those points on the basis of which surface segments are estimated. A novel descriptor to represent the surface segments is proposed and utilized to determine the surface class of the segments (semantic label) with the help of classifier. These semantic surface segments can be further utilized for geometric reconstruction of objects in the scene, or can be used for optimized trajectory planning by a robot. The proposed methodology is compared with number of point cloud segmentation methods and state of the art semantic segmentation methods to emphasize its efficacy in terms of speed and accuracy.
翻訳日:2022-10-19 03:18:43 公開日:2020-09-13
# Pairwise-GAN:Pair-Wiseトレーニングによる視点合成

Pairwise-GAN: Pose-based View Synthesis through Pair-Wise Training ( http://arxiv.org/abs/2009.06053v1 )

ライセンス: Link先を確認
Xuyang Shen, Jo Plested, Yue Yao, Tom Gedeon(参考訳) 3次元顔再構成はコンピュータビジョンにおける一般的な応用の1つである。 しかし、最先端のモデルでさえ、入力として正面の顔を必要とするため、野生では使用シナリオが制限される。 同様のジレンマは顔認識でも起こる。 顔の前面を1つの側面像から復元する新しい研究が登場した。 この領域の最先端は、CycleGANに基づくFace-Transformation生成敵ネットワークである。 これにより,前頭顔面合成における画素変換,Pix2Pix,CycleGANの2つのモデルの性能について検討した。 Pix2Pixの5種類の損失関数について実験を行い,その性能向上と,前頭顔面合成における新しいネットワークPairwise-GANの提案を行った。 Pairwise-GANはジェネレータとして2つの並列U-Net、識別器としてPatchGANを使用する。 詳細なハイパーパラメータについても論じる。 顔類似度比較による定量的測定の結果, Pix2PixのL1損失, 勾配差損失, アイデンティティ損失は, デフォルトのPix2Pixモデルと比較して平均類似度で2.72%改善した。 さらに、Pairwise-GANの性能はCycleGANより5.4%、Pix2Pixより9.1%向上している。

Three-dimensional face reconstruction is one of the popular applications in computer vision. However, even state-of-the-art models still require frontal face as inputs, which restricts its usage scenarios in the wild. A similar dilemma also happens in face recognition. New research designed to recover the frontal face from a single side-pose facial image has emerged. The state-of-the-art in this area is the Face-Transformation generative adversarial network, which is based on the CycleGAN. This inspired our research which explores the performance of two models from pixel transformation in frontal facial synthesis, Pix2Pix and CycleGAN. We conducted the experiments on five different loss functions on Pix2Pix to improve its performance, then followed by proposing a new network Pairwise-GAN in frontal facial synthesis. Pairwise-GAN uses two parallel U-Nets as the generator and PatchGAN as the discriminator. The detailed hyper-parameters are also discussed. Based on the quantitative measurement by face similarity comparison, our results showed that Pix2Pix with L1 loss, gradient difference loss, and identity loss results in 2.72% of improvement at average similarity compared to the default Pix2Pix model. Additionally, the performance of Pairwise-GAN is 5.4% better than the CycleGAN and 9.1% than the Pix2Pix at average similarity.
翻訳日:2022-10-19 03:18:20 公開日:2020-09-13
# マルチチャンネルMRI埋め込み:ヒト脳腫瘍分節の増強のための効果的な戦略

Multi-channel MRI Embedding: An EffectiveStrategy for Enhancement of Human Brain WholeTumor Segmentation ( http://arxiv.org/abs/2009.06115v1 )

ライセンス: Link先を確認
Apurva Pandya, Catherine Samuel, Nisargkumar Patel, Vaibhavkumar Patel, Thangarajah Akilan(参考訳) 医療画像処理における最も重要なタスクの1つは、脳全体の腫瘍の分節である。 これは、患者の救命治療に不可欠な脳腫瘍の迅速な臨床評価と早期発見を支援する。 なぜなら、脳腫瘍は、早期に検出された場合、しばしば悪性または良性である。 脳腫瘍は、脳内の異常な細胞の集合体または集合体である。 人間の頭蓋骨は非常に厳格に脳を囲み、この制限された場所での成長は深刻な健康問題を引き起こす。 脳腫瘍の検出には、手術計画と治療のために慎重かつ複雑な分析が必要である。 ほとんどの医師はMRIを用いて腫瘍の診断を行っている。 mriによる腫瘍の手動診断は時間を要することが知られており、1サンプルにつき約18時間かかる。 したがって, 腫瘍の自動分節は, この問題に対する最適解となっている。 研究により、この技術は精度が向上し、手作業による分析よりも速いことが示され、患者は適切なタイミングで治療を受けることができる。 本研究は, 深層学習に基づく腫瘍セグメント化の結果を改善するため, マルチチャネルMRI埋め込みという効率的な手法を提案する。 brats-2019 データセット wrt の実験的解析 u-net encoder-decoder (endec) モデルは大幅に改善されている。 組込み戦略は最先端のアプローチを上回り、時間的オーバーヘッドなしに2%改善する。

One of the most important tasks in medical image processing is the brain's whole tumor segmentation. It assists in quicker clinical assessment and early detection of brain tumors, which is crucial for lifesaving treatment procedures of patients. Because, brain tumors often can be malignant or benign, if they are detected at an early stage. A brain tumor is a collection or a mass of abnormal cells in the brain. The human skull encloses the brain very rigidly and any growth inside this restricted place can cause severe health issues. The detection of brain tumors requires careful and intricate analysis for surgical planning and treatment. Most physicians employ Magnetic Resonance Imaging (MRI) to diagnose such tumors. A manual diagnosis of the tumors using MRI is known to be time-consuming; approximately, it takes up to eighteen hours per sample. Thus, the automatic segmentation of tumors has become an optimal solution for this problem. Studies have shown that this technique provides better accuracy and it is faster than manual analysis resulting in patients receiving the treatment at the right time. Our research introduces an efficient strategy called Multi-channel MRI embedding to improve the result of deep learning-based tumor segmentation. The experimental analysis on the Brats-2019 dataset wrt the U-Net encoder-decoder (EnDec) model shows significant improvement. The embedding strategy surmounts the state-of-the-art approaches with an improvement of 2% without any timing overheads.
翻訳日:2022-10-19 03:17:56 公開日:2020-09-13
# tcdesc: 画像マッチングのための学習トポロジ一貫性記述子

TCDesc: Learning Topology Consistent Descriptors for Image Matching ( http://arxiv.org/abs/2009.07036v1 )

ライセンス: Link先を確認
Honghu Pan, Fanyang Meng, Nana Fan, Zhenyu He(参考訳) 近傍一貫性や局所一貫性の制約は、ロバストな画像マッチングに広く使われている。 本稿では,近隣位相整合記述子(tcdesc)の学習に着目し,ハードネットやdsmなどの学習記述子では,記述子間の点対点ユークリッド距離と記述子の完全に無視された近傍情報のみを考える。 まず,中心記述子とkNN記述子の位相関係を記述する線形結合重み付けを提案し,中心記述子とkNN記述子の線形結合の差を最小化する。 次に,局所線型結合重みを大域トポロジーベクトルにマッピングし,一致する記述子の位相距離をそれらのトポロジーベクトル間のl1距離として定義するグローバルマッピング関数を提案する。 最後に,位相距離とユークリッド距離を共同で最小化し,三重項損失における2つの距離の重みや注意を自動的に調整する適応重み付け戦略を用いる。 提案手法には,(1)記述子の近傍情報を考慮した最初の方法であり,(2)特徴点の近傍一貫性に着目した先行研究であり,(2)三重項損失による学習記述子の以前の研究にも適用可能である。 いくつかのベンチマークにおいて,hardnet と dsm の両方の性能を向上させることができる。

The constraint of neighborhood consistency or local consistency is widely used for robust image matching. In this paper, we focus on learning neighborhood topology consistent descriptors (TCDesc), while former works of learning descriptors, such as HardNet and DSM, only consider point-to-point Euclidean distance among descriptors and totally neglect neighborhood information of descriptors. To learn topology consistent descriptors, first we propose the linear combination weights to depict the topological relationship between center descriptor and its kNN descriptors, where the difference between center descriptor and the linear combination of its kNN descriptors is minimized. Then we propose the global mapping function which maps the local linear combination weights to the global topology vector and define the topology distance of matching descriptors as l1 distance between their topology vectors. Last we employ adaptive weighting strategy to jointly minimize topology distance and Euclidean distance, which automatically adjust the weight or attention of two distances in triplet loss. Our method has the following two advantages: (1) We are the first to consider neighborhood information of descriptors, while former works mainly focus on neighborhood consistency of feature points; (2) Our method can be applied in any former work of learning descriptors by triplet loss. Experimental results verify the generalization of our method: We can improve the performances of both HardNet and DSM on several benchmarks.
翻訳日:2022-10-19 03:17:36 公開日:2020-09-13
# 3次元医用画像再構成と分割のための効率的な折りたたみ注意

Efficient Folded Attention for 3D Medical Image Reconstruction and Segmentation ( http://arxiv.org/abs/2009.05576v1 )

ライセンス: Link先を確認
Hang Zhang, Jinwei Zhang, Rongguang Wang, Qihao Zhang, Pascal Spincemaille, Thanh D. Nguyen, and Yi Wang(参考訳) 近年,深層ニューラルネットワークに基づく3次元医用画像再構成(MIR)とセグメンテーション(MIS)が有望な成果で開発され,パフォーマンス向上のためのグローバルなコンテキスト情報収集のためのアテンション機構がさらに設計されている。 しかし,3次元ボリューム画像の大規模化は,従来の注目手法にとって大きな課題となる。 本稿では,3次元医用画像における従来の注意手法の計算効率を向上させるためのfoldd attention (fa) 手法を提案する。 主な考え方は、4つの置換を持つテンソル折り畳みと展開演算を適用し、4つの小さな部分親和行列を構築して元の親和行列を近似するということである。 FAの4つの連続的なサブアテンションモジュールを通して、特徴テンソルの各要素は他のすべての要素から空間チャネル情報を集約することができる。 従来の注意法と比較すると、精度の適度な改善により、FAは計算複雑性とGPUメモリ消費を大幅に削減できる。 定量的感受性マッピングと多発性硬化性病変のセグメンテーションであるMISとMISの2つの課題に対して,本手法の優位性を示す。

Recently, 3D medical image reconstruction (MIR) and segmentation (MIS) based on deep neural networks have been developed with promising results, and attention mechanism has been further designed to capture global contextual information for performance enhancement. However, the large size of 3D volume images poses a great computational challenge to traditional attention methods. In this paper, we propose a folded attention (FA) approach to improve the computational efficiency of traditional attention methods on 3D medical images. The main idea is that we apply tensor folding and unfolding operations with four permutations to build four small sub-affinity matrices to approximate the original affinity matrix. Through four consecutive sub-attention modules of FA, each element in the feature tensor can aggregate spatial-channel information from all other elements. Compared to traditional attention methods, with moderate improvement of accuracy, FA can substantially reduce the computational complexity and GPU memory consumption. We demonstrate the superiority of our method on two challenging tasks for 3D MIR and MIS, which are quantitative susceptibility mapping and multiple sclerosis lesion segmentation.
翻訳日:2022-10-19 03:16:33 公開日:2020-09-13
# Gabor Waveletによる顔表情の符号化(IVC特集)

Coding Facial Expressions with Gabor Wavelets (IVC Special Issue) ( http://arxiv.org/abs/2009.05938v1 )

ライセンス: Link先を確認
Michael J. Lyons, Miyuki Kamachi, Jiro Gyoba(参考訳) 本稿では,デジタル画像から表情情報を抽出する手法を提案する。 本手法は、顔にほぼ整合した地形順のGaborフィルタの多方向多重解像度セットを用いて、表情画像を符号化する。 このコードから導かれる類似性空間は、人間の観察者による画像の意味的評価から導かれるものと比較される。 興味深いことに、画像由来の類似性空間の低次元構造は、感情の周囲モデルと組織的特徴を共有しており、表情のカテゴリー表現と次元表現の橋渡しを示唆している。 また,入力段階における顔画像のマルチオリエンテーション・マルチレゾリューションgabor符号化に基づく表情分類器の構築も可能であることを示唆した。 提案法によって示される有意な心理的信頼性は、ヒューマン・コンピュータ・インタフェースの設計にも有用である。

We present a method for extracting information about facial expressions from digital images. The method codes facial expression images using a multi-orientation, multi-resolution set of Gabor filters that are topographically ordered and approximately aligned with the face. A similarity space derived from this code is compared with one derived from semantic ratings of the images by human observers. Interestingly the low-dimensional structure of the image-derived similarity space shares organizational features with the circumplex model of affect, suggesting a bridge between categorical and dimensional representations of facial expression. Our results also indicate that it would be possible to construct a facial expression classifier based on a topographically-linked multi-orientation, multi-resolution Gabor coding of the facial images at the input stage. The significant degree of psychological plausibility exhibited by the proposed code may also be useful in the design of human-computer interfaces.
翻訳日:2022-10-19 03:16:13 公開日:2020-09-13
# 自動皮膚癌分類のためのクラス重度・焦点損失機能を用いた転写学習

Transfer learning with class-weighted and focal loss function for automatic skin cancer classification ( http://arxiv.org/abs/2009.05977v1 )

ライセンス: Link先を確認
Duyen N.T. Le, Hieu X. Le, Lua T. Ngo, Hoan T. Ngo(参考訳) 皮膚がんは、世界で最も一般的ながんの上位3位にある。 皮膚がんの種類によって、黒色腫は転移する能力があるため特に危険である。 早期発見は皮膚がん治療の成功の鍵である。 しかし、良性病変と悪性病変との強い類似性から、経験豊富な皮膚科医でも皮膚がんの診断は依然として困難である。 皮膚がん診断における皮膚科医の補助として,(1)アクチン性角化症,(2)基底細胞癌,(3)良性角化症,(4)皮膚線維腫,(5)メラノサイト性母斑,(6)黒色腫,(7)血管性皮膚病変の7種類に,有効かつ自動的に皮膚病変を分類できる深層学習システムを開発した。 HAM10000データセットはシステムのトレーニングに使用された。 クラス重み付けと焦点損失を組み合わせた複数の事前学習モデルを用いたエンド・ツー・エンドのディープラーニングプロセス,転送学習手法を分類プロセスに適用した。 その結果,resnet50を改良したモデルでは,皮膚病変をtop-1,top-2,top-3の正解率93%,97%,99%の7種類に分類できた。 この深層学習システムは、皮膚がんの診断において皮膚科医を支援するコンピュータ支援診断システムに統合される可能性がある。

Skin cancer is by far in top-3 of the world's most common cancer. Among different skin cancer types, melanoma is particularly dangerous because of its ability to metastasize. Early detection is the key to success in skin cancer treatment. However, skin cancer diagnosis is still a challenge, even for experienced dermatologists, due to strong resemblances between benign and malignant lesions. To aid dermatologists in skin cancer diagnosis, we developed a deep learning system that can effectively and automatically classify skin lesions into one of the seven classes: (1) Actinic Keratoses, (2) Basal Cell Carcinoma, (3) Benign Keratosis, (4) Dermatofibroma, (5) Melanocytic nevi, (6) Melanoma, (7) Vascular Skin Lesion. The HAM10000 dataset was used to train the system. An end-to-end deep learning process, transfer learning technique, utilizing multiple pre-trained models, combining with class-weighted and focal loss were applied for the classification process. The result was that our ensemble of modified ResNet50 models can classify skin lesions into one of the seven classes with top-1, top-2 and top-3 accuracy 93%, 97% and 99%, respectively. This deep learning system can potentially be integrated into computer-aided diagnosis systems that support dermatologists in skin cancer diagnosis.
翻訳日:2022-10-19 03:10:24 公開日:2020-09-13
# GIKT:知識追跡のためのグラフベースインタラクションモデル

GIKT: A Graph-based Interaction Model for Knowledge Tracing ( http://arxiv.org/abs/2009.05991v1 )

ライセンス: Link先を確認
Yang Yang, Jian Shen, Yanru Qu, Yunfei Liu, Kerong Wang, Yaoming Zhu, Weinan Zhang and Yong Yu(参考訳) オンライン教育の急速な発展に伴い、知識追跡(KT)は、学生の知識状態を辿り、新しい質問に対してその性能を予測する根本的な問題となっている。 質問はしばしばオンライン教育システムで多く行われ、常により少ないスキルと関連付けられている。 しかし, 従来の文献では, 質問情報と高次質問スキルの相関が欠如しており, 主にデータの分散性やマルチスキルの問題によって制限されている。 モデルの観点からは,従来モデルでは学生運動履歴の長期的依存性を把握できず,学生問合せと学生スキルの相互作用を一貫した方法でモデル化することはできない。 本稿では,上記のプローブに取り組むために,知識トレースのためのグラフベースインタラクションモデル(gikt)を提案する。 より具体的には、GIKTはグラフ畳み込みネットワーク(GCN)を使用して、埋め込み伝播を介して質問スキル相関を実質的に組み込む。 また、関連する質問は、通常、運動履歴中に散在しており、その質問とスキルは、単に知識の異なるインスタンス化であると考え、giktは、学生の現在の状態、学生の歴史に関する演習、対象の質問、および関連するスキルとの相互作用に対する、学生の質問のマスターの程度を一般化する。 3つのデータセットの実験では、GIKTが新しい最先端のパフォーマンスを実現し、少なくとも1%の絶対AUC改善を実現している。

With the rapid development in online education, knowledge tracing (KT) has become a fundamental problem which traces students' knowledge status and predicts their performance on new questions. Questions are often numerous in online education systems, and are always associated with much fewer skills. However, the previous literature fails to involve question information together with high-order question-skill correlations, which is mostly limited by data sparsity and multi-skill problems. From the model perspective, previous models can hardly capture the long-term dependency of student exercise history, and cannot model the interactions between student-questions, and student-skills in a consistent way. In this paper, we propose a Graph-based Interaction model for Knowledge Tracing (GIKT) to tackle the above probems. More specifically, GIKT utilizes graph convolutional network (GCN) to substantially incorporate question-skill correlations via embedding propagation. Besides, considering that relevant questions are usually scattered throughout the exercise history, and that question and skill are just different instantiations of knowledge, GIKT generalizes the degree of students' master of the question to the interactions between the student's current state, the student's history related exercises, the target question, and related skills. Experiments on three datasets demonstrate that GIKT achieves the new state-of-the-art performance, with at least 1% absolute AUC improvement.
翻訳日:2022-10-19 03:09:59 公開日:2020-09-13
# Zone pAth Construction (ZAC) による効果的なリアルタイムライドシェアリング

Zone pAth Construction (ZAC) based Approaches for Effective Real-Time Ridesharing ( http://arxiv.org/abs/2009.06051v1 )

ライセンス: Link先を確認
Meghna Lowalekar, Pradeep Varakantham and Patrick Jaillet(参考訳) UberPool、Lyft Line、GrabShareといったリアルタイムのライドシェアリングシステムは、顧客のコスト削減、ドライバー一人あたりのトリップ収入の改善、道路上のトラフィック削減などにより、大きな人気を集めている。 これらのシステムにおける重要な課題は、"右"の要求をリアルタイムで"右"の車両にまとめることであり、目的(例えば、サービス要求、収益、遅延)を最適化することである。 この課題は、既存の作業で解決されました。 (i)要求の組み合わせをリアルタイムに(顧客にとって利用可能な遅延に関して)できるだけ多くの関連性のあるものにし、 (ii)車両に対する実現可能な要求の組み合わせの割り当ての最適化 車両の容量の増加や要求数の増加に伴い、要求組合せの数が指数関数的に増加するため、残念ながら、そのようなアプローチは割り当てのための要求組合せのサブセットを特定するためにアドホックヒューリスティックを使用する必要がある。 私たちの重要な貢献は、要求の組み合わせではなくゾーン(個々の場所の抽出)パスを採用するアプローチを開発することです。 ゾーンパスは、2つの理由から競合するアプローチよりもはるかに「関連する」組み合わせ(アドホックヒューリスティックスと比較して)をリアルタイムで生成することができる。 i) 各ゾーンパスは、通常、複数の要求の組み合わせを表現できます。 (ii)ゾーンパスは、オフラインメソッドとオンラインメソッドの組み合わせを使って生成される。 具体的には、ゾーンパスを使用するmyopic(現在の要求のみに焦点を当てたridesharing assignment)と非myopic(ridesharing assignmentが期待される将来の要求に影響を与えることを考慮したridesharing assignment)の2つのアプローチに寄与します。 実験結果では,実世界と合成データセットの双方において,私たちのミオピックアプローチは(目的と実行時の両方において)現在のミオピックアプローチよりも優れていることを実証した。

Real-time ridesharing systems such as UberPool, Lyft Line, GrabShare have become hugely popular as they reduce the costs for customers, improve per trip revenue for drivers and reduce traffic on the roads by grouping customers with similar itineraries. The key challenge in these systems is to group the "right" requests to travel together in the "right" available vehicles in real-time, so that the objective (e.g., requests served, revenue or delay) is optimized. This challenge has been addressed in existing work by: (i) generating as many relevant feasible (with respect to the available delay for customers) combinations of requests as possible in real-time; and then (ii) optimizing assignment of the feasible request combinations to vehicles. Since the number of request combinations increases exponentially with the increase in vehicle capacity and number of requests, unfortunately, such approaches have to employ ad hoc heuristics to identify a subset of request combinations for assignment. Our key contribution is in developing approaches that employ zone (abstraction of individual locations) paths instead of request combinations. Zone paths allow for generation of significantly more "relevant" combinations (in comparison to ad hoc heuristics) in real-time than competing approaches due to two reasons: (i) Each zone path can typically represent multiple request combinations; (ii) Zone paths are generated using a combination of offline and online methods. Specifically, we contribute both myopic (ridesharing assignment focussed on current requests only) and non-myopic (ridesharing assignment considers impact on expected future requests) approaches that employ zone paths. In our experimental results, we demonstrate that our myopic approach outperforms (with respect to both objective and runtime) the current best myopic approach for ridesharing on both real-world and synthetic datasets.
翻訳日:2022-10-19 03:09:33 公開日:2020-09-13
# 放射線学コミュニティによるAI認知アシスタントの受容性:RSNAにおけるデータ収集報告

Receptivity of an AI Cognitive Assistant by the Radiology Community: A Report on Data Collected at RSNA ( http://arxiv.org/abs/2009.06082v1 )

ライセンス: Link先を確認
Karina Kanjaria, Anup Pillai, Chaitanya Shivade, Marina Bendersky, Ashutosh Jadhav, Vandana Mukherjee, Tanveer Syeda-Mahmood(参考訳) 機械学習と人工知能(AI)の進歩により、臨床ワークフローにおける放射線学者のインテリジェントアシスタントとしてのマシンに新たな役割が出現している。 しかし、これらの機械はどのような体系的な臨床思考プロセスを使っているのか? 放射線科医が助手として信頼できるほど似ていますか? 2016年、米国放射線学会(rsna)の科学会議と年次総会において、このような技術の実演が行われた。 実験は、放射線学の複数の選択問題と医療画像を入力として用いた質問応答システムとして提示された。 そしてAIシステムは、テキスト分析、画像分析、推論を含む認知ワークフローを示し、その質問を処理し、最も可能性の高い回答を生成する。 デモを経験し、質問応答システムをテストした参加者には、ポストデモサーベイが利用可能になった。 報告された54,037人の参加者のうち、2,927人がデモブースを訪れ、1,991人がデモを体験し、1,025人がデモ後の調査を終えた。 本稿では,調査の方法論を示し,その結果の概要を示す。 調査の結果は、放射線学者の間で認知コンピューティング技術や人工知能に対する高い受容性を示している。

Due to advances in machine learning and artificial intelligence (AI), a new role is emerging for machines as intelligent assistants to radiologists in their clinical workflows. But what systematic clinical thought processes are these machines using? Are they similar enough to those of radiologists to be trusted as assistants? A live demonstration of such a technology was conducted at the 2016 Scientific Assembly and Annual Meeting of the Radiological Society of North America (RSNA). The demonstration was presented in the form of a question-answering system that took a radiology multiple choice question and a medical image as inputs. The AI system then demonstrated a cognitive workflow, involving text analysis, image analysis, and reasoning, to process the question and generate the most probable answer. A post demonstration survey was made available to the participants who experienced the demo and tested the question answering system. Of the reported 54,037 meeting registrants, 2,927 visited the demonstration booth, 1,991 experienced the demo, and 1,025 completed a post-demonstration survey. In this paper, the methodology of the survey is shown and a summary of its results are presented. The results of the survey show a very high level of receptiveness to cognitive computing technology and artificial intelligence among radiologists.
翻訳日:2022-10-19 03:09:04 公開日:2020-09-13
# より賢くパーソナライズされたターボタックスのための税の知識グラフ

Tax Knowledge Graph for a Smarter and More Personalized TurboTax ( http://arxiv.org/abs/2009.06103v1 )

ライセンス: Link先を確認
Jay Yu, Kevin McCluskey, Saikat Mukherjee(参考訳) ほとんどの知識グラフのユースケースはデータ中心であり、データエンティティとそのセマンティックな関係を表現することに重点を置いています。 知識グラフ技術で大規模に複雑なビジネスロジックを表現する成功談は公開されていない。 本稿では,米国とカナダの複雑な所得税コンプライアンス論理(計算とルール)を大規模ナレッジグラフで表現するための,革新的で実践的なアプローチについて紹介する。 税の知識グラフの構築と自動化、税金の返金の計算、欠落した情報を見つけるための推論、計算結果を説明するためのナビゲートなどについて取り上げる。 税知識グラフは、Intuitのフラッグシップ製品であるTurboTaxをスマートでパーソナライズされたエクスペリエンスに転換し、数百万の顧客に信頼を与えながら、納税プロセスの迅速化と自動化を支援した。

Most knowledge graph use cases are data-centric, focusing on representing data entities and their semantic relationships. There are no published success stories to represent large-scale complicated business logic with knowledge graph technologies. In this paper, we will share our innovative and practical approach to representing complicated U.S. and Canadian income tax compliance logic (calculations and rules) via a large-scale knowledge graph. We will cover how the Tax Knowledge Graph is constructed and automated, how it is used to calculate tax refunds, reasoned to find missing info, and navigated to explain the calculated results. The Tax Knowledge Graph has helped transform Intuit's flagship TurboTax product into a smart and personalized experience, accelerating and automating the tax preparation process while instilling confidence for millions of customers.
翻訳日:2022-10-19 03:08:45 公開日:2020-09-13
# ロバストな低ランク特徴抽出とマルコフ確率場に基づくpolsar画像分類

PolSAR Image Classification Based on Robust Low-Rank Feature Extraction and Markov Random Field ( http://arxiv.org/abs/2009.05942v1 )

ライセンス: Link先を確認
Haixia Bi, Jing Yao, Zhiqiang Wei, Danfeng Hong, Jocelyn Chanussot(参考訳) ポラリメトリック合成開口レーダ(PolSAR)画像分類は様々なリモートセンシングアプリケーションで活発に研究されている。 しかし、現在はまだ難しい課題である。 重要な障壁の1つは、PolSARイメージングプロセスに埋め込まれたスペックル効果であり、画像の品質を大幅に低下させ、さらに分類を複雑にする。 そこで本研究では,低ランク(LR)特徴抽出によるスペックルノイズを除去し,マルコフランダムフィールド(MRF)によるスムーズな事前処理を行うPolSAR画像分類手法を提案する。 具体的には,gaussian-based robust lr matrix factorizationの混合を用いて,識別的特徴の抽出と複雑な雑音の除去を同時に行う。 そして、局所的な一貫性が暗黙的に関与する抽出特徴にデータ拡張を伴う畳み込みニューラルネットワークを適用して分類マップを取得し、ラベル問題を軽減する。 最後に,mrfによる分類マップを洗練し,文脈的平滑性を実現する。 PolSARデータセットを2つのベンチマークで実験する。 実験結果から,提案手法は有望な分類性能と良好な空間整合性を実現することが示唆された。

Polarimetric synthetic aperture radar (PolSAR) image classification has been investigated vigorously in various remote sensing applications. However, it is still a challenging task nowadays. One significant barrier lies in the speckle effect embedded in the PolSAR imaging process, which greatly degrades the quality of the images and further complicates the classification. To this end, we present a novel PolSAR image classification method, which removes speckle noise via low-rank (LR) feature extraction and enforces smoothness priors via Markov random field (MRF). Specifically, we employ the mixture of Gaussian-based robust LR matrix factorization to simultaneously extract discriminative features and remove complex noises. Then, a classification map is obtained by applying convolutional neural network with data augmentation on the extracted features, where local consistency is implicitly involved, and the insufficient label issue is alleviated. Finally, we refine the classification map by MRF to enforce contextual smoothness. We conduct experiments on two benchmark PolSAR datasets. Experimental results indicate that the proposed method achieves promising classification performance and preferable spatial consistency.
翻訳日:2022-10-19 03:08:29 公開日:2020-09-13
# 進行成長ganとspadeを組み合わせた脳腫瘍画像とアノテーションの合成

Synthesizing brain tumor images and annotations by combining progressive growing GAN and SPADE ( http://arxiv.org/abs/2009.05946v1 )

ライセンス: Link先を確認
Mehdi Foroozandeh, Anders Eklund(参考訳) セグメンテーションネットワークのトレーニングには大きな注釈付きデータセットが必要ですが、手動アノテーションは時間がかかり、コストがかかります。 本稿では,実写脳腫瘍画像とそれに対応する腫瘍アノテーション(ラベル)の合成にノイズ・ツー・イメージGANと画像・イメージGANを組み合わせることで,トレーニング画像の数を大幅に増加させることができるかを検討する。 雑音対画像ganは新しいラベル画像の合成に使用され、画像対画像ganはラベル画像から対応するmr画像を生成する。 以上の結果から, ラベル画像とmr画像の合成が可能であり, 合成画像の追加によりセグメンテーション性能が向上することが示唆されたが, 効果は小さい。

Training segmentation networks requires large annotated datasets, but manual annotation is time consuming and costly. We here investigate if the combination of a noise-to-image GAN and an image-to-image GAN can be used to synthesize realistic brain tumor images as well as the corresponding tumor annotations (labels), to substantially increase the number of training images. The noise-to-image GAN is used to synthesize new label images, while the image-to-image GAN generates the corresponding MR image from the label image. Our results indicate that the two GANs can synthesize label images and MR images that look realistic, and that adding synthetic images improves the segmentation performance, although the effect is small.
翻訳日:2022-10-19 03:08:11 公開日:2020-09-13
# グラフ正規化とアクティブポイントを用いた半教師付き辞書学習

Semi-supervised dictionary learning with graph regularization and active points ( http://arxiv.org/abs/2009.05964v1 )

ライセンス: Link先を確認
Khanh-Hung Tran, Fred-Maurice Ngole-Mboula, Jean-Luc Starck and Vincent Prost(参考訳) Supervised Dictionary Learningはこの10年で大きな関心を集め、画像分類の大幅な性能向上を示している。 しかし、一般に、教師あり学習は許容できる結果を得るためにクラスごとに多くのラベル付きサンプルを必要とする。 クラス毎に数個のラベル付きサンプルを持つデータベースに対処するために、トレーニングフェーズでラベルなしサンプルを利用する半教師付き学習が使用される。 実際、ラベルのないサンプルは学習モデルを規則化するのに役立ち、分類精度が向上する。 本稿では,2つの柱に基づく半教師付き辞書学習手法を提案する。一方,スパースコードの正規化と考えられる局所線形埋め込みを用いて,原データからスパースコード空間への多様体構造保存を強制する一方で,スパースコード空間における半教師付き分類器を訓練する。 本手法は,最先端の半教師付き辞書学習手法に対して改善をもたらすことを示す。

Supervised Dictionary Learning has gained much interest in the recent decade and has shown significant performance improvements in image classification. However, in general, supervised learning needs a large number of labelled samples per class to achieve an acceptable result. In order to deal with databases which have just a few labelled samples per class, semi-supervised learning, which also exploits unlabelled samples in training phase is used. Indeed, unlabelled samples can help to regularize the learning model, yielding an improvement of classification accuracy. In this paper, we propose a new semi-supervised dictionary learning method based on two pillars: on one hand, we enforce manifold structure preservation from the original data into sparse code space using Locally Linear Embedding, which can be considered a regularization of sparse code; on the other hand, we train a semi-supervised classifier in sparse code space. We show that our approach provides an improvement over state-of-the-art semi-supervised dictionary learning methods.
翻訳日:2022-10-19 03:07:55 公開日:2020-09-13
# SSKD:クロスドメイン適応型人物再同定のための自己監督型知識蒸留

SSKD: Self-Supervised Knowledge Distillation for Cross Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2009.05972v1 )

ライセンス: Link先を確認
Junhui Yin, Jiayan Qiu, Siqing Zhang, Zhanyu Ma, Jun Guo(参考訳) ドメイン適応型人物再識別(re-id)は、ソースドメインとターゲットドメインの相違が大きいため、困難なタスクである。 ドメインの差を減らすため、既存の手法は主にクラスタリングアルゴリズムによってラベルのないターゲット画像の擬似ラベルを生成する。 しかし、クラスタリング手法はノイズラベルをもたらす傾向にあり、ラベルなし画像の詳細な詳細は十分に活用されていない。 本稿では,ラベルなし画像の複数の拡張ビューから特徴表現をキャプチャすることで,ラベルの品質向上を図る。 そこで本研究では,識別学習とソフトラベル学習という2つのモジュールを含む自己監督的知識蒸留(SSKD)手法を提案する。 アイデンティティ学習は、ラベルのないサンプル間の関係を探索し、クラスタリングによって1ホットのラベルを予測し、確実に区別された画像に対して正確な情報を与える。 ソフトラベル学習は、ラベルを分布とみなし、信頼できる画像に対する緩やかな制約として、ゆっくりと進化するネットワークがソフトラベルを得るコアとなる自己監督的な方法でピアネットワークを訓練するための複数の関連するクラスに関連付けるイメージを誘導する。 最後に、2つのモジュールは、ラベル付き画像からラベル情報を体系的に統合することにより、re-IDのラベルノイズに抵抗することができる。 いくつかの適応タスクに関する広範囲な実験により、提案手法が現在の最先端手法を大きなマージンで上回っていることが示されている。

Domain adaptive person re-identification (re-ID) is a challenging task due to the large discrepancy between the source domain and the target domain. To reduce the domain discrepancy, existing methods mainly attempt to generate pseudo labels for unlabeled target images by clustering algorithms. However, clustering methods tend to bring noisy labels and the rich fine-grained details in unlabeled images are not sufficiently exploited. In this paper, we seek to improve the quality of labels by capturing feature representation from multiple augmented views of unlabeled images. To this end, we propose a Self-Supervised Knowledge Distillation (SSKD) technique containing two modules, the identity learning and the soft label learning. Identity learning explores the relationship between unlabeled samples and predicts their one-hot labels by clustering to give exact information for confidently distinguished images. Soft label learning regards labels as a distribution and induces an image to be associated with several related classes for training peer network in a self-supervised manner, where the slowly evolving network is a core to obtain soft labels as a gentle constraint for reliable images. Finally, the two modules can resist label noise for re-ID by enhancing each other and systematically integrating label information from unlabeled images. Extensive experiments on several adaptation tasks demonstrate that the proposed method outperforms the current state-of-the-art approaches by large margins.
翻訳日:2022-10-19 03:07:39 公開日:2020-09-13
# 解像度適応フロー符号化による深部映像圧縮の改善

Improving Deep Video Compression by Resolution-adaptive Flow Coding ( http://arxiv.org/abs/2009.05982v1 )

ライセンス: Link先を確認
Zhihao Hu (1), Zhenghao Chen (2), Dong Xu (2), Guo Lu (3), Wanli Ouyang (2), Shuhang Gu (2) ((1) College of Software, Beihang University, China, (2) School of Electrical and Information Engineering, The University of Sydney, Australia, (3) School of Computer Science & Technology, Beijing Institute of Technology, China)(参考訳) 学習に基づくビデオ圧縮手法では,新しい動きベクトル(mv)エンコーダの開発により,画素レベルの光フローマップを圧縮することが不可欠である。 本研究では,入力フローマップとmvエンコーダの出力動作特性の両方に対して,単一解像度表現の代わりにマルチレゾリューション表現を用いたフローマップをグローバルかつ局所的に効果的に圧縮する,解像度適応フロー符号化(rafc)と呼ばれる新しいフレームワークを提案する。 複雑で単純な動きパターンをグローバルに扱うため、フレームレベルのスキームrafc-frameは各ビデオフレームの最適なフローマップの解像度を自動的に決定する。 異なる種類の動きパターンを局所的に扱うため、rafc-blockと呼ばれるブロックレベルのスキームは、各局所的な動き特徴の最適解像度を選択することもできる。 さらに、RaFCフレームとRaFCブロックの両方に適用し、効率的なフロー符号化のための最適な動き符号化モードを選択する。 HEVC, VTL, UVG, MCL-JCVの4つのベンチマークデータセットに対する総合的な実験により, ビデオ圧縮のためにRaFCフレームとRaFCブロックを併用したRaFCフレームワークの有効性が明らかとなった。

In the learning based video compression approaches, it is an essential issue to compress pixel-level optical flow maps by developing new motion vector (MV) encoders. In this work, we propose a new framework called Resolution-adaptive Flow Coding (RaFC) to effectively compress the flow maps globally and locally, in which we use multi-resolution representations instead of single-resolution representations for both the input flow maps and the output motion features of the MV encoder. To handle complex or simple motion patterns globally, our frame-level scheme RaFC-frame automatically decides the optimal flow map resolution for each video frame. To cope different types of motion patterns locally, our block-level scheme called RaFC-block can also select the optimal resolution for each local block of motion features. In addition, the rate-distortion criterion is applied to both RaFC-frame and RaFC-block and select the optimal motion coding mode for effective flow coding. Comprehensive experiments on four benchmark datasets HEVC, VTL, UVG and MCL-JCV clearly demonstrate the effectiveness of our overall RaFC framework after combing RaFC-frame and RaFC-block for video compression.
翻訳日:2022-10-19 03:07:15 公開日:2020-09-13
# 説明可能な超音波画像解析によるCOVID-19の鑑別診断の高速化

Accelerating COVID-19 Differential Diagnosis with Explainable Ultrasound Image Analysis ( http://arxiv.org/abs/2009.06116v1 )

ライセンス: Link先を確認
Jannis Born, Nina Wiedemann, Gabriel Br\"andle, Charlotte Buhre, Bastian Rieck, Karsten Borgwardt(参考訳) 新型コロナウイルスのパンデミックのコントロールは、迅速で安全で高可用性の診断ツールの存在に大きく影響している。 超音波は、CTやX線とは対照的に、多くの実用的な利点があり、世界的に適用可能な第一線検査技術として機能する。 3つのクラス (COVID-19, 細菌性肺炎, 健康管理) から106本のビデオからなり, 医療専門家がキュレートし, 承認した。 本データセットでは,COVID-19の鑑別診断のための深層学習手法の価値を詳細に検討する。 我々は、フレームベースの畳み込みニューラルネットワークを提案し、米国内のビデオの感度0.98+-0.04、特異度0.91+-08(フレームベースの感度0.93+-0.05、特異度0.87+-0.07)を正しく分類する。 さらに,肺生マーカーの時空間的局在にクラスアクティベーションマップを用い,その後,医療専門家による目隠し研究において,ループ内シナリオの検証を行った。 スケーラビリティとロバスト性を目的として,モバイルフレンドリーなフレームおよびビデオベースアーキテクチャを比較してアブレーション研究を行い,アレタリックおよびエピステミック不確実性推定による最良のモデルの信頼性を示す。 我々は,アクセス可能で効率的かつ解釈可能なスクリーニング手法へのコミュニティの取り組みの道を開いたいと考えており,提案手法の臨床的検証に取り組んだ。 データとコードは公開されている。

Controlling the COVID-19 pandemic largely hinges upon the existence of fast, safe, and highly-available diagnostic tools. Ultrasound, in contrast to CT or X-Ray, has many practical advantages and can serve as a globally-applicable first-line examination technique. We provide the largest publicly available lung ultrasound (US) dataset for COVID-19 consisting of 106 videos from three classes (COVID-19, bacterial pneumonia, and healthy controls); curated and approved by medical experts. On this dataset, we perform an in-depth study of the value of deep learning methods for differential diagnosis of COVID-19. We propose a frame-based convolutional neural network that correctly classifies COVID-19 US videos with a sensitivity of 0.98+-0.04 and a specificity of 0.91+-08 (frame-based sensitivity 0.93+-0.05, specificity 0.87+-0.07). We further employ class activation maps for the spatio-temporal localization of pulmonary biomarkers, which we subsequently validate for human-in-the-loop scenarios in a blindfolded study with medical experts. Aiming for scalability and robustness, we perform ablation studies comparing mobile-friendly, frame- and video-based architectures and show reliability of the best model by aleatoric and epistemic uncertainty estimates. We hope to pave the road for a community effort toward an accessible, efficient and interpretable screening method and we have started to work on a clinical validation of the proposed method. Data and code are publicly available.
翻訳日:2022-10-19 03:00:34 公開日:2020-09-13
# モデルプライバシーのための情報ロンダリング

Information Laundering for Model Privacy ( http://arxiv.org/abs/2009.06112v1 )

ライセンス: Link先を確認
Xinran Wang, Yu Xiang, Jun Gao, Jie Ding(参考訳) 本稿では,モデルプライバシ向上のための新しい枠組みである情報洗浄を提案する。 生のデータ情報の保護に関するデータプライバシとは異なり、モデルプライバシは、公開用にデプロイされる既に学習済みのモデルを保護することを目的としている。 プライベートモデルは一般的な学習方法から得ることができ、そのデプロイは、与えられた入力クエリに対して決定論的あるいはランダムな応答を返すことを意味する。 情報洗浄モデルは、モデルへの問い合わせに対して意図した入力と出力を故意に操作する確率的コンポーネントから構成されているため、モデルの敵対的獲得は少なくなる。 提案フレームワークでは,モデルユーティリティとプライバシリークの基本的なトレードオフを定量化し,最適設計を導出する情報理論の原理を開発する。

In this work, we propose information laundering, a novel framework for enhancing model privacy. Unlike data privacy that concerns the protection of raw data information, model privacy aims to protect an already-learned model that is to be deployed for public use. The private model can be obtained from general learning methods, and its deployment means that it will return a deterministic or random response for a given input query. An information-laundered model consists of probabilistic components that deliberately maneuver the intended input and output for queries to the model, so the model's adversarial acquisition is less likely. Under the proposed framework, we develop an information-theoretic principle to quantify the fundamental tradeoffs between model utility and privacy leakage and derive the optimal design.
翻訳日:2022-10-19 03:00:00 公開日:2020-09-13
# ニューラルマシン翻訳における単語と文字ベクトル表現の組み合わせ

Combining Word and Character Vector Representation on Neural Machine Translation ( http://arxiv.org/abs/2009.05935v1 )

ライセンス: Link先を確認
K. M. Shahih, Ayu Purwarianti(参考訳) 本稿では,英印語ニューラルマシン翻訳(nmt)における単語ベクトル表現と文字ベクトル表現の組み合わせについて述べる。 NMTモデルの6つの構成は、単語ベース、双方向LSTM(bi-LSTM)を用いた単語と文字の表現の組み合わせ、CNNを用いた単語と文字の表現の組み合わせ、Bi-LSTMとCNNを3つの異なるベクトル演算(加算、点乗算、平均化)で組み合わせた。 その結果、単語表現と文字表現を結合したnmtモデルは、bi-lstmとcnnの両方を加算演算で組み合わせたモデルを除いて、単語表現と文字表現を結合した全てのモデルにおいて、9.14ポイントから11.65ポイントの範囲のbleuスコアを得た。 BLEUの最高スコアは、ベースラインモデルの30.83と比較して42.48であった。

This paper describes combinations of word vector representation and character vector representation in English-Indonesian neural machine translation (NMT). Six configurations of NMT models were built with different input vector representations: word-based, combination of word and character representation using bidirectional LSTM(bi-LSTM), combination of word and character representation using CNN, combination of word and character representation by combining bi-LSTM and CNN by three different vector operations: addition, pointwise multiplication, and averaging. The experiment results showed that NMT models with concatenation of word and character representation obtained BLEU score higher than baseline model, ranging from 9.14 points to 11.65 points, for all models that combining both word and character representation, except the model that combining word and character representation using both bi-LSTM and CNN by addition operation. The highest BLEU score achieved was 42.48 compared to the 30.83 of the baseline model.
翻訳日:2022-10-19 02:59:32 公開日:2020-09-13
# 彼らの決定を説明する議論に基づくエージェント

Argumentation-based Agents that Explain their Decisions ( http://arxiv.org/abs/2009.05897v1 )

ライセンス: Link先を確認
Mariela Morveli-Espinoza, Ayslan Possebom, and Cesar Augusto Tacla(参考訳) 知的エージェントを含む説明可能な人工知能(XAI)システムは、それらが相互作用する人間(または他のシステム)に選択をもたらす内部決定、行動、推論を説明できなければならない。 本稿では,bdi(beliefs-desires-intentions)エージェントの拡張モデルが,その推論,具体的には,自分がコミットする目標についての説明をいかに生成できるかに着目する。 我々の提案は議論理論に基づいており、エージェントが決定を下す理由を表現するために引数を使用し、議論の意味論を用いて許容可能な議論(推論)を決定する。 我々は,部分的な説明と完全な説明の2種類の説明を提案する。 我々はこの提案を救助ロボットのシナリオに適用する。

Explainable Artificial Intelligence (XAI) systems, including intelligent agents, must be able to explain their internal decisions, behaviours and reasoning that produce their choices to the humans (or other systems) with which they interact. In this paper, we focus on how an extended model of BDI (Beliefs-Desires-Intentions) agents can be able to generate explanations about their reasoning, specifically, about the goals he decides to commit to. Our proposal is based on argumentation theory, we use arguments to represent the reasons that lead an agent to make a decision and use argumentation semantics to determine acceptable arguments (reasons). We propose two types of explanations: the partial one and the complete one. We apply our proposal to a scenario of rescue robots.
翻訳日:2022-10-19 02:58:33 公開日:2020-09-13
# インテリジェントエージェントの資源不整合性の解消

Resolving Resource Incompatibilities in Intelligent Agents ( http://arxiv.org/abs/2009.05898v1 )

ライセンス: Link先を確認
Mariela Morveli-Espinoza, Ayslan Possebom, and Cesar Augusto Tacla(参考訳) 知的エージェントは一般に複数の手続き的目標を同時に追求し、それらの間にいくつかの衝突(矛盾)を引き起こす可能性がある。 本稿では,資源制限によって生じる非互換性に着目する。 したがって、この記事の貢献は2つある。 一方,探索された目標の集合から資源不整合性を特定するアルゴリズムを提案し,その一方で,追従を続ける目標を選択するための2つの方法を提案する。 (i)第一は抽象的議論理論に基づくもので、 (ii) 私たちが開発した2つのアルゴリズムに基づく2番目。 記事全体の例を使って提案について説明する。

An intelligent agent may in general pursue multiple procedural goals simultaneously, which may lead to arise some conflicts (incompatibilities) among them. In this paper, we focus on the incompatibilities that emerge due to resources limitations. Thus, the contribution of this article is twofold. On one hand, we give an algorithm for identifying resource incompatibilities from a set of pursued goals and, on the other hand, we propose two ways for selecting those goals that will continue to be pursued: (i) the first is based on abstract argumentation theory, and (ii) the second based on two algorithms developed by us. We illustrate our proposal using examples throughout the article.
翻訳日:2022-10-19 02:58:21 公開日:2020-09-13
# pow-wow: pommermanにおけるコラボレーティブコミュニケーションのデータセットと研究

Pow-Wow: A Dataset and Study on Collaborative Communication in Pommerman ( http://arxiv.org/abs/2009.05940v1 )

ライセンス: Link先を確認
Takuma Yoneda, Matthew R. Walter, Jason Naradowsky(参考訳) マルチエージェント学習では、エージェントは成功するために互いにコーディネートする必要がある。 人間にとって、この協調は通常、言語の使用によって達成される。 本研究では,競争型チームベースゲームにおける人間の言語使用に関する制御研究を行い,自律エージェント間のコミュニケーションプロトコル構築のための有用な教訓を探索する。 Pow-Wowは、ゴール指向の人間コミュニケーションを測る新しいデータセットである。 Pommermanのゲーム環境を使って、私たちは人間のチームをAIエージェントのチームと対戦させ、観察、アクション、コミュニケーションを記録しました。 効果的なゲーム戦略をもたらすコミュニケーションの種類を分析し,それに従ってアノテートし,コミュニケーションの傾向がゲーム結果に与える影響に関するコーパスレベルの統計分析を行った。 この分析に基づいて,学習エージェントのためのコミュニケーションポリシーをデザインし,コミュニケーションを利用するエージェントがベースラインシステムに対して,そうでないエージェントよりも高いウィンレートを達成することを示す。

In multi-agent learning, agents must coordinate with each other in order to succeed. For humans, this coordination is typically accomplished through the use of language. In this work we perform a controlled study of human language use in a competitive team-based game, and search for useful lessons for structuring communication protocol between autonomous agents. We construct Pow-Wow, a new dataset for studying situated goal-directed human communication. Using the Pommerman game environment, we enlisted teams of humans to play against teams of AI agents, recording their observations, actions, and communications. We analyze the types of communications which result in effective game strategies, annotate them accordingly, and present corpus-level statistical analysis of how trends in communications affect game outcomes. Based on this analysis, we design a communication policy for learning agents, and show that agents which utilize communication achieve higher win-rates against baseline systems than those which do not.
翻訳日:2022-10-19 02:51:39 公開日:2020-09-13
# 葉の種識別における視覚記述子と分類法の検討

A Review of Visual Descriptors and Classification Techniques Used in Leaf Species Identification ( http://arxiv.org/abs/2009.06001v1 )

ライセンス: Link先を確認
K. K. Thyagharajan, I. Kiruba Raji(参考訳) 植物は基本的に生命にとって重要である。 植物学における主要な研究分野は、植物種同定、高スペクトル画像を用いた雑草分類、植物の健康状態のモニタリング、葉の生長の追跡、葉情報の意味解釈などである。 植物学者は、葉の形状、先端、基部、葉の縁、葉の静脈、葉のテクスチャと複合葉の葉の配置を区別することで、植物種を識別し易い。 専門家の需要の増加と生物多様性の要求により、特定の種、それらに影響を与える病気、葉の成長パターンなどを調べるために、葉を認識・特徴付けるインテリジェントシステムが必要である。 特徴抽出はコンピュータビジョンにおいて重要な手法であるので,葉の特徴抽出における画像処理手法をいくつか検討する。 コンピュータは画像を理解することができないため、画像形状、色、テクスチャ、モーメントを個別に分析することで特徴に変換する必要がある。 同じように見える画像は、幾何学的および測光的バリエーションの点から逸脱することがある。 本研究では,異なる葉種を解析するための機械学習分類器についても検討する。

Plants are fundamentally important to life. Key research areas in plant science include plant species identification, weed classification using hyper spectral images, monitoring plant health and tracing leaf growth, and the semantic interpretation of leaf information. Botanists easily identify plant species by discriminating between the shape of the leaf, tip, base, leaf margin and leaf vein, as well as the texture of the leaf and the arrangement of leaflets of compound leaves. Because of the increasing demand for experts and calls for biodiversity, there is a need for intelligent systems that recognize and characterize leaves so as to scrutinize a particular species, the diseases that affect them, the pattern of leaf growth, and so on. We review several image processing methods in the feature extraction of leaves, given that feature extraction is a crucial technique in computer vision. As computers cannot comprehend images, they are required to be converted into features by individually analysing image shapes, colours, textures and moments. Images that look the same may deviate in terms of geometric and photometric variations. In our study, we also discuss certain machine learning classifiers for an analysis of different species of leaves.
翻訳日:2022-10-19 02:51:23 公開日:2020-09-13
# モンテカルロ木探索に基づく戦術操作

Monte Carlo Tree Search Based Tactical Maneuvering ( http://arxiv.org/abs/2009.08807v1 )

ライセンス: Link先を確認
Kunal Srivastava, Amit Surana(参考訳) 本稿では, 同時移動モンテカルロ木探索(mcts)による2機の無人航空機の戦術操作のためのオンラインフレームワークの応用について検討する。 他の技術と比較して、MCTSは長い地平線を効率よく探索することができ、対戦機戦術を考慮しつつ、現在の状態における最良の操縦を選択するためにセルフプレイを使用する。 mctsの異なるアルゴリズム選択を探索し,シミュレーションによる2次元戦術操作でフレームワークを数値的に実演する。

In this paper we explore the application of simultaneous move Monte Carlo Tree Search (MCTS) based online framework for tactical maneuvering between two unmanned aircrafts. Compared to other techniques, MCTS enables efficient search over long horizons and uses self-play to select best maneuver in the current state while accounting for the opponent aircraft tactics. We explore different algorithmic choices in MCTS and demonstrate the framework numerically in a simulated 2D tactical maneuvering application.
翻訳日:2022-10-19 02:50:42 公開日:2020-09-13
# 人工知能における統計学の役割はあるか?

Is there a role for statistics in artificial intelligence? ( http://arxiv.org/abs/2009.09070v1 )

ライセンス: Link先を確認
Sarah Friedrich, Gerd Antes, Sigrid Behr, Harald Binder, Werner Brannath, Florian Dumpert, Katja Ickstadt, Hans Kestler, Johannes Lederer, Heinz Leitg\"ob, Markus Pauly, Ansgar Steland, Adalbert Wilhelm, Tim Friede(参考訳) 人工知能(AI)の研究と応用は、包括的な科学的、経済的、社会的、政治的議論を引き起こしている。 ここでは、統計学は、学際的な科学分野として、AIの理論的・実践的理解と将来の発展において重要な役割を果たすと論じる。 統計学はAIの中核要素と見なされることもある。 データ評価の専門知識は、研究問題の正確な定式化から始まり、研究設計段階を経て結果の分析と解釈へと移行し、統計学は教育、研究、実践の他の分野の自然なパートナーとなる。 本稿では,AI開発における統計的方法論の意義を明らかにすることで,現在の議論に貢献することを目的とする。 特に,方法論の発達,研究の計画と設計,データ品質とデータ収集の評価,因果関係の分化,結果の不確実性評価に関する人工知能分野への統計の貢献について論じる。 さらに、学校や大学におけるカリキュラムの等しく必要で有意義な拡張についても論じる。

The research on and application of artificial intelligence (AI) has triggered a comprehensive scientific, economic, social and political discussion. Here we argue that statistics, as an interdisciplinary scientific field, plays a substantial role both for the theoretical and practical understanding of AI and for its future development. Statistics might even be considered a core element of AI. With its specialist knowledge of data evaluation, starting with the precise formulation of the research question and passing through a study design stage on to analysis and interpretation of the results, statistics is a natural partner for other disciplines in teaching, research and practice. This paper aims at contributing to the current discussion by highlighting the relevance of statistical methodology in the context of AI development. In particular, we discuss contributions of statistics to the field of artificial intelligence concerning methodological development, planning and design of studies, assessment of data quality and data collection, differentiation of causality and associations and assessment of uncertainty in results. Moreover, the paper also deals with the equally necessary and meaningful extension of curricula in schools and universities.
翻訳日:2022-10-19 02:50:35 公開日:2020-09-13
# flaps: 連合学習とプライベートスケーリング

FLaPS: Federated Learning and Privately Scaling ( http://arxiv.org/abs/2009.06005v1 )

ライセンス: Link先を確認
Sudipta Paul, Poushali Sengupta and Subhankar Mishra(参考訳) フェデレーション学習(federated learning, fl)は、モデル(重み付けとチェックポイント)を、データを集中的に転送し集約する古典的な方法ではなく、データをポースするデバイスに転送する分散学習プロセスである。 このように、センシティブなデータがユーザデバイスを離れることはない。 FLはFedAvgアルゴリズムを用いて、データ量に依存することなく、非IDおよびアンバランス分散データに基づいて、反復モデル平均化方法で訓練される。 FLのいくつかの問題は、 1) モデルがすべてのデバイスに対して反復的に訓練されているため,拡張性がない。 2) 学習プロセスのセキュリティとプライバシのトレードオフは依然として不十分である。 3) 全体としての通信効率とコストは高い。 これらの課題を軽減するために、フェデレーション学習とプライベートスケーリング(flaps)アーキテクチャを導入し、システムのセキュリティとプライバシだけでなく、スケーラビリティも改善します。 デバイスはクラスタにグループ化され、トレーニングを終了するために、より優れたプライバシスケールのターンアラウンドタイムが提供される。 したがって、トレーニング中にデバイスがドロップされたとしても、一定時間後にプロセス全体を再開することができる。 データとモデルは、プライバシ利用のトレードオフを改善する反復的なシャッフルによって、異なるプライベートレポートを使用して通信される。 我々は,様々なCNNモデルを用いて,MNIST,CIFAR10,TINY-IMAGENET-200データセット上でFLaPSを評価した。 実験の結果、flapsは改良された時間とプライバシをスケールした環境であり、中央モデルとflモデルに対して、学習後のパラメータがより良く、比較できることがわかった。

Federated learning (FL) is a distributed learning process where the model (weights and checkpoints) is transferred to the devices that posses data rather than the classical way of transferring and aggregating the data centrally. In this way, sensitive data does not leave the user devices. FL uses the FedAvg algorithm, which is trained in the iterative model averaging way, on the non-iid and unbalanced distributed data, without depending on the data quantity. Some issues with the FL are, 1) no scalability, as the model is iteratively trained over all the devices, which amplifies with device drops; 2) security and privacy trade-off of the learning process still not robust enough and 3) overall communication efficiency and the cost are higher. To mitigate these challenges we present Federated Learning and Privately Scaling (FLaPS) architecture, which improves scalability as well as the security and privacy of the system. The devices are grouped into clusters which further gives better privacy scaled turn around time to finish a round of training. Therefore, even if a device gets dropped in the middle of training, the whole process can be started again after a definite amount of time. The data and model both are communicated using differentially private reports with iterative shuffling which provides a better privacy-utility trade-off. We evaluated FLaPS on MNIST, CIFAR10, and TINY-IMAGENET-200 dataset using various CNN models. Experimental results prove FLaPS to be an improved, time and privacy scaled environment having better and comparable after-learning-parameters with respect to the central and FL models.
翻訳日:2022-10-19 02:50:19 公開日:2020-09-13
# ランダムブースティングとランダム^2森林 --ランダムツリー深度注入アプローチ-

Random boosting and random^2 forests -- A random tree depth injection approach ( http://arxiv.org/abs/2009.06078v1 )

ライセンス: Link先を確認
Tobias Markus Krabel, Thi Ngoc Tien Tran, Andreas Groll, Daniel Horn, Carsten Jentsch(参考訳) 並列および逐次アンサンブル法における追加のランダム性の導入は多くの点で価値があることが証明されている。 そこで本研究では,ランダム林を含む連続的および並列木ベースアプローチに適した,新しいランダム木深さ注入手法を提案し,検討する。 結果の方法は \emph{Random Boost} と \emph{Random$^2$ Forest} と呼ばれる。 どちらのアプローチも、勾配拡大フレームワークとランダム森林に関する既存の文献の貴重な拡張となる。 最終分割数の異なる木形データセットが構築されるモンテカルロシミュレーションでは、従来の階層的なブースティングとランダムな森林アプローチの予測性能を改善するために、'emph{Random Boost} と 'emph{Random$^2$ Forest} がいくつかのシナリオが存在することを示唆している。 新しいアルゴリズムは、生成したデータに少数の高次相互作用がある場合に特に成功したように見える。 さらに,本手法では,予測精度の面での性能損失が小さい場合や無視できない場合が多い場合が多く,ランダムツリー深さ注入法により計算時間を最大40%改善できる可能性が示唆された。

The induction of additional randomness in parallel and sequential ensemble methods has proven to be worthwhile in many aspects. In this manuscript, we propose and examine a novel random tree depth injection approach suitable for sequential and parallel tree-based approaches including Boosting and Random Forests. The resulting methods are called \emph{Random Boost} and \emph{Random$^2$ Forest}. Both approaches serve as valuable extensions to the existing literature on the gradient boosting framework and random forests. A Monte Carlo simulation, in which tree-shaped data sets with different numbers of final partitions are built, suggests that there are several scenarios where \emph{Random Boost} and \emph{Random$^2$ Forest} can improve the prediction performance of conventional hierarchical boosting and random forest approaches. The new algorithms appear to be especially successful in cases where there are merely a few high-order interactions in the generated data. In addition, our simulations suggest that our random tree depth injection approach can improve computation time by up to 40%, while at the same time the performance losses in terms of prediction accuracy turn out to be minor or even negligible in most cases.
翻訳日:2022-10-19 02:49:56 公開日:2020-09-13
# AOBTM:バージョンセンシティブな短文分析のための適応的オンライン2項トピックモデリング

AOBTM: Adaptive Online Biterm Topic Modeling for Version Sensitive Short-texts Analysis ( http://arxiv.org/abs/2009.09930v1 )

ライセンス: Link先を確認
Mohammad Abdul Hadi and Fatemeh H Fard(参考訳) モバイルアプリレビューの分析は,要件エンジニアリングやソフトウェアメンテナンス,モバイルアプリの進化において重要な役割を担っている。 モバイルアプリ開発者は、ユーザのレビューを頻繁にチェックして、ユーザが経験した問題を明らかにするか、あるいは最近のアプリアップデートによって導入された新しい問題をキャプチャする。 アプリレビューはダイナミックな性質を持ち、議論されるトピックは時間とともに変化する。 アプリの異なるバージョンのレビューで収集されたトピックの変更は、アプリのアップデートに関する重要な問題を明らかにすることができる。 この分析の主なテクニックはトピックモデリングアルゴリズムを使うことである。 しかし、アプリレビューは短いテキストであり、潜むトピックを時間とともに公開することは困難である。 従来の話題モデルは、短いテキストの話題を推測しながら、単語共起パターンのスパースに苦しむ。 さらに、これらのアルゴリズムは連続した時間スライスでトピックをキャプチャできない。 オンライントピックモデリングアルゴリズムは、前の時間スライスからわずかなデータを保存することで、最新の時間スライスで収集されたテキストのトピックモデルの推論を高速化する。 しかし、これらのアルゴリズムは以前の全ての時間スライスの統計データを解析しないため、現在の時間スライスのトピック分布への寄与が期待できる。 本稿では,短いテキストでトピックを適応的にモデル化するAdaptive Online Biterm Topic Model (AOBTM)を提案する。 AOBTMは短文で空間問題を緩和し、過去の時間スライスの最適な数の統計データを考える。 また,最適なトピック数とトピック推論フェーズで考慮すべき前のバージョン数を自動的に決定する並列アルゴリズムを提案する。 アプリレビューと実世界の短文データセットのコレクションの自動評価により、AOBTMはより一貫性のあるトピックを見つけ、最先端のベースラインを上回ります。

Analysis of mobile app reviews has shown its important role in requirement engineering, software maintenance and evolution of mobile apps. Mobile app developers check their users' reviews frequently to clarify the issues experienced by users or capture the new issues that are introduced due to a recent app update. App reviews have a dynamic nature and their discussed topics change over time. The changes in the topics among collected reviews for different versions of an app can reveal important issues about the app update. A main technique in this analysis is using topic modeling algorithms. However, app reviews are short texts and it is challenging to unveil their latent topics over time. Conventional topic models suffer from the sparsity of word co-occurrence patterns while inferring topics for short texts. Furthermore, these algorithms cannot capture topics over numerous consecutive time-slices. Online topic modeling algorithms speed up the inference of topic models for the texts collected in the latest time-slice by saving a fraction of data from the previous time-slice. But these algorithms do not analyze the statistical-data of all the previous time-slices, which can confer contributions to the topic distribution of the current time-slice. We propose Adaptive Online Biterm Topic Model (AOBTM) to model topics in short texts adaptively. AOBTM alleviates the sparsity problem in short-texts and considers the statistical-data for an optimal number of previous time-slices. We also propose parallel algorithms to automatically determine the optimal number of topics and the best number of previous versions that should be considered in topic inference phase. Automatic evaluation on collections of app reviews and real-world short text datasets confirm that AOBTM can find more coherent topics and outperforms the state-of-the-art baselines.
翻訳日:2022-10-19 02:49:34 公開日:2020-09-13
# cosine meets softmax:ビジュアルグラウンドのための強烈なベースライン

Cosine meets Softmax: A tough-to-beat baseline for visual grounding ( http://arxiv.org/abs/2009.06066v1 )

ライセンス: Link先を確認
Nivedita Rufus, Unni Krishnan R Nair, K. Madhava Krishna and Vineet Gandhi(参考訳) 本稿では、最小限の設計選択を保ちながら、技術手法の状態を向上する、自律走行のための視覚的接地のためのシンプルなベースラインを提案する。 本フレームワークは,複数画像ROI特徴量間のコサイン距離におけるクロスエントロピー損失を最小化し,テキスト埋め込み(返り文/フレーズ表現)を行う。 トレーニング済みのネットワークを使用して、初期埋め込みを取得し、テキスト埋め込みの上にトランスフォーメーション層を学習する。 我々は、talk2carデータセットで実験を行い、68.7%のap50精度を達成し、以前の技術水準を8.6%改善した。 本研究は,より高度な注意機構や多段階推論,あるいは複雑なメトリック学習損失関数を用いたアプローチの再考を,より単純な代替手段で示すことによって提案する。

In this paper, we present a simple baseline for visual grounding for autonomous driving which outperforms the state of the art methods, while retaining minimal design choices. Our framework minimizes the cross-entropy loss over the cosine distance between multiple image ROI features with a text embedding (representing the give sentence/phrase). We use pre-trained networks for obtaining the initial embeddings and learn a transformation layer on top of the text embedding. We perform experiments on the Talk2Car dataset and achieve 68.7% AP50 accuracy, improving upon the previous state of the art by 8.6%. Our investigation suggests reconsideration towards more approaches employing sophisticated attention mechanisms or multi-stage reasoning or complex metric learning loss functions by showing promise in simpler alternatives.
翻訳日:2022-10-19 02:42:29 公開日:2020-09-13
# 顔操作の深部検出

Deep Detection for Face Manipulation ( http://arxiv.org/abs/2009.05934v1 )

ライセンス: Link先を確認
Disheng Feng, Xuequan Lu, Xufeng Lin(参考訳) 近年、ディープラーニングによる顔操作技術が飛躍的に進歩し、現実の顔と視覚的にリアルな偽顔を区別することがますます困難になっている。 本稿では,顔の操作を検出する深層学習手法を提案する。 特徴抽出と二分分類の2段階からなる。 偽顔と実顔をよりよく区別するために,第1段階での三重項損失関数を利用する。 次に、学習した対照的な特徴を実/偽の顔にブリッジする単純な線形分類ネットワークを設計する。 公開ベンチマークによる実験結果から,この手法の有効性が示され,ほとんどの場合,最先端技術よりも優れた性能が得られることが示された。

It has become increasingly challenging to distinguish real faces from their visually realistic fake counterparts, due to the great advances of deep learning based face manipulation techniques in recent years. In this paper, we introduce a deep learning method to detect face manipulation. It consists of two stages: feature extraction and binary classification. To better distinguish fake faces from real faces, we resort to the triplet loss function in the first stage. We then design a simple linear classification network to bridge the learned contrastive features with the real/fake faces. Experimental results on public benchmark datasets demonstrate the effectiveness of this method, and show that it generates better performance than state-of-the-art techniques in most cases.
翻訳日:2022-10-19 02:42:13 公開日:2020-09-13
# 深層学習に基づくスマートフォン撮影用ラジオグラフィの解釈

Interpretation of smartphone-captured radiographs utilizing a deep learning-based approach ( http://arxiv.org/abs/2009.05951v1 )

ライセンス: Link先を確認
Hieu X. Le, Phuong D. Nguyen, Thang H. Nguyen, Khanh N.Q. Le, Thanh T. Nguyen(参考訳) 近年,医療画像の自動解釈が可能なコンピュータ支援診断システム(CAD)が,近年注目されている。 ラジオグラフィーでは、複数の深層学習システムやモデルが開発され、マルチラベル疾患認識タスクが研究されている。 しかし、いずれもスマートフォンで撮影する胸部X線撮影の訓練を受けていない。 本研究では、新たにリリースされたchexphotoデータセットでトレーニングされたディープラーニングに基づくニューラルネットワークのシーケンスからなるシステムを提案する。 提案手法はAUCで0.684、平均F1スコアで0.699の有望な結果を得た。 私たちの知る限りでは、これはスマートフォンで撮影した電波を処理できることを示す最初の論文です。

Recently, computer-aided diagnostic systems (CADs) that could automatically interpret medical images effectively have been the emerging subject of recent academic attention. For radiographs, several deep learning-based systems or models have been developed to study the multi-label diseases recognition tasks. However, none of them have been trained to work on smartphone-captured chest radiographs. In this study, we proposed a system that comprises a sequence of deep learning-based neural networks trained on the newly released CheXphoto dataset to tackle this issue. The proposed approach achieved promising results of 0.684 in AUC and 0.699 in average F1 score. To the best of our knowledge, this is the first published study that showed to be capable of processing smartphone-captured radiographs.
翻訳日:2022-10-19 02:42:03 公開日:2020-09-13
# 面白そうに見えます! ランダムフォレストノード埋め込みによるコミュニケーションとセグメンテーションのパーソナライズ

That looks interesting! Personalizing Communication and Segmentation with Random Forest Node Embeddings ( http://arxiv.org/abs/2009.05931v1 )

ライセンス: Link先を確認
Weiwei Wang, Wiebke Eberhardt, Stefano Bromuri(参考訳) 顧客と効果的にコミュニケーションをとることは、多くのマーケターにとって課題だが、特に長期的な財政的幸福と理解が難しい状況において重要な意味を持つ。 世界中の参加者は、前もって年金を検討することに消極的であり、年金の退職準備が不足している [1], [2]。 参加者が期待する年金給付に関する情報を得るためには、年金提供者の電子メールコミュニケーションのパーソナライズが第一、かつ重要なステップである。 参加者の興味に合うメールニュースレターをモデル化する機械学習アプローチについて述べる。 モデリングと分析のためのデータは、オランダの大オランダ年金提供者から送られたニュースレターから収集され、2つの部分に分けられる。 第1部は222万8000人の顧客からなり、第2部は2018年7月に行われたパイロット調査のデータで、465,711人が参加している。 いずれの場合においても,ランダムフォレストを用いて連続的およびカテゴリ的データから特徴を抽出し,ランダムフォレストの決定境界のノード埋め込みを計算する。 本稿では,分類タスクに対するアルゴリズムの有効性と,データマイニングタスクの実行方法について説明する。 また,複数のデータセットに対して結果が有効であることを確認するため,チャーニングに関するベンチマークデータセットにおけるアルゴリズムの特性についても述べる。 検討したデータセットにおいて,提案手法は,ランダム林をベースとした技術手法の他の状況に対する競争性能を示し,年金データセット(0.948)で最高のエリアアンダー・ザ・カーブ(AUC)を達成する。 説明的な部分では、アルゴリズムはマーケティング部門が顧客に対するコミュニケーションをよりターゲットにするために使用できる顧客セグメンテーションを特定することができる。

Communicating effectively with customers is a challenge for many marketers, but especially in a context that is both pivotal to individual long-term financial well-being and difficult to understand: pensions. Around the world, participants are reluctant to consider their pension in advance, it leads to a lack of preparation of their pension retirement [1], [2]. In order to engage participants to obtain information on their expected pension benefits, personalizing the pension providers' email communication is a first and crucial step. We describe a machine learning approach to model email newsletters to fit participants' interests. The data for the modeling and analysis is collected from newsletters sent by a large Dutch pension provider of the Netherlands and is divided into two parts. The first part comprises 2,228,000 customers whereas the second part comprises the data of a pilot study, which took place in July 2018 with 465,711 participants. In both cases, our algorithm extracts features from continuous and categorical data using random forests, and then calculates node embeddings of the decision boundaries of the random forest. We illustrate the algorithm's effectiveness for the classification task, and how it can be used to perform data mining tasks. In order to confirm that the result is valid for more than one data set, we also illustrate the properties of our algorithm in benchmark data sets concerning churning. In the data sets considered, the proposed modeling demonstrates competitive performance with respect to other state of the art approaches based on random forests, achieving the best Area Under the Curve (AUC) in the pension data set (0.948). For the descriptive part, the algorithm can identify customer segmentations that can be used by marketing departments to better target their communication towards their customers.
翻訳日:2022-10-19 02:41:51 公開日:2020-09-13
# グラフ分類のためのコントラスト的自己教師付き学習

Contrastive Self-supervised Learning for Graph Classification ( http://arxiv.org/abs/2009.05923v1 )

ライセンス: Link先を確認
Jiaqi Zeng, Pengtao Xie(参考訳) グラフ分類は広く研究されている問題であり、幅広い応用がある。 実世界の多くの問題では、分類モデルのトレーニングに使用可能なラベル付きグラフの数は限られているため、これらのモデルが過剰に適合しがちである。 この問題に対処するために,コントラスト型自己教師学習(CSSL)に基づく2つのアプローチを提案する。 最初のアプローチでは、csslを使用して、ラベル付きラベルに依存することなく、広く利用可能なラベル付きグラフ上でグラフエンコーダをプリトレーニングし、ラベル付きグラフ上でプリトレーニング済みエンコーダを微調整します。 第2のアプローチでは、CSSLに基づく正規化器を開発し、教師付き分類タスクと教師なしCSSLタスクを同時に解決する。 グラフ上でcsslを実行するために、元のグラフの集合が与えられたとき、データ拡張を行い、元のグラフから拡張グラフを作成する。 グラフ変更操作のシーケンスを連続して適用して拡張グラフを作成する。 対照的な損失は、2つの拡張グラフが同じ元のグラフからであるかどうかを判断することでグラフエンコーダを学習するために定義される。 各種グラフ分類データセットの実験により,提案手法の有効性が示された。

Graph classification is a widely studied problem and has broad applications. In many real-world problems, the number of labeled graphs available for training classification models is limited, which renders these models prone to overfitting. To address this problem, we propose two approaches based on contrastive self-supervised learning (CSSL) to alleviate overfitting. In the first approach, we use CSSL to pretrain graph encoders on widely-available unlabeled graphs without relying on human-provided labels, then finetune the pretrained encoders on labeled graphs. In the second approach, we develop a regularizer based on CSSL, and solve the supervised classification task and the unsupervised CSSL task simultaneously. To perform CSSL on graphs, given a collection of original graphs, we perform data augmentation to create augmented graphs out of the original graphs. An augmented graph is created by consecutively applying a sequence of graph alteration operations. A contrastive loss is defined to learn graph encoders by judging whether two augmented graphs are from the same original graph. Experiments on various graph classification datasets demonstrate the effectiveness of our proposed methods.
翻訳日:2022-10-19 02:41:08 公開日:2020-09-13
# 正規逆ガウス混合モデルに対する変分ベイズによる非ガウスデータのクラスタリング

Clustering of non-Gaussian data by variational Bayes for normal inverse Gaussian mixture models ( http://arxiv.org/abs/2009.06002v1 )

ライセンス: Link先を確認
Takashi Takekawa(参考訳) 有限混合モデルは典型的にはガウス混合であり、モデルベースのクラスタリングとして広く知られている。 現実の状況では、重い尾と非対称な非ガウスデータが多く存在する。 正規逆ガウス分布 (NIG) は正規分散平均であり、密度の混合は逆ガウス分布であり、ハービーテールと非対称性の両方に使用できる。 NIG混合モデルでは、期待最大化法と変分ベイズアルゴリズムの両方が提案されている。 しかし, NIG混合に対する既存のVBアルゴリズムでは, 混合密度が制限されているという欠点がある。 本稿では,NIG混合に対する新たなVBアルゴリズムを提案する。 また,有限混合モデルにおけるクラスタ数決定の難しさを克服するために,dirichletプロセス混合モデルの拡張を提案する。 人工データを用いて性能を評価し,特に非ノルミティブデータにおいてガウス混合系や既存のニグ混合系の実装を上回った。

Finite mixture models, typically Gaussian mixtures, are well known and widely used as model-based clustering. In practical situations, there are many non-Gaussian data that are heavy-tailed and/or asymmetric. Normal inverse Gaussian (NIG) distributions are normal-variance mean which mixing densities are inverse Gaussian distributions and can be used for both haavy-tail and asymmetry. For NIG mixture models, both expectation-maximization method and variational Bayesian (VB) algorithms have been proposed. However, the existing VB algorithm for NIG mixture have a disadvantage that the shape of the mixing density is limited. In this paper, we propose another VB algorithm for NIG mixture that improves on the shortcomings. We also propose an extension of Dirichlet process mixture models to overcome the difficulty in determining the number of clusters in finite mixture models. We evaluated the performance with artificial data and found that it outperformed Gaussian mixtures and existing implementations for NIG mixtures, especially for highly non-normative data.
翻訳日:2022-10-19 02:40:20 公開日:2020-09-13
# 深層ニューラルネットワークにおける安全リスクの定量化に向けて

Towards the Quantification of Safety Risks in Deep Neural Networks ( http://arxiv.org/abs/2009.06114v1 )

ライセンス: Link先を確認
Peipei Xu and Wenjie Ruan and Xiaowei Huang(参考訳) ディープニューラルネットワーク(dnn)に対する安全性の懸念は、重要なセクタに適用されるときに高められている。 本稿では,ネットワークの決定と人間の知覚との整合を求めることにより,安全リスクを定義する。 安全リスクを定量化するための一般的な方法論を実現するために,汎用安全特性を定義し,様々な安全リスクを表現するためにインスタンス化する。 リスクの定量化には、安全リスクが存在しない安全な標準球の最大半径を取る。 最大安全半径の計算は、計算すべき量であるそれぞれのリプシッツ計量の計算に還元される。 この論文では、既知の敵の例、到達可能性の例、不変例に加えて、人間が容易に知ることができるがネットワークが不確実である新しいタイプのリスク - 不確実な例 - を特定する。 提案手法は,gpu上でのテンソル並列化によって高速化され,メトリクスの効率的な計算を支援する。 我々は、ACSC-Xu、MNIST、CIFAR-10、ImageNetなど、いくつかのベンチマークニューラルネットワークで評価を行う。 実験により, 計算の厳密性と効率の観点から, 安全性定量化の競争性能を向上できることを示した。 重要なのは、汎用的なアプローチとして、この手法は、ニューラルネットワークの構造に制約なく、幅広い種類の安全性リスクに対応できるということです。

Safety concerns on the deep neural networks (DNNs) have been raised when they are applied to critical sectors. In this paper, we define safety risks by requesting the alignment of the network's decision with human perception. To enable a general methodology for quantifying safety risks, we define a generic safety property and instantiate it to express various safety risks. For the quantification of risks, we take the maximum radius of safe norm balls, in which no safety risk exists. The computation of the maximum safe radius is reduced to the computation of their respective Lipschitz metrics - the quantities to be computed. In addition to the known adversarial example, reachability example, and invariant example, in this paper we identify a new class of risk - uncertainty example - on which humans can tell easily but the network is unsure. We develop an algorithm, inspired by derivative-free optimization techniques and accelerated by tensor-based parallelization on GPUs, to support efficient computation of the metrics. We perform evaluations on several benchmark neural networks, including ACSC-Xu, MNIST, CIFAR-10, and ImageNet networks. The experiments show that, our method can achieve competitive performance on safety quantification in terms of the tightness and the efficiency of computation. Importantly, as a generic approach, our method can work with a broad class of safety risks and without restrictions on the structure of neural networks.
翻訳日:2022-10-19 02:35:36 公開日:2020-09-13
# 効率的な競争的自己プレイ政策最適化

Efficient Competitive Self-Play Policy Optimization ( http://arxiv.org/abs/2009.06086v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Yuan Zhou, Jian Peng(参考訳) セルフプレイによる強化学習は、最近多くの成功を報告した。 エージェントが自分自身と競合するセルフプレイは、反復的な政策改善のためのトレーニングデータを生成するためにしばしば使用される。 過去の研究では、ヒューリスティックなルールは現在の学習者の相手を選択するように設計されていた。 典型的なルールは、最新のエージェント、最高のエージェント、ランダムな履歴エージェントを選択することである。 しかし、これらのルールは実際には非効率であり、最も単純な行列ゲームにおいても収束を保証しないこともある。 本稿では,2プレイヤーゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。 我々はナッシュ均衡が確率的ペイオフ関数のサドル点と一致するという事実を認識し、古典的なサドル点最適化文献からアイデアを借りる動機となっている。 提案手法は,複数のエージェントを同時に訓練し,基本摂動に基づくサドル最適化法から導かれる単純な逆法に基づいて,知的に互いに対戦する。 本アルゴリズムが標準仮定の下で凸凸ゲームにおいて高確率の近似平衡に収束することを理論的に証明する。 以上より,マトリクスゲーム,グリッドワールドサッカー,ゴ目,シミュレートロボット相撲において,ニューラルネット政策関数近似子を用いて,上記の対向選択ヒューリスティックスに依存するベースライン法よりも経験的優位を示す。

Reinforcement learning from self-play has recently reported many successes. Self-play, where the agents compete with themselves, is often used to generate training data for iterative policy improvement. In previous work, heuristic rules are designed to choose an opponent for the current learner. Typical rules include choosing the latest agent, the best agent, or a random historical agent. However, these rules may be inefficient in practice and sometimes do not guarantee convergence even in the simplest matrix games. In this paper, we propose a new algorithmic framework for competitive self-play reinforcement learning in two-player zero-sum games. We recognize the fact that the Nash equilibrium coincides with the saddle point of the stochastic payoff function, which motivates us to borrow ideas from classical saddle point optimization literature. Our method trains several agents simultaneously, and intelligently takes each other as opponent based on simple adversarial rules derived from a principled perturbation-based saddle optimization method. We prove theoretically that our algorithm converges to an approximate equilibrium with high probability in convex-concave games under standard assumptions. Beyond the theory, we further show the empirical superiority of our method over baseline methods relying on the aforementioned opponent-selection heuristics in matrix games, grid-world soccer, Gomoku, and simulated robot sumo, with neural net policy function approximators.
翻訳日:2022-10-19 02:35:14 公開日:2020-09-13
# 模倣学習の基本限界に向けて

Toward the Fundamental Limits of Imitation Learning ( http://arxiv.org/abs/2009.05990v1 )

ライセンス: Link先を確認
Nived Rajaraman, Lin F. Yang, Jiantao Jiao, Kannan Ramachandran(参考訳) 模倣学習(il)は、デモンストレーションのみを与えられた逐次意思決定問題において、専門家ポリシーの振る舞いを模倣することを目的としている。 本稿では,マルコフ決定過程(MDP)におけるILの最小統計限界を理解することに焦点を当てる。 まず,学習者が事前に$N$のエキスパートトラジェクトリのデータセットを提供して,MDPと対話できないような設定について検討する。 ここでは、専門家を可能な限り模倣するポリシーは、専門家が任意の確率的ポリシーに従う場合でも、専門家の値と比較すると、$\lesssim \frac{|\mathcal{S}| H^2 \log (N)}{N}$ suboptimalであることを示す。 ここで$\mathcal{S}$は状態空間であり、$H$はエピソードの長さである。 さらに、エキスパートが決定論的であることに制約されている場合や、学習者が訪問状態のエキスパートにN$のエピソードでMDPと対話しながら積極的に問い合わせることが許されている場合であっても、サブ最適下限の$\gtrsim |\mathcal{S}| H^2 / N$を確立する。 我々の知る限り、このアルゴリズムは、追加の仮定なしで、アクションの数に依存しない最適でない最初のアルゴリズムである。 次に、遷移モデルが与えられ、専門家が決定論的な設定において、最小距離関数に基づく新しいアルゴリズムを提案する。 このアルゴリズムは、$\lesssim \min \{ H \sqrt{|\mathcal{S}| / N} ,\ |\mathcal{S}| H^{3/2} / N \}$ によって最適化され、遷移の知識が少なくとも$\sqrt{H}$因子によってミニマックス率を改善することを示す。

Imitation learning (IL) aims to mimic the behavior of an expert policy in a sequential decision-making problem given only demonstrations. In this paper, we focus on understanding the minimax statistical limits of IL in episodic Markov Decision Processes (MDPs). We first consider the setting where the learner is provided a dataset of $N$ expert trajectories ahead of time, and cannot interact with the MDP. Here, we show that the policy which mimics the expert whenever possible is in expectation $\lesssim \frac{|\mathcal{S}| H^2 \log (N)}{N}$ suboptimal compared to the value of the expert, even when the expert follows an arbitrary stochastic policy. Here $\mathcal{S}$ is the state space, and $H$ is the length of the episode. Furthermore, we establish a suboptimality lower bound of $\gtrsim |\mathcal{S}| H^2 / N$ which applies even if the expert is constrained to be deterministic, or if the learner is allowed to actively query the expert at visited states while interacting with the MDP for $N$ episodes. To our knowledge, this is the first algorithm with suboptimality having no dependence on the number of actions, under no additional assumptions. We then propose a novel algorithm based on minimum-distance functionals in the setting where the transition model is given and the expert is deterministic. The algorithm is suboptimal by $\lesssim \min \{ H \sqrt{|\mathcal{S}| / N} ,\ |\mathcal{S}| H^{3/2} / N \}$, showing that knowledge of transition improves the minimax rate by at least a $\sqrt{H}$ factor.
翻訳日:2022-10-19 02:34:55 公開日:2020-09-13
# ディープニューラルネットワークにおける正則化と選択サンプリング

Margin-Based Regularization and Selective Sampling in Deep Neural Networks ( http://arxiv.org/abs/2009.06011v1 )

ライセンス: Link先を確認
Berry Weinstein, Shai Fine, Yacov Hel-Or(参考訳) 我々は、ディープニューラルネットワーク(DNN)のための新しいマージンベース正規化形式、MMR(Multi-margin regularization)を導出する。 MMRは、浅い線形分類器(例えばサポートベクトルマシン(SVM))のマージン分析に適用された原理に着想を得たものである。 SVM とは異なり、MMR は有界球面の半径(すなわち、データにおける特徴ベクトルの最大ノルム)によって連続的にスケールされ、訓練中に常に変化している。 本研究では,損失関数を簡易に補足することで,各領域にまたがる様々な分類タスクにおいて,よりよい結果が得られることを示す。 同じ概念を用いて、最小マージンスコア(MMS)に基づいてサンプルを選択することにより、選択的なサンプリングスキームを導出し、DNNの高速化訓練を示す。 このスコアは、入力が予測された分類が切り替わるまでの最小の変位量を測定する。 提案手法を3つの画像分類タスクと6つの言語テキスト分類タスクで評価した。 具体的には, mnli, qqp, qnli, mrpc, sst-2, rteベンチマークのための最先端畳み込みニューラルネットワーク (cnns) とbertベースアーキテクチャを用いて, cifar10, cifar100, imagenet における経験結果の改善を示す。

We derive a new margin-based regularization formulation, termed multi-margin regularization (MMR), for deep neural networks (DNNs). The MMR is inspired by principles that were applied in margin analysis of shallow linear classifiers, e.g., support vector machine (SVM). Unlike SVM, MMR is continuously scaled by the radius of the bounding sphere (i.e., the maximal norm of the feature vector in the data), which is constantly changing during training. We empirically demonstrate that by a simple supplement to the loss function, our method achieves better results on various classification tasks across domains. Using the same concept, we also derive a selective sampling scheme and demonstrate accelerated training of DNNs by selecting samples according to a minimal margin score (MMS). This score measures the minimal amount of displacement an input should undergo until its predicted classification is switched. We evaluate our proposed methods on three image classification tasks and six language text classification tasks. Specifically, we show improved empirical results on CIFAR10, CIFAR100 and ImageNet using state-of-the-art convolutional neural networks (CNNs) and BERT-BASE architecture for the MNLI, QQP, QNLI, MRPC, SST-2 and RTE benchmarks.
翻訳日:2022-10-19 02:34:07 公開日:2020-09-13
# チョイスに誘われた? 医療判断のためのパーソナライズドレコメンデーション:マルチアームによるバンディットアプローチ

Spoiled for Choice? Personalized Recommendation for Healthcare Decisions: A Multi-Armed Bandit Approach ( http://arxiv.org/abs/2009.06108v1 )

ライセンス: Link先を確認
Tongxin Zhou, Yingfei Wang, Lu (Lucy) Yan, Yong Tan(参考訳) オンライン医療コミュニティは、健康的な行動を促進し、順守を改善するために様々な医療介入を提供する。 しかし、介入の選択肢が多すぎると、どの選択肢を取るか、特に異なる選択肢を評価するための経験や知識が欠如している場合には、決定が困難になる可能性がある。 オーバーロードの問題の選択は、健康管理におけるユーザの関与に悪影響を及ぼす可能性がある。 本研究では,デザインサイエンスの観点から,医療介入の選択を支援するレコメンデーションフレームワークを提案する。 本稿では,ユーザの健康行動が高度に動的かつ多様であることを考慮し,その間,レコメンデーション多様性を促進しつつ,ユーザの嗜好の多様性を適応的に学習するマルチアーム付きバンディット(mab)によるレコメンデーションフレームワークを提案する。 mabを医療コンテキストに適合させるため、著名な健康理論に基づいた2つの革新的なモデルコンポーネントを合成する。 第1のコンポーネントは、ディープラーニングベースの機能エンジニアリング手順で、ユーザのシーケンシャルな健康履歴、健康管理経験、嗜好、および医療介入の本質的な属性に関する重要なレコメンデーションコンテキストを学習するように設計されている。 第2のコンポーネントは多様性の制約であり、さまざまな次元のレコメンデーションを構造的に多様化し、ユーザに対して十分なサポートを提供する。 このアプローチをオンラインウェイト管理コンテキストに適用し,一連の実験を通じて厳格に評価する。 以上の結果から,各設計コンポーネントは有効であり,提案設計は最先端のレコメンデーションシステムよりも優れていることが示された。 本研究は、ビジネスインテリジェンスの応用に関する研究に寄与し、オンラインヘルスケアプラットフォーム、政策立案者、ユーザーを含む複数の利害関係者に影響を与えている。

Online healthcare communities provide users with various healthcare interventions to promote healthy behavior and improve adherence. When faced with too many intervention choices, however, individuals may find it difficult to decide which option to take, especially when they lack the experience or knowledge to evaluate different options. The choice overload issue may negatively affect users' engagement in health management. In this study, we take a design-science perspective to propose a recommendation framework that helps users to select healthcare interventions. Taking into account that users' health behaviors can be highly dynamic and diverse, we propose a multi-armed bandit (MAB)-driven recommendation framework, which enables us to adaptively learn users' preference variations while promoting recommendation diversity in the meantime. To better adapt an MAB to the healthcare context, we synthesize two innovative model components based on prominent health theories. The first component is a deep-learning-based feature engineering procedure, which is designed to learn crucial recommendation contexts in regard to users' sequential health histories, health-management experiences, preferences, and intrinsic attributes of healthcare interventions. The second component is a diversity constraint, which structurally diversifies recommendations in different dimensions to provide users with well-rounded support. We apply our approach to an online weight management context and evaluate it rigorously through a series of experiments. Our results demonstrate that each of the design components is effective and that our recommendation design outperforms a wide range of state-of-the-art recommendation systems. Our study contributes to the research on the application of business intelligence and has implications for multiple stakeholders, including online healthcare platforms, policymakers, and users.
翻訳日:2022-10-19 02:33:22 公開日:2020-09-13
# BoostingBERT:NLPタスクのためのBERTへのマルチクラスブースティング

BoostingBERT:Integrating Multi-Class Boosting into BERT for NLP Tasks ( http://arxiv.org/abs/2009.05959v1 )

ライセンス: Link先を確認
Tongwen Huang, Qingyun She, Junlin Zhang(参考訳) 事前学習されたトランスフォーマモデルとして、bert(bidirectional encoder representations from transformers)は複数のnlpタスクにおいて画期的な性能を達成している。 一方、Boostingは、多くの基本分類器を組み合わせた一般的なアンサンブル学習技術であり、多くの機械学習タスクにおいてより良い一般化性能が得られることが実証されている。 BERTのアンサンブルがアプリケーションパフォーマンスをさらに改善できることを示す研究もある。 しかし、現在のアンサンブルアプローチは、袋詰めや積み重ねにフォーカスしており、ブースティングの探求にはあまり努力していない。 本研究では,BERTにマルチクラスブースティングを組み込む新しいBoosting BERTモデルを提案する。 提案モデルは,事前学習した言語知識とNLPタスクにおけるアンサンブルの促進の両方の利点を得るため,事前学習されたトランスフォーマーをベース分類器として利用する。 GLUEデータセットと3つの中国NLUベンチマークを用いて,提案モデルの評価を行った。 実験の結果,提案モデルは全てのデータセットでbertを有意に上回り,多くのnlpタスクにおいてその効果が証明された。 BERT ベースを RoBERTa をベース分類器として置き換えると、BootingBERT はいくつかの NLP Task で新しい最先端結果を達成する。 また,「教師-学生」フレームワーク内での知識蒸留を用いて,BoostingBERTの計算オーバーヘッドとモデル記憶量を削減し,その性能を実用的に維持する。

As a pre-trained Transformer model, BERT (Bidirectional Encoder Representations from Transformers) has achieved ground-breaking performance on multiple NLP tasks. On the other hand, Boosting is a popular ensemble learning technique which combines many base classifiers and has been demonstrated to yield better generalization performance in many machine learning tasks. Some works have indicated that ensemble of BERT can further improve the application performance. However, current ensemble approaches focus on bagging or stacking and there has not been much effort on exploring the boosting. In this work, we proposed a novel Boosting BERT model to integrate multi-class boosting into the BERT. Our proposed model uses the pre-trained Transformer as the base classifier to choose harder training sets to fine-tune and gains the benefits of both the pre-training language knowledge and boosting ensemble in NLP tasks. We evaluate the proposed model on the GLUE dataset and 3 popular Chinese NLU benchmarks. Experimental results demonstrate that our proposed model significantly outperforms BERT on all datasets and proves its effectiveness in many NLP tasks. Replacing the BERT base with RoBERTa as base classifier, BoostingBERT achieves new state-of-the-art results in several NLP Tasks. We also use knowledge distillation within the "teacher-student" framework to reduce the computational overhead and model storage of BoostingBERT while keeping its performance for practical application.
翻訳日:2022-10-19 02:32:04 公開日:2020-09-13