このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201202となっている論文です。

PDF登録状況(公開日: 20201202)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子時間重ね合わせ:qftの場合

Quantum Temporal Superposition: the case of QFT ( http://arxiv.org/abs/2002.06208v2 )

ライセンス: Link先を確認
Laura J. Henderson, Alessio Belenchia, Esteban Castro-Ruiz, Costantino Budroni, Magdalena Zych, \v{C}aslav Brukner and Robert B. Mann(参考訳) 場の量子論は完全に時空点間の場相関によって特徴づけられる。 逆に、これらのいくつかは場の単純な量子系、すなわち粒子検出器に局所的に結合することでアクセスすることができる。 本研究では, 場の相関を調べるために, 異なる時空点における検出器の量子制御重ね合わせを用いた場合について考察する。 量子干渉効果により、2つの検出器は磁場相関に関する情報を得ることができ、それ以外はアクセスできないことを示した。 これは、フィールドから取得した絡み合いや相互情報のような情報理論量に関係する結果をもたらす。 特に量子制御は、そうでなければ不可能であるシナリオにおける絡み合いの抽出を可能にする。

Quantum field theory is completely characterized by the field correlations between spacetime points. In turn, some of these can be accessed by locally coupling to the field simple quantum systems, a.k.a. particle detectors. In this work, we consider what happens when a quantum-controlled superposition of detectors at different space-time points is used to probe the correlations of the field. We show that, due to quantum interference effects, two detectors can gain information on field correlations which would not be otherwise accessible. This has relevant consequences for information theoretic quantities, like entanglement and mutual information harvested from the field. In particular, the quantum control allows for extraction of entanglement in scenarios where this is otherwise provably impossible.
翻訳日:2023-06-03 16:53:26 公開日:2020-12-02
# 位相的フラストレーションによる量子相転移

Quantum Phase Transition induced by Topological Frustration ( http://arxiv.org/abs/2002.07197v2 )

ライセンス: Link先を確認
Vanja Mari\'c, Salvatore Marco Giampaolo, and Fabio Franchini(参考訳) 局所的な相互作用を持つ量子多体系では、境界条件の影響は少なくとも十分大きな系では無視できると考えられている。 ここではその逆の例を示す。 2つの競合する相互作用を持つスピン鎖を、奇数のサイトを持つ環上に設定する。 支配的相互作用のみが反強磁性であり、したがって位相的フラストレーションを引き起こすとき、標準的な反強磁性秩序(磁化によって表される)は破壊される。 また、第2相互作用が強磁性体から反強磁性体へと変化するとき、非コンメンサートパターンで空間的に変化する部位依存磁化によって特徴づけられる反強磁性秩序が出現する。 この変調は基底状態の縮退によるものであり、翻訳的不変性を破ることができる。 2つのケース間の遷移は、基底状態エネルギーの第1微分の不連続によって信号され、境界条件の特別な選択によって誘起される量子相転移を表す。

In quantum many-body systems with local interactions, the effects of boundary conditions are considered to be negligible, at least for sufficiently large systems. Here we show an example of the opposite. We consider a spin chain with two competing interactions, set on a ring with an odd number of sites. When only the dominant interaction is antiferromagnetic, and thus induces topological frustration, the standard antiferromagnetic order (expressed by the magnetization) is destroyed. When also the second interaction turns from ferro to antiferro, an antiferromagnetic order characterized by a site-dependent magnetization which varies in space with an incommensurate pattern, emerges. This modulation results from a ground state degeneracy, which allows to break the translational invariance. The transition between the two cases is signaled by a discontinuity in the first derivative of the ground state energy and represents a quantum phase transition induced by a special choice of boundary conditions.
翻訳日:2023-06-03 09:16:43 公開日:2020-12-02
# 超決定論的隠れ変数モデルI:非平衡とシグナリング

Superdeterministic hidden-variables models I: nonequilibrium and signalling ( http://arxiv.org/abs/2003.11989v4 )

ライセンス: Link先を確認
Indrajit Sen and Antony Valentini(参考訳) これはベル相関の超決定論的隠れ変数モデルを包括的に解析しようとする2つの論文の最初のものである。 まず,超決定論を概観し,文献で提起された諸批判について論じる。 我々は最も一般的な批判である「自由意志」の侵害は誤りであると主張している。 ベルの直感的な批判を取り上げ、これらのモデルは「陰謀的」である。 これをさらに発展させるために,超決定論的モデルの非平衡拡張を導入する。 これらの拡張モデルの計測統計は、測定設定を決定するために使用される物理系に依存することを示す。 これは、実験的な観察からこの依存性を排除するために微調整を行うことを示唆する。 また,これらの拡張モデルの信号伝達特性についても検討する。 一般には形式的無符号制約に違反するが、この違反は実際の信号と同一視することはできない。 したがって、いわゆる無符号制約は、限界独立制約をより適切に命名することを提案する。 超決定論的モデルにおいて境界独立性に違反するメカニズムについて論じる。 最後に、2人の実験者が超決定論的モデルの明らかなシグナルを使って互いに通信する仮想シナリオについて考察する。 このシナリオは超決定論に特有の別の共謀的特徴を示唆する。 これらの提案は第2報で定量的に展開される。

This is the first of two papers which attempt to comprehensively analyse superdeterministic hidden-variables models of Bell correlations. We first give an overview of superdeterminism and discuss various criticisms of it raised in the literature. We argue that the most common criticism, the violation of `free-will', is incorrect. We take up Bell's intuitive criticism that these models are `conspiratorial'. To develop this further, we introduce nonequilibrium extensions of superdeterministic models. We show that the measurement statistics of these extended models depend on the physical system used to determine the measurement settings. This suggests a fine-tuning in order to eliminate this dependence from experimental observation. We also study the signalling properties of these extended models. We show that although they generally violate the formal no-signalling constraints, this violation cannot be equated to an actual signal. We therefore suggest that the so-called no-signalling constraints be more appropriately named the marginal-independence constraints. We discuss the mechanism by which marginal-independence is violated in superdeterministic models. Lastly, we consider a hypothetical scenario where two experimenters use the apparent-signalling of a superdeterministic model to communicate with each other. This scenario suggests another conspiratorial feature peculiar to superdeterminism. These suggestions are quantitatively developed in the second paper.
翻訳日:2023-05-27 20:37:24 公開日:2020-12-02
# 超決定論的隠れ変数モデルII:陰謀

Superdeterministic hidden-variables models II: conspiracy ( http://arxiv.org/abs/2003.12195v5 )

ライセンス: Link先を確認
Indrajit Sen and Antony Valentini(参考訳) 量子力学の超決定論的モデルは、前論文 $\mathcal{a}$ で示されたアイデアをさらに発展させることによって、数学的によく定義された意味で共謀であることが証明される。 実験者は,各ランと各ウィングにおいて,局所的な測定設定を決定するために,n$ のデバイスのうちの1つを選択するベルシナリオを考える。 我々は、量子統計学の特徴を仮定することなく、このシナリオの超決定論的モデルは隠れ変数の微調整された分布を持つ必要があることを証明している。 具体的には、測定統計が測定設定に依存するが、設定の選択方法の詳細には依存しないよう微調整が必要である。 私たちはこれをモデルのオーバーヘッド微調整$f$として定量化し、任意の$n > 1$に対して$f > 0$('fine-tuned'に対応)を示します。 微調整の概念は、任意の(非平衡)隠れ変数分布が原理上可能であることを仮定する。 また,非平衡を使わずに超決定論的な共謀を定量化する方法を示す。 この2つ目のアプローチは、超決定論的相関が実際のシグナルを模倣できるという事実に基づいている。 類似した状況は、すべての実行において、隠れた変数と相関するデバイスが、実際に使用されるデバイスと偶然に同じであるような平衡で発生すると論じる。 この結果、非常に大きな超決定論的相関が得られ、適切に定義された形式エントロピーの滴として定量化される。 非局所モデルと後方モデルの両方のアプローチにより非補間的であることが判明した。

We prove that superdeterministic models of quantum mechanics are conspiratorial in a mathematically well-defined sense, by further development of the ideas presented in a previous article $\mathcal{A}$. We consider a Bell scenario where, in each run and at each wing, the experimenter chooses one of $N$ devices to determine the local measurement setting. We prove, without assuming any features of quantum statistics, that superdeterministic models of this scenario must have a finely-tuned distribution of hidden variables. Specifically, fine-tuning is required so that the measurement statistics depend on the measurement settings but not on the details of how the settings are chosen. We quantify this as the overhead fine-tuning $F$ of the model, and show that $F > 0$ (corresponding to `fine-tuned') for any $N >1$. The notion of fine-tuning assumes that arbitrary (`nonequilibrium') hidden-variables distributions are possible in principle. We also show how to quantify superdeterministic conspiracy without using nonequilibrium. This second approach is based on the fact that superdeterministic correlations can mimic actual signalling. We argue that an analogous situation occurs in equilibrium where, for every run, the devices that the hidden variables are correlated with are coincidentally the same as the devices in fact used. This results in extremely large superdeterministic correlations, which we quantify as a drop of an appropriately defined formal entropy. Nonlocal and retrocausal models turn out to be non-conspiratorial according to both approaches.
翻訳日:2023-05-27 18:31:29 公開日:2020-12-02
# 量子変位による光学格子中の分数チャーン絶縁体の検出

Detecting Fractional Chern Insulators in Optical Lattices through Quantized Displacement ( http://arxiv.org/abs/2005.09860v2 )

ライセンス: Link先を確認
Johannes Motruk and Ilyoun Na(参考訳) 低温原子系におけるチャーン絶縁体(FCI)のような相互作用する物質のトポロジカル状態の実現は、最近、必要なトポロジカルバンド構造を提供する合成ゲージ場を持つ光学格子の工学により、実験的に到達している。 しかし, 固体系と同じような輸送測定では, コールド原子のセットアップや代替手段の発見が難しいため, それらの発生を検出することは困難である。 ハーパー・ホフシュタッターモデルのハーパー・ホフシュタッターモデルにおいて高調波トラッピングポテンシャルによって閉じ込められた最低帯域で実現される$\nu= 1/2$ fci状態の場合、分数量子化されたホール伝導率$\sigma_{xy}$ は、状態の位相的性質を検出するための適切な実験的測定可能な信号を与える定力の作用による原子雲の変位によって正確に決定できることを示す。 行列生成状態のアルゴリズムを用いて、シリンダーと四角形幾何学の両方において、閉じ込めポテンシャルの上の一定の力場の適用下での時間内の粒子雲の動きは、拡大した場の強さに対して$\sigma_{xy}$に比例することを示した。

The realization of interacting topological states of matter such as fractional Chern insulators (FCIs) in cold atom systems has recently come within experimental reach due to the engineering of optical lattices with synthetic gauge fields providing the required topological band structures. However, detecting their occurrence might prove difficult since transport measurements akin to those in solid state systems are challenging to perform in cold atom setups and alternatives have to be found. We show that for a $\nu= 1/2$ FCI state realized in the lowest band of a Harper-Hofstadter model of interacting bosons confined by a harmonic trapping potential, the fractionally quantized Hall conductivity $\sigma_{xy}$ can be accurately determined by the displacement of the atomic cloud under the action of a constant force which provides a suitable experimentally measurable signal for detecting the topological nature of the state. Using matrix-product state algorithms, we show that, in both cylinder and square geometries, the movement of the particle cloud in time under the application of a constant force field on top of the confining potential is proportional to $\sigma_{xy}$ for an extended range of field strengths.
翻訳日:2023-05-19 06:07:51 公開日:2020-12-02
# 凸最適化によるロバスト偏光度測定

Robust polarimetry via convex optimization ( http://arxiv.org/abs/2006.07770v2 )

ライセンス: Link先を確認
Jacob M. Leamer, Wenlei Zhang, Ravi K. Saripalli, Ryan T. Glasser, Denys I. Bondar(参考訳) 偏光法で測定された非物理的コヒーレンシ行列を補正するために,凸最適化に基づく数学的手法を提案する。 また,コヒーレンシ行列を実験データと指定された許容値とから,分極度最小値および最大値に対応するように回収する方法を開発した。 標準偏光度計と商用偏光度計を用いて得られた実験非物理的結果を用いて,これらの手法を実証した。 本手法は, ロバスト偏光測定のための他の実験手法を補完するポストプロセッシングに応用する。

We present mathematical methods, based on convex optimization, for correcting non-physical coherency matrices measured in polarimetry. We also develop the method for recovering the coherency matrices corresponding to the smallest and largest values of the degree of polarization given the experimental data and a specified tolerance. We use experimental non-physical results obtained with the standard polarimetry scheme and a commercial polarimeter to illustrate these methods. Our techniques are applied in post-processing, which complements other experimental methods for robust polarimetry.
翻訳日:2023-05-14 19:10:32 公開日:2020-12-02
# ヒルベルト空間の群不変セクターとしての多くのボディカー

Many Body Scars as a Group Invariant Sector of Hilbert Space ( http://arxiv.org/abs/2007.00845v3 )

ライセンス: Link先を確認
Kiryl Pakrouski, Preethi N. Pallegar, Fedor K. Popov, Igor R. Klebanov(参考訳) 我々は、リー群 $g$ の下で不変なヒルベルト空間のセクタが $h$ の対称性ではなく、多体スカー状態の本質的性質を持つハミルトニアンのクラスを提示する。 これらには、熱化の欠如と、時間進化における特別な初期状態の「復活」が含まれる。 初期の作品に見られる傷跡の一部は、我々の建築の特別な事例と見なすことができる。 特定の例としては、n$サイトからなる格子上のスピン1/2フェルミオンの相互作用(特別な場合としてフェルミ・ハバードモデルの変形を含む)があり、n+1$スカー状態の2つの族を含むことを示す。 これらの家系の1つが近年の文献で見られ、有名な$\eta$-pairing州から成っている。 他にも、$u(n)$不変であるscar状態のファミリーを見つける。 我々の構成によって一般的に生成される群不変なスカー状態のほとんどと家族は、高温で生き残り、ダイナミクスの詳細に敏感な対角的長距離秩序を生み出している。 このような状態は、情報が非局所的に格納され、局所的な摂動によって容易に消去できないため、信頼性の高い量子情報処理に使用できる。 対照的に、我々が見いだす他の傷痕状態は、実験的に容易に準備できる生成物状態である。 scar 部分空間の次元は群 $g$ の選択によって直接制御され、指数関数的に大きくすることができる。

We present a class of Hamiltonians $H$ for which a sector of the Hilbert space invariant under a Lie group $G$, which is not a symmetry of $H$, possesses the essential properties of many-body scar states. These include the absence of thermalization and the "revivals" of special initial states in time evolution. Some of the scar states found in earlier work may be viewed as special cases of our construction. A particular class of examples concerns interacting spin-1/2 fermions on a lattice consisting of $N$ sites (it includes deformations of the Fermi-Hubbard model as special cases), and we show that it contains two families of $N+1$ scar states. One of these families, which was found in recent literature, is comprised of the well-known $\eta$-pairing states. We find another family of scar states which is $U(N)$ invariant. Both families and most of the group-invariant scar states produced by our construction in general, give rise to the off-diagonal long range order which survives at high temperatures and is insensitive to the details of the dynamics. Such states could be used for reliable quantum information processing because the information is stored non-locally, and thus cannot be easily erased by local perturbations. In contrast, other scar states we find are product states which could be easily prepared experimentally. The dimension of scar subspace is directly controlled by the choice of group $G$ and can be made exponentially large.
翻訳日:2023-05-11 21:00:44 公開日:2020-12-02
# スタークタイムクリスタル:空間と時間における対称性の破れ

Stark time crystals: Symmetry breaking in space and time ( http://arxiv.org/abs/2007.13820v2 )

ライセンス: Link先を確認
A. Kshetrimayum, J. Eisert, D. M. Kennes(参考訳) 時間結晶の説得力のある元来のアイデアは、時間だけでなく宇宙でも繰り返される構造を指しており、これは近年大きな関心を集めている。 このような構造を実現するための障害は早くから明らかになったが、周期的に駆動される系では対称性の破れを見ることに焦点が移った。 そこで本研究では,空間障害がない場合に生じる局所化のタイプに基づいて,スタークの時間結晶を紹介する。 我々は、スターク時間結晶は、元のアイデアに非常に近い物質の段階を形成し、空間と時間における対称性の破れを示すと論じている。 この問題の物理に関する包括的議論を補完し、実現可能な実用的応用について検討し、大規模システムにおける多体ローカライゼーションの真のシグネチャを目撃する物理的要求は、そのような物理的システムでは減少する可能性があると論じる。

The compelling original idea of a time crystal has referred to a structure that repeats in time as well as in space, an idea that has attracted significant interest recently. While obstructions to realize such structures became apparent early on, focus has shifted to seeing a symmetry breaking in time in periodically driven systems, a property of systems referred to as discrete time crystals. In this work, we introduce Stark time crystals based on a type of localization that is created in the absence of any spatial disorder. We argue that Stark time crystals constitute a phase of matter coming very close to the original idea and exhibit a symmetry breaking in space and time. Complementing a comprehensive discussion of the physics of the problem, we move on to elaborating on possible practical applications and argue that the physical demands of witnessing genuine signatures of many-body localization in large systems may be lessened in such physical systems.
翻訳日:2023-05-08 02:28:52 公開日:2020-12-02
# 近接地平線局所不安定性と量子熱性

Near horizon local instability and quantum thermality ( http://arxiv.org/abs/2007.14312v2 )

ライセンス: Link先を確認
Surojit Dalui, Bibhas Ranjan Majhi(参考訳) 地平線は、ブラックホールの量子温度の源として働く局所的な不安定性を生み出します。 エディントン・フィンケルシュタイン(EF)座標のヌル軌道に沿って移動する無電荷質量粒子は地平線付近で不安定である。 このような不安定性はこの粒子運動には独立である。 さらに、EF座標に関連する観測者は、局所ハミルトニアンを$xp$とみなし、$p$は座標の$x$に対応する正準運動量である。 最後に、このハミルトニアンを用いて、量子レベルでは、この観察者のクラスは、温度を持つ熱対象がホーキング式によって与えられるように地平線を感じる。 量子力学の様々な技術を用いてこれを提供し、従って我々の以前の主張を裏付けた -- 自動局所不安定は熱対象として地平線を発生させるメカニズムである。 この過程において、この分析は、我々の初期のパインレーブの他に別の座標(EFフレーム)を提供しており、そこでは、質量のない粒子の零軌道は地平線近傍で$xp$タイプハミルトニアンによって支配される。

We revisit our previous proposed conjecture -- horizon creates a local instability which acts as the source of quantum temperature of black hole. It is found that a chargesless massless particle moving along the null trajectory in Eddington-Finkelstein (EF) coordinates feels instability in the vicinity of the horizon. Such instability is observer independent for this particle motion. Moreover, an observer associated to EF coordinates finds the local Hamiltonian as $xp$ where $p$ is the canonical momentum corresponding the coordinate $x$. Finally, using this Hamiltonian we notice that at the quantum level this class of observers feel the horizon as thermal object with temperature is given by the Hawking expression. We provide this by using various techniques in quantum mechanics and thereby bolstered our earlier claim -- the automatic local instability can be a mechanism for emerging horizon as a thermal object. In this process, the present analysis provides another set of coordinates (namely EF frame), in addition to our earlier Painleve ones, in which the null trajectory of the massless particle is governed by $xp$ type Hamiltonian in near the horizon regime.
翻訳日:2023-05-07 23:07:52 公開日:2020-12-02
# トポロジカル欠陥の量子形成

Quantum Formation of Topological Defects ( http://arxiv.org/abs/2009.11480v2 )

ライセンス: Link先を確認
Mainak Mukhopadhyay, Tanmay Vachaspati and George Zahariade(参考訳) 我々は、位相欠陥の形成をもたらす大域対称性の破れを伴う量子相転移を考える。 我々は、それぞれ$d=1,2,3$の空間次元で生成されるキンク、渦、モノポールの数密度を評価し、それぞれ$t^{-d/2}$とスケールし、クエンチ時間スケールとは独立なアトラクタ解へと進化する。 d=1$の場合、この結果はパラメータの領域に適用されます。 $\lambda \tau/m \ll 1$ where $\lambda$ is the quartic self-interaction of the order parameters, $\tau$ is the quench timescale, $m$ the mass parameter。

We consider quantum phase transitions with global symmetry breakings that result in the formation of topological defects. We evaluate the number densities of kinks, vortices, and monopoles that are produced in $d=1,2,3$ spatial dimensions respectively and find that they scale as $t^{-d/2}$ and evolve towards attractor solutions that are independent of the quench timescale. For $d=1$ our results apply in the region of parameters $\lambda \tau/m \ll 1$ where $\lambda$ is the quartic self-interaction of the order parameter, $\tau$ is the quench timescale, and $m$ the mass parameter.
翻訳日:2023-05-01 02:51:06 公開日:2020-12-02
# 量子制御のための双線形動的モード分解

Bilinear dynamic mode decomposition for quantum control ( http://arxiv.org/abs/2010.14577v2 )

ライセンス: Link先を確認
Andy Goldschmidt, Eurika Kaiser, Jonathan L. Dubois, Steven L. Brunton, J. Nathan Kutz(参考訳) 特定の量子力学系に適した時間依存制御パルスを用いて量子最適制御(QOC)を確立するためのデータ駆動手法は、多くの新興量子技術において重要である。 我々は,時系列計測を利用してqocの量子システム同定を行うデータ駆動回帰手法bilinear dynamic mode decomposition (bidmd) を開発した。 BiDMD最適化フレームワークは、既知のハミルトン構造を利用する物理インフォームド回帰である。 さらに、二DMDは、制御信号の高速サンプリングと低速サンプリングの両方を、ストロボスコープサンプリング戦略によりモデル化することができる。 BiDMD法は、量子システムにおけるリアルタイムオンライン実装のためのフレキシブルで解釈可能な適応回帰フレームワークを提供する。 さらに、この方法は、線型作用素の非線形ダイナミクスを近似するkoopman理論と強い理論的関係を持つ。 多くの機械学習パラダイムと比較して、最小限のデータが必要であり、新しいデータが収集されるにつれてバイDMDモデルは容易に更新される。 本稿では,いくつかの代表量子系に対するアプローチの有効性と性能を実証し,実験結果と一致することを示す。

Data-driven methods for establishing quantum optimal control (QOC) using time-dependent control pulses tailored to specific quantum dynamical systems and desired control objectives are critical for many emerging quantum technologies. We develop a data-driven regression procedure, bilinear dynamic mode decomposition (biDMD), that leverages time-series measurements to establish quantum system identification for QOC. The biDMD optimization framework is a physics-informed regression that makes use of the known underlying Hamiltonian structure. Further, the biDMD can be modified to model both fast and slow sampling of control signals, the latter by way of stroboscopic sampling strategies. The biDMD method provides a flexible, interpretable, and adaptive regression framework for real-time, online implementation in quantum systems. Further, the method has strong theoretical connections to Koopman theory, which approximates non-linear dynamics with linear operators. In comparison with many machine learning paradigms, it requires minimal data and the biDMD model is easily updated as new data is collected. We demonstrate the efficacy and performance of the approach on a number of representative quantum systems, showing that it also matches experimental results.
翻訳日:2023-04-27 08:34:01 公開日:2020-12-02
# 量子スパイクニューラルネットワーク

Quantum Spike Neural Network ( http://arxiv.org/abs/2011.05062v2 )

ライセンス: Link先を確認
Yanhu Chen, Hongxiang Guo, Cen Wang, Xiong Gao, Jian Wu(参考訳) 量子コンピュータを利用してニューラルネットワーク(anns)を展開することは、スピードとスケールの両方において大きな進歩をもたらす可能性がある。 本稿では、量子スパイクニューラルネットワーク(SNN)の一種を提案するとともに、その確率、計算精度、アルゴリズムの複雑さなどを含む、量子スパイクニューラルネットワークの詳細な数学的証明を包括的に評価する。 この証明は、データ次元の対数多項式である量子SNNの計算複雑性を示している。 さらに,量子SNNの最小成功確率を100%近く向上させる手法を提案する。 最後に,実世界のパターン認識を解くための量子SNNの性能について述べる。

Utilizing quantum computers to deploy artificial neural networks (ANNs) will bring the potential of significant advancements in both speed and scale. In this paper, we propose a kind of quantum spike neural networks (SNNs) as well as comprehensively evaluate and give a detailed mathematical proof for the quantum SNNs, including its successful probability, calculation accuracy, and algorithm complexity. The proof shows the quantum SNNs' computational complexity that is log-polynomial in the data dimension. Furthermore, we provide a method to improve quantum SNNs' minimum successful probability to nearly 100%. Finally, we present the good performance of quantum SNNs for solving pattern recognition from the real-world.
翻訳日:2023-04-24 19:03:53 公開日:2020-12-02
# コヒーレンスと熱力学的不確実性関係:量子吸収冷凍機からの考察

Coherences and the thermodynamic uncertainty relation: Insights from quantum absorption refrigerators ( http://arxiv.org/abs/2011.14518v2 )

ライセンス: Link先を確認
Junjie Liu and Dvira Segal(参考訳) 古典マルコフ・ジャンプ法で導かれた熱力学的不確実性関係は、精度と散逸のトレードオフ関係をもたらし、量子熱機械の性能の理解を深める。 本稿では、量子状態における熱力学の不確実性関係の妥当性に関する量子系コヒーレンスと熱電流変動の相互作用について検討する。 現在の統計量を達成するために、レッドフィールド量子マスター方程式の完全な数え上げ統計シミュレーションを行う。 固有状態間の非零コヒーレンスが冷却力を抑制または増強できる定常量子吸収冷凍機に注目する。 いずれのシナリオにおいても、系コヒーレンスの存在下での冷却力(平均に対する電力の標準偏差)の相対ノイズが増大し、熱力学的不確かさの関係が協調する。 この結果から, 量子コヒーレント熱機械の性能評価には, 揺らぎが不可欠であることが示唆された。

The thermodynamic uncertainty relation, originally derived for classical Markov-jump processes, provides a trade-off relation between precision and dissipation, deepening our understanding of the performance of quantum thermal machines. Here, we examine the interplay of quantum system coherences and heat current fluctuations on the validity of the thermodynamics uncertainty relation in the quantum regime. To achieve the current statistics, we perform a full counting statistics simulation of the Redfield quantum master equation. We focus on steady-state quantum absorption refrigerators where nonzero coherence between eigenstates can either suppress or enhance the cooling power, compared with the incoherent limit. In either scenario, we find enhanced relative noise of the cooling power (standard deviation of the power over the mean) in the presence of system coherence, thereby corroborating the thermodynamic uncertainty relation. Our results indicate that fluctuations necessitate consideration when assessing the performance of quantum coherent thermal machines.
翻訳日:2023-04-22 14:54:22 公開日:2020-12-02
# 不均質複素系における断続的クラスターの出現

Emergence of disconnected clusters in heterogeneous complex systems ( http://arxiv.org/abs/2012.00447v2 )

ライセンス: Link先を確認
Istv\'an A. Kov\'acs and R\'obert Juh\'asz(参考訳) パーコレーション理論は、複雑なシステム内の相関領域を密接な連結クラスタとして描写する直感的な図式を定めている。 この図は、小さなスケールで十分であり、臨界性とは別に、複雑なシステムの高相関サイトは本質的には非連結であることを示す。 この発見は、機能的類似性が物理的接続から切り離される力学相関の直観的組織を示す。 本報告では,異種システムにおける感染拡大のdcp(disrupted contact process)の例について述べる。 数値シミュレーションと漸近的に厳密な再正規化群法(sdrg)を1, 2, 3次元系および長距離相互作用を持つ2次元格子に適用する。 臨界ダイナミクスは、ほぼ1つの、高い相関性を持つが、空間的に分離されたクラスターによってよく捉えられると結論づける。 以上の結果から,感染したサイトは相互に直接相互作用しないことが多い。 SDRG方程式の類似性から、この結果は乱れた量子イジングモデルの臨界挙動にも寄与し、量子相関性を持つが空間的に非連結な磁気領域へと繋がる。

Percolation theory dictates an intuitive picture depicting correlated regions in complex systems as densely connected clusters. While this picture might be adequate at small scales and apart from criticality, we show that highly correlated sites in complex systems can be inherently disconnected. This finding indicates a counter-intuitive organization of dynamical correlations, where functional similarity decouples from physical connectivity. We illustrate the phenomena on the example of the Disordered Contact Process (DCP) of infection spreading in heterogeneous systems. We apply numerical simulations and an asymptotically exact renormalization group technique (SDRG) in 1, 2 and 3 dimensional systems as well as in two-dimensional lattices with long-ranged interactions. We conclude that the critical dynamics is well captured by mostly one, highly correlated, but spatially disconnected cluster. Our findings indicate that at criticality the relevant, simultaneously infected sites typically do not directly interact with each other. Due to the similarity of the SDRG equations, our results hold also for the critical behavior of the disordered quantum Ising model, leading to quantum correlated, yet spatially disconnected, magnetic domains.
翻訳日:2023-04-22 12:07:20 公開日:2020-12-02
# 衛星ベースのフォトニック量子ネットワークは小さな世界だ

Satellite-based photonic quantum networks are small-world ( http://arxiv.org/abs/2012.01125v1 )

ライセンス: Link先を確認
Samura\'i Brito, Askery Canabarro, Daniel Cavalcanti, Rafael Chaves(参考訳) 衛星対地量子通信の確立に向けた最近のマイルストーン実験は、量子チャネルによって相互接続されるネットワークである量子インターネットの発展の道を開いた。 ここでは、衛星ベースの量子通信によって生成されるフォトニックネットワークの性質をネットワーク理論を用いて研究し、それを光ファイバーネットワークと比較する。 我々は、衛星が小世界ネットワークを生成できると予測し、物理的に遠く離れたノードが実際にはネットワークの観点から近いことを示唆する。 また,ネットワークの接続特性を分析し,特にランダム障害に対してロバストであることを示す。 これにより、衛星ベースの量子通信は、サイズと複雑さが増大する量子ネットワークにおいて、広範囲にわたる絡み合いを分散する最も有望な技術となる。

Recent milestone experiments establishing satellite-to-ground quantum communication are paving the way for the development of the quantum internet, a network interconnected by quantum channels. Here we employ network theory to study the properties of the photonic networks that can be generated by satellite-based quantum communication and compare it with the optical-fiber counterpart. We predict that satellites can generate small-world networks, implying that physically distant nodes are actually near from a network perspective. We also analyse the connectivity properties of the network and show, in particular, that they are robust against random failures. This puts satellite-based quantum communication as the most promising technology to distribute entanglement across large distances in quantum networks of growing size and complexity.
翻訳日:2023-04-22 08:08:06 公開日:2020-12-02
# 量子散乱による熱化

Thermalization induced by quantum scattering ( http://arxiv.org/abs/2012.01062v1 )

ライセンス: Link先を確認
Samuel L. Jacob, Massimiliano Esposito, Juan M. R. Parrondo, Felipe Barra(参考訳) 量子散乱理論を用いて,波束によって記述された粒子xとの衝突を受ける固定量子系yの研究を行う。 系 Y の散乱写像を導出し、誘導された進化は Y のレベル間隔と比較して入射波束の幅に大きく依存することを示す。 Y が非退化であれば、狭い波束との逐次衝突により Y は脱離する。 さらに、熱拡散によって生じる狭いパケットのアンサンブルにより、Yは熱化する。 一方, 拡散分布による入射波束のアンサンブルの場合においても, 広帯域波束はYのコヒーレンス源として機能し, 熱化を防止できる。 本研究は,いくつかの簡単な例について概説し,現実的な実験状況における結果について考察する。

We use quantum scattering theory to study a fixed quantum system Y subject to collisions with massive particles X described by wave-packets. We derive the scattering map for system Y and show that the induced evolution crucially depends on the width of the incident wave-packets compared to the level spacing in Y . If Y is non-degenerate, sequential collisions with narrow wave-packets cause Y to decohere. Moreover, an ensemble of narrow packets produced by thermal effusion causes Y to thermalize. On the other hand, broad wave-packets can act as a source of coherences for Y , even in the case of an ensemble of incident wave-packets given by the effusion distribution, preventing thermalization. We illustrate our findings on several simple examples and discuss the consequences of our results in realistic experimental situations.
翻訳日:2023-04-22 08:07:26 公開日:2020-12-02
# ダイヤモンド中の窒素空隙アンサンブルに基づく集積・携帯用磁力計

Integrated and portable magnetometer based on nitrogen-vacancy ensembles in diamond ( http://arxiv.org/abs/2012.01053v1 )

ライセンス: Link先を確認
Felix M. St\"urner, Andreas Brenneis, Thomas Buck, Julian Kassel, Robert R\"olver, Tino Fuchs, Anton Savitsky, Dieter Suter, Jens Grimmel, Stefan Hengesbach, Michael F\"ortsch, Kazuo Nakamura, Hitoshi Sumiya, Shinobu Onoda, Junichi Isoya, Fedor Jelezko(参考訳) 量子効果を利用する磁場センサは、脳機械インタフェースなど、将来新しい応用を可能にする感度の観点から、古典的なセンサーよりも優れていることを示した。 ダイヤモンド中の負電荷窒素空洞(NV)中心は室温で磁場を測定するための有望な高感度プラットフォームとして出現している。 この技術を実験室のセットアップから製品やアプリケーションに移すには、センサーの全体サイズ、全体の消費電力、コストの削減と最適化が必要となる。 ここでは, 粗大な実験装置を使わずに, 全機能部品を完全統合した繊維系NV磁力計を実演する。 この統合されたプロトタイプは、344 pT/SqrtHzの感度で磁場を可搬的に測定できる。

Magnetic field sensors that exploit quantum effects have shown that they can outperform classical sensors in terms of sensitivity enabling a range of novel applications in future, such as a brain machine interface. Negatively charged nitrogen-vacancy (NV) centers in diamond have emerged as a promising high sensitivity platform for measuring magnetic fields at room temperature. Transferring this technology from laboratory setups into products and applications, the total size of the sensor, the overall power consumption, and the costs need to be reduced and optimized. Here, we demonstrate a fiber-based NV magnetometer featuring a complete integration of all functional components without using any bulky laboratory equipment. This integrated prototype allows portable measurement of magnetic fields with a sensitivity of 344 pT/ SqrtHz.
翻訳日:2023-04-22 08:07:14 公開日:2020-12-02
# 運動量空間におけるフロケット高次位相

Floquet higher-order topological phases in momentum space ( http://arxiv.org/abs/2012.01024v1 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 高次の位相位相 (HOTP) は、系の角やヒンジの対称性に保護された境界状態によって特徴づけられる。 本研究では, 量子ダブルキックドロータの2次元拡張を用いて, 時間周期駆動系における運動量空間のホップについて明らかにした。 得られたフロッケのホップはキラル対称性によって保護され、キック強度の増加とともに任意に大きい整数値を取ることができる位相不変量のペアによって特徴づけられる。 これらのトポロジカル数は、波状パケットのカイラルダイナミクスから測定することもできる。 開境界条件下では、ゼロおよび$\pi$準エネルギーを持つ複数の四重項フロッケコーナーモードが系内に出現し、同じ準エネルギーで非局在化されたバルク状態と共存し、連続体において第二次フロッケ位相境界状態を形成する。 これらのコーナーモードの数はさらにバルク-コーン対応の関係に従ってバルク位相不変量によって数えられる。 そこで本研究では, HOTPsを運動量空間格子に拡張し, フロッケ駆動系におけるHOTPsとコーナー局在境界状態のリッチ性を明らかにする。

Higher-order topological phases (HOTPs) are characterized by symmetry-protected bound states at the corners or hinges of the system. In this work, we reveal a momentum-space counterpart of HOTPs in time-periodic driven systems, which are demonstrated in a two-dimensional extension of the quantum double-kicked rotor. The found Floquet HOTPs are protected by chiral symmetry and characterized by a pair of topological invariants, which could take arbitrarily large integer values with the increase of kicking strengths. These topological numbers can also be measured from the chiral dynamics of wave packets. Under open boundary conditions, multiple quartets Floquet corner modes with zero and $\pi$ quasienergies emerge in the system and coexist with delocalized bulk states at the same quasienergies, forming second-order Floquet topological bound states in continuum. The numbers of these corner modes are further counted by the bulk topological invariants according to the relation of bulk-corner correspondence. Our findings thus extend the study HOTPs to momentum-space lattices, and further uncover the richness of HOTPs and corner-localized bound states in continuum in Floquet driven systems.
翻訳日:2023-04-22 08:07:04 公開日:2020-12-02
# 集合トンネルの虚時平均場法

Imaginary Time Mean-Field Method for Collective Tunneling ( http://arxiv.org/abs/2012.00942v1 )

ライセンス: Link先を確認
Patrick McGlynn and Cedric Simenel(参考訳) 背景: 多体系における量子トンネルは、冷原子から核物理学まで、多くの実験および理論的研究の対象となっている。 しかし、原子核における核子のような強く相互作用する粒子による量子トンネルの理論的な記述は、量子物理学において大きな課題である。 目的: 相互作用する各粒子の自由度を考慮に入れたトンネリングに対する初期値アプローチが極めて望ましい。 方法: 実時間で周期解を記述するための既存の手法に着想を得て, 平均場レベルでのトンネル記述に初期値アプローチを用いることの可能性を検討する。 実時間および実時間ハーツリー力学は、2井戸ポテンシャルの2粒子の場合の正確な解と比較される。 結果: 実時間発展は強相互作用系におけるトンネル形成を阻害するスプリアス自己トラップ効果を示すが, 虚時依存平均場法は正確な解とよく一致してトンネル速度を予測する。 結論: 初期値法として、重イオン融合のような現実的なシステムを記述するために周期解を必要とするアプローチよりも適している。

Background: Quantum tunneling in many-body systems is the subject of many experimental and theoretical studies in fields ranging from cold atoms to nuclear physics. However, theoretical description of quantum tunneling with strongly interacting particles, such as nucleons in atomic nuclei, remains a major challenge in quantum physics. Purpose: An initial-value approach to tunneling accounting for the degrees of freedom of each interacting particle is highly desirable. Methods: Inspired by existing methods to describe instantons with periodic solutions in imaginary time, we investigate the possibility to use an initial value approach to describe tunneling at the mean-field level. Real-time and imaginary-time Hartree dynamics are compared to the exact solution in the case of two particles in a two-well potential. Results: Whereas real-time evolutions exhibit a spurious self-trapping effect preventing tunneling in strongly interacting systems, the imaginary-time-dependent mean-field method predicts tunneling rates in excellent agreement with the exact solution. Conclusions: Being an initial-value method, it could be more suitable than approaches requiring periodic solutions to describe realistic systems such as heavy-ion fusion.
翻訳日:2023-04-22 08:06:26 公開日:2020-12-02
# 重力デコヒーレンス:非相対論的スピン1/2フェルミオン模型

Gravitational decoherence: a non relativistic spin 1/2 fermionic model ( http://arxiv.org/abs/2012.01326v1 )

ライセンス: Link先を確認
Lorenzo Asprea and Giulio Gasbarri(参考訳) 以前の研究[arXiv 1905.01121]では、弱い、確率的、古典的な重力場と相互作用するスカラーボゾン粒子の力学の量子マスター方程式を導出した。 標準物質はフェルミオンで構成されているため、そのような方程式はより関連する実験状況を記述するために適切に拡張されるべきである。 ここではスピン1/2粒子の重力デコヒーレンスに対する非相対論的モデルを求める。 我々は,外部古典電磁界とのカップリングも考慮し,その処理を充実させる。 我々は,スカラーボソニックモデルとの違いについてコメントし,それらが無視できる状態について述べる。

In a previous work [arXiv1905.01121] we have derived a quantum master equation for the dynamics of a scalar bosonic particle interacting with a weak, stochastic and classical gravitational field. As standard matter is made of fermions, such an equation should be suitably extended to describe more relevant experimental situations. Here we derive a non relativistic model for the gravitational decoherence of spin 1/2 particles. We enrich the treatment by considering also a coupling with an external classical electromagnetic field. We comment on the differences with the scalar bosonic model and we describe the regimes in which they become negligible.
翻訳日:2023-04-22 07:58:47 公開日:2020-12-02
# 半無限高インピーダンス伝送線路におけるトランスモン -キャビティモードとRabi発振の出現-

Transmon in a semi-infinite high-impedance transmission line -- appearance of cavity modes and Rabi oscillations ( http://arxiv.org/abs/2012.01284v1 )

ライセンス: Link先を確認
Emely Wiegand, Benjamin Rousseaux and G\"oran Johansson(参考訳) 本報告では、量子抵抗と同等かそれ以上の特性インピーダンスを有する伝送線路に容量的に結合した単一超伝導人工原子のダイナミクスについて検討する。 この状態では、マイクロ波は原子の遷移周波数から遠く離れた周波数で原子から反射される。 透過線に1つの鏡を加えると、原子と鏡の間の空洞モードが生成される。 原子からの自発的な放出を調べると、ラビ振動が起こり、そこでは原子とキャビティモードの1つの間でエネルギーが振動する。

In this letter, we investigate the dynamics of a single superconducting artificial atom capacitively coupled to a transmission line with a characteristic impedance comparable or larger than the quantum resistance. In this regime, microwaves are reflected from the atom also at frequencies far from the atom's transition frequency. Adding a single mirror in the transmission line then creates cavity modes between the atom and the mirror. Investigating the spontaneous emission from the atom, we then find Rabi oscillations, where the energy oscillates between the atom and one of the cavity modes.
翻訳日:2023-04-22 07:57:29 公開日:2020-12-02
# 準周期鎖におけるモビリティエッジの自己整合理論

Self-consistent theory of mobility edges in quasiperiodic chains ( http://arxiv.org/abs/2012.01450v1 )

ライセンス: Link先を確認
Alexander Duthie, Sthitadhi Roy, and David E. Logan(参考訳) 準周期ポテンシャルを持つ近辺強結合鎖における移動端の自己整合理論を導入する。 系パラメータとエネルギーの空間における局所状態と拡張状態の境界を区別すると、モビリティエッジは、一般に研究されているオーブリー・アンドルー・ハーパーモデルのエネルギー非依存的な自己双対性に欠ける準周期系において一般的である。 このような系のポテンシャルは強く無限範囲の相関関係を持ち、その決定論的性質を反映し、無秩序な系とは異なる問題を生じさせる。 重要なことに、導入された理論的枠組みはモデル非依存であり、任意の準周期系に対する移動端軌道の解析的抽出を可能にする。 この理論を2種類のモデルを用いて例示し, 正確な移動性エッジと, 正確な対角化から得られた数値結果と非常によく一致していることを示す。

We introduce a self-consistent theory of mobility edges in nearest-neighbour tight-binding chains with quasiperiodic potentials. Demarcating boundaries between localised and extended states in the space of system parameters and energy, mobility edges are generic in quasiperiodic systems which lack the energy-independent self-duality of the commonly studied Aubry-Andr\'e-Harper model. The potentials in such systems are strongly and infinite-range correlated, reflecting their deterministic nature and rendering the problem distinct from that of disordered systems. Importantly, the underlying theoretical framework introduced is model-independent, thus allowing analytical extraction of mobility edge trajectories for arbitrary quasiperiodic systems. We exemplify the theory using two families of models, and show the results to be in very good agreement with the exactly known mobility edges as well numerical results obtained from exact diagonalisation.
翻訳日:2023-04-22 07:49:38 公開日:2020-12-02
# 非エルミート量子力学における絡み合いと浄化遷移

Entanglement and purification transitions in non-Hermitian quantum mechanics ( http://arxiv.org/abs/2012.01435v1 )

ライセンス: Link先を確認
Sarang Gopalakrishnan, Michael J. Gullans(参考訳) 連続的な測定とポスト選択を受ける量子系は、非エルミートハミルトニアンに従って進化する。 ポスト選択の速度が増加するにつれて、この非エルミートハミルトニアンはスペクトル位相遷移を行う。 この相転移の一方(弱い後選択のために)は、初期混合密度行列が常に混合され、初期非絡み合い状態が体積則絡み合いを生じさせ、他方では任意の初期状態が、低い絡み合いを持つ一意な純状態に近づく。 この遷移を非エルミート・ハミルトニアンのスペクトルにおける例外的な点と同一視し、pt対称性は自発的に破られる。 我々は、厳密な対角化と近似的に解析可能な平均場理論を用いて混合相の後期に現れる非自明な定常状態だけでなく、遷移を特徴付ける。

A quantum system subject to continuous measurement and post-selection evolves according to a non-Hermitian Hamiltonian. We show that, as one increases the rate of post-selection, this non-Hermitian Hamiltonian undergoes a spectral phase transition. On one side of this phase transition (for weak post-selection) an initially mixed density matrix remains mixed at all times, and an initially unentangled state develops volume-law entanglement; on the other side, an arbitrary initial state approaches a unique pure state with low entanglement. We identify this transition with an exceptional point in the spectrum of the non-Hermitian Hamiltonian, at which PT symmetry is spontaneously broken. We characterize the transition as well as the nontrivial steady state that emerges at late times in the mixed phase using exact diagonalization and an approximate, analytically tractable mean-field theory; these methods yield consistent conclusions.
翻訳日:2023-04-22 07:49:10 公開日:2020-12-02
# アンダーソンの不純物問題に対する行列積状態の効率的なマッピング

Efficient mapping for Anderson impurity problems with matrix product states ( http://arxiv.org/abs/2012.01424v1 )

ライセンス: Link先を確認
Lucas Kohn and Giuseppe E. Santoro(参考訳) 行列積状態を用いたアンダーソン不純物問題の数値解法を提案する。 改良鎖写像を導入することで、結合の短距離性を維持しながら、以前のすべての試みと比べてかなり低い絡み合いが得られる。 本手法は有限温度まで自然に拡張され, 動的平均場理論, 非平衡力学, 量子輸送に応用できる。

We propose an efficient algorithm to numerically solve Anderson impurity problems using matrix product states. By introducing a modified chain mapping we obtain significantly lower entanglement, as compared to all previous attempts, while keeping the short-range nature of the couplings. Our approach naturally extends to finite temperatures, with applications to dynamical mean field theory, non-equilibrium dynamics and quantum transport.
翻訳日:2023-04-22 07:48:52 公開日:2020-12-02
# 貯水池のコンピューターはカオスの端でベストか?

Do Reservoir Computers Work Best at the Edge of Chaos? ( http://arxiv.org/abs/2012.01409v1 )

ライセンス: Link先を確認
Thomas L. Carroll(参考訳) セルオートマトンはカオスの端において高い計算能力を有しており、その挙動が秩序からカオスへと遷移したパラメータが示されている。 この概念は貯水池のコンピュータにも適用されており、多くの研究者は貯水池のコンピュータの計算能力はカオスの端にあると述べているが、他の研究者はこの規則は普遍的に真ではないと示唆している。 多くのリザーバーコンピュータはカオス的な振る舞いを示さず、単に不安定になるだけなので、この不安定遷移のより正確な用語は「安定性の最先端」であると感じており、ここでは安定性のエッジが近づくにつれてリザーバーコンピュータの計算能力が減少する2つの例を見出す。 貯水池コンピュータの最適動作点としての安定性の端は一般には真ではないが、場合によっては真である。

It has been demonstrated that cellular automata had the highest computational capacity at the edge of chaos, the parameter at which their behavior transitioned from ordered to chaotic. This same concept has been applied to reservoir computers; a number of researchers have stated that the highest computational capacity for a reservoir computer is at the edge of chaos, although others have suggested that this rule is not universally true. Because many reservoir computers do not show chaotic behavior but merely become unstable, it is felt that a more accurate term for this instability transition is the "edge of stability"Here I find two examples where the computational capacity of a reservoir computer decreases as the edge of stability is approached; in one case, because generalized synchronization breaks down, and in the other case because the reservoir computer is a poor match to the problem being solved. The edge of stability as an optimal operating point for a reservoir computer is not in general true, although it may be true in some cases.
翻訳日:2023-04-22 07:48:21 公開日:2020-12-02
# 共有自動運転車の性能における都市形態の役割

The Role of Urban Form in the Performance of Shared Automated Vehicles ( http://arxiv.org/abs/2012.01384v1 )

ライセンス: Link先を確認
Kaidi Wang, Wenwen Zhang(参考訳) 近年,共有自動車(SAV)の技術は飛躍的に進歩している。 しかしながら、既存のSAV研究は主にシステム設計に焦点を当てているが、限られた研究は、外因性変数、特に都市形態がSAVの性能に与える影響を調査している。 そのため、SAVシステムの持続可能性に重要な都市形態の測定がどのような影響を及ぼすかは不明である。 本研究は,286都市から収集したデータを用いてシミュレーション実験を行うことで,研究ギャップを埋める。 本研究では, 固定効果回帰モデルを用いて, シミュレーションSAV性能と相関する重要な都市形状の測定を行った。 その結果、SAVはより効率的で、より接続されたネットワークと多様な土地利用開発パターンを持つ密集都市ではVMTが少ないことが示唆された。 モデルの結果は、将来のSAVの悪影響を抑制し、既存のSAVシミュレーション結果を米国の他の都市に一般化するために、土地利用と交通政策に関する洞察を与えるのに役立つ。

The technology of Shared Automated Vehicles (SAVs) has advanced significantly in recent years. However, existing SAV studies primarily focus on the system design while limited studies have examined the impacts of exogenous variables, especially urban form, on SAV performance. Therefore, it remains unclear what key urban form measurements may influence SAV system's sustainability. This study fills the research gap by conducting simulation experiments using data collected from 286 cities. This study identifies critical urban form measurements correlated with the simulated SAV performance using fixed effects regression models. The results suggest that SAVs are more efficient and generate less VMT in denser cities with more connected networks and diversified land use development patterns. The model results can help provide insights on land use and transportation policies to curb the adverse effects of SAVs in the future and generalize existing SAV simulation results to the rest of U.S. cities.
翻訳日:2023-04-22 07:48:04 公開日:2020-12-02
# 2次元量子スピン格子における幾何学による整流

Rectification induced by geometry in two-dimensional quantum spin lattices ( http://arxiv.org/abs/2012.01368v1 )

ライセンス: Link先を確認
Alessandra Chioquetta, Emmanuel Pereira, Gabriel T. Landi and Raphael C. Drumond(参考訳) 量子マスター方程式によってモデル化された2次元量子スピン鎖におけるスピン整流の発生における幾何学的非対称性の役割について考察する。 本研究では, 1次元の場合の整流率の違いについて検討し, xxzモデルの異方性パラメータの異なる値に対する整流係数rと, 局所的および非局所的ディスシパレータを含む境界駆動の異なる構成について数値解析を行った。 また, 幾何的非対称性は, 非均一磁場とともに, XXモデルにおいてもスピン電流の整流を誘導し, 幾何による整流現象が量子スピン系における一般的な現象であることを示す。

We address the role of geometrical asymmetry in the occurrence of spin rectification in two-dimensional quantum spin chains subject to two reservoirs at the boundaries, modeled by quantum master equations. We discuss the differences in the rectification for some one-dimensional cases, and present numerical results of the rectification coefficient R for different values of the anisotropy parameter of the XXZ model, and different configurations of boundary drives, including both local and non-local dissipators. Our results also show that geometrical asymmetry, along with inhomogeneous magnetic fields, can induce spin current rectification even in the XX model, indicating that the phenomenon of rectification due to geometry may be of general occurrence in quantum spin systems.
翻訳日:2023-04-22 07:47:14 公開日:2020-12-02
# Few-Shotオーディオ分類の検討

A Study of Few-Shot Audio Classification ( http://arxiv.org/abs/2012.01573v1 )

ライセンス: Link先を確認
Piper Wolters, Chris Careaga, Brian Hutchinson, Lauren Phillips(参考訳) ディープラーニングの進歩は、多くのオーディオ分類タスクに最先端のパフォーマンスをもたらすが、人間とは異なり、これらのシステムは伝統的に正確な予測を行うために大量のデータを必要とする。 すべての個人や組織がこれらのリソースにアクセスできるわけではないし、私たちの分野全体と同様に、私たちの国の人口動態を反映していない組織もある。 なぜなら、機械学習は問題解決に益々役に立つツールであり、より広い範囲の人々の手に入れることで、より広範な問題を解決することができるからです。 ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。 本研究では,2つの音声分類タスク(話者識別と活動分類)をプロトタイプ型ネットワークによる少数ショット学習アルゴリズムを用いて解決し,各種エンコーダアーキテクチャの性能評価を行う。 私たちのエンコーダには、リカレントニューラルネットワーク、および1および2次元畳み込みニューラルネットワークが含まれています。 我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。 また,キネティクス~600データセットとオーディオセットの少数サブセットを用いた音声からの行動分類についても評価し,それぞれ51.5%,35.2%の精度を得た。

Advances in deep learning have resulted in state-of-the-art performance for many audio classification tasks but, unlike humans, these systems traditionally require large amounts of data to make accurate predictions. Not every person or organization has access to those resources, and the organizations that do, like our field at large, do not reflect the demographics of our country. Enabling people to use machine learning without significant resource hurdles is important, because machine learning is an increasingly useful tool for solving problems, and can solve a broader set of problems when put in the hands of a broader set of people. Few-shot learning is a type of machine learning designed to enable the model to generalize to new classes with very few examples. In this research, we address two audio classification tasks (speaker identification and activity classification) with the Prototypical Network few-shot learning algorithm, and assess performance of various encoder architectures. Our encoders include recurrent neural networks, as well as one- and two-dimensional convolutional neural networks. We evaluate our model for speaker identification on the VoxCeleb dataset and ICSI Meeting Corpus, obtaining 5-shot 5-way accuracies of 93.5% and 54.0%, respectively. We also evaluate for activity classification from audio using few-shot subsets of the Kinetics~600 dataset and AudioSet, both drawn from Youtube videos, obtaining 51.5% and 35.2% accuracy, respectively.
翻訳日:2023-04-22 07:40:33 公開日:2020-12-02
# 導入CS理論の効果的なフィードバック:JFLAP拡張と学生の持続性

Effective Feedback for Introductory CS Theory: A JFLAP Extension and Student Persistence ( http://arxiv.org/abs/2012.01546v1 )

ライセンス: Link先を確認
Ivona Bez\'akov\'a, Kimberly Fluet, Edith Hemaspaandra, Hannah Miller, David E. Narv\'aez(参考訳) 計算理論は抽象計算モデルを分析し、様々な問題の計算困難を厳格に研究する。 初等的計算理論は大学生にとって困難であり,本研究の主な目的は,学生がこれらの計算モデルを学ぶのを支援することである。 これらのモデルと対話するための最も一般的な教育ツールがJava Formal Languages and Automata Package (JFLAP)である。 JFLAPサーバ拡張は,学生からの宿題の提出を受け付け,その提出を正しいか間違っているか評価し,提出が正しくない場合に証人文字列を提供する。 我々の拡張は現在、決定論的有限オートマトン、非決定論的有限オートマトン、正規表現、文脈自由文法、プッシュダウンオートマトンに対する目撃者フィードバックを提供している。 2019年秋,我々はコンピュータ科学理論の授業導入に必要な2つの項目(制御と研究)について予備調査を行った。 学習部では5つの課題を対象とし,コントロール部では従来の手法でこれらの問題を解き,提出した。 その結果, この5つの質問において, 調査部は対照部よりも平均で良好であった。 さらに,本研究部は,正解までの試行を継続し,本研究の予備的結論は,最小限の(詳細でない)証人フィードバックが,学生が概念を真に学ぶのに役立つことである。 この結論を裏付ける結果と関連する仮説を述べるとともに、証人のフィードバックと無制限の提出によって、部分クレジットは不要かつ非有効であると仮定する。

Computing theory analyzes abstract computational models to rigorously study the computational difficulty of various problems. Introductory computing theory can be challenging for undergraduate students, and the main goal of our research is to help students learn these computational models. The most common pedagogical tool for interacting with these models is the Java Formal Languages and Automata Package (JFLAP). We developed a JFLAP server extension, which accepts homework submissions from students, evaluates the submission as correct or incorrect, and provides a witness string when the submission is incorrect. Our extension currently provides witness feedback for deterministic finite automata, nondeterministic finite automata, regular expressions, context-free grammars, and pushdown automata. In Fall 2019, we ran a preliminary investigation on two sections (Control and Study) of the required undergraduate course Introduction to Computer Science Theory. The Study section used our extension for five targeted homework questions, and the Control section solved and submitted these problems using traditional means. Our results show that on these five questions, the Study section performed better on average than the Control section. Moreover, the Study section persisted in submitting attempts until correct, and from this finding, our preliminary conclusion is that minimal (not detailed or grade-based) witness feedback helps students to truly learn the concepts. We describe the results that support this conclusion as well as a related hypothesis conjecturing that with witness feedback and unlimited number of submissions, partial credit is both unnecessary and ineffective.
翻訳日:2023-04-22 07:39:28 公開日:2020-12-02
# 2モード損失空洞における連続変数の絡み合い:厳密な解法

Continuous-variable entanglement in a two-mode lossy cavity: an exact solution ( http://arxiv.org/abs/2012.01523v1 )

ライセンス: Link先を確認
Colin Vendromin and Marc M. Dignam(参考訳) 連続可変(CV)絡み合いは量子情報分野における貴重な資源である。 CVエンタングルメントの源の1つは、光の2モード圧縮状態における光子の位置と運動量の間の相関である。 本稿では,古典的な光パルスで励起される2モード損失キャビティ内の自然パラメトリックダウンコンバージョン(SPDC)を用いて,圧縮状態の生成を理論的に検討する。 キャビティ内の密度演算子のダイナミクスは、lindblad master方程式を用いてモデル化され、このモデルに対する厳密な解は、2モードのスクイーズ振幅と各モードの平均熱光子数を持つ2モードのスクイーズ熱状態の密度演算子であることが示されている。 2つのモード間の損失の差に大きく依存する空洞内の最大絡み合いの表現を導出する。 我々は、ガウスパルスで励起されるマイクロリング共振器の重要な例に、この厳密な解を適用する。 私たちが導いた表現は、失われた空洞のCVエンタングルメントを最適化するのに役立ちます。

Continuous-variable (CV) entanglement is a valuable resource in the field of quantum information. One source of CV entanglement is the correlations between the position and momentum of photons in a two-mode squeezed state of light. In this paper, we theoretically study the generation of squeezed states, via spontaneous parametric downconversion (SPDC), inside a two-mode lossy cavity that is pumped with a classical optical pulse. The dynamics of the density operator in the cavity is modelled using the Lindblad master equation, and we show that the exact solution to this model is the density operator for a two-mode squeezed thermal state, with a time-dependent squeezing amplitude and average thermal photon number for each mode. We derive an expression for the maximum entanglement inside the cavity that depends crucially on the difference in the losses between the two modes. We apply our exact solution to the important example of a microring resonator that is pumped with a Gaussian pulse. The expressions that we derive will help researchers optimize CV entanglement in lossy cavities.
翻訳日:2023-04-22 07:38:37 公開日:2020-12-02
# Opytimizer: 自然にヒントを得たPythonオプティマイザ

Opytimizer: A Nature-Inspired Python Optimizer ( http://arxiv.org/abs/1912.13002v2 )

ライセンス: Link先を確認
Gustavo H. de Rosa, Douglas Rodrigues, Jo\~ao P. Papa(参考訳) 最適化は、特定の問題を解決するために実行可能なパラメータセットを選択することを目的としており、運用研究、機械学習の微調整、制御工学など、幅広いアプリケーションに適用されている。 それにもかかわらず、従来の反復最適化手法は勾配とヘッセン性の評価を用いて解を求めるが、計算負荷や非凸関数を扱う際には実用的ではない。 メタヒューリスティックス(meta-heuristics)として知られる最近の生物学的にインスパイアされた手法は、これらの問題を解決しようとする試みで生じた。 最適な解を見つけることは保証されていないが、通常は適切な解を見つける。 本稿では,Python ベースのメタヒューリスティック最適化フレームワーク Opytimizer を提案する。 いくつかのメソッドやクラスが実装され、進化的からスワムベースの技術まで、様々なメタヒューリスティックな分野のユーザフレンドリーなワークスペースを提供する。

Optimization aims at selecting a feasible set of parameters in an attempt to solve a particular problem, being applied in a wide range of applications, such as operations research, machine learning fine-tuning, and control engineering, among others. Nevertheless, traditional iterative optimization methods use the evaluation of gradients and Hessians to find their solutions, not being practical due to their computational burden and when working with non-convex functions. Recent biological-inspired methods, known as meta-heuristics, have arisen in an attempt to fulfill these problems. Even though they do not guarantee to find optimal solutions, they usually find a suitable solution. In this paper, we proposed a Python-based meta-heuristic optimization framework denoted as Opytimizer. Several methods and classes are implemented to provide a user-friendly workspace among diverse meta-heuristics, ranging from evolutionary- to swarm-based techniques.
翻訳日:2023-01-17 02:15:24 公開日:2020-12-02
# 画像エントロピーを用いた病理スライドの資源・資源分類と解析

Resource-Frugal Classification and Analysis of Pathology Slides Using Image Entropy ( http://arxiv.org/abs/2002.07621v3 )

ライセンス: Link先を確認
Steven J. Frank(参考訳) 肺腫瘍の病態スライドは、モバイルデバイスにデプロイされる可能性のあるリソースフルーガル畳み込みニューラルネットワーク(CNN)を用いて分類される。 特に,腺癌 (LUAD) と扁平上皮癌 (LUSC) を鑑別する課題は, 2段階に分けて検討する。 まず、CNN解析には大きすぎるが、重要な解剖学的詳細を保持するのに十分な大きさである。 ダウンサンプリングされた画像はより小さな四角いタイルに分解され、画像エントロピーに基づいてふるいにかけられる。 軽量CNNは、スライドを分類するために集約されたタイルレベルの分類を生成する。 結果として得られた精度は、より複雑なCNNとより大きなトレーニングセットで得られたものと同等である。 臨床医が分類の基礎を視覚的に評価できるようにするため、すなわち、色分けされた確率マップが、タイルの重なり合い、タイルレベルの確率をピクセルレベルで平均化することによって生成される。

Pathology slides of lung malignancies are classified using resource-frugal convolution neural networks (CNNs) that may be deployed on mobile devices. In particular, the challenging task of distinguishing adenocarcinoma (LUAD) and squamous-cell carcinoma (LUSC) lung cancer subtypes is approached in two stages. First, whole-slide histopathology images are downsampled to a size too large for CNN analysis but large enough to retain key anatomic detail. The downsampled images are decomposed into smaller square tiles, which are sifted based on their image entropies. A lightweight CNN produces tile-level classifications that are aggregated to classify the slide. The resulting accuracies are comparable to those obtained with much more complex CNNs and larger training sets. To allow clinicians to visually assess the basis for the classification -- that is, to see the image regions that underlie it -- color-coded probability maps are created by overlapping tiles and averaging the tile-level probabilities at a pixel level.
翻訳日:2022-12-31 18:26:13 公開日:2020-12-02
# ランダムグラフに基づくニューラルネットワークの解析

Analyzing Neural Networks Based on Random Graphs ( http://arxiv.org/abs/2002.08104v3 )

ライセンス: Link先を確認
Romuald A. Janik and Aleksandra Nowak(参考訳) 様々なタイプのランダムグラフに対応するアーキテクチャを持つニューラルネットワークの大規模評価を行う。 ニューラルネットワークテストの精度とグラフの構造的および数値的性質について検討した。 古典的な数値グラフ不変量は、それ自体が最良のネットワークを選び出すことができない。 そこで,本論文では,最も高性能なネットワークにおいて多数派を占める準1次元グラフの組を選択する新しい数値グラフ特性を提案する。 また、主に短距離接続を持つネットワークは、多くの長距離接続が可能なネットワークよりも性能が良いことも見出した。 さらに、多くの分解能低下経路が有用である。 https://github.com/rmldj/random-graph-nn-paperで1020グラフのデータセットと対応するニューラルネットワークのテスト精度を提供する。

We perform a massive evaluation of neural networks with architectures corresponding to random graphs of various types. We investigate various structural and numerical properties of the graphs in relation to neural network test accuracy. We find that none of the classical numerical graph invariants by itself allows to single out the best networks. Consequently, we introduce a new numerical graph characteristic that selects a set of quasi-1-dimensional graphs, which are a majority among the best performing networks. We also find that networks with primarily short-range connections perform better than networks which allow for many long-range connections. Moreover, many resolution reducing pathways are beneficial. We provide a dataset of 1020 graphs and the test accuracies of their corresponding neural networks at https://github.com/rmldj/random-graph-nn-paper
翻訳日:2022-12-30 12:50:31 公開日:2020-12-02
# BlockGAN: ラベルのない画像から3Dオブジェクト認識のシーン表現を学習する

BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images ( http://arxiv.org/abs/2002.08988v4 )

ライセンス: Link先を確認
Thu Nguyen-Phuoc, Christian Richardt, Long Mai, Yong-Liang Yang, Niloy Mitra(参考訳) 本研究では,2次元画像から物体認識された3次元シーン表現を直接学習する画像生成モデルblockganを提案する。 現在のシーン表現学習の作業は、シーンの背景を無視したり、シーン全体を1つのオブジェクトとして扱う。 一方、シーン構成性を考慮する作業は、シーンオブジェクトを画像パッチまたはアルファマップを持つ2dレイヤとしてのみ扱う。 コンピュータグラフィックスパイプラインにインスパイアされた私たちは、BlockGANを設計し、まず背景と前景オブジェクトの3D機能を生成し、それらをシーン全体の3D機能に組み合わせ、最終的にそれらをリアルなイメージにレンダリングする。 これによりBlockGANは、影や照明などのオブジェクトの外観の排他的相互作用を推論し、画像リアリズムを維持しながら、各オブジェクトの3Dポーズとアイデンティティを制御することができる。 BlockGANはエンドツーエンドでトレーニングされており、3Dジオメトリ、ポーズラベル、オブジェクトマスク、同じシーンの複数のビューを必要とせずに、ラベルのない単一のイメージのみを使用する。 実験の結果,オブジェクトを表すために明示的な3D特徴を用いることで,オブジェクト(背景と背景)とそれらの特性(目的と同一性)の両方において,不整合表現を学習できることがわかった。

We present BlockGAN, an image generative model that learns object-aware 3D scene representations directly from unlabelled 2D images. Current work on scene representation learning either ignores scene background or treats the whole scene as one object. Meanwhile, work that considers scene compositionality treats scene objects only as image patches or 2D layers with alpha maps. Inspired by the computer graphics pipeline, we design BlockGAN to learn to first generate 3D features of background and foreground objects, then combine them into 3D features for the wholes cene, and finally render them into realistic images. This allows BlockGAN to reason over occlusion and interaction between objects' appearance, such as shadow and lighting, and provides control over each object's 3D pose and identity, while maintaining image realism. BlockGAN is trained end-to-end, using only unlabelled single images, without the need for 3D geometry, pose labels, object masks, or multiple views of the same scene. Our experiments show that using explicit 3D features to represent objects allows BlockGAN to learn disentangled representations both in terms of objects (foreground and background) and their properties (pose and identity).
翻訳日:2022-12-30 07:51:52 公開日:2020-12-02
# 特定家族観測装置の最大原因

Maximal Causes for Exponential Family Observables ( http://arxiv.org/abs/2003.02214v2 )

ライセンス: Link先を確認
S. Hamid Mousavi, Jakob Drefs, Florian Hirschberger, J\"org L\"ucke(参考訳) 潜時変数モデルは、観測された変数を潜時変数の集合のパラメータ化関数として表現する。 例えば、重み付き線形和を仮定して可観測値のガウス分布の平均を決定する因子分析や確率的スパース符号化がある。 しかし、多くの場合、可観測性は正規分布に従わず、潜在性の線形和はしばしば非ガウス可観測性と相反する(例えば、ベルヌーイ分布の手段は単位区間に存在しなければならない)。 さらに、線形和モデルの仮定は(多くの種類のデータに対して)ガウス観測可能量に対しても真のデータ生成プロセスと密に一致しないかもしれない。 それゆえ、代替重ね合わせモデル(すなわち、潜在子と可観測子の間の代替リンク)が繰り返し検討されている。 ここでは、ラテントをオブザーバブルにリンクする和の代わりに最大化を用いることで、パラメータ更新方程式の非常に一般的で簡潔な集合を導出できることを示す。 具体的には、指数族の全分布に対して同じ関数形式を持つ更新方程式の集合を導出する。 その結果, 正規分布データだけでなく, 直接適用可能な学習方程式が得られた。 我々は,標準ガウス分布,ガンマ分布,ポアソン分布,ベルヌーイ分布および指数分布を仮定して解析結果を数値的に検証する。 分散構造の学習,ノイズタイプ推定,デノジングについて異なる実験を行い,応用の可能性を示す。

Latent variable models represent observed variables as parameterized functions of a set of latent variables. Examples are factor analysis or probabilistic sparse coding which assume weighted linear summations to determine the mean of Gaussian distribution for the observables. However, in many cases observables do not follow a normal distribution, and a linear summation of latents is often at odds with non-Gaussian observables (e.g., means of the Bernoulli distribution have to lie in the unit interval). Furthermore, the assumption of a linear summation model may (for many types of data) not be closely aligned with the true data generation process even for Gaussian observables. Alternative superposition models (i.e., alternative links between latents and observables) have therefore been investigated repeatedly. Here we show that using the maximization instead of summation to link latents to observables allows for the derivation of a very general and concise set of parameter update equations. Concretely, we derive a set of update equations that has the same functional form for all distributions of the exponential family. Our results consequently provide directly applicable learning equations for commonly as well as for unusually distributed data. We numerically verify our analytical results assuming standard Gaussian, Gamma, Poisson, Bernoulli and Exponential distributions. We point to some potential applications by providing different experiments on the learning of variance structure, noise type estimation, and denoising.
翻訳日:2022-12-26 12:22:35 公開日:2020-12-02
# 楕円過程:脂肪尾確率過程の一家系

The Elliptical Processes: a Family of Fat-tailed Stochastic Processes ( http://arxiv.org/abs/2003.07201v2 )

ライセンス: Link先を確認
Maria B{\aa}nkestad, Jens Sj\"olund, Jalil Taghia, Thomas Sch\"on(参考訳) 我々は、ガウス過程と学生-t過程を仮定する非パラメトリック確率モデルの集合である楕円過程を提示する。 この一般化には、計算的トラクタビリティを維持しない、新しい脂肪尾挙動を含む。 楕円過程を,ガウス分布の連続的混合として楕円分布の表現を基礎とし,境界分布と条件分布の閉形式表現を導出する。 分割定数混合分布によって定義される楕円過程を用いてロバスト回帰に関する数値実験を行い,ガウス過程と比較して有利性を示す。 楕円過程は、確率がガウス的でない場合や正確な尾のモデリングが重要である場合など、いくつかの設定でガウス的過程の代替となる。

We present the elliptical processes -- a family of non-parametric probabilistic models that subsumes the Gaussian process and the Student-t process. This generalization includes a range of new fat-tailed behaviors yet retains computational tractability. We base the elliptical processes on a representation of elliptical distributions as a continuous mixture of Gaussian distributions and derive closed-form expressions for the marginal and conditional distributions. We perform numerical experiments on robust regression using an elliptical process defined by a piecewise constant mixing distribution, and show advantages compared with a Gaussian process. The elliptical processes may become a replacement for Gaussian processes in several settings, including when the likelihood is not Gaussian or when accurate tail modeling is critical.
翻訳日:2022-12-24 01:31:52 公開日:2020-12-02
# 信頼度検出による胸部X線画像のウイルス性肺炎検診

Viral Pneumonia Screening on Chest X-ray Images Using Confidence-Aware Anomaly Detection ( http://arxiv.org/abs/2003.12338v4 )

ライセンス: Link先を確認
Jianpeng Zhang, Yutong Xie, Guansong Pang, Zhibin Liao, Johan Verjans, Wenxin Li, Zongji Sun, Jian He, Yi Li, Chunhua Shen, Yong Xia(参考訳) 短期間に流行するウイルス性肺炎の集団は、SARS、MERS、最近のCOVID-19のような流行やパンデミックの発端となる可能性がある。 胸部x線によるウイルス性肺炎の迅速かつ正確な検出は, 検診, 感染予防, 特に胸部画像診断が不十分な場合には有意義な有用である。 ウイルス性肺炎はしばしば多彩な原因を持ち、X線画像に顕著な視覚的外観を示す。 ウイルスの進化と新しい変異したウイルスの出現により、データセットが大幅にシフトし、分類アプローチの性能が大幅に制限される。 本稿では,ウイルス性肺炎と非ウイルス性肺炎との鑑別と健康管理の課題を1つの分類に基づく異常検出問題に定式化し,共有特徴抽出器,異常検出モジュール,信頼度予測モジュールからなる信頼度アウェア異常検出(caad)モデルを提案する。 異常検出モジュールが生成する異常スコアが十分に大きいか、信頼度予測モジュールによって推定される信頼度スコアが十分に小さい場合は、入力を異常症例(すなわちウイルス性肺炎)として受け入れる。 二分分類に対する我々のアプローチの主な利点は、個々のウイルス性肺炎クラスを明示的にモデル化することを避け、すべての既知のウイルス性肺炎症例を1クラスモデルを強化する異常として扱うことである。 提案モデルでは, ウイルス性肺炎5,977例, 非ウイルス性肺炎18,619例, 健康管理18,774例を含む臨床X-VIRALデータセットのバイナリ分類モデルより優れていた。

Cluster of viral pneumonia occurrences during a short period of time may be a harbinger of an outbreak or pandemic, like SARS, MERS, and recent COVID-19. Rapid and accurate detection of viral pneumonia using chest X-ray can be significantly useful in large-scale screening and epidemic prevention, particularly when other chest imaging modalities are less available. Viral pneumonia often have diverse causes and exhibit notably different visual appearances on X-ray images. The evolution of viruses and the emergence of novel mutated viruses further result in substantial dataset shift, which greatly limits the performance of classification approaches. In this paper, we formulate the task of differentiating viral pneumonia from non-viral pneumonia and healthy controls into an one-class classification-based anomaly detection problem, and thus propose the confidence-aware anomaly detection (CAAD) model, which consists of a shared feature extractor, an anomaly detection module, and a confidence prediction module. If the anomaly score produced by the anomaly detection module is large enough or the confidence score estimated by the confidence prediction module is small enough, we accept the input as an anomaly case (i.e., viral pneumonia). The major advantage of our approach over binary classification is that we avoid modeling individual viral pneumonia classes explicitly and treat all known viral pneumonia cases as anomalies to reinforce the one-class model. The proposed model outperforms binary classification models on the clinical X-VIRAL dataset that contains 5,977 viral pneumonia (no COVID-19) cases, 18,619 non-viral pneumonia cases, and 18,774 healthy controls.
翻訳日:2022-12-19 05:31:36 公開日:2020-12-02
# スパイク・アンド・スラブ前駆によるベイズ線形回帰の可変融合

Variable fusion for Bayesian linear regression via spike-and-slab priors ( http://arxiv.org/abs/2003.13299v3 )

ライセンス: Link先を確認
Shengyi Wu, Kaito Shimamura, Kohei Yoshikawa, Kazuaki Murayama, Shuichi Kawano(参考訳) 線形回帰モデルでは、係数の融合は応答と類似した関係を持つ予測器を特定するために用いられる。 これを変数融合と呼ぶ。 本稿では,ベイズ線形回帰モデルを用いた新しい変数融合法を提案する。 スパイク・アンド・スラブの先行アプローチに基づく階層ベイズモデルに焦点を当てる。 スパイク・アンド・スラブプリアを調整して可変融合を行う。 パラメータを推定するために,パラメータに対するギブスサンプリング器を開発する。 シミュレーション研究と実データ解析により,提案手法が従来の手法よりも優れた性能が得られることを示す。

In linear regression models, fusion of coefficients is used to identify predictors having similar relationships with a response. This is called variable fusion. This paper presents a novel variable fusion method in terms of Bayesian linear regression models. We focus on hierarchical Bayesian models based on a spike-and-slab prior approach. A spike-and-slab prior is tailored to perform variable fusion. To obtain estimates of the parameters, we develop a Gibbs sampler for the parameters. Simulation studies and a real data analysis show that our proposed method achieves better performance than previous methods.
翻訳日:2022-12-18 08:21:10 公開日:2020-12-02
# Longformer: Long-Document Transformer

Longformer: The Long-Document Transformer ( http://arxiv.org/abs/2004.05150v2 )

ライセンス: Link先を確認
Iz Beltagy and Matthew E. Peters and Arman Cohan(参考訳) トランスフォーマーベースのモデルでは、シーケンス長と2次スケールの自己アテンション操作のため、長いシーケンスを処理できない。 この制限に対処するために,配列長と線形にスケールするアテンション機構を備えたlongformerを導入することで,数千以上のトークンのドキュメントの処理が容易になる。 Longformerのアテンションメカニズムは、標準的な自己アテンションをドロップインで置き換えることであり、ローカルウィンドウアテンションとグローバルアテンションを動機付けるタスクを組み合わせる。 長周期変換器の先行研究に続いて,文字レベルの言語モデル上でLongformerを評価し,text8 と enwik8 で最先端の結果を得る。 以前の作業とは対照的に、Longformerを事前訓練し、さまざまな下流タスクで微調整します。 我々の事前学習したLongformerは、長いドキュメントタスクでRoBERTaを一貫して上回り、WikiHopとTriviaQAで最新の結果を設定します。 最終的に、Longformer-Encoder-Decoder (LED) を導入し、arXivの要約データセット上で、長文生成シーケンス・シーケンスタスクをサポートするLongformer variantを紹介した。

Transformer-based models are unable to process long sequences due to their self-attention operation, which scales quadratically with the sequence length. To address this limitation, we introduce the Longformer with an attention mechanism that scales linearly with sequence length, making it easy to process documents of thousands of tokens or longer. Longformer's attention mechanism is a drop-in replacement for the standard self-attention and combines a local windowed attention with a task motivated global attention. Following prior work on long-sequence transformers, we evaluate Longformer on character-level language modeling and achieve state-of-the-art results on text8 and enwik8. In contrast to most prior work, we also pretrain Longformer and finetune it on a variety of downstream tasks. Our pretrained Longformer consistently outperforms RoBERTa on long document tasks and sets new state-of-the-art results on WikiHop and TriviaQA. We finally introduce the Longformer-Encoder-Decoder (LED), a Longformer variant for supporting long document generative sequence-to-sequence tasks, and demonstrate its effectiveness on the arXiv summarization dataset.
翻訳日:2022-12-14 21:04:26 公開日:2020-12-02
# アクティブラーニングによる健康の社会的要因の注釈とニューラルイベント抽出による要因の識別

Annotating Social Determinants of Health Using Active Learning, and Characterizing Determinants Using Neural Event Extraction ( http://arxiv.org/abs/2004.05438v2 )

ライセンス: Link先を確認
Kevin Lybarger, Mari Ostendorf, Meliha Yetisgen(参考訳) 健康の社会的決定因子(SDOH)は健康結果に影響を与え、SDOHの知識は臨床的意思決定に影響を及ぼす。 臨床テキストからSDOH情報を自動抽出するには、異種でしばしば重要なSDOHを含む注釈付きコーパスで訓練されたデータ駆動情報抽出モデルが必要である。 本研究は,SDOHアノテーションを用いた新しいコーパス,新しいアクティブラーニングフレームワーク,新しいコーパスにおける最初の抽出結果を示す。 社会史注釈コーパス(SHAC)には4,480の社会史セクションがあり、18Kの異なる出来事の状況、範囲、時間的情報を特徴づける12のSDOHに関する詳細な注釈がある。 本稿では,より複雑なイベント抽出タスクのプロキシとして,サロゲートテキスト分類タスクを用いてアノテーション用サンプルを選択する,新しいアクティブラーニングフレームワークを提案する。 アクティブラーニングフレームワークは、健康リスク要因の頻度を高め、非ダイレクトアノテーションによるこれらのイベントの自動抽出を改善する。 SHACを用いたイベント抽出モデルでは,3施設のデータから,物質使用状況(0.82-0.93 F1),雇用状況(0.81-0.86 F1),生活状況(0.81-0.93 F1)の抽出性能が高い。

Social determinants of health (SDOH) affect health outcomes, and knowledge of SDOH can inform clinical decision-making. Automatically extracting SDOH information from clinical text requires data-driven information extraction models trained on annotated corpora that are heterogeneous and frequently include critical SDOH. This work presents a new corpus with SDOH annotations, a novel active learning framework, and the first extraction results on the new corpus. The Social History Annotation Corpus (SHAC) includes 4,480 social history sections with detailed annotation for 12 SDOH characterizing the status, extent, and temporal information of 18K distinct events. We introduce a novel active learning framework that selects samples for annotation using a surrogate text classification task as a proxy for a more complex event extraction task. The active learning framework successfully increases the frequency of health risk factors and improves automatic extraction of these events over undirected annotation. An event extraction model trained on SHAC achieves high extraction performance for substance use status (0.82-0.93 F1), employment status (0.81-0.86 F1), and living status type (0.81-0.93 F1) on data from three institutions.
翻訳日:2022-12-14 10:09:19 公開日:2020-12-02
# 機械学習における逐次仮説テストと原油価格ジャンプサイズ検出

Sequential hypothesis testing in machine learning, and crude oil price jump size detection ( http://arxiv.org/abs/2004.08889v3 )

ライセンス: Link先を確認
Michael Roberts, Indranil SenGupta(参考訳) 本稿では,一般的なジャンプサイズ分布の検出のための逐次仮説テストを提案する。 対応する対数類似比に対する無限小生成器を提示して解析する。 超解法と亜解法の観点から無限小発生器の境界を計算する。 これは原油価格データセットの様々な分類問題に関連して実装可能であることが示されている。 機械および深層学習アルゴリズムを用いて原油データセットから特定の決定論的成分を抽出し、その決定論的成分を用いて、デリバティブおよび商品市場分析によく用いられる確率モデルであるバーンドルフ・ニールセン・シェパードモデルを改善する。

In this paper we present a sequential hypothesis test for the detection of general jump size distrubution. Infinitesimal generators for the corresponding log-likelihood ratios are presented and analyzed. Bounds for infinitesimal generators in terms of super-solutions and sub-solutions are computed. This is shown to be implementable in relation to various classification problems for a crude oil price data set. Machine and deep learning algorithms are implemented to extract a specific deterministic component from the crude oil data set, and the deterministic component is implemented to improve the Barndorff-Nielsen and Shephard model, a commonly used stochastic model for derivative and commodity market analysis.
翻訳日:2022-12-12 00:30:26 公開日:2020-12-02
# SensitiveLoss: 識別型深層学習による顔表現の精度と公正性の向上

SensitiveLoss: Improving Accuracy and Fairness of Face Representations with Discrimination-Aware Deep Learning ( http://arxiv.org/abs/2004.11246v2 )

ライセンス: Link先を確認
Ignacio Serna, Aythami Morales, Julian Fierrez, Manuel Cebrian, Nick Obradovich, and Iyad Rahwan(参考訳) 偏見認識アルゴリズムの精度と公平性を両立させる識別認識学習法を提案する。 最も人気のある顔認識ベンチマークは、人口統計特性に注意を払わずに被験者の分布を推定する。 本研究では,ディープラーニングに基づく顔認識の包括的識別認識実験を行う。 また, 顔バイオメトリックスへの応用により, アルゴリズム識別の一般的な定式化を提案する。 この実験には、木々人気の顔認識モデルと、性別と民族を特徴とする異なる人口集団の64,000のアイデンティティからなる3つのパブリックデータベースが含まれる。 実験により,最もよく使われる顔データベースに基づく学習プロセスが,強いアルゴリズム的識別を示す一般的な事前学習された深層顔モデルにつながったことを示す。 そこで我々は,人気三重項損失関数と感性三重項生成器に基づく識別認識学習手法であるSensitive Lossを提案する。 提案手法は,事前学習ネットワークへのアドオンとして機能し,平均精度と公平性の観点から性能向上に有効である。 この方法は最先端のデバイアスネットワークに匹敵する結果を示し、自動システムによる差別的効果を防止するための一歩を示している。

We propose a discrimination-aware learning method to improve both accuracy and fairness of biased face recognition algorithms. The most popular face recognition benchmarks assume a distribution of subjects without paying much attention to their demographic attributes. In this work, we perform a comprehensive discrimination-aware experimentation of deep learning-based face recognition. We also propose a general formulation of algorithmic discrimination with application to face biometrics. The experiments include tree popular face recognition models and three public databases composed of 64,000 identities from different demographic groups characterized by gender and ethnicity. We experimentally show that learning processes based on the most used face databases have led to popular pre-trained deep face models that present a strong algorithmic discrimination. We finally propose a discrimination-aware learning method, Sensitive Loss, based on the popular triplet loss function and a sensitive triplet generator. Our approach works as an add-on to pre-trained networks and is used to improve their performance in terms of average accuracy and fairness. The method shows results comparable to state-of-the-art de-biasing networks and represents a step forward to prevent discriminatory effects by automatic systems.
翻訳日:2022-12-10 18:52:31 公開日:2020-12-02
# ランク付けの偏りのない学習: オンラインかオフラインか?

Unbiased Learning to Rank: Online or Offline? ( http://arxiv.org/abs/2004.13574v3 )

ライセンス: Link先を確認
Qingyao Ai, Tao Yang, Huazheng Wang, Jiaxin Mao(参考訳) 偏りのあるユーザフィードバックでランク付けすることを学ぶことで、偏りのないランキングモデルを得る方法は、IRにとって重要な研究課題である。 unbiased learning to rank (ultr) に関する既存の研究は、ログ付きデータを用いた非バイアス学習アルゴリズム、すなわち \textit{offline} unbiased learning の研究と、リアルタイムユーザインタラクションによる非バイアスパラメータ推定、すなわち \textit{online} learning to rank の2つのグループに大別することができる。 定義は異なるが、これらの2種類のULTRアルゴリズムは同じ目標を共有し、本質的な関連性や有用性に基づいてドキュメントをランク付けする最良のモデルを見つける。 しかし、オフライン・オンライン・アンバイアスド・ラーニングのランク付けに関するほとんどの研究は、その背景理論と経験的性能を詳細に比較することなく、並列に行われている。 本稿では,非偏り学習の課題をランク付けし,オフライン非偏り学習とオンライン学習をランク付けするための既存のアルゴリズムが同一コインの2つの側面であることを示す。 我々は6つの最先端ultrアルゴリズムを評価し,そのほとんどがオフライン設定とオンライン環境の両方で,小さな変更を加えることなく利用可能であることを確認した。 さらに、オフラインとオンラインの学習パラダイムの違いが、合成データと実検索データの両方において、各アルゴリズムの理論的基礎と経験的効果に与える影響を分析する。 ULTRアルゴリズムを実際に選択およびデプロイするための重要な洞察とガイドラインを提供することができた。

How to obtain an unbiased ranking model by learning to rank with biased user feedback is an important research question for IR. Existing work on unbiased learning to rank (ULTR) can be broadly categorized into two groups -- the studies on unbiased learning algorithms with logged data, namely the \textit{offline} unbiased learning, and the studies on unbiased parameters estimation with real-time user interactions, namely the \textit{online} learning to rank. While their definitions of \textit{unbiasness} are different, these two types of ULTR algorithms share the same goal -- to find the best models that rank documents based on their intrinsic relevance or utility. However, most studies on offline and online unbiased learning to rank are carried in parallel without detailed comparisons on their background theories and empirical performance. In this paper, we formalize the task of unbiased learning to rank and show that existing algorithms for offline unbiased learning and online learning to rank are just the two sides of the same coin. We evaluate six state-of-the-art ULTR algorithms and find that most of them can be used in both offline settings and online environments with or without minor modifications. Further, we analyze how different offline and online learning paradigms would affect the theoretical foundation and empirical effectiveness of each algorithm on both synthetic and real search data. Our findings could provide important insights and guideline for choosing and deploying ULTR algorithms in practice.
翻訳日:2022-12-08 23:44:25 公開日:2020-12-02
# 網膜疾患診断における人工知能バイアスの対応

Addressing Artificial Intelligence Bias in Retinal Disease Diagnostics ( http://arxiv.org/abs/2004.13515v4 )

ライセンス: Link先を確認
Philippe Burlina, Neil Joshi, William Paul, Katia D. Pacheco, Neil M. Bressler(参考訳) 本研究では、トレーニングデータ不均衡に起因する糖尿病網膜症(DR)の診断や、まだトレーニングされていないテスト/推論時に深層学習システム(DLS)が概念に直面するドメイン一般化において、AIバイアスを緩和する生成手法の評価を行った。 The public domain Kaggle-EyePACS dataset (88,692 fundi and 44,346 individuals, originally diverse for ethnicity) was modified by adding clinician-annotated labels and constructing an artificial scenario of data imbalance and domain generalization by disallowing training (but not testing) exemplars for images of retinas with DR warranting referral (DR-referable) and from darker-skin individuals, who presumably have greater concentration of melanin within uveal melanocytes, on average, contributing to retinal image pigmentation. 従来の/ベースライン診断dlsは、デバイアスのために生成モデルによって拡張されたトレーニングデータを使用する新しいdlssと比較された。 足底画像のベースライン診断の精度(95%信頼区間[CI])は73.0%(66.9%、79.2%)、60.5%(53.5%、67.3%)、偏差/偏差(デルタ=12.5%)を示す(Welch t-test t=2.670、P=.008)。 不足したサブポピュレーショントレーニングデータ(DR-referable darker-skin)に対処する新しい生成法を使用することで、軽量皮膚では72.0%(65.8%、78.2%)、ダークスキンでは71.5%(65.2%、77.8%)の精度を達成した。 その結果、データの不均衡とドメインの一般化は、サブ集団間の精度のばらつきを招き、新しい合成眼底画像生成法がaiのデバイアスに寄与する可能性が示された。

This study evaluated generative methods to potentially mitigate AI bias when diagnosing diabetic retinopathy (DR) resulting from training data imbalance, or domain generalization which occurs when deep learning systems (DLS) face concepts at test/inference time they were not initially trained on. The public domain Kaggle-EyePACS dataset (88,692 fundi and 44,346 individuals, originally diverse for ethnicity) was modified by adding clinician-annotated labels and constructing an artificial scenario of data imbalance and domain generalization by disallowing training (but not testing) exemplars for images of retinas with DR warranting referral (DR-referable) and from darker-skin individuals, who presumably have greater concentration of melanin within uveal melanocytes, on average, contributing to retinal image pigmentation. A traditional/baseline diagnostic DLS was compared against new DLSs that would use training data augmented via generative models for debiasing. Accuracy (95% confidence intervals [CI]) of the baseline diagnostics DLS for fundus images of lighter-skin individuals was 73.0% (66.9%, 79.2%) vs. darker-skin of 60.5% (53.5%, 67.3%), demonstrating bias/disparity (delta=12.5%) (Welch t-test t=2.670, P=.008) in AI performance across protected subpopulations. Using novel generative methods for addressing missing subpopulation training data (DR-referable darker-skin) achieved instead accuracy, for lighter-skin, of 72.0% (65.8%, 78.2%), and for darker-skin, of 71.5% (65.2%,77.8%), demonstrating closer parity (delta=0.5%) in accuracy across subpopulations (Welch t-test t=0.111, P=.912). Findings illustrate how data imbalance and domain generalization can lead to disparity of accuracy across subpopulations, and show that novel generative methods of synthetic fundus images may play a role for debiasing AI.
翻訳日:2022-12-08 22:34:24 公開日:2020-12-02
# global table extractor (gte): 視覚的コンテキストを用いた共同テーブル識別と細胞構造認識のためのフレームワーク

Global Table Extractor (GTE): A Framework for Joint Table Identification and Cell Structure Recognition Using Visual Context ( http://arxiv.org/abs/2005.00589v2 )

ライセンス: Link先を確認
Xinyi Zheng, Doug Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang(参考訳) 文書はビジネスや科学における知識の共有や保存によく使われ、その中に重要なデータの大半をキャプチャする表がある。 残念なことに、ほとんどの文書はPDFやスキャンされた画像として保存され配布され、論理テーブル構造を保存できない。 このギャップに対処するために、近年の視覚に基づくディープラーニングアプローチが提案されているが、ほとんどの場合、最先端の結果は得られていない。 我々は,任意のオブジェクト検出モデル上に構築可能な,共同テーブル検出とセル構造認識のための視覚誘導型システムフレームワークであるGTE(Global Table Extractor)を提案する。 GTE-Tableでは,テーブルの自然セル封じ込め制約に基づく新たなペナルティを考案し,セル位置予測によるテーブルネットワークのトレーニングを行う。 GTE-Cellはテーブルスタイルを活用する新しい階層型細胞検出ネットワークである。 さらに,既存の文書の表やセル構造を自動的にラベル付けして,大規模なトレーニングデータとテストデータのコーパスを安価に作成する手法を設計する。 私たちはこれを使って、細胞ラベル付きpubtabnetを拡張し、fintabnet、実世界および複雑な科学および金融データセットを詳細なテーブル構造アノテーションで作成し、構造認識のトレーニングとテストを支援します。 ICDAR 2013 と ICDAR 2019 のテーブル検出とセル構造認識の両コンペティションにおいて,本フレームワークはこれまでの成果を上回り,全テーブル抽出システムでは5.8%向上した。 さらに、新たなドメイン外FinTabNetのバニラRetinaNetオブジェクト検出モデルと比較して、細胞構造認識の45%以上の改善が示されている。

Documents are often used for knowledge sharing and preservation in business and science, within which are tables that capture most of the critical data. Unfortunately, most documents are stored and distributed as PDF or scanned images, which fail to preserve logical table structure. Recent vision-based deep learning approaches have been proposed to address this gap, but most still cannot achieve state-of-the-art results. We present Global Table Extractor (GTE), a vision-guided systematic framework for joint table detection and cell structured recognition, which could be built on top of any object detection model. With GTE-Table, we invent a new penalty based on the natural cell containment constraint of tables to train our table network aided by cell location predictions. GTE-Cell is a new hierarchical cell detection network that leverages table styles. Further, we design a method to automatically label table and cell structure in existing documents to cheaply create a large corpus of training and test data. We use this to enhance PubTabNet with cell labels and create FinTabNet, real-world and complex scientific and financial datasets with detailed table structure annotations to help train and test structure recognition. Our framework surpasses previous state-of-the-art results on the ICDAR 2013 and ICDAR 2019 table competition in both table detection and cell structure recognition with a significant 5.8% improvement in the full table extraction system. Further experiments demonstrate a greater than 45% improvement in cell structure recognition when compared to a vanilla RetinaNet object detection model in our new out-of-domain FinTabNet.
翻訳日:2022-12-08 00:12:42 公開日:2020-12-02
# 辞書学習,分節化,クラスタリングのためのロバストな非線形行列分解

Robust Non-Linear Matrix Factorization for Dictionary Learning, Denoising, and Clustering ( http://arxiv.org/abs/2005.01317v2 )

ライセンス: Link先を確認
Jicong Fan, Chengrun Yang, Madeleine Udell(参考訳) コンピュータビジョンと機械学習にまたがるデータセットの低次元非線形構造 十分に大きな特徴空間における行列の像が低ランクであることを観察することにより,これらの非線形構造を学習し,識別,分類,辞書学習,欠落データ計算が提案されている。 しかし、これらの非線形手法はスパースノイズや外れ値の存在下では失敗する。 本研究では,ロバスト非線形行列分解 (RNLMF) と呼ばれる新しいロバスト非線形分解法を提案する。 RNLMFは、核化された特徴空間を分解してデータ空間の辞書を構築し、ノイズ行列はスパースノイズ行列と低次元の非線形多様体に属するクリーンデータ行列の和として分解することができる。 RNLMFはノイズや外れ値の分離に堅牢で、数千行の列と列を持つ行列にスケールする。 RNLMFは、デノナイズやクラスタリングにおいて、ベースラインメソッドよりも顕著に改善されている。

Low dimensional nonlinear structure abounds in datasets across computer vision and machine learning. Kernelized matrix factorization techniques have recently been proposed to learn these nonlinear structures for denoising, classification, dictionary learning, and missing data imputation, by observing that the image of the matrix in a sufficiently large feature space is low-rank. However, these nonlinear methods fail in the presence of sparse noise or outliers. In this work, we propose a new robust nonlinear factorization method called Robust Non-Linear Matrix Factorization (RNLMF). RNLMF constructs a dictionary for the data space by factoring a kernelized feature space; a noisy matrix can then be decomposed as the sum of a sparse noise matrix and a clean data matrix that lies in a low dimensional nonlinear manifold. RNLMF is robust to sparse noise and outliers and scales to matrices with thousands of rows and columns. Empirically, RNLMF achieves noticeable improvements over baseline methods in denoising and clustering.
翻訳日:2022-12-07 00:10:52 公開日:2020-12-02
# 自動意思決定のためのヒューリスティックベース弱学習

Heuristic-Based Weak Learning for Automated Decision-Making ( http://arxiv.org/abs/2005.02342v3 )

ライセンス: Link先を確認
Ryan Steed, Benjamin Williams(参考訳) 機械学習システムは、多くの利害関係者やユーザグループに影響を与える。 従来の研究では、手動でラベル付けされたペアワイド比較を多量に集めることで、ユーザの好みの相反を和らげてきた。 アルゴリズム設計への参加障壁を低くするにはどうすればいいのか? 参加者に対する簡易なラベル付けタスクを作成する代わりに、影響を受けるユーザの集中的なサンプルから、ランク付けされた意思決定ヒューリスティックを収集することを提案する。 2つのユースケースから得られた経験的データから、我々の弱い学習アプローチは、手動ラベリングをほとんど必要とせず、参加者のペアワイズ選択と完全に教師されたアプローチとほぼ同じ頻度で一致していることを示す。

Machine learning systems impact many stakeholders and groups of users, often disparately. Prior studies have reconciled conflicting user preferences by aggregating a high volume of manually labeled pairwise comparisons, but this technique may be costly or impractical. How can we lower the barrier to participation in algorithm design? Instead of creating a simplified labeling task for a crowd, we suggest collecting ranked decision-making heuristics from a focused sample of affected users. With empirical data from two use cases, we show that our weak learning approach, which requires little to no manual labeling, agrees with participants' pairwise choices nearly as often as fully supervised approaches.
翻訳日:2022-12-06 13:40:42 公開日:2020-12-02
# rTop-k:分散SGDの統計的推定手法

rTop-k: A Statistical Estimation Approach to Distributed SGD ( http://arxiv.org/abs/2005.10761v2 )

ライセンス: Link先を確認
Leighton Pate Barnes, Huseyin A. Inan, Berivan Isik, and Ayfer Ozgur(参考訳) 異なるノード間の勾配を交換するための通信コストは、大規模学習モデルの分散トレーニングのスケーラビリティを著しく制限する。 この観察に動機づけられた最近の研究では、分散確率勾配降下(sgd)の通信コストを削減し、top-kやrandom-kのような勾配スパーシフィケーション技術が特に効果的であることが示されている。 同じ観察は、異なる統計モデルの推定効率に対するコミュニケーション制約の影響に焦点を当てた分散統計推定理論における別の作業線も引き起こしている。 本研究の主な目的は,これらの2つの研究線を接続し,統計的推定モデルとその分析がコミュニケーション効率向上のためのトレーニング手法の設計に新たな洞察をもたらすことを実証することである。 本研究では,分布の疎さと歪さを捉える確率勾配の簡易な統計モデルを提案する。 このモデルの解析から生じる統計的に最適なコミュニケーションスキームは、以前の文献では別々に考慮されるランダムkとトップkを結合するsgdの新しいスパーシフィケーション技術をもたらす。 CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いた画像領域と言語領域の広範な実験により, これら2つのスパーシフィケーション手法の整合的適用が一貫し, それぞれ単独で適用した手法よりも著しく優れていることを示す。

The large communication cost for exchanging gradients between different nodes significantly limits the scalability of distributed training for large-scale learning models. Motivated by this observation, there has been significant recent interest in techniques that reduce the communication cost of distributed Stochastic Gradient Descent (SGD), with gradient sparsification techniques such as top-k and random-k shown to be particularly effective. The same observation has also motivated a separate line of work in distributed statistical estimation theory focusing on the impact of communication constraints on the estimation efficiency of different statistical models. The primary goal of this paper is to connect these two research lines and demonstrate how statistical estimation models and their analysis can lead to new insights in the design of communication-efficient training techniques. We propose a simple statistical estimation model for the stochastic gradients which captures the sparsity and skewness of their distribution. The statistically optimal communication scheme arising from the analysis of this model leads to a new sparsification technique for SGD, which concatenates random-k and top-k, considered separately in the prior literature. We show through extensive experiments on both image and language domains with CIFAR-10, ImageNet, and Penn Treebank datasets that the concatenated application of these two sparsification methods consistently and significantly outperforms either method applied alone.
翻訳日:2022-11-30 23:31:10 公開日:2020-12-02
# 有界合理性に基づく決定と性能--計算ベンチマークによるアプローチ

Decisions and Performance Under Bounded Rationality: A Computational Benchmarking Approach ( http://arxiv.org/abs/2005.12638v2 )

ライセンス: Link先を確認
Dainis Zegners, Uwe Sunde, Anthony Strittmatter(参考訳) 本稿では,プロチェス選手の行動と認知的に有界な合理性の計算ベンチマークを比較した,人間の意思決定の分析手法を提案する。 このベンチマークは、現代のチェスエンジンのアルゴリズムを用いて構築され、個別の移動・移動観測レベルでの挙動を調査できる。 この分析は、この有界合理性ベンチマークから逸脱を分離し、その原因とパフォーマンスに対する結果に新たな洞察を与える。 この結果は、損失と利得、時間圧、疲労、複雑さの点で非対称な位置評価に関係しているいくつかの異なる行動偏差の次元の存在を文書化している。 結果はまた、ベンチマークからの逸脱が必ずしもパフォーマンスを悪化させるわけではないことを文書化している。 より高速な決定は、ベンチマークからより頻繁な逸脱を伴いますが、パフォーマンス向上にも関連しています。 この発見は直感と経験の重要な影響と一致しており、認知過程における計算的合理性に関する最近の議論に新たな光を当てている。

This paper presents a novel approach to analyze human decision-making that involves comparing the behavior of professional chess players relative to a computational benchmark of cognitively bounded rationality. This benchmark is constructed using algorithms of modern chess engines and allows investigating behavior at the level of individual move-by-move observations, thus representing a natural benchmark for computationally bounded optimization. The analysis delivers novel insights by isolating deviations from this benchmark of bounded rationality as well as their causes and consequences for performance. The findings document the existence of several distinct dimensions of behavioral deviations, which are related to asymmetric positional evaluation in terms of losses and gains, time pressure, fatigue, and complexity. The results also document that deviations from the benchmark do not necessarily entail worse performance. Faster decisions are associated with more frequent deviations from the benchmark, yet they are also associated with better performance. The findings are consistent with an important influence of intuition and experience, thereby shedding new light on the recent debate about computational rationality in cognitive processes.
翻訳日:2022-11-29 00:40:37 公開日:2020-12-02
# フォワード市場における電力調達のための人工知能ソリューション

An Artificial Intelligence Solution for Electricity Procurement in Forward Markets ( http://arxiv.org/abs/2006.05784v3 )

ライセンス: Link先を確認
Thibaut Th\'eate, S\'ebastien Mathieu and Damien Ernst(参考訳) 電気小売業者や主要消費者は、概して、将来の市場において、予測される電力需要の重要な割合を購入する。 この長期電気調達タスクは、電力の購入時期を決定し、その結果のエネルギーコストを最小化し、予測消費をカバーできるようにする。 本論文では,ベルギーの先進市場であるカレンダ(CAL)の年間ベースロード製品に焦点をあてる。 本研究は,CAL価格の歴史に基づいて,今,電気を購入するか,将来の機会を待つかを推奨する新しいアルゴリズムを提案する。 このアルゴリズムは、ディープラーニング予測技術と、完全に均一な参照調達ポリシーからの逸脱を定量化する指標に依存する。 提案手法は平均的な電力価格を達成できる完全一様基準調達政策に対して,ベンチマーク調達方針を上回り,1.65%のコスト削減を実現している。 さらに、複雑な電気調達作業の自動化に加えて、このアルゴリズムは長年にわたってより一貫した結果を示す。 最終的に、提示された解の一般性は、他の商品調達問題の解決に適している。

Retailers and major consumers of electricity generally purchase an important percentage of their estimated electricity needs years ahead in the forward market. This long-term electricity procurement task consists of determining when to buy electricity so that the resulting energy cost is minimised, and the forecast consumption is covered. In this scientific article, the focus is set on a yearly base load product from the Belgian forward market, named calendar (CAL), which is tradable up to three years ahead of the delivery period. This research paper introduces a novel algorithm providing recommendations to either buy electricity now or wait for a future opportunity based on the history of CAL prices. This algorithm relies on deep learning forecasting techniques and on an indicator quantifying the deviation from a perfectly uniform reference procurement policy. On average, the proposed approach surpasses the benchmark procurement policies considered and achieves a reduction in costs of 1.65% with respect to the perfectly uniform reference procurement policy achieving the mean electricity price. Moreover, in addition to automating the complex electricity procurement task, this algorithm demonstrates more consistent results throughout the years. Eventually, the generality of the solution presented makes it well suited for solving other commodity procurement problems.
翻訳日:2022-11-23 06:27:17 公開日:2020-12-02
# 深層学習型コンピュータビジョンを無線通信に適用する:方法論,機会,課題

Applying Deep-Learning-Based Computer Vision to Wireless Communications: Methodologies, Opportunities, and Challenges ( http://arxiv.org/abs/2006.05782v4 )

ライセンス: Link先を確認
Yu Tian and Gaofeng Pan and Mohamed-Slim Alouini(参考訳) 深層学習(DL)はコンピュータビジョン(CV)分野で大きな成功を収めており、関連する技術はセキュリティ、医療、リモートセンシングなど多くの分野で使用されている。 並列開発として、ユビキタスローコストカメラによって容易に生成される視覚データが日常的に普遍化されている。 したがって、DLベースのCVを探索すると、その数、位置、分布、動きなど、オブジェクトに関する有用な情報が得られる。 直感的には、DLベースのCVは、特に動的ネットワークシナリオにおいて、無線通信の設計を容易にし、改善することができる。 しかし、これまでの文献ではそのような作品は稀である。 本稿の主な目的は,無線通信にDLベースのCVを適用し,理論研究と工学応用の両方に新たな自由度をもたらすというアイデアを導入することである。 無線通信における DL ベースの CV の適用方法を説明するために,ミリ波 (mmWave) システムを用いた DL ベースの CV を用いて,モバイルシナリオにおける最適 mmWave マルチインプットおよびマルチアウトプット (MIMO) ビームフォーミングを実現する。 本稿では,ResNet,3次元ResNext,長期記憶ネットワークを用いて,以前に観測されたビーム指標とストリートビューの画像から将来のビーム指標を予測するフレームワークを提案する。 実験の結果,我々のフレームワークはベースライン法よりもはるかに精度が高く,視覚データによりMIMOビームフォーミングシステムの性能が大幅に向上することが示された。 最後に,無線通信におけるDLベースのCVの適用の機会と課題について論じる。

Deep learning (DL) has seen great success in the computer vision (CV) field, and related techniques have been used in security, healthcare, remote sensing, and many other fields. As a parallel development, visual data has become universal in daily life, easily generated by ubiquitous low-cost cameras. Therefore, exploring DL-based CV may yield useful information about objects, such as their number, locations, distribution, motion, etc. Intuitively, DL-based CV can also facilitate and improve the designs of wireless communications, especially in dynamic network scenarios. However, so far, such work is rare in the literature. The primary purpose of this article, then, is to introduce ideas about applying DL-based CV in wireless communications to bring some novel degrees of freedom to both theoretical research and engineering applications. To illustrate how DL-based CV can be applied in wireless communications, an example of using a DL-based CV with a millimeter-wave (mmWave) system is given to realize optimal mmWave multiple-input and multiple-output (MIMO) beamforming in mobile scenarios. In this example, we propose a framework to predict future beam indices from previously observed beam indices and images of street views using ResNet, 3-dimensional ResNext, and a long short-term memory network. The experimental results show that our frameworks achieve much higher accuracy than the baseline method, and that visual data can significantly improve the performance of the MIMO beamforming system. Finally, we discuss the opportunities and challenges of applying DL-based CV in wireless communications.
翻訳日:2022-11-23 05:24:52 公開日:2020-12-02
# グラフニューラルネットワークのためのデータ拡張

Data Augmentation for Graph Neural Networks ( http://arxiv.org/abs/2006.06830v2 )

ライセンス: Link先を確認
Tong Zhao, Yozen Liu, Leonardo Neves, Oliver Woodford, Meng Jiang, Neil Shah(参考訳) データ拡張は機械学習モデルの一般化性を改善するために広く利用されている。 しかし、グラフのデータ拡張の研究は比較的少ない。 これはグラフの複雑な非ユークリッド構造によるものであり、操作の操作を制限している。 視覚や言語でよく使われる拡張操作はグラフのアナログを持たない。 我々の研究は、半教師付きノード分類を改善する文脈におけるグラフニューラルネットワーク(GNN)のグラフデータ拡張について研究した。 本稿では,グラフデータ拡張のための実践的・理論的動機,考察,戦略について論じる。 我々の研究は、ニューラルネットワークのエッジ予測器が、クラス内エッジを効果的にエンコードし、グラフ構造内のクラス間エッジを復号化できることを示し、主要な貢献はGAugグラフデータ拡張フレームワークを導入し、これらの洞察を活用して、エッジ予測によるGNNベースのノード分類のパフォーマンスを向上させることである。 複数のベンチマークに関する大規模な実験によると、GAugによる拡張はGNNアーキテクチャとデータセットのパフォーマンスを改善する。

Data augmentation has been widely used to improve generalizability of machine learning models. However, comparatively little work studies data augmentation for graphs. This is largely due to the complex, non-Euclidean structure of graphs, which limits possible manipulation operations. Augmentation operations commonly used in vision and language have no analogs for graphs. Our work studies graph data augmentation for graph neural networks (GNNs) in the context of improving semi-supervised node-classification. We discuss practical and theoretical motivations, considerations and strategies for graph data augmentation. Our work shows that neural edge predictors can effectively encode class-homophilic structure to promote intra-class edges and demote inter-class edges in given graph structure, and our main contribution introduces the GAug graph data augmentation framework, which leverages these insights to improve performance in GNN-based node classification via edge prediction. Extensive experiments on multiple benchmarks show that augmentation via GAug improves performance across GNN architectures and datasets.
翻訳日:2022-11-22 12:48:47 公開日:2020-12-02
# ゼロショット多言語トピック識別のためのベイズ多言語トピックモデル

Bayesian multilingual topic model for zero-shot cross-lingual topic identification ( http://arxiv.org/abs/2007.01359v2 )

ライセンス: Link先を確認
Santosh Kesiraju, Sangeet Sagar, Ond\v{r}ej Glembek, Luk\'a\v{s} Burget, Suryakanth V Gangashetty(参考訳) 本稿では,言語に依存しない文書埋め込み学習のためのベイズ多言語トピックモデルを提案する。 本モデルはガウス分布の形で文書を表現することを学習し,共分散における不確かさを符号化する。 ゼロショット言語間話題識別のための線形分類器を用いて学習した不確かさを伝搬する。 5言語ユーロパールとロイター(mldoc)コーポラを用いた実験により,提案手法が多言語単語埋め込みとbilstm文エンコーダを上回っており,移動方向のほとんどが有意なマージンを示した。 さらに,本システムは,93言語でトレーニングされた最新のユニバーサルbilstm文エンコーダに比べて,データ量がはるかに少ない単一のgpu上で1日でトレーニングされる。 実験の結果,並列データ量が組込み全体の性能を向上させることがわかった。 それでも、不確実性の利用は常に有益である。

This paper presents a Bayesian multilingual topic model for learning language-independent document embeddings. Our model learns to represent the documents in the form of Gaussian distributions, thereby encoding the uncertainty in its covariance. We propagate the learned uncertainties through linear classifiers for zero-shot cross-lingual topic identification. Our experiments on 5 language Europarl and Reuters (MLDoc) corpora show that the proposed model outperforms multi-lingual word embedding and BiLSTM sentence encoder based systems with significant margins in the majority of the transfer directions. Moreover, our system trained under a single day on a single GPU with much lower amounts of data performs competitively as compared to the state-of-the-art universal BiLSTM sentence encoder trained on 93 languages. Our experimental analysis shows that the amount of parallel data improves the overall performance of embeddings. Nonetheless, exploiting the uncertainties is always beneficial.
翻訳日:2022-11-14 14:20:10 公開日:2020-12-02
# 局所的説明を伴うガウス過程回帰

Gaussian Process Regression with Local Explanation ( http://arxiv.org/abs/2007.01669v3 )

ライセンス: Link先を確認
Yuya Yoshikawa, Tomoharu Iwata(参考訳) ガウス過程回帰(GPR)は機械学習で使用される基本モデルである。 カーネルを介して様々なデータ構造を扱う際の不確実性と汎用性を備えた正確な予測のため、GPRは様々なアプリケーションでうまく使われている。 しかし、GPRでは、入力の特徴がその予測にどのように貢献するかは解釈できない。 本稿では,GPRの予測性能を維持しつつ,各サンプルの予測に寄与する特徴を明らかにする局所的な説明を伴うGPRを提案する。 提案モデルでは,各サンプルの予測と説明を,容易に解釈可能な局所線形モデルを用いて行う。 局所線型モデルの重みベクトルは多変量ガウス過程の先行から生成されると仮定される。 提案したモデルのハイパーパラメータは、限界可能性の最大化によって推定される。 新しいテストサンプルの場合、提案モデルは、対象変数と重みベクトルの値とその不確かさを閉じた形で予測することができる。 種々のベンチマークデータセットによる実験結果から,提案モデルがGPRのモデルに匹敵し,既存の解釈可能なモデルに比較して予測性能が得られ,定量的かつ定性的に,それらよりも高い解釈性が得られることを確認した。

Gaussian process regression (GPR) is a fundamental model used in machine learning. Owing to its accurate prediction with uncertainty and versatility in handling various data structures via kernels, GPR has been successfully used in various applications. However, in GPR, how the features of an input contribute to its prediction cannot be interpreted. Herein, we propose GPR with local explanation, which reveals the feature contributions to the prediction of each sample, while maintaining the predictive performance of GPR. In the proposed model, both the prediction and explanation for each sample are performed using an easy-to-interpret locally linear model. The weight vector of the locally linear model is assumed to be generated from multivariate Gaussian process priors. The hyperparameters of the proposed models are estimated by maximizing the marginal likelihood. For a new test sample, the proposed model can predict the values of its target variable and weight vector, as well as their uncertainties, in a closed form. Experimental results on various benchmark datasets verify that the proposed model can achieve predictive performance comparable to those of GPR and superior to that of existing interpretable models, and can achieve higher interpretability than them, both quantitatively and qualitatively.
翻訳日:2022-11-14 05:01:17 公開日:2020-12-02
# ディープニューラルネットワークを騙すためのパッチアタック

Patch-wise Attack for Fooling Deep Neural Network ( http://arxiv.org/abs/2007.06765v3 )

ライセンス: Link先を確認
Lianli Gao and Qilong Zhang and Jingkuan Song and Xianglong Liu and Heng Tao Shen(参考訳) 画像のクリーニングに人間の知覚できないノイズを加えることで、他の未知のモデルを騙すことができる。 ディープニューラルネットワーク(DNN)によって抽出された画素の特徴は周囲の領域の影響を受けており、異なるDNNは一般的に認識において異なる識別領域に焦点を当てている。 そこで我々は,パッチワイド反復アルゴリズムを提案する。このブラックボックス攻撃は,従来の画素ワイドノイズを操作する攻撃手法とは異なる,主流の通常訓練および防御モデルに対する攻撃である。 このように、ホワイトボックス攻撃の性能を犠牲にすることなく、我々の敵の例は強い伝達性を持つ。 具体的には、各イテレーションのステップサイズに増幅係数を導入し、$\epsilon$-constraintをオーバーフローする1ピクセルの全体的な勾配が、プロジェクトカーネルによってその周辺領域に適切に割り当てられる。 我々の手法は一般に任意の勾配に基づく攻撃方法に統合できる。 現在の最先端攻撃と比較して、防御モデルの成功率は9.2\%、通常訓練されたモデルでは3.7\%有意に向上した。 私たちのコードは \url{https://github.com/qilong-zhang/Patch-wise-iterative- attack} で利用可能です。

By adding human-imperceptible noise to clean images, the resultant adversarial examples can fool other unknown models. Features of a pixel extracted by deep neural networks (DNNs) are influenced by its surrounding regions, and different DNNs generally focus on different discriminative regions in recognition. Motivated by this, we propose a patch-wise iterative algorithm -- a black-box attack towards mainstream normally trained and defense models, which differs from the existing attack methods manipulating pixel-wise noise. In this way, without sacrificing the performance of white-box attack, our adversarial examples can have strong transferability. Specifically, we introduce an amplification factor to the step size in each iteration, and one pixel's overall gradient overflowing the $\epsilon$-constraint is properly assigned to its surrounding regions by a project kernel. Our method can be generally integrated to any gradient-based attack methods. Compared with the current state-of-the-art attacks, we significantly improve the success rate by 9.2\% for defense models and 3.7\% for normally trained models on average. Our code is available at \url{https://github.com/qilong-zhang/Patch-wise-iterative-attack}
翻訳日:2022-11-10 14:44:08 公開日:2020-12-02
# 発声検出と発声型分類を用いたマルチタスク学習による合成音声のニューラルMOS予測

Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning With Spoofing Detection and Spoofing Type Classification ( http://arxiv.org/abs/2007.08267v2 )

ライセンス: Link先を確認
Yeunju Choi, Youngmoon Jung, Hoirin Kim(参考訳) いくつかの研究は、合成音声の平均評価スコア(MOS)を予測するためのディープラーニングベースのモデルを提案し、人間のレイパーを置き換える可能性を示している。 しかし,MOSの層間および層内変動は,モデルの性能向上を困難にしている。 本稿では,マルチタスク学習(MTL)手法を提案し,次の2つの補助課題であるスプーフィング検出(SD)とスプーフィング型分類(STC)を用いて,MOS予測モデルの性能を向上させる。 また,mos予測にはsdとstcの相乗効果を最大化するために焦点損失を用いる。 音声変換チャレンジ2018のMOS評価結果を用いた実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示された。 提案モデルでは,ベースラインモデルよりも11.6%の性能向上を実現している。

Several studies have proposed deep-learning-based models to predict the mean opinion score (MOS) of synthesized speech, showing the possibility of replacing human raters. However, inter- and intra-rater variability in MOSs makes it hard to ensure the high performance of the models. In this paper, we propose a multi-task learning (MTL) method to improve the performance of a MOS prediction model using the following two auxiliary tasks: spoofing detection (SD) and spoofing type classification (STC). Besides, we use the focal loss to maximize the synergy between SD and STC for MOS prediction. Experiments using the MOS evaluation results of the Voice Conversion Challenge 2018 show that proposed MTL with two auxiliary tasks improves MOS prediction. Our proposed model achieves up to 11.6% relative improvement in performance over the baseline model.
翻訳日:2022-11-10 00:17:48 公開日:2020-12-02
# マルチラベルコントラスト予測符号化

Multi-label Contrastive Predictive Coding ( http://arxiv.org/abs/2007.09852v2 )

ライセンス: Link先を確認
Jiaming Song and Stefano Ermon(参考訳) 変分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く用いられている。 mi上の下限は、下層のジョイント分布から引き出された正のサンプルを適切な提案分布から引き出された$(m-1)$負のサンプルと区別しようとするマルチクラス分類問題から得られる。 このアプローチを用いることで、MI の推定値は$\log m$ で上限付けられ、$m$ が非常に大きければ非常に過小評価される可能性がある。 この制限を克服するために,批判者が同時に複数の正のサンプルを識別する必要があるマルチラベル分類問題に基づく新しい推定器を導入する。 同一量の負のサンプルを用いて,複数ラベルのCPC が $\log m$bound を超えることができる一方で,相互情報の有意な下限であることを示す。 提案手法は, 相互情報推定の精度向上, 教師なし表現学習の実証的改善を実現し, 13タスク中10タスクで最先端の知識蒸留手法を破ることが実証された。

Variational mutual information (MI) estimators are widely used in unsupervised representation learning methods such as contrastive predictive coding (CPC). A lower bound on MI can be obtained from a multi-class classification problem, where a critic attempts to distinguish a positive sample drawn from the underlying joint distribution from $(m-1)$ negative samples drawn from a suitable proposal distribution. Using this approach, MI estimates are bounded above by $\log m$, and could thus severely underestimate unless $m$ is very large. To overcome this limitation, we introduce a novel estimator based on a multi-label classification problem, where the critic needs to jointly identify multiple positive samples at the same time. We show that using the same amount of negative samples, multi-label CPC is able to exceed the $\log m$ bound, while still being a valid lower bound of mutual information. We demonstrate that the proposed approach is able to lead to better mutual information estimation, gain empirical improvements in unsupervised representation learning, and beat a current state-of-the-art knowledge distillation method over 10 out of 13 tasks.
翻訳日:2022-11-08 12:37:52 公開日:2020-12-02
# 東方トカマク放電の実験データ駆動モデル

Experiment data-driven modeling of tokamak discharge in EAST ( http://arxiv.org/abs/2007.10552v3 )

ライセンス: Link先を確認
Chenguang Wan, Jiangang Li, Zhi Yu and Xiaojuan Liu(参考訳) 超伝導長パルストカマク(EAST)を用いて, 深層学習によるトカマク放電モデルを構築した。 このモデルでは、ニュートラルビーム注入(NBI)、イオンサイクロトロン共鳴加熱(ICRH)などの制御信号を用いて、実際の実験を行うことなく通常の放電をモデル化することができる。 データ駆動方式を用いて,電子密度$n_{e}$,貯蔵エネルギー$w_{mhd}$,ループ電圧$v_{loop}$などの放電診断信号をモデル化するディープラーニングモデルを開発した。 同様の手法を比較することで、ディスラプション予測ではなく、データ駆動モデルの開発に機械学習技術を用いる。 95%の類似性が$W_{mhd}$に対して達成された。 最初の試みは、データ駆動法を用いてトカマク放電のモデル化に有望な結果を示した。 データ駆動手法はトカマク放電モデリングの物理駆動モデリングの代替となる。

A model for tokamak discharge through deep learning has been done on a superconducting long-pulse tokamak (EAST). This model can use the control signals (i.e. Neutral Beam Injection (NBI), Ion Cyclotron Resonance Heating (ICRH), etc) to model normal discharge without the need for doing real experiments. By using the data-driven methodology, we exploit the temporal sequence of control signals for a large set of EAST discharges to develop a deep learning model for modeling discharge diagnostic signals, such as electron density $n_{e}$, store energy $W_{mhd}$ and loop voltage $V_{loop}$. Comparing the similar methodology, we use Machine Learning techniques to develop the data-driven model for discharge modeling rather than disruption prediction. Up to 95% similarity was achieved for $W_{mhd}$. The first try showed promising results for modeling of tokamak discharge by using the data-driven methodology. The data-driven methodology provides an alternative to physical-driven modeling for tokamak discharge modeling.
翻訳日:2022-11-08 05:42:56 公開日:2020-12-02
# ニューラルメッシュフロー:拡散型流れによる3次元マニフォールドメッシュ生成

Neural Mesh Flow: 3D Manifold Mesh Generation via Diffeomorphic Flows ( http://arxiv.org/abs/2007.10973v2 )

ライセンス: Link先を確認
Kunal Gupta and Manmohan Chandraker(参考訳) メッシュは、仮想世界での物理3Dエンティティの重要な表現である。 レンダリングやシミュレーション,3Dプリンティングといったアプリケーションでは,メッシュを多様体として,それらが表現する実際のオブジェクトのように世界と対話できるようにする必要がある。 以前の手法では、幾何学的精度は高いが多様体性は乏しいメッシュを生成する。 本研究ではニューラルメッシュフロー (NMF) を用いて, 種数-0の2次元メッシュを生成する。 具体的には、nmfは複数の神経常微分方程式(ノード)[1]ブロックからなる形状オートエンコーダであり、球状メッシュを段階的に変形させて正確なメッシュ形状を学ぶ。 NMFのトレーニングは、明確なメッシュベースの正規化を必要としないため、最先端の手法に比べてシンプルである。 実験により, nmfは, 単視点メッシュ再構成, グローバル形状パラメータ化, テクスチャマッピング, 形状変形, 対応など, 様々な応用が容易であることを実証した。 重要なことは、NMFを用いて生成された多様体メッシュが、物理ベースのレンダリングとシミュレーションに適していることである。 コードとデータはリリースされます。

Meshes are important representations of physical 3D entities in the virtual world. Applications like rendering, simulations and 3D printing require meshes to be manifold so that they can interact with the world like the real objects they represent. Prior methods generate meshes with great geometric accuracy but poor manifoldness. In this work, we propose Neural Mesh Flow (NMF) to generate two-manifold meshes for genus-0 shapes. Specifically, NMF is a shape auto-encoder consisting of several Neural Ordinary Differential Equation (NODE)[1] blocks that learn accurate mesh geometry by progressively deforming a spherical mesh. Training NMF is simpler compared to state-of-the-art methods since it does not require any explicit mesh-based regularization. Our experiments demonstrate that NMF facilitates several applications such as single-view mesh reconstruction, global shape parameterization, texture mapping, shape deformation and correspondence. Importantly, we demonstrate that manifold meshes generated using NMF are better-suited for physically-based rendering and simulation. Code and data are released.
翻訳日:2022-11-08 05:04:45 公開日:2020-12-02
# クラスタ正規化アンサンブルランキングを用いたビデオ記述のためのアクティブラーニング

Active Learning for Video Description With Cluster-Regularized Ensemble Ranking ( http://arxiv.org/abs/2007.13913v3 )

ライセンス: Link先を確認
David M. Chan, Sudheendra Vijayanarasimhan, David A. Ross, John Canny(参考訳) 自動字幕作成は、ビデオ中の全セグメントのテキスト記述を生成するためにモデルを訓練することを目的としているが、最も効果的なアプローチは、遅くて高価な大量の手動アノテーションを必要とする。 アクティブラーニング(active learning)は、ビデオキャプションタスクのトレーニングセットを効率的に構築するための有望な方法だ。 本研究では,ビデオキャプションの自動生成のためのさまざまなアクティブラーニング手法を検討し,クラスタ正規化アンサンブル戦略がビデオキャプションのための学習セットを効率的に収集するための最善のアクティブラーニング手法であることを示す。 MSR-VTT と LSMDC のデータセットをトランスフォーマーとLSTM ベースのキャプションモデルの両方を用いて評価し、アートベースラインの強い状態よりも最大60%少ないトレーニングデータを使用しながら、我々の新しい戦略がハイパフォーマンスを実現することを示す。

Automatic video captioning aims to train models to generate text descriptions for all segments in a video, however, the most effective approaches require large amounts of manual annotation which is slow and expensive. Active learning is a promising way to efficiently build a training set for video captioning tasks while reducing the need to manually label uninformative examples. In this work we both explore various active learning approaches for automatic video captioning and show that a cluster-regularized ensemble strategy provides the best active learning approach to efficiently gather training sets for video captioning. We evaluate our approaches on the MSR-VTT and LSMDC datasets using both transformer and LSTM based captioning models and show that our novel strategy can achieve high performance while using up to 60% fewer training data than the strong state of the art baselines.
翻訳日:2022-11-06 07:35:36 公開日:2020-12-02
# 信頼できる画像分類の基礎としての生成的分類器

Generative Classifiers as a Basis for Trustworthy Image Classification ( http://arxiv.org/abs/2007.15036v2 )

ライセンス: Link先を確認
Radek Mackowiak, Lynton Ardizzone, Ullrich K\"othe, Carsten Rother(参考訳) ディープラーニングシステムの成熟に伴い、モデルアセスメントにおいて信頼性がますます重要になっている。 我々は、説明可能性と堅牢性の組み合わせとして、信頼性を理解する。 生成的分類器(GCs)は、これらの性質を自然に達成するとされるモデルの有望なクラスである。 しかし、これは主にMNISTやCIFARといった単純なデータセットで過去に実証された。 本研究では,まず,実用的なコンピュータビジョン,すなわちimagenetチャレンジにおいて,gcがより適切な複雑性レベルで動作することを可能にするアーキテクチャとトレーニングスキームを開発した。 次に,信頼性の高い画像分類のためのGCの可能性を示す。 説明可能性と頑健さのいくつかの側面は、GCが純粋に適用されるだけで、フィードフォワードモデルよりも大幅に改善されます。 すべての信頼性問題が完全に解決されるわけではないが、GCはさらなるアルゴリズムと修正のための非常に有望な基盤である。 トレーニング済みのResNetアーキテクチャが差別的分類を行うのと同じように、他の生成的分類タスクの出発点になることを期待して、トレーニング済みのモデルをダウンロード用にリリースします。

With the maturing of deep learning systems, trustworthiness is becoming increasingly important for model assessment. We understand trustworthiness as the combination of explainability and robustness. Generative classifiers (GCs) are a promising class of models that are said to naturally accomplish these qualities. However, this has mostly been demonstrated on simple datasets such as MNIST and CIFAR in the past. In this work, we firstly develop an architecture and training scheme that allows GCs to operate on a more relevant level of complexity for practical computer vision, namely the ImageNet challenge. Secondly, we demonstrate the immense potential of GCs for trustworthy image classification. Explainability and some aspects of robustness are vastly improved compared to feed-forward models, even when the GCs are just applied naively. While not all trustworthiness problems are solved completely, we observe that GCs are a highly promising basis for further algorithms and modifications. We release our trained model for download in the hope that it serves as a starting point for other generative classification tasks, in much the same way as pretrained ResNet architectures do for discriminative classification.
翻訳日:2022-11-05 19:52:09 公開日:2020-12-02
# ヒューマンアクティビティセグメンテーションとエルゴノミクスリスク評価のためのマルチタスク学習アプローチ

A Multi-Task Learning Approach for Human Activity Segmentation and Ergonomics Risk Assessment ( http://arxiv.org/abs/2008.03014v2 )

ライセンス: Link先を確認
Behnoosh Parsa, Ashis G. Banerjee(参考訳) 本稿では,グラフベースマルチタスクモデリングを用いた長ビデオにおけるヒューマンアクティビティ評価(HAE)の新しい手法を提案する。 これまでのアクティビティ評価では、検出されたスケルトンを使用してメトリックを直接計算するか、シーン情報を使用してアクティビティスコアを回帰する。 これらのアプローチは、クリップの平均スコアのみを計算し、関節と身体の動態の相関を考慮せず、正確な活動評価には不十分である。 さらに,これらの手法の一般化性に疑問を呈するシーン依存性が高い。 本稿では, グラフ畳み込みネットワークのバックボーンを用いて, 人間の関節間の相互接続を組み込むHAEのための新しいマルチタスクフレームワークを提案する。 本研究では,行動評価を改善するための補助課題として,ヒューマンアクティビティセグメンテーション(HAS)問題を解く。 HASヘッドはエンコーダ・デコーダ・テンポラル・コンボリューショナル・ネットワーク(英語版)を使用して、長いビデオを意味的に異なるアクティビティ・クラスに分割する。 本手法をUW-IOMとTUM Kitchenのデータセット上で評価し,この2つのデータセットの成功事例と失敗事例について考察する。

We propose a new approach to Human Activity Evaluation (HAE) in long videos using graph-based multi-task modeling. Previous works in activity evaluation either directly compute a metric using a detected skeleton or use the scene information to regress the activity score. These approaches are insufficient for accurate activity assessment since they only compute an average score over a clip, and do not consider the correlation between the joints and body dynamics. Moreover, they are highly scene-dependent which makes the generalizability of these methods questionable. We propose a novel multi-task framework for HAE that utilizes a Graph Convolutional Network backbone to embed the interconnections between human joints in the features. In this framework, we solve the Human Activity Segmentation (HAS) problem as an auxiliary task to improve activity assessment. The HAS head is powered by an Encoder-Decoder Temporal Convolutional Network to semantically segment long videos into distinct activity classes, whereas, HAE uses a Long-Short-Term-Memory-based architecture. We evaluate our method on the UW-IOM and TUM Kitchen datasets and discuss the success and failure cases in these two datasets.
翻訳日:2022-11-02 01:29:49 公開日:2020-12-02
# DIET-SNN:ディープスパイクニューラルネットワークにおける漏れと閾値最適化による直接入力符号化

DIET-SNN: Direct Input Encoding With Leakage and Threshold Optimization in Deep Spiking Neural Networks ( http://arxiv.org/abs/2008.03658v3 )

ライセンス: Link先を確認
Nitin Rathi, Kaushik Roy(参考訳) バイオインスパイクスパイクニューラルネットワーク(snn)は、時間とともに分散する非同期バイナリ信号(あるいはスパイク)で動作し、イベント駆動ハードウェアでの計算効率が向上する可能性がある。 最先端のSNNは、非効率な入力エンコーディングとニューロンパラメータ(ファイリングしきい値、膜リーク)の最適化設定によって、高い推論遅延に悩まされる。 本研究では,低遅延深層スパイキングネットワークであるdiet-snnを提案し,勾配降下で学習し,他のネットワークパラメータ(重み付け)とともに膜漏出と発火閾値を最適化する。 snnの各層に対する膜漏れと閾値をエンドツーエンドのバックプロパゲーションで最適化し、レイテンシの低減で競合精度を達成する。 画像のアナログ画素値は、スパイクトレインに変換することなく、DIET-SNNの入力層に直接適用される。 第1の畳み込み層は、入力をスパイクに変換し、重み付け入力を統合し、膜電位が訓練された発射閾値を超えたときに出力スパイクを生成する。 トレーニングされた膜リークは、入力情報のフローを制御し、無関係な入力を減衰させ、ネットワークの畳み込み層と密集層の活性化空間を増大させる。 レイテンシの削減と高いアクティベーションスパーシティの組み合わせは、計算効率に大きな改善をもたらす。 我々は,VGGおよびResNetアーキテクチャ上のCIFARおよびImageNetデータセットから画像分類タスクのDIET-SNNを評価する。 我々は、ImageNetデータセット上の5つのタイムステップ(推論レイテンシ)でトップ1の精度を69%達成し、同等の標準ANNよりも12倍少ない計算エネルギーを実現した。 さらに、DIET-SNNは他の最先端SNNモデルと比較して20-500倍高速な推論を行う。

Bio-inspired spiking neural networks (SNNs), operating with asynchronous binary signals (or spikes) distributed over time, can potentially lead to greater computational efficiency on event-driven hardware. The state-of-the-art SNNs suffer from high inference latency, resulting from inefficient input encoding, and sub-optimal settings of the neuron parameters (firing threshold, and membrane leak). We propose DIET-SNN, a low-latency deep spiking network that is trained with gradient descent to optimize the membrane leak and the firing threshold along with other network parameters (weights). The membrane leak and threshold for each layer of the SNN are optimized with end-to-end backpropagation to achieve competitive accuracy at reduced latency. The analog pixel values of an image are directly applied to the input layer of DIET-SNN without the need to convert to spike-train. The first convolutional layer is trained to convert inputs into spikes where leaky-integrate-and-fire (LIF) neurons integrate the weighted inputs and generate an output spike when the membrane potential crosses the trained firing threshold. The trained membrane leak controls the flow of input information and attenuates irrelevant inputs to increase the activation sparsity in the convolutional and dense layers of the network. The reduced latency combined with high activation sparsity provides large improvements in computational efficiency. We evaluate DIET-SNN on image classification tasks from CIFAR and ImageNet datasets on VGG and ResNet architectures. We achieve top-1 accuracy of 69% with 5 timesteps (inference latency) on the ImageNet dataset with 12x less compute energy than an equivalent standard ANN. Additionally, DIET-SNN performs 20-500x faster inference compared to other state-of-the-art SNN models.
翻訳日:2022-11-01 04:00:54 公開日:2020-12-02
# 光音響イメージングのためのディープラーニング:サーベイ

Deep learning for photoacoustic imaging: a survey ( http://arxiv.org/abs/2008.04221v4 )

ライセンス: Link先を確認
Changchun Yang, Hengrong Lan, Feng Gao, and Fei Gao(参考訳) 機械学習は劇的に発展し、過去数年間に様々な分野で多くの応用が見られた。 このブームは2009年に新しいモデル、すなわちディープニューラルネットワークが登場し、いくつかの重要なベンチマークで確立された成熟したモデルを超えた。 その後、学界や産業界で広く用いられた。 画像分析から自然言語処理まで、その魔法を完全に発揮し、現在最先端の機械学習モデルとなっている。 深層ニューラルネットワークは、医療画像技術、医療データ分析、医療診断、その他の医療問題において大きな可能性を秘めており、臨床前段階と臨床段階の両方で促進されている。 本稿では,医用画像解析への機械学習の適用における新たな展開と課題について概説し,特に光音響イメージングにおける深層学習に焦点を当てた。 このレビューの目的は3つある。 (i)深層学習を重要な基礎で導入すること。 (ii)画像再構成から疾患診断まで,光音響イメージングの生態連鎖全体にディープラーニングを適用した最近の研究のレビュー 三 深層学習を光音響画像に適用することに関心のある研究者にオープンソース資料その他の資源を提供すること。

Machine learning has been developed dramatically and witnessed a lot of applications in various fields over the past few years. This boom originated in 2009, when a new model emerged, that is, the deep artificial neural network, which began to surpass other established mature models on some important benchmarks. Later, it was widely used in academia and industry. Ranging from image analysis to natural language processing, it fully exerted its magic and now become the state-of-the-art machine learning models. Deep neural networks have great potential in medical imaging technology, medical data analysis, medical diagnosis and other healthcare issues, and is promoted in both pre-clinical and even clinical stages. In this review, we performed an overview of some new developments and challenges in the application of machine learning to medical image analysis, with a special focus on deep learning in photoacoustic imaging. The aim of this review is threefold: (i) introducing deep learning with some important basics, (ii) reviewing recent works that apply deep learning in the entire ecological chain of photoacoustic imaging, from image reconstruction to disease diagnosis, (iii) providing some open source materials and other resources for researchers interested in applying deep learning to photoacoustic imaging.
翻訳日:2022-10-31 23:34:11 公開日:2020-12-02
# 大規模地域におけるTwitter上のCOVID-19情報の探索的研究

An Exploratory Study of COVID-19 Information on Twitter in the Greater Region ( http://arxiv.org/abs/2008.05900v2 )

ライセンス: Link先を確認
Ninghan Chen, Zhiqiang Zhong, Jun Pang(参考訳) 新型コロナウイルス(COVID-19)の流行は、主要なオンラインソーシャルネットワーク(OSN)の急激な情報に繋がる。 常に変化する状況に直面しているOSNは、意見を表明し、最新情報を求める人々にとって不可欠なプラットフォームになっている。 したがって、OSNに関する議論は現実の反映となるかもしれない。 本研究の目的は、機械学習と表現学習手法を用いて、GRおよび関連国におけるTwitter COVID-19情報に関するデータ駆動探索研究を行うことにより、大都市圏(GR)の特徴を明らかにすることである。 GRと関連する国々のツイート量と新型コロナウイルスのケースは相関関係にあるが、この相関関係はパンデミックの特定の期間にのみ存在する。 また、各国・地域ごとのトピックスの変化を2020-01-22から2020-06-05にプロットし、GRと関連する国々の主な違いを明らかにする。

The outbreak of the COVID-19 leads to a burst of information in major online social networks (OSNs). Facing this constantly changing situation, OSNs have become an essential platform for people expressing opinions and seeking up-to-the-minute information. Thus, discussions on OSNs may become a reflection of reality. This paper aims to figure out the distinctive characteristics of the Greater Region (GR) through conducting a data-driven exploratory study of Twitter COVID-19 information in the GR and related countries using machine learning and representation learning methods. We find that tweets volume and COVID-19 cases in GR and related countries are correlated, but this correlation only exists in a particular period of the pandemic. Moreover, we plot the changing of topics in each country and region from 2020-01-22 to 2020-06-05, figuring out the main differences between GR and related countries.
翻訳日:2022-10-31 06:19:31 公開日:2020-12-02
# より良い広告を作るための学習: 広告クリエイティヴ・リファインメントのための生成とランク付けアプローチ

Learning to Create Better Ads: Generation and Ranking Approaches for Ad Creative Refinement ( http://arxiv.org/abs/2008.07467v2 )

ライセンス: Link先を確認
Shaunak Mishra, Manisha Verma, Yichao Zhou, Kapil Thadani, Wei Wang(参考訳) オンライン広告業界では、広告創造性(すなわち広告テキストと画像)を設計するプロセスは手作業を必要とする。 通常、各広告主はオンラインA/Bテストを通じて複数のクリエイティブをローンチし、ターゲットのオーディエンスに対して効果的なクリエイティブを推論する。 このプロセスのマニュアルの性質のため、修正された創造物を学び、洗練し、デプロイするのに時間がかかる。 主要な広告プラットフォームは、通常、複数の広告主に対してA/Bテストを実行するため、複数の広告主のA/Bテストを通じて、共同で広告クリエイティビティの洗練を学習する可能性を探る。 特に、入力広告の創造性を考えると、与えられた広告テキストと画像の精巧化のアプローチを次のように研究する。 (i)新しい広告テキストの作成。 (ii)新しい広告テキストにキーフレーズを推薦すること、 (iii)新しい広告画像を選択するために画像タグ(画像内のオブジェクト)を推奨する。 複数の広告主が実施したA/Bテストに基づいて、劣等で優れた広告クリエイティビティのペア例を作成し、そのようなペアを使って上記のタスクのモデルをトレーニングする。 新しい広告テキストを生成するために、コピー機構を備えたエンコーダデコーダアーキテクチャの有効性を実証し、より高いクリックスルーレートに関連付けられた新しい単語を組み込んで、入力テキストからいくつかの単語を出力にコピーできるようにする。 キーフレーズと画像タグの推薦タスクについて,広告主とのコールドスタートシナリオにおける広告テキスト生成に対するランキングアプローチの相対的ロバスト性に加えて,深い適合度マッチングモデルの有効性を実証する。 また、yahoo gemini広告プラットフォームのデータを使って、実験から広く適用可能な洞察を共有しています。

In the online advertising industry, the process of designing an ad creative (i.e., ad text and image) requires manual labor. Typically, each advertiser launches multiple creatives via online A/B tests to infer effective creatives for the target audience, that are then refined further in an iterative fashion. Due to the manual nature of this process, it is time-consuming to learn, refine, and deploy the modified creatives. Since major ad platforms typically run A/B tests for multiple advertisers in parallel, we explore the possibility of collaboratively learning ad creative refinement via A/B tests of multiple advertisers. In particular, given an input ad creative, we study approaches to refine the given ad text and image by: (i) generating new ad text, (ii) recommending keyphrases for new ad text, and (iii) recommending image tags (objects in image) to select new ad image. Based on A/B tests conducted by multiple advertisers, we form pairwise examples of inferior and superior ad creatives, and use such pairs to train models for the above tasks. For generating new ad text, we demonstrate the efficacy of an encoder-decoder architecture with copy mechanism, which allows some words from the (inferior) input text to be copied to the output while incorporating new words associated with higher click-through-rate. For the keyphrase and image tag recommendation task, we demonstrate the efficacy of a deep relevance matching model, as well as the relative robustness of ranking approaches compared to ad text generation in cold-start scenarios with unseen advertisers. We also share broadly applicable insights from our experiments using data from the Yahoo Gemini ad platform.
翻訳日:2022-10-28 03:16:24 公開日:2020-12-02
# マルチスターネットワークにおける異種探索・爆発戦略

Heterogeneous Explore-Exploit Strategies on Multi-Star Networks ( http://arxiv.org/abs/2009.01339v2 )

ライセンス: Link先を確認
Udari Madhushani and Naomi Leonard(参考訳) エージェントの目的が累積群報酬の最大化であるようなマルチエージェント探索・探索決定における不均一性の利点について検討する。 そこで我々は,マルチスターネットワーク上でエージェントが通信し,同じ不確実性環境において選択肢間で順次選択を行う分散確率的バンディット問題の研究を行った。 通常、マルチエージェントバンディット問題では、エージェントは均質な意思決定戦略を使用する。 しかし、特にネットワークグラフが不規則である場合、すなわちエージェントが隣接数の異なる場合において、エージェントが選択した選択に異質性を取り込むことで、グループパフォーマンスを改善することができる。 我々は,モデル不規則ネットワークグラフとしてマルチスターを用いた新しい異種探索探索戦略の設計と解析を行った。 鍵となる考え方は、周辺エージェントにより有用なデータを提供する手段として、中心エージェントが均質な戦略を使うよりも多くの探索を行うことである。 すべてのエージェントが同じ確率でその報酬値と選択を隣人に放送する場合、同種戦略と比較して提案した異種戦略の下で群の性能が向上するという理論的保証を提供する。 数値シミュレーションを使って結果を説明し、理論的な境界を検証する。

We investigate the benefits of heterogeneity in multi-agent explore-exploit decision making where the goal of the agents is to maximize cumulative group reward. To do so we study a class of distributed stochastic bandit problems in which agents communicate over a multi-star network and make sequential choices among options in the same uncertain environment. Typically, in multi-agent bandit problems, agents use homogeneous decision-making strategies. However, group performance can be improved by incorporating heterogeneity into the choices agents make, especially when the network graph is irregular, i.e. when agents have different numbers of neighbors. We design and analyze new heterogeneous explore-exploit strategies, using the multi-star as the model irregular network graph. The key idea is to enable center agents to do more exploring than they would do using the homogeneous strategy, as a means of providing more useful data to the peripheral agents. In the case all agents broadcast their reward values and choices to their neighbors with the same probability, we provide theoretical guarantees that group performance improves under the proposed heterogeneous strategies as compared to under homogeneous strategies. We use numerical simulations to illustrate our results and to validate our theoretical bounds.
翻訳日:2022-10-22 19:46:30 公開日:2020-12-02
# 正則暗号上の近似活性化関数を用いた高精度CNN推論

Highly Accurate CNN Inference Using Approximate Activation Functions over Homomorphic Encryption ( http://arxiv.org/abs/2009.03727v2 )

ライセンス: Link先を確認
Takumi Ishiyama, Takuya Suzuki, Hayato Yamana(参考訳) ビッグデータ時代において、クラウドベースの機械学習・アズ・ア・サービス(MLaaS)が注目されている。 しかし、金融データや医療データなどの機密データを扱う場合には、クラウドサーバがクライアントの生データにアクセスできるため、プライバシの問題が発生する。 クラウド上の機密データを扱う一般的な方法は、暗号を復号することなく暗号化されたデータの計算を可能にする同型暗号化を使用する。 これまでの研究では通常、データ分類のために平方関数のような低次多項式写像関数を採用した。 しかし、この手法は分類精度が低い。 本研究では,同相暗号を用いて,畳み込みニューラルネットワーク(CNN)における推論処理の分類精度の向上を図る。 4階多項式を用いてGoogleのSwishアクティベーション関数を近似するアクティベーション関数を採用する。 また,スウィッシュ関数の入力を正規化するためにバッチ正規化を採用し,誤差を最小限に抑える。 我々は,Microsoft の Simple Encrypted Arithmetic Library for the Cheon-Kim-Kim-Song (CKKS) スキームを用いて,同型暗号上のCNN推論ラベリングを実装した。 実験の結果, mnist と cifar-10 はそれぞれ 99.22% と 80.48% であり, それぞれ 0.04% と 4.11% の改善がみられた。

In the big data era, cloud-based machine learning as a service (MLaaS) has attracted considerable attention. However, when handling sensitive data, such as financial and medical data, a privacy issue emerges, because the cloud server can access clients' raw data. A common method of handling sensitive data in the cloud uses homomorphic encryption, which allows computation over encrypted data without decryption. Previous research usually adopted a low-degree polynomial mapping function, such as the square function, for data classification. However, this technique results in low classification accuracy. In this study, we seek to improve the classification accuracy for inference processing in a convolutional neural network (CNN) while using homomorphic encryption. We adopt an activation function that approximates Google's Swish activation function while using a fourth-order polynomial. We also adopt batch normalization to normalize the inputs for the Swish function to fit the input range to minimize the error. We implemented CNN inference labeling over homomorphic encryption using the Microsoft's Simple Encrypted Arithmetic Library for the Cheon-Kim-Kim-Song (CKKS) scheme. The experimental evaluations confirmed classification accuracies of 99.22% and 80.48% for MNIST and CIFAR-10, respectively, which entails 0.04% and 4.11% improvements, respectively, over previous methods.
翻訳日:2022-10-20 20:53:25 公開日:2020-12-02
# ECCV 2020のFairFace Challenge - 顔認識におけるバイアスの分析

FairFace Challenge at ECCV 2020: Analyzing Bias in Face Recognition ( http://arxiv.org/abs/2009.07838v2 )

ライセンス: Link先を確認
Tom\'a\v{s} Sixta, Julio C. S. Jacques Junior, Pau Buch-Cardona, Neil M. Robertson, Eduard Vazquez, Sergio Escalera(参考訳) この研究は、2020年のChaLearn Looking at People Fair Face Recognition and Analysis Challengeを要約し、最高のソリューションと結果の分析について説明している。 課題の目的は,提案アルゴリズムの性別と肌の色における精度とバイアスを,他の同一属性が存在する場合の1:1顔認証タスクで評価することであった。 参加者は、IJB-Cの再アノテーションに基づいて、Wild内のデータセットを用いて評価され、さらに12.5Kの新しい画像とラベルが強化された。 データセットはバランスが取れず、公平な結果を示すはずのaiベースのモデルをトレーニングし、不均衡なデータに基づいて評価する現実世界のシナリオをシミュレートする。 この挑戦には151人が参加し、合計1.8万以上の応募が行われた。 チャレンジの最終フェーズでは36チームが参加し、10チームが0.999 AUC-ROCを突破し、提案されたバイアス指標のスコアは極めて低かった。 参加者による一般的な戦略は、顔前処理、データ分布の均質化、バイアス認識損失関数の使用、アンサンブルモデルであった。 トップ10チームの分析では、暗い肌のトーンを持つ女性に対する偽陽性率(および偽陰性率)と、偽陽性率を増加させる眼鏡と若年者の可能性が示された。

This work summarizes the 2020 ChaLearn Looking at People Fair Face Recognition and Analysis Challenge and provides a description of the top-winning solutions and analysis of the results. The aim of the challenge was to evaluate accuracy and bias in gender and skin colour of submitted algorithms on the task of 1:1 face verification in the presence of other confounding attributes. Participants were evaluated using an in-the-wild dataset based on reannotated IJB-C, further enriched by 12.5K new images and additional labels. The dataset is not balanced, which simulates a real world scenario where AI-based models supposed to present fair outcomes are trained and evaluated on imbalanced data. The challenge attracted 151 participants, who made more than 1.8K submissions in total. The final phase of the challenge attracted 36 active teams out of which 10 exceeded 0.999 AUC-ROC while achieving very low scores in the proposed bias metrics. Common strategies by the participants were face pre-processing, homogenization of data distributions, the use of bias aware loss functions and ensemble models. The analysis of top-10 teams shows higher false positive rates (and lower false negative rates) for females with dark skin tone as well as the potential of eyeglasses and young age to increase the false positive rates too.
翻訳日:2022-10-18 00:31:33 公開日:2020-12-02
# マルチプラナーMRIによる高精度前立腺分割のための異方性3次元マルチストリームCNN

Anisotropic 3D Multi-Stream CNN for Accurate Prostate Segmentation from Multi-Planar MRI ( http://arxiv.org/abs/2009.11120v2 )

ライセンス: Link先を確認
Anneke Meyer, Grzegorz Chlebus, Marko Rak, Daniel Schindele, Martin Schostak, Bram van Ginneken, Andrea Schenk, Hans Meine, Horst K. Hahn, Andreas Schreiber, Christian Hansen(参考訳) 背景と目的:MRI画像における前立腺の正確かつ信頼性の高いセグメンテーションは、前立腺癌の臨床的評価、および局所的および局所的な治療介入の計画とモニタリングを支援することができる。 標準化されたプロトコルによる多平面MRスキャンが利用可能であるにもかかわらず、文献で示されたセグメント化アプローチの大部分は軸走査のみを考慮する。 方法: より高分解能な等方性前立腺セグメントを生成するために, スキャン方向を付加する異方性3次元マルチストリームCNNアーキテクチャを提案する。 本稿では,2面(二重平面)と3面(三重平面)の画像配向の2種類のアーキテクチャについて検討する。 それらを、文学、すなわち平軸セグメンテーションで使われる標準ベースライン(単平面)と比較する。 公平な比較を実現するために,各手法の最適構成を選択するためにハイパーパラメータ最適化戦略を用いる。 結果: 複数部位にまたがる2つのデータセットのトレーニングと評価は, 原軸セグメンテーション(Dice類似度係数のp<0.05$)に対して統計的に有意な改善が得られた。 この改良は特にベースで観測できる($0.898$ single-plane vs. $0.906$ triple-plane)とapex ($0.888$ single-plane vs. $0.901$ dual-plane)。 結論: 本研究は, 2~3つの走査方向を用いたモデルが平面軸分割よりも優れていることを示す。 前立腺の正確な境界に関する知識は、リスク構造の保存に不可欠である。 したがって,提案モデルは前立腺がんの診断と治療の結果を改善する可能性を秘めている。

Background and Objective: Accurate and reliable segmentation of the prostate gland in MR images can support the clinical assessment of prostate cancer, as well as the planning and monitoring of focal and loco-regional therapeutic interventions. Despite the availability of multi-planar MR scans due to standardized protocols, the majority of segmentation approaches presented in the literature consider the axial scans only. Methods: We propose an anisotropic 3D multi-stream CNN architecture, which processes additional scan directions to produce a higher-resolution isotropic prostate segmentation. We investigate two variants of our architecture, which work on two (dual-plane) and three (triple-plane) image orientations, respectively. We compare them with the standard baseline (single-plane) used in literature, i.e., plain axial segmentation. To realize a fair comparison, we employ a hyperparameter optimization strategy to select optimal configurations for the individual approaches. Results: Training and evaluation on two datasets spanning multiple sites obtain statistical significant improvement over the plain axial segmentation ($p<0.05$ on the Dice similarity coefficient). The improvement can be observed especially at the base ($0.898$ single-plane vs. $0.906$ triple-plane) and apex ($0.888$ single-plane vs. $0.901$ dual-plane). Conclusion: This study indicates that models employing two or three scan directions are superior to plain axial segmentation. The knowledge of precise boundaries of the prostate is crucial for the conservation of risk structures. Thus, the proposed models have the potential to improve the outcome of prostate cancer diagnosis and therapies.
翻訳日:2022-10-15 16:37:44 公開日:2020-12-02
# レプリケート・シミュレート・アニーリング(Simulated Annealing)について

Some Remarks on Replicated Simulated Annealing ( http://arxiv.org/abs/2009.14702v2 )

ライセンス: Link先を確認
Vincent Gripon, Matthias L\"owe, Franck Vermet(参考訳) 近年、統計物理学の文献から知られている古典的擬似アニールとレプリカアンザッツの混合を用いて離散重み付けニューラルネットワークを訓練するアイデアを導入している。 その他の点として、彼らのメソッドは堅牢な構成を見つけることができると主張している。 本稿では,この「複製擬似アニーリング」アルゴリズムを解析する。 特に,コンバージェンスを保証するための明確な基準と,コンフィグレーションからのサンプルの収集に成功した時期について検討する。 また,合成および実データを用いた実験を行った。

Recently authors have introduced the idea of training discrete weights neural networks using a mix between classical simulated annealing and a replica ansatz known from the statistical physics literature. Among other points, they claim their method is able to find robust configurations. In this paper, we analyze this so-called "replicated simulated annealing" algorithm. In particular, we explicit criteria to guarantee its convergence, and study when it successfully samples from configurations. We also perform experiments using synthetic and real data bases.
翻訳日:2022-10-12 22:16:00 公開日:2020-12-02
# チャーン分析に関する調査

A Survey on Churn Analysis ( http://arxiv.org/abs/2010.13119v3 )

ライセンス: Link先を確認
Jaehuyn Ahn(参考訳) 本稿では,これまでにリリースされたチャーン予測手法について述べる。 チャーン予測はインターネットサービス、ゲーム、保険、管理の分野で使われている。 しかし、様々な産業・学術分野の予測可能性を高めるために集中的に使用されているため、その定義と利用に大きな違いがある。 本稿では,ビジネスマネジメント,マーケティング,IT,通信,新聞,保険,心理学の分野において用いられるチャーンの定義を収集し,その相違について述べる。 これに基づいて、チャーン損失、機能エンジニアリング、予測モデルを分類し、説明しました。 本研究は,産業・学術分野における分断されたチャーン研究を統合することにより,サービス分野に適したチャーンの定義とその関連モデルを選択することができる。

In this paper, I present churn prediction techniques that have been released so far. Churn prediction is used in the fields of Internet services, games, insurance, and management. However, since it has been used intensively to increase the predictability of various industry/academic fields, there is a big difference in its definition and utilization. In this paper, I collected the definitions of churn used in the fields of business administration, marketing, IT, telecommunications, newspapers, insurance and psychology, and described their differences. Based on this, I classified and explained churn loss, feature engineering, and prediction models. Our study can be used to select the definition of churn and its associated models suitable for the service field that researchers are most interested in by integrating fragmented churn studies in industry/academic fields.
翻訳日:2022-10-03 04:59:32 公開日:2020-12-02
# グラフニューラルネットワークとグラフ拡張MLPについて

On Graph Neural Networks versus Graph-Augmented MLPs ( http://arxiv.org/abs/2010.15116v2 )

ライセンス: Link先を確認
Lei Chen, Zhengdao Chen, Joan Bruna(参考訳) 表現力の観点から、この研究は多層グラフニューラルネットワーク(GNN)とグラフ拡張マルチ層パーセプトロン(GA-MLP)と呼ばれる単純化された代替手段を比較し、まずグラフ上の特定のマルチホップ演算子でノード機能を拡張し、ノードワイズでMPPを適用する。 グラフ同型テストの観点から、適切な演算子を持つ GA-MLP が、Weifeiler-Lehman (WL) テストのように、ほぼすべての非同型グラフを区別できることを示す。 しかし、これらをノードレベル関数と見なし、根付きグラフ上で誘導される同値類を調べることにより、指数関数的に増加するGA-MLPとGNNとの表現力の分離が証明される。 特にGNNとは異なり、GA-MLPは属性されたウォークの数をカウントできない。 また,GA-MLPは,学習の柔軟性が高いGNNと比較して,演算子ファミリーの選択によって制限できることを示す。

From the perspective of expressive power, this work compares multi-layer Graph Neural Networks (GNNs) with a simplified alternative that we call Graph-Augmented Multi-Layer Perceptrons (GA-MLPs), which first augments node features with certain multi-hop operators on the graph and then applies an MLP in a node-wise fashion. From the perspective of graph isomorphism testing, we show both theoretically and numerically that GA-MLPs with suitable operators can distinguish almost all non-isomorphic graphs, just like the Weifeiler-Lehman (WL) test. However, by viewing them as node-level functions and examining the equivalence classes they induce on rooted graphs, we prove a separation in expressive power between GA-MLPs and GNNs that grows exponentially in depth. In particular, unlike GNNs, GA-MLPs are unable to count the number of attributed walks. We also demonstrate via community detection experiments that GA-MLPs can be limited by their choice of operator family, as compared to GNNs with higher flexibility in learning.
翻訳日:2022-10-02 05:02:27 公開日:2020-12-02
# LIFI:言語的にインフォームドされたフレーム補間を目指して

LIFI: Towards Linguistically Informed Frame Interpolation ( http://arxiv.org/abs/2010.16078v5 )

ライセンス: Link先を確認
Aradhya Neeraj Mathur, Devansh Batra, Yaman Kumar, Rajiv Ratn Shah, Roger Zimmermann(参考訳) 本研究では,音声ビデオのフレーム補間における新しい問題について検討する。 現在、このようなコンテンツはオンラインコミュニケーションの主要な形態となっている。 我々は,いくつかのディープラーニングビデオ生成アルゴリズムを用いて,行方不明フレームを生成することにより,この問題を解決しようとしている。 また,従来の非言語指標で高い性能を示すコンピュータビジョンモデルでは,音声の忠実な補間が得られない例を示す。 このモチベーションにより、音声ビデオ補間問題に特化して、言語的にインフォームドされた新しい指標セットを提供する。 音声理解のコンピュータビジョン映像生成モデルをテストするためのデータセットもいくつかリリースしている。

In this work, we explore a new problem of frame interpolation for speech videos. Such content today forms the major form of online communication. We try to solve this problem by using several deep learning video generation algorithms to generate the missing frames. We also provide examples where computer vision models despite showing high performance on conventional non-linguistic metrics fail to accurately produce faithful interpolation of speech. With this motivation, we provide a new set of linguistically-informed metrics specifically targeted to the problem of speech videos interpolation. We also release several datasets to test computer vision video generation models of their speech understanding.
翻訳日:2022-10-01 17:10:48 公開日:2020-12-02
# 量子イメージセンサを用いたHDRイメージング:理論的限界と最適再構成

HDR Imaging with Quanta Image Sensors: Theoretical Limits and Optimal Reconstruction ( http://arxiv.org/abs/2011.03614v2 )

ライセンス: Link先を確認
Abhiram Gnanasambandam and Stanley H. Chan(参考訳) 高ダイナミックレンジ(HDR)イメージングは、現代の写真における最大の成果の1つである。 HDRイメージングの従来のソリューションはCMOSイメージセンサ(CIS)用に設計され応用されている。 しかし、現在のメインストリームの1ミクロンcisカメラは、読み出しノイズが高く、フレームレートが低い。 これらによって、取得速度と品質が制限され、hdrモードではカメラが遅くなる。 本稿では,HDRイメージングのための新しい計算撮影手法を提案する。 CISの限界を認識して、Quanta Image Sensor(QIS)を用いて、空間時間分解能をビット深度で交換する。 QISは単光子イメージセンサーで、CISに匹敵するピクセルピッチを持つが、暗電流や読み出しノイズは著しく低い。 我々は、QISが提供できるダイナミックレンジの基本的な限界とノイズと速度のトレードオフを証明し、HDRイメージングの文脈におけるセンサの完全な理論的特徴を与える。 さらに、単一ビットおよび多ビットQISに対する最適再構成アルゴリズムを導出する。 本アルゴリズムは,露光ブラケットに基づく線形再構成スキームに対して理論的に最適である。 実験結果は, 合成および実QISデータに基づく理論とアルゴリズムの有効性を確認した。

High dynamic range (HDR) imaging is one of the biggest achievements in modern photography. Traditional solutions to HDR imaging are designed for and applied to CMOS image sensors (CIS). However, the mainstream one-micron CIS cameras today generally have a high read noise and low frame-rate. These, in turn, limit the acquisition speed and quality, making the cameras slow in the HDR mode. In this paper, we propose a new computational photography technique for HDR imaging. Recognizing the limitations of CIS, we use the Quanta Image Sensor (QIS) to trade the spatial-temporal resolution with bit-depth. QIS is a single-photon image sensor that has comparable pixel pitch to CIS but substantially lower dark current and read noise. We provide a complete theoretical characterization of the sensor in the context of HDR imaging, by proving the fundamental limits in the dynamic range that QIS can offer and the trade-offs with noise and speed. In addition, we derive an optimal reconstruction algorithm for single-bit and multi-bit QIS. Our algorithm is theoretically optimal for \emph{all} linear reconstruction schemes based on exposure bracketing. Experimental results confirm the validity of the theory and algorithm, based on synthetic and real QIS data.
翻訳日:2022-09-29 05:26:26 公開日:2020-12-02
# DyERNIE: 時間知識グラフ補完のためのリーマン多様体の動的進化

DyERNIE: Dynamic Evolution of Riemannian Manifold Embeddings for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2011.03984v2 )

ライセンス: Link先を確認
Zhen Han, Yunpu Ma, Peng Chen, Volker Tresp(参考訳) 近年,時間的知識グラフ(KG)の学習表現への関心が高まっている。 時間的KGはしばしば、階層構造や巡回構造のような複数の非ユークリッド構造を示す。 しかし、時間的KGに対する既存の埋め込みアプローチは、通常ユークリッド空間における実体表現とその動的進化を学習するが、そのような固有構造をうまく捉えないかもしれない。 そこで本研究では,リーマン多様体の積における発展する実体表現を学習する非ユークリッド埋め込み手法であるdiadernieを提案する。 積多様体は、時間的KG上の幅広い幾何学的構造をよりよく反映することができる。 さらに、時間的kgの進化的ダイナミクスを捉えるために、各タイムスタンプの接空間で定義される速度ベクトルに従って実体表現を進化させる。 時空間KGの表現学習における幾何学空間の寄与を詳細に分析し,時間知識グラフ補完タスクにおけるモデルの評価を行う。 3つの実世界のデータセットに関する広範囲な実験は、リーマン多様体上の埋め込みの進化によって、マルチリレーショナルグラフデータのダイナミクスをより適切にモデル化できることを示した。

There has recently been increasing interest in learning representations of temporal knowledge graphs (KGs), which record the dynamic relationships between entities over time. Temporal KGs often exhibit multiple simultaneous non-Euclidean structures, such as hierarchical and cyclic structures. However, existing embedding approaches for temporal KGs typically learn entity representations and their dynamic evolution in the Euclidean space, which might not capture such intrinsic structures very well. To this end, we propose Dy- ERNIE, a non-Euclidean embedding approach that learns evolving entity representations in a product of Riemannian manifolds, where the composed spaces are estimated from the sectional curvatures of underlying data. Product manifolds enable our approach to better reflect a wide variety of geometric structures on temporal KGs. Besides, to capture the evolutionary dynamics of temporal KGs, we let the entity representations evolve according to a velocity vector defined in the tangent space at each timestamp. We analyze in detail the contribution of geometric spaces to representation learning of temporal KGs and evaluate our model on temporal knowledge graph completion tasks. Extensive experiments on three real-world datasets demonstrate significantly improved performance, indicating that the dynamics of multi-relational graph data can be more properly modeled by the evolution of embeddings on Riemannian manifolds.
翻訳日:2022-09-28 08:02:46 公開日:2020-12-02
# 改良型YOLOv4-tinyに基づくリアルタイム物体検出法

Real-time object detection method based on improved YOLOv4-tiny ( http://arxiv.org/abs/2011.04244v2 )

ライセンス: Link先を確認
Zicong Jiang, Liquan Zhao, Shuaiyang Li, Yanfei Jia(参考訳) You only look once v4" (YOLOv4) はディープラーニングにおけるオブジェクト検出手法の一種である。 YOLOv4-tiny は YOLOv4 に基づいて提案され,ネットワーク構造をシンプルにし,パラメータを削減する。 物体検出のリアルタイム化を目的として, YOLOv4-tinyに基づく高速物体検出手法を提案する。 まず、Yolov4-tinyの2つのCSPBlockモジュールの代わりにResNet-Dネットワークで2つのResBlock-Dモジュールを使用する。 第2に,検出誤差を低減すべく,物体の特徴情報抽出のための補助ネットワークブロックを設計した。 補助ネットワークの設計では、2つの連続する3x3畳み込みを用いて、グローバル特徴を抽出する5x5受容場を得るとともに、より効果的な情報を抽出するためにチャンネルの注意と空間的注意を用いる。 最後に、補助ネットワークとバックボーンネットワークをマージし、改良されたyolov4-tinyのネットワーク構造全体を構築する。 シミュレーションの結果,提案手法はYOLOv4-tinyやYOLOv3-tinyよりも高速で,平均精度はYOLOv4-tinyに近いことがわかった。 リアルタイムのオブジェクト検出に適している。

The "You only look once v4"(YOLOv4) is one type of object detection methods in deep learning. YOLOv4-tiny is proposed based on YOLOv4 to simple the network structure and reduce parameters, which makes it be suitable for developing on the mobile and embedded devices. To improve the real-time of object detection, a fast object detection method is proposed based on YOLOv4-tiny. It firstly uses two ResBlock-D modules in ResNet-D network instead of two CSPBlock modules in Yolov4-tiny, which reduces the computation complexity. Secondly, it designs an auxiliary residual network block to extract more feature information of object to reduce detection error. In the design of auxiliary network, two consecutive 3x3 convolutions are used to obtain 5x5 receptive fields to extract global features, and channel attention and spatial attention are also used to extract more effective information. In the end, it merges the auxiliary network and backbone network to construct the whole network structure of improved YOLOv4-tiny. Simulation results show that the proposed method has faster object detection than YOLOv4-tiny and YOLOv3-tiny, and almost the same mean value of average precision as the YOLOv4-tiny. It is more suitable for real-time object detection.
翻訳日:2022-09-28 00:17:45 公開日:2020-12-02
# 不変学習における公正性とロバスト性:毒性分類における事例研究

Fairness and Robustness in Invariant Learning: A Case Study in Toxicity Classification ( http://arxiv.org/abs/2011.06485v2 )

ライセンス: Link先を確認
Robert Adragna, Elliot Creager, David Madras, Richard Zemel(参考訳) 堅牢性は機械学習において重要であり、ドメイン一般化と不変学習の分野を生み出し、トレーニング分布とは別個のテスト分布のパフォーマンス向上に寄与している。 近年の研究では、正当性と頑健性との密接な関係を示唆する研究から、ロバストMLのアルゴリズムが偏りのあるデータで訓練され、偏りのないデータでテストされる分類器の公平性を改善するために利用できるかどうかを考察する。 インターネットコメントの毒性をかなり予測するタスクに対して,因果発見に触発された手法を用いて堅牢な予測者を見つけるドメイン一般化アルゴリズムであるinvariant risk minimization (irm) を適用する。 IRMは経験的リスク最小化法(Empiral Risk Minimization, ERM)よりも分布外精度と公平性を向上し, 実際にIRMを適用した際の困難さと, IRMが有効である可能性のある条件の両方を分析した。 この研究によって、堅牢な機械学習手法がアルゴリズムの公正性にどのように関係するか、さらなる研究がもたらされることを願っている。

Robustness is of central importance in machine learning and has given rise to the fields of domain generalization and invariant learning, which are concerned with improving performance on a test distribution distinct from but related to the training distribution. In light of recent work suggesting an intimate connection between fairness and robustness, we investigate whether algorithms from robust ML can be used to improve the fairness of classifiers that are trained on biased data and tested on unbiased data. We apply Invariant Risk Minimization (IRM), a domain generalization algorithm that employs a causal discovery inspired method to find robust predictors, to the task of fairly predicting the toxicity of internet comments. We show that IRM achieves better out-of-distribution accuracy and fairness than Empirical Risk Minimization (ERM) methods, and analyze both the difficulties that arise when applying IRM in practice and the conditions under which IRM will likely be effective in this scenario. We hope that this work will inspire further studies of how robust machine learning methods relate to algorithmic fairness.
翻訳日:2022-09-26 06:16:02 公開日:2020-12-02
# 大気光と散乱係数推定による散乱媒質中の深層多視点ステレオの消音コスト体積

Dehazing Cost Volume for Deep Multi-view Stereo in Scattering Media with Airlight and Scattering Coefficient Estimation ( http://arxiv.org/abs/2011.09114v2 )

ライセンス: Link先を確認
Yuki Fujimura, Motoharu Sonogashira, Masaaki Iiyama(参考訳) 本稿では, 霧や煙などの散乱媒体における学習型マルチビューステレオ(MVS)手法を提案する。 散乱媒体で撮影された画像は、懸濁粒子による光散乱と減衰により劣化する。 この劣化はシーンの深さに依存するため、従来のMVS法では3次元の3次元再構成前の深さが不明であるため、光度整合性を評価することは困難である。 除染コストボリュームは,スウェプト平面を用いた散乱効果を計算し,この深さ推定と画像復元のニワトリ・アンド・エッグ問題を解くことができる。 また, 大気光等の散乱パラメータや散乱係数を推定する方法を提案する。 これらのパラメータの関数として, ネットワークの出力深度を推定できるので, 移動段階から得られるスパース3D点雲を幾何的に最適化することができる。 合成したhazy画像を用いた実験の結果, 散乱媒体に関する平均コスト体積に対する消泡コスト体積の有効性が示された。 また,実際の霧のシーンに消耗するコストボリュームの適用性も実証した。

We propose a learning-based multi-view stereo (MVS) method in scattering media, such as fog or smoke, with a novel cost volume, called the dehazing cost volume. Images captured in scattering media are degraded due to light scattering and attenuation caused by suspended particles. This degradation depends on scene depth; thus, it is difficult for traditional MVS methods to evaluate photometric consistency because the depth is unknown before three-dimensional (3D) reconstruction. The dehazing cost volume can solve this chicken-and-egg problem of depth estimation and image restoration by computing the scattering effect using swept planes in the cost volume. We also propose a method of estimating scattering parameters, such as airlight, and a scattering coefficient, which are required for our dehazing cost volume. The output depth of a network with our dehazing cost volume can be regarded as a function of these parameters; thus, they are geometrically optimized with a sparse 3D point cloud obtained at a structure-from-motion step. Experimental results on synthesized hazy images indicate the effectiveness of our dehazing cost volume against the ordinary cost volume regarding scattering media. We also demonstrated the applicability of our dehazing cost volume to real foggy scenes.
翻訳日:2022-09-24 04:21:20 公開日:2020-12-02
# (参考訳) 逐次特徴関連と奥行き増強による単眼的3次元物体検出

Monocular 3D Object Detection with Sequential Feature Association and Depth Hint Augmentation ( http://arxiv.org/abs/2011.14589v3 )

ライセンス: CC BY 4.0
Tianze Gao, Huihui Pan, Huijun Gao(参考訳) モノキュラー3次元物体検出は、自律運転の知的知覚システムにとって有望な研究課題である。 本研究では,FADNetと呼ばれる単一ステージのキーポイントベースネットワークを提示し,モノクロ3Dオブジェクト検出の課題に対処する。 出力分岐に同一のレイアウトを取り入れた従来のキーポイント方式とは対照的に、推定困難度に応じて出力モードを異なるグループに分割し、異なるグループを逐次的特徴結合によって異なる扱いをする。 この研究のもうひとつの貢献は、深さヒント増強の戦略である。 深度推定用ヒントとして特徴的深度パターンを提供することを課題とし、専用深度ヒントモジュールは、ビンワイズで明示的に管理された深度ヒントと呼ばれる行ワイズ特徴を生成するように設計されている。 トレーニング段階では、回帰出力を均一に符号化し、損失分散を可能にする。 2D損失項はさらに、小物体の検出精度を向上させるために深度認識に適合する。 この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。 我々のネットワークは、深さ優先やポスト最適化などの改良モジュールを使わずに、適正な実行速度を維持しながら最先端の手法に対して競争力を発揮する。

Monocular 3D object detection is a promising research topic for the intelligent perception systems of autonomous driving. In this work, a single-stage keypoint-based network, named as FADNet, is presented to address the task of monocular 3D object detection. In contrast to previous keypoint-based methods which adopt identical layouts for output branches, we propose to divide the output modalities into different groups according to the estimating difficulty, whereby different groups are treated differently by sequential feature association. Another contribution of this work is the strategy of depth hint augmentation. To provide characterized depth patterns as hints for depth estimation, a dedicated depth hint module is designed to generate row-wise features named as depth hints, which are explicitly supervised in a bin-wise manner. In the training stage, the regression outputs are uniformly encoded to enable loss disentanglement. The 2D loss term is further adapted to be depth-aware for improving the detection accuracy of small objects. The contributions of this work are validated by conducting experiments and ablation study on the KITTI benchmark. Without utilizing depth priors, post optimization, or other refinement modules, our network performs competitively against state-of-the-art methods while maintaining a decent running speed.
翻訳日:2021-06-07 04:51:12 公開日:2020-12-02
# FairFaceGAN:Fairness-Aware Facial Image-to- Image Translation

FairFaceGAN: Fairness-aware Facial Image-to-Image Translation ( http://arxiv.org/abs/2012.00282v2 )

ライセンス: Link先を確認
Sunhee Hwang, Sungho Park, Dohyung Kim, Mirae Do, Hyeran Byun(参考訳) 本稿では,顔属性編集における保護属性(性別,年齢,人種など)の不要な翻訳問題を緩和する,フェアネスを意識した顔画像から画像への翻訳モデルfairfaceganを提案する。 既存のモデルとは異なり、fairfaceganは2つの異なる潜在子を持つフェア表現を学習する。 この戦略により、FairFaceGANは保護属性とターゲット属性に関する情報を分離することができる。 また、ターゲット属性の編集中に保護属性の不要な翻訳を防ぐ。 公平性を評価するため,celebaデータセット上で2種類の実験を行った。 まず,既存の画像翻訳手法とFairFaceGANによるデータ拡張時の公平性を考慮した分類性能を比較した。 さらに,Frechet Protected Attribute Distance (FPAD) と呼ばれる,保護属性の保存性を評価する新しいフェアネス尺度を提案する。 実験により、FairFaceGANは既存の画像翻訳モデルよりも公平性において一貫した改善を示した。 さらに、FairFaceGANが既存の手法と比較して競合する結果を示す画像翻訳性能も評価する。

In this paper, we introduce FairFaceGAN, a fairness-aware facial Image-to-Image translation model, mitigating the problem of unwanted translation in protected attributes (e.g., gender, age, race) during facial attributes editing. Unlike existing models, FairFaceGAN learns fair representations with two separate latents - one related to the target attributes to translate, and the other unrelated to them. This strategy enables FairFaceGAN to separate the information about protected attributes and that of target attributes. It also prevents unwanted translation in protected attributes while target attributes editing. To evaluate the degree of fairness, we perform two types of experiments on CelebA dataset. First, we compare the fairness-aware classification performances when augmenting data by existing image translation methods and FairFaceGAN respectively. Moreover, we propose a new fairness metric, namely Frechet Protected Attribute Distance (FPAD), which measures how well protected attributes are preserved. Experimental results demonstrate that FairFaceGAN shows consistent improvements in terms of fairness over the existing image translation models. Further, we also evaluate image translation performances, where FairFaceGAN shows competitive results, compared to those of existing methods.
翻訳日:2021-05-30 19:51:53 公開日:2020-12-02
# 知識蒸留による正規化を継承する可解モデル

Solvable Model for Inheriting the Regularization through Knowledge Distillation ( http://arxiv.org/abs/2012.00194v2 )

ライセンス: Link先を確認
Luca Saglietti and Lenka Zdeborov\'a(参考訳) 近年,ニューラルネットワークによる伝達学習の実証的成功は,そのコア特性の理論的理解の獲得への関心を高めている。 より大きなニューラルネットワークの出力を使って、より小さなニューラルネットワークを訓練する知識蒸留は、転送学習の特に興味深いケースである。 本研究では,浅層ニューラルネットワークにおける知識蒸留(KD)の特性を解析的に評価できる統計物理フレームワークを提案する。 非自明な一般化ギャップを示す可解モデルの解析に着目し、KDの有効性を検討する。 kdにより,より大きな教師モデルの正規化特性は小学生に受け継がれ,得られた一般化性能は教師の最適性によって密接に関連し,制限されていることを示すことができる。 最後に、考慮されたKD設定で起こりうる二重降下現象を解析する。

In recent years the empirical success of transfer learning with neural networks has stimulated an increasing interest in obtaining a theoretical understanding of its core properties. Knowledge distillation where a smaller neural network is trained using the outputs of a larger neural network is a particularly interesting case of transfer learning. In the present work, we introduce a statistical physics framework that allows an analytic characterization of the properties of knowledge distillation (KD) in shallow neural networks. Focusing the analysis on a solvable model that exhibits a non-trivial generalization gap, we investigate the effectiveness of KD. We are able to show that, through KD, the regularization properties of the larger teacher model can be inherited by the smaller student and that the yielded generalization performance is closely linked to and limited by the optimality of the teacher. Finally, we analyze the double descent phenomenology that can arise in the considered KD setting.
翻訳日:2021-05-30 19:28:30 公開日:2020-12-02
# (参考訳) 高次元出力の多次元能動学習

Deep Multi-Fidelity Active Learning of High-dimensional Outputs ( http://arxiv.org/abs/2012.00901v1 )

ライセンス: CC BY 4.0
Shibo Li, Robert M. Kirby, Shandian Zhe(参考訳) 物理シミュレーションや工学設計などの多くの応用では、高次元の出力を持つ関数を推定する必要がある。 トレーニング例は、コスト/精度のトレードオフを可能にするために、さまざまな忠実度で収集することができる。 本稿では,新たなトレーニング事例を探索し,有効性とインプットの両方を識別する能動的学習タスクについて考察する。 そこで本研究では,Deep Multi-Fidelity Active LearningアプローチであるDMFALを提案する。 まず、高次元出力で学習するディープニューラルネットワークに基づく多要素モデルを開発し、このモデルにより、出力と忠実さのあらゆる種類の複雑な関係を柔軟に、効率的に捕捉し、予測を改善することができる。 次に,予測エントロピー原理を拡張する相互情報に基づく獲得関数を提案する。 大きな出力次元によって生じる計算上の課題を克服するために、多変量デルタ法とモーメントマッチングを用いて出力の後方推定を行い、weinstein-aronszajn id を用いて取得関数の計算と最適化を行う。 計算は扱いやすく、信頼性があり、効率的である。 計算物理学と工学設計のいくつかの応用において,本手法の利点を示す。

Many applications, such as in physical simulation and engineering design, demand we estimate functions with high-dimensional outputs. The training examples can be collected with different fidelities to allow a cost/accuracy trade-off. In this paper, we consider the active learning task that identifies both the fidelity and input to query new training examples so as to achieve the best benefit-cost ratio. To this end, we propose DMFAL, a Deep Multi-Fidelity Active Learning approach. We first develop a deep neural network-based multi-fidelity model for learning with high-dimensional outputs, which can flexibly, efficiently capture all kinds of complex relationships across the outputs and fidelities to improve prediction. We then propose a mutual information-based acquisition function that extends the predictive entropy principle. To overcome the computational challenges caused by large output dimensions, we use multi-variate Delta's method and moment-matching to estimate the output posterior, and Weinstein-Aronszajn identity to calculate and optimize the acquisition function. The computation is tractable, reliable and efficient. We show the advantage of our method in several applications of computational physics and engineering design.
翻訳日:2021-05-30 17:37:57 公開日:2020-12-02
# (参考訳) 船の検出:パラメータサーバの変種

Ship Detection: Parameter Server Variant ( http://arxiv.org/abs/2012.00953v1 )

ライセンス: CC BY 4.0
Benjamin Smith(参考訳) 衛星写真における深層学習船の検出は、雲、地塊、人造物体による偽陽性の発生に悩まされ、船の正確な分類に干渉し、通常はクラス精度のスコアを88\%に制限する。 この研究は、クラウドベースのソリューションにおけるカスタマイズ戦略、クラス精度率、トレーニング時間、コストの間の緊張関係を調査します。 我々は、カスタムU-Netが検証データセットで92\%、ターゲットデータセットで68\%の精度を90%の信頼性で達成できることを実証する。 また,単一ノードアーキテクチャと,ワーカがブースティングメカニズムとして機能するパラメータサーバの変種を比較した。 パラメータサーバの変種は、最高の単一ノードアプローチと比較して、ターゲットデータセットのクラス精度が73\%に達する。 単一ノードとパラメータサーバの変動型アーキテクチャの系統的性能に関する比較研究を経験的知見から支援して論じる。

Deep learning ship detection in satellite optical imagery suffers from false positive occurrences with clouds, landmasses, and man-made objects that interfere with correct classification of ships, typically limiting class accuracy scores to 88\%. This work explores the tensions between customization strategies, class accuracy rates, training times, and costs in cloud based solutions. We demonstrate how a custom U-Net can achieve 92\% class accuracy over a validation dataset and 68\% over a target dataset with 90\% confidence. We also compare a single node architecture with a parameter server variant whose workers act as a boosting mechanism. The parameter server variant outperforms class accuracy on the target dataset reaching 73\% class accuracy compared to the best single node approach. A comparative investigation on the systematic performance of the single node and parameter server variant architectures is discussed with support from empirical findings.
翻訳日:2021-05-30 16:09:44 公開日:2020-12-02
# (参考訳) 顕在的機能マッピングの先行する深部逆センサモデル

Deep Inverse Sensor Models as Priors for evidential Occupancy Mapping ( http://arxiv.org/abs/2012.02111v1 )

ライセンス: CC BY 4.0
Daniel Bauer, Lars Kuhnert, Lutz Eckstein(参考訳) 近年の自動運転の普及に伴い、居住マッピングのインプットとしてレーダーへの注目が高まっている。 それらの多くの利点に加えて、レーダー検出に基づく占有空間の推測は、データ空間と環境依存ノイズ(例)のため、非常に難しい。 マルチパスリフレクション)。 近年,deep ismと呼ばれる深層学習に基づく逆センサモデルが,空間情報検索において,幾何センサモデルよりも精度が向上していることが示されている。 しかしながら、これらの手法はデータ駆動補間を行い、後に測定の有無で検証する必要がある。 本稿では,深部ISMと幾何ISMを一体化するための新しいアプローチについて述べる。 本手法は, 幾何モデルでは観測不能なセルを初期化するためのデータ駆動アプローチの能力と, 知覚場と収束速度を効果的に向上させると同時に, 幾何学的 ism の精度を利用して鋭い境界に収束する能力の両方を活用する。 我々はさらに、深部ISM推定の確実性に対する低い限界と、深部ISMにのみ割り当てられた細胞を、幾何的アプローチで検証済みの細胞と区別するために使用する収束の解析的証明を定義した。

With the recent boost in autonomous driving, increased attention has been paid on radars as an input for occupancy mapping. Besides their many benefits, the inference of occupied space based on radar detections is notoriously difficult because of the data sparsity and the environment dependent noise (e.g. multipath reflections). Recently, deep learning-based inverse sensor models, from here on called deep ISMs, have been shown to improve over their geometric counterparts in retrieving occupancy information. Nevertheless, these methods perform a data-driven interpolation which has to be verified later on in the presence of measurements. In this work, we describe a novel approach to integrate deep ISMs together with geometric ISMs into the evidential occupancy mapping framework. Our method leverages both the capabilities of the data-driven approach to initialize cells not yet observable for the geometric model effectively enhancing the perception field and convergence speed, while at the same time use the precision of the geometric ISM to converge to sharp boundaries. We further define a lower limit on the deep ISM estimate's certainty together with analytical proofs of convergence which we use to distinguish cells that are solely allocated by the deep ISM from cells already verified using the geometric approach.
翻訳日:2021-05-30 15:46:59 公開日:2020-12-02
# (参考訳) マルチビューデータを用いた部分共有半教師付き深層行列分解

Partially Shared Semi-supervised Deep Matrix Factorization with Multi-view Data ( http://arxiv.org/abs/2012.00993v1 )

ライセンス: CC BY 4.0
Haonan Huang, Naiyao Liang, Wei Yan, Zuyuan Yang, Weijun Sun(参考訳) 多くの現実世界のデータは複数の視点から記述できるため、多視点学習が注目されている。 行列因数分解モデルに基づいて,様々な手法が提案され,多視点学習に成功している。 近年,多視点データの階層情報を活用するために深層構造に拡張されているが,ビュー特有の特徴やラベル情報は考慮されていない。 これらの問題に対処するため、部分共有半教師付き深層行列分解モデル(PSDMF)を提案する。 部分共有深部分解構造、グラフ正規化、半教師付き回帰モデルを統合することにより、PSDMFは非相関情報の影響を排除してコンパクトかつ識別的な表現を学習することができる。 さらに,PSDMFの効率的な反復更新アルゴリズムを開発した。 5つのベンチマークデータセットの大規模な実験により、PSDMFは最先端のマルチビュー学習アプローチよりも優れたパフォーマンスを達成できることが示された。 MATLABのソースコードはhttps://github.com/libertyhhn/PartiallySharedDMFで入手できる。

Since many real-world data can be described from multiple views, multi-view learning has attracted considerable attention. Various methods have been proposed and successfully applied to multi-view learning, typically based on matrix factorization models. Recently, it is extended to the deep structure to exploit the hierarchical information of multi-view data, but the view-specific features and the label information are seldom considered. To address these concerns, we present a partially shared semi-supervised deep matrix factorization model (PSDMF). By integrating the partially shared deep decomposition structure, graph regularization and the semi-supervised regression model, PSDMF can learn a compact and discriminative representation through eliminating the effects of uncorrelated information. In addition, we develop an efficient iterative updating algorithm for PSDMF. Extensive experiments on five benchmark datasets demonstrate that PSDMF can achieve better performance than the state-of-the-art multi-view learning approaches. The MATLAB source code is available at https://github.com/libertyhhn/PartiallySharedDMF.
翻訳日:2021-05-30 15:30:50 公開日:2020-12-02
# (参考訳) マルチモーダルヘイトスピーチの分類 -ヘイトフルミームチャレンジの勝利ソリューション-

Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge ( http://arxiv.org/abs/2012.01002v1 )

ライセンス: CC BY 4.0
Xiayu Zhong(参考訳) Hateful Memesは、マルチモーダルなミームにおけるヘイトスピーチの検出に焦点を当てた、マルチモーダルな分類のための新しい課題セットである。 複雑なサンプルがデータセットに追加され、単一モーダル信号への依存が困難になるため、マルチモーダルモデルのみが成功できる。 Kielaによると、最先端の手法は、Hateful Memesの人間(64.73%対84.7%の精度)と比べて性能が劣っている。 本稿では,マルチモーダルとルールを組み合わせた新しいモデルを提案し,それぞれ86.8%,0.923の精度でAUROCをランク付けする。 これらのルールはトレーニングセットから抽出され、難しいサンプルの分類精度の向上に重点を置いている。

Hateful Memes is a new challenge set for multimodal classification, focusing on detecting hate speech in multimodal memes. Difficult examples are added to the dataset to make it hard to rely on unimodal signals, which means only multimodal models can succeed. According to Kiela,the state-of-the-art methods perform poorly compared to humans (64.73% vs. 84.7% accuracy) on Hateful Memes. I propose a new model that combined multimodal with rules, which achieve the first ranking of accuracy and AUROC of 86.8% and 0.923 respectively. These rules are extracted from training set, and focus on improving the classification accuracy of difficult samples.
翻訳日:2021-05-30 15:15:29 公開日:2020-12-02
# (参考訳) 畳み込みニューラルネットワークを用いた顔認識とクラスタリングを用いたアーティスト・スタイル・年分類

Artist, Style And Year Classification Using Face Recognition And Clustering With Convolutional Neural Networks ( http://arxiv.org/abs/2012.01009v1 )

ライセンス: CC BY 4.0
Doruk Pancaroglu(参考訳) ファインアート絵画のアーティスト、年、スタイルの分類は、一般的に標準的な画像分類法、画像分割法、あるいは最近では畳み込みニューラルネットワーク(CNN)を用いて達成される。 本研究の目的は,CNNを用いた顔認識などの新たな顔認識手法を用いて,抽出した顔を用いて絵画をクラスタリングすることである。 1000人以上のアーティストから8万点以上の絵画からなるデータセットを選択し、3つの異なる顔認識とクラスタリングタスクを実行する。 生成されたクラスタは絵画のファイル名によって分析され、クラスタは大多数のアーティスト、年数、スタイルによって命名されます。 クラスタはさらに分析され、パフォーマンスメトリクスが計算されます。 この研究では、アーティスト、年、スタイルが58.8、63.7、81.3%の精度で集まり、クラスタの平均純度は63.1、72.4、85.9%である。

Artist, year and style classification of fine-art paintings are generally achieved using standard image classification methods, image segmentation, or more recently, convolutional neural networks (CNNs). This works aims to use newly developed face recognition methods such as FaceNet that use CNNs to cluster fine-art paintings using the extracted faces in the paintings, which are found abundantly. A dataset consisting of over 80,000 paintings from over 1000 artists is chosen, and three separate face recognition and clustering tasks are performed. The produced clusters are analyzed by the file names of the paintings and the clusters are named by their majority artist, year range, and style. The clusters are further analyzed and their performance metrics are calculated. The study shows promising results as the artist, year, and styles are clustered with an accuracy of 58.8, 63.7, and 81.3 percent, while the clusters have an average purity of 63.1, 72.4, and 85.9 percent.
翻訳日:2021-05-30 15:05:07 公開日:2020-12-02
# (参考訳) 強化学習を用いた自動運転車の運転政策適応安全対策

Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using Reinforcement Learning ( http://arxiv.org/abs/2012.01010v1 )

ライセンス: CC BY 4.0
Zhong Cao, Shaobing Xu, Songan Zhang, Huei Peng, Diange Yang(参考訳) aeb(advanced emergency braking)などのセーフガード機能は、自動運転車(av)に新たな安全層を提供することができる。 スマートセーフガード機能は、運転方針にアクティベーション条件を適応させ、不要な介入を避け、車両の安全性を向上させる。 本稿では,衝突回避戦略とアクティベーション機能を含むdpas(drive-policy adaptive safeguard)設計を提案する。 衝突回避戦略はモンテカルロ木探索(MCTS)で得られた強化学習フレームワークで設計されている。 過去の衝突から学び、確率的な交通の中でブレーキとステアリングの両方を操作できる。 運転-政策適応活性化機能は、現在の運転方針のリスクを動的に評価し、緊急の脅威が検出された場合に起動する。 このアクティベーション関数を生成するために、MCTSの探索およびロールアウトモジュールは、AVの現在の運転ポリシーを十分に評価し、さらに安全な動作を探索するように設計されている。 本研究では、DPASを2つの典型的な高速道路走行ポリシーで検証する。 その結果は確率的および攻撃的なシミュレートトラフィックにおいて90,000回も得られた。 その結果,提案したセーフガードは,州ベースのベンチマークセーフガードと比較して,より多くの介入を伴わずに衝突率を大幅に低減することを示した。 要約して,提案手法は確率的かつ創発的なシナリオにおいて学習に基づく手法を活用し,運転方針に最小限の影響を与える。

Safeguard functions such as those provided by advanced emergency braking (AEB) can provide another layer of safety for autonomous vehicles (AV). A smart safeguard function should adapt the activation conditions to the driving policy, to avoid unnecessary interventions as well as improve vehicle safety. This paper proposes a driving-policy adaptive safeguard (DPAS) design, including a collision avoidance strategy and an activation function. The collision avoidance strategy is designed in a reinforcement learning framework, obtained by Monte-Carlo Tree Search (MCTS). It can learn from past collisions and manipulate both braking and steering in stochastic traffics. The driving-policy adaptive activation function should dynamically assess current driving policy risk and kick in when an urgent threat is detected. To generate this activation function, MCTS' exploration and rollout modules are designed to fully evaluate the AV's current driving policy, and then explore other safer actions. In this study, the DPAS is validated with two typical highway-driving policies. The results are obtained through and 90,000 times in the stochastic and aggressive simulated traffic. The results are calibrated by naturalistic driving data and show that the proposed safeguard reduces the collision rate significantly without introducing more interventions, compared with the state-based benchmark safeguards. In summary, the proposed safeguard leverages the learning-based method in stochastic and emergent scenarios and imposes minimal influence on the driving policy.
翻訳日:2021-05-30 14:49:24 公開日:2020-12-02
# (参考訳) ニューラルネットワークを用いたスカイミオンの動的相のビデオからの次数パラメータの学習

Learning Order Parameters from Videos of Dynamical Phases for Skyrmions with Neural Networks ( http://arxiv.org/abs/2012.06308v1 )

ライセンス: CC BY 4.0
Weidi Wang, Zeyuan Wang, Yinghui Zhang, Bo Sun, and Ke Xia(参考訳) 動画から力学現象(例えば力学位相)や物理事象における力学過程を認識し、物理概念を抽象化し、物理法則を明らかにする能力は、人間の知性の中核にある。 本研究の主な目的は,ビデオの動的位相の分類にニューラルネットワークを用いることで,ニューラルネットワークが物理的概念を学習できることを実証することである。 この目的のために,複数のニューラルネットワークを用いて粒子ベースのskyrmionモデルの静的位相(画像形式)と動的位相(ビデオ形式)を認識する。 以上の結果から,ニューラルネットワークは,事前知識がなくても,これらの位相を正しく分類できるだけでなく,シミュレーションによって得られた位相境界を予測できることがわかった。 さらに,ニューラルネットワークが学んだことを解釈するためのパラメータ可視化手法を提案する。 ニューラルネットワークは動的位相のビデオから2つの順序パラメータを学習し、2つの順序パラメータの臨界値を予測する。 最後に,skyrmion動的位相の動画を識別するためには2つの順序パラメータのみが必要であることを実証する。 このパラメータ可視化手法により、入力フェーズを完全に認識するために何桁のパラメータが必要かを決定することができる。 私たちの研究は、新しい物理概念を発見し、ビデオから未知の物理法則を明らかにするために、未来のニューラルネットワークの使用に光を当てています。

The ability to recognize dynamical phenomena (e.g., dynamical phases) and dynamical processes in physical events from videos, then to abstract physical concepts and reveal physical laws, lies at the core of human intelligence. The main purposes of this paper are to use neural networks for classifying the dynamical phases of some videos and to demonstrate that neural networks can learn physical concepts from them. To this end, we employ multiple neural networks to recognize the static phases (image format) and dynamical phases (video format) of a particle-based skyrmion model. Our results show that neural networks, without any prior knowledge, can not only correctly classify these phases, but also predict the phase boundaries which agree with those obtained by simulation. We further propose a parameter visualization scheme to interpret what neural networks have learned. We show that neural networks can learn two order parameters from videos of dynamical phases and predict the critical values of two order parameters. Finally, we demonstrate that only two order parameters are needed to identify videos of skyrmion dynamical phases. It shows that this parameter visualization scheme can be used to determine how many order parameters are needed to fully recognize the input phases. Our work sheds light on the future use of neural networks in discovering new physical concepts and revealing unknown yet physical laws from videos.
翻訳日:2021-05-30 13:54:38 公開日:2020-12-02
# (参考訳) MAAD-Face: 顔画像のための膨大な注釈付き属性データセット

MAAD-Face: A Massively Annotated Attribute Dataset for Face Images ( http://arxiv.org/abs/2012.01030v1 )

ライセンス: CC BY-SA 4.0
Philipp Terh\"orst, Daniel F\"ahrmann, Jan Niklas Kolf, Naser Damer, Florian Kirchbuchner, and Arjan Kuijper(参考訳) ソフトバイオメトリックス(soft-biometrics)は、顔バイオメトリックスと関連分野において重要な役割を果たす。 現在の顔データベースは、顔認識アプリケーションの開発に特化して構築されている。 その結果、これらのデータベースには大量の顔画像が含まれているが、属性アノテーションの数や全体的なアノテーションの正確さが欠けている。 本稿では,その高品質な属性アノテーションを特徴とする新しい顔アノテーションデータベースであるmaadfaceを提案する。 MAADFaceはVGGFace2データベース上に構築されており、9k人以上の3.3Mの顔で構成されている。 複数のソースデータセットからターゲットデータセットへの正確なラベル転送を可能にする新しいアノテーション転送パイプを使用して、MAAD-Faceは47の異なるバイナリ属性の123.9M属性アノテーションで構成されている。 その結果、CelebAやLFWの15~137倍の属性ラベルが提供される。 本研究では,既存のデータベースよりもmaad-faceアノテーションが優れていることを示すため,人間3名の評価者によるアノテーション品質調査を行った。 さらに,MAAD-Faceからの大量の高品質アノテーションを活用して,ソフトバイオメトリックスの認識可能性について検討し,真偽の判断を支援する属性について考察する。 MAAD-Faceアノテーションデータセットが公開されている。

Soft-biometrics play an important role in face biometrics and related fields since these might lead to biased performances, threatens the user's privacy, or are valuable for commercial aspects. Current face databases are specifically constructed for the development of face recognition applications. Consequently, these databases contain large amount of face images but lack in the number of attribute annotations and the overall annotation correctness. In this work, we propose MAADFace, a new face annotations database that is characterized by the large number of its high-quality attribute annotations. MAADFace is build on the VGGFace2 database and thus, consists of 3.3M faces of over 9k individuals. Using a novel annotation transfer-pipeline that allows an accurate label-transfer from multiple source-datasets to a target-dataset, MAAD-Face consists of 123.9M attribute annotations of 47 different binary attributes. Consequently, it provides 15 and 137 times more attribute labels than CelebA and LFW. Our investigation on the annotation quality by three human evaluators demonstrated the superiority of the MAAD-Face annotations over existing databases. Additionally, we make use of the large amount of high-quality annotations from MAAD-Face to study the viability of soft-biometrics for recognition, providing insights about which attributes support genuine and imposter decisions. The MAAD-Face annotations dataset is publicly available.
翻訳日:2021-05-30 13:24:29 公開日:2020-12-02
# (参考訳) 埋め込みと論理則を用いたバイオメディカル知識グラフの微細化

Biomedical Knowledge Graph Refinement with Embedding and Logic Rules ( http://arxiv.org/abs/2012.01031v1 )

ライセンス: CC0 1.0
Sendong Zhao, Bing Qin, Ting Liu, Fei Wang(参考訳) 現在、直接的かつ正確なバイオメディカル知識を提供する高品質なバイオメディカル知識グラフ(BioKG)が急速に求められている。 新型コロナウイルス(covid-19)の状況では、この問題はさらに強調される必要がある。 しかし、ほとんどのBioKGの構築には、文学における誤った知識記述や欠陥情報抽出技術から生じる多くの矛盾やノイズが含まれている。 多くの研究は、知識グラフに基づく推論が、そのような矛盾やノイズを取り除くのに有効であることを示した。 本稿では,バイオkgにおける三重項をサポートし否定するナレッジグラフ埋め込みと論理規則を包括的に結合したバイオkgの品質向上手法を提案する。 The proposed model, the BioKG refinement problem is formulated as the probability estimation of triplet in the BioKG。 我々は変分emアルゴリズムを用いて知識グラフ埋め込みと論理規則推論を交互に最適化する。 このようにして、我々のモデルは知識グラフ埋め込みと論理ルールの両方からの努力を組み合わせることができるので、単独で使うよりも良い結果が得られるでしょう。 私たちは、covid-19のナレッジグラフよりもモデルを評価し、競争力のある結果を得る。

Currently, there is a rapidly increasing need for high-quality biomedical knowledge graphs (BioKG) that provide direct and precise biomedical knowledge. In the context of COVID-19, this issue is even more necessary to be highlighted. However, most BioKG construction inevitably includes numerous conflicts and noises deriving from incorrect knowledge descriptions in literature and defective information extraction techniques. Many studies have demonstrated that reasoning upon the knowledge graph is effective in eliminating such conflicts and noises. This paper proposes a method BioGRER to improve the BioKG's quality, which comprehensively combines the knowledge graph embedding and logic rules that support and negate triplets in the BioKG. In the proposed model, the BioKG refinement problem is formulated as the probability estimation for triplets in the BioKG. We employ the variational EM algorithm to optimize knowledge graph embedding and logic rule inference alternately. In this way, our model could combine efforts from both the knowledge graph embedding and logic rules, leading to better results than using them alone. We evaluate our model over a COVID-19 knowledge graph and obtain competitive results.
翻訳日:2021-05-30 12:56:31 公開日:2020-12-02
# (参考訳) 放射能同定への新しいアプローチ

A Novel Approach to Radiometric Identification ( http://arxiv.org/abs/2012.02256v1 )

ライセンス: CC BY 4.0
Raoul Nigmatullin, Semyon Dorokhin, Alexander Ivchenko(参考訳) 本稿では,CAPoNeFの特徴工学手法を用いて高精度なラジオメトリック同定が可能であることを実証する。 SDRで収集した実験データに基づいて,基本的なML分類アルゴリズムを検証した。 提案特徴の統計的および相関特性は,まずP値を用いてP値とP値の相関係数を用いて解析した。 最も重要な特徴が強調された。 ランダムフォレストは99%の精度だった。 モデル行動のLIME記述について述べる。 特徴空間の次元が3に縮小されたとしても、99%の精度でデバイスを分類することは可能であることが判明した。

This paper demonstrates that highly accurate radiometric identification is possible using CAPoNeF feature engineering method. We tested basic ML classification algorithms on experimental data gathered by SDR. The statistical and correlational properties of suggested features were analyzed first with the help of Point Biserial and Pearson Correlation Coefficients and then using P-values. The most relevant features were highlighted. Random Forest provided 99% accuracy. We give LIME description of model behavior. It turns out that even if the dimension of the feature space is reduced to 3, it is still possible to classify devices with 99% accuracy.
翻訳日:2021-05-30 12:35:51 公開日:2020-12-02
# (参考訳) SoK:デジタル法医学調査における人工知能の現状と将来の可能性を探る

SoK: Exploring the State of the Art and the Future Potential of Artificial Intelligence in Digital Forensic Investigation ( http://arxiv.org/abs/2012.01987v1 )

ライセンス: CC BY 4.0
Xiaoyu Du, Chris Hargreaves, John Sheppard, Felix Anda, Asanka Sayakkara, Nhien-An Le-Khac, Mark Scanlon(参考訳) 世界中の法執行機関では、多年にわたるデジタル法医学のバックログが一般的になっている。 デジタル法医学調査員は、処理すべきデータの量によって、その専門知識を複合したケースの量で過負荷になる。 人工知能は、多くのビッグデータ問題の解決策と見なされることが多い。 本稿では,デジタル法医学における既存の人工知能ツールとアプローチを概説する。 人工知能に基づく技術を活用した自動エビデンス処理は、ケース処理能力を高めながら、デジタル法科学分析プロセスの迅速化に大いに期待できる。 強調された人工知能のアプリケーションごとに、現在の多くの課題と将来の潜在的な影響が議論されている。

Multi-year digital forensic backlogs have become commonplace in law enforcement agencies throughout the globe. Digital forensic investigators are overloaded with the volume of cases requiring their expertise compounded by the volume of data to be processed. Artificial intelligence is often seen as the solution to many big data problems. This paper summarises existing artificial intelligence based tools and approaches in digital forensics. Automated evidence processing leveraging artificial intelligence based techniques shows great promise in expediting the digital forensic analysis process while increasing case processing capacities. For each application of artificial intelligence highlighted, a number of current challenges and future potential impact is discussed.
翻訳日:2021-05-30 12:28:15 公開日:2020-12-02
# (参考訳) 遅延クライアントによる分散型フェデレーション学習(blade-fl)を支援するブロックチェーン

Blockchain Assisted Decentralized Federated Learning (BLADE-FL) with Lazy Clients ( http://arxiv.org/abs/2012.02044v1 )

ライセンス: CC BY 4.0
Jun Li, Yumeng Shao, Ming Ding, Chuan Ma, Kang Wei, Zhu Han and H. Vincent Poor(参考訳) 分散機械学習アプローチとしてのフェデレーション・ラーニング(FL)は近年,大きな注目を集めている。 ユーザーの生データはローカルに処理されるため、flはプライバシー保護に固有の利点を示している。 しかし、モデルアグリゲーションを実行するには集中型サーバに依存している。 そのため、FLはサーバーの故障や外部攻撃に弱い。 本稿では、FLのセキュリティを高めるために、ブロックチェーンをFL、すなわちブロックチェーン支援分散フェデレーションラーニング(BLADE-FL)に統合する新しいフレームワークを提案する。 提案するBLADE-FLは, プライバシー保護, 改ざん抵抗, 学習の効果的な連携の点で優れた性能を有する。 しかし、他人の訓練されたモデルを盗聴し、不正行為を隠すために人工的なノイズを加える遅延クライアントによって、トレーニング不足の新たな問題が発生する。 具体的には、まず遅延クライアントの存在下でロス関数の収束境界を開発し、生成したブロックの総数$k$に対して凸であることを証明します。 そして損失関数を最小化するために$K$を最適化することで凸問題を解く。 さらに,最適な$K$,遅延クライアント数,遅延クライアントが使用する人工雑音のパワーの関係を明らかにする。 MNISTデータセットとFashion-MNISTデータセットを用いて,提案フレームワークの性能評価を行う。 解析結果は実験結果と一致していることがわかった。 さらに、導出された最適値k$は損失関数の最小値を達成し、その最適精度性能を達成する。

Federated learning (FL), as a distributed machine learning approach, has drawn a great amount of attention in recent years. FL shows an inherent advantage in privacy preservation, since users' raw data are processed locally. However, it relies on a centralized server to perform model aggregation. Therefore, FL is vulnerable to server malfunctions and external attacks. In this paper, we propose a novel framework by integrating blockchain into FL, namely, blockchain assisted decentralized federated learning (BLADE-FL), to enhance the security of FL. The proposed BLADE-FL has a good performance in terms of privacy preservation, tamper resistance, and effective cooperation of learning. However, it gives rise to a new problem of training deficiency, caused by lazy clients who plagiarize others' trained models and add artificial noises to conceal their cheating behaviors. To be specific, we first develop a convergence bound of the loss function with the presence of lazy clients and prove that it is convex with respect to the total number of generated blocks $K$. Then, we solve the convex problem by optimizing $K$ to minimize the loss function. Furthermore, we discover the relationship between the optimal $K$, the number of lazy clients, and the power of artificial noises used by lazy clients. We conduct extensive experiments to evaluate the performance of the proposed framework using the MNIST and Fashion-MNIST datasets. Our analytical results are shown to be consistent with the experimental results. In addition, the derived optimal $K$ achieves the minimum value of loss function, and in turn the optimal accuracy performance.
翻訳日:2021-05-30 11:59:57 公開日:2020-12-02
# (参考訳) パーシステンスホモロジーによる注意に基づく深層多重インスタンス学習による細菌クローンの分類

Classifying bacteria clones using attention-based deep multiple instance learning interpreted by persistence homology ( http://arxiv.org/abs/2012.01189v1 )

ライセンス: CC BY 4.0
Adriana Borowa, Dawid Rymarczyk, Dorota Ocho\'nska, Monika Brzychczy-W{\l}och, Bartosz Zieli\'nski(参考訳) 本研究は、顕微鏡画像のみに基づいて、同じ細菌種(Klebsiella pneumoniae)の異なるクローンを区別できるかどうかを解析する。 これは難しい課題であり、以前は高いクローンの類似性のため不可能と考えられていた。 この目的のために,注意に基づく複数インスタンス学習を用いたマルチステップアルゴリズムを適用する。 0.9のレベルで精度を得る以外は,cellprofiler と persistence homology に基づく広範な解釈可能性を導入し,モデルの理解性と信頼度を高めた。

In this work, we analyze if it is possible to distinguish between different clones of the same bacteria species (Klebsiella pneumoniae) based only on microscopic images. It is a challenging task, previously considered impossible due to the high clones similarity. For this purpose, we apply a multi-step algorithm with attention-based multiple instance learning. Except for obtaining accuracy at the level of 0.9, we introduce extensive interpretability based on CellProfiler and persistence homology, increasing the understandability and trust in the model.
翻訳日:2021-05-30 11:44:47 公開日:2020-12-02
# (参考訳) 機械学習とグローバルなスマートフォン記録を用いたcovid-19の干ばつ分類

COVID-19 Cough Classification using Machine Learning and Global Smartphone Recordings ( http://arxiv.org/abs/2012.01926v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Robin Warren and Thomas Niesler(参考訳) スマートフォンで記録されたcovid-19陰性と健康的なcooughの両方からcovid-19陽性のcooughを識別できる機械学習ベースのcovid-19 cough分類器を提案する。 この種のスクリーニングは非接触で簡単に適用でき、検査センターでの作業負荷を減らすだけでなく、covid-19を示唆する干ばつを持つ人々に早期の自己隔離を推奨することで、送信を制限するのに役立つ。 この研究で使用される2つのデータセットは、全6大陸の被験者を対象とし、強制的および自然的ともに含んでいる。 coswaraデータセットには92人の新型コロナウイルス陽性者、1079人の健常者が含まれているが、第2の小さなデータセットは南アフリカで収集され、sars-cov検査を受けた8人のcovid-19陽性者と13人の陰性者が含まれている。 合成マイノリティ・オーバーサンプリング(SMOTE)を適用してデータセットスキューに対処し,分類器の訓練と評価にLeft-p-out Cross Validationを用いた。 ロジスティック回帰(LR)、サポートベクターマシン(SVM)、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)、残基ニューラルネットワークアーキテクチャ(Resnet50)を分類器として検討した。 以上の結果から, resnet50分類器は, roc曲線 (auc) 下の地域が0.98, lstm分類器が0.94のaucでcovid-19陽性とcovid-19陰性の区別が最良であった。 LSTM分類器はシーケンシャルフォワードサーチ(SFS)で選択した13の特徴を用いて,これらの結果を得た。 スマートフォンで実装できるため、音の分類はコスト効率が高く、適用や展開が容易であり、非接触型新型コロナウイルススクリーニングの有用な手段になりうる。

We present a machine learning based COVID-19 cough classifier which is able to discriminate COVID-19 positive coughs from both COVID-19 negative and healthy coughs recorded on a smartphone. This type of screening is non-contact and easily applied, and could help reduce workload in testing centers as well as limit transmission by recommending early self-isolation to those who have a cough suggestive of COVID-19. The two dataset used in this study include subjects from all six continents and contain both forced and natural coughs. The publicly available Coswara dataset contains 92 COVID-19 positive and 1079 healthy subjects, while the second smaller dataset was collected mostly in South Africa and contains 8 COVID-19 positive and 13 COVID-19 negative subjects who have undergone a SARS-CoV laboratory test. Dataset skew was addressed by applying synthetic minority oversampling (SMOTE) and leave-p-out cross validation was used to train and evaluate classifiers. Logistic regression (LR), support vector machines (SVM), multilayer perceptrons (MLP), convolutional neural networks (CNN), long-short term memory (LSTM) and a residual-based neural network architecture (Resnet50) were considered as classifiers. Our results show that the Resnet50 classifier was best able to discriminate between the COVID-19 positive and the healthy coughs with an area under the ROC curve (AUC) of 0.98 while a LSTM classifier was best able to discriminate between the COVID-19 positive and COVID-19 negative coughs with an AUC of 0.94. The LSTM classifier achieved these results using 13 features selected by sequential forward search (SFS). Since it can be implemented on a smartphone, cough audio classification is cost-effective and easy to apply and deploy, and therefore is potentially a useful and viable means of non-contact COVID-19 screening.
翻訳日:2021-05-30 11:30:56 公開日:2020-12-02
# (参考訳) ディープリカレントネットワークと埋め込みを用いたシーケンス生成:音楽における一考察

Sequence Generation using Deep Recurrent Networks and Embeddings: A study case in music ( http://arxiv.org/abs/2012.01231v1 )

ライセンス: CC BY 4.0
Sebastian Garcia-Valencia, Alejandro Betancourt, Juan G. Lalinde-Pulido(参考訳) 配列の自動生成は、過去数年間、高度に探索された分野であった。 特に,リカレントニューラルネットワークのような固有の記憶機構を持つ機械学習やニューラルネットワークの最近の進歩により,自然言語処理や自動音楽合成の重要性が高まっている。 本稿では,様々なメモリ機構(メモリセル)を評価し,音楽合成の分野でのパフォーマンスを解析する。 提案手法は転置などの音楽理論の概念を考察し,意味的意味の導入やメロディの質の向上にデータ変換(埋め込み)を用いる。 楽曲の音質を計測し,提案アーキテクチャの性能を自動評価するために,定量的な測定値のセットを提示する。

Automatic generation of sequences has been a highly explored field in the last years. In particular, natural language processing and automatic music composition have gained importance due to the recent advances in machine learning and Neural Networks with intrinsic memory mechanisms such as Recurrent Neural Networks. This paper evaluates different types of memory mechanisms (memory cells) and analyses their performance in the field of music composition. The proposed approach considers music theory concepts such as transposition, and uses data transformations (embeddings) to introduce semantic meaning and improve the quality of the generated melodies. A set of quantitative metrics is presented to evaluate the performance of the proposed architecture automatically, measuring the tonality of the musical compositions.
翻訳日:2021-05-30 10:01:11 公開日:2020-12-02
# (参考訳) ロバストMRフィンガープリントマッチングのためのチャネル注意ネットワーク

Channel Attention Networks for Robust MR Fingerprinting Matching ( http://arxiv.org/abs/2012.01241v1 )

ライセンス: CC BY 4.0
Refik Soyak, Ebru Navruz, Eda Ozgu Ersoy, Gastao Cruz, Claudia Prieto, Andrew P. King, Devrim Unay, Ilkay Oksuz(参考訳) MRF(MR Resonance Fingerprinting)は、T1やT2の緩和時間などの複数の組織パラメータの同時マッピングを可能にする。 MRFの動作原理は、異なる取得パラメータを疑似ランダムに依存するため、各組織はスキャン中に独自の信号進化を生成する。 MRFは高速な走査を提供するが、対応するパラメトリックマップの誤生成や遅い生成などの欠点があり、改善する必要がある。 さらに、正確なパラメトリックマップを生成するための案内信号を理解するための説明可能なアーキテクチャも必要である。 本稿では,チャネルワイドアテンションモジュールと完全畳み込みネットワークからなる新しいニューラルネットワークアーキテクチャを提案することによって,これらの欠点に対処する。 提案手法は, 3種類のMRF信号で評価され, 組織パラメータの再構成における誤差を, T1では8.88%, T2では75.44%削減する。 この研究のもう1つの貢献は、新しいチャンネル選択方法であるアテンションベースのチャンネル選択である。 さらに,mrf信号のパッチサイズと時間フレームがチャネル低減に与える影響をチャネル毎の注意力を用いて解析する。

Magnetic Resonance Fingerprinting (MRF) enables simultaneous mapping of multiple tissue parameters such as T1 and T2 relaxation times. The working principle of MRF relies on varying acquisition parameters pseudo-randomly, so that each tissue generates its unique signal evolution during scanning. Even though MRF provides faster scanning, it has disadvantages such as erroneous and slow generation of the corresponding parametric maps, which needs to be improved. Moreover, there is a need for explainable architectures for understanding the guiding signals to generate accurate parametric maps. In this paper, we addressed both of these shortcomings by proposing a novel neural network architecture consisting of a channel-wise attention module and a fully convolutional network. The proposed approach, evaluated over 3 simulated MRF signals, reduces error in the reconstruction of tissue parameters by 8.88% for T1 and 75.44% for T2 with respect to state-of-the-art methods. Another contribution of this study is a new channel selection method: attention-based channel selection. Furthermore, the effect of patch size and temporal frames of MRF signal on channel reduction are analyzed by employing a channel-wise attention.
翻訳日:2021-05-30 09:27:08 公開日:2020-12-02
# (参考訳) 正規化と誤アラーム定量化:説明可能性硬貨の2面

Regularization and False Alarms Quantification: Two Sides of the Explainability Coin ( http://arxiv.org/abs/2012.01273v1 )

ライセンス: CC0 1.0
Nima Safaei, Pooria Assadi(参考訳) 正規化は機械学習(ML)において、モデル複雑性を低減し、説明可能性を高める最適なバイアス分散トレードオフを実現するための確立された手法である。 この目的のために、いくつかのハイパーパラメータをチューニングする必要があるため、mlモデルが見えないデータと見たデータとを正確に適合させることができる。 本稿では、過度パラメータの正規化とコストの定量化と誤報のリスクは、実際には同じコインの2つの側面である、と論じる。 いずれかの量の誤ったまたは存在しない推定は、MLを使用する経済価値の計測可能性を損なう。

Regularization is a well-established technique in machine learning (ML) to achieve an optimal bias-variance trade-off which in turn reduces model complexity and enhances explainability. To this end, some hyper-parameters must be tuned, enabling the ML model to accurately fit the unseen data as well as the seen data. In this article, the authors argue that the regularization of hyper-parameters and quantification of costs and risks of false alarms are in reality two sides of the same coin, explainability. Incorrect or non-existent estimation of either quantities undermines the measurability of the economic value of using ML, to the extent that might make it practically useless.
翻訳日:2021-05-30 08:27:52 公開日:2020-12-02
# (参考訳) コニャートのセマンティック多様性測定のための計算的アプローチ

A Computational Approach to Measuring the Semantic Divergence of Cognates ( http://arxiv.org/abs/2012.01288v1 )

ライセンス: CC BY 4.0
Ana-Sabina Uban, Alina-Maria Ciobanu, Liviu P. Dinu(参考訳) 意味は文化間コミュニケーションの基礎である。 言語は変化し続けており、言葉は様々な理由で意味を変える。 関連言語における意味的発散は、歴史的言語学の重要な関心事である。 本稿では,複数言語におけるコグネート集合の意味的類似性を測定することにより,言語間の意味的分岐について検討する。 本稿では,言語間単語埋め込みに基づく手法を提案する。 本稿では、英語と5つのロマンス言語について実装・評価を行うが、任意の言語対に容易に拡張でき、関連する言語には大きな単言語コーパスと、その対には小さな二言語辞書のみを必要とする。 この言語に依存しない手法は、コグネートペア間の意味的類似性の度合いを計算することによって、コグネート分岐の定量的解析を促進し、偽の友人を特定するための洞察を提供する。 第2の貢献として、偽の友人を検出する簡単な方法を定式化し、偽の友人ペアの「偽り」の程度を測定するとともに、「ソフト・偽の友人」と「ハード・偽の友人」の概念を導入する。 さらに, 誤りを訂正するための提案を出力するアルゴリズムを提案し, 言語学習や翻訳に非常に有用なツールとなる可能性がある。

Meaning is the foundation stone of intercultural communication. Languages are continuously changing, and words shift their meanings for various reasons. Semantic divergence in related languages is a key concern of historical linguistics. In this paper we investigate semantic divergence across languages by measuring the semantic similarity of cognate sets in multiple languages. The method that we propose is based on cross-lingual word embeddings. In this paper we implement and evaluate our method on English and five Romance languages, but it can be extended easily to any language pair, requiring only large monolingual corpora for the involved languages and a small bilingual dictionary for the pair. This language-agnostic method facilitates a quantitative analysis of cognates divergence -- by computing degrees of semantic similarity between cognate pairs -- and provides insights for identifying false friends. As a second contribution, we formulate a straightforward method for detecting false friends, and introduce the notion of "soft false friend" and "hard false friend", as well as a measure of the degree of "falseness" of a false friends pair. Additionally, we propose an algorithm that can output suggestions for correcting false friends, which could result in a very helpful tool for language learning or translation.
翻訳日:2021-05-30 07:41:14 公開日:2020-12-02
# (参考訳) 他人の失敗から学ぶ - モデリングせずにデータセットのバイアスを避ける

Learning from others' mistakes: Avoiding dataset biases without modeling them ( http://arxiv.org/abs/2012.01300v1 )

ライセンス: CC BY 4.0
Victor Sanh, Thomas Wolf, Yonatan Belinkov, Alexander M. Rush(参考訳) 最先端自然言語処理(nlp)モデルは、対象とするタスクを対象とする機能ではなく、データセットバイアスや表面フォーム相関をモデル化することを学びます。 前回の研究では、バイアスの知識が利用できる場合に、これらの問題を回避できる効果的な方法が示されている。 バイアス問題を明示的に特定できないケースを考察し、これらの問題のある相関を無視することを学ぶモデルを訓練する方法を示す。 我々のアプローチは、限られたキャパシティを持つモデルが主にデータセットのバイアスを悪用することを学ぶという観察に依存している。 このような限られたキャパシティモデルのエラーを利用して、専門家の製品でより堅牢なモデルをトレーニングし、バイアスのあるモデルを手作りする必要性を回避できます。 本手法は,偏りのあるモデルに特定のバイアスが当てはまらない場合でも,分布外設定の改善を維持するための効果を示す。

State-of-the-art natural language processing (NLP) models often learn to model dataset biases and surface form correlations instead of features that target the intended underlying task. Previous work has demonstrated effective methods to circumvent these issues when knowledge of the bias is available. We consider cases where the bias issues may not be explicitly identified, and show a method for training models that learn to ignore these problematic correlations. Our approach relies on the observation that models with limited capacity primarily learn to exploit biases in the dataset. We can leverage the errors of such limited capacity models to train a more robust model in a product of experts, thus bypassing the need to hand-craft a biased model. We show the effectiveness of this method to retain improvements in out-of-distribution settings even if no particular bias is targeted by the biased model.
翻訳日:2021-05-30 07:26:21 公開日:2020-12-02
# (参考訳) 異なる政治体制にまたがる様式的変化の分析

Analyzing Stylistic Variation across Different Political Regimes ( http://arxiv.org/abs/2012.01305v1 )

ライセンス: CC BY 4.0
Liviu P. Dinu, Ana-Sabina Uban(参考訳) 本稿では,ルーマニアにおける共産主義と民主主義という,政治的・文化的に異なる2つの時代にまたがるテキストの様式的分析について述べる。 この2つの期間に書かれたテキスト間のスタイリスティックな変動を分析し、その変動がどのレベルであるか(もしあれば)を、スタイリスティックなレベルで、トピックレベルで決定することを目指している。 従来の著者帰属手法と特徴を用いて,テキストのクラスタリングと分類実験を行うことにより,これらのテキストのスタイル的プロファイルを比較検討する。 文体的変化が政治的・文化的環境の変化の影響であることを確認するため,著者の作風の変化を時間とともに反映するだけでなく,様々な文体的変化の経時的変化を考察し,両者の作風の変化が統計的に有意であることを示す。 また,2つの時代間の話題の変化の分析を行い,スタイルレベルでの変動と比較した。 これらの分析から、2つの時代からのテキストは、スタイルの観点からも意味的内容(トピック)からも区別できることが示された。

In this article we propose a stylistic analysis of texts written across two different periods, which differ not only temporally, but politically and culturally: communism and democracy in Romania. We aim to analyze the stylistic variation between texts written during these two periods, and determine at what levels the variation is more apparent (if any): at the stylistic level, at the topic level etc. We take a look at the stylistic profile of these texts comparatively, by performing clustering and classification experiments on the texts, using traditional authorship attribution methods and features. To confirm the stylistic variation is indeed an effect of the change in political and cultural environment, and not merely reflective of a natural change in the author's style with time, we look at various stylistic metrics over time and show that the change in style between the two periods is statistically significant. We also perform an analysis of the variation in topic between the two epochs, to compare with the variation at the style level. These analyses show that texts from the two periods can indeed be distinguished, both from the point of view of style and from that of semantic content (topic).
翻訳日:2021-05-30 07:01:53 公開日:2020-12-02
# (参考訳) CalligraphyGANによる抽象アート生成のためのフレームワークとデータセット

A Framework and Dataset for Abstract Art Generation via CalligraphyGAN ( http://arxiv.org/abs/2012.00744v1 )

ライセンス: CC BY 4.0
Jinggang Zhuo, Ling Fan, Harry Jiannan Wang(参考訳) ディープラーニングの進歩により、人工知能(AI)は近年多くのブレークスルーを行い、オブジェクト検出、読書理解、ビデオゲームといった様々なタスクにおいて超人的パフォーマンスを達成した。 GAN(Generative Adversarial Networks)モデルのような生成モデリングは、絵画や音楽の生成に応用されている。 自然言語処理(nlp)の研究も、bertや最近リリースされたgpt3といった事前学習されたコンテキストニューラル言語モデルのリリース以降、2018年に飛躍的に進展した。 前述のようなエキサイティングなAIアプリケーションにもかかわらず、AIは創造性において人間よりもはるかに遅れている。 私たちの作品は、キャラクターそのものが美的絵画である独特の視覚芸術である中国書に触発されたものです。 1940年代から1950年代にかけての抽象表現主義運動の絵画、例えばアメリカの画家フランツ・クラインの作品からもインスピレーションを得ている。 本稿では,条件付き生成敵ネットワークと文脈ニューラルランゲージモデルに基づく創造的枠組みを提案する。テキストが画像の記述である画像キャプションやテキスト対画像生成といった既存の作業とは異なる,本質的な意味と美的価値を持つ抽象的なアートワークを生成する。 また,中国の書道イメージデータセットを公開し,プロトタイプシステムとユーザスタディを用いて,そのフレームワークを実証した。

With the advancement of deep learning, artificial intelligence (AI) has made many breakthroughs in recent years and achieved superhuman performance in various tasks such as object detection, reading comprehension, and video games. Generative Modeling, such as various Generative Adversarial Networks (GAN) models, has been applied to generate paintings and music. Research in Natural Language Processing (NLP) also had a leap forward in 2018 since the release of the pre-trained contextual neural language models such as BERT and recently released GPT3. Despite the exciting AI applications aforementioned, AI is still significantly lagging behind humans in creativity, which is often considered the ultimate moonshot for AI. Our work is inspired by Chinese calligraphy, which is a unique form of visual art where the character itself is an aesthetic painting. We also draw inspirations from paintings of the Abstract Expressionist movement in the 1940s and 1950s, such as the work by American painter Franz Kline. In this paper, we present a creative framework based on Conditional Generative Adversarial Networks and Contextual Neural Language Model to generate abstract artworks that have intrinsic meaning and aesthetic value, which is different from the existing work, such as image captioning and text-to-image generation, where the texts are the descriptions of the images. In addition, we have publicly released a Chinese calligraphy image dataset and demonstrate our framework using a prototype system and a user study.
翻訳日:2021-05-30 06:49:37 公開日:2020-12-02
# (参考訳) Top-1 CORSMAL Challenge 2020 提出:人間ロボットハンドオーバのマルチモーダル観測による質量推定

Top-1 CORSMAL Challenge 2020 Submission: Filling Mass Estimation Using Multi-modal Observations of Human-robot Handovers ( http://arxiv.org/abs/2012.01311v1 )

ライセンス: CC BY 4.0
Vladimir Iashin, Francesca Palermo, G\"okhan Solak, Claudio Coppola(参考訳) 人間とロボットのオブジェクトハンドオーバは、人間とロボットのコラボレーションの鍵となるスキルである。 corsmal 2020 challengeは、この問題の認識部分に焦点を当てている。ロボットは人間が持っている容器の充填質量を見積もる必要がある。 画像処理とオーディオ処理には個別に強力な方法があるが、このような問題を解決するには複数のセンサーからのデータを処理する必要がある。 容器の外観、充填音、深度データは必須情報を提供する。 本稿では,充填量,充填量,容器容量の3つの重要な指標を予測するためのマルチモーダル手法を提案する。 これらの指標を組み合わせて容器の充填質量を推定する。 提案手法は,CORSMAL 2020 Challengeの公立サブセットと私設サブセットのいずれにおいても,オーバーフィットの証拠は示さなかった。 私たちのソースコードは、https://github.com/v-iashin/corsmal.com

Human-robot object handover is a key skill for the future of human-robot collaboration. CORSMAL 2020 Challenge focuses on the perception part of this problem: the robot needs to estimate the filling mass of a container held by a human. Although there are powerful methods in image processing and audio processing individually, answering such a problem requires processing data from multiple sensors together. The appearance of the container, the sound of the filling, and the depth data provide essential information. We propose a multi-modal method to predict three key indicators of the filling mass: filling type, filling level, and container capacity. These indicators are then combined to estimate the filling mass of a container. Our method obtained Top-1 overall performance among all submissions to CORSMAL 2020 Challenge on both public and private subsets while showing no evidence of overfitting. Our source code is publicly available: https://github.com/v-iashin/CORSMAL
翻訳日:2021-05-30 06:45:04 公開日:2020-12-02
# (参考訳) ペルシャ語におけるアスペクトベース感情分析性能向上のためのBERTの展開

Exploiting BERT to improve aspect-based sentiment analysis performance on Persian language ( http://arxiv.org/abs/2012.07510v1 )

ライセンス: CC BY 4.0
H. Jafarian, A. H. Taghavi, A. Javaheri and R. Rawassizadeh(参考訳) アスペクトベースの感情分析(ABSA)は、テキストの特定の側面に対する意見の極性を特定することによって、感情分析においてより詳細なタスクである。 この方法は、より徹底的で有用な情報を提供するという事実から、コミュニティからより注目を集めています。 しかし、ペルシア語に関する言語固有の研究は少ない。 本研究は,ペルシャ・パルス・ABSAデータセットにおけるABSAの改善を目的とした。 本研究では,事前学習したBERTモデルを用いて,ABSAタスクにおける文ペア入力を活用する可能性を示す。 その結果,Pars-BERT事前学習モデルと自然言語推論補助文(NLI-M)を用いることで,ABSAタスクの精度が91%向上し,Pars-ABSAデータセットの最先端研究よりも5.5%高い(絶対)ことが示唆された。

Aspect-based sentiment analysis (ABSA) is a more detailed task in sentiment analysis, by identifying opinion polarity toward a certain aspect in a text. This method is attracting more attention from the community, due to the fact that it provides more thorough and useful information. However, there are few language-specific researches on Persian language. The present research aims to improve the ABSA on the Persian Pars-ABSA dataset. This research shows the potential of using pre-trained BERT model and taking advantage of using sentence-pair input on an ABSA task. The results indicate that employing Pars-BERT pre-trained model along with natural language inference auxiliary sentence (NLI-M) could boost the ABSA task accuracy up to 91% which is 5.5% (absolute) higher than state-of-the-art studies on Pars-ABSA dataset.
翻訳日:2021-05-30 06:28:32 公開日:2020-12-02
# (参考訳) Coinbot:Deep Reinforcement Learningと機械学習を用いたインテリジェントなロボットコインバッグ操作

Coinbot: Intelligent Robotic Coin Bag Manipulation Using Deep Reinforcement Learning And Machine Teaching ( http://arxiv.org/abs/2012.01356v1 )

ライセンス: CC BY 4.0
Aleksei Gonnochenko, Aleksandr Semochkin, Dmitry Egorov, Dmitrii Statovoy, Seyedhassan Zabihifar, Aleksey Postnikov, Elena Seliverstova, Ali Zaidi, Jayson Stemmler, Kevin Limkrailassiri(参考訳) 銀行のキャッシュセンターで大量の物理通貨を移動させることの困難さを考えると、このような作業を共同作業空間で行うことのできる安全な自律システムの訓練と展開には大きな需要がある。 しかし, 袋の変形性は, 内部に多量の剛体コインが混入しており, 袋の検出, 把握, ロボットグリップとアームによる操作の難しさを著しく高めている。 本稿では,協調ロボットの制御作業に深層強化学習と機械学習技術を適用し,トロリーからのコインバッグの降ろしを自動化する。 操作中に質量中心が変化するコイン袋などの柔軟な材料を把持するタスク固有のプロセスを実現するため、特別なグリッパーをシミュレーションで実装し、物理ハードウェアで設計した。 深層カメラと物体検出を深層学習を用いて活用し, 把持の最適地点選択のためのバッグ検出とポーズ推定を行った。 ロボットエンドエフェクタの最適構成を提案するため, 深層強化学習に基づくインテリジェントな手法が提案されている。 ロボット動作中の動作計画の速度を上げるために、ブースト動作計画を用いる。 提案パイプラインを用いた実世界試験では,実世界において96\%以上の成功率を示した。

Given the laborious difficulty of moving heavy bags of physical currency in the cash center of the bank, there is a large demand for training and deploying safe autonomous systems capable of conducting such tasks in a collaborative workspace. However, the deformable properties of the bag along with the large quantity of rigid-body coins contained within it, significantly increases the challenges of bag detection, grasping and manipulation by a robotic gripper and arm. In this paper, we apply deep reinforcement learning and machine learning techniques to the task of controlling a collaborative robot to automate the unloading of coin bags from a trolley. To accomplish the task-specific process of gripping flexible materials like coin bags where the center of the mass changes during manipulation, a special gripper was implemented in simulation and designed in physical hardware. Leveraging a depth camera and object detection using deep learning, a bag detection and pose estimation has been done for choosing the optimal point of grasping. An intelligent approach based on deep reinforcement learning has been introduced to propose the best configuration of the robot end-effector to maximize successful grasping. A boosted motion planning is utilized to increase the speed of motion planning during robot operation. Real-world trials with the proposed pipeline have demonstrated success rates over 96\% in a real-world setting.
翻訳日:2021-05-30 05:42:44 公開日:2020-12-02
# (参考訳) ハードおよびソフト制約を含むDCOP解法における有界マックスサムアルゴリズムの解法品質の改善

Improving Solution Quality of Bounded Max-Sum Algorithm to Solve DCOPs involving Hard and Soft Constraints ( http://arxiv.org/abs/2012.01369v1 )

ライセンス: CC BY-SA 4.0
Md. Musfiqur Rahman, Mashrur Rashik, Md. Mamun-or-Rashid and Md. Mosaddek Khan(参考訳) BMS(Bunded Max-Sum)は、分散制約最適化問題(DCOP)という分散最適化問題の特定の形態に対する近似解を提供するメッセージパッシングアルゴリズムである。 特に、BMSアルゴリズムは、計算コストを犠牲にして、大規模な検索空間を持つこのタイプの問題を解くことができる。 特に、従来のDCOPの定式化は、満たさなければならない制約(ハード制約とも呼ばれる)を考慮せず、ソフトな制約のみに集中している。 したがって、両方のタイプの制約の存在は多くの実世界のアプリケーションで観察されるが、bmsアルゴリズムはハード制約を積極的に活用していない。 この問題に対処するため、型制約の両方を持つDCOPに対処できる方法でBMSを調整します。 このようにして、我々のアプローチはアルゴリズムの解の質を改善します。 実験の結果, 大規模DCOP溶液の品質は著しく向上した。

Bounded Max-Sum (BMS) is a message-passing algorithm that provides approximation solution to a specific form of de-centralized coordination problems, namely Distributed Constrained Optimization Problems (DCOPs). In particular, BMS algorithm is able to solve problems of this type having large search space at the expense of low computational cost. Notably, the traditional DCOP formulation does not consider those constraints that must be satisfied(also known as hard constraints), rather it concentrates only on soft constraints. Hence, although the presence of both types of constraints are observed in a number of real-world applications, the BMS algorithm does not actively capitalize on the hard constraints. To address this issue, we tailor BMS in such a way that can deal with DCOPs having both type constraints. In so doing, our approach improves the solution quality of the algorithm. The empirical results exhibit a marked improvement in the quality of the solutions of large DCOPs.
翻訳日:2021-05-30 05:03:11 公開日:2020-12-02
# (参考訳) OASISにおけるオントロジー的スマートコントラクト:エージェント,システム,サービス統合のためのオントロジー

Ontological Smart Contracts in OASIS: Ontology for Agents, Systems, and Integration of Services ( http://arxiv.org/abs/2012.01410v1 )

ライセンス: CC BY 4.0
Domenico Cantone, Carmelo Fabio Longo, Marianna Nicolosi-Asmundo, Daniele Francesco Santamaria, Corrado Santoro(参考訳) この貢献により、エージェントとその相互作用をモデル化するオントロジー、Ontology for Agents, Systems, and Integration of Services(略してOASIS)を、条件付きおよびオントロジ的スマートコントラクト(略してOSC)で拡張します。 OSCは、エージェント間の責任と承認を確立するためのスマートコントラクトのオントロジ表現であり、条件付きではエージェントのインタラクションを制限および制限し、エージェントアクションをトリガーするアクティベーションメカニズムを定義し、OSC上の制約とコントラクト用語を定義する。 OASISで定義された条件とOSCは、ブロックチェーンやスマートコントラクトなどのデジタル公開台帳をオントロジで拡張するために適用される。 我々はまた、Ethereumプラットフォームと惑星間ファイルシステムを利用するOSCのOASIS定義に基づくフレームワークのアーキテクチャをスケッチする。

In this contribution we extend an ontology for modelling agents and their interactions, called Ontology for Agents, Systems, and Integration of Services (in short, OASIS), with conditionals and ontological smart contracts (in short, OSCs). OSCs are ontological representations of smart contracts that allow to establish responsibilities and authorizations among agents and set agreements, whereas conditionals allow one to restrict and limit agent interactions, define activation mechanisms that trigger agent actions, and define constraints and contract terms on OSCs. Conditionals and OSCs, as defined in OASIS, are applied to extend with ontological capabilities digital public ledgers such as the blockchain and smart contracts implemented on it. We will also sketch the architecture of a framework based on the OASIS definition of OSCs that exploits the Ethereum platform and the Interplanetary File System.
翻訳日:2021-05-30 04:08:05 公開日:2020-12-02
# (参考訳) 新型コロナウイルスに関するエンドツーエンドQA: ドメイン適応と総合トレーニング

End-to-End QA on COVID-19: Domain Adaptation with Synthetic Training ( http://arxiv.org/abs/2012.01414v1 )

ライセンス: CC BY 4.0
Revanth Gangi Reddy, Bhavani Iyer, Md Arafat Sultan, Rong Zhang, Avi Sil, Vittorio Castelli, Radu Florian, Salim Roukos(参考訳) QA (End-to-end Question answering) は、大量の文書コレクション上の情報検索 (IR) と、取得したパス上の機械読解 (MRC) の両方を必要とする。 最近の研究は、オープンドメインデータセットからの教師付き質問応答(QA)例のみを使用して、ニューラルIRシステムのトレーニングに成功した。 しかし、Wikipediaでの素晴らしいパフォーマンスにもかかわらず、BM25のような従来型の用語マッチングアプローチよりも、COVID-19のようなより具体的で特殊なターゲットドメインにおいて、ニューラルIRは遅れている。 さらに、ラベル付きデータがほとんどあるいは全くない場合、そのような対象領域においてQAシステムの効果的な適応も困難である。 そこで本研究では, 閉領域検索とMDCの性能向上のために, 合成合成QA例の適用について検討する。 我々は、我々のニューラルIRとMRCシステムを組み合わせて、最先端のオープンドメインQAベースラインよりもCORD-19コレクションのエンドツーエンドQAを大幅に改善した。

End-to-end question answering (QA) requires both information retrieval (IR) over a large document collection and machine reading comprehension (MRC) on the retrieved passages. Recent work has successfully trained neural IR systems using only supervised question answering (QA) examples from open-domain datasets. However, despite impressive performance on Wikipedia, neural IR lags behind traditional term matching approaches such as BM25 in more specific and specialized target domains such as COVID-19. Furthermore, given little or no labeled data, effective adaptation of QA systems can also be challenging in such target domains. In this work, we explore the application of synthetically generated QA examples to improve performance on closed-domain retrieval and MRC. We combine our neural IR and MRC systems and show significant improvements in end-to-end QA on the CORD-19 collection over a state-of-the-art open-domain QA baseline.
翻訳日:2021-05-30 03:50:45 公開日:2020-12-02
# (参考訳) covsegnet:covid-19胸部ctスキャンの病変分割を改善するマルチエンコーダ・デコーダアーキテクチャ

CovSegNet: A Multi Encoder-Decoder Architecture for Improved Lesion Segmentation of COVID-19 Chest CT Scans ( http://arxiv.org/abs/2012.01473v1 )

ライセンス: CC BY 4.0
Tanvir Mahmud, Md Awsafur Rahman, Shaikh Anowarul Fattah, Sun-Yuan Kung(参考訳) 胸部ctスキャンによる肺病変の自動分割は、新型コロナウイルスの正確な診断と重症度測定のための重要な段階であると考えられている。 従来のu字型エンコーダ-デコーダアーキテクチャとその変種は、エンコードおよびデコードされた特徴マップ間の意味的ギャップが増大するプール/アップサンプリング操作における文脈情報の縮小に苦しむとともに、下位最適性能をもたらす逐次的な勾配伝播に関する勾配問題を解消する。 さらに, 3次元CTボリュームの操作は, 計算複雑性の指数的増大により, 最適化が困難になるため, さらなる制限が生じる。 本稿では,これらの制約を克服するために,高効率なニューラルネットワークアーキテクチャであるCovSegNetを用いて,自動新型コロナウイルス病変セグメンテーション手法を提案する。 さらに,より深い2dネットワークを用いてroiエンハンスctボリュームを生成し,さらに浅い3dネットワークを用いて計算負荷を増大させることなく,より文脈情報による強化を行う2相訓練方式を導入する。 Unetの従来の垂直展開とともに、最適性能を実現するために、多段エンコーダデコーダモジュールによる水平展開を導入しました。 さらに、コンテキスト情報の喪失を克服するため、マルチスケールの特徴マップをスケール遷移プロセスに統合する。 さらに, マルチスケール融合モジュールにピラミッド融合方式を導入し, その後のエンコーダ/デコーダモジュール間のセマンティックギャップを低減し, 効率的な勾配伝搬のための並列最適化を容易にする。 優れたパフォーマンスは、他の最先端のアプローチを大きく上回る3つの公開データセットで達成されている。 提案手法は,多様なアプリケーションにおいて最適セグメンテーション性能を実現するために容易に拡張できる。

Automatic lung lesions segmentation of chest CT scans is considered a pivotal stage towards accurate diagnosis and severity measurement of COVID-19. Traditional U-shaped encoder-decoder architecture and its variants suffer from diminutions of contextual information in pooling/upsampling operations with increased semantic gaps among encoded and decoded feature maps as well as instigate vanishing gradient problems for its sequential gradient propagation that result in sub-optimal performance. Moreover, operating with 3D CT-volume poses further limitations due to the exponential increase of computational complexity making the optimization difficult. In this paper, an automated COVID-19 lesion segmentation scheme is proposed utilizing a highly efficient neural network architecture, namely CovSegNet, to overcome these limitations. Additionally, a two-phase training scheme is introduced where a deeper 2D-network is employed for generating ROI-enhanced CT-volume followed by a shallower 3D-network for further enhancement with more contextual information without increasing computational burden. Along with the traditional vertical expansion of Unet, we have introduced horizontal expansion with multi-stage encoder-decoder modules for achieving optimum performance. Additionally, multi-scale feature maps are integrated into the scale transition process to overcome the loss of contextual information. Moreover, a multi-scale fusion module is introduced with a pyramid fusion scheme to reduce the semantic gaps between subsequent encoder/decoder modules while facilitating the parallel optimization for efficient gradient propagation. Outstanding performances have been achieved in three publicly available datasets that largely outperform other state-of-the-art approaches. The proposed scheme can be easily extended for achieving optimum segmentation performances in a wide variety of applications.
翻訳日:2021-05-30 03:14:17 公開日:2020-12-02
# (参考訳) 2次定常点を求める政策勾配のサンプル複雑度

Sample Complexity of Policy Gradient Finding Second-Order Stationary Points ( http://arxiv.org/abs/2012.01491v1 )

ライセンス: CC BY 4.0
Long Yang, Qian Zheng, Gang Pan(参考訳) 政策に基づく強化学習(RL)の目的は、その目的の最大点を探索することである。 しかし、その目的の固有の非凸性のため、一階定常点 (FOSP) への収束は、極大点を求める政策勾配法を保証できない。 fosp は rl では望ましくない極小あるいは極小の saddle point であってもよい。 幸いなことに、すべてのサドル点が \emph{strict} であれば、二階定常点 (SOSP) はすべて局所最大値と全く同じである。 fospの代わりに、政策勾配のサンプル複雑性を特徴付ける収束基準としてsospを考える。 その結果、ポリシー勾配は$(\epsilon,\sqrt{\epsilon\chi})$-sosp に収束し、$\mathcal{o}\left(\dfrac{\epsilon^{-\frac{9}{2}}}{(1-\gamma)\sqrt\chi}\log\dfrac{1}{\delta}\right)$,ただし $\gamma\in(0,1)$ の合計コストの後に少なくとも 1-\widetilde{\mathcal{o}}(\delta)$ となる。 我々の結果は、$\mathcal{O}\left(\dfrac{\epsilon^{-9}\chi^{\frac{3}{2}}}{\delta}\log\dfrac{1}{\epsilon\chi}\right)$が要求される最先端の結果を大幅に改善する。 我々の分析は、パラメータ空間 $\mathbb{R}^p$ を非定常点、サドル点、局所最適領域の3つの非交差領域に分解し、各領域におけるRLの目的を局所的に改善するというキーアイデアに基づいている。 この手法は広範な政策勾配法に応用できる可能性がある。

The goal of policy-based reinforcement learning (RL) is to search the maximal point of its objective. However, due to the inherent non-concavity of its objective, convergence to a first-order stationary point (FOSP) can not guarantee the policy gradient methods finding a maximal point. A FOSP can be a minimal or even a saddle point, which is undesirable for RL. Fortunately, if all the saddle points are \emph{strict}, all the second-order stationary points (SOSP) are exactly equivalent to local maxima. Instead of FOSP, we consider SOSP as the convergence criteria to character the sample complexity of policy gradient. Our result shows that policy gradient converges to an $(\epsilon,\sqrt{\epsilon\chi})$-SOSP with probability at least $1-\widetilde{\mathcal{O}}(\delta)$ after the total cost of $\mathcal{O}\left(\dfrac{\epsilon^{-\frac{9}{2}}}{(1-\gamma)\sqrt\chi}\log\dfrac{1}{\delta}\right)$, where $\gamma\in(0,1)$. Our result improves the state-of-the-art result significantly where it requires $\mathcal{O}\left(\dfrac{\epsilon^{-9}\chi^{\frac{3}{2}}}{\delta}\log\dfrac{1}{\epsilon\chi}\right)$. Our analysis is based on the key idea that decomposes the parameter space $\mathbb{R}^p$ into three non-intersected regions: non-stationary point, saddle point, and local optimal region, then making a local improvement of the objective of RL in each region. This technique can be potentially generalized to extensive policy gradient methods.
翻訳日:2021-05-30 02:22:59 公開日:2020-12-02
# (参考訳) ベンガル語の点字からテキストへの翻訳:幾何学的アプローチ

Braille to Text Translation for Bengali Language: A Geometric Approach ( http://arxiv.org/abs/2012.01494v1 )

ライセンス: CC0 1.0
Minhas Kamal, Dr. Amin Ahsan Ali, Dr. Muhammad Asif Hossain Khan, Dr. Mohammad Shoyaib(参考訳) 点字は、視覚障害者が読み書きをできない唯一のシステムである。 しかし一般の人は点字を読めない。 そのため,教師や親戚は,学習の支援が難しいと感じている。 ほとんどの主要言語は、この翻訳目的のソフトウェアソリューションを持っています。 しかし、ベンガルでは、この便利なツールが欠落している。 そこで本稿では,これらの触覚アルファベットを画像に写し,プレーンテキストに翻訳する点字をテキストトランスレータに提案する。 この方式では、画像劣化、スキャン時間ページ回転、点字変形などが主な問題である。 これらの課題はすべて、特別な画像処理と幾何学的構造解析を用いて直接チェックされる。 この手法は点字認識において97.25%の精度が得られる。

Braille is the only system to visually impaired people for reading and writing. However, general people cannot read Braille. So, teachers and relatives find it hard to assist them with learning. Almost every major language has software solutions for this translation purpose. However, in Bengali there is an absence of this useful tool. Here, we propose Braille to Text Translator, which takes image of these tactile alphabets, and translates them to plain text. Image deterioration, scan-time page rotation, and braille dot deformation are the principal issues in this scheme. All of these challenges are directly checked using special image processing and geometric structure analysis. The technique yields 97.25% accuracy in recognizing Braille characters.
翻訳日:2021-05-30 02:20:59 公開日:2020-12-02
# (参考訳) 多項ロジットバンドにおける純粋探索のためのインスタンスセンシティブアルゴリズム

Instance-Sensitive Algorithms for Pure Exploration in Multinomial Logit Bandit ( http://arxiv.org/abs/2012.01499v1 )

ライセンス: CC BY 4.0
Nikolai Karpov, Qin Zhang(参考訳) ファストファッション小売やオンライン広告といった現実世界のアプリケーションによって動機付けられ、MNLバンド(Multinomial Logit Bandit)はオンライン学習とオペレーション研究で人気のあるモデルであり、過去10年間に多くの注目を集めてきた。 しかし、バンドイット理論の基本的な問題である純粋な探索が、これまでMNLバンドイットにおいて十分に研究されていないことは、少々驚きである。 本稿では,MNL帯域における純粋探索のための効率的なアルゴリズムを提案する。 当社のアルゴリズムはインスタンスセンシティブなプル複雑度を実現します。 また、上界をほぼ一致する下界で補う。

Motivated by real-world applications such as fast fashion retailing and online advertising, the Multinomial Logit Bandit (MNL-bandit) is a popular model in online learning and operations research, and has attracted much attention in the past decade. However, it is a bit surprising that pure exploration, a basic problem in bandit theory, has not been well studied in MNL-bandit so far. In this paper we give efficient algorithms for pure exploration in MNL-bandit. Our algorithms achieve instance-sensitive pull complexities. We also complement the upper bounds by an almost matching lower bound.
翻訳日:2021-05-30 02:12:09 公開日:2020-12-02
# (参考訳) ゴールからウェイポイント・アンド・パス、長期的人間軌道予測へ

From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting ( http://arxiv.org/abs/2012.01526v1 )

ライセンス: CC BY 4.0
Karttikeya Mangalam, Yang An, Harshayu Girase, Jitendra Malik(参考訳) 人間の軌道予測は本質的にマルチモーダル問題である。 将来の軌道の不確実性は、(a)エージェントに知られてはいるがモデルに未知な情報源、例えば長期的な目標や(b)エージェントとモデルの両方に未知な情報源、例えば他のエージェントの意図や既約乱数不確定性などである。 我々は,この不確かさを認識論的・弁別的源に分解する。 我々は,長期目標における多モータリティと,経路ポイントや経路における多モータリティによるアレタリック不確実性を通じて,てんかん不確かさをモデル化する。 また,この二分法を実証するために,従来の作業よりも1分間,桁長の予測地平線を有する,新しい長期軌跡予測設定を提案する。 最後に、我々は、長期予測地平線を横断する様々な軌道予測のために、前置された認識論的およびアリーエータ的構造を利用するシーンのcom-pliant track forecasting network、y-netを提示する(a)スタンフォード・ドローン・アンド・eth/ucyデータセットの予測地平線設定と、(b)改定されたスタンフォード・ドローン・アンド・コンクロス・ドローンデータセットの長期予測地平線設定について、よく研究された短い予測地平線設定の両方について大幅に改善する。

Human trajectory forecasting is an inherently multi-modal problem. Uncertainty in future trajectories stems from two sources: (a) sources that are known to the agent but unknown to the model, such as long term goals and (b)sources that are unknown to both the agent & the model, such as intent of other agents & irreducible randomness indecisions. We propose to factorize this uncertainty into its epistemic & aleatoric sources. We model the epistemic un-certainty through multimodality in long term goals and the aleatoric uncertainty through multimodality in waypoints& paths. To exemplify this dichotomy, we also propose a novel long term trajectory forecasting setting, with prediction horizons upto a minute, an order of magnitude longer than prior works. Finally, we presentY-net, a scene com-pliant trajectory forecasting network that exploits the pro-posed epistemic & aleatoric structure for diverse trajectory predictions across long prediction horizons.Y-net significantly improves previous state-of-the-art performance on both (a) The well studied short prediction horizon settings on the Stanford Drone & ETH/UCY datasets and (b) The proposed long prediction horizon setting on the re-purposed Stanford Drone & Intersection Drone datasets.
翻訳日:2021-05-30 00:53:09 公開日:2020-12-02
# (参考訳) フーリエ変換による構造関数の時間計算によるddm解析の性能向上

Increased performance in DDM analysis by calculating structure functions through Fourier transform in time ( http://arxiv.org/abs/2012.05695v1 )

ライセンス: CC BY 4.0
M. Norouzisadeh, G. Cerchiari and F. Croccolo(参考訳) 微分動的顕微鏡 (ddm) は、ソフトマター物理学から生物学まで幅広いサンプルの動的挙動に関する情報を得るために、光学顕微鏡と統計解析の組み合わせである。 DDMでは、試料の動的進化を異なる長さのスケールで別々に調べ、異なる時間に記録された一連の画像から抽出する。 興味深い結果の1つは、空間フーリエ変換と信号の差によって計算できる構造関数である。 本研究では,DDM解析方式に従って,画像の集合を効率的に処理するアルゴリズムを提案する。 前回の研究で報告された最先端のアルゴリズムに対する新しいアプローチをベンチマークした。 新しい実装では、信号の違いを発生させる代わりに、追加のフーリエ変換により、DDM解析を高速に計算する。 これにより、CPUベースのマシンでも非常に高速な解析が可能になる。 新しいコードをテストするために、我々は、gpuハードウェアアクセラレーションの助けなしに、1000以上のイメージのセットでddm分析を行いました。 例えば、512 \times 512$ピクセルの画像の場合、新しいアルゴリズムは以前のGPUコードより10倍高速である。 GPUハードウェアアクセラレーションがなければ、同じ画像に対して、新しいアルゴリズムは、どちらもCPU上でのみ実行される旧アルゴリズムよりも300倍高速であることがわかった。

Differential Dynamic Microscopy (DDM) is the combination of optical microscopy to statistical analysis to obtain information about the dynamical behaviour of a variety of samples spanning from soft matter physics to biology. In DDM, the dynamical evolution of the samples is investigated separately at different length scales and extracted from a set of images recorded at different times. A specific result of interest is the structure function that can be computed via spatial Fourier transforms and differences of signals. In this work, we present an algorithm to efficiently process a set of images according to the DDM analysis scheme. We bench-marked the new approach against the state-of-the-art algorithm reported in previous work. The new implementation computes the DDM analysis faster, thanks to an additional Fourier transform in time instead of performing differences of signals. This allows obtaining very fast analysis also in CPU based machine. In order to test the new code, we performed the DDM analysis over sets of more than 1000 images with and without the help of GPU hardware acceleration. As an example, for images of $512 \times 512$ pixels, the new algorithm is 10 times faster than the previous GPU code. Without GPU hardware acceleration and for the same set of images, we found that the new algorithm is 300 faster than the old one both running only on the CPU.
翻訳日:2021-05-30 00:24:58 公開日:2020-12-02
# (参考訳) ディファレンシャルモーフ検出のためのアンタングル表現の相互情報最大化

Mutual Information Maximization on Disentangled Representations for Differential Morph Detection ( http://arxiv.org/abs/2012.01542v1 )

ライセンス: CC BY 4.0
Sobhan Soleymani, Ali Dabouei, Fariborz Taherkhani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 本稿では,ランドマークと外観のゆがみを利用した新しい微分形態検出フレームワークを提案する。 本フレームワークでは,2つの相補的表現を用いて,顔画像を埋め込み領域で表現する。 ネットワークは、中間画像が1つの画像からランドマークを継承し、他の画像から外観を継承する顔画像の三脚によって訓練される。 当初トレーニングされたこのネットワークは、コントラスト表現を使用してデータセット毎にさらにトレーニングされる。 外観とランドマークの絡み合いを利用することで,提案手法が最先端の微分形態検出性能を提供できることを実証する。 この機能はランドマーク、外観、IDドメインにおける距離を使用することで実現される。 提案フレームワークの性能は,異なる手法で生成された3つの形態データセットを用いて評価する。

In this paper, we present a novel differential morph detection framework, utilizing landmark and appearance disentanglement. In our framework, the face image is represented in the embedding domain using two disentangled but complementary representations. The network is trained by triplets of face images, in which the intermediate image inherits the landmarks from one image and the appearance from the other image. This initially trained network is further trained for each dataset using contrastive representations. We demonstrate that, by employing appearance and landmark disentanglement, the proposed framework can provide state-of-the-art differential morph detection performance. This functionality is achieved by the using distances in landmark, appearance, and ID domains. The performance of the proposed framework is evaluated using three morph datasets generated with different methodologies.
翻訳日:2021-05-29 23:56:00 公開日:2020-12-02
# (参考訳) lstmニューラルネットワークを用いた空間クラスタリングに基づく時間周波数マスクの強化

Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM Neural Networks ( http://arxiv.org/abs/2012.01576v1 )

ライセンス: CC BY 4.0
Felix Grezes, Zhaoheng Ni, Viet Anh Trinh, Michael Mandel(参考訳) 近年の研究では、LSTMアーキテクチャを用いたディープリカレントニューラルネットワークが、時間周波数マスクを推定することにより、強い単一チャネル音声強調を実現することが示されている。 しかし、これらのモデルは様々なマイクロホン構成からのマルチチャネル入力に自然に一般化するわけではない。 対照的に、空間クラスタリング技術はそのような一般化を達成することができるが、強い信号モデルがない。 我々の研究は2つのアプローチの組み合わせを提案する。 LSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化することにより、複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と、マルチチャネル空間クラスタリングの信号分離性能と一般性の両方を実現する。 提案システムとCHiME-3データセットのベースラインを比較した。 BSS\_eval ツールキットと PESQ の SDR を用いて,各システムからの音声の質を評価する。 本稿では、kaldi自動音声認識装置からの単語誤り率を用いて、各システム出力の識別性を評価する。

Recent works have shown that Deep Recurrent Neural Networks using the LSTM architecture can achieve strong single-channel speech enhancement by estimating time-frequency masks. However, these models do not naturally generalize to multi-channel inputs from varying microphone configurations. In contrast, spatial clustering techniques can achieve such generalization but lack a strong signal model. Our work proposes a combination of the two approaches. By using LSTMs to enhance spatial clustering based time-frequency masks, we achieve both the signal modeling performance of multiple single-channel LSTM-DNN speech enhancers and the signal separation performance and generality of multi-channel spatial clustering. We compare our proposed system to several baselines on the CHiME-3 dataset. We evaluate the quality of the audio from each system using SDR from the BSS\_eval toolkit and PESQ. We evaluate the intelligibility of the output of each system using word error rate from a Kaldi automatic speech recognizer.
翻訳日:2021-05-29 23:07:56 公開日:2020-12-02
# (参考訳) 空間クラスタリングマスクのためのlstm音声モデルを用いたmvdrビームフォーミングの改善

Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial Clustering Masks ( http://arxiv.org/abs/2012.02191v1 )

ライセンス: CC BY 4.0
Zhaoheng Ni, Felix Grezes, Viet Anh Trinh, Michael I. Mandel(参考訳) 空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができるが、詳細な音声/雑音モデルの導入は困難である。 対照的に、LSTMニューラルネットワークは単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録においてその情報を完全に活用することは困難である。 本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。 これにより、マルチチャネル空間クラスタリングの空間分離性能と一般化性と、並列単一チャネルLSTM音声強調器の信号モデリング性能を両立させることができる。 実験の結果, ノイズの多いタブレット記録のCHiME-3データセットに適用すると, PESQ(Perceptual Evaluation of Speech Quality)アルゴリズムで測定された音声品質が向上し, ベースラインCHiME-3音声認識器の単語誤り率をデフォルトのBeamformItビームフォーマと比較して低減することがわかった。

Spatial clustering techniques can achieve significant multi-channel noise reduction across relatively arbitrary microphone configurations, but have difficulty incorporating a detailed speech/noise model. In contrast, LSTM neural networks have successfully been trained to recognize speech from noise on single-channel inputs, but have difficulty taking full advantage of the information in multi-channel recordings. This paper integrates these two approaches, training LSTM speech models to clean the masks generated by the Model-based EM Source Separation and Localization (MESSL) spatial clustering method. By doing so, it attains both the spatial separation performance and generality of multi-channel spatial clustering and the signal modeling performance of multiple parallel single-channel LSTM speech enhancers. Our experiments show that when our system is applied to the CHiME-3 dataset of noisy tablet recordings, it increases speech quality as measured by the Perceptual Evaluation of Speech Quality (PESQ) algorithm and reduces the word error rate of the baseline CHiME-3 speech recognizer, as compared to the default BeamformIt beamformer.
翻訳日:2021-05-29 22:52:34 公開日:2020-12-02
# (参考訳) 多チャンネル音声強調のための空間クラスタリングとLSTM音声モデルの組み合わせ

Combining Spatial Clustering with LSTM Speech Models for Multichannel Speech Enhancement ( http://arxiv.org/abs/2012.03388v1 )

ライセンス: CC BY 4.0
Felix Grezes, Zhaoheng Ni, Viet Anh Trinh, Michael Mandel(参考訳) LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。 しかし、新しいマイクロフォンの構成に一般化できるような方法で、それらをマルチチャネル入力に適用する方法は明確ではない。 対照的に、空間クラスタリング技術はそのような一般化を達成することができるが、強い信号モデルがない。 本稿では,マルチチャネル空間クラスタリングの空間分離性能と一般性と,並列単一チャネルLSTM音声強調器の信号モデリング性能の両立を図った。 PESQアルゴリズムによって予測される音声品質や,不一致条件で訓練された認識者の単語誤り率の観点から,CHiME3データセットのベースラインを比較し,一般化に焦点を当てた。 実験により、lstmモデルと空間クラスタリングを組み合わせることで、開発セットにおける単語誤り率を4.6\%絶対値(1.2\%相対値)、空間クラスタリングシステムと比較してテストセット上で11.2\%絶対値(25.5\%相対値)、開発セットで10.75\%(32.72\%相対値)、lstmモデルと比較してテストデータで6.12\%絶対値(15.76\%相対値)に削減できることを示した。

Recurrent neural networks using the LSTM architecture can achieve significant single-channel noise reduction. It is not obvious, however, how to apply them to multi-channel inputs in a way that can generalize to new microphone configurations. In contrast, spatial clustering techniques can achieve such generalization, but lack a strong signal model. This paper combines the two approaches to attain both the spatial separation performance and generality of multichannel spatial clustering and the signal modeling performance of multiple parallel single-channel LSTM speech enhancers. The system is compared to several baselines on the CHiME3 dataset in terms of speech quality predicted by the PESQ algorithm and word error rate of a recognizer trained on mis-matched conditions, in order to focus on generalization. Our experiments show that by combining the LSTM models with the spatial clustering, we reduce word error rate by 4.6\% absolute (17.2\% relative) on the development set and 11.2\% absolute (25.5\% relative) on test set compared with spatial clustering system, and reduce by 10.75\% (32.72\% relative) on development set and 6.12\% absolute (15.76\% relative) on test data compared with LSTM model.
翻訳日:2021-05-29 22:37:41 公開日:2020-12-02
# (参考訳) 属性駆動協調フィルタリングにおけるユーザモデリングの変分推論について

On Variational Inference for User Modeling in Attribute-Driven Collaborative Filtering ( http://arxiv.org/abs/2012.01577v1 )

ライセンス: CC BY 4.0
Venugopal Mani, Ramasubramanian Balasubramanian, Sushant Kumar, Abhinav Mathur, Kannan Achan(参考訳) Recommender Systemsはオンライン電子商取引プラットフォームの一部となり、顧客のエンゲージメントと収益を推進している。 一般的なレコメンダシステムは、ユーザの過去のエンゲージメントデータから学び、ユーザの行動特性を理解し、将来の行動を予測するために利用しようとする。 本研究では,時間的文脈からユーザ属性親和性を学習するために因果推論を用いるアプローチを提案する。 この目的を確率的機械学習問題として定式化し,モデルパラメータの推定に変分推論に基づく手法を適用する。 2つの実世界データセットにおける次属性予測タスクにおける提案手法の性能を実証し,標準ベースライン法を上回っていることを示す。

Recommender Systems have become an integral part of online e-Commerce platforms, driving customer engagement and revenue. Most popular recommender systems attempt to learn from users' past engagement data to understand behavioral traits of users and use that to predict future behavior. In this work, we present an approach to use causal inference to learn user-attribute affinities through temporal contexts. We formulate this objective as a Probabilistic Machine Learning problem and apply a variational inference based method to estimate the model parameters. We demonstrate the performance of the proposed method on the next attribute prediction task on two real world datasets and show that it outperforms standard baseline methods.
翻訳日:2021-05-29 22:21:16 公開日:2020-12-02
# (参考訳) 深い特徴埋め込みを用いたメタ学習のためのマージンベース転送境界

Margin-Based Transfer Bounds for Meta Learning with Deep Feature Embedding ( http://arxiv.org/abs/2012.01602v1 )

ライセンス: CC BY 4.0
Jiechao Guan, Zhiwu Lu, Tao Xiang, Timothy Hospedales(参考訳) 目に見える/過去のタスクから学んだ知識を伝達することで、メタラーニングは目に見えない/未来的なタスクにうまく一般化することを目指している。 既存のメタラーニングアプローチは、様々な多クラス分類問題において有望な経験的性能を示すが、将来のタスクにおける分類器の一般化能力に関する理論的分析は少ない。 本稿では、全ての分類タスクが同じメタ分布からサンプリングされるという仮定の下で、マージン理論と統計的学習理論を活用し、メタラーニングに基づくマルチクラス分類(MLMC)のための3つのマージンベースの転送境界を確立する。 これらの境界は、将来のタスクに対する所定の分類アルゴリズムの予測誤差を、前処理のフィーチャマップ/ディープニューラルネットワークのクラス(すなわち、一様)上の有限個のタスクにおける平均的な経験誤差で推定できることを示している。 深い特徴の埋め込み) これらの境界を検証するために、一般的に使用されるクロスエントロピー損失の代わりに、複数の代表MLMCモデルをトレーニングするためにマルチマージン損失を用いる。 3つのベンチマーク実験により、これらのマージンベースモデルは依然として競争性能を達成し、マージンベース理論解析の実用的価値を検証した。

By transferring knowledge learned from seen/previous tasks, meta learning aims to generalize well to unseen/future tasks. Existing meta-learning approaches have shown promising empirical performance on various multiclass classification problems, but few provide theoretical analysis on the classifiers' generalization ability on future tasks. In this paper, under the assumption that all classification tasks are sampled from the same meta-distribution, we leverage margin theory and statistical learning theory to establish three margin-based transfer bounds for meta-learning based multiclass classification (MLMC). These bounds reveal that the expected error of a given classification algorithm for a future task can be estimated with the average empirical error on a finite number of previous tasks, uniformly over a class of preprocessing feature maps/deep neural networks (i.e. deep feature embeddings). To validate these bounds, instead of the commonly-used cross-entropy loss, a multi-margin loss is employed to train a number of representative MLMC models. Experiments on three benchmarks show that these margin-based models still achieve competitive performance, validating the practical value of our margin-based theoretical analysis.
翻訳日:2021-05-29 21:55:24 公開日:2020-12-02
# 分類のための対照的教師なし表現学習とその収束について

About contrastive unsupervised representation learning for classification and its convergence ( http://arxiv.org/abs/2012.01064v1 )

ライセンス: Link先を確認
Ibrahim Merad and Yiyang Yu and Emmanuel Bacry and St\'ephane Ga\"iffas(参考訳) コントラスト表現学習は、近年、自己監督訓練に非常に効率的であることが証明されている。 これらの手法は、下流分類タスクの教師付きトレーニングと互換性のあるエンコーダのトレーニングに成功している。 いくつかの研究が対照的な学習に関する理論的枠組みを構築し始めており、その性能を保証することができる。 複数の負のサンプルとマルチウェイ分類のためのトレーニングにこれらの結果の拡張を提供する。 さらに,超パラメータ深層ニューラルネットワークエンコーダの勾配降下を伴うコントラストトレーニング誤差の最小化のための収束保証を提供し,理論的な知見を補完する数値実験を行った。

Contrastive representation learning has been recently proved to be very efficient for self-supervised training. These methods have been successfully used to train encoders which perform comparably to supervised training on downstream classification tasks. A few works have started to build a theoretical framework around contrastive learning in which guarantees for its performance can be proven. We provide extensions of these results to training with multiple negative samples and for multiway classification. Furthermore, we provide convergence guarantees for the minimization of the contrastive training error with gradient descent of an overparametrized deep neural encoder, and provide some numerical experiments that complement our theoretical findings
翻訳日:2021-05-25 04:14:44 公開日:2020-12-02
# 自己単純化マシン:分割線形ニューラルネットワークの構造を利用して解釈可能なモデルを作成する

The Self-Simplifying Machine: Exploiting the Structure of Piecewise Linear Neural Networks to Create Interpretable Models ( http://arxiv.org/abs/2012.01293v1 )

ライセンス: Link先を確認
William Knauth(参考訳) 今日では、ユーザが使用するモデルに対する信頼を得ることはこれまで以上に重要です。 機械学習モデルは、規制の精査が高まり、高い状況でより多くのアプリケーションを見始めるにつれて、モデルを説明することが重要になる。 ReLUアクティベーション機能を持つPiecewise Linear Neural Networks (PLNN) は、多くの魅力的な性質から、急速に非常に人気のあるモデルとなっているが、堅牢性や解釈の分野ではまだ多くの課題がある。 そこで本研究では,Piecewise Linear Neural Networks の簡易化と解釈性向上のための新しい手法を提案する。 提案手法は, 訓練された深層ネットワークを用いて, さらなる確率的学習を行わずに, 高性能な単層ネットワークを構築すること, フラットネットワークを小さく, 解釈可能なサイズに縮小し, 性能の低下を最小限に抑えるアルゴリズムなどを含む。 これらの手法を用いて、モデル性能の予備的研究と、ウェルズ・ファーゴのホームレンディングデータセットのケーススタディを視覚モデル解釈と共に実施する。

Today, it is more important than ever before for users to have trust in the models they use. As Machine Learning models fall under increased regulatory scrutiny and begin to see more applications in high-stakes situations, it becomes critical to explain our models. Piecewise Linear Neural Networks (PLNN) with the ReLU activation function have quickly become extremely popular models due to many appealing properties; however, they still present many challenges in the areas of robustness and interpretation. To this end, we introduce novel methodology toward simplification and increased interpretability of Piecewise Linear Neural Networks for classification tasks. Our methods include the use of a trained, deep network to produce a well-performing, single-hidden-layer network without further stochastic training, in addition to an algorithm to reduce flat networks to a smaller, more interpretable size with minimal loss in performance. On these methods, we conduct preliminary studies of model performance, as well as a case study on Wells Fargo's Home Lending dataset, together with visual model interpretation.
翻訳日:2021-05-25 04:14:33 公開日:2020-12-02
# CNNのロバスト性を効果的に向上する自己改善型特徴マップ拡張(FMA)損失と組み合わせ強化

A Self-Supervised Feature Map Augmentation (FMA) Loss and Combined Augmentations Finetuning to Efficiently Improve the Robustness of CNNs ( http://arxiv.org/abs/2012.01386v1 )

ライセンス: Link先を確認
Nikhil Kapoor, Chun Yuan, Jonas L\"ohdefink, Roland Zimmermann, Serin Varghese, Fabian H\"uger, Nico Schmidt, Peter Schlicht, Tim Fingscheidt(参考訳) ディープニューラルネットワークは、入力の意味的に無関係な変化に対して堅牢ではないことが多い。 本研究では,光度変化やボケやノイズの付加といった入力の一般的な歪みに対する,最先端の深層畳み込みニューラルネットワーク(cnns)の頑健性の問題に対処する。 これらの入力の変化は、トレーニング中にデータ拡張の形で説明されることが多い。 まず、入力のいくつかの歪みに対してモデルが頑健になるように、微調整中に使用できる機能マップ拡張(fma)損失と呼ばれる新しい正規化損失を提案する。 第2に,データ効率の良い方法で複数の拡張型に対してロバストな単一モデルを実現する,新しい複合拡張(ca)微調整戦略を提案する。 安定トレーニング(st)と呼ばれる既存の最先端手法を改善するために,ca戦略を用いる。 画像の歪みを伴う画像分類タスクでは,fmaでは平均8.94%,cifar-10ではstが8.86%,imagenetではfmaが8.04%,imagenetではstが8.27%,よく知られたデータ拡張法では1.8%,2.12%の精度向上を達成し,ベースライン性能を維持した。

Deep neural networks are often not robust to semantically-irrelevant changes in the input. In this work we address the issue of robustness of state-of-the-art deep convolutional neural networks (CNNs) against commonly occurring distortions in the input such as photometric changes, or the addition of blur and noise. These changes in the input are often accounted for during training in the form of data augmentation. We have two major contributions: First, we propose a new regularization loss called feature-map augmentation (FMA) loss which can be used during finetuning to make a model robust to several distortions in the input. Second, we propose a new combined augmentations (CA) finetuning strategy, that results in a single model that is robust to several augmentation types at the same time in a data-efficient manner. We use the CA strategy to improve an existing state-of-the-art method called stability training (ST). Using CA, on an image classification task with distorted images, we achieve an accuracy improvement of on average 8.94% with FMA and 8.86% with ST absolute on CIFAR-10 and 8.04% with FMA and 8.27% with ST absolute on ImageNet, compared to 1.98% and 2.12%, respectively, with the well known data augmentation method, while keeping the clean baseline performance.
翻訳日:2021-05-25 04:14:13 公開日:2020-12-02
# SChME at SemEval-2020 Task 1: A Model Ensemble for Detectioning Lexical Semantic Change

SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical Semantic Change ( http://arxiv.org/abs/2012.01603v1 )

ライセンス: Link先を確認
Maur\'icio Gruppi, Sibel Adali and Pin-Yu Chen(参考訳) 本稿では,SemEval-2020 Task 1 における語彙意味変化の教師なし検出法である SChME (Semantic Change Detection with Model Ensemble) について述べる。 SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。 より具体的には、単語ベクトルのコサイン距離と、マップ化された近傍距離(map)と、我々のモデルへの入力信号として単語周波数差メトリックを組み合わせた。 さらに,このプロセスで使用されるランドマークの重要性を調べるためにアライメントに基づく手法を検討する。 その結果,アライメントに使用されるランドマークの数はモデル予測性能に直接影響することが示された。 さらに,意味変化に苦しむ言語は多数のランドマークを使用することで恩恵を受ける傾向にあり,意味変化の少ない言語はアライメントのためのランドマーク番号のより慎重な選択から恩恵を受けることを示す。

This paper describes SChME (Semantic Change Detection with Model Ensemble), a method usedin SemEval-2020 Task 1 on unsupervised detection of lexical semantic change. SChME usesa model ensemble combining signals of distributional models (word embeddings) and wordfrequency models where each model casts a vote indicating the probability that a word sufferedsemantic change according to that feature. More specifically, we combine cosine distance of wordvectors combined with a neighborhood-based metric we named Mapped Neighborhood Distance(MAP), and a word frequency differential metric as input signals to our model. Additionally,we explore alignment-based methods to investigate the importance of the landmarks used in thisprocess. Our results show evidence that the number of landmarks used for alignment has a directimpact on the predictive performance of the model. Moreover, we show that languages that sufferless semantic change tend to benefit from using a large number of landmarks, whereas languageswith more semantic change benefit from a more careful choice of landmark number for alignment.
翻訳日:2021-05-25 04:13:48 公開日:2020-12-02
# 局所対象注目とグローバル意味文脈モデリングを用いた逐次画像記述の生成

Generating Descriptions for Sequential Images with Local-Object Attention and Global Semantic Context Modelling ( http://arxiv.org/abs/2012.01295v1 )

ライセンス: Link先を確認
Jing Su, Chenghua Lin, Mian Zhou, Qingyun Dai, Haoyu Lv(参考訳) 本稿では,局所オブジェクトアテンション機構を持つシーケンシャル画像の記述を生成するために,エンドツーエンドのCNN-LSTMモデルを提案する。 コヒーレントな記述を生成するために、シーケンシャルイメージ間の依存関係を学習する多層パーセプトロンを用いて、グローバルセマンティックコンテキストをキャプチャする。 並列LSTMネットワークを用いてシーケンス記述を復号する。 実験の結果,我々のモデルは,Microsoftが公開したデータセットの3つの評価指標において,ベースラインよりも優れていた。

In this paper, we propose an end-to-end CNN-LSTM model for generating descriptions for sequential images with a local-object attention mechanism. To generate coherent descriptions, we capture global semantic context using a multi-layer perceptron, which learns the dependencies between sequential images. A paralleled LSTM network is exploited for decoding the sequence descriptions. Experimental results show that our model outperforms the baseline across three different evaluation metrics on the datasets published by Microsoft.
翻訳日:2021-05-25 04:13:29 公開日:2020-12-02
# メタ認知に基づく簡易かつ効果的な物体検出法

Meta-Cognition-Based Simple And Effective Approach To Object Detection ( http://arxiv.org/abs/2012.01201v1 )

ライセンス: Link先を確認
Sannidhi P Kumar, Chandan Gautam, Suresh Sundaram(参考訳) 近年,多くの研究者が,精度と操作速度の両面で,ディープラーニングに基づく物体検出モデルの改良を試みている。 しかし、しばしば、これらのモデルの速度と精度のトレードオフがあり、自律ナビゲーションのような実用的な用途での使用は蓄積される。 本稿では,物体検出のためのメタ認知学習戦略を探求し,検出速度を維持しつつ一般化能力を向上させる。 メタ認知方法は、トレーニングデータセットのオブジェクトインスタンスを選択的にサンプリングし、オーバーフィッティングを減らす。 YOLO v3 Tinyを作業のベースモデルとして使用し,MS COCOデータセットを用いて性能評価を行う。 実験の結果、絶対精度は2.6%(最小値)と4.4%(最大値)で、推論時間にオーバーヘッドはないことが示された。

Recently, many researchers have attempted to improve deep learning-based object detection models, both in terms of accuracy and operational speeds. However, frequently, there is a trade-off between speed and accuracy of such models, which encumbers their use in practical applications such as autonomous navigation. In this paper, we explore a meta-cognitive learning strategy for object detection to improve generalization ability while at the same time maintaining detection speed. The meta-cognitive method selectively samples the object instances in the training dataset to reduce overfitting. We use YOLO v3 Tiny as a base model for the work and evaluate the performance using the MS COCO dataset. The experimental results indicate an improvement in absolute precision of 2.6% (minimum), and 4.4% (maximum), with no overhead to inference time.
翻訳日:2021-05-25 04:13:20 公開日:2020-12-02
# カテゴリーから潜在空間へのNLP手法の拡張について:KL多様性,Zipfの法則,類似性探索

On Extending NLP Techniques from the Categorical to the Latent Space: KL Divergence, Zipf's Law, and Similarity Search ( http://arxiv.org/abs/2012.01941v1 )

ライセンス: Link先を確認
Adam Hare, Yu Chen, Yinan Liu, Zhenming Liu, Christopher G. Brinton(参考訳) 自然言語処理(nlp)におけるディープラーニングの最近の成功にもかかわらず、機械学習に依存しない技術に対する幅広い利用と需要が残っている。 これらの技術の利点は、しばしば不透明で高価な機械学習モデルと比較した場合の解釈可能性と低コストである。 どのケースでもパフォーマンスは良くないかもしれないが、一般的な問題や比較的単純な問題には十分であることが多い。 本稿では,単語の分類的表現から単語の埋め込み表現へのアプローチを潜時空間に拡張し,それらの利点を維持しつつ,これらの古い手法の近代化を目指す。 まず,単語埋め込みを用いてエントロピーとKulback-Leiblerの発散を効率的に推定し,この推定を用いて複数のカテゴリのテキストを比較した。 次に、分類空間から潜在空間へ頻繁に観測されるZipfの法則として知られる重み付き分布をリキャストする。 最後に, 集合被覆問題に基づいて類似文を識別する新しい手法を導入することにより, 提案文に対するjaccard類似度尺度の改善を目指す。 本稿では,このアルゴリズムの性能をWord Moverの距離やLevenshtein距離などいくつかのベースラインと比較する。

Despite the recent successes of deep learning in natural language processing (NLP), there remains widespread usage of and demand for techniques that do not rely on machine learning. The advantage of these techniques is their interpretability and low cost when compared to frequently opaque and expensive machine learning models. Although they may not be be as performant in all cases, they are often sufficient for common and relatively simple problems. In this paper, we aim to modernize these older methods while retaining their advantages by extending approaches from categorical or bag-of-words representations to word embeddings representations in the latent space. First, we show that entropy and Kullback-Leibler divergence can be efficiently estimated using word embeddings and use this estimation to compare text across several categories. Next, we recast the heavy-tailed distribution known as Zipf's law that is frequently observed in the categorical space to the latent space. Finally, we look to improve the Jaccard similarity measure for sentence suggestion by introducing a new method of identifying similar sentences based on the set cover problem. We compare the performance of this algorithm against several baselines including Word Mover's Distance and the Levenshtein distance.
翻訳日:2021-05-25 04:12:45 公開日:2020-12-02
# DERAIL:Reward and Imitation Learningのための診断環境

DERAIL: Diagnostic Environments for Reward And Imitation Learning ( http://arxiv.org/abs/2012.01365v1 )

ライセンス: Link先を確認
Pedro Freire, Adam Gleave, Sam Toyer, Stuart Russell(参考訳) 多くの現実世界のタスクの目的は複雑で手続き的に特定することが難しい。 これにより、報酬または模倣学習アルゴリズムを使用して、人間のデータから直接報酬またはポリシーを推測する必要がある。 これらのアルゴリズムの既存のベンチマークは、複雑な環境でのテスト、リアリズムに焦点を当てている。 残念ながら、これらのベンチマークは遅く、信頼性がなく、障害を分離できない。 補完的アプローチとして,個別のアルゴリズム性能を独立してテストする簡易な診断タスク群を開発した。 タスク上での報酬と模倣学習のアルゴリズムを多岐にわたって評価する。 その結果、アルゴリズムの性能は実装の詳細に非常に敏感であることが判明した。 さらに、一般的な嗜好に基づく報酬学習実装へのケーススタディでは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法について説明する。 環境はhttps://github.com/HumanCompatibleAI/sealsで入手できる。

The objective of many real-world tasks is complex and difficult to procedurally specify. This makes it necessary to use reward or imitation learning algorithms to infer a reward or policy directly from human data. Existing benchmarks for these algorithms focus on realism, testing in complex environments. Unfortunately, these benchmarks are slow, unreliable and cannot isolate failures. As a complementary approach, we develop a suite of simple diagnostic tasks that test individual facets of algorithm performance in isolation. We evaluate a range of common reward and imitation learning algorithms on our tasks. Our results confirm that algorithm performance is highly sensitive to implementation details. Moreover, in a case-study into a popular preference-based reward learning implementation, we illustrate how the suite can pinpoint design flaws and rapidly evaluate candidate solutions. The environments are available at https://github.com/HumanCompatibleAI/seals .
翻訳日:2021-05-25 04:12:05 公開日:2020-12-02
# 密度デストラクタにおける情報理論

Information Theory in Density Destructors ( http://arxiv.org/abs/2012.01012v1 )

ライセンス: Link先を確認
J. Emmanuel Johnson, Valero Laparra, Gustau Camps-Valls, Raul Santos-Rodr\'iguez, Jes\'us Malo(参考訳) 密度デストラクタは微分可能であり、任意の構造(低エントロピー)の多変量PDFを非構造PDF(最大エントロピー)に変換する可逆変換である。 多変量ガウス化と多変量等化はこのファミリの具体例であり、元のPDFの複雑さをデータ構造を段階的に除去する基本変換によって分解する。 密度破壊的流れの性質が古典的情報理論とどのように結びついているか,また,より正確な情報理論量の推定に密度分解器が利用できるかを示す。 全相関と相互情報の多変量集合による実験は、競合する手法と比較して密度デストラクタの能力を示している。 これらの結果は,情報理論的な手法が,密度破壊的流れを学ぶ際の代替的最適化基準となる可能性を示唆する。

Density destructors are differentiable and invertible transforms that map multivariate PDFs of arbitrary structure (low entropy) into non-structured PDFs (maximum entropy). Multivariate Gaussianization and multivariate equalization are specific examples of this family, which break down the complexity of the original PDF through a set of elementary transforms that progressively remove the structure of the data. We demonstrate how this property of density destructive flows is connected to classical information theory, and how density destructors can be used to get more accurate estimates of information theoretic quantities. Experiments with total correlation and mutual information inmultivariate sets illustrate the ability of density destructors compared to competing methods. These results suggest that information theoretic measures may be an alternative optimization criteria when learning density destructive flows.
翻訳日:2021-05-25 04:11:55 公開日:2020-12-02
# 双曲表現の整合:最適なトランスポートベースアプローチ

Aligning Hyperbolic Representations: an Optimal Transport-based approach ( http://arxiv.org/abs/2012.01089v1 )

ライセンス: Link先を確認
Andr\'es Hoyos-Idrobo(参考訳) 双曲空間は木のようなデータのような階層的な関係を持つデータを表現するのに適している。 しかし、アライメントを通じて異なるが関連する表現を有意義に組み込むことがしばしば必要である。 このアライメントは、オントロジーマッチングや言語間アライメントといった応用を含む、マシンラーニング問題の重要なクラスである。 最適なトランスポート(ot)ベースのアプローチは、ターゲットデータセットにマッチするソースデータセットの変換を見つけることを目的としているため、アライメント問題に取り組むための自然な選択である。 この研究は、双曲空間のポアンカーイーモデルへの埋め込みのOTに基づく新しいアプローチを提案する。 提案手法は, M\"obius gyrovector space 上のジャイロ中心写像に依存する。 この形式化の結果として、otに基づくドメイン適応の既存のユークリッド法を双曲的対応に拡張する。 経験的に、ユークリッド法と双曲法の両方が検索の文脈で同様の性能を持つことを示した。

Hyperbolic-spaces are better suited to represent data with underlying hierarchical relationships, e.g., tree-like data. However, it is often necessary to incorporate, through alignment, different but related representations meaningfully. This aligning is an important class of machine learning problems, with applications as ontology matching and cross-lingual alignment. Optimal transport (OT)-based approaches are a natural choice to tackle the alignment problem as they aim to find a transformation of the source dataset to match a target dataset, subject to some distribution constraints. This work proposes a novel approach based on OT of embeddings on the Poincar\'e model of hyperbolic spaces. Our method relies on the gyrobarycenter mapping on M\"obius gyrovector spaces. As a result of this formalism, we derive extensions to some existing Euclidean methods of OT-based domain adaptation to their hyperbolic counterparts. Empirically, we show that both Euclidean and hyperbolic methods have similar performances in the context of retrieval.
翻訳日:2021-05-25 04:11:38 公開日:2020-12-02
# Adaptive Pairwise Label Smoothing による正規化

Regularization via Adaptive Pairwise Label Smoothing ( http://arxiv.org/abs/2012.01559v1 )

ライセンス: Link先を確認
Hongyu Guo(参考訳) ラベル平滑化(ls)は最先端の深層モデルの一般化を改善する効果的な正規化である。 各トレーニングサンプルに対して、LS戦略は、不確実なクラスに分布質量を分散することにより、1ホット符号化されたトレーニング信号を円滑にし、ネットワークが過信な出力分布を生成することを防ぐ。 本稿では Pairwise Label Smoothing (PLS) と呼ばれる新しいラベル平滑化手法を提案する。 PLSはサンプルのペアを入力として取ります。 一対の地平線ラベルによる平滑化により、PSSは2つの真理線ラベル間の相対的な距離を保ちつつ、真理線ラベルと他の目標との相対的な距離を和らげることができる。 また、クロスバリデーションサーチによって大域的に滑らかな分布質量を求める現在のLS法とは異なり、PSSはトレーニング中に各入力ペアの分布質量を自動的に学習する。 PLSはLSおよびベースラインモデルよりも有意に優れており,相対的分類誤差の最大30%を達成している。 また,このような精度を達成すると,PSSはソフトマックススコアが極めて低い傾向を示す。

Label Smoothing (LS) is an effective regularizer to improve the generalization of state-of-the-art deep models. For each training sample the LS strategy smooths the one-hot encoded training signal by distributing its distribution mass over the non ground-truth classes, aiming to penalize the networks from generating overconfident output distributions. This paper introduces a novel label smoothing technique called Pairwise Label Smoothing (PLS). The PLS takes a pair of samples as input. Smoothing with a pair of ground-truth labels enables the PLS to preserve the relative distance between the two truth labels while further soften that between the truth labels and the other targets, resulting in models producing much less confident predictions than the LS strategy. Also, unlike current LS methods, which typically require to find a global smoothing distribution mass through cross-validation search, PLS automatically learns the distribution mass for each input pair during training. We empirically show that PLS significantly outperforms LS and the baseline models, achieving up to 30% of relative classification error reduction. We also visually show that when achieving such accuracy gains the PLS tends to produce very low winning softmax scores.
翻訳日:2021-05-25 04:11:11 公開日:2020-12-02
# ReMP:Few-Shot Learningのための認定メトリックプロパゲーション

ReMP: Rectified Metric Propagation for Few-Shot Learning ( http://arxiv.org/abs/2012.00904v1 )

ライセンス: Link先を確認
Yang Zhao, Chunyuan Li, Ping Yu, Changyou Chen(参考訳) わずかながらの学習では、いくつかの例から一般化する能力がある。 本稿では,まず,メトリクスの一貫性をトレーニングからテストまで維持するために学習される識別的特徴空間,すなわち正則距離空間が,メトリクスベースのマイノリティ学習の成功に不可欠な要素であることを示す。 多くの分析結果から、目標の単純な修正は実質的な性能向上をもたらすことが示されている。 ReMP(rerectified metric propagation)と呼ばれるこの手法は、注意深いプロトタイプの伝播ネットワークをさらに最適化し、自信ある予測を行うために反発力を適用する。 大規模な実験により、提案されたReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。

Few-shot learning features the capability of generalizing from a few examples. In this paper, we first identify that a discriminative feature space, namely a rectified metric space, that is learned to maintain the metric consistency from training to testing, is an essential component to the success of metric-based few-shot learning. Numerous analyses indicate that a simple modification of the objective can yield substantial performance gains. The resulting approach, called rectified metric propagation (ReMP), further optimizes an attentive prototype propagation network, and applies a repulsive force to make confident predictions. Extensive experiments demonstrate that the proposed ReMP is effective and efficient, and outperforms the state of the arts on various standard few-shot learning datasets.
翻訳日:2021-05-25 04:10:47 公開日:2020-12-02
# SemiNLL:半監督学習による雑音ラベル学習フレームワーク

SemiNLL: A Framework of Noisy-Label Learning by Semi-Supervised Learning ( http://arxiv.org/abs/2012.00925v1 )

ライセンス: Link先を確認
Zhuowei Wang, Jing Jiang, Bo Han, Lei Feng, Bo An, Gang Niu, Guodong Long(参考訳) ノイズの多いラベルによるディープラーニングは難しい課題です。 特定のサンプル選択(SS)戦略と特定の半教師付き学習(SSL)モデルに基づく最近の顕著な手法は、最先端のパフォーマンスを達成した。 直感的には、より強力なSS戦略とSSLモデルを採用するとパフォーマンスが向上する。 この直感に従って、SS戦略とSSLモデルの異なる組み合わせを用いて、様々な効果的な雑音ラベル学習法を容易に導き出すことができる。 この問題を解決するために,SS戦略とSSLモデルをエンドツーエンドで組み合わせた汎用フレームワークであるSemiNLLを提案する。 我々のフレームワークは様々なss戦略とsslバックボーンを吸収でき、その能力を利用して有望なパフォーマンスを実現します。 ベンチマークをシミュレートしたデータセットや,ノイズの多いラベル付きの実世界のデータセットに新たな最先端を設定するために,さまざまな組み合わせでフレームワークをインスタンス化しています。

Deep learning with noisy labels is a challenging task. Recent prominent methods that build on a specific sample selection (SS) strategy and a specific semi-supervised learning (SSL) model achieved state-of-the-art performance. Intuitively, better performance could be achieved if stronger SS strategies and SSL models are employed. Following this intuition, one might easily derive various effective noisy-label learning methods using different combinations of SS strategies and SSL models, which is, however, reinventing the wheel in essence. To prevent this problem, we propose SemiNLL, a versatile framework that combines SS strategies and SSL models in an end-to-end manner. Our framework can absorb various SS strategies and SSL backbones, utilizing their power to achieve promising performance. We also instantiate our framework with different combinations, which set the new state of the art on benchmark-simulated and real-world datasets with noisy labels.
翻訳日:2021-05-25 04:10:34 公開日:2020-12-02
# 椅子セグメンテーション:オブジェクトセグメンテーション研究のためのコンパクトベンチマーク

Chair Segments: A Compact Benchmark for the Study of Object Segmentation ( http://arxiv.org/abs/2012.01250v1 )

ライセンス: Link先を確認
Leticia Pinto-Alva, Ian K. Torres, Rosangel Garcia, Ziyan Yang, Vicente Ordonez(参考訳) 長年にわたり、データセットとベンチマークは、新しいアルゴリズムの設計に大きな影響を与えてきた。 本稿では,オブジェクトセグメンテーションのための新しいコンパクトな半合成データセットである chairsegments を紹介する。 また,画像分類の最近の知見を反映した転帰学習における経験的発見を示す。 特に,事前訓練された重みから微調整されたモデルが,最適化景観の同じ基盤にあることを示す。 椅子セグメンツは、透明な背景が様々な背景に合成された椅子の多様な原型的なイメージからなる。 CIFAR-10データセットと同等のChairSegmentsを目指しているが、セグメンテーションのための新しいモデルアーキテクチャを素早く設計し、反復する。 Chair Segmentsでは、単一のGPUを使用して、U-Netモデルを30分で完全に収束するようにトレーニングすることができる。 最後に、このデータセットは半合成であるが、実際のデータの有用なプロキシになり、事前トレーニングのソースとして使用する場合、Object Discoveryデータセットの最先端の精度につながる。

Over the years, datasets and benchmarks have had an outsized influence on the design of novel algorithms. In this paper, we introduce ChairSegments, a novel and compact semi-synthetic dataset for object segmentation. We also show empirical findings in transfer learning that mirror recent findings for image classification. We particularly show that models that are fine-tuned from a pretrained set of weights lie in the same basin of the optimization landscape. ChairSegments consists of a diverse set of prototypical images of chairs with transparent backgrounds composited into a diverse array of backgrounds. We aim for ChairSegments to be the equivalent of the CIFAR-10 dataset but for quickly designing and iterating over novel model architectures for segmentation. On Chair Segments, a U-Net model can be trained to full convergence in only thirty minutes using a single GPU. Finally, while this dataset is semi-synthetic, it can be a useful proxy for real data, leading to state-of-the-art accuracy on the Object Discovery dataset when used as a source of pretraining.
翻訳日:2021-05-25 04:09:43 公開日:2020-12-02
# インスタンスベース学習を用いた言語分類

Linguistic Classification using Instance-Based Learning ( http://arxiv.org/abs/2012.07512v1 )

ライセンス: Link先を確認
Priya S. Nayak, Rhythm Girdhar, Shreekanth M. Prabhu(参考訳) 伝統的に言語学者は、木としてモデル化された言語家族として世界の言語を組織化してきた。 この研究では、コントラリアン的アプローチを採用し、より限定的な木に基づくモデルに疑問を呈する。 例えば、サンスクリットがインド・ヨーロッパ語族の言語と独立に持つ親和性は、ネットワークモデルを使ってよりよく示される。 インドにおける言語間の相互関係についても同じことが言えます。 このような発見を可能にするために,本稿では,言語ラベルを単語に割り当てるために,インスタンスベースの学習手法を用いた。 我々は各単語を発声し、その単語の慣用的な言語距離メートル法を言語ラベルを含む訓練セットと比較することにより分類する。 我々は、単語クラスタを使用し、そのクラスタに言語とカテゴリラベルを割り当てることで、トレーニングセットを構築する。 さらに,クラスタリング係数を質指標として利用している。 我々は我々の研究が言語学の新しい時代を後押しする可能性があると考えている。 この仕事はインドの重要な言語に限られています。 この研究は、社会ネットワーク分析の構造的同値概念と結合した分類にadaboostを適用することでさらに強化することができる。

Traditionally linguists have organized languages of the world as language families modelled as trees. In this work we take a contrarian approach and question the tree-based model that is rather restrictive. For example, the affinity that Sanskrit independently has with languages across Indo-European languages is better illustrated using a network model. We can say the same about inter-relationship between languages in India, where the inter-relationships are better discovered than assumed. To enable such a discovery, in this paper we have made use of instance-based learning techniques to assign language labels to words. We vocalize each word and then classify it by making use of our custom linguistic distance metric of the word relative to training sets containing language labels. We construct the training sets by making use of word clusters and assigning a language and category label to that cluster. Further, we make use of clustering coefficients as a quality metric for our research. We believe our work has the potential to usher in a new era in linguistics. We have limited this work for important languages in India. This work can be further strengthened by applying Adaboost for classification coupled with structural equivalence concepts of social network analysis.
翻訳日:2021-05-25 04:08:59 公開日:2020-12-02
# PPOおよびRUDDERに適用したアクター臨界法の収束証明

Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER ( http://arxiv.org/abs/2012.01399v1 )

ライセンス: Link先を確認
Markus Holzleitner, Lukas Gruber, Jos\'e Arjona-Medina, Johannes Brandstetter, Sepp Hochreiter(参考訳) 本稿では,政策関数,アクター,価値関数を同時に学習するアクター批判型強化学習アルゴリズムの収束を,一般的に用いられる仮定の下で証明する。 どちらの関数も任意の複雑性を持つディープニューラルネットワークである。 我々のフレームワークは、よく知られたPPO(Proximal Policy Optimization)と最近導入されたRUDDERの収束を示すことができる。 収束証明には、2つの時間スケール確率近似理論から導入された手法を用いる。 以上の結果は,エピソディックサンプルを使用し,学習中により欲張りになる方針を持つアクタ-批判的手法に有効である。 以前の収束証明は線形関数近似を仮定し、エピソディックな例を扱えないか、あるいはポリシーが欲張りになることを考慮しない。 最適政策は通常決定論的であるため、後者は適切である。

We prove under commonly used assumptions the convergence of actor-critic reinforcement learning algorithms, which simultaneously learn a policy function, the actor, and a value function, the critic. Both functions can be deep neural networks of arbitrary complexity. Our framework allows showing convergence of the well known Proximal Policy Optimization (PPO) and of the recently introduced RUDDER. For the convergence proof we employ recently introduced techniques from the two time-scale stochastic approximation theory. Our results are valid for actor-critic methods that use episodic samples and that have a policy that becomes more greedy during learning. Previous convergence proofs assume linear function approximation, cannot treat episodic examples, or do not consider that policies become greedy. The latter is relevant since optimal policies are typically deterministic.
翻訳日:2021-05-25 04:08:42 公開日:2020-12-02
# 機械学習による臨界遷移とシステム崩壊の予測

Machine learning prediction of critical transition and system collapse ( http://arxiv.org/abs/2012.01545v1 )

ライセンス: Link先を確認
Ling-Wei Kong, Hua-Wei Fan, Celso Grebogi, Ying-Cheng Lai(参考訳) モデルに依存しないパラメータドリフトによる臨界遷移を予測することは、非線形力学や応用場において際立った問題である。 密接に関連する問題は、システムが既に存在するか、システムが崩壊する前に過渡状態になるかを予測することである。 我々は,パラメータ入力チャネルを組み込むために貯水池計算を活用することにより,両方の問題に対する自由機械学習に基づくモデルを開発した。 機械がカオス的アトラクタ(すなわち臨界遷移の前に)を持つ正常な機能制御系で訓練された場合、遷移点を正確に予測できることを実証する。 注目すべきは、臨界点をドリフトするパラメータに対して、入力パラメータチャネルを持つマシンは、システムが過渡状態になるだけでなく、最終崩壊前の平均過渡時間も予測することができることである。

To predict a critical transition due to parameter drift without relying on model is an outstanding problem in nonlinear dynamics and applied fields. A closely related problem is to predict whether the system is already in or if the system will be in a transient state preceding its collapse. We develop a model free, machine learning based solution to both problems by exploiting reservoir computing to incorporate a parameter input channel. We demonstrate that, when the machine is trained in the normal functioning regime with a chaotic attractor (i.e., before the critical transition), the transition point can be predicted accurately. Remarkably, for a parameter drift through the critical point, the machine with the input parameter channel is able to predict not only that the system will be in a transient state, but also the average transient time before the final collapse.
翻訳日:2021-05-25 04:08:30 公開日:2020-12-02
# 道路交通予測のためのディープラーニング:それは違いをもたらすか?

Deep Learning for Road Traffic Forecasting: Does it Make a Difference? ( http://arxiv.org/abs/2012.02260v1 )

ライセンス: Link先を確認
Eric L. Manibardo, Ibai La\~na and Javier Del Ser(参考訳) 深層学習法は複雑な現象をモデル化するために柔軟であることが証明されている。 これはまた、車両知覚や交通分析といったいくつかの分野が、コアモデリング技術としてディープラーニングを広く採用しているインテリジェントトランスポーテーションシステム(its)のケースでもある。 特に短期的なトラフィック予測では、Deep Learningの優れた結果を提供する能力は、Deep Learningモデルの使用に対して、そのメリットや欠点を深く調べることなく、一般的な慣性を生み出しました。 本稿では,このITS研究領域におけるDeep Learningの活用に言及した技術の現状を批判的に分析することに焦点を当てる。 そこで本研究では,近年の論文のレビューから得られた知見を,2つの分類基準に基づいて詳細に述べる。 後続の批判分析は、交通予測のためのディープラーニングの問題について、質問を定式化し、必要な議論を引き起こす。 この研究は、さまざまなシナリオをカバーすることを目的とした、異なる性質のトラフィックデータセットに対する様々な短期交通予測手法のベンチマークで完了した。 私たちの実験では、深層学習はあらゆるケースで最適なモデリング技術ではないことが分かりました。 これらの知見は、道路交通予測における新たな課題と研究機会を明らかにするものであり、この分野における今後の研究努力を刺激し、指導することを意図して、徹底的に列挙・議論されている。

Deep Learning methods have been proven to be flexible to model complex phenomena. This has also been the case of Intelligent Transportation Systems (ITS), in which several areas such as vehicular perception and traffic analysis have widely embraced Deep Learning as a core modeling technology. Particularly in short-term traffic forecasting, the capability of Deep Learning to deliver good results has generated a prevalent inertia towards using Deep Learning models, without examining in depth their benefits and downsides. This paper focuses on critically analyzing the state of the art in what refers to the use of Deep Learning for this particular ITS research area. To this end, we elaborate on the findings distilled from a review of publications from recent years, based on two taxonomic criteria. A posterior critical analysis is held to formulate questions and trigger a necessary debate about the issues of Deep Learning for traffic forecasting. The study is completed with a benchmark of diverse short-term traffic forecasting methods over traffic datasets of different nature, aimed to cover a wide spectrum of possible scenarios. Our experimentation reveals that Deep Learning could not be the best modeling technique for every case, which unveils some caveats unconsidered to date that should be addressed by the community in prospective studies. These insights reveal new challenges and research opportunities in road traffic forecasting, which are enumerated and discussed thoroughly, with the intention of inspiring and guiding future research efforts in this field.
翻訳日:2021-05-25 04:08:17 公開日:2020-12-02
# 大域的非剛性再建のためのニューラル変形グラフ

Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction ( http://arxiv.org/abs/2012.01451v1 )

ライセンス: Link先を確認
Alja\v{z} Bo\v{z}i\v{c}, Pablo Palafox, Michael Zollh\"ofer, Justus Thies, Angela Dai, Matthias Nie{\ss}ner(参考訳) 本研究では,非剛体物体の変形追跡と3次元再構成のためのニューラル変形グラフを提案する。 具体的には,ディープニューラルネットワークによる変形グラフを暗黙的にモデル化する。 この神経変形グラフは物体固有の構造に依存しないため、一般的な非剛性変形追跡に適用することができる。 提案手法は,非剛体移動物体の深度カメラ観測の所定のシーケンス上で,このニューラルグラフをグローバルに最適化する。 明示的な視点整合性とフレーム間のグラフと表面一貫性の制約に基づいて、基盤となるネットワークは自己教師ありの方法で訓練される。 さらに,オブジェクトの形状を暗黙的に変形可能なマルチmlp形状表現で最適化する。 本手法では,逐次入力データを仮定しないため,高速動作のロバストな追跡や,時間的切り離し記録が可能となる。 実験により, 神経変形グラフは定性的および定量的に両立し, 64%の再構成が改善され, 62%の変形追跡性能が向上した。

We introduce Neural Deformation Graphs for globally-consistent deformation tracking and 3D reconstruction of non-rigid objects. Specifically, we implicitly model a deformation graph via a deep neural network. This neural deformation graph does not rely on any object-specific structure and, thus, can be applied to general non-rigid deformation tracking. Our method globally optimizes this neural graph on a given sequence of depth camera observations of a non-rigidly moving object. Based on explicit viewpoint consistency as well as inter-frame graph and surface consistency constraints, the underlying network is trained in a self-supervised fashion. We additionally optimize for the geometry of the object with an implicit deformable multi-MLP shape representation. Our approach does not assume sequential input data, thus enabling robust tracking of fast motions or even temporally disconnected recordings. Our experiments demonstrate that our Neural Deformation Graphs outperform state-of-the-art non-rigid reconstruction approaches both qualitatively and quantitatively, with 64% improved reconstruction and 62% improved deformation tracking performance.
翻訳日:2021-05-25 04:06:44 公開日:2020-12-02
# 表現の確率推定による映像異常検出

Video Anomaly Detection by Estimating Likelihood of Representations ( http://arxiv.org/abs/2012.01468v1 )

ライセンス: Link先を確認
Yuqi Ouyang, Victor Sanchez(参考訳) ビデオ異常検出は、動作表現、オブジェクトのローカライゼーション、アクション認識といった多くのサブタスクを解決することだけでなく、異常値の検出を伴う教師なし学習問題として一般的に考えられているため、難しい課題である。 伝統的に、この課題の解決策は、ビデオフレームとその低次元特徴のマッピングに焦点を合わせ、それらの特徴の空間的接続を無視している。 最近のソリューションでは、K-Meansのようなハードクラスタリング技術を使用してこれらの空間的接続を分析することや、ニューラルネットワークを適用して潜在特徴をアクション属性などの一般的な理解にマップすることに焦点を当てている。 潜時特徴空間における映像異常を解決するために,このタスクを,潜時多様体が深い復調オートエンコーダによって生成され,期待値の最大化によりクラスタ化される密度推定問題に転送する深部確率モデルを提案する。 いくつかのベンチマークデータセットの評価は、我々のモデルの強みを示し、挑戦的なデータセット上で優れたパフォーマンスを達成する。

Video anomaly detection is a challenging task not only because it involves solving many sub-tasks such as motion representation, object localization and action recognition, but also because it is commonly considered as an unsupervised learning problem that involves detecting outliers. Traditionally, solutions to this task have focused on the mapping between video frames and their low-dimensional features, while ignoring the spatial connections of those features. Recent solutions focus on analyzing these spatial connections by using hard clustering techniques, such as K-Means, or applying neural networks to map latent features to a general understanding, such as action attributes. In order to solve video anomaly in the latent feature space, we propose a deep probabilistic model to transfer this task into a density estimation problem where latent manifolds are generated by a deep denoising autoencoder and clustered by expectation maximization. Evaluations on several benchmarks datasets show the strengths of our model, achieving outstanding performance on challenging datasets.
翻訳日:2021-05-25 04:06:28 公開日:2020-12-02
# 脳波分類のための注意に基づく深層学習モデルの比較

Comparison of Attention-based Deep Learning Models for EEG Classification ( http://arxiv.org/abs/2012.01074v1 )

ライセンス: Link先を確認
Giulia Cisotto, Alessio Zanga, Joanna Chlebus, Italo Zoppis, Sara Manzoni, and Urszula Markowska-Kaczmar(参考訳) 目的: 深層学習(DL)モデルにおける異なる種類の注意機構の脳波(EEG)分類への影響を評価する。 方法:注意力のあるdlモデル,新しいinstagats,注意力のあるlstm,注意力のあるcnnの3つを比較した。 これらのモデルを用いて、正常な脳波パターンと異常な脳波パターンを分類した。 結果:全ての分類問題において,データセットの多変量および注意喚起モデルの単純なアーキテクチャに関わらず,技術の現状を達成できた。 また、アテンションメカニズムがどのように適用され、アテンション層がモデル内にあるかによって、データセットの時間、周波数、空間領域に含まれる情報を活用することができることも証明できる。 結論:本研究では,正常脳波パターンと異常脳波パターンの分類において,注意機構の異なる役割について光を当てた。 さらに,脳活動の時間的,頻度的,空間的領域における内在的関係をいかに活用できるかを考察した。 意義: 注意は、様々な現実のシナリオにおいて、脳波情報の品質とその関連性を評価するための有望な戦略である。 さらに、計算を並列化しやすくすることで、大きな電気生理学的(EEG)データセットの分析を高速化することができる。

Objective: To evaluate the impact on Electroencephalography (EEG) classification of different kinds of attention mechanisms in Deep Learning (DL) models. Methods: We compared three attention-enhanced DL models, the brand-new InstaGATs, an LSTM with attention and a CNN with attention. We used these models to classify normal and abnormal (i.e., artifactual or pathological) EEG patterns. Results: We achieved the state of the art in all classification problems, regardless the large variability of the datasets and the simple architecture of the attention-enhanced models. We could also prove that, depending on how the attention mechanism is applied and where the attention layer is located in the model, we can alternatively leverage the information contained in the time, frequency or space domain of the dataset. Conclusions: with this work, we shed light over the role of different attention mechanisms in the classification of normal and abnormal EEG patterns. Moreover, we discussed how they can exploit the intrinsic relationships in the temporal, frequency and spatial domains of our brain activity. Significance: Attention represents a promising strategy to evaluate the quality of the EEG information, and its relevance, in different real-world scenarios. Moreover, it can make it easier to parallelize the computation and, thus, to speed up the analysis of big electrophysiological (e.g., EEG) datasets.
翻訳日:2021-05-25 04:05:51 公開日:2020-12-02
# 深層学習に基づく確率偏微分方程式の数値近似アルゴリズムと高次元非線形フィルタリング問題

Deep learning based numerical approximation algorithms for stochastic partial differential equations and high-dimensional nonlinear filtering problems ( http://arxiv.org/abs/2012.01194v1 )

ライセンス: Link先を確認
Christian Beck, Sebastian Becker, Patrick Cheridito, Arnulf Jentzen, Ariel Neufeld(参考訳) 本稿では,確率偏微分方程式(SPDE)の解に対するディープラーニングに基づく近似アルゴリズムの導入と研究を行う。 提案する近似アルゴリズムでは、spdeの駆動雑音過程を全て実現するためにディープニューラルネットワークを用いて、検討中のspdeの解過程を近似する。 提案する近似アルゴリズムの性能は,加算雑音を伴う確率的熱方程式,乗法雑音を伴う確率的熱方程式,乗法ノイズを持つ確率的ブラック・シェール方程式,非線形フィルタリングによるザカイ方程式において検証する。 これらのSPDEのそれぞれにおいて,提案した近似アルゴリズムは,最大50空間の短い実行時間で正確な結果を生成する。

In this article we introduce and study a deep learning based approximation algorithm for solutions of stochastic partial differential equations (SPDEs). In the proposed approximation algorithm we employ a deep neural network for every realization of the driving noise process of the SPDE to approximate the solution process of the SPDE under consideration. We test the performance of the proposed approximation algorithm in the case of stochastic heat equations with additive noise, stochastic heat equations with multiplicative noise, stochastic Black--Scholes equations with multiplicative noise, and Zakai equations from nonlinear filtering. In each of these SPDEs the proposed approximation algorithm produces accurate results with short run times in up to 50 space dimensions.
翻訳日:2021-05-25 04:05:30 公開日:2020-12-02
# フェデレートラーニングにおける2次保証

Second-Order Guarantees in Federated Learning ( http://arxiv.org/abs/2012.01474v1 )

ライセンス: Link先を確認
Stefan Vlaski, Elsa Rizk, Ali H. Sayed(参考訳) フェデレーション学習は、異質性、非同期性、プライバシといった実践的な考慮の下で分散データから集中的に学習するための有用なフレームワークである。 フェデレーションアーキテクチャはディープラーニング環境に頻繁にデプロイされるため、通常は非凸最適化の問題が発生する。 しかしながら、既存の分析のほとんどは凸損失関数に制限されているか、あるいは一階定常点が深層学習のボトルネックとなることが知られているにもかかわらず、一階定常性を確立するのみである。 我々は,確率勾配アルゴリズムの集中的および分散的設定における2次最適性に関する最近の結果に基づいて,連合学習アルゴリズムのクラスに対する2次保証を確立する。

Federated learning is a useful framework for centralized learning from distributed data under practical considerations of heterogeneity, asynchrony, and privacy. Federated architectures are frequently deployed in deep learning settings, which generally give rise to non-convex optimization problems. Nevertheless, most existing analysis are either limited to convex loss functions, or only establish first-order stationarity, despite the fact that saddle-points, which are first-order stationary, are known to pose bottlenecks in deep learning. We draw on recent results on the second-order optimality of stochastic gradient algorithms in centralized and decentralized settings, and establish second-order guarantees for a class of federated learning algorithms.
翻訳日:2021-05-25 04:05:19 公開日:2020-12-02
# ニューラルネットワーク, 否定, モダリティマーカーの検出による文献からのランク付きSNP-Phenotype Associationの自動抽出

Automatic Extraction of Ranked SNP-Phenotype Associations from Literature through Detecting Neural Candidates, Negation and Modality Markers ( http://arxiv.org/abs/2012.00902v1 )

ライセンス: Link先を確認
Behrouz Bokharaeian, Alberto Diaz(参考訳) ゲノムワイド・アソシエーション(GWA)は、パーソナライズされた医学と薬理ゲノミクスで行われている研究の顕著な部分である。 近年,遺伝子変異関連物質の抽出法が開発されている。 しかし, 関係の信頼度を考慮したテキストからSNP-フェノタイプ関連を抽出する方法は存在しない。 本研究ではまず,言語に基づく否定検出と中立的候補に基づく関係抽出手法を提案する。 実験の結果, 否定の手がかりや範囲, 中立候補の検出は, コーパス内の一様な文の固有極性と少数の複素文により, カーネルベースよりも優れる優れた関係抽出法の実装に有効であることが示唆された。 さらに, 報告されたアソシエーションの信頼性を評価するために, 抽出されたアソシエーションの信頼性レベルを推定するために, モダリティに基づくアプローチを提案する。 キーワード: SNP, Phenotype, Biomedical Relation extract, Negation Detection。

Genome-wide association (GWA) constitutes a prominent portion of studies which have been conducted on personalized medicine and pharmacogenomics. Recently, very few methods have been developed for extracting mutation-diseases associations. However, there is no available method for extracting the association of SNP-phenotype from text which considers degree of confidence in associations. In this study, first a relation extraction method relying on linguistic-based negation detection and neutral candidates is proposed. The experiments show that negation cues and scope as well as detecting neutral candidates can be employed for implementing a superior relation extraction method which outperforms the kernel-based counterparts due to a uniform innate polarity of sentences and small number of complex sentences in the corpus. Moreover, a modality based approach is proposed to estimate the confidence level of the extracted association which can be used to assess the reliability of the reported association. Keywords: SNP, Phenotype, Biomedical Relation Extraction, Negation Detection.
翻訳日:2021-05-25 04:05:07 公開日:2020-12-02
# 対話型AIのための対話型教育

Interactive Teaching for Conversational AI ( http://arxiv.org/abs/2012.00958v1 )

ライセンス: Link先を確認
Qing Ping, Feiyang Niu, Govind Thattai, Joel Chengottusseriyil, Qiaozi Gao, Aishwarya Reganti, Prashanth Rajagopal, Gokhan Tur, Dilek Hakkani-Tur, Prem Nataraja(参考訳) 現在の会話型aiシステムは、事前設計された要求のセットを理解し、関連するアクションを実行することを目的としている。 本論文は、子どもが大人と対話する最初の言語を学習する方法に触発され、インタラクティブな授業セッションを使ってエンドユーザーから直接、概念と呼ばれる新しい言語ナゲットを学習できる、Teachable AIシステムについて述べる。 提案手法は、3つのモデルを用いており、a) 生会話における理解のギャップを同定し、b) ユーザとの対話から未知の概念の解釈を学習し、c) 対話的な授業セッションに特化された教室のサブダイアログを管理する。 本稿では,事前学習モデル上に微調整されたモデルの最先端トランスフォーマーに基づくニューラルアーキテクチャを提案し,各コンポーネントの精度向上を示す。 より適応的でパーソナライズされた言語理解モデルを構築する上で,本手法は非常に有望であることを示す。

Current conversational AI systems aim to understand a set of pre-designed requests and execute related actions, which limits them to evolve naturally and adapt based on human interactions. Motivated by how children learn their first language interacting with adults, this paper describes a new Teachable AI system that is capable of learning new language nuggets called concepts, directly from end users using live interactive teaching sessions. The proposed setup uses three models to: a) Identify gaps in understanding automatically during live conversational interactions, b) Learn the respective interpretations of such unknown concepts from live interactions with users, and c) Manage a classroom sub-dialogue specifically tailored for interactive teaching sessions. We propose state-of-the-art transformer based neural architectures of models, fine-tuned on top of pre-trained models, and show accuracy improvements on the respective components. We demonstrate that this method is very promising in leading way to build more adaptive and personalized language understanding models.
翻訳日:2021-05-25 04:04:32 公開日:2020-12-02
# Meta-KD:ドメイン間の言語モデル圧縮のためのメタ知識蒸留フレームワーク

Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains ( http://arxiv.org/abs/2012.01266v1 )

ライセンス: Link先を確認
Haojie Pan, Chengyu Wang, Minghui Qiu, Yichang Zhang, Yaliang Li, Jun Huang(参考訳) 事前訓練された言語モデルは、様々なNLPタスクに適用され、性能がかなり向上した。 しかし、大きなモデルサイズと長い推論時間によって、そのようなモデルのリアルタイムアプリケーションへのデプロイが制限される。 典型的なアプローチは、大きな教師モデルを小さな学生モデルに蒸留する知識蒸留を考える。 しかし、これらの研究のほとんどは、他の領域から移行可能な知識を無視する単一領域のみに焦点を当てている。 ドメイン間で消化可能な知識を持つ教師の訓練は、知識の蒸留を助けるためのより良い一般化能力を達成することができると論じている。 この目的のために,メタ学習にインスパイアされたドメイン間で伝達可能な知識を捕捉し,学生に知識を伝えるメタ教師モデルを構築するメタ知識蒸留(Meta-KD)フレームワークを提案する。 具体的には、まずクロスドメイン学習プロセスを活用して、複数のドメイン上でメタ教師を訓練し、メタ教師からの指導で単一ドメイン学生モデルを学習するためのメタ蒸留アルゴリズムを提案する。 2つのパブリックマルチドメインNLPタスクの実験は、提案したMeta-KDフレームワークの有効性と優位性を示している。 また,マルチショットおよびゼロショットの学習環境においてメタKDの能力を示す。

Pre-trained language models have been applied to various NLP tasks with considerable performance gains. However, the large model sizes, together with the long inference time, limit the deployment of such models in real-time applications. Typical approaches consider knowledge distillation to distill large teacher models into small student models. However, most of these studies focus on single-domain only, which ignores the transferable knowledge from other domains. We argue that training a teacher with transferable knowledge digested across domains can achieve better generalization capability to help knowledge distillation. To this end, we propose a Meta-Knowledge Distillation (Meta-KD) framework to build a meta-teacher model that captures transferable knowledge across domains inspired by meta-learning and use it to pass knowledge to students. Specifically, we first leverage a cross-domain learning process to train the meta-teacher on multiple domains, and then propose a meta-distillation algorithm to learn single-domain student models with guidance from the meta-teacher. Experiments on two public multi-domain NLP tasks show the effectiveness and superiority of the proposed Meta-KD framework. We also demonstrate the capability of Meta-KD in both few-shot and zero-shot learning settings.
翻訳日:2021-05-25 04:04:16 公開日:2020-12-02
# TAN-NTM:ニューラルトピックモデリングのためのトピック注意ネットワーク

TAN-NTM: Topic Attention Networks for Neural Topic Modeling ( http://arxiv.org/abs/2012.01524v1 )

ライセンス: Link先を確認
Madhur Panwar, Shashank Shailabh, Milan Aggarwal, Balaji Krishnamurthy(参考訳) トピックモデルはテキストから表現を学び、文書コーパスに対する洞察を得るために広く使われている。 トピック発見を行うために、既存のニューラルモデルでは、ドキュメント・バグ・オブ・ワード(bow)表現を入力として使用する。 このような手法は主に文書配布における適切な事前処理の効果の分析に重点を置いている。 しかし、文書のセマンティクスをよりよくキャプチャするための改良された文書機能のエンコーディングは、ほとんど重要ではない。 本稿では,入力層でBoWではなくトークンのシーケンスとして文書をモデル化し,その出力を用いて変動推論を行い,次にBoW復号を行うLSTMにより処理する,新しいフレームワークを提案する。 我々はLSTM出力に注意を払って、トピックに関連する手がかりを伝達する関連単語への参加をモデルに与える。 本研究は,話題を導いた場合の注意を効果的に行うことができ,アブレーションによって経験的に確立できると仮定する。 20NewsGroup, Yelp, AGNews, DBpediaの4つのベンチマークデータセット上で, NPMIコヒーレンス尺度における既存のSOTAトピックモデルのスコアよりも約9~15パーセント向上した。 TAN-NTMはまた、改善された文書トピックの特徴を学習することにより、より良い文書分類精度を得る。 注意機構がキーワードの教師なし発見を可能にすることを質的に議論する。 さらに,提案フレームワークにより,stackexchange と weibo データセット上でのトピック認識型キーフレーズ生成において,最先端のパフォーマンスを実現していることを示す。

Topic models have been widely used to learn representations from text and gain insight into document corpora. To perform topic discovery, existing neural models use document bag-of-words (BoW) representation as input followed by variational inference and learn topic-word distribution through reconstructing BoW. Such methods have mainly focused on analysing the effect of enforcing suitable priors on document distribution. However, little importance has been given to encoding improved document features for capturing document semantics better. In this work, we propose a novel framework: TAN-NTM which models document as a sequence of tokens instead of BoW at the input layer and processes it through an LSTM whose output is used to perform variational inference followed by BoW decoding. We apply attention on LSTM outputs to empower the model to attend on relevant words which convey topic related cues. We hypothesise that attention can be performed effectively if done in a topic guided manner and establish this empirically through ablations. We factor in topic-word distribution to perform topic aware attention achieving state-of-the-art results with ~9-15 percentage improvement over score of existing SOTA topic models in NPMI coherence metric on four benchmark datasets - 20NewsGroup, Yelp, AGNews, DBpedia. TAN-NTM also obtains better document classification accuracy owing to learning improved document-topic features. We qualitatively discuss that attention mechanism enables unsupervised discovery of keywords. Motivated by this, we further show that our proposed framework achieves state-of-the-art performance on topic aware supervised generation of keyphrases on StackExchange and Weibo datasets.
翻訳日:2021-05-25 04:03:46 公開日:2020-12-02
# MEVA: アクティビティ検出のための大規模マルチビューマルチモーダルビデオデータセット

MEVA: A Large-Scale Multiview, Multimodal Video Dataset for Activity Detection ( http://arxiv.org/abs/2012.00914v1 )

ライセンス: Link先を確認
Kellie Corona (1), Katie Osterdahl (1), Roderic Collins (1), Anthony Hoogs (1) ((1) Kitware, Inc.)(参考訳) 本研究では,人間行動認識のための新しい大規模データセットであるmultiview extended video with activity (meva) datasetを提案する。 既存のセキュリティデータセットは、コンテンツによって拡散された公開ビデオの集約によるアクティビティ数にフォーカスするか、一般的に同じシーンのバックグラウンドビデオを除外するか、パブリックエリアを観察して永続性を達成し、アクティビティコンテンツに対して制御できないかのどちらかである。 当社のデータセットは9300時間以上の非トリミング連続ビデオで、多様な同時アクティビティと自発的なバックグラウンドアクティビティを含むスクリプト化されています。 私たちは37のアクティビティタイプに対して144時間アノテーションを付け、アクターとプロップのバウンディングボックスをマークしました。 本コレクションでは,3週間のアクセスコントロール会場におけるスクリプトシナリオと自発的バックグラウンドアクティビティを約100人のアクターが実施し,重なり合い,非重なり合う屋内・屋外の視点で複数のモダリティを収集した。 得られたデータには、38RGBの赤外線カメラ、42時間のUAV映像、アクターのGPS位置などが含まれる。 122時間のアノテーションは、NIST Activity in Extended Video (ActEV)チャレンジをサポートするために隔離され、残りの22時間のアノテーションと対応するビデオは、さらに306時間の地上カメラデータ、4.6時間のUAVデータ、9.6時間のGPSログとともに、私たちのウェブサイトで利用可能である。 追加の派生データには、屋外カメラをジオ登録するカメラモデルと、屋外シーンの密集した3dポイントクラウドモデルが含まれる。 データはirb監視と承認で収集され、cc-by-4.0ライセンスでリリースされた。

We present the Multiview Extended Video with Activities (MEVA) dataset, a new and very-large-scale dataset for human activity recognition. Existing security datasets either focus on activity counts by aggregating public video disseminated due to its content, which typically excludes same-scene background video, or they achieve persistence by observing public areas and thus cannot control for activity content. Our dataset is over 9300 hours of untrimmed, continuous video, scripted to include diverse, simultaneous activities, along with spontaneous background activity. We have annotated 144 hours for 37 activity types, marking bounding boxes of actors and props. Our collection observed approximately 100 actors performing scripted scenarios and spontaneous background activity over a three-week period at an access-controlled venue, collecting in multiple modalities with overlapping and non-overlapping indoor and outdoor viewpoints. The resulting data includes video from 38 RGB and thermal IR cameras, 42 hours of UAV footage, as well as GPS locations for the actors. 122 hours of annotation are sequestered in support of the NIST Activity in Extended Video (ActEV) challenge; the other 22 hours of annotation and the corresponding video are available on our website, along with an additional 306 hours of ground camera data, 4.6 hours of UAV data, and 9.6 hours of GPS logs. Additional derived data includes camera models geo-registering the outdoor cameras and a dense 3D point cloud model of the outdoor scene. The data was collected with IRB oversight and approval and released under a CC-BY-4.0 license.
翻訳日:2021-05-25 04:03:13 公開日:2020-12-02
# 広域群集計数:大規模シーンにおける多視点融合ネットワーク

Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in Large Scenes ( http://arxiv.org/abs/2012.00946v1 )

ライセンス: Link先を確認
Qi Zhang, Antoni B. Chan(参考訳) シングルビュー画像における群衆カウントは、既存の計数データセットにおいて優れたパフォーマンスを達成している。 しかし、例えば、シーンがカメラの視野に収まるには大きすぎる場合や、遠くの群衆に解像度が低くなりすぎる場合、あるいは群衆の大部分を遮る大きな物体が多すぎる場合など、単一のカメラが計数するのに十分な細部を捉えられないため、大きなシーン(例えば、公園、地下鉄のホーム、イベントスペースなど)には、単視点計数では適用できない。 したがって、広域カウントタスクを解決するには、複数のカメラが重なり合う視野を持つ必要がある。 本稿では,複数のカメラからの情報を融合して3次元世界平面上のシーンレベルの密度マップを予測できる,多視点群数計算のためのディープニューラルネットワークフレームワークを提案する。 融合フレームワークの3つのバージョンについて検討する: 後期核融合モデルがカメラビュー密度マップを融合する; 単純核融合モデルがカメラビュー特徴マップを融合する; 複数核融合モデルが同一平面点に整列した特徴が一貫したスケールを持つことを保証する。 回転選択モジュールは、特徴の一貫した回転アライメントをさらに確保する。 我々は,3つの多視点カウントデータセット,PETS2009,DukeMTMC,および混み合った交差点を含む新たに収集された多視点カウントデータセット上で,我々の3つの融合モデルを検証した。 提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。

Crowd counting in single-view images has achieved outstanding performance on existing counting datasets. However, single-view counting is not applicable to large and wide scenes (e.g., public parks, long subway platforms, or event spaces) because a single camera cannot capture the whole scene in adequate detail for counting, e.g., when the scene is too large to fit into the field-of-view of the camera, too long so that the resolution is too low on faraway crowds, or when there are too many large objects that occlude large portions of the crowd. Therefore, to solve the wide-area counting task requires multiple cameras with overlapping fields-of-view. In this paper, we propose a deep neural network framework for multi-view crowd counting, which fuses information from multiple camera views to predict a scene-level density map on the ground-plane of the 3D world. We consider three versions of the fusion framework: the late fusion model fuses camera-view density map; the naive early fusion model fuses camera-view feature maps; and the multi-view multi-scale early fusion model ensures that features aligned to the same ground-plane point have consistent scales. A rotation selection module further ensures consistent rotation alignment of the features. We test our 3 fusion models on 3 multi-view counting datasets, PETS2009, DukeMTMC, and a newly collected multi-view counting dataset containing a crowded street intersection. Our methods achieve state-of-the-art results compared to other multi-view counting baselines.
翻訳日:2021-05-25 04:02:07 公開日:2020-12-02
# Amodal Blastomere Instance Segmentationのためのベクトル量子形状符号の学習

Learning Vector Quantized Shape Code for Amodal Blastomere Instance Segmentation ( http://arxiv.org/abs/2012.00985v1 )

ライセンス: Link先を確認
Won-Dong Jang, Donglai Wei, Xingxuan Zhang, Brian Leahy, Helen Yang, James Tompkin, Dalit Ben-Yosef, Daniel Needleman, and Hanspeter Pfister(参考訳) Blastomereのインスタンスセグメンテーションは、胚の異常を分析するために重要である。 ブラストマーの正確な形状と大きさを測定するためには、アモーダルセグメンテーションが必要である。 amodalインスタンスセグメンテーションは、オブジェクトが完全に見えなくても、オブジェクトの完全なシルエットを回復することを目的としている。 検出された各オブジェクトに対して、以前のメソッドは入力機能から直接ターゲットマスクを回帰する。 しかし、異なる量のオクルージョンのオブジェクトの画像は、同じアモーダルマスク出力を持つべきであるため、回帰モデルを訓練するのは困難である。 この問題を軽減するために,入力特徴を中間形状コードに分類し,それらから完全なオブジェクト形状を復元する。 まず,ベクトル量子化変分オートエンコーダ(vq-vae)モデルを事前学習し,基底真理アモーダルマスクから離散形状符号を学習する。 次に,vq-vaeモデルを改良モジュールを付加したamodalインスタンスセグメンテーションパイプラインに組み込む。 また,オクルージョン情報をバックボーンの特徴と統合するためのオクルージョンマップも検出した。 そのため,ネットワークはアモーダルオブジェクトの境界ボックスを忠実に検出する。 内胚細胞画像ベンチマークでは,提案法が従来の最先端法を上回っている。 一般化性を示すために,公開kins自然画像ベンチマークでセグメンテーション結果を示す。 学習された形状コードとモデル設計の選択を調べるために,単純なオーバーレイ形状の合成データセットについてアブレーション研究を行う。 本手法により, 体外受精(IVF)クリニックにおけるブラストマーの正確な測定が可能となり, IVF成功率の向上が期待できる。

Blastomere instance segmentation is important for analyzing embryos' abnormality. To measure the accurate shapes and sizes of blastomeres, their amodal segmentation is necessary. Amodal instance segmentation aims to recover the complete silhouette of an object even when the object is not fully visible. For each detected object, previous methods directly regress the target mask from input features. However, images of an object under different amounts of occlusion should have the same amodal mask output, which makes it harder to train the regression model. To alleviate the problem, we propose to classify input features into intermediate shape codes and recover complete object shapes from them. First, we pre-train the Vector Quantized Variational Autoencoder (VQ-VAE) model to learn these discrete shape codes from ground truth amodal masks. Then, we incorporate the VQ-VAE model into the amodal instance segmentation pipeline with an additional refinement module. We also detect an occlusion map to integrate occlusion information with a backbone feature. As such, our network faithfully detects bounding boxes of amodal objects. On an internal embryo cell image benchmark, the proposed method outperforms previous state-of-the-art methods. To show generalizability, we show segmentation results on the public KINS natural image benchmark. To examine the learned shape codes and model design choices, we perform ablation studies on a synthetic dataset of simple overlaid shapes. Our method would enable accurate measurement of blastomeres in in vitro fertilization (IVF) clinics, which potentially can increase IVF success rate.
翻訳日:2021-05-25 04:01:06 公開日:2020-12-02
# 入力解像度を考慮したconvnetの予算別プルーニングフレームワーク

An Once-for-All Budgeted Pruning Framework for ConvNets Considering Input Resolution ( http://arxiv.org/abs/2012.00996v1 )

ライセンス: Link先を確認
Wenyu Sun, Jian Cao, Pengtao Xu, Xiangcheng Liu, Pu Li(参考訳) そこで我々は,プレニング過程における入力解像度の影響を考慮し,入賞チケットに近い多数のコンパクトネットワーク構造を見つけるために,効率的な1対全予算プルーニングフレームワーク(OFARPruning)を提案する。 構造探索段階では,コサイン類似性を利用してプルーニングマスクの類似度を測定し,低エネルギー・時間消費で高品質なネットワーク構造を得る。 構造探索段階の後,提案手法は異なるプルーニング率と入力解像度を持つコンパクト構造をランダムにサンプリングし,共同最適化を実現する。 最終的に、異なるエッジデバイス上で動的フロップス制約を満たすために、様々な解像度に適応したコンパクトネットワークのコホートを得ることができる。 画像分類と物体検出に基づく実験では,us-net や mutualnet のような全圧縮法よりもofarpruning の方が精度が高く(フロップが少ない方が1~2%優れる),従来のプルーニング法 (mobilenetv2 では 170 mflops 以下で72.6%,mobilenetv2 では 70.5%) と非常に高い効率を実現している。

We propose an efficient once-for-all budgeted pruning framework (OFARPruning) to find many compact network structures close to winner tickets in the early training stage considering the effect of input resolution during the pruning process. In structure searching stage, we utilize cosine similarity to measure the similarity of the pruning mask to get high-quality network structures with low energy and time consumption. After structure searching stage, our proposed method randomly sample the compact structures with different pruning rates and input resolution to achieve joint optimization. Ultimately, we can obtain a cohort of compact networks adaptive to various resolution to meet dynamic FLOPs constraints on different edge devices with only once training. The experiments based on image classification and object detection show that OFARPruning has a higher accuracy than the once-for-all compression methods such as US-Net and MutualNet (1-2% better with less FLOPs), and achieve the same even higher accuracy as the conventional pruning methods (72.6% vs. 70.5% on MobileNetv2 under 170 MFLOPs) with much higher efficiency.
翻訳日:2021-05-25 04:00:26 公開日:2020-12-02
# q-SNE:q-ガウス分布確率近傍埋め込みを用いたデータの可視化

q-SNE: Visualizing Data using q-Gaussian Distributed Stochastic Neighbor Embedding ( http://arxiv.org/abs/2012.00999v1 )

ライセンス: Link先を確認
Motoshi Abe, Junichi Miyao, and Takio Kurita(参考訳) 次元の縮小は、回帰、分類、特徴解析、可視化に高次元データを使用するために広く導入されている。 次元減少の一手法として、確率的隣接埋め込み(SNE)を導入した。 SNEは、高次元空間と低次元空間の局所ガウス分布の類似性を考慮して、高次元データを可視化する強力な結果をもたらす。 SNEを改善するため、t分散確率的隣接埋め込み(t-SNE)も導入された。 高次元データを可視化するために、t-SNEは低次元データの分布としてt-分布を用いることで、SNEよりも2次元または3次元マッピング上でより強力で柔軟な可視化を実現する。 近年,次元減少手法として一様多様体近似投影法(umap)が提案されている。 本稿では,q-Gaussian distributed stochastic neighbor embedded (q-SNE)と呼ばれる新しい手法を提案する。 q-SNEは、低次元データの分布としてq-ガウス分布を用いることで、t-SNEやSNEよりも2次元あるいは3次元のマッピングにおいてより強力で柔軟な可視化を実現する。 q-ガウス分布は、q=1.0 と q=2.0 の特別な場合としてガウス分布と t-分布を含む。 したがって、q-SNEはパラメータqを変更してt-SNEとSNEを表現できるので、パラメータqを選択して最良の視覚化を見つけることができる。 組込み空間におけるk-Nearest Neighbors(k-NN)分類器による2次元マッピングと分類の可視化におけるq-SNEの性能を,MNIST, COIL-20, OlivettiFaces, FashionMNIST, Gloveを用いて示す。

The dimensionality reduction has been widely introduced to use the high-dimensional data for regression, classification, feature analysis, and visualization. As the one technique of dimensionality reduction, a stochastic neighbor embedding (SNE) was introduced. The SNE leads powerful results to visualize high-dimensional data by considering the similarity between the local Gaussian distributions of high and low-dimensional space. To improve the SNE, a t-distributed stochastic neighbor embedding (t-SNE) was also introduced. To visualize high-dimensional data, the t-SNE leads to more powerful and flexible visualization on 2 or 3-dimensional mapping than the SNE by using a t-distribution as the distribution of low-dimensional data. Recently, Uniform manifold approximation and projection (UMAP) is proposed as a dimensionality reduction technique. We present a novel technique called a q-Gaussian distributed stochastic neighbor embedding (q-SNE). The q-SNE leads to more powerful and flexible visualization on 2 or 3-dimensional mapping than the t-SNE and the SNE by using a q-Gaussian distribution as the distribution of low-dimensional data. The q-Gaussian distribution includes the Gaussian distribution and the t-distribution as the special cases with q=1.0 and q=2.0. Therefore, the q-SNE can also express the t-SNE and the SNE by changing the parameter q, and this makes it possible to find the best visualization by choosing the parameter q. We show the performance of q-SNE as visualization on 2-dimensional mapping and classification by k-Nearest Neighbors (k-NN) classifier in embedded space compared with SNE, t-SNE, and UMAP by using the datasets MNIST, COIL-20, OlivettiFaces, FashionMNIST, and Glove.
翻訳日:2021-05-25 03:59:59 公開日:2020-12-02
# 実時間インスタンスセグメンテーションのためのユニバーサルシェイプ辞書の学習

Learning Universal Shape Dictionary for Realtime Instance Segmentation ( http://arxiv.org/abs/2012.01050v1 )

ライセンス: Link先を確認
Tutian Tang, Wenqiang Xu, Ruolin Ye, Lixin Yang, Cewu Lu(参考訳) 事例分割のための新しい明示的な形状表現を提案する。 オブジェクトの形状をモデル化する方法に基づいて、現在のインスタンスセグメンテーションシステムは暗黙のモデルと明示的なモデルという2つのカテゴリに分けられる。 対象のマスク/輪郭を抽出可能なネットワークパラメータで表現し,画素単位の分類によって生成する暗黙的手法が主流である。 しかし、単純で説明可能なモデルで形状をパラメータ化する明示的な手法は、あまり研究されていない。 最終的な形状を生成する操作は軽量であるため、明示的なメソッドは暗黙的なメソッドよりも明らかに速度上の利点がある。 提案するusd-segは,オブジェクト形状の線形モデルであるsparse coding with dictionaryを採用する。 まず、多数の形状データセットから辞書を学習し、辞書を通じて任意の形状を線形結合に分解することができる。 英語名は「Universal Shape Dictionary」。 そして、通常の物体検出器に単純な形状ベクトル回帰ヘッドを加え、最小限のオーバーヘッドで検出器のセグメンテーション能力を与える。 定量的評価には、平均精度(ap)とap(ap$_e$)メトリックの効率(実世界のアプリケーションの要求を満たすフレームワークの計算消費を測定することを目的としています。 我々は,単一のTitan Xp GPU上の単一モデルで35.8 APと27.8 AP$_E$をベース検出器としてYOLOv4をベース検出器として,34.1 APと28.6 AP$_E$をベース検出器として達成したCOCOデータセットの実験結果を報告する。

We present a novel explicit shape representation for instance segmentation. Based on how to model the object shape, current instance segmentation systems can be divided into two categories, implicit and explicit models. The implicit methods, which represent the object mask/contour by intractable network parameters, and produce it through pixel-wise classification, are predominant. However, the explicit methods, which parameterize the shape with simple and explainable models, are less explored. Since the operations to generate the final shape are light-weighted, the explicit methods have a clear speed advantage over implicit methods, which is crucial for real-world applications. The proposed USD-Seg adopts a linear model, sparse coding with dictionary, for object shapes. First, it learns a dictionary from a large collection of shape datasets, making any shape being able to be decomposed into a linear combination through the dictionary. Hence the name "Universal Shape Dictionary". Then it adds a simple shape vector regression head to ordinary object detector, giving the detector segmentation ability with minimal overhead. For quantitative evaluation, we use both average precision (AP) and the proposed Efficiency of AP (AP$_E$) metric, which intends to also measure the computational consumption of the framework to cater to the requirements of real-world applications. We report experimental results on the challenging COCO dataset, in which our single model on a single Titan Xp GPU achieves 35.8 AP and 27.8 AP$_E$ at 65 fps with YOLOv4 as base detector, 34.1 AP and 28.6 AP$_E$ at 12 fps with FCOS as base detector.
翻訳日:2021-05-25 03:59:30 公開日:2020-12-02
# PlueckerNet: 3Dライン再構築の登録を学ぶ

PlueckerNet: Learn to Register 3D Line Reconstructions ( http://arxiv.org/abs/2012.01096v1 )

ライセンス: Link先を確認
Liu Liu, Hongdong Li, Haodong Yao and Ruyi Zha(参考訳) ユークリッド空間における2つの部分重畳された3次元直線再構成は、直線再構成間の対応と相対的なポーズを同時に解決する必要があるため、困難である。 This paper proposes a neural network based method and it has three modules connected in sequence: (i) a Multilayer Perceptron (MLP) based network takes Pluecker representations of lines as inputs, to extract discriminative line-wise features and matchabilities (how likely each line is going to have a match), (ii) an Optimal Transport (OT) layer takes two-view line-wise features and matchabilities as inputs to estimate a 2D joint probability matrix, with each item describes the matchness of a line pair, and (iii) line pairs with Top-K matching probabilities are fed to a 2-line minimal solver in a RANSAC framework to estimate a six Degree-of-Freedom (6-DoF) rigid transformation. 室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)がベースラインを著しく上回ることが示された。

Aligning two partially-overlapped 3D line reconstructions in Euclidean space is challenging, as we need to simultaneously solve correspondences and relative pose between line reconstructions. This paper proposes a neural network based method and it has three modules connected in sequence: (i) a Multilayer Perceptron (MLP) based network takes Pluecker representations of lines as inputs, to extract discriminative line-wise features and matchabilities (how likely each line is going to have a match), (ii) an Optimal Transport (OT) layer takes two-view line-wise features and matchabilities as inputs to estimate a 2D joint probability matrix, with each item describes the matchness of a line pair, and (iii) line pairs with Top-K matching probabilities are fed to a 2-line minimal solver in a RANSAC framework to estimate a six Degree-of-Freedom (6-DoF) rigid transformation. Experiments on both indoor and outdoor datasets show that the registration (rotation and translation) precision of our method outperforms baselines significantly.
翻訳日:2021-05-25 03:59:00 公開日:2020-12-02
# 学習ベースを用いた効率的な深度補完

Efficient Depth Completion Using Learned Bases ( http://arxiv.org/abs/2012.01110v1 )

ライセンス: Link先を確認
Yiran Zhong, Yuchao Dai, Hongdong Li(参考訳) 本稿では,深度完備のための新しい大域的幾何制約を提案する。 低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。 深度場の主成分は自然深さ写像から学ぶことができる。 与えられたスパース深さ点を重み付け過程を制約するためのデータ項として提供する。 入力深度が小さすぎると、回収された濃密深度マップはしばしば平滑化される。 この問題に対処するために、別の正規化項としてカラー誘導自動回帰モデルを追加します。 再構成された深度マップは、付随するカラー画像で同じ非局所的な類似性を共有すべきであると仮定する。 色誘導型PCA深度解法は閉形解であり,効率よく解き,PCA法よりも精度が高い。 kitti と middlebury データセットの広範な実験により,提案手法の優れた性能を示す。

In this paper, we propose a new global geometry constraint for depth completion. By assuming depth maps often lay on low dimensional subspaces, a dense depth map can be approximated by a weighted sum of full-resolution principal depth bases. The principal components of depth fields can be learned from natural depth maps. The given sparse depth points are served as a data term to constrain the weighting process. When the input depth points are too sparse, the recovered dense depth maps are often over smoothed. To address this issue, we add a colour-guided auto-regression model as another regularization term. It assumes the reconstructed depth maps should share the same nonlocal similarity in the accompanying colour image. Our colour-guided PCA depth completion method has closed-form solutions, thus can be efficiently solved and is significantly more accurate than PCA only method. Extensive experiments on KITTI and Middlebury datasets demonstrate the superior performance of our proposed method.
翻訳日:2021-05-25 03:58:45 公開日:2020-12-02
# ポイントクラウドとイベントストリームネットワークのための連続ドメイン上のスパース畳み込み

Sparse Convolutions on Continuous Domains for Point Cloud and Event Stream Networks ( http://arxiv.org/abs/2012.01170v1 )

ライセンス: Link先を確認
Dominic Jack, Frederic Maire, Simon Denman, Anders Eriksson(参考訳) 画像畳み込み(image convolutions)は、コンピュータビジョンにおける多くの深層学習の基盤となっている。 しかし、研究コミュニティはまだ、ポイントクラウドやイベントストリームのような、スパースで構造化されていない連続データに対する同等のオペレーターに落ち着きはない。 本稿では,これらの場合における畳み込み演算子のエレガントなスパース行列に基づく解釈について述べる。 ベンチマークポイントクラウドの分類問題では、これらの操作で構築されたネットワークは、同等の精度を維持しながら、メモリのごく一部を必要としながら、既存のメソッドよりも桁違い以上の速度でトレーニングすることができる。 また、演算子をイベントストリーム処理に適用し、数十万のイベントのストリームで複数のタスクで最先端の結果を達成する。

Image convolutions have been a cornerstone of a great number of deep learning advances in computer vision. The research community is yet to settle on an equivalent operator for sparse, unstructured continuous data like point clouds and event streams however. We present an elegant sparse matrix-based interpretation of the convolution operator for these cases, which is consistent with the mathematical definition of convolution and efficient during training. On benchmark point cloud classification problems we demonstrate networks built with these operations can train an order of magnitude or more faster than top existing methods, whilst maintaining comparable accuracy and requiring a tiny fraction of the memory. We also apply our operator to event stream processing, achieving state-of-the-art results on multiple tasks with streams of hundreds of thousands of events.
翻訳日:2021-05-25 03:58:33 公開日:2020-12-02
# 未成年者の顔面年齢推定の正確性に及ぼす影響因子の検討

Assessing the Influencing Factors on the Accuracy of Underage Facial Age Estimation ( http://arxiv.org/abs/2012.01179v1 )

ライセンス: Link先を確認
Felix Anda, Brett A. Becker, David Lillis, Nhien-An Le-Khac and Mark Scanlon(参考訳) 絶滅危惧種の未成年者検出に対するSwiftの対応は、法執行機関に対する継続的な懸念である。 多くの子供に焦点を当てた調査は、デジタル証拠の発見と分析にかかっている。 この証拠発見過程を迅速化し, 外傷物質への被曝を減少させるためには, 自動年齢推定技術が必要である。 自動化技術はまた、デバイスやオンラインサービスの増加によって得られた証拠のオーバーフローのバックログを減らすことにも期待できる。 十分なトレーニングデータと自然の人間の分散の欠如は、特に未成年者の正確な年齢推定を長い間妨げてきた。 本稿では,21,800人以上の未成年者のデータセットに対する2つのクラウド年齢推定サービス(amazon web serviceのrekognitionサービスとmicrosoft azureのface api)の性能に関する包括的評価を行った。 この研究の目的は、特定の生体指標、表情、および画質(すなわち、画像)が与える影響を評価することである。 ぼかし、騒音、露出、解像度)は、自動年齢推定サービスの結果に基づいています。 徹底的な評価により、将来の年齢推定システムにおいて克服すべき最も影響力のある要因を特定できる。

Swift response to the detection of endangered minors is an ongoing concern for law enforcement. Many child-focused investigations hinge on digital evidence discovery and analysis. Automated age estimation techniques are needed to aid in these investigations to expedite this evidence discovery process, and decrease investigator exposure to traumatic material. Automated techniques also show promise in decreasing the overflowing backlog of evidence obtained from increasing numbers of devices and online services. A lack of sufficient training data combined with natural human variance has been long hindering accurate automated age estimation -- especially for underage subjects. This paper presented a comprehensive evaluation of the performance of two cloud age estimation services (Amazon Web Service's Rekognition service and Microsoft Azure's Face API) against a dataset of over 21,800 underage subjects. The objective of this work is to evaluate the influence that certain human biometric factors, facial expressions, and image quality (i.e. blur, noise, exposure and resolution) have on the outcome of automated age estimation services. A thorough evaluation allows us to identify the most influential factors to be overcome in future age estimation systems.
翻訳日:2021-05-25 03:58:18 公開日:2020-12-02
# 文書画像二元化のための教師なしニューラルドメイン適応

Unsupervised Neural Domain Adaptation for Document Image Binarization ( http://arxiv.org/abs/2012.01204v1 )

ライセンス: Link先を確認
Francisco J. Castellanos, Antonio-Javier Gallego, Jorge Calvo-Zaragoza(参考訳) バイナリ化は、画像の前景を背景から分離することを目的とした、よく知られた画像処理タスクである。 有用なタスクの1つは、テキストやシンボルなどの関連情報を識別するために、文書イメージを前処理することである。 文書の種類、タイプ、アルファベット、フォーマットの多様さはバイナライゼーションを困難にしているため、古典的な手動調整手法から、機械学習に基づくより最近のアプローチまで、この問題を解決するための複数の提案がある。 後者の手法は、良好な結果を得るために大量のトレーニングデータを必要とするが、既存の文書コレクションの一部をラベル付けすることは現実には不可能である。 これは教師あり学習において一般的な問題であり、いわゆるドメイン適応(da)技術を用いて対処できる。 これらのテクニックは、ラベル付きデータが利用可能な1つのドメインで学習された知識を活用して、ラベル付きデータがない他のドメインに適用する。 本稿では,教師なし文書バイナライゼーションを実現するために,ニューラルネットワークとDAを組み合わせた手法を提案する。 しかし、ソースドメインとターゲットドメインの両方が非常に類似している場合、この適応は有害である可能性がある。 そこで本手法はまず,適応プロセスを適用するのが適切かどうかを判断するために,ドメイン間の類似性を革新的な方法で測定する。 実験の結果,5つのドメインの最大20種類の組み合わせを評価した結果,ラベル付きデータを必要としない新たなドキュメントドメインの双対化が得られた。

Binarization is a well-known image processing task, whose objective is to separate the foreground of an image from the background. One of the many tasks for which it is useful is that of preprocessing document images in order to identify relevant information, such as text or symbols. The wide variety of document types, typologies, alphabets, and formats makes binarization challenging, and there are, therefore, multiple proposals with which to solve this problem, from classical manually-adjusted methods, to more recent approaches based on machine learning. The latter techniques require a large amount of training data in order to obtain good results; however, labeling a portion of each existing collection of documents is not feasible in practice. This is a common problem in supervised learning, which can be addressed by using the so-called Domain Adaptation (DA) techniques. These techniques take advantage of the knowledge learned in one domain, for which labeled data are available, to apply it to other domains for which there are no labeled data. This paper proposes a method that combines neural networks and DA in order to carry out unsupervised document binarization. However, when both the source and target domains are very similar, this adaptation could be detrimental. Our methodology, therefore, first measures the similarity between domains in an innovative manner in order to determine whether or not it is appropriate to apply the adaptation process. The results reported in the experimentation, when evaluating up to 20 possible combinations among five different domains, show that our proposal successfully deals with the binarization of new document domains without the need for labeled data.
翻訳日:2021-05-25 03:58:01 公開日:2020-12-02
# ドメイン非依存的フェイスアンチスプーフィングにおけるspoof-irrelevant factorの抑制

Suppressing Spoof-irrelevant Factors for Domain-agnostic Face Anti-spoofing ( http://arxiv.org/abs/2012.01271v1 )

ライセンス: Link先を確認
Taewook Kim and Yonghyun Kim(参考訳) face anti-spoofingは、画像が人間の顔またはスプーフメディアに由来するかどうかを識別することで、顔認識システムの誤認証を防止することを目的としている。 dasnは,sifs(spoof-irrelevant factor)を効果的に抑制すること(カメラセンサ,イルミネーションなど)を学習することにより,非知覚領域の一般化能力を向上させる。 目的を達成するために,2種類の逆学習方式を導入する。 第1逆学習方式では、エンコーダに対して訓練された複数の識別ヘッドを配置することにより、複数のSiFを抑制する。 第2のadversarial learningスキームでは、各識別ヘッドを逆に訓練してspoof因子を抑制させ、二次spoof分類器とエンコーダのグループは、抑制を克服してspoof因子を増強することを目指している。 提案手法を4つの公開ベンチマークデータセット上で評価し,優れた評価結果を得た。 その結果,提案手法の有効性が示された。

Face anti-spoofing aims to prevent false authentications of face recognition systems by distinguishing whether an image is originated from a human face or a spoof medium. We propose a novel method called Doubly Adversarial Suppression Network (DASN) for domain-agnostic face anti-spoofing; DASN improves the generalization ability to unseen domains by learning to effectively suppress spoof-irrelevant factors (SiFs) (e.g., camera sensors, illuminations). To achieve our goal, we introduce two types of adversarial learning schemes. In the first adversarial learning scheme, multiple SiFs are suppressed by deploying multiple discrimination heads that are trained against an encoder. In the second adversarial learning scheme, each of the discrimination heads is also adversarially trained to suppress a spoof factor, and the group of the secondary spoof classifier and the encoder aims to intensify the spoof factor by overcoming the suppression. We evaluate the proposed method on four public benchmark datasets, and achieve remarkable evaluation results. The results demonstrate the effectiveness of the proposed method.
翻訳日:2021-05-25 03:57:05 公開日:2020-12-02
# クロススクリプト・ビジュアル・ローカライゼーションとマッピング

Cross-Descriptor Visual Localization and Mapping ( http://arxiv.org/abs/2012.01377v1 )

ライセンス: Link先を確認
Mihai Dusmanu, Ondrej Miksik, Johannes L. Sch\"onberger, Marc Pollefeys(参考訳) 視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。 ほとんどの最先端のアプローチは、画像間の対応を確立するために局所的な特徴に依存する。 本稿では,特徴表現の連続更新と異なる特徴型間のマッチング機能を必要とする3つの新しい局所化とマッピングのシナリオを提案する。 ローカライゼーションとマッピングは基本的なコンピュータビジョンの問題であるが、従来のセットアップでは、マップの進化を通じて同じローカルイメージ機能を使用して、単一のショットプロセスとして扱う。 これは、基盤となる機能を変更するたびに、プロセス全体がスクラッチから繰り返される、と仮定する。 しかし、生の画像が保存されず、地図の再構築によって添付されたデジタルコンテンツが失われる場合が多いため、繰り返し繰り返すことは一般的に不可能である。 現在のアプローチの限界を克服するために、クロスディスクリプタローカライゼーションとマッピングの第一原理解を提案する。 我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。 幅広い実験により,手作り・学習機能における最先端ベンチマークの有効性が実証された。

Visual localization and mapping is the key technology underlying the majority of Mixed Reality and robotics systems. Most state-of-the-art approaches rely on local features to establish correspondences between images. In this paper, we present three novel scenarios for localization and mapping which require the continuous update of feature representations and the ability to match across different feature types. While localization and mapping is a fundamental computer vision problem, the traditional setup treats it as a single-shot process using the same local image features throughout the evolution of a map. This assumes the whole process is repeated from scratch whenever the underlying features are changed. However, reiterating it is typically impossible in practice, because raw images are often not stored and re-building the maps could lead to loss of the attached digital content. To overcome the limitations of current approaches, we present the first principled solution to cross-descriptor localization and mapping. Our data-driven approach is agnostic to the feature descriptor type, has low computational requirements, and scales linearly with the number of description algorithms. Extensive experiments demonstrate the effectiveness of our approach on state-of-the-art benchmarks for a variety of handcrafted and learned features.
翻訳日:2021-05-25 03:56:45 公開日:2020-12-02
# 組立映像におけるきめ細かい活動認識

Fine-grained activity recognition for assembly videos ( http://arxiv.org/abs/2012.01392v1 )

ライセンス: Link先を確認
Jonathan D. Jones, Cathryn Cortesa, Amy Shelton, Barbara Landau, Sanjeev Khudanpur, and Gregory D. Hager(参考訳) 本稿では,アセンブリ動作を構造(例)として認識するタスクに対処する。 家具またはおもちゃのブロックタワーは、原始的なオブジェクトのセットから構築されています。 集団行動の全範囲を認識するには、現在まで行動認識文献で試みられていない空間的詳細レベルでの認識が必要である。 組立動作と運動構造を単一のフレームワーク内で統一することにより、組立動作認識のタスクを完全な汎用性で解決するために、きめ細かいアクティビティ認識設定を拡張する。 我々は,この枠組みを用いて,空間集合の特別な構造を生かした観察特徴とともに,観測シーケンスからアセンブリ動作を認識する一般的な手法を開発した。 最後に,本手法を,(1)IKEA家具組立データセット,(2)ブロック構築データセットの2つのデータソース上で実証的に評価した。 第1に,本システムでは,フレーム単位の平均精度が70%,正規化編集距離が10%の組立動作を認識する。 第2に, 集合を識別するために粒度の細かい幾何学的推論を必要とする場合, 平均正規化編集距離は23%であり, 従来の作業に比べて相対的に69%向上する。

In this paper we address the task of recognizing assembly actions as a structure (e.g. a piece of furniture or a toy block tower) is built up from a set of primitive objects. Recognizing the full range of assembly actions requires perception at a level of spatial detail that has not been attempted in the action recognition literature to date. We extend the fine-grained activity recognition setting to address the task of assembly action recognition in its full generality by unifying assembly actions and kinematic structures within a single framework. We use this framework to develop a general method for recognizing assembly actions from observation sequences, along with observation features that take advantage of a spatial assembly's special structure. Finally, we evaluate our method empirically on two application-driven data sources: (1) An IKEA furniture-assembly dataset, and (2) A block-building dataset. On the first, our system recognizes assembly actions with an average framewise accuracy of 70% and an average normalized edit distance of 10%. On the second, which requires fine-grained geometric reasoning to distinguish between assemblies, our system attains an average normalized edit distance of 23% -- a relative improvement of 69% over prior work.
翻訳日:2021-05-25 03:56:28 公開日:2020-12-02
# patchmatchnet: マルチビューのpatchmatchステレオを学ぶ

PatchmatchNet: Learned Multi-View Patchmatch Stereo ( http://arxiv.org/abs/2012.01411v1 )

ライセンス: Link先を確認
Fangjinhua Wang, Silvano Galliani, Christoph Vogel, Pablo Speciale, Marc Pollefeys(参考訳) PatchmatchNetは、高解像度のマルチビューステレオのためのPatchmatchの新規で学習可能なカスケード形式である。 PatchmatchNetは高い計算速度と低メモリ要求により、高解像度の画像を処理でき、3Dコストのボリューム正規化を採用する競合製品よりもリソース制限されたデバイスで実行するのに適している。 エンド・ツー・エンドのトレーニング可能なアーキテクチャで反復的マルチスケールのパッチマッチを導入し、新しい適応的伝搬と各イテレーションに対する評価スキームでPatchmatchコアアルゴリズムを改善した。 広範な実験により、dtu, tanks & temple, eth3dの手法の非常に競争力のある性能と一般化が示されたが、既存のすべてのトップパフォーマンスモデルよりもかなり高い効率を示した。

We present PatchmatchNet, a novel and learnable cascade formulation of Patchmatch for high-resolution multi-view stereo. With high computation speed and low memory requirement, PatchmatchNet can process higher resolution imagery and is more suited to run on resource limited devices than competitors that employ 3D cost volume regularization. For the first time we introduce an iterative multi-scale Patchmatch in an end-to-end trainable architecture and improve the Patchmatch core algorithm with a novel and learned adaptive propagation and evaluation scheme for each iteration. Extensive experiments show a very competitive performance and generalization for our method on DTU, Tanks & Temples and ETH3D, but at a significantly higher efficiency than all existing top-performing models: at least two and a half times faster than state-of-the-art methods with twice less memory usage.
翻訳日:2021-05-25 03:55:43 公開日:2020-12-02
# ACE-Net:アンカーと輪郭推定によるファインレベル顔アライメント

ACE-Net: Fine-Level Face Alignment through Anchors and Contours Estimation ( http://arxiv.org/abs/2012.01461v1 )

ライセンス: Link先を確認
Jihua Huang, Amir Tamrakar(参考訳) ファインレベル顔アライメントタスクのための新しい顔アンカーと輪郭推定フレームワークACE-Netを提案する。 ACE-Netは、従来の顔のランドマークよりも豊かで、顔の境界よりも正確である顔アンカーと輪郭を予測する。 加えて、顔のランドマークの定義の曖昧さや不一致に苦しむことはない。 我々は、ACE-Netが追加アノテーションを必要とせずに既存の顔ランドマークデータセットから学習できる弱教師付き損失を導入した。 合成データは訓練中に、ランドマークアノテーションと真の顔輪郭の間の密度ギャップを橋渡しするためにも用いられる。 我々は、一般的に使われている顔アライメントデータセット300-WとHELEN上でACE-Netを評価し、ACE-Netがランドマークベースモデルよりもはるかに高い精細な顔アライメント精度を達成できることを示す。 提案するACE-Netフレームワークは,特定のネットワークアーキテクチャに依存せず,既存の顔アライメントモデル上に適用することで,より微細な顔アライメント表現を実現する。

We propose a novel facial Anchors and Contours Estimation framework, ACE-Net, for fine-level face alignment tasks. ACE-Net predicts facial anchors and contours that are richer than traditional facial landmarks and more accurate than facial boundaries. In addition, it does not suffer from the ambiguities and inconsistencies in facial-landmarks definitions. We introduce a weakly supervised loss enabling ACE-Net to learn from existing facial landmarks datasets without the need for extra annotations. Synthetic data is also used during training to bridge the density gap between landmarks annotation and true facial contours. We evaluate ACE-Net on commonly used face alignment datasets 300-W and HELEN, and show that ACE-Net achieves significantly higher fine-level face alignment accuracy than landmarks based models, without compromising its performance at the landmarks level. The proposed ACE-Net framework does not rely on any specific network architecture and thus can be applied on top of existing face alignment models for finer face alignment representation.
翻訳日:2021-05-25 03:55:26 公開日:2020-12-02
# 解剖構造のワンショット分割のための輪郭変圧器ネットワーク

Contour Transformer Network for One-shot Segmentation of Anatomical Structures ( http://arxiv.org/abs/2012.01480v1 )

ライセンス: Link先を確認
Yuhang Lu, Kang Zheng, Weijian Li, Yirui Wang, Adam P. Harrison, Chihung Lin, Song Wang, Jing Xiao, Le Lu, Chang-Fu Kuo, Shun Miao(参考訳) 解剖学的構造の正確なセグメンテーションは医用画像解析に不可欠である。 最先端の精度は一般的に教師付き学習手法によって達成され、必要な専門家ラベル付き画像アノテーションをスケーラブルに収集することが大きな障害となる。 したがって、正確な解剖学的構造セグメンテーションを作成できるアノテーション効率の高い手法が好ましい。 そこで本研究では,自然に組み込まれた人工ループ機構を用いた単発解剖セグメンテーション手法であるcontour transformer network(ctn)を提案する。 我々は、輪郭進化過程として解剖学的セグメンテーションを定式化し、グラフ畳み込みネットワーク(GCN)による進化挙動をモデル化する。 CTNモデルのトレーニングにはラベル付き画像のみが必要であり、輪郭のグローバルな形状と外観の整合性を測定するために新たに導入された損失関数を通じてラベルなしのデータを活用する。 4つの異なる解剖学のセグメンテーションタスクについて,本手法が非学習型手法を大幅に上回り,最先端のディープラーニング手法と競合することを示した。 最小限のHuman-in-the-loop編集フィードバックにより、セグメンテーション性能は、完全に教師されたメソッドを超えるようにさらに改善される。

Accurate segmentation of anatomical structures is vital for medical image analysis. The state-of-the-art accuracy is typically achieved by supervised learning methods, where gathering the requisite expert-labeled image annotations in a scalable manner remains a main obstacle. Therefore, annotation-efficient methods that permit to produce accurate anatomical structure segmentation are highly desirable. In this work, we present Contour Transformer Network (CTN), a one-shot anatomy segmentation method with a naturally built-in human-in-the-loop mechanism. We formulate anatomy segmentation as a contour evolution process and model the evolution behavior by graph convolutional networks (GCNs). Training the CTN model requires only one labeled image exemplar and leverages additional unlabeled data through newly introduced loss functions that measure the global shape and appearance consistency of contours. On segmentation tasks of four different anatomies, we demonstrate that our one-shot learning method significantly outperforms non-learning-based methods and performs competitively to the state-of-the-art fully supervised deep learning methods. With minimal human-in-the-loop editing feedback, the segmentation performance can be further improved to surpass the fully supervised methods.
翻訳日:2021-05-25 03:54:52 公開日:2020-12-02
# 乱流火炎画像のデータ駆動解析

Data-driven Analysis of Turbulent Flame Images ( http://arxiv.org/abs/2012.01485v1 )

ライセンス: Link先を確認
Rathziel Roncancio, Jupyoung Kim, Aly El Gamal and Jay P. Gore(参考訳) 乱流予混合火炎はガスタービンを用いた発電に重要である。 火炎の特徴と理解の改善は、特に点火や絶滅のような過渡的な出来事に継続する。 未燃物のポケットや島は、これらの出来事における乱流火炎の特徴である。 これらの特徴は、放熱率や炭化水素の排出に直接関係している。 oh平面レーザー誘起蛍光画像を用いて, 乱流ch$_4$/空気予混合火炎中の未燃焼物質ポケットについて検討した。 畳み込みニューラルネットワーク(CNN)は,0%,5%,10%CO$2の3つの乱流火炎に対して,未焼成ポケットを含む画像の分類に用いられた。 cnnモデルは、3つの畳み込み層と2つの完全連結層をドロップアウトと重量減少を用いて構築した。 CNNモデルは3つの炎に対してそれぞれ91.72%、89.35%、85.80%の精度を達成した。

Turbulent premixed flames are important for power generation using gas turbines. Improvements in characterization and understanding of turbulent flames continue particularly for transient events like ignition and extinction. Pockets or islands of unburned material are features of turbulent flames during these events. These features are directly linked to heat release rates and hydrocarbons emissions. Unburned material pockets in turbulent CH$_4$/air premixed flames with CO$_2$ addition were investigated using OH Planar Laser-Induced Fluorescence images. Convolutional Neural Networks (CNN) were used to classify images containing unburned pockets for three turbulent flames with 0%, 5%, and 10% CO$_2$ addition. The CNN model was constructed using three convolutional layers and two fully connected layers using dropout and weight decay. The CNN model achieved accuracies of 91.72%, 89.35% and 85.80% for the three flames, respectively.
翻訳日:2021-05-25 03:54:32 公開日:2020-12-02
# 医療会話をSOAPセクションに分類する公平性を目指して

Towards Fairness in Classifying Medical Conversations into SOAP Sections ( http://arxiv.org/abs/2012.07749v1 )

ライセンス: Link先を確認
Elisa Ferracane, Sandeep Konam(参考訳) 機械学習アルゴリズムが医療に広く展開されるにつれて、アルゴリズムの公平性の問題がより重要になる。 我々の研究は、医師と患者の会話を医療用SOAPノートのセクションに分類するデプロイモデルにおける格差を特定し、理解することを目指している。 分類器の性能のばらつきを計測するために,いくつかの指標を用い,不利なグループの一部に小さな差異を見いだした。 これらの会話における言語をより深く分析し、グループをさらに階層化することは、これらの違いが医学的アポイントメント(精神科医と内科医)のタイプに関連し、しばしば帰属することを示唆している。 本研究は,データそのものに存在する可能性のある異質性を理解することの重要性と,利益を均等に分配するモデルの能力にどのように影響するかを強調する。

As machine learning algorithms are more widely deployed in healthcare, the question of algorithmic fairness becomes more critical to examine. Our work seeks to identify and understand disparities in a deployed model that classifies doctor-patient conversations into sections of a medical SOAP note. We employ several metrics to measure disparities in the classifier performance, and find small differences in a portion of the disadvantaged groups. A deeper analysis of the language in these conversations and further stratifying the groups suggests these differences are related to and often attributable to the type of medical appointment (e.g., psychiatric vs. internist). Our findings stress the importance of understanding the disparities that may exist in the data itself and how that affects a model's ability to equally distribute benefits.
翻訳日:2021-05-25 03:54:01 公開日:2020-12-02
# Extended T: クローズドセットとオープンセットノイズラベルを併用した学習

Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels ( http://arxiv.org/abs/2012.00932v1 )

ライセンス: Link先を確認
Xiaobo Xia, Tongliang Liu, Bo Han, Nannan Wang, Jiankang Deng, Jiatong Li, Yinian Mao(参考訳) ラベルノイズ遷移行列$t$は、真のラベルがノイズになる確率を反映したもので、モデルラベルノイズと統計的に一貫性のある分類器の設計にとって極めて重要である。 従来の遷移行列はクローズドセットラベルノイズに制限されており、ノイズトレーニングデータはノイズラベルセット内に真のクラスラベルを持つ。 このような遷移行列を用いてオープンセットラベルノイズをモデル化するのは不適当であり、真のクラスラベルはノイズラベルセットの外にある。 したがって、より現実的な状況、すなわちクローズド・セットとオープン・セット・ラベルのノイズが発生した場合、既存の手法は望ましくない偏りのある解を与える。 さらに、従来の遷移行列はモデルインスタンスに依存しないラベルノイズに限られており、実際にはうまく機能しない可能性がある。 本稿では,閉集合と開集合の混合ラベル雑音下での学習に着目した。 従来の遷移行列を混合ラベルノイズをモデル化できるように拡張し、さらにクラスタ依存遷移行列に拡張し、実世界のアプリケーションにおけるインスタンス依存ラベルノイズをよりよく近似する。 提案した遷移行列をクラスタ依存拡張遷移行列と呼ぶ。 非バイアス推定器(すなわち拡張$T$-estimator)は、ノイズデータのみを利用してクラスタ依存の拡張遷移行列を推定するように設計されている。 総合的な合成実験および実実験により,従来のラベルノイズ学習法よりもロバストな性能に追従し,混合ラベルノイズをモデル化できることが検証された。

The label noise transition matrix $T$, reflecting the probabilities that true labels flip into noisy ones, is of vital importance to model label noise and design statistically consistent classifiers. The traditional transition matrix is limited to model closed-set label noise, where noisy training data has true class labels within the noisy label set. It is unfitted to employ such a transition matrix to model open-set label noise, where some true class labels are outside the noisy label set. Thus when considering a more realistic situation, i.e., both closed-set and open-set label noise occurs, existing methods will undesirably give biased solutions. Besides, the traditional transition matrix is limited to model instance-independent label noise, which may not perform well in practice. In this paper, we focus on learning under the mixed closed-set and open-set label noise. We address the aforementioned issues by extending the traditional transition matrix to be able to model mixed label noise, and further to the cluster-dependent transition matrix to better approximate the instance-dependent label noise in real-world applications. We term the proposed transition matrix as the cluster-dependent extended transition matrix. An unbiased estimator (i.e., extended $T$-estimator) has been designed to estimate the cluster-dependent extended transition matrix by only exploiting the noisy data. Comprehensive synthetic and real experiments validate that our method can better model the mixed label noise, following its more robust performance than the prior state-of-the-art label-noise learning methods.
翻訳日:2021-05-25 03:53:46 公開日:2020-12-02
# ヒンジ損失最小化の誤差抵抗について

On the Error Resistance of Hinge Loss Minimization ( http://arxiv.org/abs/2012.00989v1 )

ライセンス: Link先を確認
Kunal Talwar(参考訳) サポートベクトルマシンなどの機械学習における一般的な分類アルゴリズムは、トレーニング例における凸代理損失を最小限に抑える。 実際、これらのアルゴリズムはトレーニングデータのエラーに対して驚くほど堅牢である。 本研究では,そのようなサーロゲート損失最小化アルゴリズムが正しい分類器を確実に学習するデータ上の条件を同定する。 これにより、データ上のさまざまなモデルとエラーの下で、これらのアルゴリズムのロバスト性を確立することができます。 特に、データがわずかに非自明なマージン(すなわち)で線形に分類可能であることを示す。 少なくとも$c/\sqrt{d}$ for $d$-dimensional unit vectors) のマージンとクラス条件分布は等方性と対数性に近く、従ってサーロゲート損失最小化は、例の一定割合が逆的に誤ってラベル付けされた場合でも、非破壊データに対して無視できる誤差を持つ。

Commonly used classification algorithms in machine learning, such as support vector machines, minimize a convex surrogate loss on training examples. In practice, these algorithms are surprisingly robust to errors in the training data. In this work, we identify a set of conditions on the data under which such surrogate loss minimization algorithms provably learn the correct classifier. This allows us to establish, in a unified framework, the robustness of these algorithms under various models on data as well as error. In particular, we show that if the data is linearly classifiable with a slightly non-trivial margin (i.e. a margin at least $C/\sqrt{d}$ for $d$-dimensional unit vectors), and the class-conditional distributions are near isotropic and logconcave, then surrogate loss minimization has negligible error on the uncorrupted data even when a constant fraction of examples are adversarially mislabeled.
翻訳日:2021-05-25 03:53:18 公開日:2020-12-02
# 時系列における多周期スライディングウィンドウアグリゲートの高速自動特徴選択

Fast Automatic Feature Selection for Multi-Period Sliding Window Aggregate in Time Series ( http://arxiv.org/abs/2012.01037v1 )

ライセンス: Link先を確認
Rui An, Xingtian Shi, Baohan Xu(参考訳) 最もよく知られている人工的特徴サンプリングの1つとして、スライディングウィンドウはコンピュータビジョン、自然言語処理、データストリーム、時系列などの空間的・時間的情報が存在するシナリオで広く使われている。 時系列は、クレジットカードの支払い、ユーザーの振る舞い、センサーなど、多くのシナリオでよく見られる。 ウィンドウアグリゲーションによって抽出された特徴の一般的な特徴選択は、時間を要する反復によって特徴を生成し、その後、それらのランク付けに伝統的な特徴選択手法を用いる。 キーパラメータの決定、すなわち、 スライディングウィンドウの期間は、ドメインの知識と自明さに依存する。 現在、スライディングウィンドウ集約機能の選択を扱う自動メソッドは存在しない。 異なる期間とスライディングウィンドウを持つ特徴生成の時間消費は巨大であるため、これらすべてを列挙して選択するのは非常に困難である。 本稿では,マルコフ・チェインを用いた一般的なフレームワークを提案する。 このフレームワークは非常に効率的で精度が高く、様々な機能や期間オプションで機能選択を行うことができる。 2つの一般的なスライディングウィンドウと3種類の集約演算子による詳細を示す。 そして、マルコフ連鎖に関する既存の理論を用いて、このフレームワークでよりスライディングウィンドウとアグリゲーション演算子を拡張することは容易である。

As one of the most well-known artificial feature sampler, the sliding window is widely used in scenarios where spatial and temporal information exists, such as computer vision, natural language process, data stream, and time series. Among which time series is common in many scenarios like credit card payment, user behavior, and sensors. General feature selection for features extracted by sliding window aggregate calls for time-consuming iteration to generate features, and then traditional feature selection methods are employed to rank them. The decision of key parameter, i.e. the period of sliding windows, depends on the domain knowledge and calls for trivial. Currently, there is no automatic method to handle the sliding window aggregate features selection. As the time consumption of feature generation with different periods and sliding windows is huge, it is very hard to enumerate them all and then select them. In this paper, we propose a general framework using Markov Chain to solve this problem. This framework is very efficient and has high accuracy, such that it is able to perform feature selection on a variety of features and period options. We show the detail by 2 common sliding windows and 3 types of aggregation operators. And it is easy to extend more sliding windows and aggregation operators in this framework by employing existing theory about Markov Chain.
翻訳日:2021-05-25 03:53:01 公開日:2020-12-02
# fit: 医療調査と診断タスクを解決するための高速で正確なフレームワーク

FIT: a Fast and Accurate Framework for Solving Medical Inquiring and Diagnosing Tasks ( http://arxiv.org/abs/2012.01065v1 )

ライセンス: Link先を確認
Weijie He, Xiaohao Mao, Chao Ma, Jos\'e Miguel Hern\'andez-Lobato, Ting Chen(参考訳) 自動自己診断は、患者に問い合わせ、疾患の予測を行うエージェントを介して、低コストでアクセス可能な医療を提供する。 機械学習の観点から、症状に基づく自己診断は、逐次的特徴選択と分類問題と見なすことができる。 強化学習法は、この課題において優れた性能を示すが、しばしば大きな探索空間とコストのかかる訓練に苦しむ。 これらの問題に対処するために、情報理論の報酬を用いて次に収集するデータを決定するFITと呼ばれる競合フレームワークを提案する。 FITは、マルチモーダル変分オートエンコーダ(MVAE)モデルと、病気予測のための2段階のサンプリング戦略を用いて、従来の情報に基づくアプローチよりも改善されている。 さらに,実際のオンライン自己診断に許容される水準に適合する計算コストを大幅に削減する新しい手法を提案する。 2つのデータセットをシミュレートした結果,fitは既存のベースラインよりも大きな検索空間問題に対して効果的に対処できることがわかった。 さらに,2つの医療データセットを用いて,実環境においてFITが競合する代替手段であることを示す。

Automatic self-diagnosis provides low-cost and accessible healthcare via an agent that queries the patient and makes predictions about possible diseases. From a machine learning perspective, symptom-based self-diagnosis can be viewed as a sequential feature selection and classification problem. Reinforcement learning methods have shown good performance in this task but often suffer from large search spaces and costly training. To address these problems, we propose a competitive framework, called FIT, which uses an information-theoretic reward to determine what data to collect next. FIT improves over previous information-based approaches by using a multimodal variational autoencoder (MVAE) model and a two-step sampling strategy for disease prediction. Furthermore, we propose novel methods to substantially reduce the computational cost of FIT to a level that is acceptable for practical online self-diagnosis. Our results in two simulated datasets show that FIT can effectively deal with large search space problems, outperforming existing baselines. Moreover, using two medical datasets, we show that FIT is a competitive alternative in real-world settings.
翻訳日:2021-05-25 03:52:42 公開日:2020-12-02
# 逆行訓練を用いた医用画像診断における解釈性の向上

Improving Interpretability in Medical Imaging Diagnosis using Adversarial Training ( http://arxiv.org/abs/2012.01166v1 )

ライセンス: Link先を確認
Andrei Margeloiu, Nikola Simidjievski, Mateja Jamnik, Adrian Weller(参考訳) コンボリューションニューラルネットワーク(CNN)の解釈性に対する対人訓練の影響について検討し,特に皮膚がんの診断に応用した。 逆行訓練cnnの勾配に基づく塩分マップは,標準訓練cnnよりも著しく鋭く,視覚的にコヒーレントであることが判明した。 さらに,悪性黒色腫の特徴である病変内に有意な色変異を有する領域を,逆行性に訓練されたネットワークが強調することを示した。 学習率の低いロバストネットワークを微調整することで,より鮮明さの向上が期待できる。 最後に、ロバストな低レベルな特徴を抽出するための最初のレイヤの堅牢化が視覚的にコヒーレントな説明につながることを示唆する予備的作業を提案する。

We investigate the influence of adversarial training on the interpretability of convolutional neural networks (CNNs), specifically applied to diagnosing skin cancer. We show that gradient-based saliency maps of adversarially trained CNNs are significantly sharper and more visually coherent than those of standardly trained CNNs. Furthermore, we show that adversarially trained networks highlight regions with significant color variation within the lesion, a common characteristic of melanoma. We find that fine-tuning a robust network with a small learning rate further improves saliency maps' sharpness. Lastly, we provide preliminary work suggesting that robustifying the first layers to extract robust low-level features leads to visually coherent explanations.
翻訳日:2021-05-25 03:52:06 公開日:2020-12-02
# 勾配に基づく塩分マップは深層強化学習に有用か?

Are Gradient-based Saliency Maps Useful in Deep Reinforcement Learning? ( http://arxiv.org/abs/2012.01281v1 )

ライセンス: Link先を確認
Matthias Rosynski and Frank Kirchner and Matias Valdenegro-Toro(参考訳) Deep Reinforcement Learning (DRL)は、古典的なReinforcement LearningアルゴリズムとDeep Neural Networksを接続する。 DRLの問題は、CNNがブラックボックスであり、エージェントの意思決定プロセスを理解することは困難である。 人間や機械にとって非常に危険な環境でRLエージェントを使用できるためには、開発者はエージェントが期待していることを確実にするデバッグツールが必要である。 現在、報酬は主にエージェントがいかにうまく学習しているかを解釈するために使われる。 しかし、もしエージェントがポリシーを暗記し、環境に反応する学習をしないことでより多くの報酬を受け取ると、これは偽りの結論につながる可能性がある。 本研究では,勾配可視化技術を用いてこの問題を認識できることを実証する。 この研究は、画像分類の分野からDeep Reinforcement Learningの分野まで、よく知られた視覚化手法をいくつかもたらす。 さらに、2つの新しい可視化技術が開発され、そのうちの1つは特に良い結果をもたらす。 強化学習の分野において、アルゴリズムがどの程度使用できるかが証明されている。 また、drlアルゴリズムが様々な環境にまたがってどのように可視化できるかという問題も生じている。

Deep Reinforcement Learning (DRL) connects the classic Reinforcement Learning algorithms with Deep Neural Networks. A problem in DRL is that CNNs are black-boxes and it is hard to understand the decision-making process of agents. In order to be able to use RL agents in highly dangerous environments for humans and machines, the developer needs a debugging tool to assure that the agent does what is expected. Currently, rewards are primarily used to interpret how well an agent is learning. However, this can lead to deceptive conclusions if the agent receives more rewards by memorizing a policy and not learning to respond to the environment. In this work, it is shown that this problem can be recognized with the help of gradient visualization techniques. This work brings some of the best-known visualization methods from the field of image classification to the area of Deep Reinforcement Learning. Furthermore, two new visualization techniques have been developed, one of which provides particularly good results. It is being proven to what extent the algorithms can be used in the area of Reinforcement learning. Also, the question arises on how well the DRL algorithms can be visualized across different environments with varying visualization techniques.
翻訳日:2021-05-25 03:51:34 公開日:2020-12-02
# 無線通信ネットワークのための分散機械学習:技術、アーキテクチャ、応用

Distributed Machine Learning for Wireless Communication Networks: Techniques, Architectures, and Applications ( http://arxiv.org/abs/2012.01489v1 )

ライセンス: Link先を確認
S. Hu, X. Chen, W. Ni, E. Hossain, and X. Wang(参考訳) 連合学習、分割学習、分散強化学習などの分散機械学習(DML)技術は、無線通信にますます応用されている。 これは端末装置の能力の改善、爆発的に増加するデータボリューム、無線インターフェースの混雑、データのプライバシーに対する懸念の高まりによる。 大規模、地理的に分散したデプロイメント、ユーザモビリティ、大量のデータといった無線システムのユニークな特徴は、DML技術の設計に新たな課題をもたらす。 既存の文献には明らかなギャップがあり、DML技術が無線システムへの適用性について体系的にレビューされていない。 この調査は、無線ネットワークに焦点を当てたDML技術の現代的かつ包括的な調査を提供することによって、ギャップを埋めるものである。 具体的には、電力制御、スペクトル管理、ユーザアソシエーション、エッジクラウドコンピューティングにおけるDMLの最新の応用についてレビューする。 DMLの最適性、スケーラビリティ、収束率、計算コスト、通信オーバーヘッドを分析した。 また、DMLアプリケーションによる潜在的敵攻撃についても論じ、プライバシーとセキュリティを守るための最先端の対策について述べる。 最後に重要なことは、まだ解決されていない重要な問題をいくつか指摘し、将来の研究において潜在的に興味深く挑戦的なトピックをまとめる。

Distributed machine learning (DML) techniques, such as federated learning, partitioned learning, and distributed reinforcement learning, have been increasingly applied to wireless communications. This is due to improved capabilities of terminal devices, explosively growing data volume, congestion in the radio interfaces, and increasing concern of data privacy. The unique features of wireless systems, such as large scale, geographically dispersed deployment, user mobility, and massive amount of data, give rise to new challenges in the design of DML techniques. There is a clear gap in the existing literature in that the DML techniques are yet to be systematically reviewed for their applicability to wireless systems. This survey bridges the gap by providing a contemporary and comprehensive survey of DML techniques with a focus on wireless networks. Specifically, we review the latest applications of DML in power control, spectrum management, user association, and edge cloud computing. The optimality, scalability, convergence rate, computation cost, and communication overhead of DML are analyzed. We also discuss the potential adversarial attacks faced by DML applications, and describe state-of-the-art countermeasures to preserve privacy and security. Last but not least, we point out a number of key issues yet to be addressed, and collate potentially interesting and challenging topics for future research.
翻訳日:2021-05-25 03:50:50 公開日:2020-12-02
# DecisiveNets: 複雑な機械学習問題を解決するための深い連想記憶のトレーニング

DecisiveNets: Training Deep Associative Memories to Solve Complex Machine Learning Problems ( http://arxiv.org/abs/2012.01509v1 )

ライセンス: Link先を確認
Vincent Gripon, Carlos Lassance, Ghouthi Boukli Hacene(参考訳) 複雑な機械学習タスクを解決するための深層表現の学習は、ここ数年で重要なトレンドとなっている。 実際、Deep Neural Networksは現在、コンピュータビジョン、自然言語処理、さらには組合せゲームといった分野における黄金の標準となっている。 しかし、この驚くべき普遍能力の裏には、問題のある制限が隠されている。 特にディープニューラルネットワークは、非常に多くのトレーニング可能なパラメータで構成されているため、決定の可否が大きな懸念事項である。 さらに、計算複雑性は、特にリアルタイムや限られたリソースによって制約されたコンテキストにおいて、すぐに問題となることがある。 したがって、情報がどのように保存され、このストレージがシステムに与える影響を理解することは、大きな問題であり、未解決のままである。 本章では,ディープニューラルネットワークモデルをよりシンプルで説明しやすい,安価な操作で,深い連想記憶に変換する手法を紹介する。 これらの変換が予測性能にペナルティを課さずに行えることを実験を通して示す。 その結果得られる深い連想記憶は、理論化や操作が容易な人工知能の優れた候補である。

Learning deep representations to solve complex machine learning tasks has become the prominent trend in the past few years. Indeed, Deep Neural Networks are now the golden standard in domains as various as computer vision, natural language processing or even playing combinatorial games. However, problematic limitations are hidden behind this surprising universal capability. Among other things, explainability of the decisions is a major concern, especially since deep neural networks are made up of a very large number of trainable parameters. Moreover, computational complexity can quickly become a problem, especially in contexts constrained by real time or limited resources. Therefore, understanding how information is stored and the impact this storage can have on the system remains a major and open issue. In this chapter, we introduce a method to transform deep neural network models into deep associative memories, with simpler, more explicable and less expensive operations. We show through experiments that these transformations can be done without penalty on predictive performance. The resulting deep associative memories are excellent candidates for artificial intelligence that is easier to theorize and manipulate.
翻訳日:2021-05-25 03:50:30 公開日:2020-12-02
# 値アライメントの検証

Value Alignment Verification ( http://arxiv.org/abs/2012.01557v1 )

ライセンス: Link先を確認
Daniel S. Brown, Jordan Schneider, Scott Niekum(参考訳) 人間は自律的なエージェントと対話し、ますます複雑で潜在的に危険なタスクを実行するため、これらのエージェントの信頼性を検証し、そのパフォーマンスと正確性を評価することが重要である。 本稿では,他のエージェントの目標と行動が人間の値と一致しているかどうかを効率的に検証する方法について,価値アライメント検証の問題を定式化する。 いくつかの異なる値アライメント検証設定を検討し、値アライメント検証に関する基礎理論を提供する。 本研究では,明示的な報酬機能を持つ理想化人間によるアライメント検証問題と,人間が暗黙の値を持つ値アライメント検証問題について検討する。 離散グリッドナビゲーションドメインと連続自律運転ドメインの両方における理論的および実証的な結果は、自律エージェントのアライメントを認証するための高効率で正確な値アライメント検証テストを合成できることを実証する。

As humans interact with autonomous agents to perform increasingly complicated, potentially risky tasks, it is important that humans can verify these agents' trustworthiness and efficiently evaluate their performance and correctness. In this paper we formalize the problem of value alignment verification: how to efficiently test whether the goals and behavior of another agent are aligned with a human's values? We explore several different value alignment verification settings and provide foundational theory regarding value alignment verification. We study alignment verification problems with an idealized human that has an explicit reward function as well as value alignment verification problems where the human has implicit values. Our theoretical and empirical results in both a discrete grid navigation domain and a continuous autonomous driving domain demonstrate that it is possible to synthesize highly efficient and accurate value alignment verification tests for certifying the alignment of autonomous agents.
翻訳日:2021-05-25 03:50:15 公開日:2020-12-02
# テンソルデータ散乱とスライシング定理の不可能性

Tensor Data Scattering and the Impossibility of Slicing Theorem ( http://arxiv.org/abs/2012.01982v1 )

ライセンス: Link先を確認
Wuming Pan(参考訳) 本稿では,様々なディープラーニングフレームワークで使用されるテンソルデータ拡散手法の広範な理論的枠組みを確立する。 本稿では,データ散乱を実装するための性能解析と加速器最適化に非常に重要な定理を提案する。 この定理はテンソルデータ散乱においてスライシングの不合理性がどのように起こるかを示している。 本稿では,ScatterXというアルゴリズムを提案し,そのソースコードを提供する。

This paper establishes a broad theoretical framework for tensor data dissemination methods used in various deep learning frameworks. This paper gives a theorem that is very important for performance analysis and accelerator optimization for implementing data scattering. The theorem shows how the impossibility of slicing happens in tenser data scattering. This paper proposes an algorithm called ScatterX and its source code is provided.
翻訳日:2021-05-25 03:50:00 公開日:2020-12-02
# 積極的人間-ロボットインタラクションのための軌道最適化におけるニューラルネットワーク勾配の活用

Leveraging Neural Network Gradients within Trajectory Optimization for Proactive Human-Robot Interactions ( http://arxiv.org/abs/2012.01027v1 )

ライセンス: Link先を確認
Simon Schaefer, Karen Leung, Boris Ivanovic, Marco Pavone(参考訳) シームレスな人間とロボットの相互作用を実現するには、ロボットは複雑な相互作用のダイナミクスと、動作計画プロセスにおける将来の人間の行動について、綿密に推論する必要がある。 しかし、最先端のニューラルネットワークベースの人間行動モデルとロボットの動作プランナとの間には断絶がある。下流の計画を考慮して行動モデルに制限があるか、計画問題のトラクタビリティを確保するために単純化された行動モデルが使用される。 本稿では,軌道最適化(to)の解釈可能性と柔軟性と,最先端の軌道予測モデルの予測能力とを融合する枠組みを提案する。 特に、データ駆動予測モデルからの勾配情報を利用して、勾配に基づくTO問題における人間-ロボット相互作用のダイナミクスを明確に推論する。 ロボットが最大10人の歩行者の群集を安全に効率的に移動する必要があるマルチエージェントシナリオにおいて,本手法の有効性を実証する。 我々は,様々な計画手法と比較し,プランナー内のインタラクションダイナミクスを明示的に計算することにより,より安全かつ効率的な行動を提供し,移動前に歩行者が通過するのを待つような積極的かつニュアンス的な行動も得ることを示した。

To achieve seamless human-robot interactions, robots need to intimately reason about complex interaction dynamics and future human behaviors within their motion planning process. However, there is a disconnect between state-of-the-art neural network-based human behavior models and robot motion planners -- either the behavior models are limited in their consideration of downstream planning or a simplified behavior model is used to ensure tractability of the planning problem. In this work, we present a framework that fuses together the interpretability and flexibility of trajectory optimization (TO) with the predictive power of state-of-the-art human trajectory prediction models. In particular, we leverage gradient information from data-driven prediction models to explicitly reason about human-robot interaction dynamics within a gradient-based TO problem. We demonstrate the efficacy of our approach in a multi-agent scenario whereby a robot is required to safely and efficiently navigate through a crowd of up to ten pedestrians. We compare against a variety of planning methods, and show that by explicitly accounting for interaction dynamics within the planner, our method offers safer and more efficient behaviors, even yielding proactive and nuanced behaviors such as waiting for a pedestrian to pass before moving.
翻訳日:2021-05-25 03:49:51 公開日:2020-12-02
# ディープQネットワークを用いたマルチエージェント強化学習による繊維製造プロセスの多目的最適化

Multi-Objective Optimization of the Textile Manufacturing Process Using Deep-Q-Network Based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.01101v1 )

ライセンス: Link先を確認
Zhenglei He, Kim Phuc Tran (GEMTEX), Sebastien Thomassey, Xianyi Zeng, Jie Xu, Changhai Yi(参考訳) 繊維産業の発展に伴う複雑さが増大していることから,繊維製造プロセスの多目的最適化が課題となっている。 インテリジェントな技術の使用は、この領域でしばしば議論されてきたが、特定の成功したアプリケーションからの大幅な改善が報告されているが、従来の手法は、人間の介入と同様に高度に機能しない。 そこで本稿では,最適化プロセスを確率ゲームに変換するマルチエージェント強化学習(MARL)フレームワークを提案し,マルチエージェントのトレーニングを行う深層Q-networksアルゴリズムを導入した。 複数の平衡の中断を回避し、最適化過程の相関平衡最適解を達成するために、各状態における(-グリーディポリシー)確率ゲームにおいて実用的選択機構が採用された。 ケーススタディの結果から,提案するmarlシステムは,従来の方法よりも優れた織布のオゾン化処理の最適解を実現できることが示唆された。

Multi-objective optimization of the textile manufacturing process is an increasing challenge because of the growing complexity involved in the development of the textile industry. The use of intelligent techniques has been often discussed in this domain, although a significant improvement from certain successful applications has been reported, the traditional methods failed to work with high-as well as human intervention. Upon which, this paper proposed a multi-agent reinforcement learning (MARL) framework to transform the optimization process into a stochastic game and introduced the deep Q-networks algorithm to train the multiple agents. A utilitarian selection mechanism was employed in the stochastic game, which (-greedy policy) in each state to avoid the interruption of multiple equilibria and achieve the correlated equilibrium optimal solutions of the optimizing process. The case study result reflects that the proposed MARL system is possible to achieve the optimal solutions for the textile ozonation process and it performs better than the traditional approaches.
翻訳日:2021-05-25 03:49:32 公開日:2020-12-02
# 政策スーパーベクター:その行動によるエージェントの一般的特徴付け

Policy Supervectors: General Characterization of Agents by their Behaviour ( http://arxiv.org/abs/2012.01244v1 )

ライセンス: Link先を確認
Anssi Kanervisto, Tomi Kinnunen, Ville Hautam\"aki(参考訳) 意思決定エージェントの根底にある方針を研究することで、その欠点について学び、改善する可能性がある。 伝統的に、これはエージェントの実装、実行中の振る舞い、報酬/適合関数によるパフォーマンス、またはエージェントが訪問する状態の密度を可視化することによって行われる。 しかし、これらの手法は複雑な高次元環境におけるポリシーの振る舞いを記述するのに失敗し、トレーニングアルゴリズムを研究する際に必要となる何千ものポリシーにスケールしない。 本研究では,訪問状態の分布によってエージェントを特徴付けるための政策スーパーベクタを提案し,音声技術分野から成功した技術を採用する。 政策監督者は、デザイン哲学に関わらず(例えば、)政策を特徴づけることができる。 ルールベースの対ニューラルネットワーク)と、単一のワークステーションマシン上で数千のポリシーにスケールする。 本稿では,強化学習,進化訓練,模倣学習における政策の進化を研究することによって,その適用可能性を示す。 進化的アルゴリズムの探索空間は、パラメータだけでなくエージェントの振る舞いにも反映される。

By studying the underlying policies of decision-making agents, we can learn about their shortcomings and potentially improve them. Traditionally, this has been done either by examining the agent's implementation, its behaviour while it is being executed, its performance with a reward/fitness function or by visualizing the density of states the agent visits. However, these methods fail to describe the policy's behaviour in complex, high-dimensional environments or do not scale to thousands of policies, which is required when studying training algorithms. We propose policy supervectors for characterizing agents by the distribution of states they visit, adopting successful techniques from the area of speech technology. Policy supervectors can characterize policies regardless of their design philosophy (e.g. rule-based vs. neural networks) and scale to thousands of policies on a single workstation machine. We demonstrate method's applicability by studying the evolution of policies during reinforcement learning, evolutionary training and imitation learning, providing insight on e.g. how the search space of evolutionary algorithms is also reflected in agent's behaviour, not just in the parameters.
翻訳日:2021-05-25 03:49:14 公開日:2020-12-02
# 共変量情報を用いた残差分布ロバスト最適化

Residuals-based distributionally robust optimization with covariate information ( http://arxiv.org/abs/2012.01088v1 )

ライセンス: Link先を確認
Rohit Kannan, G\"uzin Bayraksan, James R. Luedtke(参考訳) 我々は、不確実なパラメータと共変量の限定的な共同観測により、分散ロバスト最適化(DRO)に機械学習予測モデルを統合するデータ駆動アプローチを検討する。 私たちのフレームワークは、さまざまな学習設定やDROあいまいさセットに対応できるという意味で柔軟です。 本研究では, ワッサースタインを用いた解の漸近的および有限なサンプル特性, サンプルロバスト最適化, phi-divergence-based ambiguity set について検討し, それらの曖昧性集合を定式化するためのクロスバリデーションアプローチについて検討した。 数値実験により, 予測モデルが不明確であった場合においても, 計算結果の検証, あいまいさ集合のサイズ化へのアプローチの有効性, DROの定式化の利点について考察する。

We consider data-driven approaches that integrate a machine learning prediction model within distributionally robust optimization (DRO) given limited joint observations of uncertain parameters and covariates. Our framework is flexible in the sense that it can accommodate a variety of learning setups and DRO ambiguity sets. We investigate the asymptotic and finite sample properties of solutions obtained using Wasserstein, sample robust optimization, and phi-divergence-based ambiguity sets within our DRO formulations, and explore cross-validation approaches for sizing these ambiguity sets. Through numerical experiments, we validate our theoretical results, study the effectiveness of our approaches for sizing ambiguity sets, and illustrate the benefits of our DRO formulations in the limited data regime even when the prediction model is misspecified.
翻訳日:2021-05-25 03:48:11 公開日:2020-12-02
# 風力曲線モデリングにおける時間オーバーフィッティング問題と応用

The temporal overfitting problem with applications in wind power curve modeling ( http://arxiv.org/abs/2012.01349v1 )

ライセンス: Link先を確認
Abhinav Prakash, Rui Tuo and Yu Ding(参考訳) 本稿では,入力変数と残差の独立性仮定がもはや有効ではない非パラメトリック回帰問題について述べる。 クロスバリデーションのような既存のモデル選択手法を用いることで、入力変数とエラー項における時間的自己相関の存在がモデルオーバーフィットにつながる。 この現象を時間オーバーフィッティング(temporal overfitting)と呼び、トレーニング時間領域とは異なる時間領域に対する応答を予測しながらパフォーマンスを損なう。 本稿では,時間オーバーフィッティング問題に対処する新しい手法を提案する。 我々の非パラメトリックモデルは、時変成分と時変成分の2つの部分に分けられ、それぞれがガウス過程の回帰によってモデル化される。 私たちの推論における鍵は、それぞれ2つのコンポーネントを推定するためにマルコフ連鎖モンテカルロサンプリングから借用された薄型戦略である。 本論文の具体的応用は風力エネルギーの電力曲線モデリングを対象とする。 本研究では,提案手法を既存のパワーカーブモデルと時間的オーバーフィッティングを扱うためのアイデアの両方と比較した。 提案手法は,トレーニングデータによってカバーされる時間領域内および外部の両方において,予測の大幅な改善をもたらす。

This paper is concerned with a nonparametric regression problem in which the independence assumption of the input variables and the residuals is no longer valid. Using existing model selection methods, like cross validation, the presence of temporal autocorrelation in the input variables and the error terms leads to model overfitting. This phenomenon is referred to as temporal overfitting, which causes loss of performance while predicting responses for a time domain different from the training time domain. We propose a new method to tackle the temporal overfitting problem. Our nonparametric model is partitioned into two parts -- a time-invariant component and a time-varying component, each of which is modeled through a Gaussian process regression. The key in our inference is a thinning-based strategy, an idea borrowed from Markov chain Monte Carlo sampling, to estimate the two components, respectively. Our specific application in this paper targets the power curve modeling in wind energy. In our numerical studies, we compare extensively our proposed method with both existing power curve models and available ideas for handling temporal overfitting. Our approach yields significant improvement in prediction both in and outside the time domain covered by the training data.
翻訳日:2021-05-25 03:47:53 公開日:2020-12-02
# IoT用侵入検知システム:エッジコンピューティングが提供する可能性と課題

Intrusion Detection Systems for IoT: opportunities and challenges offered by Edge Computing ( http://arxiv.org/abs/2012.01174v1 )

ライセンス: Link先を確認
Pietro Spadaccino and Francesca Cuomo(参考訳) 現在のサイバーセキュリティ手法の主な構成要素は、侵入検知システム(IDS)が異なる技術であり、侵入を検出するためにアーキテクチャが適用されることである。 IDSは、シグネチャベースとして知られる既知の侵入経験のデータベースで監視されたイベントを横断的にチェックするか、システムの正常な振る舞いを学習し、異常なイベントが発生するかどうかを報告する。 この作業は、エッジコンピューティングを使用してIDS実装をサポートするIoT(Internet of Things)ネットワークへのアプリケーション専用のものだ。 エッジシナリオにIDSをデプロイする際の新たな課題を特定し、改善を提案する。 我々は、異常検出に活用できる主要なテクニックを示し、IDSのコンテキストで機械学習技術とその応用を提示し、特定のテクニックが引き起こすであろう利点とデメリットについて述べる。

Key components of current cybersecurity methods are the Intrusion Detection Systems (IDSs) were different techniques and architectures are applied to detect intrusions. IDSs can be based either on cross-checking monitored events with a database of known intrusion experiences, known as signature-based, or on learning the normal behavior of the system and reporting whether some anomalous events occur, named anomaly-based. This work is dedicated to the application to the Internet of Things (IoT) network where edge computing is used to support the IDS implementation. New challenges that arise when deploying an IDS in an edge scenario are identified and remedies are proposed. We focus on anomaly-based IDSs, showing the main techniques that can be leveraged to detect anomalies and we present machine learning techniques and their application in the context of an IDS, describing the expected advantages and disadvantages that a specific technique could cause.
翻訳日:2021-05-25 03:47:36 公開日:2020-12-02
# Proceedings Second Workshop on Formal Methods for Autonomous Systems

Proceedings Second Workshop on Formal Methods for Autonomous Systems ( http://arxiv.org/abs/2012.01176v1 )

ライセンス: Link先を確認
Matt Luckcuck (University of Manchester, UK), Marie Farrell (University of Manchester, UK)(参考訳) 自律システムは高度に複雑であり、形式的手法の適用に特有の課題がある。 自律システムは人間の介入なしに行動し、しばしばロボットシステムに組み込まれ、現実世界と対話できるようにします。 そのため、それらは安全クリティカル、サイバー物理、ハイブリッド、リアルタイムシステムの特性を示す。 FMASの目標は、フォーマルな方法で自律システムのユニークな課題に対処している先進的な研究者をまとめて、現在進行中の成果を提示することにある。 私たちは、自律システムやロボットシステムを特定し、モデル化し、検証するための正式な方法を使うことに興味があります。 私たちはまた、産業応用の成功と、この新たな形式的手法の適用の今後の方向性にも興味を持っています。

Autonomous systems are highly complex and present unique challenges for the application of formal methods. Autonomous systems act without human intervention, and are often embedded in a robotic system, so that they can interact with the real world. As such, they exhibit the properties of safety-critical, cyber-physical, hybrid, and real-time systems. The goal of FMAS is to bring together leading researchers who are tackling the unique challenges of autonomous systems using formal methods, to present recent and ongoing work. We are interested in the use of formal methods to specify, model, or verify autonomous or robotic systems; in whole or in part. We are also interested in successful industrial applications and potential future directions for this emerging application of formal methods.
翻訳日:2021-05-25 03:47:21 公開日:2020-12-02
# 2020年モデル計数競争

The Model Counting Competition 2020 ( http://arxiv.org/abs/2012.01323v1 )

ライセンス: Link先を確認
Johannes K. Fichte and Markus Hecher and Florim Hamiti(参考訳) 現代の社会における多くの計算問題は確率論的推論、統計学、コンビネータ学である。 これらの現実世界の様々な質問は、(ブール)式で質問を表現し、公式のモデルの数と質問への答えを直接関連付けることで解決できる。 過去数年間、モデルカウントの実用的な問題解決への関心が高まっているため、モデルカウント(mc)コンペティションが2019年秋に考案された。 このコンペティションは、アプリケーションを育成し、新しい挑戦的なベンチマークを特定し、新しいソルバを促進し、モデルカウント問題とそのバージョンのための確立されたソルバを改善することを目的としている。 結果が、モデルカウントの現在の実現可能性のよい指標になり、多くの新しいアプリケーションを呼び起こすことを願っています。 本稿では,2020年モデル計数競争の詳細と,その実施状況と結果について報告する。 コンペティションには3種類のモデルカウント問題が含まれており、異なるトラックで評価した。 最初のトラックはモデルカウント問題 (MC) を特徴とし、与えられたブール公式のモデル数を求めるものである。 第2のトラックでは、重み付けされたモデルカウント問題(WMC)を解決するプログラムを提出するよう開発者に呼びかけた。 最後のトラックは、予測されたモデルカウント(PMC)に向けられた。 合計で,8グループから34バージョンで,驚くべき数の解答者を得た。

Many computational problems in modern society account to probabilistic reasoning, statistics, and combinatorics. A variety of these real-world questions can be solved by representing the question in (Boolean) formulas and associating the number of models of the formula directly with the answer to the question. Since there has been an increasing interest in practical problem solving for model counting over the last years, the Model Counting (MC) Competition was conceived in fall 2019. The competition aims to foster applications, identify new challenging benchmarks, and to promote new solvers and improve established solvers for the model counting problem and versions thereof. We hope that the results can be a good indicator of the current feasibility of model counting and spark many new applications. In this paper, we report on details of the Model Counting Competition 2020, about carrying out the competition, and the results. The competition encompassed three versions of the model counting problem, which we evaluated in separate tracks. The first track featured the model counting problem (MC), which asks for the number of models of a given Boolean formula. On the second track, we challenged developers to submit programs that solve the weighted model counting problem (WMC). The last track was dedicated to projected model counting (PMC). In total, we received a surprising number of 9 solvers in 34 versions from 8 groups.
翻訳日:2021-05-25 03:47:11 公開日:2020-12-02
# 画像ベースモデリングと自動カメラトラッキングを実現するフォトグラムベースフレームワーク

A Photogrammetry-based Framework to Facilitate Image-based Modeling and Automatic Camera Tracking ( http://arxiv.org/abs/2012.01044v1 )

ライセンス: Link先を確認
Sebastian Bullinger, Christoph Bodensteiner, Michael Arens(参考訳) 本研究では,Blenderを拡張してSfM(Structure from Motion)とMVS(Multi-View Stereo)技術を利用して彫刻やカメラ,モーショントラッキングなどの画像ベースモデリングタスクを実現するフレームワークを提案する。 SfMを適用することで、機能トラックを手動で定義したり、画像データを取得するために使用されるカメラを校正したりすることなく、カメラの動きを判断できます。 MVSでは、Blenderの組み込みツールでは実現不可能な高密度シーンモデルを自動的に計算できます。 現在、我々のフレームワークはいくつかの最先端のSfMとMVSパイプラインをサポートしている。 モジュラーシステム設計により、追加の努力なしに、さらなるアプローチを統合できます。 このフレームワークはオープンソースソフトウェアパッケージとして公開されている。

We propose a framework that extends Blender to exploit Structure from Motion (SfM) and Multi-View Stereo (MVS) techniques for image-based modeling tasks such as sculpting or camera and motion tracking. Applying SfM allows us to determine camera motions without manually defining feature tracks or calibrating the cameras used to capture the image data. With MVS we are able to automatically compute dense scene models, which is not feasible with the built-in tools of Blender. Currently, our framework supports several state-of-the-art SfM and MVS pipelines. The modular system design enables us to integrate further approaches without additional effort. The framework is publicly available as an open source software package.
翻訳日:2021-05-25 03:46:34 公開日:2020-12-02
# 並列スケジューリング自己注意機構:一般化と最適化

Parallel Scheduling Self-attention Mechanism: Generalization and Optimization ( http://arxiv.org/abs/2012.01114v1 )

ライセンス: Link先を確認
Mingfei Yu and Masahiro Fujita(参考訳) 過去数年間、特に自然言語処理(NLP)の分野において、ディープラーニングの分野で自己注意が輝いている。 その顕著な効果は、ユビキタスな実装とともに、並列コンピューティングを実現するために、多くの計算ユニットを持つアーキテクチャに対応する計算データフローを効率的にスケジューリングすることへの我々の関心を喚起した。 本稿では,言語モデルにおける自己アテンション機構の理論と自己アテンションの最先端化を基礎として,SAT(Satisfiability check)ソルバによって解決された小インスタンスの最適スケジューリングから導かれる一般スケジューリングアルゴリズムを提案し,自己アテンションの典型的な計算を並列化する。 冗長計算をスキップするさらなる最適化戦略も提案され、それぞれ25%と50%の削減が、広く採用されている2つのセルフアテンションのアプリケーションスキームで達成される。 提案手法を採用することで,スケジューリングアルゴリズムを新たに2つ考案した。 提案アルゴリズムは、入力ベクトルの数がアーキテクチャで利用可能な演算ユニットの数に割り切れる限り、問題のサイズにかかわらず適用可能である。 一般の場合,アルゴリズムの正しさを数学的に証明することの難しさから,特定の事例に対するSAT問題の解法によって得られる解の優れた品質とともに,それらの妥当性を明らかにする実験を行った。

Over the past few years, self-attention is shining in the field of deep learning, especially in the domain of natural language processing(NLP). Its impressive effectiveness, along with ubiquitous implementations, have aroused our interest in efficiently scheduling the data-flow of corresponding computations onto architectures with many computing units to realize parallel computing. In this paper, based on the theory of self-attention mechanism and state-of-the-art realization of self-attention in language models, we propose a general scheduling algorithm, which is derived from the optimum scheduling for small instances solved by a satisfiability checking(SAT) solver, to parallelize typical computations of self-attention. Strategies for further optimization on skipping redundant computations are put forward as well, with which reductions of almost 25% and 50% of the original computations are respectively achieved for two widely-adopted application schemes of self-attention. With the proposed optimization adopted, we have correspondingly come up with another two scheduling algorithms. The proposed algorithms are applicable regardless of problem sizes, as long as the number of input vectors is divisible to the number of computing units available in the architecture. Due to the complexity of proving the correctness of the algorithms mathematically for general cases, we have conducted experiments to reveal their validity, together with the superior quality of the solutions provided by which, by solving SAT problems for particular instances.
翻訳日:2021-05-25 03:45:46 公開日:2020-12-02
# データ駆動型NextGセルネットワークのためのO-RANのインテリジェンスと学習

Intelligence and Learning in O-RAN for Data-driven NextG Cellular Networks ( http://arxiv.org/abs/2012.01263v1 )

ライセンス: Link先を確認
Leonardo Bonati, Salvatore D'Oro, Michele Polese, Stefano Basagni, Tommaso Melodia(参考訳) 将来的には、"nextg"セルラーネットワークはクラウドベースで、プログラマブル、仮想化、分散アーキテクチャ上に構築される予定である。 ハードウェアファブリックからの制御機能の分離と標準化された制御インターフェースの導入により、独自のクローズドコントロールループの定義が可能になり、最終的には組み込みインテリジェンスとリアルタイム分析が可能になり、自律的および自己最適化ネットワークのビジョンを効果的に実現することができる。 本稿では,O-RANアライアンスによって提案されたNextG分散アーキテクチャについて考察する。 このアーキテクチャのコンテキスト内では、異なる時間スケールにおけるネットワーク制御に対するデータ駆動最適化アプローチの可能性、課題、および制限について論じる。 また、O-RAN準拠のソフトウェアコンポーネントとオープンソースのフルスタックの軟弱セルネットワークの統合の大規模なデモも提供する。 世界最大の無線ネットワークエミュレータであるColosseumで実施された実験では、リアルタイム分析と深層強化学習エージェントによる制御のクローズループ統合が実証された。 また,リアルタイムに近いRAN Intelligent Controller (RIC)上で動作するxAppsを経由したRadio Access Network (RAN)制御を初めて実施し,既存のネットワークスライスのスケジューリングポリシを最適化し,O-RANオープンインターフェースを活用してネットワークのエッジでデータを収集した。

Future, "NextG" cellular networks will be natively cloud-based and built upon programmable, virtualized, and disaggregated architectures. The separation of control functions from the hardware fabric and the introduction of standardized control interfaces will enable the definition of custom closed-control loops, which will ultimately enable embedded intelligence and real-time analytics, thus effectively realizing the vision of autonomous and self-optimizing networks. This article explores the NextG disaggregated architecture proposed by the O-RAN Alliance. Within this architectural context, it discusses potential, challenges, and limitations of data-driven optimization approaches to network control over different timescales. It also provides the first large-scale demonstration of the integration of O-RAN-compliant software components with an open-source full-stack softwarized cellular network. Experiments conducted on Colosseum, the world's largest wireless network emulator, demonstrate closed-loop integration of real-time analytics and control through deep reinforcement learning agents. We also demonstrate for the first time Radio Access Network (RAN) control through xApps running on the near real-time RAN Intelligent Controller (RIC), to optimize the scheduling policies of co-existing network slices, leveraging O-RAN open interfaces to collect data at the edge of the network.
翻訳日:2021-05-25 03:45:13 公開日:2020-12-02
# パレート決定論的政策勾配と5G大規模MIMOネットワークへの応用

Pareto Deterministic Policy Gradients and Its Application in 5G Massive MIMO Networks ( http://arxiv.org/abs/2012.01279v1 )

ライセンス: Link先を確認
Zhou Zhou, Yan Xin, Hao Chen, Charlie Zhang, Lingjia Liu(参考訳) 本稿では、セル間ハンドオーバ(ユーザアソシエイト割り当て)とMIMOアンテナの大規模な傾きを学習ポリシーとして構成する強化学習(RL)アプローチを用いて、セルロードバランスとネットワークスループットを協調的に最適化することを検討する。 rlの背景にある根拠は、ユーザモビリティとネットワークダイナミクスの分析的モデリングの課題を回避することです。 この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。 この手法をPareto Deterministic Policy gradients (PDPG) と呼ぶ。 1)手作りのスカラー・リワードを選択するよりもベクトル報酬の自由度を利用して最適化する; 2) 複数のポリシーに対するクロスバリデーションを大幅に削減する。 したがって、rlを有効にしたネットワークは自己組織的に動作し、測定履歴を通じて基盤となるユーザモビリティを学習し、環境の仮定なしにハンドオーバとアンテナ傾きを積極的に操作する。 本稿では,RL法がスカラー回帰法より優れていることを示す。 一方,自己完結性を得るためには,ブルートフォース探索ソルバを用いた理想的静的最適化をベンチマークとして含む。 比較の結果,RLアプローチは,環境観測の制限や行動頻度の低下に制約されているのに対して,後者はユーザモビリティにフルアクセス可能である。 提案手法の収束性は,実シナリオからの測定データに基づいて,異なるユーザ移動環境下でも検証される。

In this paper, we consider jointly optimizing cell load balance and network throughput via a reinforcement learning (RL) approach, where inter-cell handover (i.e., user association assignment) and massive MIMO antenna tilting are configured as the RL policy to learn. Our rationale behind using RL is to circumvent the challenges of analytically modeling user mobility and network dynamics. To accomplish this joint optimization, we integrate vector rewards into the RL value network and conduct RL action via a separate policy network. We name this method as Pareto deterministic policy gradients (PDPG). It is an actor-critic, model-free and deterministic policy algorithm which can handle the coupling objectives with the following two merits: 1) It solves the optimization via leveraging the degree of freedom of vector reward as opposed to choosing handcrafted scalar-reward; 2) Cross-validation over multiple policies can be significantly reduced. Accordingly, the RL enabled network behaves in a self-organized way: It learns out the underlying user mobility through measurement history to proactively operate handover and antenna tilt without environment assumptions. Our numerical evaluation demonstrates that the introduced RL method outperforms scalar-reward based approaches. Meanwhile, to be self-contained, an ideal static optimization based brute-force search solver is included as a benchmark. The comparison shows that the RL approach performs as well as this ideal strategy, though the former one is constrained with limited environment observations and lower action frequency, whereas the latter ones have full access to the user mobility. The convergence of our introduced approach is also tested under different user mobility environment based on our measurement data from a real scenario.
翻訳日:2021-05-25 03:44:51 公開日:2020-12-02
# ユーザカスタマイズによるプライベートデータ生成

Generating private data with user customization ( http://arxiv.org/abs/2012.01467v1 )

ライセンス: Link先を確認
Xiao Chen, Thomas Navidi, Ram Rajagopal(参考訳) 携帯電話などのパーソナルデバイスは、大量のデータを生成・保存して機械学習モデルを強化することができるが、このデータは、データのリリースを防止するデータ所有者特有のプライベート情報を含む可能性がある。 有用な情報を保持しつつ、ユーザ固有のプライベート情報とデータとの相関を小さくしたい。 最終段階から最終段階までの民営化を達成するために大きなモデルを訓練する代わりに、まず潜在表現の作成を分離し、次に、限られた計算量とデータの実用上の最小限の障害を伴う設定において、ユーザ固有の民営化を許容するデータを民営化する。 可変オートエンコーダ(VAE)を利用して、すべてのデバイスと可能なすべてのプライベートラベルに固定されたデータのコンパクトな潜在表現を生成する。 次に,プライベート情報とユーティリティ情報に関するユーザの指定した嗜好に基づいて,潜在表現を摂動させる小さな生成フィルタを訓練する。 小型フィルタは、携帯電話やタブレットなどの分散デバイス上で起こり得る、GANタイプの堅牢な最適化を通じてトレーニングされる。 線形フィルタの特別な条件下では、生成的アプローチとrenyi差分プライバシーの関係を明らかにする。 我々はMNIST, UCI-Adult, CelebAなどの複数のデータセットで実験を行い, 潜伏埋め込みの幾何学を可視化し, 経験的相互情報を推定し, アプローチの有効性を示す。

Personal devices such as mobile phones can produce and store large amounts of data that can enhance machine learning models; however, this data may contain private information specific to the data owner that prevents the release of the data. We want to reduce the correlation between user-specific private information and the data while retaining the useful information. Rather than training a large model to achieve privatization from end to end, we first decouple the creation of a latent representation, and then privatize the data that allows user-specific privatization to occur in a setting with limited computation and minimal disturbance on the utility of the data. We leverage a Variational Autoencoder (VAE) to create a compact latent representation of the data that remains fixed for all devices and all possible private labels. We then train a small generative filter to perturb the latent representation based on user specified preferences regarding the private and utility information. The small filter is trained via a GAN-type robust optimization that can take place on a distributed device such as a phone or tablet. Under special conditions of our linear filter, we disclose the connections between our generative approach and renyi differential privacy. We conduct experiments on multiple datasets including MNIST, UCI-Adult, and CelebA, and give a thorough evaluation including visualizing the geometry of the latent embeddings and estimating the empirical mutual information to show the effectiveness of our approach.
翻訳日:2021-05-25 03:44:25 公開日:2020-12-02
# アーティファクトメタデータと関連するタイムラインイベントからの自動アーティファクト関連判定

Automated Artefact Relevancy Determination from Artefact Metadata and Associated Timeline Events ( http://arxiv.org/abs/2012.01972v1 )

ライセンス: Link先を確認
Xiaoyu Du, Quan Le and Mark Scanlon(参考訳) ケースハンダーで、多年にわたるデジタル法医学的証拠バックログは、世界中の法執行機関で一般的になっている。 これは、デジタル法医学的な調査と、事件ごとに処理されるデータの量の増加を必要とするケースがますます増えているためである。 以前に処理されたデジタル法医学事件とそれらの構成要素のアーティファクト関連分類を活用することで、自動化された人工知能ベースの証拠処理システムを訓練する機会が促進される。 これらは、証拠の発見と優先化において、調査員を著しく助けることができる。 本稿では,dfaas (centralized digital forensics as a service) パラダイムへの移行傾向に基づく,ファイルアーティファクト関連判定のための1つのアプローチを提案する。 このアプローチは、以前に遭遇した関連するファイルを使用して、新しく発見されたファイルを調査で分類することを可能にする。 トレーニングされたモデルは、取得段階、すなわちDFaaSシステムへのアップロード中のこれらのファイルの検出を支援することができる。 この技術は、各アーティファクトのファイルシステムメタデータと関連するタイムラインイベントを使用して、ファイル類似性に関する関連スコアを生成する。 提案するアプローチは、3つの実験的な利用シナリオに対して検証される。

Case-hindering, multi-year digital forensic evidence backlogs have become commonplace in law enforcement agencies throughout the world. This is due to an ever-growing number of cases requiring digital forensic investigation coupled with the growing volume of data to be processed per case. Leveraging previously processed digital forensic cases and their component artefact relevancy classifications can facilitate an opportunity for training automated artificial intelligence based evidence processing systems. These can significantly aid investigators in the discovery and prioritisation of evidence. This paper presents one approach for file artefact relevancy determination building on the growing trend towards a centralised, Digital Forensics as a Service (DFaaS) paradigm. This approach enables the use of previously encountered pertinent files to classify newly discovered files in an investigation. Trained models can aid in the detection of these files during the acquisition stage, i.e., during their upload to a DFaaS system. The technique generates a relevancy score for file similarity using each artefact's filesystem metadata and associated timeline events. The approach presented is validated against three experimental usage scenarios.
翻訳日:2021-05-25 03:43:56 公開日:2020-12-02
# AMIネットメータシステムにおける偽読解攻撃の検出

Detection of False-Reading Attacks in the AMI Net-Metering System ( http://arxiv.org/abs/2012.01983v1 )

ライセンス: Link先を確認
Mahmoud M. Badr, Mohamed I. Ibrahem, Mohamed Mahmoud, Mostafa M. Fouda, Waleed Alasmary(参考訳) スマートグリッドでは、悪意のある顧客がスマートメーター(SM)を妥協して不正な読み取りを報告し、金銭的利益を違法に達成することができる。 誤った読み出しを報告することは、ユーティリティーに大きな財政的損失をもたらすだけでなく、報告された読み出しがエネルギー管理に使用されるため、グリッドのパフォーマンスを低下させる可能性がある。 本論文は,1つのSMを用いて消費電力と発電電力の差を報告するネットワーク計測システムにおいて,この問題を調査する最初の研究である。 まず、実消費電力と生成データセットを処理し、ネットメータシステムのための良性データセットを作成する。 そこで我々は,ネットワーク計測システム向けに,悪意のあるデータセットを作成するための新たな攻撃セットを提案する。 その後,データを分析し,日射量や温度などの信頼できる情報源から得られたデータと,ネットメータの読みと読みとの間の時間的相関関係を見出した。 データ解析に基づいて、偽読み攻撃を識別する汎用マルチデータソース深層学習ベース検出器を提案する。 当社の検出器は,信頼度の高い情報源からのデータに加えて,全顧客のネットメータによる読み出しを訓練し,それらの相関関係を学習することで検出性能を向上させる。 ここでの根拠は、攻撃者は誤読を報告できるが、太陽の照度や温度は制御不能であるため操作できないことである。 広範な実験が行われており, 検出精度が高く, 誤読アラームが低く, 誤読アラームが検出可能であることが示唆された。

In smart grid, malicious customers may compromise their smart meters (SMs) to report false readings to achieve financial gains illegally. Reporting false readings not only causes hefty financial losses to the utility but may also degrade the grid performance because the reported readings are used for energy management. This paper is the first work that investigates this problem in the net-metering system, in which one SM is used to report the difference between the power consumed and the power generated. First, we prepare a benign dataset for the net-metering system by processing a real power consumption and generation dataset. Then, we propose a new set of attacks tailored for the net-metering system to create malicious dataset. After that, we analyze the data and we found time correlations between the net meter readings and correlations between the readings and relevant data obtained from trustworthy sources such as the solar irradiance and temperature. Based on the data analysis, we propose a general multi-data-source deep hybrid learning-based detector to identify the false-reading attacks. Our detector is trained on net meter readings of all customers besides data from the trustworthy sources to enhance the detector performance by learning the correlations between them. The rationale here is that although an attacker can report false readings, he cannot manipulate the solar irradiance and temperature values because they are beyond his control. Extensive experiments have been conducted, and the results indicate that our detector can identify the false-reading attacks with high detection rate and low false alarm.
翻訳日:2021-05-25 03:43:27 公開日:2020-12-02
# FAST: サービス容量制約を考慮したフェアネス保証サービス推奨戦略

FAST: A Fairness Assured Service Recommendation Strategy Considering Service Capacity Constraint ( http://arxiv.org/abs/2012.02292v1 )

ライセンス: Link先を確認
Yao Wu, Jian Cao, Guandong Xu(参考訳) 過剰な数の顧客がサービス品質の低下につながることが多い。 しかし、サービスのキャパシティ制約はレコメンデーションシステムによって無視されるため、不十分なレコメンデーションにつながる可能性がある。 この問題は、サービスのレコメンデーションを受けるユーザ数を制限することで解決できるが、これは不公平と見なすこともできる。 本稿では,容量制約のあるサービスに対するマルチラウンドレコメンデーションの個々人の公正度を測定するための,新しい尺度Top-N Fairnessを提案する。 ユーザーがレコメンデーションでトップランクのアイテムにしか影響されないという事実を考慮すると、トップNフェアネスはトップNサービスからなるサブリストのみを考える。 この基準に基づいて、フェアネス保証サービス推奨戦略であるFASTを設計する。 FASTはオリジナルのレコメンデーションリストを調整し、マルチラウンドレコメンデーションの長期的な公正性を保証するレコメンデーション結果を提供する。 FASTのTop-Nフェアネスの分散の収束特性を理論的に証明する。 FASTはYelpデータセットと合成データセットでテストされる。 実験の結果、fastは高い推奨品質を維持しながら、より良い推奨公平性を達成できることがわかった。

An excessive number of customers often leads to a degradation in service quality. However, the capacity constraints of services are ignored by recommender systems, which may lead to unsatisfactory recommendation. This problem can be solved by limiting the number of users who receive the recommendation for a service, but this may be viewed as unfair. In this paper, we propose a novel metric Top-N Fairness to measure the individual fairness of multi-round recommendations of services with capacity constraints. By considering the fact that users are often only affected by top-ranked items in a recommendation, Top-N Fairness only considers a sub-list consisting of top N services. Based on the metric, we design FAST, a Fairness Assured service recommendation STrategy. FAST adjusts the original recommendation list to provide users with recommendation results that guarantee the long-term fairness of multi-round recommendations. We prove the convergence property of the variance of Top-N Fairness of FAST theoretically. FAST is tested on the Yelp dataset and synthetic datasets. The experimental results show that FAST achieves better recommendation fairness while still maintaining high recommendation quality.
翻訳日:2021-05-25 03:42:38 公開日:2020-12-02
# 足歩行二足歩行ロボットの下降時のブラチストロンヒップ軌道の計画

Planning Brachistochrone Hip Trajectory for a Toe-Foot Bipedal Robot going Downstairs ( http://arxiv.org/abs/2012.02301v1 )

ライセンス: Link先を確認
Gaurav Bhardwaj, Utkarsh A. Mishra, N. Sukavanam and R. Balasubramanian(参考訳) つま先足の9リンク二足ロボットモデルに対して,新しい効率の良い下階軌道を提案する。 ブラヒストローネ(brachistochrone)は、重力の影響下でのみ動く粒子の最も速い降下軌道である。 ほとんどの状況では、下の階に登る間、人間の腰はより反応のよい動きのためにブラキストローネの軌道をたどる。 そこで, 適応軌道計画アルゴリズムを開発し, 異なるリンク長の2足歩行ロボットが, 様々な階段次元に上昇できるようにした。 二足歩行者の重心(cog)が腰にあると仮定する。 ゼロモーメントポイント(ZMP)に基づくCOG軌道が検討され、安定性が確保される。 サイクロイド軌道はスイング脚の足首に対して考慮される。 cycloid と brachistochrone のパラメータは階段の階段の寸法に依存する。 そこで本論文は, 1) ヒップ用ZMP系ブラキストロン軌道の開発, 2) 適切な衝突制約をとることで足首の周期的軌道計画, 3) 教師なし人工ニューラルネットワーク(ANN)を用いた逆運動学の解法(4) 提案した円弧と仮想傾斜型股関節の対比(4段階)に大別できる。 提案アルゴリズムはMATLABを用いて実装されている。

A novel efficient downstairs trajectory is proposed for a 9 link biped robot model with toe-foot. Brachistochrone is the fastest descent trajectory for a particle moving only under the influence of gravity. In most situations, while climbing downstairs, human hip also follow brachistochrone trajectory for a more responsive motion. Here, an adaptive trajectory planning algorithm is developed so that biped robots of varying link lengths, masses can climb down on varying staircase dimensions. We assume that the center of gravity (COG) of the biped concerned lies on the hip. Zero Moment Point (ZMP) based COG trajectory is considered and its stability is ensured. Cycloidal trajectory is considered for ankle of the swing leg. Parameters of both cycloid and brachistochrone depends on dimensions of staircase steps. Hence this paper can be broadly divided into 4 steps 1) Developing ZMP based brachistochrone trajectory for hip 2) Cycloidal trajectory planning for ankle by taking proper collision constraints 3) Solving Inverse kinematics using unsupervised artificial neural network (ANN) 4) Comparison between the proposed, a circular arc and a virtual slope based hip trajectory. The proposed algorithms have been implemented using MATLAB.
翻訳日:2021-05-25 03:42:19 公開日:2020-12-02
# 水文学のための物理誘導機械学習法

Physics Guided Machine Learning Methods for Hydrology ( http://arxiv.org/abs/2012.02854v1 )

ライセンス: Link先を確認
Ankush Khandelwal, Shaoming Xu, Xiang Li, Xiaowei Jia, Michael Stienbach, Christopher Duffy, John Nieber, Vipin Kumar(参考訳) ストリームフロー予測は、ストリームフロー生成の背後にある複数の非線形物理メカニズム間の複雑な相互作用により、水文学分野における重要な課題の1つである。 物理ベースのモデルは物理プロセスに対する深い理解に根ざしているが、機械学習の最近の進歩を活用することで潜在的に対処できる重要なパフォーマンスギャップは依然として残っている。 この研究の目的は、水文学における物理プロセスと制約の理解を機械学習アルゴリズムに組み込むことで、従来のデータ駆動アプローチと比較して大量のデータの必要性を減らしながら、パフォーマンスギャップを埋めることである。 特に,現在広く利用されている水文学モデルであるSWAT(Soil and Water Assessment Tool)と組み合わせたLSTMに基づくディープラーニングアーキテクチャを提案する。 このアプローチのキーとなる考え方は、物理的な洞察のないディープラーニングアーキテクチャが行うような気象変数からの流出を直接マッピングするのではなく、気象ドライバとストリームフローを接続する補助的な中間プロセスのモデル化である。 アプローチの有効性はミネソタ州南東部のルート川流域の南支流にあるいくつかの小さな流域で分析されている。 ランオフに関する観測データとは別に、SWATが生成した200年間の合成データセットを活用して、収束時間を短縮し、性能を向上させる。 この研究の初期段階では、物理と機械学習の結合に関するシステム理解を達成するために、より単純な物理ガイド付きディープラーニングアーキテクチャが使用されている。 より多くの複雑さが実装に導入されると、このフレームワークは、空間的異質性が存在するより洗練されたケースに一般化することができる。

Streamflow prediction is one of the key challenges in the field of hydrology due to the complex interplay between multiple non-linear physical mechanisms behind streamflow generation. While physically-based models are rooted in rich understanding of the physical processes, a significant performance gap still remains which can be potentially addressed by leveraging the recent advances in machine learning. The goal of this work is to incorporate our understanding of physical processes and constraints in hydrology into machine learning algorithms, and thus bridge the performance gap while reducing the need for large amounts of data compared to traditional data-driven approaches. In particular, we propose an LSTM based deep learning architecture that is coupled with SWAT (Soil and Water Assessment Tool), an hydrology model that is in wide use today. The key idea of the approach is to model auxiliary intermediate processes that connect weather drivers to streamflow, rather than directly mapping runoff from weather variables which is what a deep learning architecture without physical insight will do. The efficacy of the approach is being analyzed on several small catchments located in the South Branch of the Root River Watershed in southeast Minnesota. Apart from observation data on runoff, the approach also leverages a 200-year synthetic dataset generated by SWAT to improve the performance while reducing convergence time. In the early phases of this study, simpler versions of the physics guided deep learning architectures are being used to achieve a system understanding of the coupling of physics and machine learning. As more complexity is introduced into the present implementation, the framework will be able to generalize to more sophisticated cases where spatial heterogeneity is present.
翻訳日:2021-05-25 03:41:56 公開日:2020-12-02
# 金属-有機系における二酸化炭素吸着予測のための説明可能なメッセージパッシングネットワーク

Towards explainable message passing networks for predicting carbon dioxide adsorption in metal-organic frameworks ( http://arxiv.org/abs/2012.03723v1 )

ライセンス: Link先を確認
Ali Raza, Faaiq Waqar, Arni Sturluson, Cory Simon, Xiaoli Fern(参考訳) 金属-有機フレームワーク(metal-organic framework、mofs)は、化石燃料発電所の排出ガスから二酸化炭素を吸収して気候変動を緩和するナノ多孔質材料である。 本研究では,MOFのCO$2$吸着を予測するために,メッセージパッシングニューラルネットワーク(MPNN)の設計と訓練を行う。 予測にはMOFのサブ構造が重要であるかという知見を提供するため,グラフ表現に対するノード表現の寄与を定量化するためのソフトアテンション機構をリードアウト関数に導入する。 我々は,最も関連する部分構造のみを同定するために,注意をそらすための異なるメカニズムについて検討する。

Metal-organic framework (MOFs) are nanoporous materials that could be used to capture carbon dioxide from the exhaust gas of fossil fuel power plants to mitigate climate change. In this work, we design and train a message passing neural network (MPNN) to predict simulated CO$_2$ adsorption in MOFs. Towards providing insights into what substructures of the MOFs are important for the prediction, we introduce a soft attention mechanism into the readout function that quantifies the contributions of the node representations towards the graph representations. We investigate different mechanisms for sparse attention to ensure only the most relevant substructures are identified.
翻訳日:2021-05-25 03:41:33 公開日:2020-12-02
# デュアルエネルギーCTにおける高画質画像領域分解のための反復ニューラルネットワークの改良

An Improved Iterative Neural Network for High-Quality Image-Domain Material Decomposition in Dual-Energy CT ( http://arxiv.org/abs/2012.01986v1 )

ライセンス: Link先を確認
Zhipeng Li, Yong Long, Il Yong Chun(参考訳) Dual-Energy Computed Tomography (DECT) は材料分解を必要とする多くのアプリケーションで広く使われている。 高エネルギーおよび低エネルギーの減衰画像から直接物質像を分解する画像領域法は、減衰画像のノイズやアーティファクトの影響を受けやすい。 高品質な材料画像を得るため,様々なデータ駆動手法が提案されている。 反復ニューラルネットワーク(INN)は回帰NNとモデルベース画像再構成アルゴリズムを組み合わせた手法である。 innは奥行きnnの一般化誤差を低減し、様々な医用画像応用において高品質な再構成を達成した。 BCD-Netは、画像精製NNをブロック座標降下(BCD)モデルに基づく画像再構成アルゴリズムに組み込んだ最近のINNアーキテクチャである。 DECT 材料分解のための新しい INN アーキテクチャ, 異種クロスマテリアル BCD-Net を提案する。 提案した INN アーキテクチャは,画像再構成モジュールにおいて異なる材料間畳み込みニューラルネットワーク(CNN)を用い,画像再構成モジュールでは画像分解物理を用いる。 異なる材料間CNN精製器は、異なる材料間の相関をキャプチャする異なる符号化復号フィルタとクロスマテリアルモデルを含む。 我々は、パッチパースペクティブで異なる材料間CNN精製器を解釈する。 拡張心電図(XCAT)ファントムと臨床データを用いた数値実験により,異種クロスマテリアルBCD-Netは,エッジ保存正則化器を用いた従来型のモデルベース画像分解(MBID)法,事前学習した材料ワイドスペーシング変換を用いた最先端MBID法,非イテレーティブディープCNNデノイザなど,複数の画像領域の材料分解法よりも画像品質を著しく向上することが示された。

Dual-energy computed tomography (DECT) has been widely used in many applications that need material decomposition. Image-domain methods directly decompose material images from high- and low-energy attenuation images, and thus, are susceptible to noise and artifacts on attenuation images. To obtain high-quality material images, various data-driven methods have been proposed. Iterative neural network (INN) methods combine regression NNs and model-based image reconstruction algorithm. INNs reduced the generalization error of (noniterative) deep regression NNs, and achieved high-quality reconstruction in diverse medical imaging applications. BCD-Net is a recent INN architecture that incorporates imaging refining NNs into the block coordinate descent (BCD) model-based image reconstruction algorithm. We propose a new INN architecture, distinct cross-material BCD-Net, for DECT material decomposition. The proposed INN architecture uses distinct cross-material convolutional neural network (CNN) in image refining modules, and uses image decomposition physics in image reconstruction modules. The distinct cross-material CNN refiners incorporate distinct encoding-decoding filters and cross-material model that captures correlations between different materials. We interpret the distinct cross-material CNN refiner with patch perspective. Numerical experiments with extended cardiactorso (XCAT) phantom and clinical data show that proposed distinct cross-material BCD-Net significantly improves the image quality over several image-domain material decomposition methods, including a conventional model-based image decomposition (MBID) method using an edge-preserving regularizer, a state-of-the-art MBID method using pre-learned material-wise sparsifying transforms, and a noniterative deep CNN denoiser.
翻訳日:2021-05-25 03:41:11 公開日:2020-12-02
# マッチングの専門家を特徴づける学習

Learning to Characterize Matching Experts ( http://arxiv.org/abs/2012.01229v1 )

ライセンス: Link先を確認
Roee Shraga, Ofra Amir, Avigdor Gal(参考訳) マッチングはデータ統合プロセスの中心にあるタスクであり、データ要素間の対応を識別することを目的としています。 マッチング問題は伝統的に半自動で解決され、マッチングアルゴリズムと結果が人間の専門家によって検証された。 近年、ビッグデータの導入により、ループ内データ統合が課題視され、最近の研究では、効果的な人間のマッチングとバリデーションのための障害を分析している。 本研究では,提案する対応が有効であると確信できる人間を特徴付ける。 我々は,新しい特徴セットを伴って,信頼できる,価値のある人間専門家を識別することのできる,マッチング専門家を特徴付けるための新しいフレームワークを提供する。 本手法の有用性を広範な経験的評価を用いて実証する。 特に,未熟なマッチングをフィルタリングすることで,マッチング結果を改善することができることを示す。

Matching is a task at the heart of any data integration process, aimed at identifying correspondences among data elements. Matching problems were traditionally solved in a semi-automatic manner, with correspondences being generated by matching algorithms and outcomes subsequently validated by human experts. Human-in-the-loop data integration has been recently challenged by the introduction of big data and recent studies have analyzed obstacles to effective human matching and validation. In this work we characterize human matching experts, those humans whose proposed correspondences can mostly be trusted to be valid. We provide a novel framework for characterizing matching experts that, accompanied with a novel set of features, can be used to identify reliable and valuable human experts. We demonstrate the usefulness of our approach using an extensive empirical evaluation. In particular, we show that our approach can improve matching results by filtering out inexpert matchers.
翻訳日:2021-05-25 03:40:24 公開日:2020-12-02