このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200806となっている論文です。

PDF登録状況(公開日: 20200806)

TitleAuthorsAbstract論文公表日・翻訳日
# 相関量子状態の確率バックフロー

Probability backflow for correlated quantum states ( http://arxiv.org/abs/2002.03364v2 )

ライセンス: Link先を確認
Arseni Goussev(参考訳) 量子バックフロー (quantum backflow, qb) は、正のモーメントしか持たない平面波からなる自由粒子状態の負の確率移動としてそれ自体を表わす干渉効果である。 量子再突入(英: Quantum reentry、QR)は、最初の閉じ込めの空間領域から広がる波のパケットが外部の力がないときに部分的に領域に戻る干渉効果である。 ここで、qb と qr は、特定の位置-運動量相関を持つ量子状態に対するより一般的な古典的確率フローの特別な場合であることを示す。 さらに, ブラッケン・メルロイ定数(bracken-melloy constant)として知られるqb問題およびqr問題における対応する確率伝達において, ラン方向(古典的に不可能)で伝達される確率の量が最小上限を超える相関量子状態の構築が可能であることを実証する。

In its original formulation, quantum backflow (QB) is an interference effect that manifests itself as a negative probability transfer for free-particle states comprised of plane waves with only positive momenta. Quantum reentry (QR) is another interference effect in which a wave packet expanding from a spatial region of its initial confinement partially returns to the region in the absence of any external forces. Here we show that both QB and QR are special cases of a more general classically-forbidden probability flow for quantum states with certain position-momentum correlations. We further demonstrate that it is possible to construct correlated quantum states for which the amount of probability transferred in the "wrong" (classically impossible) direction exceeds the least upper bound on the corresponding probability transfer in the QB and QR problems, known as the Bracken-Melloy constant.
翻訳日:2023-06-04 03:47:59 公開日:2020-08-06
# ボソニックチャネルのカバー容量

Covert Capacity of Bosonic Channels ( http://arxiv.org/abs/2002.06733v3 )

ライセンス: Link先を確認
Christos N. Gagatsos, Michael S. Bullock and Boulat A. Bash(参考訳) 本研究では,多くの実用チャネルの量子力学モデルである損失型熱雑音型ボソニックチャネルの量子セキュア被覆通信能力について検討する。 l_{\text{no-ea}}$, alice と bob が古典的な秘密のみを共有している場合と, 絡み合いの助けを借りて $l_{\text{ea}}$ である。 絡み合い支援は隠蔽通信の基本的なスケーリング法則を変えることが判明した。 代わりに$L_{\text{no-EA}}\sqrt{n}-r_{\text{no-EA}}(n)$, $r_{\text{no-EA}}(n)=o(\sqrt{n})$, entanglement assistance allow $L_{\text{EA}}\sqrt{n}\log n-r_{\text{EA}}(n)$, $r_{\text{EA}}(n)=o(\sqrt{n}\log n)$, Covert bitsは$n$チャネルで確実に送信される。

We investigate the quantum-secure covert-communication capabilities of lossy thermal-noise bosonic channels, the quantum-mechanical model for many practical channels. We determine the expressions for the covert capacity of these channels: $L_{\text{no-EA}}$, when Alice and Bob share only a classical secret, and $L_{\text{EA}}$, when they benefit from entanglement assistance. We find that entanglement assistance alters the fundamental scaling law for covert communication. Instead of $L_{\text{no-EA}}\sqrt{n}-r_{\text{no-EA}}(n)$, $r_{\text{no-EA}}(n)=o(\sqrt{n})$, entanglement assistance allows $L_{\text{EA}}\sqrt{n}\log n-r_{\text{EA}}(n)$, $r_{\text{EA}}(n)=o(\sqrt{n}\log n)$, covert bits to be transmitted reliably over $n$ channel uses.
翻訳日:2023-06-03 11:21:12 公開日:2020-08-06
# qubit測定で実現可能な関節計測構造:辺縁手術による非互換性

Joint measurability structures realizable with qubit measurements: incompatibility via marginal surgery ( http://arxiv.org/abs/2003.00785v2 )

ライセンス: Link先を確認
Nikola Andrejic and Ravi Kunjwal(参考訳) 量子論における測定は非可逆性、すなわち共同で測定できない可能性がある。 一連の測定値の(in)互換関係を表す直感的な方法は、それらの合同測定可能性構造を表すハイパーグラフを通してである:その頂点は測定値を表し、そのハイパーエッジは対応する測定値の(すべてと唯一の)部分集合を表す。 量子論における射影測度は、グラフである(すべてと唯一の)関節測度構造を実現する。 一方、正の演算子値測定(POVM)で表される一般的な測定は任意の関節測定可能性構造を実現することができる。 ここでは、qubit POVMで実現可能な関節測定可能性構造の範囲について検討する。 そこで本研究では,非自明な関節測定構造を得るための限界手術と呼ぶ手法を開発した。 任意の整数$N\geq 3$に対する$N$-cycleや$N$-Speckerのシナリオのようなジョイント可測構造を構築するために、キュービットPOVMの特別な集合に縁的な手術の明確な例を示す。 また、$N\in\{4,5,6\}$ vertices を用いた様々な関節可測構造の実現可能性を示す。 特に、$N=4$の頂点を持つすべての関節可測構造が実現可能であることを示す。 すべての関節可測構造は、qubit POVMで実現可能であると推測する。 これは R. Kunjwal et al., Phys で必要とされる非有界次元とは対照的である。 A 89, 052126 (2014)。 この結果は、必要ヒルベルト空間次元の観点で、この前の構成を最大に効率的にする。 我々はまた、我々の結果の多くを駆動し、独立した関心を持つべきバイナリ量子ビット povm の集合のジョイント測定可能性に対して十分な条件を得る。

Measurements in quantum theory exhibit incompatibility, i.e., they can fail to be jointly measurable. An intuitive way to represent the (in)compatibility relations among a set of measurements is via a hypergraph representing their joint measurability structure: its vertices represent measurements and its hyperedges represent (all and only) subsets of compatible measurements. Projective measurements in quantum theory realize (all and only) joint measurability structures that are graphs. On the other hand, general measurements represented by positive operator-valued measures (POVMs) can realize arbitrary joint measurability structures. Here we explore the scope of joint measurability structures realizable with qubit POVMs. We develop a technique that we term marginal surgery to obtain nontrivial joint measurability structures starting from a set of compatible measurements. We show explicit examples of marginal surgery on a special set of qubit POVMs to construct joint measurability structures such as $N$-cycle and $N$-Specker scenarios for any integer $N\geq 3$. We also show the realizability of various joint measurability structures with $N\in\{4,5,6\}$ vertices. In particular, we show that all possible joint measurability structures with $N=4$ vertices are realizable. We conjecture that all joint measurability structures are realizable with qubit POVMs. This contrasts with the unbounded dimension required in R. Kunjwal et al., Phys. Rev. A 89, 052126 (2014). Our results also render this previous construction maximally efficient in terms of the required Hilbert space dimension. We also obtain a sufficient condition for the joint measurability of any set of binary qubit POVMs which powers many of our results and should be of independent interest.
翻訳日:2023-05-31 12:32:52 公開日:2020-08-06
# 相互作用する小系の還元密度行列のギブス状態への閉性

Closeness of the reduced density matrix of an interacting small system to the Gibbs state ( http://arxiv.org/abs/2003.09258v2 )

ライセンス: Link先を確認
Wen-ge Wang(参考訳) マイクロカノニカルアンサンブルによって記述された平衡状態にある場合, 一般の形で大きな量子環境に結合し, 汎用的な相互作用強度を持つ小型量子系の統計的記述について検討する。 この相互作用の場合の中央系の還元密度行列(RDM)と非結合の場合のRDMとの差に着目した。 中心系のハミルトニアンの固有ベイシスでは、対角要素間の差は、非結合基底における全系の固有関数の最大幅とマイクロカノニカルエネルギーシェルの幅との比に主に制限されていることが示され、一方、オフ対角要素間の差は、相互作用ハミルトニアンと関連する中心系のレベル間隔との比によって与えられる。 応用として、RDMが必ずしも弱くないシステム環境相互作用の下で正準ギブス形式を持つような十分な条件が与えられる。 多体量子カオス系と局所的に相互作用する中央系では、RDMは通常ギブス形式を持つ。 またエネルギーシェル内の全システムの典型的な状態から計算されるRDMについても検討する。

I study the statistical description of a small quantum system, which is coupled to a large quantum environment in a generic form and with a generic interaction strength, when the total system lies in an equilibrium state described by a microcanonical ensemble. The focus is on the difference between the reduced density matrix (RDM) of the central system in this interacting case and the RDM obtained in the uncoupled case. In the eigenbasis of the central system's Hamiltonian, it is shown that the difference between diagonal elements is mainly confined by the ratio of the maximum width of the eigenfunctions of the total system in the uncoupled basis to the width of the microcanonical energy shell; meanwhile, the difference between off-diagonal elements is given by the ratio of certain property of the interaction Hamiltonian to the related level spacing of the central system. As an application, a sufficient condition is given, under which the RDM may have a canonical Gibbs form under system-environment interactions that are not necessarily weak; this Gibbs state usually includes certain averaged effect of the interaction. For central systems that interact locally with many-body quantum chaotic systems, it is shown that the RDM usually has a Gibbs form. I also study the RDM which is computed from a typical state of the total system within an energy shell.
翻訳日:2023-05-28 17:41:47 公開日:2020-08-06
# スピンネマティック秩序のサインとしての2光子駆動マグノンペア共鳴

Two-photon driven magnon-pair resonance as a signature of spin-nematic order ( http://arxiv.org/abs/2003.11240v2 )

ライセンス: Link先を確認
Masahiro Sato, Yoshitaka Morisaku(参考訳) 非可視スピン・ネマティック秩序相近傍の完全偏極フラストレーション磁石において、強レーザーまたは電磁波によって駆動される非線形磁気共鳴を理論的に研究した。 一般に、マグノン対とマグノン対(2マグノン結合状態)はスピンネマティック磁石の飽和状態における低エネルギー励起として現れる。 励起エネルギーは通常テラヘルツ(thz)またはギガヘルツの範囲にある。 角運動量 2$hbar$ のマグノン対は、2つの光子の同時吸収によって励起され、適用されたthzレーザーが十分に強い場合、そのような多重光子過程が起こる。 我々は、マグノン($\hbar$)とマグノンペア(2$\hbar$)の両方を持つフラストレーション4スピン系のレーザー駆動磁気力学を、スピンネマティック相のマクロフラストレーション磁石に類似した励起のように計算する。 我々は、リンドブラッド方程式による散逸効果を考慮して、2光子吸収の実現に必要なレーザー磁場の強度を推定する。 0.1-1.0 Teslaの交流磁場の強いTHzレーザーは、マグノンペア共鳴を観測するのに十分であることを示す。

We theoretically study the nonlinear magnetic resonance driven by intense laser or electromagnetic wave in a fully polarized frustrated magnet near a less-visible spin-nematic ordered phase. In general, both magnons and magnon pairs (two-magnon bound state) appear as the low-energy excitation in the saturated state of spin-nematic magnets. Their excitation energies are usually in terahertz (THz) or gigahertz range. Magnon pairs with angular momentum 2$\hbar$ can be excited by the simultaneous absorption of two photons, and such multi-photon processes occur if the applied THz laser is strong enough. We compute laser-driven magnetic dynamics of a frustrated four-spin system with both magnon ($\hbar$) and magnon-pair (2$\hbar$) like excitations which is analogous to a macroscopic frustrated magnet with a spin nematic phase. We estimate the required strength of magnetic field of laser for the realization of two photon absorption, taking into account dissipation effects with the Lindblad equation. We show that intense THz laser with ac magnetic field of 0.1-1.0 Tesla is enough to observe magnon-pair resonance.
翻訳日:2023-05-27 22:55:44 公開日:2020-08-06
# WhatsAppは誤情報を減らすためにデバウンドされた偽ニュースから恩恵を受けるか?

Can WhatsApp Benefit from Debunked Fact-Checked Stories to Reduce Misinformation? ( http://arxiv.org/abs/2006.02471v2 )

ライセンス: Link先を確認
Julio C. S. Reis, Philipe de Freitas Melo, Kiran Garimella, Fabr\'icio Benevenuto(参考訳) WhatsAppはブラジルとインドの選挙で偽情報やプロパガンダを広めるために広く使われたと言われている。 WhatsApp上のメッセージはプライベートに暗号化されているため、大規模な誤報の拡散を追跡することは困難である。 この研究では、whatsappの公開データを使って、偽情報がwhatsappの公開グループで広く共有されていることを観察している。 これはブラジルとインドの両方で分析されたグループにおいて、誤報のかなりの部分を占めている。 WhatsAppがすでに事実確認済みのコンテンツにフラグを付ける手段があれば、そのような誤報コンテンツは防げると仮定する。 この目的のために、whatsappがこのような誤った情報に対抗するために実装できるアーキテクチャを提案する。 本提案は,whatsappにおけるエンド・ツー・エンドの暗号化アーキテクチャを尊重し,ユーザのプライバシを保護しつつ,ファクトチェックによって得られる誤情報を検出する手法を提供する。

WhatsApp was alleged to be widely used to spread misinformation and propaganda during elections in Brazil and India. Due to the private encrypted nature of the messages on WhatsApp, it is hard to track the dissemination of misinformation at scale. In this work, using public WhatsApp data, we observe that misinformation has been largely shared on WhatsApp public groups even after they were already fact-checked by popular fact-checking agencies. This represents a significant portion of misinformation spread in both Brazil and India in the groups analyzed. We posit that such misinformation content could be prevented if WhatsApp had a means to flag already fact-checked content. To this end, we propose an architecture that could be implemented by WhatsApp to counter such misinformation. Our proposal respects the current end-to-end encryption architecture on WhatsApp, thus protecting users' privacy while providing an approach to detect the misinformation that benefits from fact-checking efforts.
翻訳日:2023-05-17 06:33:48 公開日:2020-08-06
# パラメータチューニングと位相補償による論理量子ビットの性能向上

Improving performance of logical qubits by parameter tuning and topology compensation ( http://arxiv.org/abs/2006.04913v2 )

ライセンス: Link先を確認
Jack Raymond and Ndiam\'e Ndiaye and Gautam Rayaprolu and Andrew King(参考訳) 任意のペアワイズイジングモデルの最適化またはサンプリングは、制約付き相互作用トポロジーの量子アニーリングプロトコルにおいて、マイナー埋め込み手順によって有効にすることができる。 興味のある論理問題は物理(デバイスプログラマブル)問題に変換され、1つのバイナリ変数は複数の物理キュービットからなる論理キュービットによって表現される。 本稿では,D-Wave 2000Q量子コンピュータ上での斜め,斜め,立方格子問題に対するこの変換のチューニングについて論じる。 スピングラスとチャネル通信の問題においてパラメータチューニングプロトコルを示し,アニーナル持続時間,チェーン強度,物理キュービットから論理空間へのマッピングに着目した。 マイナーエンベディングに起因する効果的な結合強度の不均一性は、論理キュービットトポロジーを考慮したプログラム結合の効率的な再重み付けによって緩和される。

Optimization or sampling of arbitrary pairwise Ising models, in a quantum annealing protocol of constrained interaction topology, can be enabled by a minor-embedding procedure. The logical problem of interest is transformed to a physical (device programmable) problem, where one binary variable is represented by a logical qubit consisting of multiple physical qubits. In this paper we discuss tuning of this transformation for the cases of clique, biclique, and cubic lattice problems on the D-Wave 2000Q quantum computer. We demonstrate parameter tuning protocols in spin glasses and channel communication problems, focusing on anneal duration, chain strength, and mapping from the result on physical qubits back to the logical space. Inhomogeneities in effective coupling strength arising from minor-embedding are shown to be mitigated by an efficient reweighting of programmed couplings, accounting for logical qubit topology.
翻訳日:2023-05-16 06:49:45 公開日:2020-08-06
# $\cal PT$-symmetric Complex Potential からの Spin-$\frac{1}{2}$ Particles の散乱

Scattering of Spin-$\frac{1}{2}$ Particles from a $\cal PT$-symmetric Complex Potential ( http://arxiv.org/abs/2008.02506v1 )

ライセンス: Link先を確認
Ege \"Ozg\"un, Tu\u{g}rul Hakio\u{g}lu, Ekmel \"Ozbay(参考訳) 本稿では,スピン非依存パリティ時間(\cal PT$)対称複素ポテンシャルからのスピン=$\frac{1}{2}$粒子の散乱について検討し,この系におけるブロードバンドエネルギースペクトルに対する$\cal PT$-symmetricおよび$\cal PT$-broken相の共存性を理論的に初めて示す。 また、エネルギーのチューニングによってアクセス可能な異方性伝達共鳴の存在も示す。 我々の結果は、スピントロニクス、半導体デバイス、およびトポロジカルな表面状態のより良い理解に期待できる。

In this letter, we study the scattering of spin-$\frac{1}{2}$ particles from a spin-independent parity time ($\cal PT$)-symmetric complex potential, and for the first time, theoretically demonstrate the coexistence of $\cal PT$-symmetric and $\cal PT$-broken phases for broadband energy spectra in this system. We also show the existence of anisotropic transmission resonances, accessible through the tuning of energy. Our results are promising for applications in spintronics, semiconductor-based devices, and a better understanding of the topological surface states.
翻訳日:2023-05-07 00:20:16 公開日:2020-08-06
# 複合マクロスコピックバイナリシステムにおける非古典的特徴の解析

Analysis of nonclasscial features in a coupled macroscopic binary system ( http://arxiv.org/abs/2008.02472v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 反相関やフォトニック・ド・ブロイ波(pbws)のような量子力学の非古典現象は、古典系を構成する直交基底間の特定の位相関係を持つコヒーレンス光学の特別な場合として近年理解されている。 このような非古典的特徴のマクロな理解は、二重結合マッハ・ツェンダー干渉計(mzi)におけるpbwsのコヒーレンスバージョンについても実験的に確認されている。 ここでは,古典システムの二元系のテンソル積を用いて,非古典的特徴の一般理解を得るために,マルチカップリングMZIシステムを解析,議論する。 この分析は、1つの光子または1つの粒子の顕微鏡の世界に限られる量子性や非古典性に関する根本的な疑問を提起するべきである。

Nonclassical phenomena of quantum mechanics such as anticorrelation and photonic de Broglie waves (PBWs) have been recently understood as a special case of coherence optics with a particular phase relation between orthogonal bases composing a classical system. Such a macroscopic understanding of nonclassical features has also been confirmed experimentally for a coherence version of PBWs in a doubly-coupled Mach-Zehnder interferometer (MZI). Here, a multi-coupled MZI system is analyzed and discussed to obtain a general understanding of the nonclassical feature using tensor products of binary bases of a classical system. This analysis should intrigue a fundamental question of quantumness or nonclassicality limited to a microscopic world of a single photon or a single particle.
翻訳日:2023-05-07 00:20:00 公開日:2020-08-06
# 局所緩和における階層的再帰

The hierarchy recurrences in local relaxation ( http://arxiv.org/abs/2008.02458v1 )

ライセンス: Link先を確認
Sheng-Wen Li, C. P. Sun(参考訳) 単体進化を行う閉じた多体系の中では、システム全体の小さな分割が局所的な緩和を示す。 系全体の自由度が大きいが有限であれば、そのような局所緩和は一定時間後に繰り返される、すなわち、整列した振動崩壊過程の後に、局所系のダイナミクスが突然ランダムに現れる。 n$2-レベルシステム(tlss)のコレクションでは、1つのtlsの局所的な緩和は、そのような再帰後にランダムに隠れている階層構造を持つ: 同様の再発は周期的に出現し、後続の再発は前回よりも強いランダム性をもたらす。 局所TLSの集団は(オープンシステムとして)拡散し、風呂の有限サイズ効果(残りの$(N-1)$TLSs)により周期的に後退する。 また,すべての$N$TLSのエントロピーを合計する総相関エントロピーは,ほぼ単調な増加を示し,対照的に,個々のTLSのエントロピーは時間とともに増加・減少し,N$ボディ系全体のエントロピーは単調な進化の間に一定であることがわかった。

Inside a closed many-body system undergoing the unitary evolution, a small partition of the whole system exhibits a local relaxation. If the total degrees of freedom of the whole system is a large but finite number, such a local relaxation would come across a recurrence after a certain time, namely, the dynamics of the local system suddenly appear random after a well-ordered oscillatory decay process. It is found in this paper, for a collection of $N$ two-level systems (TLSs), the local relaxation of one TLS within has a hierarchy structure hiding in the randomness after such a recurrence: similar recurrences appear in a periodical way, and the later recurrence brings in stronger randomness than the previous one. Both analytical and numerical results that we obtained well explains such hierarchy recurrences: the population of the local TLS (as an open system) diffuses out and regathers back periodically due the finite-size effect of the bath [the remaining $(N-1)$ TLSs]. We also find that the total correlation entropy, which sums up the entropy of all the $N$ TLSs, approximately exhibit a monotonic increase; in contrast, the entropy of each single TLS increases and decreases from time to time, and the entropy of the whole $N$-body system keeps constant during the unitary evolution.
翻訳日:2023-05-07 00:19:32 公開日:2020-08-06
# 回折格子を通過する原子の光イオン化

Photo ionization of an atom passed through a diffraction grating ( http://arxiv.org/abs/2008.02453v1 )

ライセンス: Link先を確認
S. F. Zhang, B. Najjari, X. Ma and A. B. Voitkiv(参考訳) 回折格子を通過した原子の光イオン化を,最大値と最小値とを交互に交互に交互に有する周期的空間構造を有する多地点で行う。 この過程は「通常の」原子の光イオン化と定性的に異なることが判明した。 特に、この過程における放出電子と反動イオンのスペクトルは、1粒子および2粒子の干渉効果を示す。 さらに、これらの粒子の運動量分布には顕著な違いがあり、もはや互いにミラーリングしない。 これらの特徴の原点を詳細に論じる。 また、原子の多部位状態にコード化されている回折格子に関する情報は、リコイルイオンのスペクトルを探索することによって完全に復号化できることが示され、光電子スペクトルはこの情報を部分的にしか含まない。

We consider photo ionization of an atom which, due to passing through a diffraction grating, is prepared in a multi-site state possessing a periodic space structure with alternating maxima and minima. It has been found that this process qualitatively differs from photo ionization of a 'normal' atom. In particular, the spectra of emitted electrons and recoil ions in this process display clear one- and two-particle interference effects. Moreover, there are also striking differences between the momentum distributions of these particles, which no longer mirror each other. The origin of all these features is discussed in detail. It is also shown that the information about the diffraction grating, which is encoded in the multi-site state of the atom, can be fully decoded by exploring the spectra of recoil ions whereas the photo-electron spectra contain this information only partially.
翻訳日:2023-05-07 00:19:05 公開日:2020-08-06
# 超伝導人工原子の電子シェルビング

Electron shelving of a superconducting artificial atom ( http://arxiv.org/abs/2008.02423v1 )

ライセンス: Link先を確認
Nathana\"el Cottet, Haonan Xiong, Long B. Nguyen, Yen-Hsiang Lin, Vladimir E. Manucharyan(参考訳) 光子を伝播させた対面定常量子ビットは、量子技術における根本的な問題である。 キャビティ量子電磁力学(CQED)は、超伝導回路(cQED)への適応が著しく実りがあることを証明した、遠方修正キャビティモードの形で、メディエータ自由度を誘導する。 空洞はどちらもクビット放出を遮断し、クビット状態の分散読み出しを可能にする。 しかし、より直接的な(キャビティのない)界面は原子時計で可能であり、軌道サイクリング遷移は超微細または四重極量子ビット遷移の状態に応じて光子を散乱させることができる。 もともとは「電子シェルビング」と呼ばれ、そのような条件付き蛍光現象は、閉じ込められたイオン、固体欠陥、半導体量子ドットを含む多くの量子情報プラットフォームの基礎である。 ここでは、シェルビングアイデアを回路原子に適用し、一致した1次元導波路の内部に置かれたフラックスニウム量子ビットの条件付き蛍光読み出しを示す。 基底状態と3番目の励起状態の間の非計算的遷移をサイクリングすると、クビット基底状態の91 nsごとにマイクロ波光子を生成し、クビットコヒーレンス時間は50 usを超える。 読み出しには量子非分解性が組み込まれており、100以上の蛍光サイクルを4レベル光ポンピングモデルと一致させることができる。 この結果から,cQEDに代わる資源効率の代替案が提案される。 また、成長する導波路QEDのツールボックスに最先端の量子メモリを追加する。

Interfacing stationary qubits with propagating photons is a fundamental problem in quantum technology. Cavity quantum electrodynamics (CQED) invokes a mediator degree of freedom in the form of a far-detuned cavity mode, the adaptation of which to superconducting circuits (cQED) proved remarkably fruitful. The cavity both blocks the qubit emission and it enables a dispersive readout of the qubit state. Yet, a more direct (cavityless) interface is possible with atomic clocks, in which an orbital cycling transition can scatter photons depending on the state of a hyperfine or quadrupole qubit transition. Originally termed "electron shelving", such a conditional fluorescence phenomenon is the cornerstone of many quantum information platforms, including trapped ions, solid state defects, and semiconductor quantum dots. Here we apply the shelving idea to circuit atoms and demonstrate a conditional fluorescence readout of fluxonium qubit placed inside a matched one-dimensional waveguide. Cycling the non-computational transition between ground and third excited states produces a microwave photon every 91 ns conditioned on the qubit ground state, while the qubit coherence time exceeds 50 us. The readout has a built-in quantum non-demolition property, allowing over 100 fluorescence cycles in agreement with a four-level optical pumping model. Our result introduces a resource-efficient alternative to cQED. It also adds a state-of-the-art quantum memory to the growing toolbox of waveguide QED.
翻訳日:2023-05-07 00:18:30 公開日:2020-08-06
# 新型コロナウイルスが公共交通機関のアクセシビリティとライダーシップに及ぼす影響

Impact of COVID-19 on Public Transit Accessibility and Ridership ( http://arxiv.org/abs/2008.02413v1 )

ライセンス: Link先を確認
Michael Wilbur and Afiya Ayman and Anna Ouyang and Vincent Poon and Riyan Kabir and Abhiram Vadali and Philip Pugliese and Daniel Freudberg and Aron Laszka and Abhishek Dubey(参考訳) 公共交通は平等なコミュニティの育成の中心である。 一方、新型コロナウイルス(COVID-19)と関連する社会制限は、都市部での乗客行動を大きく変えた。 おそらく、新型コロナウイルス(covid-19)パンデミックの最も関心のある側面は、低所得層と歴史的に辺境化したグループが経済シフトの影響を受けやすいだけでなく、公共交通機関にも最も依存していることだ。 収入が減少するにつれて、交通機関はますます敵対的な経済環境の中で適切な公共交通サービスを提供することを任務としている。 交通機関には2つの主要な関心事がある。 まず、新型コロナウイルス(covid-19)はライダーシップにどのように影響し、新しいポストコビッド・ノーマルとは何か? 第二に、ライダーシップは時空間と社会経済的グループの間でどのように変化したか? 本研究は、公共交通機関におけるCOVID-19の影響をデータ駆動分析し、乗客の変化の時間的変化を特定する。 次に,利用者減少の空間分布を地域経済データと組み合わせ,社会経済集団間の変動を識別する。 ナッシュビルとtnのチャタヌーガでは、固定路線バスの乗車率は2019年のベースラインから66.9%、65.1%減少し、48.4%、42.8%減少した。 最大の減少は朝と夕方の通勤時間であった。 さらに、ナッシュビルの最も所得の高い地域と最も所得の低い地域(77%対58%)の間で、乗客数が大幅に減少した。

Public transit is central to cultivating equitable communities. Meanwhile, the novel coronavirus disease COVID-19 and associated social restrictions has radically transformed ridership behavior in urban areas. Perhaps the most concerning aspect of the COVID-19 pandemic is that low-income and historically marginalized groups are not only the most susceptible to economic shifts but are also most reliant on public transportation. As revenue decreases, transit agencies are tasked with providing adequate public transportation services in an increasingly hostile economic environment. Transit agencies therefore have two primary concerns. First, how has COVID-19 impacted ridership and what is the new post-COVID normal? Second, how has ridership varied spatio-temporally and between socio-economic groups? In this work we provide a data-driven analysis of COVID-19's affect on public transit operations and identify temporal variation in ridership change. We then combine spatial distributions of ridership decline with local economic data to identify variation between socio-economic groups. We find that in Nashville and Chattanooga, TN, fixed-line bus ridership dropped by 66.9% and 65.1% from 2019 baselines before stabilizing at 48.4% and 42.8% declines respectively. The largest declines were during morning and evening commute time. Additionally, there was a significant difference in ridership decline between the highest-income areas and lowest-income areas (77% vs 58%) in Nashville.
翻訳日:2023-05-07 00:18:03 公開日:2020-08-06
# 次世代医療のための知的非侵襲的リアルタイム人間活動認識システム

An Intelligent Non-Invasive Real Time Human Activity Recognition System for Next-Generation Healthcare ( http://arxiv.org/abs/2008.02567v1 )

ライセンス: Link先を確認
William Taylor, Syed Aziz Shah, Kia Dashtipour, Adnan Zahid, Qammer H. Abbasi and Muhammad Ali Imran(参考訳) 人工知能(AI)による医療システム分野では、人間の動き検出が注目されている。 人間の動きは、転倒、歩行、呼吸障害などの特定の動きを特定することで、脆弱な人々のための遠隔医療ソリューションを提供するために使用できる。 これにより、より独立したライフスタイルを生きられるようになり、もっと直接的なケアが必要ならば、監視される安全も確保できる。 現在、ウェアラブルデバイスは、人の体に機器を配置することで、リアルタイムの監視を提供することができる。 しかし、常に身体に装置を装着することは不快であり、高齢者は常に追跡されることの不安に加えて、身に着けることを忘れがちである。 本稿では,非侵襲的手法を用いて人間の動きを準リアルタイムシナリオで検出する方法を示す。 無線信号のパターンは、各動きが無線媒体に固有の変化をもたらすときに、特定の人体の動きを示す。 これらの変化は、特定の身体の動きを特定するために使用できる。 本研究は、ソフトウェア定義無線(SDR)を用いて得られた電波信号のパターンを含むデータセットを作成し、被験者が立ち上がっているかテストケースとして座っているかを確認する。 データセットは機械学習モデルの作成に使用され、これは開発アプリケーションで、立位状態または立位状態の準リアルタイム分類を提供するために使用された。 機械学習モデルは、10フォールドクロス検証を用いたランダムフォレストアルゴリズムを用いて96.70%の精度を達成した。 ウェアラブルデバイスのベンチマークデータセットを,提案するデータセットと比較し,提案するデータセットの精度が90%に近いことを示した。 本研究で開発された機械学習モデルは2つの活動に対してテストされるが,x個の活動数の検出と識別に応用できる。

Human motion detection is getting considerable attention in the field of Artificial Intelligence (AI) driven healthcare systems. Human motion can be used to provide remote healthcare solutions for vulnerable people by identifying particular movements such as falls, gait and breathing disorders. This can allow people to live more independent lifestyles and still have the safety of being monitored if more direct care is needed. At present wearable devices can provide real time monitoring by deploying equipment on a person's body. However, putting devices on a person's body all the time make it uncomfortable and the elderly tends to forget it to wear as well in addition to the insecurity of being tracked all the time. This paper demonstrates how human motions can be detected in quasi-real-time scenario using a non-invasive method. Patterns in the wireless signals presents particular human body motions as each movement induces a unique change in the wireless medium. These changes can be used to identify particular body motions. This work produces a dataset that contains patterns of radio wave signals obtained using software defined radios (SDRs) to establish if a subject is standing up or sitting down as a test case. The dataset was used to create a machine learning model, which was used in a developed application to provide a quasi-real-time classification of standing or sitting state. The machine learning model was able to achieve 96.70 % accuracy using the Random Forest algorithm using 10 fold cross validation. A benchmark dataset of wearable devices was compared to the proposed dataset and results showed the proposed dataset to have similar accuracy of nearly 90 %. The machine learning models developed in this paper are tested for two activities but the developed system is designed and applicable for detecting and differentiating x number of activities.
翻訳日:2023-05-07 00:09:22 公開日:2020-08-06
# 低温冷却マイクロメカニカル膜上のスクイーズ光干渉法

Squeezed-light interferometry on a cryogenically-cooled micro-mechanical membrane ( http://arxiv.org/abs/2008.02560v1 )

ライセンス: Link先を確認
Lisa Kleybolte, Pascal Gewecke, Andreas Sawadsky, Mikhail Korobko and Roman Schnabel(参考訳) 光のスクイーズ状態は、光量を増加させることなく測定の信号正規化光子カウントノイズを低減し、光と物質のハイブリッド系における量子絡み合いの基礎研究を可能にする。 さらに, 低温冷却による圧縮状態の完成は高い可能性が示唆された。 まず、測定感度は通常、量子ノイズと熱雑音によって制限される。 第2に、スクイーズ状態は、測定精度を損なうことなく冷却装置の熱負荷を低減することができる。 ここでは,凍結冷却したマイクロメカニカル膜を絞った位置センシングを行う。 センシング精度は、光子カウントノイズの下4.8dBまで向上し、2つのファラデー回転子における光学的損失により制限され、約20Kの膜温度で、冷却器によって制限される。 低温ミッチェルソン干渉計における高い干渉コントラストの実現が可能であることを示す。 我々の装置は、欧州の重力波検出器「アインシュタイン望遠鏡」に対する最初の概念実証であり、光の圧縮状態と、そのミラー試験質量の低温冷却を利用する計画である。

Squeezed states of light reduce the signal-normalized photon counting noise of measurements without increasing the light power and enable fundamental research on quantum entanglement in hybrid systems of light and matter. Furthermore, the completion of squeezed states with cryo-cooling has high potential. First, measurement sensitivities are usually limited by quantum noise and thermal noise. Second, squeezed states allow for reducing the heat load on cooled devices without losing measurement precision. Here, we demonstrate squeezed-light position sensing of a cryo-cooled micro-mechanical membrane. The sensing precision is improved by up to 4.8 dB below photon counting noise, limited by optical loss in two Faraday rotators, at a membrane temperature of about 20K, limited by our cryo-cooler. We prove that realising a high interference contrast in a cryogenic Michelson interferometer is feasible. Our setup is the first conceptual demonstration towards the envisioned European gravitational-wave detector, the 'Einstein Telescope', which is planned to use squeezed states of light together with cryo-cooling of its mirror test masses.
翻訳日:2023-05-07 00:08:22 公開日:2020-08-06
# 開量子系における対称性の破れと誤差補正

Symmetry breaking and error correction in open quantum systems ( http://arxiv.org/abs/2008.02816v1 )

ライセンス: Link先を確認
Simon Lieu, Ron Belyansky, Jeremy T. Young, Rex Lundgren, Victor V. Albert, Alexey V. Gorshkov(参考訳) 対称性を破る遷移は、量子光学、凝縮物質、高エネルギー物理学における閉じた量子系のよく理解された現象である。 しかし、開放系における対称性の破断は、部分的にはそのような系が持つよりリッチな定常および対称性構造のため、あまり理解されていない。 原典型的開系 - リンドブラディアン- に対して、ユニタリ対称性は「弱」あるいは「強」な方法で課すことができる。 両ケースで可能な$\mathbb{z}_n$対称性の破れ遷移を特徴付ける。 しかし、$\mathbb{z}_2$の場合、弱い対称性ブロッケン位相は古典ビット定常構造を保証し、強い対称性ブロッケン位相は部分的に保護された定常量子ビットを許容する。 強対称性の破れのレンズを通して光子猫の量子ビットを見ることにより、ギャップ保存された強対称誤差の後に論理的情報を動的に復元する方法を示す。 本研究は, 駆動散逸相転移と誤差補正の関連性を示す。

Symmetry-breaking transitions are a well-understood phenomenon of closed quantum systems in quantum optics, condensed matter, and high energy physics. However, symmetry breaking in open systems is less thoroughly understood, in part due to the richer steady-state and symmetry structure that such systems possess. For the prototypical open system---a Lindbladian---a unitary symmetry can be imposed in a "weak" or a "strong" way. We characterize the possible $\mathbb{Z}_n$ symmetry breaking transitions for both cases. In the case of $\mathbb{Z}_2$, a weak-symmetry-broken phase guarantees at most a classical bit steady-state structure, while a strong-symmetry-broken phase admits a partially-protected steady-state qubit. Viewing photonic cat qubits through the lens of strong-symmetry breaking, we show how to dynamically recover the logical information after any gap-preserving strong-symmetric error; such recovery becomes perfect exponentially quickly in the number of photons. Our study forges a connection between driven-dissipative phase transitions and error correction.
翻訳日:2023-05-07 00:01:24 公開日:2020-08-06
# キャビティ閉じ込め単層半導体の微視的理論:ポラリトン誘起谷緩和とキラル強結合による谷擬似スピンの増強と制御の展望

Microscopic theory of cavity-confined monolayer semiconductors: polariton-induced valley relaxation and the prospect of enhancing and controlling the valley pseudospin by chiral strong coupling ( http://arxiv.org/abs/2008.02814v1 )

ライセンス: Link先を確認
Andrew Salij and Roel Tempelaar(参考訳) 単層平面における光学偏光を含む一層遷移金属ジアルコゲナイドにおける励起子偏光子の微視的理論を適用し、キラルキャビティ光子が活性物質のバレー自由度とどのように相互作用するかを説明する。 ポラリトン形成の際、非同値な2つの谷に分布する退化励起子は、キャビティを媒介するバレー内相互作用とインターバルリークーロン相互作用の結果として結合と反結合の重なり合いを仮定することが示されている。 これは、谷分極の偏光子誘起コヒーレント混合の代表である。 障害と組み合わせることで、この混合はキャビティカップリングの増加とともに重要となる新しい谷緩和チャネルを開く傾向にある。 重要なこととして、左右方向の円偏光子の非対称反射率を持つ光学キャビティは、その非対称ラビ分割によって励起子の谷局在が回復されるため、保存された谷分極を実現するためのかなり頑丈なプラットフォームを提供する。 さらに, この縮退性を持ち上げ, 偏光子誘起キラルスターク効果により, ヴァレーシュードスピンへの波長選択アクセスを可能にし, ヴァレートロニクス応用に興味深い機会を提供する。

We apply a microscopic theory of exciton-polaritons in cavity-confined monolayer transition-metal dichalcogenides including both optical polarizations in the monolayer plane, allowing to describe how chiral cavity photons interact with the valley degrees of freedom of the active material. Upon polariton formation, the degenerate excitons inhabiting the two inequivalent valleys are shown to assume bonding and antibonding superpositions as a result of cavity-mediated intravalley interactions combined with intervalley Coulomb interactions. This is representative of a polariton-induced coherent mixing of the valley polarization. In combination with disorder, this mixing is prone to open a new valley relaxation channel which attains significance with increasing cavity coupling. Importantly, we show that optical cavities with an asymmetric reflectance of left- and right-handed circularly-polarized photons offer a considerably more robust platform to realize a conserved valley polarization, as the valley localization of excitons is reinstated by an asymmetric Rabi splitting which lifts their degeneracy. Moreover, we show this degeneracy lifting to allow for wavelength-selective access to the valley pseudospin by means of a polariton-induced chiral Stark effect, offering interesting opportunities for valleytronic applications.
翻訳日:2023-05-07 00:01:05 公開日:2020-08-06
# ウェーブパケットのスーパーポストの非線形ダイナミクス

Nonlinear dynamics of superpostion of wavepackets ( http://arxiv.org/abs/2008.02771v1 )

ライセンス: Link先を確認
S. Kannan, M. Rohith, and C. Sudheesh(参考訳) 本稿では,Kerr媒体,Morse発振器,ボソニックジョセフソン接合などの様々な系における量子ウェーブレットの重ね合わせの非線形ダイナミクスについて検討する。 この研究の主な理由は、状態の重畳が量子系の力学にどのように影響するかを明らかにすることである。 量子コンピューティングと量子通信の潜在的な候補である重ね合わせ状態を考えるので、それらの適切な理解と利用のために、ダイナミクスを研究することが最も必要である。 第1次回帰時間分布、再帰プロット、リャプノフ指数などの非線形時系列解析の手法は、力学の資格と定量化に使用される。 我々は、ウェーブパケットの重ね合わせを考えると、量子系の力学に大きな変化があることを発見した。 これらの変化は周期、準周期、エルゴード、カオス力学といった様々な力学で観察される。

We study nonlinear dynamics of superposition of quantum wavepackets in various systems such as Kerr medium, Morse oscillator and bosonic Josephson junction. The prime reason behind this study is to find out how the superposition of states influence the dynamics of quantum systems. We consider the superposition states which are potential candidates for quantum computing and quantum communication and so it is most necessary that we study the dynamics for their proper understanding and usage. Methods in nonlinear time series analysis such as first return time distribution, recurrence plot and Lyapunov exponent are used for the qualification and quantification of dynamics. We found that there is a vast change in the dynamics of quantum systems when we consider the superposition of wave packets. These changes are observed in various kinds of dynamics such as periodic, quasi-periodic, ergodic, and chaotic dynamics.
翻訳日:2023-05-06 23:59:58 公開日:2020-08-06
# オープンシステムの量子センシング:減衰定数と温度の推定

Quantum sensing of open systems: Estimation of damping constants and temperature ( http://arxiv.org/abs/2008.02728v1 )

ライセンス: Link先を確認
Jiaxuan Wang, Luiz Davidovich and Girish Saran Agarwal(参考訳) 減衰定数と損失ボソニックチャネルの温度を推定するための量子精度限界を決定する。 直接の用途は、透明なスラブの吸収と温度の推定に光を使うことである。 システムとアドホック環境を含む一元的進化によってマスター方程式の記述を置換する精製手順により, 推定の不確かさを解析的に下限とする。 ゼロ温度の場合、フォック状態は減衰の推定における最小の不確実性をもたらすことが示され、ボソンカウントが最良の測定方法である。 減衰と温度推定の両方において、連続的な予熱測定は単一のボソンの流れを通して、精度の大幅な向上をもたらす可能性がある。

We determine quantum precision limits for estimation of damping constants and temperature of lossy bosonic channels. A direct application would be the use of light for estimation of the absorption and the temperature of a transparent slab. Analytic lower bounds are obtained for the uncertainty in the estimation, through a purification procedure that replaces the master equation description by a unitary evolution involving the system and ad hoc environments. For zero temperature, Fock states are shown to lead to the minimal uncertainty in the estimation of damping, with boson-counting being the best measurement procedure. In both damping and temperature estimates, sequential pre-thermalization measurements, through a stream of single bosons, may lead to huge gain in precision.
翻訳日:2023-05-06 23:59:30 公開日:2020-08-06
# 磁場中におけるガッピンググラフェン量子ドットのエネルギー準位

Energy Levels of Gapped Graphene Quantum Dot in Magnetic Field ( http://arxiv.org/abs/2008.02715v1 )

ライセンス: Link先を確認
Abderrahim Farsi, Abdelhadi Belouad, Ahmed Jellal(参考訳) グラフェンの磁気量子ドットに閉じ込められたキャリアのエネルギー準位を、エネルギーギャップの存在下で無限のグラフェンシートに囲まれて研究する。 固有スピノルは谷の$K$と$K'$に対して導出され、関連するエネルギー準位は量子ドットの界面における境界条件を用いて得られる。 その結果を数値的に検討し,物理パラメータの適切な条件下でのエネルギー準位が対称および反対称な挙動を示すことを示した。 半径確率は角運動量に応じて対称あるいは反対称性となり得ることが判明した。 最後に、エネルギーギャップの応用は、電子の一時的なトラップを示す量子ドットの電子密度を減少させることを示す。

We study the energy levels of carriers confined in a magnetic quantum dot of graphene surrounded by a infinite graphene sheet in the presence of energy gap. The eigenspinors are derived for the valleys $K$ and $K'$, while the associated energy levels are obtained by using the boundary condition at interface of the quantum dot. We numerically investigate our results and show that the energy levels exhibit the symmetric and antisymmetric behaviors under suitable conditions of the physical parameters. We find that the radial probability can be symmetric or antisymmeric according to the angular momentum is null or no-null. Finally, we show that the application of an energy gap decreases the electron density in the quantum dot, which indicates a temporary trapping of electrons.
翻訳日:2023-05-06 23:59:03 公開日:2020-08-06
# 量子ラビモデルに対するパラメータ依存ユニタリ変換法

Parameter-dependent unitary transformation approach for quantum Rabi model ( http://arxiv.org/abs/2008.07319v1 )

ライセンス: Link先を確認
Degang Zhang(参考訳) 量子ラビモデルは、占有数表現とバーグマン空間の両方においてパラメータ依存ユニタリ変換法を用いることにより、正確に解かれた。 2つの二重フォールド縮退準エネルギースペクトルからなる全エネルギースペクトルの解析式は、全ての物理パラメータの範囲で示される。 各エネルギーレベルは、高非線形方程式に従うユニタリ変換のパラメータによって決定される。 対応する固有関数は、物理的パラメータの観点から収束無限級数である。 隣接する固有状態間の一定の物理パラメータ値の交差により、そのような退化は光-物質相互作用を伴う二段階系の新しい物理現象を引き起こす可能性がある。

Quantum Rabi model has been exactly solved by employing the parameter-dependent unitary transformation method in both the occupation number representation and the Bargmann space. The analytical expressions for the complete energy spectrum consisting of two double-fold degenerate sub-energy spectra are presented in the whole range of all the physical parameters. Each energy level is determined by a parameter in the unitary transformation, which obeys a highly nonlinear equation. The corresponding eigenfunction is a convergent infinite series in terms of the physical parameters. Due to the level crossings between the neighboring eigenstates at certain physical parameter values, such the degeneracies could lead to novel physical phenomena in the two-level system with the light-matter interaction.
翻訳日:2023-05-06 23:51:34 公開日:2020-08-06
# AGIが「マンハッタン・プロジェクト」になるとき、どのようにわかるか?

Roadmap to a Roadmap: How Could We Tell When AGI is a 'Manhattan Project' Away? ( http://arxiv.org/abs/2008.04701v1 )

ライセンス: Link先を確認
John-Clark Levin and Matthijs M. Maas(参考訳) 本稿は,agi研究のある程度の段階では,マンハッタンプロジェクトのような取り組みが完成までの時間を大幅に短縮できるような,明確なロードマップが存在することを十分に理論化している可能性があることを論じる。 このしきい値が越えられたと認識された場合、オープン性や国際協力に関するインセンティブは、aiのリスクと国際aiガバナンス体制の安定性に深刻な影響を伴って、かなり急変する可能性がある。 本稿は、AI研究の先行段階と「走行」期間が質的に異なることを特徴とし、AIの分野がそのようなしきい値にどの程度近いかを評価するための研究プログラムを提案する。

This paper argues that at a certain point in research toward AGI, the problem may become well-enough theorized that a clear roadmap exists for achieving it, such that a Manhattan Project-like effort could greatly shorten the time to completion. If state actors perceive that this threshold has been crossed, their incentives around openness and international cooperation may shift rather suddenly, with serious implications for AI risks and the stability of international AI governance regimes. The paper characterizes how such a 'runway' period would be qualitatively different from preceding stages of AI research, and accordingly proposes a research program aimed at assessing how close the field of AI is to such a threshold - that is, it calls for the formulation of a 'roadmap to the roadmap.'
翻訳日:2023-05-06 23:51:23 公開日:2020-08-06
# ツイストレスツイストロンによる合成二層膜の量子異常ホール相

Quantum anomalous Hall phase in synthetic bilayers via twistless twistronics ( http://arxiv.org/abs/2008.02854v1 )

ライセンス: Link先を確認
Tymoteusz Salamon, Ravindra W.Chhajlany, Alexandre Dauphin, Maciej Lewenstein, Debraj Rakshit(参考訳) 我々は最近,超低温原子と合成次元に基づく"twistronic-like"物理の量子シミュレータを提案した [phys. rev. lett. 125, 030504 (2020)]。 概念的には、捕獲原子の内部状態を合成空間次元で同定することにより、所望の幾何学の非物理単層光学格子を合成複層系にアップグレードするという考えに基づいている。 内部状態間の結合、すなわち2層間の結合はレーザー誘起ラマン遷移によって精巧に制御でき、層間結合を空間的に調節することで、モワール・イーのようなパターンは層間の物理的ねじれを伴わずに格子上に直接印加することができる。 このスキームは、広く調整可能な層間結合強度を利点として、格子を横断する一様パターンへと実質的に導かれる。 後者の特徴は、従来の素材よりも小さな単位セルに対して、より大きな「マジック」角度でフラットバンドのエンジニアリングを容易にする。 本稿では,これらの概念を拡張し,適切な条件下でトポロジカルバンド構造を示すことを示す。 非自明なバンドトポロジーを達成するために、系を量子異常ホール位相に駆動する非アナギナリーネスト近傍トンネルを考える。 特に、チャーン数三重項が自明な絶縁体(0,0,0)、標準非自明な (-1,0,1)、非標準非自明な (-1,1,0) に関連付けられる3つのバンド群に注目している。 これら3つの状況が発生するパラメータの体系を特定する。 異常なホール位相の存在と位相的エッジ状態の出現を示す。 atwistを使わずにツイストロニクスにおける位相効果実験の道を開く

We recently proposed quantum simulators of "twistronic-like" physics based on ultracold atoms and syntheticdimensions [Phys. Rev. Lett. 125, 030504 (2020)]. Conceptually, the scheme is based on the idea that aphysical monolayer optical lattice of desired geometry is upgraded to a synthetic bilayer system by identifyingthe internal states of the trapped atoms with synthetic spatial dimensions. The couplings between the internalstates, i.e. between sites on the two layers, can be exquisitely controlled by laser induced Raman transitions.By spatially modulating the interlayer coupling, Moir\'e-like patterns can be directly imprinted on the latticewithout the need of a physical twist of the layers. This scheme leads practically to a uniform pattern across thelattice with the added advantage of widely tunable interlayer coupling strengths. The latter feature facilitates theengineering of flat bands at larger "magic" angles, or more directly, for smaller unit cells than in conventionaltwisted materials. In this paper we extend these ideas and demonstrate that our system exhibits topologicalband structures under appropriate conditions. To achieve non-trivial band topology we consider imanaginarynext-to-nearest neighbor tunnelings that drive the system into a quantum anomalous Hall phase. In particular,we focus on three groups of bands, whose their Chern numbers triplet can be associated to a trivial insulator(0,0,0), a standard non-trivial (-1,0,1) and a non-standard non-trivial (-1,1,0). We identify regimes of parameterswhere these three situations occur. We show the presence of an anomalous Hall phase and the appearance oftopological edge states. Our works open the path for experiments on topological effects in twistronics without atwist
翻訳日:2023-05-06 23:49:46 公開日:2020-08-06
# no-phone/no-app contact tracingハードウェアトークン

A no-phone/no-app contact tracing hardware token ( http://arxiv.org/abs/2008.02851v1 )

ライセンス: Link先を確認
T. Bensky(参考訳) 我々は、容易に利用可能な部品から作られた、オープンソースでハードウェアベースのコンタクトトレーサの開発を報告し、コストは20ドル未満である。 この作業は、携帯電話に関わる人たちのプライバシー問題を回避する技術支援のコンタクトトレーサの必要性によって動機づけられた。 連絡先追跡は、携帯電話やアプリを使うことなく、ここで行われる。 代わりに、コンタクトトレースはESP32マイクロコントローラ上でBluetooth Low Energyを使用して実装される。 ESP32は、近距離での健康情報の宣伝と受信の両方に使用され、厳密にピアツーピアの接触トレーサを形成する。 コンタクトトレーサは個人によって組み立てられ、数分で構成される。

We report the development of an open-source, hardware-based contact tracer, made from readily available parts, costing less than $20USD. This work was motivated by the need for a technology-assisted contact tracer that avoids privacy issues found with those involving a mobile phone. Contact tracing is done here without the use of a mobile phone or an app at all. Instead, contact tracing is implemented using Bluetooth Low Energy on an ESP32 micro-controller. The ESP32 is used to both advertise and receive health information to others in close proximity, forming a strictly peer-to-peer contact tracer. The contact tracer can be assembled by an individual and configured use within minutes.
翻訳日:2023-05-06 23:49:16 公開日:2020-08-06
# 室内の音場再構成--超高分解能の塗装

Sound field reconstruction in rooms: inpainting meets super-resolution ( http://arxiv.org/abs/2001.11263v2 )

ライセンス: Link先を確認
Francesc Llu\'is, Pablo Mart\'inez-Nuevo, Martin Bo M{\o}ller, Sven Ewan Shepstone(参考訳) 本稿では,音場再構成のための深層学習手法を提案する。 部屋全体の周波数帯30〜300Hzの音圧を、任意に配置された非常に低数の不規則分布マイクロホンを用いて再構成することが可能である。 さらに、このアプローチはユークリッド空間における測定値の位置に依存しない。 特に,提案手法では,空間内の離散点の高分解能グリッドへの外挿のために,音場圧力の大きさの任意の離散的な測定値が限られている。 この方法は、シミュレーションデータのみに基づいてトレーニングされた部分畳み込みを持つU-netのようなニューラルネットワークに基づいている。 3次元と異なる部屋形状に拡張できるが、3次元音場の測定から矩形室内の2次元平面を再構成することに注力する。 実聴室における実験検証とともにシミュレーションデータを用いた実験を行った。 以上の結果から,マイクロホンの低容量化と計算要求に対する従来の再構成手法を超える性能が示唆された。

In this paper, a deep-learning-based method for sound field reconstruction is proposed. It is shown the possibility to reconstruct the magnitude of the sound pressure in the frequency band 30-300 Hz for an entire room by using a very low number of irregularly distributed microphones arbitrarily arranged. Moreover, the approach is agnostic to the location of the measurements in the Euclidean space. In particular, the presented approach uses a limited number of arbitrary discrete measurements of the magnitude of the sound field pressure in order to extrapolate this field to a higher-resolution grid of discrete points in space with a low computational complexity. The method is based on a U-net-like neural network with partial convolutions trained solely on simulated data, which itself is constructed from numerical simulations of Green's function across thousands of common rectangular rooms. Although extensible to three dimensions and different room shapes, the method focuses on reconstructing a two-dimensional plane of a rectangular room from measurements of the three-dimensional sound field. Experiments using simulated data together with an experimental validation in a real listening room are shown. The results suggest a performance which may exceed conventional reconstruction techniques for a low number of microphones and computational requirements.
翻訳日:2023-01-05 12:47:59 公開日:2020-08-06
# マシンラーニングとブロックチェーンを使用したIoTのセキュリティとプライバシ - 脅威と対策

Security and Privacy in IoT Using Machine Learning and Blockchain: Threats & Countermeasures ( http://arxiv.org/abs/2002.03488v4 )

ライセンス: Link先を確認
Nazar Waheed, Xiangjian He, Muhammad Ikram, Muhammad Usman, Saad Sajid Hashmi, Muhammad Usman(参考訳) ユーザのセキュリティとプライバシは、多くのアプリケーションにIoT(Internet of Things)デバイスが組み込まれているため、重大な懸念となっている。 サイバー脅威は爆発的なペースで増加しており、既存のセキュリティとプライバシー対策は不十分だ。 したがって、インターネット上の誰もがハッカーのための製品だ。 その結果、機械学習(ML)アルゴリズムを使用して、大規模な複雑なデータベースから正確なアウトプットを生成し、生成されたアウトプットを使用して、IoTベースのシステムの脆弱性を予測および検出することが可能になる。 さらに、セキュリティとプライバシの問題を解決するために、現代的なIoTアプリケーションではBlockchain(BC)技術が人気を集めています。 MLアルゴリズムまたはBCG技術についていくつかの研究がなされている。 しかしながら、これらの研究は、MLアルゴリズムまたはBCテクニックを使用してセキュリティまたはプライバシの問題をターゲットにしているため、MLアルゴリズムとBCテクニックを使用してセキュリティとプライバシの問題に対処する近年の取り組みを総合的に調査する必要がある。 本稿では,2008年から2019年にかけての過去数年間の研究成果を要約し,MLアルゴリズムとIoT領域のBCG技術を使用してセキュリティとプライバシの問題に対処する。 まず、IoTドメインで過去12年間に報告されたさまざまなセキュリティおよびプライバシの脅威について論じ、分類する。 次に、IoTドメイン内のMLアルゴリズムとBC技術に基づいて、セキュリティとプライバシの取り組みに関する文献を分類する。 最後に、IoTドメインのセキュリティとプライバシの問題に対処するために、MLアルゴリズムとBCテクニックを使用する際のいくつかの課題と今後の研究方向性を特定し、照明する。

Security and privacy of the users have become significant concerns due to the involvement of the Internet of things (IoT) devices in numerous applications. Cyber threats are growing at an explosive pace making the existing security and privacy measures inadequate. Hence, everyone on the Internet is a product for hackers. Consequently, Machine Learning (ML) algorithms are used to produce accurate outputs from large complex databases, where the generated outputs can be used to predict and detect vulnerabilities in IoT-based systems. Furthermore, Blockchain (BC) techniques are becoming popular in modern IoT applications to solve security and privacy issues. Several studies have been conducted on either ML algorithms or BC techniques. However, these studies target either security or privacy issues using ML algorithms or BC techniques, thus posing a need for a combined survey on efforts made in recent years addressing both security and privacy issues using ML algorithms and BC techniques. In this paper, we provide a summary of research efforts made in the past few years, starting from 2008 to 2019, addressing security and privacy issues using ML algorithms and BCtechniques in the IoT domain. First, we discuss and categorize various security and privacy threats reported in the past twelve years in the IoT domain. Then, we classify the literature on security and privacy efforts based on ML algorithms and BC techniques in the IoT domain. Finally, we identify and illuminate several challenges and future research directions in using ML algorithms and BC techniques to address security and privacy issues in the IoT domain.
翻訳日:2023-01-02 09:38:58 公開日:2020-08-06
# IC LayoutからDie Photoへ - CNNベースのデータ駆動アプローチ

From IC Layout to Die Photo: A CNN-Based Data-Driven Approach ( http://arxiv.org/abs/2002.04967v2 )

ライセンス: Link先を確認
Hao-Chiang Shao, Chao-Yi Peng, Jun-Rei Wu, Chia-Wen Lin, Shao-Yun Fang, Pin-Yen Tsai, Yan-Hsiu Liu(参考訳) 2つの畳み込みニューラルネットワークからなるディープラーニングに基づくデータ駆動フレームワークを提案する。 一 IC製造による回路上の形状変形を予測するLithoNet及び 二 このような形状の変形を補うためのICレイアウト補正を提案するOPCNet ICレイアウトパターンが与えられた一対のレイアウトデザインパターンと、その製品ウエハの走査電子顕微鏡画像との形状対応を学習することにより、LithoNetはその製造過程を模倣して回路形状を予測することができる。 さらに、リトネットはウェハ製造パラメータを潜伏ベクトルとして、sem画像で検査できるパラメトリック積のバリエーションをモデル化することができる。 さらに、リソグラフィフォトマスクの補正を提案するために使用される従来の光学近接補正(OPC)法は計算コストがかかる。 提案するOPCNetは,OPCプロシージャを模倣し,LithoNetと共同で補正されたフォトマスクを効率よく生成し,回路形状が元のレイアウト設計と最適に一致するかどうかを調べる。 その結果、提案するLithoNet-OPCNetフレームワークは、そのレイアウトパターンから製造したICの形状を予測するだけでなく、予測された形状と所定のレイアウトとの整合性に応じたレイアウト補正を提案する。 いくつかのベンチマークレイアウトパターンによる実験結果から,提案手法の有効性が示された。

We propose a deep learning-based data-driven framework consisting of two convolutional neural networks: i) LithoNet that predicts the shape deformations on a circuit due to IC fabrication, and ii) OPCNet that suggests IC layout corrections to compensate for such shape deformations. By learning the shape correspondences between pairs of layout design patterns and their scanning electron microscope (SEM) images of the product wafer thereof, given an IC layout pattern, LithoNet can mimic the fabrication process to predict its fabricated circuit shape. Furthermore, LithoNet can take the wafer fabrication parameters as a latent vector to model the parametric product variations that can be inspected on SEM images. Besides, traditional optical proximity correction (OPC) methods used to suggest a correction on a lithographic photomask is computationally expensive. Our proposed OPCNet mimics the OPC procedure and efficiently generates a corrected photomask by collaborating with LithoNet to examine if the shape of a fabricated circuit optimally matches its original layout design. As a result, the proposed LithoNet-OPCNet framework can not only predict the shape of a fabricated IC from its layout pattern, but also suggests a layout correction according to the consistency between the predicted shape and the given layout. Experimental results with several benchmark layout patterns demonstrate the effectiveness of the proposed method.
翻訳日:2023-01-02 02:40:38 公開日:2020-08-06
# PCSGAN: 可視画像変換のためのサーマルおよびNIRのための知覚周期合成逆数ネットワーク

PCSGAN: Perceptual Cyclic-Synthesized Generative Adversarial Networks for Thermal and NIR to Visible Image Transformation ( http://arxiv.org/abs/2002.07082v2 )

ライセンス: Link先を確認
Kancharagunta Kishan Babu and Shiv Ram Dubey(参考訳) 多くの現実世界のシナリオでは、照明条件が悪いため可視光スペクトル(vis)の画像を撮影することは困難である。 しかし、画像は近赤外(NIR)カメラと熱(THM)カメラを使って撮影することができる。 NIRとTHMの画像には、制限された詳細が含まれている。 したがって、より理解を深めるために、THM/NIRからVISに変換する必要がある。 しかし、大きなドメインの相違と豊富なデータセットの欠如のため、これは非自明な作業です。 現在、GAN(Generative Adversarial Network)は、画像をあるドメインから別のドメインに変換することができる。 利用可能なGANベースのほとんどのメソッドは、トレーニングの目的関数として、逆数とピクセル単位の損失($L_1$や$L_2$など)の組み合わせを使用している。 THM/NIRからVISへの変換における変換画像の品質は、そのような目的関数を用いても、まだ限界に達していない。 したがって、変換画像の品質、細部、リアリズムを改善するためには、より良い客観的機能が必要である。 これらの問題に対処するために, THM/NIR から VIS への新たな変換モデルである Perceptual Cyclic-Synthesized Generative Adversarial Network (PCSGAN) を導入した。 PCSGANは、知覚的(つまり特徴に基づく)損失と、ピクセルワイドと敵対的損失の組み合わせを使用する。 WHU-IIP面とRGB-NIRシーンデータセット上でのPCSGANモデルの性能を定量的および定性的に評価するために、どちらも用いられる。 提案したPCSGANは, Pix2pix, DualGAN, CycleGAN, PS2GAN, PANなどの最先端画像変換モデルよりも, SSIM, MSE, PSNR, LPIPS評価の点で優れている。 コードはhttps://github.com/Kishan Kancharagunta/PCSGANで入手できる。

In many real world scenarios, it is difficult to capture the images in the visible light spectrum (VIS) due to bad lighting conditions. However, the images can be captured in such scenarios using Near-Infrared (NIR) and Thermal (THM) cameras. The NIR and THM images contain the limited details. Thus, there is a need to transform the images from THM/NIR to VIS for better understanding. However, it is non-trivial task due to the large domain discrepancies and lack of abundant datasets. Nowadays, Generative Adversarial Network (GAN) is able to transform the images from one domain to another domain. Most of the available GAN based methods use the combination of the adversarial and the pixel-wise losses (like $L_1$ or $L_2$) as the objective function for training. The quality of transformed images in case of THM/NIR to VIS transformation is still not up to the mark using such objective function. Thus, better objective functions are needed to improve the quality, fine details and realism of the transformed images. A new model for THM/NIR to VIS image transformation called Perceptual Cyclic-Synthesized Generative Adversarial Network (PCSGAN) is introduced to address these issues. The PCSGAN uses the combination of the perceptual (i.e., feature based) losses along with the pixel-wise and the adversarial losses. Both the quantitative and qualitative measures are used to judge the performance of the PCSGAN model over the WHU-IIP face and the RGB-NIR scene datasets. The proposed PCSGAN outperforms the state-of-the-art image transformation models, including Pix2pix, DualGAN, CycleGAN, PS2GAN, and PAN in terms of the SSIM, MSE, PSNR and LPIPS evaluation measures. The code is available at https://github.com/KishanKancharagunta/PCSGAN.
翻訳日:2023-01-01 13:13:54 公開日:2020-08-06
# ITeM: 時間ネットワークを要約し比較する独立した時間モチーフ

ITeM: Independent Temporal Motifs to Summarize and Compare Temporal Networks ( http://arxiv.org/abs/2002.08312v2 )

ライセンス: Link先を確認
Sumit Purohit, Lawrence B. Holder, George Chin(参考訳) ネットワークは、様々な複雑なシステムを表現する基本的で柔軟な方法である。 コミュニケーション、引用、調達、生物学、ソーシャルメディア、輸送といった多くのドメインは、エンティティとその関係の集合としてモデル化することができる。 テンポラルネットワークは、システムの時間的進化がエンティティや関係の構造と同様に理解することが重要である一般的なネットワークの特殊化である。 異なる領域から時間グラフを特徴付けるための独立時間モチーフ(ITeM)を提案する。 ITeMはエッジ不整合時間モチーフであり、グラフの構造と進化をモデル化するのに使用できる。 与えられた時間グラフに対して、ITeM周波数の特徴ベクトルを生成し、この分布を時間グラフの類似度を測定するタスクに適用する。 本稿では,モチーフ周波数に基づく手法よりも高い精度を示す。 時間的ネットワークの健全性を明らかにするITeMに基づいて,様々なメトリクスを定義した。 また,ITeMカウントを効率的に推定する手法として重要サンプリングを提案する。 我々は,合成ネットワークと実時間ネットワークの両方に対するアプローチを評価する。

Networks are a fundamental and flexible way of representing various complex systems. Many domains such as communication, citation, procurement, biology, social media, and transportation can be modeled as a set of entities and their relationships. Temporal networks are a specialization of general networks where the temporal evolution of the system is as important to understand as the structure of the entities and relationships. We present the Independent Temporal Motif (ITeM) to characterize temporal graphs from different domains. The ITeMs are edge-disjoint temporal motifs that can be used to model the structure and the evolution of the graph. For a given temporal graph, we produce a feature vector of ITeM frequencies and apply this distribution to the task of measuring the similarity of temporal graphs. We show that ITeM has higher accuracy than other motif frequency-based approaches. We define various metrics based on ITeM that reveal salient properties of a temporal network. We also present importance sampling as a method for efficiently estimating the ITeM counts. We evaluate our approach on both synthetic and real temporal networks.
翻訳日:2022-12-30 14:20:46 公開日:2020-08-06
# 音声の普遍的非意味表現の学習に向けて

Towards Learning a Universal Non-Semantic Representation of Speech ( http://arxiv.org/abs/2002.12764v6 )

ライセンス: Link先を確認
Joel Shor, Aren Jansen, Ronnie Maor, Oran Lang, Omry Tuval, Felix de Chaumont Quitry, Marco Tagliasacchi, Ira Shavitt, Dotan Emanuel, Yinnon Haviv(参考訳) 転送学習の最終的な目標は、さまざまなデータセットやタスク用にトレーニングされた既存の埋め込みモデルを活用することで、ラベル付きデータ要件を削減することだ。 視覚と言語コミュニティは埋め込みを比較するベンチマークを確立したが、音声コミュニティはまだそうしていない。 本稿では,非意味的タスクにおける音声表現の比較ベンチマークを提案し,教師なし三重項損失に基づく表現を提案する。 提案する表現は、ベンチマークで他の表現よりも優れており、多くの転送学習タスクで最先端のパフォーマンスを超えている。 組み込みは公開データセットでトレーニングされ、パーソナライズタスクや医療ドメインなど、さまざまな低リソースのダウンストリームタスクでテストされる。 ベンチマーク、モデル、評価コードが公開されている。

The ultimate goal of transfer learning is to reduce labeled data requirements by exploiting a pre-existing embedding model trained for different datasets or tasks. The visual and language communities have established benchmarks to compare embeddings, but the speech community has yet to do so. This paper proposes a benchmark for comparing speech representations on non-semantic tasks, and proposes a representation based on an unsupervised triplet-loss objective. The proposed representation outperforms other representations on the benchmark, and even exceeds state-of-the-art performance on a number of transfer learning tasks. The embedding is trained on a publicly available dataset, and it is tested on a variety of low-resource downstream tasks, including personalization tasks and medical domain. The benchmark, models, and evaluation code are publicly released.
翻訳日:2022-12-28 21:30:04 公開日:2020-08-06
# ガウス過程回帰のための新しいクロスバリデーションベース推定器に向けて:勾配の効率的な随伴計算

Towards new cross-validation-based estimators for Gaussian process regression: efficient adjoint computation of gradients ( http://arxiv.org/abs/2002.11543v2 )

ライセンス: Link先を確認
S\'ebastien Petit (L2S, GdR MASCOT-NUM), Julien Bect (L2S, GdR MASCOT-NUM), S\'ebastien da Veiga (GdR MASCOT-NUM), Paul Feliot (GdR MASCOT-NUM), Emmanuel Vazquez (L2S, GdR MASCOT-NUM)(参考訳) 本稿では,ガウス過程の共分散関数のパラメータをクロスバリデーションにより推定する問題を考察する。 スコアリングルールの文献から得られた新しいクロスバリデーション基準を用いることを提案する。 また、クロスバリデーション基準の勾配を計算する効率的な方法を提案する。 我々の知る限りでは、我々の手法はこれまでの文献で提案された方法よりも効率的である。 これにより、アウトアウト基準とその勾配を共同で評価する複雑性を低くすることができる。

We consider the problem of estimating the parameters of the covariance function of a Gaussian process by cross-validation. We suggest using new cross-validation criteria derived from the literature of scoring rules. We also provide an efficient method for computing the gradient of a cross-validation criterion. To the best of our knowledge, our method is more efficient than what has been proposed in the literature so far. It makes it possible to lower the complexity of jointly evaluating leave-one-out criteria and their gradients.
翻訳日:2022-12-28 15:26:43 公開日:2020-08-06
# Axial-DeepLab:Panoptic SegmentationのためのスタンドアロンAxial-Attention

Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation ( http://arxiv.org/abs/2003.07853v2 )

ライセンス: Link先を確認
Huiyu Wang, Yukun Zhu, Bradley Green, Hartwig Adam, Alan Yuille, Liang-Chieh Chen(参考訳) 畳み込みは、長距離コンテキストの欠如による効率の局所性を利用する。 非局所的な相互作用を持つCNNを増強するために自己注意が採用された。 近年の研究では, 局所領域への注意を限定することで, セルフアテンション層を積み重ねることで, 完全に注意深いネットワークを得ることが可能となった。 本稿では,2次元自己愛を2次元自己愛に分解することにより,この制約を取り除こうとする。 これにより計算の複雑さが軽減され、より大きな領域やグローバル領域でも注意を向けられるようになる。 また,位置感応型自己注意設計を提案する。 どちらも位置感受性の軸アテンション層を合成し、画像分類と密集予測のための軸アテンションモデルを構築するために積み重ねることができる。 4つの大規模データセットにおけるモデルの有効性を示す。 特に、私たちのモデルは、ImageNet上の既存のスタンドアローンの自己アテンションモデルよりも優れています。 私たちのAxial-DeepLabは、COCOテストデブのボトムアップ状態よりも2.8%のPQを改善しています。 この以前の状態は、パラメーター効率が3.8倍、計算効率が27倍の小さな変種によって達成されている。 Axial-DeepLabはMapillary VistasとCityscapesの最先端の結果も達成している。

Convolution exploits locality for efficiency at a cost of missing long range context. Self-attention has been adopted to augment CNNs with non-local interactions. Recent works prove it possible to stack self-attention layers to obtain a fully attentional network by restricting the attention to a local region. In this paper, we attempt to remove this constraint by factorizing 2D self-attention into two 1D self-attentions. This reduces computation complexity and allows performing attention within a larger or even global region. In companion, we also propose a position-sensitive self-attention design. Combining both yields our position-sensitive axial-attention layer, a novel building block that one could stack to form axial-attention models for image classification and dense prediction. We demonstrate the effectiveness of our model on four large-scale datasets. In particular, our model outperforms all existing stand-alone self-attention models on ImageNet. Our Axial-DeepLab improves 2.8% PQ over bottom-up state-of-the-art on COCO test-dev. This previous state-of-the-art is attained by our small variant that is 3.8x parameter-efficient and 27x computation-efficient. Axial-DeepLab also achieves state-of-the-art results on Mapillary Vistas and Cityscapes.
翻訳日:2022-12-22 20:45:01 公開日:2020-08-06
# TITAN:アクションプリミティブを用いた将来の予測

TITAN: Future Forecast using Action Priors ( http://arxiv.org/abs/2003.13886v3 )

ライセンス: Link先を確認
Srikanth Malla and Behzad Dariush and Chiho Choi(参考訳) 移動プラットフォームから得られた自我中心的な視点から,シーンエージェントの今後の軌道予測の問題を考える。 この問題は、様々な領域、特にナビゲーションにおいてリアクティブまたは戦略的決定を行う自律システムにおいて重要である。 この問題に対処するために,我々は,エージェントの位置,動作,コンテキストを組み込んだ新しいモデルであるtitan (trajectory inference using target action priors network)を導入する。 このタスクに適切なデータセットが存在しないため、東京の高度にインタラクティブな都市交通シーンで移動車から撮影した700個のラベル付きビデオクリップからなるTITANデータセットを作成しました。 私たちのデータセットには、車両の状態や行動、歩行者年齢グループ、ターゲットとなる歩行者行動属性を含む50のラベルが含まれています。 提案モデルを評価するため,TITANデータセットに対して広範な実験を行い,ベースラインと最先端アルゴリズムに対する大幅な性能向上を明らかにした。 また,エージェント・コンパタンス・メカニズム (AIM) の有望な成果を報告し,各エージェントの相対的影響を将来のエゴ軌道に求めることによって,認識リスクの評価を行うモジュールについて報告する。 データセットはhttps://usa.honda-ri.com/titanで利用可能である。

We consider the problem of predicting the future trajectory of scene agents from egocentric views obtained from a moving platform. This problem is important in a variety of domains, particularly for autonomous systems making reactive or strategic decisions in navigation. In an attempt to address this problem, we introduce TITAN (Trajectory Inference using Targeted Action priors Network), a new model that incorporates prior positions, actions, and context to forecast future trajectory of agents and future ego-motion. In the absence of an appropriate dataset for this task, we created the TITAN dataset that consists of 700 labeled video-clips (with odometry) captured from a moving vehicle on highly interactive urban traffic scenes in Tokyo. Our dataset includes 50 labels including vehicle states and actions, pedestrian age groups, and targeted pedestrian action attributes that are organized hierarchically corresponding to atomic, simple/complex-contextual, transportive, and communicative actions. To evaluate our model, we conducted extensive experiments on the TITAN dataset, revealing significant performance improvement against baselines and state-of-the-art algorithms. We also report promising results from our Agent Importance Mechanism (AIM), a module which provides insight into assessment of perceived risk by calculating the relative influence of each agent on the future ego-trajectory. The dataset is available at https://usa.honda-ri.com/titan
翻訳日:2022-12-18 00:39:23 公開日:2020-08-06
# 過小表現例を考慮した自閉型深層回帰林

Self-Paced Deep Regression Forests with Consideration on Underrepresented Examples ( http://arxiv.org/abs/2004.01459v4 )

ライセンス: Link先を確認
Lili Pan, Shijie Ai, Yazhou Ren and Zenglin Xu(参考訳) 深層判別モデル(例えば、深層回帰林、深層神経決定林)は、近年、顔年齢推定や頭部ポーズ推定などの問題を解決するために顕著な成功を収めている。 既存の手法の多くは、識別的特徴の学習やサンプルの再重み付けを通じて、堅牢で偏りのないソリューションを追求している。 より望ましいのは、徐々に人間のように差別化を学習することであり、それゆえ、自己評価学習(SPL)に頼っている、と私たちは主張する。 自己評価された体制は、より堅牢でバイアスの少ないソリューションを達成するために、深い差別的モデルを導くことができるか? この目的のために,本論文では,低表示例(spudrfs)に着目した,新しい深層判別モデル-自己ペーシング型深層回帰林を提案する。 新しい観点から、SPLの基本的なランク付けと選択の問題に取り組む。 このパラダイムは基本であり、様々な深層判別モデル(ddm)と簡単に組み合わせることができる。 顔の年齢推定と頭部ポーズ推定という2つのコンピュータビジョンタスクに対する大規模な実験により,SPUDRFの有効性が実証された。

Deep discriminative models (e.g. deep regression forests, deep neural decision forests) have achieved remarkable success recently to solve problems such as facial age estimation and head pose estimation. Most existing methods pursue robust and unbiased solutions either through learning discriminative features, or reweighting samples. We argue what is more desirable is learning gradually to discriminate like our human beings, and hence we resort to self-paced learning (SPL). Then, a natural question arises: can self-paced regime lead deep discriminative models to achieve more robust and less biased solutions? To this end, this paper proposes a new deep discriminative model--self-paced deep regression forests with consideration on underrepresented examples (SPUDRFs). It tackles the fundamental ranking and selecting problem in SPL from a new perspective: fairness. This paradigm is fundamental and could be easily combined with a variety of deep discriminative models (DDMs). Extensive experiments on two computer vision tasks, i.e., facial age estimation and head pose estimation, demonstrate the efficacy of SPUDRFs, where state-of-the-art performances are achieved.
翻訳日:2022-12-17 04:37:24 公開日:2020-08-06
# 可変デュレーション発話のロバスト話者検証のための特徴ピラミッドモジュールを用いたマルチスケールアグリゲーションの改善

Improving Multi-Scale Aggregation Using Feature Pyramid Module for Robust Speaker Verification of Variable-Duration Utterances ( http://arxiv.org/abs/2004.03194v4 )

ライセンス: Link先を確認
Youngmoon Jung, Seong Min Kye, Yeunju Choi, Myunghun Jung, Hoirin Kim(参考訳) 現在、話者検証の最も広く使われているアプローチは、深い話者埋め込み学習である。 本研究では,話者特徴抽出器の最後の層から抽出した単音階特徴をプールすることで,話者埋め込みベクトルを得る。 特徴抽出器の異なる層からのマルチスケール特徴を利用するマルチスケールアグリゲーション (MSA) が最近導入され, 可変重畳発話の性能が向上している。 任意の持続時間の発話に対するロバスト性を高めるために,特徴ピラミッドモジュールを用いてmsaを改善した。 このモジュールは、トップダウン経路と横接続を介して複数の層から特徴の話者識別情報を強化する。 時間スケールの異なるリッチな話者情報を含む拡張機能を用いて話者埋め込みを抽出する。 VoxCelebデータセットの実験では、提案されたモジュールはパラメータの少ない以前のMSAメソッドを改善している。 また、短い発話と長い発話の両方に対して最先端のアプローチよりも優れたパフォーマンスを実現する。

Currently, the most widely used approach for speaker verification is the deep speaker embedding learning. In this approach, we obtain a speaker embedding vector by pooling single-scale features that are extracted from the last layer of a speaker feature extractor. Multi-scale aggregation (MSA), which utilizes multi-scale features from different layers of the feature extractor, has recently been introduced and shows superior performance for variable-duration utterances. To increase the robustness dealing with utterances of arbitrary duration, this paper improves the MSA by using a feature pyramid module. The module enhances speaker-discriminative information of features from multiple layers via a top-down pathway and lateral connections. We extract speaker embeddings using the enhanced features that contain rich speaker information with different time scales. Experiments on the VoxCeleb dataset show that the proposed module improves previous MSA methods with a smaller number of parameters. It also achieves better performance than state-of-the-art approaches for both short and long utterances.
翻訳日:2022-12-15 22:45:10 公開日:2020-08-06
# RelSen: センサの信頼性監視とデータのクリーニングを同時に行う最適化ベースのフレームワーク

RelSen: An Optimization-based Framework for Simultaneously Sensor Reliability Monitoring and Data Cleaning ( http://arxiv.org/abs/2004.08762v3 )

ライセンス: Link先を確認
Cheng Feng, Xiao Liang, Daniel Schneegass, PengWei Tian(参考訳) モノのインターネット(IoT)技術の最近の進歩により、センサーアプリケーションの人気が高まっている。 その結果、人々はセンサーから得られる情報に頼り、日々の生活で意思決定をするようになる。 残念なことに、ほとんどのセンシングアプリケーションでは、センサーはエラーを起こしやすいことが知られており、その測定は予期しないタイミングで誤解を招く可能性がある。 したがって, センサの信頼性を高めるためには, 物理的現象やプロセスの他に, センサの信頼性を監視し, センサデータのクリーニングを行うことも重要であると信じている。 既存の研究では、センサーの信頼性モニタリングとセンサーデータのクリーニングを別個の問題と見なすことが多い。 本研究では,両者の相互依存を利用して,両問題に同時に対処する新しい最適化フレームワークRelSenを提案する。 さらに、RelSenは、監視下のプロセスダイナミクスに関する最小限の事前知識を前提として、アプリケーション固有のものではない。 これにより、一般性と適用性が大幅に向上する。 本研究では,RelSenを屋外大気汚染モニタリングシステムおよびセメントロータリーキルンの状態監視システムに適用した。 実験の結果,信頼性の低いセンサをタイムリーに識別し,最もよく観測される3種類のセンサ故障によるセンサ計測誤差を除去できることがわかった。

Recent advances in the Internet of Things (IoT) technology have led to a surge on the popularity of sensing applications. As a result, people increasingly rely on information obtained from sensors to make decisions in their daily life. Unfortunately, in most sensing applications, sensors are known to be error-prone and their measurements can become misleading at any unexpected time. Therefore, in order to enhance the reliability of sensing applications, apart from the physical phenomena/processes of interest, we believe it is also highly important to monitor the reliability of sensors and clean the sensor data before analysis on them being conducted. Existing studies often regard sensor reliability monitoring and sensor data cleaning as separate problems. In this work, we propose RelSen, a novel optimization-based framework to address the two problems simultaneously via utilizing the mutual dependence between them. Furthermore, RelSen is not application-specific as its implementation assumes a minimal prior knowledge of the process dynamics under monitoring. This significantly improves its generality and applicability in practice. In our experiments, we apply RelSen on an outdoor air pollution monitoring system and a condition monitoring system for a cement rotary kiln. Experimental results show that our framework can timely identify unreliable sensors and remove sensor measurement errors caused by three types of most commonly observed sensor faults.
翻訳日:2022-12-12 00:42:52 公開日:2020-08-06
# 正規化プール

Regularized Pooling ( http://arxiv.org/abs/2005.03709v2 )

ライセンス: Link先を確認
Takato Otsuzuki, Hideaki Hayashi, Yuchen Zheng and Seiichi Uchida(参考訳) 畳み込みニューラルネットワーク(CNN)では、プール操作は次元減少や変形補償といった重要な役割を果たす。 一般に、ローカルプーリングにおいて最も広く使用される最大プーリングは、各カーネルに対して独立して実行される。 しかし、変形は隣接するカーネル上で空間的に滑らかである。 これは、最大プーリングが実際の変形を補うには柔軟すぎることを意味する。 言い換えれば、その過度な柔軟性は、クラス間の必須空間差をキャンセルするリスクを負う。 本稿では,プール操作における値選択方向を,隣接するカーネル間で空間的に平滑にすることで,実際の変形のみを補償できる正規化プーリングを提案する。 手書き文字画像とテクスチャ画像を用いた実験の結果,正規化プーリングは認識精度を向上させるだけでなく,従来のプーリング操作に比べて学習の収束を促進できることがわかった。

In convolutional neural networks (CNNs), pooling operations play important roles such as dimensionality reduction and deformation compensation. In general, max pooling, which is the most widely used operation for local pooling, is performed independently for each kernel. However, the deformation may be spatially smooth over the neighboring kernels. This means that max pooling is too flexible to compensate for actual deformations. In other words, its excessive flexibility risks canceling the essential spatial differences between classes. In this paper, we propose regularized pooling, which enables the value selection direction in the pooling operation to be spatially smooth across adjacent kernels so as to compensate only for actual deformations. The results of experiments on handwritten character images and texture images showed that regularized pooling not only improves recognition accuracy but also accelerates the convergence of learning compared with conventional pooling operations.
翻訳日:2022-12-06 05:05:25 公開日:2020-08-06
# 単調アテンションモデルのためのCTC同期トレーニング

CTC-synchronous Training for Monotonic Attention Model ( http://arxiv.org/abs/2005.04712v3 )

ライセンス: Link先を確認
Hirofumi Inaguma, Masato Mimura, Tatsuya Kawahara(参考訳) オンラインストリーミング自動音声認識(ASR)において,シーケンス・ツー・シーケンス・フレームワークに基づくモノトニック・チャンクワイズ・アテンション(MoChA)が研究されている。 接続性時間分類(CTC)とは対照的に,デコーダの左右依存によるトレーニング中のアライメントの辺縁化過程において,後方の確率は利用できない。 これにより、アライメントがその後のトークン生成にエラー伝播する。 この問題に対処するために,MoChAがCTCアライメントを用いて最適なモノトニックアライメントを学習するCTC同期トレーニング(CTC-ST)を提案する。 参照CTCアライメントは、同一エンコーダとデコーダを共有するCTCブランチから抽出される。 モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。 tedlium release-2 と librispeech corpora の実験評価の結果,提案手法は認識,特に長時間発話において有意に改善することがわかった。 また、CTC-STはMoChAのSpecAugmentの可能性を最大限に発揮できることを示す。

Monotonic chunkwise attention (MoChA) has been studied for the online streaming automatic speech recognition (ASR) based on a sequence-to-sequence framework. In contrast to connectionist temporal classification (CTC), backward probabilities cannot be leveraged in the alignment marginalization process during training due to left-to-right dependency in the decoder. This results in the error propagation of alignments to subsequent token generation. To address this problem, we propose CTC-synchronous training (CTC-ST), in which MoChA uses CTC alignments to learn optimal monotonic alignments. Reference CTC alignments are extracted from a CTC branch sharing the same encoder with the decoder. The entire model is jointly optimized so that the expected boundaries from MoChA are synchronized with the alignments. Experimental evaluations of the TEDLIUM release-2 and Librispeech corpora show that the proposed method significantly improves recognition, especially for long utterances. We also show that CTC-ST can bring out the full potential of SpecAugment for MoChA.
翻訳日:2022-12-05 01:30:27 公開日:2020-08-06
# 注意深い聞き取りと1回の綴り:低遅延音声認識のための非自己回帰的アーキテクチャによる全文生成

Listen Attentively, and Spell Once: Whole Sentence Generation via a Non-Autoregressive Architecture for Low-Latency Speech Recognition ( http://arxiv.org/abs/2005.04862v4 )

ライセンス: Link先を確認
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang(参考訳) 注目に基づくエンドツーエンドモデルは音声認識において有望な性能を達成しているが、ビーム探索におけるマルチパスフォワード計算は推論時間コストを増大させ、実用的な応用を制限している。 この問題に対処するために,LASO (listen attentively, and spell once) と呼ばれる非自己回帰型エンドツーエンド音声認識システムを提案する。 非自己回帰性のため、lasoはシーケンス内のテキストトークンを他のトークンに依存しずに予測する。 ビーム探索がなければ、1パスの伝搬はlasoの推論時間コストを大幅に削減する。 また,本モデルは注意に基づくフィードフォワード構造に基づいており,並列処理を効率的に行うことができる。 我々は,中国における公開データセットAISHELL-1の実験を行った。 LASOの文字誤り率は6.4%で、最先端の自己回帰変換器モデル(6.7%)を上回っている。 平均推定遅延は21msであり、これは自己回帰トランスフォーマーモデルの1/50である。

Although attention based end-to-end models have achieved promising performance in speech recognition, the multi-pass forward computation in beam-search increases inference time cost, which limits their practical applications. To address this issue, we propose a non-autoregressive end-to-end speech recognition system called LASO (listen attentively, and spell once). Because of the non-autoregressive property, LASO predicts a textual token in the sequence without the dependence on other tokens. Without beam-search, the one-pass propagation much reduces inference time cost of LASO. And because the model is based on the attention based feedforward structure, the computation can be implemented in parallel efficiently. We conduct experiments on publicly available Chinese dataset AISHELL-1. LASO achieves a character error rate of 6.4%, which outperforms the state-of-the-art autoregressive transformer model (6.7%). The average inference latency is 21 ms, which is 1/50 of the autoregressive transformer model.
翻訳日:2022-12-04 20:39:29 公開日:2020-08-06
# 音認識のための逐次的自己注意制御

Memory Controlled Sequential Self Attention for Sound Recognition ( http://arxiv.org/abs/2005.06650v4 )

ライセンス: Link先を確認
Arjun Pankajakshan, Helen L. Bear, Vinod Subramanian, Emmanouil Benetos(参考訳) 本稿では,音声認識における逐次自己注意における記憶量の重要性について検討する。 本研究では,畳み込み型リカレントニューラルネットワーク(crnn)モデル上に,記憶制御された逐次自己注意機構を多音素音響イベント検出(sed)に用いることを提案する。 URBAN-SEDデータセットの実験は、自己注意誘発SEDモデルを用いた音声認識性能に対するメモリ幅の影響を示した。 提案手法をマルチヘッド型セルフアテンション機構により拡張し,各アテンションヘッドが明瞭なアテンション幅の値でオーディオ埋め込みを処理する。 提案したメモリ制御シーケンシャル・アテンションは,音声イベントトークンのフレーム間の関係を誘導する手段を提供する。 その結果,記憶制御型自己注意モデルでは,イベントベースのf-scoreが33.92%となり,自己注意のないモデルでは20.10%のf-scoreを上回った。

In this paper we investigate the importance of the extent of memory in sequential self attention for sound recognition. We propose to use a memory controlled sequential self attention mechanism on top of a convolutional recurrent neural network (CRNN) model for polyphonic sound event detection (SED). Experiments on the URBAN-SED dataset demonstrate the impact of the extent of memory on sound recognition performance with the self attention induced SED model. We extend the proposed idea with a multi-head self attention mechanism where each attention head processes the audio embedding with explicit attention width values. The proposed use of memory controlled sequential self attention offers a way to induce relations among frames of sound event tokens. We show that our memory controlled self attention model achieves an event based F -score of 33.92% on the URBAN-SED dataset, outperforming the F -score of 20.10% reported by the model without self attention.
翻訳日:2022-12-03 13:46:50 公開日:2020-08-06
# ディープネットワークとしてのエンコーディング式:ltlのゼロショット実行のための強化学習

Encoding formulas as deep networks: Reinforcement learning for zero-shot execution of LTL formulas ( http://arxiv.org/abs/2006.01110v2 )

ライセンス: Link先を確認
Yen-Ling Kuo, Boris Katz, Andrei Barbu(参考訳) LTL式を入力として、満足な動作を決定する合成再帰ニューラルネットワークを用いた強化学習エージェントを実証する。 入力 ltl の公式はこれまでに見たことがないが、ネットワークはそれらを満たすためにゼロショット一般化を行う。 これはRLエージェントのための新しいマルチタスク学習の形式であり、エージェントは1つの多様なタスクから学習し、新しい多様なタスクセットに一般化する。 ネットワークの定式化により、この能力は一般化できる。 この能力を2つの領域で示す。 シンボリックドメインでは、エージェントは受け入れられる文字列のシーケンスを見つける。 minecraftのような環境では、エージェントは式に準拠した一連のアクションを見つける。 先行研究では、ある式を確実に実行することを学ぶことができたが、全ての式を確実にエンコードする方法を実証する。 これは、サブタスクを発見し、追加のトレーニングなしで実行する新しいマルチタスクエージェントと、より複雑な言語コマンドに従うエージェントの基礎となる可能性がある。 この一般化に必要な構造はLTL式に特有であり、興味深い理論的疑問が開き、異なる論理へのゼロショット一般化のためにニューラルネットワークにどのような構造が必要か?

We demonstrate a reinforcement learning agent which uses a compositional recurrent neural network that takes as input an LTL formula and determines satisfying actions. The input LTL formulas have never been seen before, yet the network performs zero-shot generalization to satisfy them. This is a novel form of multi-task learning for RL agents where agents learn from one diverse set of tasks and generalize to a new set of diverse tasks. The formulation of the network enables this capacity to generalize. We demonstrate this ability in two domains. In a symbolic domain, the agent finds a sequence of letters that is accepted. In a Minecraft-like environment, the agent finds a sequence of actions that conform to the formula. While prior work could learn to execute one formula reliably given examples of that formula, we demonstrate how to encode all formulas reliably. This could form the basis of new multitask agents that discover sub-tasks and execute them without any additional training, as well as the agents which follow more complex linguistic commands. The structures required for this generalization are specific to LTL formulas, which opens up an interesting theoretical question: what structures are required in neural networks for zero-shot generalization to different logics?
翻訳日:2022-11-26 07:25:01 公開日:2020-08-06
# plg-in:単眼深度推定におけるwasserstein距離を用いたプラグ可能な幾何整合損失

PLG-IN: Pluggable Geometric Consistency Loss with Wasserstein Distance in Monocular Depth Estimation ( http://arxiv.org/abs/2006.02068v2 )

ライセンス: Link先を確認
Noriaki Hirose, Satoshi Koide, Keisuke Kawano, Ruho Kondo(参考訳) 単眼カメラ画像の深度とポーズ推定性能を改善するために, 幾何学的不整合をペナル化するための新しい目的を提案する。 対象は,カメラポーズの異なる画像から推定した2点雲間のwasserstein距離を用いて設計した。 ワッサーシュタイン距離は2点の雲の間にソフトで対称な結合を課し、幾何学的制約を適切に維持し、微分可能な目的を与える。 他の最先端手法に目的を加えることで、幾何学的不整合を効果的に罰し、高精度な深度とポーズ推定を得ることができる。 提案手法は,KITTIデータセットを用いて評価する。

We propose a novel objective for penalizing geometric inconsistencies to improve the depth and pose estimation performance of monocular camera images. Our objective is designed using the Wasserstein distance between two point clouds, estimated from images with different camera poses. The Wasserstein distance can impose a soft and symmetric coupling between two point clouds, which suitably maintains geometric constraints and results in a differentiable objective. By adding our objective to the those of other state-of-the-art methods, we can effectively penalize geometric inconsistencies and obtain highly accurate depth and pose estimations. Our proposed method is evaluated using the KITTI dataset.
翻訳日:2022-11-25 18:30:55 公開日:2020-08-06
# ニューラルネットワークのためのニューラル・タンジェント・カーネルに基づくアプローチの改訂

A Revision of Neural Tangent Kernel-based Approaches for Neural Networks ( http://arxiv.org/abs/2007.00884v2 )

ライセンス: Link先を確認
Kyung-Su Kim, Aur\'elie C. Lozano, Eunho Yang(参考訳) ニューラルタンジェントカーネル(NTK)に基づく最近の理論的研究は、過パラメータネットワークの最適化と一般化に光を当て、その実用的成功と古典的学習理論のギャップを部分的に埋めている。 特にNTKに基づく手法を用いて,(1) トレーニング誤差境界を導出した結果, トレーニング速度の厳密な評価をデータ複雑度に応じて反映することにより, ネットワークが任意の有限トレーニングサンプルに完全に適合できることが示唆された。 2)データ依存複雑性尺度(CMD)を用いて,ネットワークサイズの一般化誤差境界不変量を導出した。 この CMD 境界から、ネットワークは任意の滑らかな函数を一般化できる。 (3) 単純で解析的なカーネル関数は、完全に訓練されたネットワークと同値である。 このカーネルは、対応するネットワークと既存の金本位制であるランダムフォレストをわずかなショット学習で上回っている。 これらすべての結果を保持するために、ネットワークスケーリング係数 $\kappa$ は w.r.t. サンプルサイズ n を減少させるべきである。 しかし、$\kappa$ を減少させる場合、上記の結果が驚くほど誤りであることが証明される。 これは、トレーニングされたネットワークの出力値が$\kappa$がw.r.t.nを下げるとゼロになるためである。 この問題を解決するために、$\kappa$-affected値を削除することでキー境界を狭めます。 より厳密な解析によりスケーリングの問題を解き、元のNTKに基づく結果の検証を可能にする。

Recent theoretical works based on the neural tangent kernel (NTK) have shed light on the optimization and generalization of over-parameterized networks, and partially bridge the gap between their practical success and classical learning theory. Especially, using the NTK-based approach, the following three representative results were obtained: (1) A training error bound was derived to show that networks can fit any finite training sample perfectly by reflecting a tighter characterization of training speed depending on the data complexity. (2) A generalization error bound invariant of network size was derived by using a data-dependent complexity measure (CMD). It follows from this CMD bound that networks can generalize arbitrary smooth functions. (3) A simple and analytic kernel function was derived as indeed equivalent to a fully-trained network. This kernel outperforms its corresponding network and the existing gold standard, Random Forests, in few shot learning. For all of these results to hold, the network scaling factor $\kappa$ should decrease w.r.t. sample size n. In this case of decreasing $\kappa$, however, we prove that the aforementioned results are surprisingly erroneous. It is because the output value of trained network decreases to zero when $\kappa$ decreases w.r.t. n. To solve this problem, we tighten key bounds by essentially removing $\kappa$-affected values. Our tighter analysis resolves the scaling problem and enables the validation of the original NTK-based results.
翻訳日:2022-11-14 13:16:47 公開日:2020-08-06
# Team voyTECH: ブースティングツリーによるユーザアクティビティモデリング

Team voyTECH: User Activity Modeling with Boosting Trees ( http://arxiv.org/abs/2007.01620v2 )

ライセンス: Link先を確認
Immanuel Bayer and Anastasios Zouzias(参考訳) 本稿では,ECML-PKDD ChAT Discovery Challenge 2020の優勝ソリューションについて述べる。 Twitchユーザがチャネルにサブスクライブしたか否かは,ユーザ活動のモデリングとツリーの強化によって予測可能であることを示す。 高濃度カテゴリの文脈において、ターゲットエンコーディングとツリーの接続を導入し、ユーザアクティビティのモデリングがより強力であることを確認し、適切にエンコードされた時にコンテンツを直接モデリングし、適切な最適化アプローチと組み合わせる。

This paper describes our winning solution for the ECML-PKDD ChAT Discovery Challenge 2020. We show that whether or not a Twitch user has subscribed to a channel can be well predicted by modeling user activity with boosting trees. We introduce the connection between target-encodings and boosting trees in the context of high cardinality categoricals and find that modeling user activity is more powerful then direct modeling of content when encoded properly and combined with a suitable optimization approach.
翻訳日:2022-11-14 04:34:10 公開日:2020-08-06
# 3次元点雲の微分特性予測のための幾何学的注意

Geometric Attention for Prediction of Differential Properties in 3D Point Clouds ( http://arxiv.org/abs/2007.02571v3 )

ライセンス: Link先を確認
Albert Matveev, Alexey Artemov, Denis Zorin and Evgeny Burnaev(参考訳) 離散3次元データ表現における微分幾何量の推定は、幾何処理パイプラインにおける重要なステップの一つである。 具体的には、原点雲から正常線と鋭い特徴線を推定することで、メッシュ品質を向上させることができ、より正確な表面再構成技術が利用できる。 このような問題に対する学習可能なアプローチを設計する場合、主な困難は点雲内の近傍を選択し、点間の幾何学的関係を取り込むことである。 本研究では,このような特性を学習可能な方法で提供できる幾何学的注意機構を提案する。 本研究では,正規ベクトルの予測と特徴線の抽出に関する実験により,提案手法の有用性を確立する。

Estimation of differential geometric quantities in discrete 3D data representations is one of the crucial steps in the geometry processing pipeline. Specifically, estimating normals and sharp feature lines from raw point cloud helps improve meshing quality and allows us to use more precise surface reconstruction techniques. When designing a learnable approach to such problems, the main difficulty is selecting neighborhoods in a point cloud and incorporating geometric relations between the points. In this study, we present a geometric attention mechanism that can provide such properties in a learnable fashion. We establish the usefulness of the proposed technique with several experiments on the prediction of normal vectors and the extraction of feature lines.
翻訳日:2022-11-13 02:46:50 公開日:2020-08-06
# 共セグメンテーションによるクリブルベースドメイン適応

Scribble-based Domain Adaptation via Co-segmentation ( http://arxiv.org/abs/2007.03632v2 )

ライセンス: Link先を確認
Reuben Dorent, Samuel Joutard, Jonathan Shapey, Sotirios Bisdas, Neil Kitchen, Robert Bradford, Shakeel Saeed, Marc Modat, Sebastien Ourselin, Tom Vercauteren(参考訳) 深い畳み込みネットワークは、多くの医療画像分割タスクで最先端のパフォーマンスに達しているが、一般的には一般化能力に乏しい。 ある領域(例えば1つのイメージングモダリティ)から別の領域に一般化できるためには、ドメイン適応を行う必要がある。 教師付きメソッドは優れたパフォーマンスをもたらすかもしれないが、実際にはオプションではない追加データを完全にアノテートする必要がある。 対照的に、教師なしメソッドは追加のアノテーションを必要としないが、通常不安定で訓練が難しい。 本研究では,新しい弱教師付き手法を提案する。 詳細だが時間を要するアノテーションを必要とする代わりに、対象ドメインのスクリブルを使用してドメイン適応を実行する。 本稿では,構造化学習と協調学習に基づく新しいドメイン適応の定式化について述べる。 我々の方法は定期的な損失の導入により訓練が容易です。 このフレームワークはVestibular Schwannoma segmentation (T1 to T2 scans)で検証されている。 提案手法は,教師なしアプローチよりも優れており,教師なしアプローチと同等の性能を実現している。

Although deep convolutional networks have reached state-of-the-art performance in many medical image segmentation tasks, they have typically demonstrated poor generalisation capability. To be able to generalise from one domain (e.g. one imaging modality) to another, domain adaptation has to be performed. While supervised methods may lead to good performance, they require to fully annotate additional data which may not be an option in practice. In contrast, unsupervised methods don't need additional annotations but are usually unstable and hard to train. In this work, we propose a novel weakly-supervised method. Instead of requiring detailed but time-consuming annotations, scribbles on the target domain are used to perform domain adaptation. This paper introduces a new formulation of domain adaptation based on structured learning and co-segmentation. Our method is easy to train, thanks to the introduction of a regularised loss. The framework is validated on Vestibular Schwannoma segmentation (T1 to T2 scans). Our proposed method outperforms unsupervised approaches and achieves comparable performance to a fully-supervised approach.
翻訳日:2022-11-12 20:09:10 公開日:2020-08-06
# モメンタムに基づく政策勾配法

Momentum-Based Policy Gradient Methods ( http://arxiv.org/abs/2007.06680v2 )

ライセンス: Link先を確認
Feihu Huang, Shangqian Gao, Jian Pei, Heng Huang(参考訳) 本稿では,適応学習率を用い,大規模なバッチを必要としないモデルフリー強化学習のための,運動量に基づく効率的な政策勾配手法を提案する。 具体的には、新しいモーメントベース分散低減手法と重要サンプリング手法に基づく、高速な重要サンプリングモーメントベースポリシー勾配(IS-MBPG)手法を提案する。 また,運動量に基づく分散低減手法とヘシアン支援手法に基づいて,高速なヘシアン支援運動量ベース政策勾配(ha-mbpg)法を提案する。 さらに、IS-MBPG法とHA-MBPG法の両方が、各反復で1つの軌道しか必要としない非凹凸性能関数の$\epsilon$-stationary点を求めるために、$O(\epsilon^{-3})$の最もよく知られたサンプル複雑性に達することを証明した。 特に、IS-MBPG法(IS-MBPG*)の非適応版を提示するが、これは大きなバッチを伴わずに$O(\epsilon^{-3})$の最もよく知られたサンプル複雑性に達する。 実験では,アルゴリズムの有効性を示すために4つのベンチマークタスクを適用した。

In the paper, we propose a class of efficient momentum-based policy gradient methods for the model-free reinforcement learning, which use adaptive learning rates and do not require any large batches. Specifically, we propose a fast important-sampling momentum-based policy gradient (IS-MBPG) method based on a new momentum-based variance reduced technique and the importance sampling technique. We also propose a fast Hessian-aided momentum-based policy gradient (HA-MBPG) method based on the momentum-based variance reduced technique and the Hessian-aided technique. Moreover, we prove that both the IS-MBPG and HA-MBPG methods reach the best known sample complexity of $O(\epsilon^{-3})$ for finding an $\epsilon$-stationary point of the non-concave performance function, which only require one trajectory at each iteration. In particular, we present a non-adaptive version of IS-MBPG method, i.e., IS-MBPG*, which also reaches the best known sample complexity of $O(\epsilon^{-3})$ without any large batches. In the experiments, we apply four benchmark tasks to demonstrate the effectiveness of our algorithms.
翻訳日:2022-11-10 23:49:07 公開日:2020-08-06
# ネット接続を利用したcovid-19胸部ct画像のセグメンテーション

COVID TV-UNet: Segmenting COVID-19 Chest CT Images Using Connectivity Imposed U-Net ( http://arxiv.org/abs/2007.12303v3 )

ライセンス: Link先を確認
Narges Saeedizadeh, Shervin Minaee, Rahele Kafieh, Shakib Yazdani, Milan Sonka(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中で200カ国以上で大流行し、世界中の多くの人々の健康と生活に深刻な影響を与えている。 2020年7月中旬時点で、1200万人以上が感染し、570万人以上が死亡した。 CT画像は、時間を要するRT-PCR検査の代替として、COVID-19を検出するために使用できる。 本研究では, 新型コロナウイルスに感染したCT画像の胸部領域を検出するためのセグメンテーションフレームワークを提案する。 我々は,U-Netモデルに似たアーキテクチャを用いて,地上ガラス領域をピクセルレベルで検出するように訓練する。 感染領域は(ランダムに分散したピクセルではなく)連結成分を形成する傾向があるため、ロス関数に適切な正規化項を加え、COVID-19ピクセルのセグメンテーションマップの接続を促進する。 2d-異方性全変量はこの目的のために用いられており、提案モデルは「tv-unet」と呼ばれる。 約900画像の比較的大規模なctセグメンテーションデータセットにおける実験の結果から,この新たな正規化項を付加すると,u-netモデルと比較して全体のセグメンテーション性能が2-%向上することが示された。 予測した分節化結果の視覚的評価から分節化性能の定量的評価(precision, recall, dice score, miou)まで,肺のcovid-19関連領域の同定,miou率99\%,diceスコア約86\%の達成に至らしめた。

The novel corona-virus disease (COVID-19) pandemic has caused a major outbreak in more than 200 countries around the world, leading to a severe impact on the health and life of many people globally. As of mid-July 2020, more than 12 million people were infected, and more than 570,000 death were reported. Computed Tomography (CT) images can be used as an alternative to the time-consuming RT-PCR test, to detect COVID-19. In this work we propose a segmentation framework to detect chest regions in CT images, which are infected by COVID-19. We use an architecture similar to U-Net model, and train it to detect ground glass regions, on pixel level. As the infected regions tend to form a connected component (rather than randomly distributed pixels), we add a suitable regularization term to the loss function, to promote connectivity of the segmentation map for COVID-19 pixels. 2D-anisotropic total-variation is used for this purpose, and therefore the proposed model is called "TV-UNet". Through experimental results on a relatively large-scale CT segmentation dataset of around 900 images, we show that adding this new regularization term leads to 2\% gain on overall segmentation performance compared to the U-Net model. Our experimental analysis, ranging from visual evaluation of the predicted segmentation results to quantitative assessment of segmentation performance (precision, recall, Dice score, and mIoU) demonstrated great ability to identify COVID-19 associated regions of the lungs, achieving a mIoU rate of over 99\%, and a Dice score of around 86\%.
翻訳日:2022-11-07 06:31:24 公開日:2020-08-06
# 自己回帰事前学習と言語間音声認識モデルを用いた教師なしサブワードモデリング

Unsupervised Subword Modeling Using Autoregressive Pretraining and Cross-Lingual Phone-Aware Modeling ( http://arxiv.org/abs/2007.13002v2 )

ライセンス: Link先を確認
Siyuan Feng, Odette Scharenborg(参考訳) この研究は、教師なしサブワードモデリング、すなわち言語のサブワード単位を区別できる特徴表現の学習に対処する。 提案手法では,自動回帰予測符号化(APC)をフロントエンドとして,DNN-BNFモデルをバックエンドとして,二段階ボトルネック(BNF)学習フレームワークを採用する。 APC事前訓練された機能は、DNN-BNFモデルの入力特徴として設定される。 言語ミスマッチされたASRシステムは、DNN-BNFモデルトレーニングのための言語間電話ラベルを提供するために使用される。 最後に、BNFをサブワード識別特徴表現として抽出する。 この研究の第2の目的は、異なる量のトレーニングデータに対するアプローチの有効性の堅牢性を調べることである。 Libri-lightとZeroSpeech 2017データベースの結果は、APCがフロントエンドの機能事前トレーニングに有効であることを示している。 私たちのシステム全体が、両方のデータベースの最先端を上回っています。 オランダ語 ASR による英語データのための言語間電話ラベルは、マンダリン ASR よりも優れており、おそらくはマンダリンと英語とのより大きな類似性と関連している。 当社のシステムは,トレーニングデータが50時間を超えると,トレーニングデータ量に対する感度が低下する。 APCプレトレーニングは、必要なトレーニング材料を5,000時間以上から200時間程度に短縮し、性能の劣化がほとんどない。

This study addresses unsupervised subword modeling, i.e., learning feature representations that can distinguish subword units of a language. The proposed approach adopts a two-stage bottleneck feature (BNF) learning framework, consisting of autoregressive predictive coding (APC) as a front-end and a DNN-BNF model as a back-end. APC pretrained features are set as input features to a DNN-BNF model. A language-mismatched ASR system is used to provide cross-lingual phone labels for DNN-BNF model training. Finally, BNFs are extracted as the subword-discriminative feature representation. A second aim of this work is to investigate the robustness of our approach's effectiveness to different amounts of training data. The results on Libri-light and the ZeroSpeech 2017 databases show that APC is effective in front-end feature pretraining. Our whole system outperforms the state of the art on both databases. Cross-lingual phone labels for English data by a Dutch ASR outperform those by a Mandarin ASR, possibly linked to the larger similarity of Dutch compared to Mandarin with English. Our system is less sensitive to training data amount when the training data is over 50 hours. APC pretraining leads to a reduction of needed training material from over 5,000 hours to around 200 hours with little performance degradation.
翻訳日:2022-11-07 01:17:34 公開日:2020-08-06
# 教師なし音素セグメンテーションのための自己教師付きコントラスト学習

Self-Supervised Contrastive Learning for Unsupervised Phoneme Segmentation ( http://arxiv.org/abs/2007.13465v2 )

ライセンス: Link先を確認
Felix Kreuk, Joseph Keshet, Yossi Adi(参考訳) 教師なし音素境界検出のための自己教師付き表現学習モデルを提案する。 このモデルは畳み込みニューラルネットワークであり、生の波形を直接操作する。 ノイズコントラスト推定原理を用いて信号のスペクトル変化を識別するために最適化される。 テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。 このように、提案モデルは完全に教師なしの方法で訓練され、ターゲット境界や音素の書き起こしという形で手動のアノテーションが存在しない。 提案手法をtimitとbuckeye corporaを用いた教師なしベースラインと比較した。 その結果,本手法はベースラインモデルを超え,両データセットの最先端性能に達することが示唆された。 さらに,librispeechコーパスから追加例を加えてトレーニングセットを拡張する実験を行った。 学習段階(英語,ヘブライ語,ドイツ語)では見られなかった分布と言語に関するモデルを評価し,さらに書き起こされていないデータを利用することがモデル性能に有益であることを示した。

We propose a self-supervised representation learning model for the task of unsupervised phoneme boundary detection. The model is a convolutional neural network that operates directly on the raw waveform. It is optimized to identify spectral changes in the signal using the Noise-Contrastive Estimation principle. At test time, a peak detection algorithm is applied over the model outputs to produce the final boundaries. As such, the proposed model is trained in a fully unsupervised manner with no manual annotations in the form of target boundaries nor phonetic transcriptions. We compare the proposed approach to several unsupervised baselines using both TIMIT and Buckeye corpora. Results suggest that our approach surpasses the baseline models and reaches state-of-the-art performance on both data sets. Furthermore, we experimented with expanding the training set with additional examples from the Librispeech corpus. We evaluated the resulting model on distributions and languages that were not seen during the training phase (English, Hebrew and German) and showed that utilizing additional untranscribed data is beneficial for model performance.
翻訳日:2022-11-06 08:09:55 公開日:2020-08-06
# 多モーダルPET-CT肺腫瘍切除のための多モーダル空間注意モジュール

Multimodal Spatial Attention Module for Targeting Multimodal PET-CT Lung Tumor Segmentation ( http://arxiv.org/abs/2007.14728v2 )

ライセンス: Link先を確認
Xiaohang Fu, Lei Bi, Ashnil Kumar, Michael Fulham and Jinman Kim(参考訳) がんの評価にはpet-ct(multimodal positron emission tomography-computed tomography)が用いられる。 PET-CTは、腫瘍検出のための高感度とPETとCTの解剖学的情報を組み合わせる。 腫瘍分節はPET-CTの重要な要素であるが,現在,正確な自動分節法は存在しない。 セグメンテーションは、異なる画像の専門家が手動で行う傾向があり、労働集約的であり、エラーや不整合が生じやすい。 従来の自動セグメンテーション手法は主にPETとCTのモダリティから分離して抽出される情報の融合に重点を置いており、各モダリティには相補的な情報が含まれるという前提がある。 しかしこれらの方法は, セグメンテーションを誘導する高いPET腫瘍感受性を十分に利用していない。 腫瘍に関連する領域(空間領域)を自動学習し,生理的高い取り込みで正常領域を抑えるマルチモーダル空間注意モジュール(MSAM)を導入する。 結果として得られた空間的注意マップは、腫瘍の可能性の高い領域のセグメンテーションのために畳み込みニューラルネットワーク(cnn)をターゲットにする。 私たちのMSAMは、共通のバックボーンアーキテクチャやトレーニングされたエンドツーエンドに適用できます。 非小細胞肺癌 (NSCLC) と軟部組織肉腫 (STS) の2種類のPET-CTデータセットによる実験結果から, MSAM の有用性が示唆された。 我々は,従来のU-Netバックボーンを用いたMSAMが,Dice類似度係数(DSC)の7.6%の差で,最先端の肺腫瘍セグメンテーションアプローチを上回ることを示した。

Multimodal positron emission tomography-computed tomography (PET-CT) is used routinely in the assessment of cancer. PET-CT combines the high sensitivity for tumor detection with PET and anatomical information from CT. Tumor segmentation is a critical element of PET-CT but at present, there is not an accurate automated segmentation method. Segmentation tends to be done manually by different imaging experts and it is labor-intensive and prone to errors and inconsistency. Previous automated segmentation methods largely focused on fusing information that is extracted separately from the PET and CT modalities, with the underlying assumption that each modality contains complementary information. However, these methods do not fully exploit the high PET tumor sensitivity that can guide the segmentation. We introduce a multimodal spatial attention module (MSAM) that automatically learns to emphasize regions (spatial areas) related to tumors and suppress normal regions with physiologic high-uptake. The resulting spatial attention maps are subsequently employed to target a convolutional neural network (CNN) for segmentation of areas with higher tumor likelihood. Our MSAM can be applied to common backbone architectures and trained end-to-end. Our experimental results on two clinical PET-CT datasets of non-small cell lung cancer (NSCLC) and soft tissue sarcoma (STS) validate the effectiveness of the MSAM in these different cancer types. We show that our MSAM, with a conventional U-Net backbone, surpasses the state-of-the-art lung tumor segmentation approach by a margin of 7.6% in Dice similarity coefficient (DSC).
翻訳日:2022-11-05 20:10:20 公開日:2020-08-06
# F2GAN:画像生成のためのFusing-and-Filling GAN

F2GAN: Fusing-and-Filling GAN for Few-shot Image Generation ( http://arxiv.org/abs/2008.01999v2 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, Weijie Zhao, Chen Fu, Liqing Zhang(参考訳) 与えられたカテゴリの画像を生成するために、既存の深層生成モデルは一般に豊富な訓練画像に依存している。 しかし、大規模なデータ取得は高価であり、実際のアプリケーションでは限られたデータから高速な学習能力が必要である。 また、これらの既存手法は新しいカテゴリーへの高速適応には適していない。 新しいカテゴリの少数の画像から画像を生成することを目的とした画像生成は、いくつかの研究の関心を集めている。 本稿では,F2GAN(Fusing-and-Filling Generative Adversarial Network)を提案する。 f2ganでは,条件付き画像の高レベルな特徴とランダムな補間係数を融合し,従属する低レベル細部を非局所的注意モジュールで満たし,新たな画像を生成するよう設計した。 さらに,識別器は,損失を求めるモードと補間回帰損失によって生成画像の多様性を確保することができる。 5つのデータセットに対する大規模な実験により,提案手法の有効性が示された。

In order to generate images for a given category, existing deep generative models generally rely on abundant training images. However, extensive data acquisition is expensive and fast learning ability from limited data is necessarily required in real-world applications. Also, these existing methods are not well-suited for fast adaptation to a new category. Few-shot image generation, aiming to generate images from only a few images for a new category, has attracted some research interest. In this paper, we propose a Fusing-and-Filling Generative Adversarial Network (F2GAN) to generate realistic and diverse images for a new category with only a few images. In our F2GAN, a fusion generator is designed to fuse the high-level features of conditional images with random interpolation coefficients, and then fills in attended low-level details with non-local attention module to produce a new image. Moreover, our discriminator can ensure the diversity of generated images by a mode seeking loss and an interpolation regression loss. Extensive experiments on five datasets demonstrate the effectiveness of our proposed method for few-shot image generation.
翻訳日:2022-11-02 18:20:48 公開日:2020-08-06
# 局所的減位基底を持つ非線形ペトロフ・ガレルキン減位モデルの過還元のためのメッシュサンプリングと重み付け

Mesh sampling and weighting for the hyperreduction of nonlinear Petrov-Galerkin reduced-order models with local reduced-order bases ( http://arxiv.org/abs/2008.02891v1 )

ライセンス: Link先を確認
Sebastian Grimberg, Charbel Farhat, Radek Tezaur, Charbel Bou-Mosleh(参考訳) エネルギー保存サンプリングおよび重み付け法 (ECSW) は、ガレルキン射影に基づく大規模有限要素モデルに関連する低次モデル(PROM)の性能を高速化するためにもともと開発された超減算法である。 本稿では, 任意の有限要素, 有限体積, 有限差分半離散化法と, 基礎となる高次元モデルを関連付けることができるペトロフ・ガレルキン PROM まで拡張する。 また、その範囲は、対流支配フロー問題に関連するコルモゴロフ$n$-widthバリア問題を緩和するために設計されたような、断片的なアフィン近似部分空間に基づく局所的な PROM をカバーするように拡張されている。 得られたECSW法は, 頑健かつ高精度であることを示す。 特に、そのオフライン相は高速かつ並列化可能であることが示され、O(10^7)$およびO(10^8)$自由度を持つ乱流問題に対して、産業関連性の大規模応用のためのオンライン相の可能性が示される。 このような問題に対して,petrov-galerkin promsにおいて提案されているecsw方式のオンライン部分により,壁時計時間とcpu時間高速化係数を数桁の精度で実現できることを示した。

The energy-conserving sampling and weighting (ECSW) method is a hyperreduction method originally developed for accelerating the performance of Galerkin projection-based reduced-order models (PROMs) associated with large-scale finite element models, when the underlying projected operators need to be frequently recomputed as in parametric and/or nonlinear problems. In this paper, this hyperreduction method is extended to Petrov-Galerkin PROMs where the underlying high-dimensional models can be associated with arbitrary finite element, finite volume, and finite difference semi-discretization methods. Its scope is also extended to cover local PROMs based on piecewise-affine approximation subspaces, such as those designed for mitigating the Kolmogorov $n$-width barrier issue associated with convection-dominated flow problems. The resulting ECSW method is shown in this paper to be robust and accurate. In particular, its offline phase is shown to be fast and parallelizable, and the potential of its online phase for large-scale applications of industrial relevance is demonstrated for turbulent flow problems with $O(10^7)$ and $O(10^8)$ degrees of freedom. For such problems, the online part of the ECSW method proposed in this paper for Petrov-Galerkin PROMs is shown to enable wall-clock time and CPU time speedup factors of several orders of magnitude while delivering exceptional accuracy.
翻訳日:2022-11-02 08:10:17 公開日:2020-08-06
# 長期記憶を用いた呼吸音の分類

Respiratory Sound Classification Using Long-Short Term Memory ( http://arxiv.org/abs/2008.02900v1 )

ライセンス: Link先を確認
Chelsea Villanueva, Joshua Vincent, Alexander Slowinski, Mohammad-Parsa Hosseini(参考訳) 信頼性の高い音響検出・認識システムの開発は多くの利点があり、様々な産業で有用な応用が期待できる。 本稿では,呼吸病の分類に係わる音の分類を行う際に生じる困難について検討する。 独立成分分析やブラインドソース分離など,いくつかの手法が採用されている。 最後に、そのようなタスクをどのように実装できるかを特定するために、ディープラーニングと長期短期記憶ネットワークの使用に関する検討を行う。

Developing a reliable sound detection and recognition system offers many benefits and has many useful applications in different industries. This paper examines the difficulties that exist when attempting to perform sound classification as it relates to respiratory disease classification. Some methods which have been employed such as independent component analysis and blind source separation are examined. Finally, an examination on the use of deep learning and long short-term memory networks is performed in order to identify how such a task can be implemented.
翻訳日:2022-11-02 08:09:48 公開日:2020-08-06
# ゼロショット多言語音声合成のための音韻特徴

Phonological Features for 0-shot Multilingual Speech Synthesis ( http://arxiv.org/abs/2008.04107v1 )

ライセンス: Link先を確認
Marlene Staib (1), Tian Huey Teh (1), Alexandra Torresquintero (1), Devang S Ram Mohan (1), Lorenzo Foglianti (1), Raphael Lenain (2), Jiameng Gao (1) ((1) Papercup Technologies Ltd., (2) Novoic)(参考訳) コードスイッチング(Code-switching) - 複数の言語の発話内使用。 TTS(text-to-speech)では、コードスイッチングを可能にする多言語モデルが発見されている。 言語入力をシーケンス・ツー・シーケンス TTS に変更することにより,単言語モデルにおいてもトレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。 我々は,母音の高さや正面,子音の場所,態度など,国際音声アルファベット(IPA)から派生した音韻学的特徴の小さなセットを用いる。 これにより、モデルトポロジは異なる言語で変更されず、新しい、以前は見つからなかった機能の組み合わせをモデルによって解釈できる。 これにより、トレーニングで見ることのない音の近似を含む、テスト時に新しい言語で理解可能なコード切り換え音声を生成することができる。

Code-switching---the intra-utterance use of multiple languages---is prevalent across the world. Within text-to-speech (TTS), multilingual models have been found to enable code-switching. By modifying the linguistic input to sequence-to-sequence TTS, we show that code-switching is possible for languages unseen during training, even within monolingual models. We use a small set of phonological features derived from the International Phonetic Alphabet (IPA), such as vowel height and frontness, consonant place and manner. This allows the model topology to stay unchanged for different languages, and enables new, previously unseen feature combinations to be interpreted by the model. We show that this allows us to generate intelligible, code-switched speech in a new language at test time, including the approximation of sounds never seen in training.
翻訳日:2022-11-02 08:09:40 公開日:2020-08-06
# 機械学習モデルにおけるGDPRコンプライアンスのためのデータ最小化

Data Minimization for GDPR Compliance in Machine Learning Models ( http://arxiv.org/abs/2008.04113v1 )

ライセンス: Link先を確認
Abigail Goldsteen, Gilad Ezov, Ron Shmelkin, Micha Moffie, Ariel Farkash(参考訳) EU一般データ保護規則(GDPR)は、データ最小化の原則を義務付けており、特定の目的を達成するために必要なデータのみを収集する必要がある。 しかし、特にニューラルネットワークのような複雑な機械学習モデルにおいて、必要最小限のデータ量を決定することはしばしば困難である。 本稿では,機械学習モデルを用いて予測を行うのに必要な個人データ量を削減し,入力機能の一部を削除または一般化する手法を提案する。 本手法では,モデル内にエンコードされた知識を用いて,その精度にほとんど影響を与えない一般化を行う。 これにより、機械学習モデルの作成者とユーザは、証明可能な方法でデータの最小化を達成できる。

The EU General Data Protection Regulation (GDPR) mandates the principle of data minimization, which requires that only data necessary to fulfill a certain purpose be collected. However, it can often be difficult to determine the minimal amount of data required, especially in complex machine learning models such as neural networks. We present a first-of-a-kind method to reduce the amount of personal data needed to perform predictions with a machine learning model, by removing or generalizing some of the input features. Our method makes use of the knowledge encoded within the model to produce a generalization that has little to no impact on its accuracy. This enables the creators and users of machine learning models to acheive data minimization, in a provable manner.
翻訳日:2022-11-02 08:06:35 公開日:2020-08-06
# 脳波解析による脳卒中診断と予後診断のための機械学習アルゴリズムの検討

Review of Machine Learning Algorithms for Brain Stroke Diagnosis and Prognosis by EEG Analysis ( http://arxiv.org/abs/2008.08118v1 )

ライセンス: Link先を確認
Mohammad-Parsa Hosseini, Cecilia Hemingway, Jerard Madamba, Alexander McKee, Natalie Ploof, Jennifer Schuman, and Elliot Voss(参考訳) 現在、脳卒中は米国における成人障害の主要な原因となっている。 理学療法や組織プラスミノーゲンアクチベーターのような従来の治療やリハビリテーションの選択肢は、患者の移動性と機能を取り戻す効果と能力に制限がある。 その結果、脳卒中に対する治療を大幅に改善する機会がある。 機械学習、特に脳-コンピュータインタフェース(BCI)を使用して、神経系経路の回復または電子補綴物との効果的なコミュニケーションを支援する技術は、脳卒中診断とリハビリテーションの両方に適用した場合、有望な結果を示す。 本総説では、脳卒中患者に対するBCIの設計と実装について、脳卒中診断や脳卒中リハビリテーションへの成功例に基づいて評価し、分類する。 bci技術と組み合わされた様々な機械学習技術とアルゴリズムは、脳卒中治療におけるbcisの使用が有望で急速に拡大していることを示している。

Currently, strokes are the leading cause of adult disability in the United States. Traditional treatment and rehabilitation options such as physical therapy and tissue plasminogen activator are limited in their effectiveness and ability to restore mobility and function to the patient. As a result, there exists an opportunity to greatly improve the treatment for strokes. Machine learning, specifically techniques that utilize Brain-Computer Interfaces (BCIs) to help the patient either restore neurologic pathways or effectively communicate with an electronic prosthetic, show promising results when applied to both stroke diagnosis and rehabilitation. In this review, sources that design and implement BCIs for treatment of stroke patients are evaluated and categorized based on their successful applications for stroke diagnosis or stroke rehabilitation. The various machine learning techniques and algorithms that are addressed and combined with BCI technology show that the use of BCIs for stroke treatment is a promising and rapidly expanding field.
翻訳日:2022-11-02 08:06:22 公開日:2020-08-06
# 経時的シングラムからの高能率非視線イメージング

Efficient Non-Line-of-Sight Imaging from Transient Sinograms ( http://arxiv.org/abs/2008.02787v1 )

ライセンス: Link先を確認
Mariko Isogawa, Dorian Chan, Ye Yuan, Kris Kitani, Matthew O'Toole(参考訳) 非視線(NLOS)イメージング技術は、角の周囲を見るために可視表面(例えば壁)から拡散的に反射する光を使用する。 一つのアプローチは、パルスレーザーと超高速センサーを使用して多重散乱光の移動時間を測定することである。 リレー壁全体のラスター走査点を必要とする既存のnlos技術とは異なり、我々は取得時間と計算要求の両方を削減できるより効率的なnlos走査法を探索する。 本稿では,共通点を照らし,撮像し,壁に沿った円形の経路でこの点を走査するC2NLOS (C2NLOS) スキャンを提案する。 We observe that (1) these C2NLOS measurements consist of a superposition of sinusoids, which we refer to as a transient sinogram, (2) there exists computationally efficient reconstruction procedures that transform these sinusoidal measurements into 3D positions of hidden scatterers or NLOS images of hidden objects, and (3) despite operating on an order of magnitude fewer measurements than previous approaches, these C2NLOS scans provide sufficient information about the hidden scene to solve these different NLOS imaging tasks. シミュレーションと実際のc2nlosスキャンの結果を示す。

Non-line-of-sight (NLOS) imaging techniques use light that diffusely reflects off of visible surfaces (e.g., walls) to see around corners. One approach involves using pulsed lasers and ultrafast sensors to measure the travel time of multiply scattered light. Unlike existing NLOS techniques that generally require densely raster scanning points across the entirety of a relay wall, we explore a more efficient form of NLOS scanning that reduces both acquisition times and computational requirements. We propose a circular and confocal non-line-of-sight (C2NLOS) scan that involves illuminating and imaging a common point, and scanning this point in a circular path along a wall. We observe that (1) these C2NLOS measurements consist of a superposition of sinusoids, which we refer to as a transient sinogram, (2) there exists computationally efficient reconstruction procedures that transform these sinusoidal measurements into 3D positions of hidden scatterers or NLOS images of hidden objects, and (3) despite operating on an order of magnitude fewer measurements than previous approaches, these C2NLOS scans provide sufficient information about the hidden scene to solve these different NLOS imaging tasks. We show results from both simulated and real C2NLOS scans.
翻訳日:2022-11-02 08:05:18 公開日:2020-08-06
# ブラインドバイオリン/ピアノ音源分離のための混合特異的データ拡張技術

Mixing-Specific Data Augmentation Techniques for Improved Blind Violin/Piano Source Separation ( http://arxiv.org/abs/2008.02480v1 )

ライセンス: Link先を確認
Ching-Yu Chiu, Wen-Yi Hsiao, Yin-Cheng Yeh, Yi-Hsuan Yang, Alvin Wen-Yu Su(参考訳) ブラインド音源の分離は、音楽情報検索と信号処理コミュニティの両方において、ポピュラーで活発な研究対象となっている。 教師付きモデルトレーニングに利用可能なマルチトラックデータがないことに対処するため, 異なる曲のトラックを組み合わせて人工ミックスを生成するデータ拡張法が近年, 有用であることが示されている。 そこで本稿では,現代音楽制作ルーチンで使用されるより洗練されたミキシング設定,組み合わせるべきトラック間の関係,沈黙の要因を考慮したデータ拡張手法について検討する。 ケーススタディとして,ピアノ協奏曲におけるヴァイオリンとピアノのトラックの分離について考察し,SDR,SIR,SARといった一般的な測定値を用いて評価を行った。 これらの新たなデータ拡張手法の有効性を検討するとともに、トレーニングデータの量の影響についても検討する。 提案手法は,特に小規模トレーニングデータの場合において,深層学習に基づくソース分離モデルの性能向上に寄与することを示す。

Blind music source separation has been a popular and active subject of research in both the music information retrieval and signal processing communities. To counter the lack of available multi-track data for supervised model training, a data augmentation method that creates artificial mixtures by combining tracks from different songs has been shown useful in recent works. Following this light, we examine further in this paper extended data augmentation methods that consider more sophisticated mixing settings employed in the modern music production routine, the relationship between the tracks to be combined, and factors of silence. As a case study, we consider the separation of violin and piano tracks in a violin piano ensemble, evaluating the performance in terms of common metrics, namely SDR, SIR, and SAR. In addition to examining the effectiveness of these new data augmentation methods, we also study the influence of the amount of training data. Our evaluation shows that the proposed mixing-specific data augmentation methods can help improve the performance of a deep learning-based model for source separation, especially in the case of small training data.
翻訳日:2022-11-02 08:05:00 公開日:2020-08-06
# 発声条件に頑健な話者照合のための発声音声補償

Shouted Speech Compensation for Speaker Verification Robust to Vocal Effort Conditions ( http://arxiv.org/abs/2008.02487v1 )

ライセンス: Link先を確認
Santi Prieto, Alfonso Ortega, Iv\'an L\'opez-Espejo, Eduardo Lleida(参考訳) 話者照合システムの性能は、登録と試験の間の音声の努力条件(例えば、叫び声と正常音声)が異なる場合に劣化する。 これは非協調話者検証作業における潜在的な状況である。 本稿では,ガウス混合モデルを用いて大声および正規音声領域をクラスタ化する組込みの線形補償法について検討する。 これらの補正手法は,音声認識における頑健性から借用され,本研究では,話者検証における発話条件と正常条件とのミスマッチを補償する。 補償の前に、発声条件はロジスティック回帰によって自動的に検出される。 このプロセスは計算量的に軽く、x-vectorシステムのバックエンドで実行される。 実験結果から, 発声音声検出や補償を適用できないシステムに対して, 発声努力ミスマッチの存在下で提案手法を適用すると, 13.8%の誤差率の相対的改善が得られることがわかった。

The performance of speaker verification systems degrades when vocal effort conditions between enrollment and test (e.g., shouted vs. normal speech) are different. This is a potential situation in non-cooperative speaker verification tasks. In this paper, we present a study on different methods for linear compensation of embeddings making use of Gaussian mixture models to cluster shouted and normal speech domains. These compensation techniques are borrowed from the area of robustness for automatic speech recognition and, in this work, we apply them to compensate the mismatch between shouted and normal conditions in speaker verification. Before compensation, shouted condition is automatically detected by means of logistic regression. The process is computationally light and it is performed in the back-end of an x-vector system. Experimental results show that applying the proposed approach in the presence of vocal effort mismatch yields up to 13.8% equal error rate relative improvement with respect to a system that applies neither shouted speech detection nor compensation.
翻訳日:2022-11-02 08:04:41 公開日:2020-08-06
# 変圧器を用いたロバスト音声認識のためのアテンテーティブフュージョン強化オーディオ-ビジュアル符号化

Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based Robust Speech Recognition ( http://arxiv.org/abs/2008.02686v1 )

ライセンス: Link先を確認
Liangfa Wei, Jie Zhang, Junfeng Hou and Lirong Dai(参考訳) 音声・視覚情報融合は、複雑な音響シナリオ、例えば雑音環境において行われる音声認識の性能改善を可能にする。 視聴覚のアライメントとモダリティの信頼性に有効な音声・視覚融合戦略を検討する必要がある。 本稿では,各モダリティを符号化した後に音声と視覚の融合を行う従来のエンドツーエンドアプローチと異なり,符号化プロセスに注意深い融合ブロックを統合することを提案する。 エンコーダモジュールで提案する音声と視覚の融合手法は,両モード間の関連性を生かして,音声と視覚の表現を豊かにすることができる。 トランスベースアーキテクチャと並行して,マルチヘッドアテンションに基づく音声視覚融合と双方向インタラクションを用いた組込み型融合ブロックを実装した。 提案手法は,2つのストリームを十分に組み合わせることで,音響モードに対する過度な信頼を弱める。 lrs3-tedデータセットを用いた実験により, 提案手法は, 清浄, 視認, 視認できない雑音条件下での認識率を0.55%, 4.51%, および4.61%向上させることができた。

Audio-visual information fusion enables a performance improvement in speech recognition performed in complex acoustic scenarios, e.g., noisy environments. It is required to explore an effective audio-visual fusion strategy for audiovisual alignment and modality reliability. Different from the previous end-to-end approaches where the audio-visual fusion is performed after encoding each modality, in this paper we propose to integrate an attentive fusion block into the encoding process. It is shown that the proposed audio-visual fusion method in the encoder module can enrich audio-visual representations, as the relevance between the two modalities is leveraged. In line with the transformer-based architecture, we implement the embedded fusion block using a multi-head attention based audiovisual fusion with one-way or two-way interactions. The proposed method can sufficiently combine the two streams and weaken the over-reliance on the audio modality. Experiments on the LRS3-TED dataset demonstrate that the proposed method can increase the recognition rate by 0.55%, 4.51% and 4.61% on average under the clean, seen and unseen noise conditions, respectively, compared to the state-of-the-art approach.
翻訳日:2022-11-02 08:04:26 公開日:2020-08-06
# Aalto's End-to-End DNN Systems for the InterSPEECH 2020 Computational Paralinguistics Challenge

Aalto's End-to-End DNN systems for the INTERSPEECH 2020 Computational Paralinguistics Challenge ( http://arxiv.org/abs/2008.02689v1 )

ライセンス: Link先を確認
Tam\'as Gr\'osz, Mittul Singh, Sudarsana Reddy Kadiri, Hemant Kathania, Mikko Kurimo(参考訳) エンドツーエンドニューラルネットワークモデル(E2E)は、異なるInterSPEECH ComParEタスクに対して大きなパフォーマンス上のメリットを示している。 以前の作業では、タスクのE2Eモデルの単一インスタンスか、異なるタスクのE2Eアーキテクチャが適用されていた。 しかし、単一モデルの適用は不安定であり、同じアーキテクチャを使うことはタスク固有の情報を利用しない。 我々は,ComParE 2020タスクにおいて,頑健なパフォーマンスを実現するためにE2Eモデルのアンサンブルを適用し,各タスクに対するタスク固有の修正を開発する。 ComParE 2020では、患者が会話中に着用する呼吸ベルトの出力を予測する呼吸サブカレンジ、高齢のスピーカーの覚醒度と価度を推定する高齢者サブカレンジ、マスクサブカレンジの3つのサブカレンジを導入し、スピーカーがマスクを着用しているかどうかを分類する。 それぞれのタスクにおいて、アンサンブルは単一のE2Eモデルより優れている。 呼吸サブキャレンジについて,マルチロス戦略がタスク性能に与える影響について検討する。 高齢者のサブチャレンジでは,有病率と覚醒レベルを予測することにより,マルチタスクトレーニングの調査や,クラス不均衡を扱うためのデータサンプリング戦略の実施が促される。 マスクサブチャレンジでは、機能エンジニアリングなしでe2eシステムを使用することは、機能エンジニアリングベースラインと競合し、機能エンジニアリングベースラインと組み合わせるとかなりの利益をもたらす。

End-to-end neural network models (E2E) have shown significant performance benefits on different INTERSPEECH ComParE tasks. Prior work has applied either a single instance of an E2E model for a task or the same E2E architecture for different tasks. However, applying a single model is unstable or using the same architecture under-utilizes task-specific information. On ComParE 2020 tasks, we investigate applying an ensemble of E2E models for robust performance and developing task-specific modifications for each task. ComParE 2020 introduces three sub-challenges: the breathing sub-challenge to predict the output of a respiratory belt worn by a patient while speaking, the elderly sub-challenge to estimate the elderly speaker's arousal and valence levels and the mask sub-challenge to classify if the speaker is wearing a mask or not. On each of these tasks, an ensemble outperforms the single E2E model. On the breathing sub-challenge, we study the impact of multi-loss strategies on task performance. On the elderly sub-challenge, predicting the valence and arousal levels prompts us to investigate multi-task training and implement data sampling strategies to handle class imbalance. On the mask sub-challenge, using an E2E system without feature engineering is competitive to feature-engineered baselines and provides substantial gains when combined with feature-engineered baselines.
翻訳日:2022-11-02 08:04:04 公開日:2020-08-06
# 教師なしクロスドメイン歌声変換

Unsupervised Cross-Domain Singing Voice Conversion ( http://arxiv.org/abs/2008.02830v1 )

ライセンス: Link先を確認
Adam Polyak, Lior Wolf, Yossi Adi, Yaniv Taigman(参考訳) 任意のアイデンティティから歌唱音声変換を行うためのwav-to-wav生成モデルを提案する。 提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。 提案した生成アーキテクチャは話者の同一性に不変であり、音声や歌唱源を用いて、ラベルのないトレーニングデータからターゲット歌手を生成するように訓練することができる。 このモデルは、歌詞、音符、並列サンプルなどの手動による監督なしに、エンドツーエンドで最適化されている。 提案手法は完全畳み込みであり,リアルタイムに音声を生成することができる。 実験により,本手法がベースライン法を著しく上回り,他の手法よりも音響サンプルの精度が向上したことを示す。

We present a wav-to-wav generative model for the task of singing voice conversion from any identity. Our method utilizes both an acoustic model, trained for the task of automatic speech recognition, together with melody extracted features to drive a waveform-based generator. The proposed generative architecture is invariant to the speaker's identity and can be trained to generate target singers from unlabeled training data, using either speech or singing sources. The model is optimized in an end-to-end fashion without any manual supervision, such as lyrics, musical notes or parallel samples. The proposed approach is fully-convolutional and can generate audio in real-time. Experiments show that our method significantly outperforms the baseline methods while generating convincingly better audio samples than alternative attempts.
翻訳日:2022-11-02 08:03:37 公開日:2020-08-06
# 都市の要因化とリライトを学ぶ

Learning to Factorize and Relight a City ( http://arxiv.org/abs/2008.02796v1 )

ライセンス: Link先を確認
Andrew Liu, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros, Noah Snavely(参考訳) 本研究では,屋外シーンを時間的に異なる照明と永続的なシーン要素に分離する学習型フレームワークを提案する。 古典的な内在的なイメージ分解に触発されて、学習信号には2つの洞察が浮かび上がっています。 1)不連続要因を組み合わせることにより、原像を再構成し、 2) 永久要因は同一シーンの複数の時間的サンプルに対して一定に保たなければならない。 トレーニングを容易にするために、googleストリートビューから屋外のタイムラプス映像を都市規模で収集するデータセットを構築し、同じ場所を時間を通じて繰り返しキャプチャする。 このデータは、時空間的な屋外イメージの前例のない規模を表している。 学習した不整合因子は、照明効果やシーン形状の変化など、現実的な方法で新しい画像を操作できることを示す。 アニメーションの結果は factorize-a-city.github.io をご覧ください。

We propose a learning-based framework for disentangling outdoor scenes into temporally-varying illumination and permanent scene factors. Inspired by the classic intrinsic image decomposition, our learning signal builds upon two insights: 1) combining the disentangled factors should reconstruct the original image, and 2) the permanent factors should stay constant across multiple temporal samples of the same scene. To facilitate training, we assemble a city-scale dataset of outdoor timelapse imagery from Google Street View, where the same locations are captured repeatedly through time. This data represents an unprecedented scale of spatio-temporal outdoor imagery. We show that our learned disentangled factors can be used to manipulate novel images in realistic ways, such as changing lighting effects and scene geometry. Please visit factorize-a-city.github.io for animated results.
翻訳日:2022-11-02 07:56:48 公開日:2020-08-06
# 治療後悪性グリオーマにおける信頼誘導病変マスクを用いた解剖学的および分子的MR画像の同時合成

Confidence-guided Lesion Mask-based Simultaneous Synthesis of Anatomic and Molecular MR Images in Patients with Post-treatment Malignant Gliomas ( http://arxiv.org/abs/2008.02859v1 )

ライセンス: Link先を確認
Pengfei Guo, Puyang Wang, Rajeev Yasarla, Jinyuan Zhou, Vishal M. Patel, and Shanshan Jiang(参考訳) データ駆動型自動アプローチは、神経腫瘍学における様々な臨床診断ジレンマ、特に標準解剖学的および先進的分子mr画像の助けを借りて解決する大きな可能性を示している。 しかし、データ量と品質は依然として重要な決定要因であり、そのようなアプリケーションの可能性には重大な制限がある。 治療後悪性グリオーム患者の解剖学的および分子的MR画像ネットワーク(SAMR)の合成について検討した。 現在,T1-weighted (T1w), Gadolinium enhanced T1w (Gd-T1w), T2-weighted (T2w), and fluid-attenuated inversion recovery (FLAIR), the molecular amide proton transfer-weighted (APTw) sequenceを含む,病変情報からマルチモーダル解剖学的配列にデータを合成する信頼性ガイドSAMR (CG-SAMR) を提案する。 中間結果に対する信頼度測定に基づいて合成をガイドするモジュールを導入する。 さらに,提案アーキテクチャを拡張して教師なし合成を行い,非ペアデータを用いてネットワークのトレーニングを行う。 実臨床データに対する広範囲な実験により,提案モデルが最先端の合成法よりも優れた結果が得られることが示された。

Data-driven automatic approaches have demonstrated their great potential in resolving various clinical diagnostic dilemmas in neuro-oncology, especially with the help of standard anatomic and advanced molecular MR images. However, data quantity and quality remain a key determinant of, and a significant limit on, the potential of such applications. In our previous work, we explored synthesis of anatomic and molecular MR image network (SAMR) in patients with post-treatment malignant glioms. Now, we extend it and propose Confidence Guided SAMR (CG-SAMR) that synthesizes data from lesion information to multi-modal anatomic sequences, including T1-weighted (T1w), gadolinium enhanced T1w (Gd-T1w), T2-weighted (T2w), and fluid-attenuated inversion recovery (FLAIR), and the molecular amide proton transfer-weighted (APTw) sequence. We introduce a module which guides the synthesis based on confidence measure about the intermediate results. Furthermore, we extend the proposed architecture for unsupervised synthesis so that unpaired data can be used for training the network. Extensive experiments on real clinical data demonstrate that the proposed model can perform better than the state-of-theart synthesis methods.
翻訳日:2022-11-02 07:56:36 公開日:2020-08-06
# ブリーフ伝搬を用いたクラッタ内の部分的音像定位

Parts-Based Articulated Object Localization in Clutter Using Belief Propagation ( http://arxiv.org/abs/2008.02881v1 )

ライセンス: Link先を確認
Jana Pavlasek, Stanley Lewis, Karthik Desingh, Odest Chadwicke Jenkins(参考訳) 人間の環境で働くロボットは、ツールの山のような関節で挑戦的な物体を知覚し、行動しなくてはならない。 アーティキュレートされた物体はポーズ推定問題の次元性を高め、乱れの下の部分的な観察はさらなる課題を生み出す。 この問題に対処するために,clutterにおける明瞭な物体の識別的部分認識と局所化手法を提案する。 マルコフランダム場 (MRF) として定式化対象ポーズ推定の問題を定式化する。 このMDFの隠れノードは対象部品のポーズを表現し、エッジは部品間の調音制約を表現する。 効率的な信念伝搬法を用いて, MRF内における局所化を行う。 この方法は、ニューラルネットワークによって生成された観察上の部分分割ヒートマップと、対象部品間の調音制約の両方によって通知される。 生成的・識別的アプローチにより, 可視部からの仮説を用いて閉塞部のポーズを推定することにより, 散在した環境下で機能する。 本研究では,手工具の認識と位置決定のためのテーブルトップ環境における手法の有効性を示す。

Robots working in human environments must be able to perceive and act on challenging objects with articulations, such as a pile of tools. Articulated objects increase the dimensionality of the pose estimation problem, and partial observations under clutter create additional challenges. To address this problem, we present a generative-discriminative parts-based recognition and localization method for articulated objects in clutter. We formulate the problem of articulated object pose estimation as a Markov Random Field (MRF). Hidden nodes in this MRF express the pose of the object parts, and edges express the articulation constraints between parts. Localization is performed within the MRF using an efficient belief propagation method. The method is informed by both part segmentation heatmaps over the observation, generated by a neural network, and the articulation constraints between object parts. Our generative-discriminative approach allows the proposed method to function in cluttered environments by inferring the pose of occluded parts using hypotheses from the visible parts. We demonstrate the efficacy of our methods in a tabletop environment for recognizing and localizing hand tools in uncluttered and cluttered configurations.
翻訳日:2022-11-02 07:56:08 公開日:2020-08-06
# 境界幾何多様体の最適化のための曲率依存性大域収束率

Curvature-Dependant Global Convergence Rates for Optimization on Manifolds of Bounded Geometry ( http://arxiv.org/abs/2008.02517v1 )

ライセンス: Link先を確認
Mario Lezcano-Casado(参考訳) リーマン勾配勾配および動的自明化アルゴリズムにより 1-有界幾何多様体上で定義される弱凸関数の最適化に曲率依存収束率を与える。 これを行うために、私たちは以前に知られていたリーマン指数のヘッシアンのノルムにより厳密な境界を与える。 これらの境界を、特殊直交群や実グラスマン群のような最適化文献で一般的に用いられる多様体に対して明示的に計算する。 その過程で、指数写像の微分のノルム上の完全一般境界の自己完備な証明と、多様体の最適化によく用いられる多様体上のある種のコサイン不等式を示す。

We give curvature-dependant convergence rates for the optimization of weakly convex functions defined on a manifold of 1-bounded geometry via Riemannian gradient descent and via the dynamic trivialization algorithm. In order to do this, we give a tighter bound on the norm of the Hessian of the Riemannian exponential than the previously known. We compute these bounds explicitly for some manifolds commonly used in the optimization literature such as the special orthogonal group and the real Grassmannian. Along the way, we present self-contained proofs of fully general bounds on the norm of the differential of the exponential map and certain cosine inequalities on manifolds, which are commonly used in optimization on manifolds.
翻訳日:2022-11-02 07:55:49 公開日:2020-08-06
# 音響側チャネルを用いたデータセンター電力推定のための機械学習フレームワーク

Machine Learning Based Framework for Estimation of Data Center Power Using Acoustic Side Channel ( http://arxiv.org/abs/2008.02481v1 )

ライセンス: Link先を確認
Mohsen Karimi and Fahimeh Arab(参考訳) データセンターは電力消費が高く、エネルギー効率を向上させる努力にもかかわらず、データセンターのエネルギー消費は増加を続けている。 データセンターにおけるエネルギー認識の必要性は、この領域における膨大な不確実性のため、電力モデリングと推定の利用が依然として大きな課題となっている。 本稿では, サーバルームのファンベース冷却システムにおいて, ファンによる音響サイドチャネルを用いて, 消費電力を推定する機械学習手法を提案する。 そのため、サーバルームのマイクによって記録された音響信号の周波数成分を抽出し、前処理し、推定器として多層ニューラルネットワークに供給する。 提案手法は,85%以上の精度で消費電力を推定することに成功した。

Data centers are high power consumers and the energy consumption of data centers keeps on rising in spite of all the efforts for increasing the energy efficiency. The need for energy-awareness in data centers makes the use of power modeling and estimation to be still a big challenge due to huge amount of uncertainty in this area. In this paper, a machine learning based method is proposed to approximately estimate the amount of power consumption by using acoustic side channel caused by fan in the fan-based cooling system in the server room. For doing so, frequency components of the acoustic signal, recorded by a microphone in the server room, is extracted, pre-processed, and fed to a Multi-Layer Neural-Network as an estimator. The proposed method performed well to estimate the power consumption, having more than 85 percent accuracy.
翻訳日:2022-11-02 07:55:39 公開日:2020-08-06
# UBER-GNN: グラフニューラルネットワークに基づくユーザベースのレコメンデーション

UBER-GNN: A User-Based Embeddings Recommendation based on Graph Neural Networks ( http://arxiv.org/abs/2008.02546v1 )

ライセンス: Link先を確認
Bo Huang, Ye Bi, Zhenyu Wu, Jianming Wang, Jing Xiao(参考訳) セッションベースレコメンデーションの問題は,セッション履歴に基づいたユーザの次のアクションを予測することである。 従来の手法では、セッション履歴をシーケンスにモデル化し、RNNとGNNメソッドによってユーザ潜伏した特徴を推定してレコメンデーションを作成する。 しかし,仮想商品と実商品の両方を用いた大規模かつ複雑な金融レコメンデーションシナリオでは,ユーザの潜在機能を正確に表現し,ユーザの長期的な特性を無視するには不十分である。 長期的な嗜好と動的関心を考慮した新しい手法、すなわち、グラフニューラルネットワークを用いたユーザーベース埋め込みレコメンデーション、uber-gnn for brevityを提案する。 UBER-GNNは構造化データを利用して長期のユーザの好みを生成し、セッションシーケンスをグラフに転送し、グラフベースの動的関心事を生成する。 そして、最後のユーザ潜在機能は、注意機構を使用して、長期的な嗜好と動的関心の合成として表現される。 実際のPingで実施された大規模な実験は、UBER-GNNが最先端のセッションベースのレコメンデーションメソッドより優れていることを示している。

The problem of session-based recommendation aims to predict user next actions based on session histories. Previous methods models session histories into sequences and estimate user latent features by RNN and GNN methods to make recommendations. However under massive-scale and complicated financial recommendation scenarios with both virtual and real commodities , such methods are not sufficient to represent accurate user latent features and neglect the long-term characteristics of users. To take long-term preference and dynamic interests into account, we propose a novel method, i.e. User-Based Embeddings Recommendation with Graph Neural Network, UBER-GNN for brevity. UBER-GNN takes advantage of structured data to generate longterm user preferences, and transfers session sequences into graphs to generate graph-based dynamic interests. The final user latent feature is then represented as the composition of the long-term preferences and the dynamic interests using attention mechanism. Extensive experiments conducted on real Ping An scenario show that UBER-GNN outperforms the state-of-the-art session-based recommendation methods.
翻訳日:2022-11-02 07:54:54 公開日:2020-08-06
# 優先選択モデルに対する一般解法

A general solution to the preferential selection model ( http://arxiv.org/abs/2008.02885v1 )

ライセンス: Link先を確認
Jake Ryland Williams, Diana Solano-Oropeza, and Jacob R. Hunsberger(参考訳) 時間発展する新規関数に対するハーバート・サイモンの1955年モデルに対する一般的な解析解を提供する。 Simon's is a pre-cursor model for Barabasi's 1999 preferential attachment model for growing social networks, and our general abstract of it is considered a form of link selection。 例えば、出現データ(頻度)のインスタンスとしてモデル化できる任意のシステムは、分布的視点から、非常に高い精度で生成的にモデル化できる(そしてシミュレートすることができる)。

We provide a general analytic solution to Herbert Simon's 1955 model for time-evolving novelty functions. This has far-reaching consequences: Simon's is a pre-cursor model for Barabasi's 1999 preferential attachment model for growing social networks, and our general abstraction of it more considers attachment to be a form of link selection. We show that any system which can be modeled as instances of types---i.e., occurrence data (frequencies)---can be generatively modeled (and simulated) from a distributional perspective with an exceptionally high-degree of accuracy.
翻訳日:2022-11-02 07:48:16 公開日:2020-08-06
# 言語による幼児音声学習の計算モデルの評価

Evaluating computational models of infant phonetic learning across languages ( http://arxiv.org/abs/2008.02888v1 )

ライセンス: Link先を確認
Yevgen Matusevych, Thomas Schatz, Herman Kamper, Naomi H. Feldman, Sharon Goldwater(参考訳) 生後1年で、幼児の言語知覚は母国語の音に合致するようになる。 この初期の音声学習の多くの説明は存在するが、幼児の聴覚入力から観察される減衰パターンを予測する計算モデルが不足している。 最近の研究では、自然言語から教師なし学習のために提案されたアルゴリズムを基にした最初のモデルが提示され、単一の電話コントラストでテストされた。 本稿では,5つのアルゴリズムについて検討する。 我々は,各アルゴリズムを用いて音韻学習をシミュレートし,幼児の識別パターンと比較し,異なる言語と異なる3つの電話コントラストでテストを行う。 5つのモデルは経験的観察と異なる程度に一致しており、我々のアプローチは初期の音韻学習の候補メカニズムを決定するのに役立ち、モデルのどの側面が幼児の知覚発達を捉えるのに重要であるかを知るのに役立ちます。

In the first year of life, infants' speech perception becomes attuned to the sounds of their native language. Many accounts of this early phonetic learning exist, but computational models predicting the attunement patterns observed in infants from the speech input they hear have been lacking. A recent study presented the first such model, drawing on algorithms proposed for unsupervised learning from naturalistic speech, and tested it on a single phone contrast. Here we study five such algorithms, selected for their potential cognitive relevance. We simulate phonetic learning with each algorithm and perform tests on three phone contrasts from different languages, comparing the results to infants' discrimination patterns. The five models display varying degrees of agreement with empirical observations, showing that our approach can help decide between candidate mechanisms for early phonetic learning, and providing insight into which aspects of the models are critical for capturing infants' perceptual development.
翻訳日:2022-11-02 07:48:05 公開日:2020-08-06
# ロバスト学習のためのノイズデータからの回収可能なサンプル

Salvage Reusable Samples from Noisy Data for Robust Learning ( http://arxiv.org/abs/2008.02427v1 )

ライセンス: Link先を確認
Zeren Sun, Xian-Sheng Hua, Yazhou Yao, Xiu-Shen Wei, Guosheng Hu, Jian Zhang(参考訳) Web画像にラベルノイズがあり、ディープニューラルネットワークの高記憶能力があるため、Web画像を介して直接深部きめ細かい(FG)モデルを訓練することは、認識能力が劣る傾向にある。 この問題を緩和するために、損失補正法はノイズ遷移行列の推定を試みるが、避けられない誤訂正は重度の累積誤差を引き起こす。 サンプル選択方法は、小さな損失が蓄積したエラーを軽減できるという事実に基づいて、クリーンな(簡単)サンプルを識別する。 しかし、FGモデルのロバスト性を高める「ハード」と「ミスラベル」の例も減少する。 そこで本研究では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処する,確実性に基づく再利用可能なサンプル選択と修正手法を提案する。 重要なアイデアは、再利用可能なサンプルを識別して修正し、それらをクリーンなサンプルと一緒に活用してネットワークを更新することです。 理論と実験の両方の観点から,提案手法の優越性を示す。

Due to the existence of label noise in web images and the high memorization capacity of deep neural networks, training deep fine-grained (FG) models directly through web images tends to have an inferior recognition ability. In the literature, to alleviate this issue, loss correction methods try to estimate the noise transition matrix, but the inevitable false correction would cause severe accumulated errors. Sample selection methods identify clean ("easy") samples based on the fact that small losses can alleviate the accumulated errors. However, "hard" and mislabeled examples that can both boost the robustness of FG models are also dropped. To this end, we propose a certainty-based reusable sample selection and correction approach, termed as CRSSC, for coping with label noise in training deep FG models with web images. Our key idea is to additionally identify and correct reusable samples, and then leverage them together with clean examples to update the networks. We demonstrate the superiority of the proposed approach from both theoretical and experimental perspectives.
翻訳日:2022-11-02 07:47:28 公開日:2020-08-06
# GL-GAN:画像生成の適応的グローバルおよび局所二レベル最適化モデル

GL-GAN: Adaptive Global and Local Bilevel Optimization model of Image Generation ( http://arxiv.org/abs/2008.02436v1 )

ライセンス: Link先を確認
Ying Liu and Wenhong Cai and Xiaohui Yuan and Jinhai Xiang(参考訳) Generative Adversarial Networksは画像生成において顕著な性能を示したが、画像リアリズムと収束速度にはいくつかの課題がある。 いくつかのモデルの結果は、生成画像内の品質の不均衡を示し、いくつかの欠陥部分が他の領域と比較される。 一般のグローバル最適化法と異なり、適応的グローバル・ローカル・バイレベル最適化モデル(GL-GAN)を導入する。 このモデルは,高解像度画像の生成を補完的かつ促進的に実現し,大域的な最適化は画像全体の最適化であり,局所的な最適化は低品質領域の最適化に限られる。 GL-GANは、単純なネットワーク構造により、局所的な二段階最適化により、不均衡の性質を効果的に回避することができる。 さらに,識別器出力からの特徴地図を用いて,特定実装のための適応型局所的大域的最適化手法(ada-op)を提案し,収束速度を向上させることを示す。 現在のGAN手法と比較して、我々のモデルはCelebA, CelebA-HQ, LSUNデータセットで素晴らしい性能を示している。

Although Generative Adversarial Networks have shown remarkable performance in image generation, there are some challenges in image realism and convergence speed. The results of some models display the imbalances of quality within a generated image, in which some defective parts appear compared with other regions. Different from general single global optimization methods, we introduce an adaptive global and local bilevel optimization model(GL-GAN). The model achieves the generation of high-resolution images in a complementary and promoting way, where global optimization is to optimize the whole images and local is only to optimize the low-quality areas. With a simple network structure, GL-GAN is allowed to effectively avoid the nature of imbalance by local bilevel optimization, which is accomplished by first locating low-quality areas and then optimizing them. Moreover, by using feature map cues from discriminator output, we propose the adaptive local and global optimization method(Ada-OP) for specific implementation and find that it boosts the convergence speed. Compared with the current GAN methods, our model has shown impressive performance on CelebA, CelebA-HQ and LSUN datasets.
翻訳日:2022-11-02 07:47:13 公開日:2020-08-06
# データ駆動型メタセットに基づく細粒度視覚分類

Data-driven Meta-set Based Fine-Grained Visual Classification ( http://arxiv.org/abs/2008.02438v1 )

ライセンス: Link先を確認
Chuanyi Zhang, Yazhou Yao, Xiangbo Shu, Zechao Li, Zhenmin Tang, Qi Wu(参考訳) きめ細かい画像データセットを構築するには、一般的にドメイン固有の専門家の知識が必要です。 これにより、Web画像から直接学習することが、きめ細かい視覚認識の代替方法となる。 しかし、Webトレーニングセットのラベルノイズは、モデル性能を著しく劣化させる可能性がある。 そこで本研究では,難易度の高いWeb画像の粒度認識のための,データ駆動型メタセットに基づくアプローチを提案する。 具体的には、少量のクリーンなメタセットでガイドされ、選択ネットをメタラーニングで訓練し、非分布ノイズ画像の識別を行う。 モデルのロバスト性をさらに高めるために,分布内ノイズデータのラベルを補正するラベル付けネットも学習する。 そこで,提案手法は,分散ノイズによる有害な影響を軽減し,分布内ノイズを適切に活用してトレーニングを行う。 広範に使用される3つのきめ細かなデータセットに関する広範な実験は、我々のアプローチが最先端のノイズロバスト法よりも優れていることを示している。

Constructing fine-grained image datasets typically requires domain-specific expert knowledge, which is not always available for crowd-sourcing platform annotators. Accordingly, learning directly from web images becomes an alternative method for fine-grained visual recognition. However, label noise in the web training set can severely degrade the model performance. To this end, we propose a data-driven meta-set based approach to deal with noisy web images for fine-grained recognition. Specifically, guided by a small amount of clean meta-set, we train a selection net in a meta-learning manner to distinguish in- and out-of-distribution noisy images. To further boost the robustness of model, we also learn a labeling net to correct the labels of in-distribution noisy data. In this way, our proposed method can alleviate the harmful effects caused by out-of-distribution noise and properly exploit the in-distribution noisy samples for training. Extensive experiments on three commonly used fine-grained datasets demonstrate that our approach is much superior to state-of-the-art noise-robust methods.
翻訳日:2022-11-02 07:46:53 公開日:2020-08-06
# ウェアラブル受動rfidによる手書き文字認識

Handwritten Character Recognition from Wearable Passive RFID ( http://arxiv.org/abs/2008.02543v1 )

ライセンス: Link先を確認
Leevi Raivio, Han He, Johanna Virkki, Heikki Huttunen(参考訳) 本稿では,新しいウェアラブル型電子テキスタイルセンサパネルで取得したデータから手書き文字の認識について検討する。 データは順次収集され、ストローク順と結果のビットマップの両方を記録する。 本稿では,シーケンスとビットマップ表現を融合した前処理パイプラインを提案する。 データは全7500文字を含む10の被験者から収集される。 また,10×10ピクセルの小さな入力サイズにもかかわらず,従来のImageNet事前学習ネットワークをうまく利用するための新しいアップサンプリング構造を持つ畳み込みニューラルネットワークアーキテクチャを提案する。 実験では,提案モデルが72\%精度に達し,この難解なデータセットの精度が向上したと考えられる。 データとモデルの両方が公開されています。

In this paper we study the recognition of handwritten characters from data captured by a novel wearable electro-textile sensor panel. The data is collected sequentially, such that we record both the stroke order and the resulting bitmap. We propose a preprocessing pipeline that fuses the sequence and bitmap representations together. The data is collected from ten subjects containing altogether 7500 characters. We also propose a convolutional neural network architecture, whose novel upsampling structure enables successful use of conventional ImageNet pretrained networks, despite the small input size of only 10x10 pixels. The proposed model reaches 72\% accuracy in experimental tests, which can be considered good accuracy for this challenging dataset. Both the data and the model are released to the public.
翻訳日:2022-11-02 07:46:36 公開日:2020-08-06
# 深層ニューラルネットワークにおけるデータ型認識によるデータ再利用のモデル化

Modeling Data Reuse in Deep Neural Networks by Taking Data-Types into Cognizance ( http://arxiv.org/abs/2008.02565v1 )

ライセンス: Link先を確認
Nandan Kumar Jha and Sparsh Mittal(参考訳) 近年、研究者はDNNのモデルサイズと計算量("multiply-accumulate" または MAC 操作として測定される)の削減に注力している。 DNNのエネルギー消費はMAC演算数とMAC演算のエネルギー効率の両方に依存する。 前者は設計時に見積もることができるが、後者は複雑なデータ再利用パターンと基盤となるハードウェアアーキテクチャに依存している。 したがって、それを設計時に見積もることは難しい。 本研究は,データ再利用量を推定する従来の手法であるviz. arithmetic intensityは,dnnにおけるデータ再利用の程度を必ずしも正確に推定するものではないことを示す。 本稿では,DNNにおける異なるデータ型の重要性を考慮に入れた「データ型認識重み付き算術強度」(DI$)と呼ばれる新しいモデルを提案する。 2つのGPU上で25の最先端DNNでモデルを評価する。 本モデルでは,様々な種類の畳み込みと異なる層のデータ再利用パターンに対して,データ再利用を正確にモデル化することを示す。 我々のモデルは、dnnのエネルギー効率のより良い指標であることを示す。 また、中心極限定理を用いてその一般性を示す。

In recent years, researchers have focused on reducing the model size and number of computations (measured as "multiply-accumulate" or MAC operations) of DNNs. The energy consumption of a DNN depends on both the number of MAC operations and the energy efficiency of each MAC operation. The former can be estimated at design time; however, the latter depends on the intricate data reuse patterns and underlying hardware architecture. Hence, estimating it at design time is challenging. This work shows that the conventional approach to estimate the data reuse, viz. arithmetic intensity, does not always correctly estimate the degree of data reuse in DNNs since it gives equal importance to all the data types. We propose a novel model, termed "data type aware weighted arithmetic intensity" ($DI$), which accounts for the unequal importance of different data types in DNNs. We evaluate our model on 25 state-of-the-art DNNs on two GPUs. We show that our model accurately models data-reuse for all possible data reuse patterns for different types of convolution and different types of layers. We show that our model is a better indicator of the energy efficiency of DNNs. We also show its generality using the central limit theorem.
翻訳日:2022-11-02 07:46:26 公開日:2020-08-06
# 自律型ドローンレースにおけるニューラルネットワーク学習のための画像生成

Image Generation for Efficient Neural Network Training in Autonomous Drone Racing ( http://arxiv.org/abs/2008.02596v1 )

ライセンス: Link先を確認
Theo Morales, Andriy Sarabakha, Erdal Kayacan(参考訳) ドローンレース(drone racing)は、衝突を避けながら、最小限の時間で一連のゲートを通過することを目標とするレクリエーションスポーツである。 自律型ドローンレースでは、ターゲットゲートを検出するコンピュータビジョン手法にのみ依存して、未知の環境で完全に自律的に飛行することで、この課題を達成する必要がある。 背景オブジェクトや様々な照明条件などの課題のため、色や幾何学に基づく従来の物体検出アルゴリズムは失敗する傾向にある。 畳み込みニューラルネットワークはコンピュータビジョンの素晴らしい進歩をもたらすが、学習するには膨大なデータを必要とする。 このデータ収集は、ドローンを手動で飛行させる必要があり、収集されたデータはセンサーの故障に苦しむため、面倒なプロセスである。 本研究では,実際の背景画像とランダム化されたゲートの3dレンダリングを組み合わせた半合成データセット生成法を提案する。 検出結果を用いて、ゲートを横断する行順誘導アルゴリズムを用いる。 いくつかの実験的なリアルタイムテストにおいて、提案するフレームワークは高速で信頼性の高い検出とナビゲーションをうまく実証する。

Drone racing is a recreational sport in which the goal is to pass through a sequence of gates in a minimum amount of time while avoiding collisions. In autonomous drone racing, one must accomplish this task by flying fully autonomously in an unknown environment by relying only on computer vision methods for detecting the target gates. Due to the challenges such as background objects and varying lighting conditions, traditional object detection algorithms based on colour or geometry tend to fail. Convolutional neural networks offer impressive advances in computer vision but require an immense amount of data to learn. Collecting this data is a tedious process because the drone has to be flown manually, and the data collected can suffer from sensor failures. In this work, a semi-synthetic dataset generation method is proposed, using a combination of real background images and randomised 3D renders of the gates, to provide a limitless amount of training samples that do not suffer from those drawbacks. Using the detection results, a line-of-sight guidance algorithm is used to cross the gates. In several experimental real-time tests, the proposed framework successfully demonstrates fast and reliable detection and navigation.
翻訳日:2022-11-02 07:46:07 公開日:2020-08-06
# 複雑な医療質問応答に対する知識抽出による解釈可能な多段階推論

Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex Healthcare Question Answering ( http://arxiv.org/abs/2008.02434v1 )

ライセンス: Link先を確認
Ye Liu, Shaika Chowdhury, Chenwei Zhang, Cornelia Caragea, Philip S. Yu(参考訳) 医療質問応答支援は、Webとモバイルの両方で広く見られる顧客医療情報の提供を目的としている。 質問は通常、熟練した医療背景知識と知識に対する推論能力の獲得を支援する必要がある。 近年、公衆医療専門試験に認定された複数項目の質問を含む、複雑な医療推論であるHeadQAデータセットが提案されている。 言語理解に重点を置く他のほとんどのQAタスクとは異なり、HeadQAは知識抽出だけでなく、医療知識の複雑な推論も含む深い推論を必要とする。 これらの質問は現在のQAシステムにとって最も難しい問題であり、最先端の手法の現在の性能はランダムな推測よりもわずかに優れている。 この課題を解決するために,知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。 提案フレームワークはまず,医療知識を大規模コーパスから支援文書として抽出する。 推論チェインを見つけ、正しい回答を選択するために、murke氏は、サポートドキュメントの選択と、サポートドキュメントによるクエリ表現の再構成と、補足モデルを使用して各選択に対する補足スコアの取得を繰り返す。 修正モジュールは、解釈可能性を維持するために、選択した文書を活用する。 さらに,市販の事前学習モデルの利用にも全力を挙げている。 トレーニング可能な重量が少なければ、トレーニング済みのモデルは、限られたトレーニングサンプルで、医療タスクに容易に適応できる。 実験結果とアブレーションの結果から,本システムはHeadQAデータセットにおいて,いくつかの強いベースラインを上回りうることがわかった。

Healthcare question answering assistance aims to provide customer healthcare information, which widely appears in both Web and mobile Internet. The questions usually require the assistance to have proficient healthcare background knowledge as well as the reasoning ability on the knowledge. Recently a challenge involving complex healthcare reasoning, HeadQA dataset, has been proposed, which contains multiple-choice questions authorized for the public healthcare specialization exam. Unlike most other QA tasks that focus on linguistic understanding, HeadQA requires deeper reasoning involving not only knowledge extraction, but also complex reasoning with healthcare knowledge. These questions are the most challenging for current QA systems, and the current performance of the state-of-the-art method is slightly better than a random guess. In order to solve this challenging task, we present a Multi-step reasoning with Knowledge extraction framework (MurKe). The proposed framework first extracts the healthcare knowledge as supporting documents from the large corpus. In order to find the reasoning chain and choose the correct answer, MurKe iterates between selecting the supporting documents, reformulating the query representation using the supporting documents and getting entailment score for each choice using the entailment model. The reformulation module leverages selected documents for missing evidence, which maintains interpretability. Moreover, we are striving to make full use of off-the-shelf pre-trained models. With less trainable weight, the pre-trained model can easily adapt to healthcare tasks with limited training samples. From the experimental results and ablation study, our system is able to outperform several strong baselines on the HeadQA dataset.
翻訳日:2022-11-02 07:39:43 公開日:2020-08-06
# 抽象的論証フレームワークのセマンティクスについて:論理プログラミングのアプローチ

On the Semantics of Abstract Argumentation Frameworks: A Logic Programming Approach ( http://arxiv.org/abs/2008.02550v1 )

ライセンス: Link先を確認
Gianvincenzo Alfano, Sergio Greco, Francesco Parisi, Irina Trubitsyna(参考訳) 最近、Dungの抽象Argumentation Framework(AF)を拡張するフレームワークへの関心が高まっている。 人気のある拡張には、再帰攻撃と必要なサポートを備えた双極性AFとAFが含まれる。 AFセマンティクスと論理プログラムの部分安定モデル(PSM)の関係は深く研究されているが、より一般的なフレームワークではそうではない。 本稿では,AFベースのフレームワークとPSMの関係について検討する。 すべての AF ベースのフレームワーク $\Delta$ は論理プログラム $P_\Delta$ に変換可能であるので、$\Delta$ の異なるセマンティクスによって規定される拡張は、$P_\Delta$ の PSM の部分集合と一致する。 我々は、いくつかのafベースのフレームワークのセマンティクスをエレガントかつ均一に特徴付ける論理プログラミングアプローチを提供する。 これにより、再帰攻撃を伴うAFや再帰的推論サポートなど、新しいAFベースのフレームワークのセマンティクスも定義できる。 論理プログラミングの理論と実践における出版について考察する。

Recently there has been an increasing interest in frameworks extending Dung's abstract Argumentation Framework (AF). Popular extensions include bipolar AFs and AFs with recursive attacks and necessary supports. Although the relationships between AF semantics and Partial Stable Models (PSMs) of logic programs has been deeply investigated, this is not the case for more general frameworks extending AF. In this paper we explore the relationships between AF-based frameworks and PSMs. We show that every AF-based framework $\Delta$ can be translated into a logic program $P_\Delta$ so that the extensions prescribed by different semantics of $\Delta$ coincide with subsets of the PSMs of $P_\Delta$. We provide a logic programming approach that characterizes, in an elegant and uniform way, the semantics of several AF-based frameworks. This result allows also to define the semantics for new AF-based frameworks, such as AFs with recursive attacks and recursive deductive supports. Under consideration for publication in Theory and Practice of Logic Programming.
翻訳日:2022-11-02 07:39:03 公開日:2020-08-06
# 触覚ロボットのための深層強化学習:点字キーボードで入力する学習

Deep Reinforcement Learning for Tactile Robotics: Learning to Type on a Braille Keyboard ( http://arxiv.org/abs/2008.02646v1 )

ライセンス: Link先を確認
Alex Church, John Lloyd, Raia Hadsell and Nathan F. Lepora(参考訳) どちらのパラダイムも環境とのインタラクションに依存しているため、人工的なタッチは強化学習(rl)に適しているように思える。 そこで本研究では,ブライルキーボードの入力学習という,触覚強化学習の開発を促進するための,新しい環境とタスクセットを提案する。 4つのタスクが提案され、矢印からアルファベットキー、離散的から連続的なアクションまで難易度が高い。 また、物理環境から触覚データをサンプリングしてシミュレーションを行う。 最先端の深層RLアルゴリズムを用いて、これらのタスクはシミュレーションでうまく学習でき、実際のロボットで4つのうち3つが学習可能であることを示す。 現在サンプル効率の欠如は、連続アルファベットタスクをロボットに非現実的にさせる。 我々の知る限り、本研究は触覚画像のみからなる観察結果を用いて、現実世界における深部RLエージェントのトレーニングに成功した最初の実演である。 この環境を利用した将来の研究を支援するため、このプロジェクトのコードは、3Dプリンティングのための点字キーキャップの設計と実験を再現するためのガイドと共にリリースされた。 簡単なビデオ要約もhttps://youtu.be/enylca2ue_eで公開されている。

Artificial touch would seem well-suited for Reinforcement Learning (RL), since both paradigms rely on interaction with an environment. Here we propose a new environment and set of tasks to encourage development of tactile reinforcement learning: learning to type on a braille keyboard. Four tasks are proposed, progressing in difficulty from arrow to alphabet keys and from discrete to continuous actions. A simulated counterpart is also constructed by sampling tactile data from the physical environment. Using state-of-the-art deep RL algorithms, we show that all of these tasks can be successfully learnt in simulation, and 3 out of 4 tasks can be learned on the real robot. A lack of sample efficiency currently makes the continuous alphabet task impractical on the robot. To the best of our knowledge, this work presents the first demonstration of successfully training deep RL agents in the real world using observations that exclusively consist of tactile images. To aid future research utilising this environment, the code for this project has been released along with designs of the braille keycaps for 3D printing and a guide for recreating the experiments. A brief video summary is also available at https://youtu.be/eNylCA2uE_E.
翻訳日:2022-11-02 07:38:44 公開日:2020-08-06
# ICHD-3国際分類による頭痛疾患診断のための論理に基づく意思決定支援システム

A logic-based decision support system for the diagnosis of headache disorders according to the ICHD-3 international classification ( http://arxiv.org/abs/2008.02747v1 )

ライセンス: Link先を確認
Roberta Costabile, Gelsomina Catalano, Bernardo Cuteri, Maria Concetta Morelli, Nicola Leone, Marco Manna(参考訳) 医療分野における意思決定支援システムの役割は、臨床医が複雑な意思決定プロセスをより効率的かつ効果的に扱うように支援できることにある。 しかし、頭痛障害の診断においては、既存のアプローチやツールはまだ最適ではない。 一方、この複雑で広範囲にわたる障害の診断を支援するため、国際頭部疾患協会(ICHD)は1988年に国際頭部障害分類(ICHD)を第3版に発表し、300種類以上の頭痛を分類する200ページの文書を作成した。 一方、多くの頭痛障害とその複雑な基準は、医療史のプロセスが不正確であり、臨床医と既存の自動ツールの両方に不正確なものである。 このギャップを埋めるために,頭痛疾患の診断のための新しい意思決定支援システムであるHEAD-ASPを提案する。 REST Webサービスを通じて、HEAD-ASPは、ICHD-3に準拠した動的アンケートを実装し、2つの論理モジュールを使用して、患者に提示される質問の総数を最小限に抑えながら、完全な診断に到達する。 最後に、HEAD-ASPはオンラインで無料で利用可能であり、テスト中の神経学者グループから非常に肯定的なフィードバックを受けている。

Decision support systems play an important role in medical fields as they can augment clinicians to deal more efficiently and effectively with complex decision-making processes. In the diagnosis of headache disorders, however, existing approaches and tools are still not optimal. On the one hand, to support the diagnosis of this complex and vast spectrum of disorders, the International Headache Society released in 1988 the International Classification of Headache Disorders (ICHD), now in its 3rd edition: a 200 pages document classifying more than 300 different kinds of headaches, where each is identified via a collection of specific nontrivial diagnostic criteria. On the other hand, the high number of headache disorders and their complex criteria make the medical history process inaccurate and not exhaustive both for clinicians and existing automatic tools. To fill this gap, we present HEAD-ASP, a novel decision support system for the diagnosis of headache disorders. Through a REST Web Service, HEAD-ASP implements a dynamic questionnaire that complies with ICHD-3 by exploiting two logical modules to reach a complete diagnosis while trying to minimize the total number of questions being posed to patients. Finally, HEAD-ASP is freely available on-line and it is receiving very positive feedback from the group of neurologists that is testing it.
翻訳日:2022-11-02 07:38:25 公開日:2020-08-06
# タスク依存型多周期ワークフォーススケジューリングとルーティング問題

A Multiperiod Workforce Scheduling and Routing Problem with Dependent Tasks ( http://arxiv.org/abs/2008.02849v1 )

ライセンス: Link先を確認
Dilson Lucas Pereira, J\'ulio C\'esar Alves, Mayron C\'esar de Oliveira Moreira(参考訳) 本稿では,多周期作業量スケジューリング・ルーティング問題と依存タスクを用いた新しい作業量スケジューリング・ルーティング問題について検討する。 この問題では、顧客は企業からサービスを要求する。 各サービスは依存するタスクで構成されており、1日ないしそれ以上のさまざまなスキルを持ったチームによって実行される。 サービスに属するタスクは異なるチームによって実行され、優先権が侵害されない限り、顧客は1日に1回以上訪問することができる。 目的は、チームのスケジュールとルートを最小限にするために、すなわち、すべてのサービスが最低日数で完了するようにすることである。 この問題を解決するために,ant colony optimization(aco)メタヒューリスティックに基づく混合整数型プログラミングモデル,構成的アルゴリズム,ヒューリスティックアルゴリズムを提案する。 優先制約が存在するため、効率的な局所探索アルゴリズムの開発は困難である。 これはACOメタヒューリスティックの選択を動機付けており、これは建設過程を良い解へと導くのに有効である。 計算結果から、このモデルは最大20人の顧客と60のタスクで一貫して問題を解決できることがわかった。 ほとんどの場合、最高のパフォーマンスのACOアルゴリズムは、計算時間のごく一部でモデルが提供する最良の解と一致することができた。

In this paper, we study a new Workforce Scheduling and Routing Problem, denoted Multiperiod Workforce Scheduling and Routing Problem with Dependent Tasks. In this problem, customers request services from a company. Each service is composed of dependent tasks, which are executed by teams of varying skills along one or more days. Tasks belonging to a service may be executed by different teams, and customers may be visited more than once a day, as long as precedences are not violated. The objective is to schedule and route teams so that the makespan is minimized, i.e., all services are completed in the minimum number of days. In order to solve this problem, we propose a Mixed-Integer Programming model, a constructive algorithm and heuristic algorithms based on the Ant Colony Optimization (ACO) metaheuristic. The presence of precedence constraints makes it difficult to develop efficient local search algorithms. This motivates the choice of the ACO metaheuristic, which is effective in guiding the construction process towards good solutions. Computational results show that the model is capable of consistently solving problems with up to about 20 customers and 60 tasks. In most cases, the best performing ACO algorithm was able to match the best solution provided by the model in a fraction of its computational time.
翻訳日:2022-11-02 07:38:03 公開日:2020-08-06
# 単純化したオーバーグラウンド論理プログラムのインクリメンタルメンテナンス

Incremental maintenance of overgrounded logic programs with tailored simplifications ( http://arxiv.org/abs/2008.04108v1 )

ライセンス: Link先を確認
Giovambattista Ianni, Francesco Pacenza and Jessica Zangari(参考訳) 推論タスクの繰り返し実行は、ストリーム推論やイベント処理など、多くの適用シナリオで望ましい。 このような文脈で応答集合プログラミングを使用する場合、基底プログラムの反復生成を避けることができ、計算時間の観点から大きな利益を得ることができる。 しかし、これはある程度のメモリと/または手動で宣言的な知識ベースに操作ディレクティブを追加する必要があるかもしれない。 単調に成長する命題プログラムを生成するための新しい戦略を導入する。 提案するオプティマイニングプログラム(OPT)は,逐次入力と組み合わせて更新,再利用することができる。 従来の手法では、カスタマイズされた単純化手法により、インスタンス化されたプログラムのサイズが小さくなる。 メンテナンスされたOPTは、特に後のイテレーションでは、更新コストが減少する一方で、イテレーションから別のイテレーションへと徐々にサイズが大きくなる。 本稿では,OPTの理論的基盤である等価保存基底プログラムのファミリーであるテーラー埋め込みを正式に導入し,その特性について述べる。 次にオプト更新アルゴリズムを説明し,実装とその性能について報告する。 本稿では,論理プログラミング(tplp)の理論と実践について考察する。

The repeated execution of reasoning tasks is desirable in many applicative scenarios, such as stream reasoning and event processing. When using answer set programming in such contexts, one can avoid the iterative generation of ground programs thus achieving a significant payoff in terms of computing time. However, this may require some additional amount of memory and/or the manual addition of operational directives in the declarative knowledge base at hand. We introduce a new strategy for generating series of monotonically growing propositional programs. The proposed overgrounded programs with tailoring (OPTs) can be updated and reused in combination with consecutive inputs. With respect to earlier approaches, our tailored simplification technique reduces the size of instantiated programs. A maintained OPT slowly grows in size from an iteration to another while the update cost decreases, especially in later iterations. In this paper we formally introduce tailored embeddings, a family of equivalence-preserving ground programs which are at the theoretical basis of OPTs and we describe their properties. We then illustrate an OPT update algorithm and report about our implementation and its performance. This paper is under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-11-02 07:37:43 公開日:2020-08-06
# セネガルにおけるcovid-19予測のための可視化と機械学習

Visualization and machine learning for forecasting of COVID-19 in Senegal ( http://arxiv.org/abs/2008.03135v1 )

ライセンス: Link先を確認
Babacar Mbaye Ndiaye, Mouhamadou A.M.T. Balde, Diaraf Seck(参考訳) 本稿では、公開データに基づく予測を2週間40日先延ばしして、可視化と異なる機械学習技術を提供する。 2020年7月15日、セネガルはエアスペースのドアを再開した。 人口は、汚染の開始時のような衛生措置、社会的距離をもはや尊重していない。 マスクを常に着用する義務や疲れは? 私たちは反射点と可能な終了時刻を予測します。

In this article, we give visualization and different machine learning technics for two weeks and 40 days ahead forecast based on public data. On July 15, 2020, Senegal reopened its airspace doors, while the number of confirmed cases is still increasing. The population no longer respects hygiene measures, social distancing as at the beginning of the contamination. Negligence or tiredness to always wear the masks? We make forecasting on the inflection point and possible ending time.
翻訳日:2022-11-02 07:37:29 公開日:2020-08-06
# 音声理解における低頻度クラスの性能向上のためのデータバランス

Data balancing for boosting performance of low-frequency classes in Spoken Language Understanding ( http://arxiv.org/abs/2008.02603v1 )

ライセンス: Link先を確認
Judith Gaspers, Quynh Do, Fabian Triefenbach(参考訳) 実世界の音声言語理解(SLU)アプリケーションでは、データの不均衡がますます一般的になっているにもかかわらず、文献では広く研究されていない。 本稿では,SLUにおけるデータ不均衡処理に関する最初の体系的研究について述べる。 特に,既存のデータ分散手法のSLUへの適用について論じ,目的分類とスロットフィリングのためのマルチタスクSLUモデルを提案する。 過剰フィッティングを避けるため,データバランスのためのモデル手法では,クラスバランスバッチ生成器と(多分)合成データを利用する補助タスクを介して間接的に活用する。 実世界のデータセットでの結果は、 一 提案モデルは、ヘッドインテントの潜在的な性能低下を回避しつつ、低周波インテントの性能を著しく向上させることができる。 二 リアルなデータが得られない場合は新しい意図をブートストラップするのに有益であるが 三 一定量の現実的なデータが利用可能になると、補助作業において合成データを使用することにより、一次作業訓練データに追加するよりも優れた性能が得られること。 四 共同訓練のシナリオにおいて、意図分布のバランスは、目的分類だけでなくスロット充填性能も個別に改善する。

Despite the fact that data imbalance is becoming more and more common in real-world Spoken Language Understanding (SLU) applications, it has not been studied extensively in the literature. To the best of our knowledge, this paper presents the first systematic study on handling data imbalance for SLU. In particular, we discuss the application of existing data balancing techniques for SLU and propose a multi-task SLU model for intent classification and slot filling. Aiming to avoid over-fitting, in our model methods for data balancing are leveraged indirectly via an auxiliary task which makes use of a class-balanced batch generator and (possibly) synthetic data. Our results on a real-world dataset indicate that i) our proposed model can boost performance on low frequency intents significantly while avoiding a potential performance decrease on the head intents, ii) synthetic data are beneficial for bootstrapping new intents when realistic data are not available, but iii) once a certain amount of realistic data becomes available, using synthetic data in the auxiliary task only yields better performance than adding them to the primary task training data, and iv) in a joint training scenario, balancing the intent distribution individually improves not only intent classification but also slot filling performance.
翻訳日:2022-11-02 07:37:23 公開日:2020-08-06
# エンドツーエンド音声言語理解における意味的複雑さ

Semantic Complexity in End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2008.02858v1 )

ライセンス: Link先を確認
Joseph P. McKenna, Samridhi Choudhary, Michael Saxon, Grant P. Strimel, Athanasios Mouchtaris(参考訳) エンドツーエンドの音声言語理解(SLU)モデルは、音声から直接意味論を予測するモデルアーキテクチャのクラスである。 入力型と出力型から,これらをSTIモデルと呼ぶ。 以前の研究では、ホームオートメーションコマンドの認識など、STIモデルを対象ユースケースに適用することに成功したが、これらのモデルがより広範なユースケースに一般化する方法についてはまだ研究されていない。 本研究では,STIモデルの性能と適用するユースケースの難しさとの関係を解析する。 sluタスクの難易度を定量化するために,データセットの意味複雑性の実証的尺度を導入する。 論文で報告されているSTIモデルのほぼ完全な性能指標は,意味複雑性の低いデータセットを用いて得られた。 我々は、大規模でプロプライエタリなデータセットのセマンティックな複雑さを変化させる実験を行い、STIモデルの性能が、複雑性値が減少するにつれてパフォーマンスが増加するようなセマンティックな複雑性測定と相関することを示す。 この結果から,STIモデルの性能をトレーニングデータセットの複雑さ値で文脈的に評価し,適用範囲を明らかにすることが重要であることがわかった。

End-to-end spoken language understanding (SLU) models are a class of model architectures that predict semantics directly from speech. Because of their input and output types, we refer to them as speech-to-interpretation (STI) models. Previous works have successfully applied STI models to targeted use cases, such as recognizing home automation commands, however no study has yet addressed how these models generalize to broader use cases. In this work, we analyze the relationship between the performance of STI models and the difficulty of the use case to which they are applied. We introduce empirical measures of dataset semantic complexity to quantify the difficulty of the SLU tasks. We show that near-perfect performance metrics for STI models reported in the literature were obtained with datasets that have low semantic complexity values. We perform experiments where we vary the semantic complexity of a large, proprietary dataset and show that STI model performance correlates with our semantic complexity measures, such that performance increases as complexity values decrease. Our results show that it is important to contextualize an STI model's performance with the complexity values of its training dataset to reveal the scope of its applicability.
翻訳日:2022-11-02 07:37:03 公開日:2020-08-06
# 正南回転平均値:$so(p)^n$のサーフィンによる大域的最適性

Shonan Rotation Averaging: Global Optimality by Surfing $SO(p)^n$ ( http://arxiv.org/abs/2008.02737v1 )

ライセンス: Link先を確認
Frank Dellaert, David M. Rosen, Jing Wu, Robert Mahony, and Luca Carlone(参考訳) 正南回転平均化は高速で単純でエレガントな回転平均化アルゴリズムであり、測定ノイズの穏やかな仮定の下でグローバルに最適解を回復することが保証されている。 そこで本手法では, 回転平均化問題の最適解を導出するために半定緩和法を用いる。 従来の研究とは対照的に、我々は(わずかに)高次元回転多様体上の多様体を最小化し、既存の高性能な(局所的な)構造を運動パイプラインから再利用することで、これらの緩和の大規模事例を解決する方法を示す。 これにより,現在のsfm法の速度とスケーラビリティを保ちつつ,グローバル最適解を回収する。

Shonan Rotation Averaging is a fast, simple, and elegant rotation averaging algorithm that is guaranteed to recover globally optimal solutions under mild assumptions on the measurement noise. Our method employs semidefinite relaxation in order to recover provably globally optimal solutions of the rotation averaging problem. In contrast to prior work, we show how to solve large-scale instances of these relaxations using manifold minimization on (only slightly) higher-dimensional rotation manifolds, re-using existing high-performance (but local) structure-from-motion pipelines. Our method thus preserves the speed and scalability of current SFM methods, while recovering globally optimal solutions.
翻訳日:2022-11-02 07:30:46 公開日:2020-08-06
# 自己校正型Deraining Networkにおける共同自己意識とスケール集約

Joint Self-Attention and Scale-Aggregation for Self-Calibrated Deraining Network ( http://arxiv.org/abs/2008.02763v1 )

ライセンス: Link先を確認
Cong Wang, Yutong Wu, Zhixun Su, Junyang Chen(参考訳) マルチメディアの分野では、単一画像レーダリングは基本的な前処理作業であり、雨天時の高レベルタスクの視覚効果を大幅に改善することができる。 本稿では,JDNetとよばれる効率的なアルゴリズムを提案し,画像のデライン化問題を解くとともに,アプリケーションのセグメンテーションと検出処理を行う。 具体的には,マルチスケール機能に関する重要な情報を考慮して,異なるスケールで機能を学ぶためのスケール集約モジュールを提案する。 同時に、Self-Attentionモジュールが導入され、各チャネルに適合する機能アグリゲーションを実現している。 さらに、畳み込みニューラルネットワーク(CNN)の基本的な畳み込み特徴変換プロセスを改善するために、自己校正畳み込み畳み込みは、内部通信を通じて各畳み込み層の視野を明示的に拡張し、出力特徴を豊かにする、各空間位置の長範囲空間およびチャネル間依存関係を構築する。 自己校正畳み込みによるスケール・アグリゲーションと自己保持モジュールを巧みに設計することにより、提案モデルは実世界のデータセットと合成データセットの両方でより良い評価結果が得られる。 最先端手法と比較して,本手法の優位性を示すため,大規模な実験を行った。 ソースコードは \url{https://supercong94.wixsite.com/supercong94} で入手できる。

In the field of multimedia, single image deraining is a basic pre-processing work, which can greatly improve the visual effect of subsequent high-level tasks in rainy conditions. In this paper, we propose an effective algorithm, called JDNet, to solve the single image deraining problem and conduct the segmentation and detection task for applications. Specifically, considering the important information on multi-scale features, we propose a Scale-Aggregation module to learn the features with different scales. Simultaneously, Self-Attention module is introduced to match or outperform their convolutional counterparts, which allows the feature aggregation to adapt to each channel. Furthermore, to improve the basic convolutional feature transformation process of Convolutional Neural Networks (CNNs), Self-Calibrated convolution is applied to build long-range spatial and inter-channel dependencies around each spatial location that explicitly expand fields-of-view of each convolutional layer through internal communications and hence enriches the output features. By designing the Scale-Aggregation and Self-Attention modules with Self-Calibrated convolution skillfully, the proposed model has better deraining results both on real-world and synthetic datasets. Extensive experiments are conducted to demonstrate the superiority of our method compared with state-of-the-art methods. The source code will be available at \url{https://supercong94.wixsite.com/supercong94}.
翻訳日:2022-11-02 07:30:08 公開日:2020-08-06
# ラインベースOCRにおけるCRNNの精度について:マルチパラメータ評価

On the Accuracy of CRNNs for Line-Based OCR: A Multi-Parameter Evaluation ( http://arxiv.org/abs/2008.02777v1 )

ライセンス: Link先を確認
Bernhard Liebl, Manuel Burghardt(参考訳) 劣化紙上での難解な歴史的書体に対する高品質光学文字認識(OCR)モデルの訓練方法について検討する。 広範なグリッド検索を通じて、ニューラルネットワークアーキテクチャと最適なデータ拡張設定のセットを得る。 本稿では,二項化,入力線高さ,ネットワーク幅,ネットワーク深さ,ドロップアウトなどのネットワークトレーニングパラメータの影響について論じる。 これらの知見を実用モデルに実装することで,1万行のトレーニングデータから0.44%の文字誤り率(cer)モデルを得ることができ,20倍以上のデータでトレーニングされた現在の事前学習モデルよりも優れている。 オープンソースのフレームワークであるCalamariに依存しているトレーニングパイプラインのすべてのコンポーネントの廃止点を紹介します。

We investigate how to train a high quality optical character recognition (OCR) model for difficult historical typefaces on degraded paper. Through extensive grid searches, we obtain a neural network architecture and a set of optimal data augmentation settings. We discuss the influence of factors such as binarization, input line height, network width, network depth, and other network training parameters such as dropout. Implementing these findings into a practical model, we are able to obtain a 0.44% character error rate (CER) model from only 10,000 lines of training data, outperforming currently available pretrained models that were trained on more than 20 times the amount of data. We show ablations for all components of our training pipeline, which relies on the open source framework Calamari.
翻訳日:2022-11-02 07:29:07 公開日:2020-08-06
# DeText:BERTを使ったディープテキストランキングフレームワーク

DeText: A Deep Text Ranking Framework with BERT ( http://arxiv.org/abs/2008.02460v1 )

ライセンス: Link先を確認
Weiwei Guo, Xiaowei Liu, Sida Wang, Huiji Gao, Ananth Sankar, Zimeng Yang, Qi Guo, Liang Zhang, Bo Long, Bee-Chung Chen and Deepak Agarwal(参考訳) ランキングは検索システムにおいて最も重要な要素である。 ほとんどの検索システムは大量の自然言語データを扱うが、効果的なランキングシステムはテキストの意味を深く理解する必要がある。 近年,深層学習に基づく自然言語処理(deep nlp)モデルがシステム評価に有望な結果をもたらしている。 BERTは、検索ランク付けのための複雑なクエリ-ドキュメント関係に応用された、コンテキスト埋め込みを導く最も成功したモデルの1つである。 しかし、一般的には、各クエリワードと各ドキュメントワードを徹底的に相互作用させることで、これはオンラインサーブイン検索製品システムでは非効率である。 本稿では,BERTをベースとした効率的なランキングモデルの構築方法について検討し,オープンソースで様々なランキング作成に適用可能な一般的なランキングフレームワークであるDeTextにさらに拡張する。 3実世界の検索システムにおけるデテキストのオフラインおよびオンライン実験では、最先端のアプローチが大幅に改善されている。

Ranking is the most important component in a search system. Mostsearch systems deal with large amounts of natural language data,hence an effective ranking system requires a deep understandingof text semantics. Recently, deep learning based natural languageprocessing (deep NLP) models have generated promising results onranking systems. BERT is one of the most successful models thatlearn contextual embedding, which has been applied to capturecomplex query-document relations for search ranking. However,this is generally done by exhaustively interacting each query wordwith each document word, which is inefficient for online servingin search product systems. In this paper, we investigate how tobuild an efficient BERT-based ranking model for industry use cases.The solution is further extended to a general ranking framework,DeText, that is open sourced and can be applied to various rankingproductions. Offline and online experiments of DeText on threereal-world search systems present significant improvement overstate-of-the-art approaches.
翻訳日:2022-11-02 07:28:08 公開日:2020-08-06
# 確率的グラフィカルモデルとリカレントニューラルネットワークに基づく意味的感情分析

Semantic Sentiment Analysis Based on Probabilistic Graphical Models and Recurrent Neural Network ( http://arxiv.org/abs/2009.00234v1 )

ライセンス: Link先を確認
Ukachi Osisiogu(参考訳) 感性分析は、テキスト形式で表現された感情に基づいて文書を分類するタスクであり、語彙的および意味的手法を用いて実現することができる。 本研究の目的は,確率的グラフィカルモデルとリカレントニューラルネットワークに基づく感情分析を行うためのセマンティクスの利用を検討することである。 経験的評価では,グラフモデルの分類性能を,従来の機械学習分類器とリカレントニューラルネットワークと比較した。 実験に使用されたデータセットは、imdb movie reviews、amazon consumer product reviews、twitter review datasetsである。 この経験的な研究の後、感情分析タスクに意味論を組み込むことで、セマンティック特徴抽出法が分類の不確実性を低減し、より正確な予測をもたらすため、分類器の性能を大幅に向上させることができると結論付けた。

Sentiment Analysis is the task of classifying documents based on the sentiments expressed in textual form, this can be achieved by using lexical and semantic methods. The purpose of this study is to investigate the use of semantics to perform sentiment analysis based on probabilistic graphical models and recurrent neural networks. In the empirical evaluation, the classification performance of the graphical models was compared with some traditional machine learning classifiers and a recurrent neural network. The datasets used for the experiments were IMDB movie reviews, Amazon Consumer Product reviews, and Twitter Review datasets. After this empirical study, we conclude that the inclusion of semantics for sentiment analysis tasks can greatly improve the performance of a classifier, as the semantic feature extraction methods reduce uncertainties in classification resulting in more accurate predictions.
翻訳日:2022-11-02 07:27:53 公開日:2020-08-06
# 手のひら画像と手のひら手画像に基づく非制御環境からの性別・民族分類

Gender and Ethnicity Classification based on Palmprint and Palmar Hand Images from Uncontrolled Environment ( http://arxiv.org/abs/2008.02500v1 )

ライセンス: Link先を確認
Wojciech Michal Matkowski, Adams Wai Kin Kong(参考訳) 性別、民族、年齢などのソフトバイオメトリックな属性は、バイオメトリックスや法医学の応用に有用な情報を提供する。 研究者は、例えば、顔、歩行、虹彩、手などの属性を分類するために使用した。 手は生体認証のために広く研究されてきたが、手からソフトバイオメトリックスには比較的注意が払われていない。 ジェンダーとよく制御された画像環境に着目した手画像に基づくソフトバイオメトリックスの研究 本稿では,非制御環境における性別と民族の分類について考察する。 性別と民族のラベルは、インターネットからのハンドイメージを含む公開データベースに収集され、被験者に提供される。 5つの深層学習モデルはパーマーに基づく性別・民族分類シナリオにおいて微調整され評価される 1) フルハンド, 2)分割手,及び 3)パームプリント画像。 実験の結果,非制御環境における性別・民族分類では,手のひら画像よりも全文と部分的な手画像が適していることが示された。

Soft biometric attributes such as gender, ethnicity or age may provide useful information for biometrics and forensics applications. Researchers used, e.g., face, gait, iris, and hand, etc. to classify such attributes. Even though hand has been widely studied for biometric recognition, relatively less attention has been given to soft biometrics from hand. Previous studies of soft biometrics based on hand images focused on gender and well-controlled imaging environment. In this paper, the gender and ethnicity classification in uncontrolled environment are considered. Gender and ethnicity labels are collected and provided for subjects in a publicly available database, which contains hand images from the Internet. Five deep learning models are fine-tuned and evaluated in gender and ethnicity classification scenarios based on palmar 1) full hand, 2) segmented hand and 3) palmprint images. The experimental results indicate that for gender and ethnicity classification in uncontrolled environment, full and segmented hand images are more suitable than palmprint images.
翻訳日:2022-11-02 07:21:54 公開日:2020-08-06
# レンダリング対応ニューラルネットワークを用いたオブジェクトベース照明推定

Object-based Illumination Estimation with Rendering-aware Neural Networks ( http://arxiv.org/abs/2008.02514v1 )

ライセンス: Link先を確認
Xin Wei, Guojun Chen, Yue Dong, Stephen Lin and Xin Tong(参考訳) 本稿では,個々の物体のrgbd出現とその局所画像領域から,高速な環境光量推定手法を提案する。 従来の逆レンダリングはリアルタイムアプリケーションには計算量が多いため、純粋な学習ベースの手法の性能は、個々のオブジェクトから利用可能な単なる入力データによって制限される可能性がある。 そこで本研究では, 逆レンダリングから解の制約まで, 物理原理を活用し, 計算コストの高い処理をニューラルネットワークで高速化し, 雑音入力データに対する頑健性を高め, 時間的, 空間的安定性を向上させる手法を提案する。 これにより,物体の局所照明分布を高精度かつリアルタイムに推定するレンダリング認識システムを実現する。 推定された照明により、仮想オブジェクトは実際のシーンと一致したシェーディングでarシナリオでレンダリングできるため、リアリズムが改善される。

We present a scheme for fast environment light estimation from the RGBD appearance of individual objects and their local image areas. Conventional inverse rendering is too computationally demanding for real-time applications, and the performance of purely learning-based techniques may be limited by the meager input data available from individual objects. To address these issues, we propose an approach that takes advantage of physical principles from inverse rendering to constrain the solution, while also utilizing neural networks to expedite the more computationally expensive portions of its processing, to increase robustness to noisy input data as well as to improve temporal and spatial stability. This results in a rendering-aware system that estimates the local illumination distribution at an object with high accuracy and in real time. With the estimated lighting, virtual objects can be rendered in AR scenarios with shading that is consistent to the real scene, leading to improved realism.
翻訳日:2022-11-02 07:21:39 公開日:2020-08-06
# 可視赤外人物再同定のための二重ガウスに基づく変分部分空間のアンタングル

Dual Gaussian-based Variational Subspace Disentanglement for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2008.02520v1 )

ライセンス: Link先を確認
Nan Pu, Wei Chen, Yu Liu, Erwin M. Bakker, Michael S. Lew(参考訳) Visible-infrared person re-identification (VI-ReID) は、夜間のインテリジェント監視システムにおいて、困難かつ必須の課題である。 RGB-RGBの人物の再識別が主に克服するモダリティ内分散を除いて、VI-ReIDは固有の異種ギャップに起因するモダリティ間分散に苦しむ。 そこで本稿では,二元ガウシアン系変分オートエンコーダ(dg-vae)について,先行する混合ガウシアン (mog) と標準ガウシアン分布 (標準ガウシアン分布) に準じて,同一性判別可能部分空間と同一性あいまいなクロスモダリティ特徴部分空間とを分離した,注意深く設計された二元ガウシアン系変分オートエンコーダ(dg-vae)を提案する。 VI-ReIDのより堅牢な検索に繋がる。 従来のVAEのような効率的な最適化を実現するために,教師付き設定下でのMoGの2つの変分推論項を理論的に導出する。 さらに,このプロセスを促進するために,トリプルトスワップ再構築(TSR)戦略を提案する。 2つのVI-ReIDデータセットにおいて,本手法が最先端の手法より優れていることを示す。

Visible-infrared person re-identification (VI-ReID) is a challenging and essential task in night-time intelligent surveillance systems. Except for the intra-modality variance that RGB-RGB person re-identification mainly overcomes, VI-ReID suffers from additional inter-modality variance caused by the inherent heterogeneous gap. To solve the problem, we present a carefully designed dual Gaussian-based variational auto-encoder (DG-VAE), which disentangles an identity-discriminable and an identity-ambiguous cross-modality feature subspace, following a mixture-of-Gaussians (MoG) prior and a standard Gaussian distribution prior, respectively. Disentangling cross-modality identity-discriminable features leads to more robust retrieval for VI-ReID. To achieve efficient optimization like conventional VAE, we theoretically derive two variational inference terms for the MoG prior under the supervised setting, which not only restricts the identity-discriminable subspace so that the model explicitly handles the cross-modality intra-identity variance, but also enables the MoG distribution to avoid posterior collapse. Furthermore, we propose a triplet swap reconstruction (TSR) strategy to promote the above disentangling process. Extensive experiments demonstrate that our method outperforms state-of-the-art methods on two VI-ReID datasets.
翻訳日:2022-11-02 07:21:23 公開日:2020-08-06
# ビデオにおけるテキスト認識の停止に対する次の組合せ結果の高速近似モデリング

Fast Approximate Modelling of the Next Combination Result for Stopping the Text Recognition in a Video ( http://arxiv.org/abs/2008.02566v1 )

ライセンス: Link先を確認
Konstantin Bulatov, Nadezhda Fedotova, Vladimir V. Arlazarov(参考訳) 本稿では,各フレームを独立に認識し,個々の結果を組み合わせたテキストフィールドの映像ストリーム認識プロセスの停止作業について考察する。 映像ストリーム認識停止問題は,コンピュータビジョンに関する未調査の課題であるが,ハイパフォーマンスな映像認識システムの構築における関連性は明らかである。 まず,次の組合せ結果のモデル化に基づいて,そのようなプロセスを最適に停止させる既存の手法について述べる。 次に,最適化計算スキームの構築を可能にした近似と仮定を記述し,計算複雑性を低減した手法を得る。 本手法は,ビデオ中のテキストフィールド認識と任意のテキスト認識のタスクに対して評価した。 実験による比較により, 提案手法が得られた結果の精度の面では停止法の品質を低下させることなく, 停止決定に要する時間を劇的に削減できることを示した。 その結果,両テキスト認識課題とも一致した。

In this paper, we consider a task of stopping the video stream recognition process of a text field, in which each frame is recognized independently and the individual results are combined together. The video stream recognition stopping problem is an under-researched topic with regards to computer vision, but its relevance for building high-performance video recognition systems is clear. Firstly, we describe an existing method of optimally stopping such a process based on a modelling of the next combined result. Then, we describe approximations and assumptions which allowed us to build an optimized computation scheme and thus obtain a method with reduced computational complexity. The methods were evaluated for the tasks of document text field recognition and arbitrary text recognition in a video. The experimental comparison shows that the introduced approximations do not diminish the quality of the stopping method in terms of the achieved combined result precision, while dramatically reducing the time required to make the stopping decision. The results were consistent for both text recognition tasks.
翻訳日:2022-11-02 07:20:33 公開日:2020-08-06
# iiit-ar-13k: ドキュメント内のグラフィカルオブジェクト検出のための新しいデータセット

IIIT-AR-13K: A New Dataset for Graphical Object Detection in Documents ( http://arxiv.org/abs/2008.02569v1 )

ライセンス: Link先を確認
Ajoy Mondal, Peter Lipps, and C. V. Jawahar(参考訳) ビジネス文書、特に年次レポートにグラフィカルなオブジェクト検出のための新しいデータセットを導入する。 このデータセットIIIT-AR-13kは、グラフィカルまたはページオブジェクトのバウンディングボックスを、公開の年次レポートに手動でアノテートすることで作成される。 このデータセットには合計で13kの注釈付きページイメージと5つの人気のあるカテゴリ、図形、自然画像、ロゴ、シグネチャのオブジェクトが含まれている。 これはグラフィカルオブジェクト検出のための最大の手動アノテーション付きデータセットである。 さまざまな企業から数年間、複数の言語で作成された年次レポートは、このデータセットに高い多様性をもたらす。 我々は、IIIT-AR-13Kデータセットを、Faster R-CNN [20] と Mask R-CNN [11] を用いたグラフィカルオブジェクト検出技術の2つの状態でベンチマークし、さらなる研究のために高いベースラインを確立する。 我々のデータセットは、ビジネス文書と技術論文の両方において、グラフィカルオブジェクト検出のための実用的なソリューションを開発するためのトレーニングデータとして非常に効果的である。 IIIT-AR-13Kでトレーニングすることで、テーブル検出のために、より大量のデータで訓練された同等のソリューションよりも優れたパフォーマンスを報告できる単一ソリューションの実現可能性を示す。 我々のデータセットは、ビジネス文書の様々な種類のグラフィカルなオブジェクトを検出する研究を進めるのに役立ちます。

We introduce a new dataset for graphical object detection in business documents, more specifically annual reports. This dataset, IIIT-AR-13k, is created by manually annotating the bounding boxes of graphical or page objects in publicly available annual reports. This dataset contains a total of 13k annotated page images with objects in five different popular categories - table, figure, natural image, logo, and signature. It is the largest manually annotated dataset for graphical object detection. Annual reports created in multiple languages for several years from various companies bring high diversity into this dataset. We benchmark IIIT-AR-13K dataset with two state of the art graphical object detection techniques using Faster R-CNN [20] and Mask R-CNN [11] and establish high baselines for further research. Our dataset is highly effective as training data for developing practical solutions for graphical object detection in both business documents and technical articles. By training with IIIT-AR-13K, we demonstrate the feasibility of a single solution that can report superior performance compared to the equivalent ones trained with a much larger amount of data, for table detection. We hope that our dataset helps in advancing the research for detecting various types of graphical objects in business documents.
翻訳日:2022-11-02 07:20:18 公開日:2020-08-06
# 自己監督型学習のための未編集映像の関連性を探る

Exploring Relations in Untrimmed Videos for Self-Supervised Learning ( http://arxiv.org/abs/2008.02711v1 )

ライセンス: Link先を確認
Dezhao Luo, Bo Fang, Yu Zhou, Yucan Zhou, Dayan Wu, Weiping Wang(参考訳) 既存の自己教師型学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。 しかし、トリミングされたデータセットは、トリミングされていないビデオから手動で注釈付けされる。 この意味では、これらの手法は実際には自己管理的ではない。 本稿では,未編集ビデオ(実際の未収録ビデオ)に直接適用して時空間的特徴を学習する,新たな自己教師手法,ERUV(Exploring Relations in Untrimmed Videos)を提案する。 ERUVは最初、ショットチェンジ検出によってシングルショットビデオを生成する。 次に、ビデオクリップの関係をモデル化するための設計されたサンプリング戦略を用いる。 戦略は自己監視信号として保存される。 最後に、ネットワークは、ビデオクリップ間の関係のカテゴリを予測することによって表現を学習する。 ERUVはビデオの違いと類似性を比較することができる。 3種類の3d cnnを用いて,行動認識と映像検索タスクで学習モデルを検証する。 実験結果から,ERUVはよりリッチな表現を学習でき,最先端の自己教師手法よりも優れたマージンを持つことが示された。

Existing video self-supervised learning methods mainly rely on trimmed videos for model training. However, trimmed datasets are manually annotated from untrimmed videos. In this sense, these methods are not really self-supervised. In this paper, we propose a novel self-supervised method, referred to as Exploring Relations in Untrimmed Videos (ERUV), which can be straightforwardly applied to untrimmed videos (real unlabeled) to learn spatio-temporal features. ERUV first generates single-shot videos by shot change detection. Then a designed sampling strategy is used to model relations for video clips. The strategy is saved as our self-supervision signals. Finally, the network learns representations by predicting the category of relations between the video clips. ERUV is able to compare the differences and similarities of videos, which is also an essential procedure for action and video related tasks. We validate our learned models with action recognition and video retrieval tasks with three kinds of 3D CNNs. Experimental results show that ERUV is able to learn richer representations and it outperforms state-of-the-art self-supervised methods with significant margins.
翻訳日:2022-11-02 07:19:08 公開日:2020-08-06
# 効率的なニューラルクエリオートコンプリート

Efficient Neural Query Auto Completion ( http://arxiv.org/abs/2008.02879v1 )

ライセンス: Link先を確認
Sida Wang, Weiwei Guo, Huiji Gao, Bo Long(参考訳) 情報検索タスクの出発点としてのクエリ自動補完(qac)はユーザエクスペリエンスにとって重要である。 一般的には、クエリプレフィックスに従って完成したクエリ候補を生成し、抽出された特徴に基づいてランク付けする2つのステップがある。 クエリの自動補完システムには,(1)qacが厳格なオンラインレイテンシ要件である,という3つの大きな課題がある。 キーストローク毎に結果を数ミリ秒以内に返さなければならないため、洗練された言語モデルを設計する上で大きな課題となる。 2) 未知クエリの場合, 生成候補は文脈情報が十分に活用されていないため, 品質が劣る。 3) 従来のqacシステムは,検索ログのクエリ候補頻度などの手作り機能に大きく依存しており,候補の意味的理解が不十分である。 本稿では,これらの課題を克服するための効果的なコンテキストモデリングを用いた効率的なニューラルネットワークQACシステムを提案する。 候補生成側では、未確認の接頭辞でできるだけ多くの情報を用いて関連する候補を生成し、リコールを大きなマージンで増加させる。 候補ランキング側では、クエリの深いセマンティクスを効果的にキャプチャする非正規化言語モデルが提案されている。 このアプローチは、最先端のニューラルネットワークランキング手法よりも優れたランク付け性能を示し、ニューラルネットワークモデリング手法と比較して、$\sim$95\%のレイテンシを低減する。 公開データセットの実証結果から,本モデルは精度と効率のバランスが良好であることが判明した。 このシステムはlinkedinのジョブ検索で提供され、大きな製品への影響が観察される。

Query Auto Completion (QAC), as the starting point of information retrieval tasks, is critical to user experience. Generally it has two steps: generating completed query candidates according to query prefixes, and ranking them based on extracted features. Three major challenges are observed for a query auto completion system: (1) QAC has a strict online latency requirement. For each keystroke, results must be returned within tens of milliseconds, which poses a significant challenge in designing sophisticated language models for it. (2) For unseen queries, generated candidates are of poor quality as contextual information is not fully utilized. (3) Traditional QAC systems heavily rely on handcrafted features such as the query candidate frequency in search logs, lacking sufficient semantic understanding of the candidate. In this paper, we propose an efficient neural QAC system with effective context modeling to overcome these challenges. On the candidate generation side, this system uses as much information as possible in unseen prefixes to generate relevant candidates, increasing the recall by a large margin. On the candidate ranking side, an unnormalized language model is proposed, which effectively captures deep semantics of queries. This approach presents better ranking performance over state-of-the-art neural ranking methods and reduces $\sim$95\% latency compared to neural language modeling methods. The empirical results on public datasets show that our model achieves a good balance between accuracy and efficiency. This system is served in LinkedIn job search with significant product impact observed.
翻訳日:2022-11-02 07:12:13 公開日:2020-08-06
# mriによる脳病変検出のための深部強化学習 : 医学画像への強化学習の概念実証

Deep reinforcement learning to detect brain lesions on MRI: a proof-of-concept application of reinforcement learning to medical images ( http://arxiv.org/abs/2008.02708v1 )

ライセンス: Link先を確認
Joseph Stember, Hrithwik Shalu(参考訳) 目的: 主に放射線学におけるAIが妨げられている。 1) 大きな注釈付きデータセットを必要とする。 2)新しいスキャナや機関への展開を制限する非汎用性。 そして 3)不十分な説明可能性と解釈可能性。 私たちは、小さなデータセットでトレーニング可能な堅牢で直感的なアルゴリズムで、強化学習が3つの欠点すべてに対処できると考えている。 我々の知る限りでは、放射線画像のコンピュータビジョンタスクには強化学習が直接適用されていない。 本研究では,脳腫瘍の位置を予測するために,深層強化学習ネットワークを訓練する。 材料と方法:BraTS脳腫瘍画像データベースを用いて,70個の造影T1強調2次元画像スライスを用いた深部Qネットワークを訓練した。 われわれは画像検索に協力し,病変の局所化を図った報奨と処罰を行った。 教師付きディープラーニングと比較するために、同じ70画像上でキーポイント検出畳み込みニューラルネットワークを訓練した。 両アプローチを別個の30の画像テストセットに適用した。 結果: 強化学習予測は訓練中に継続的に改善され, 教師付き深層学習予測は急速に変化した。 強化学習は, 教師付き深層ネットワークでは約7%の精度で, 85%の精度で病変位置を予測した。 結語:強化学習は、このような小さな訓練セットでは前例のない精度で病変を予測した。 我々は、強化学習が、教師付き深層学習の本質的な限界を克服し、より臨床主導の研究を行い、最終的に真の臨床応用に向けて、放射線学AIを推進できると考えている。

Purpose: AI in radiology is hindered chiefly by: 1) Requiring large annotated data sets. 2) Non-generalizability that limits deployment to new scanners / institutions. And 3) Inadequate explainability and interpretability. We believe that reinforcement learning can address all three shortcomings, with robust and intuitive algorithms trainable on small datasets. To the best of our knowledge, reinforcement learning has not been directly applied to computer vision tasks for radiological images. In this proof-of-principle work, we train a deep reinforcement learning network to predict brain tumor location. Materials and Methods: Using the BraTS brain tumor imaging database, we trained a deep Q network on 70 post-contrast T1-weighted 2D image slices. We did so in concert with image exploration, with rewards and punishments designed to localize lesions. To compare with supervised deep learning, we trained a keypoint detection convolutional neural network on the same 70 images. We applied both approaches to a separate 30 image testing set. Results: Reinforcement learning predictions consistently improved during training, whereas those of supervised deep learning quickly diverged. Reinforcement learning predicted testing set lesion locations with 85% accuracy, compared to roughly 7% accuracy for the supervised deep network. Conclusion: Reinforcement learning predicted lesions with high accuracy, which is unprecedented for such a small training set. We believe that reinforcement learning can propel radiology AI well past the inherent limitations of supervised deep learning, with more clinician-driven research and finally toward true clinical applicability.
翻訳日:2022-11-02 07:11:49 公開日:2020-08-06
# アクティブラーニングによるクロスモデル画像アノテーションプラットフォーム

Cross-Model Image Annotation Platform with Active Learning ( http://arxiv.org/abs/2008.02421v1 )

ライセンス: Link先を確認
Ng Hui Xian Lynnette, Henry Ng Siong Hock, Nguwi Yok Yen(参考訳) ここ数十年、機械学習の飛躍的な進歩が見られた。 機械学習可能性の中心的な考え方は、優れたデータから学ぶ学習アルゴリズムの構築にある。 より多くのデータが公開されたことにより、近年のaiの成長も加速している。 コンピュータビジョンの分野では、画像データの品質は画像アノテーションの精度から生じる。 大量の画像データをラベル付けするのは面倒で面倒な作業だ。 本研究ではオブジェクトアノテーションと認識のためのEnd-to-Endパイプラインツールを提案する。 我々は,画像アノテーション支援(注釈支援),アクティブラーニング,モデルトレーニング,評価をシームレスに組み込んだモジュラー画像アノテーションプラットフォームを開発した。 私たちのアプローチは、現在の画像アノテーションツールよりも多くの利点を提供します。 まず、アノテーションアシストは参照階層と参照イメージを使用して画像中のオブジェクトを特定することで、オブジェクト全体を注釈付けする必要がなくなる。 第二に、画像はポリゴン点を使ってアノテートすることができ、任意の形状のオブジェクトにアノテートすることができる。 第3に、複数のイメージモデル間で相互運用可能で、一連の事前トレーニングされたモデルに対して、オブジェクトモデルのトレーニングと評価のためのインターフェースを提供する。 私たちはこのモデルをテストし、いくつかのベンチマークディープラーニングモデルを組み込んだ。 最高精度は74%である。

We have seen significant leapfrog advancement in machine learning in recent decades. The central idea of machine learnability lies on constructing learning algorithms that learn from good data. The availability of more data being made publicly available also accelerates the growth of AI in recent years. In the domain of computer vision, the quality of image data arises from the accuracy of image annotation. Labeling large volume of image data is a daunting and tedious task. This work presents an End-to-End pipeline tool for object annotation and recognition aims at enabling quick image labeling. We have developed a modular image annotation platform which seamlessly incorporates assisted image annotation (annotation assistance), active learning and model training and evaluation. Our approach provides a number of advantages over current image annotation tools. Firstly, the annotation assistance utilizes reference hierarchy and reference images to locate the objects in the images, thus reducing the need for annotating the whole object. Secondly, images can be annotated using polygon points allowing for objects of any shape to be annotated. Thirdly, it is also interoperable across several image models, and the tool provides an interface for object model training and evaluation across a series of pre-trained models. We have tested the model and embeds several benchmarking deep learning models. The highest accuracy achieved is 74%.
翻訳日:2022-11-02 07:11:25 公開日:2020-08-06
# 逐次関係予測モデルを用いたグループ活動予測

Group Activity Prediction with Sequential Relational Anticipation Model ( http://arxiv.org/abs/2008.02441v1 )

ライセンス: Link先を確認
Junwen Chen, Wentao Bao, Yu Kong(参考訳) 本稿では,不完全な活動実行を伴う初期フレームからグループ活動を予測する新しい手法を提案する。 既存の行動予測手法は、部分的観測の表現力を高めることを学ぶ。 しかし,集団活動予測においては,人々の活動と時間的位置との関係は,グループ活動の予測に重要な手がかりとなる。 そこで本研究では,部分的観測における関係のダイナミクスを要約し,リッチな識別情報を持つ群表現を漸進的に予測する逐次関係予測モデル(sram)を提案する。 本モデルでは,2つのグラフ自動エンコーダによる行動特徴と位置の両方を明示的に予測し,グループ活動予測のための識別的グループ表現を学習する。 一般的な2つのデータセットにおける実験結果から,本手法が最先端のアクティビティ予測手法を著しく上回っていることが判明した。

In this paper, we propose a novel approach to predict group activities given the beginning frames with incomplete activity executions. Existing action prediction approaches learn to enhance the representation power of the partial observation. However, for group activity prediction, the relation evolution of people's activity and their positions over time is an important cue for predicting group activity. To this end, we propose a sequential relational anticipation model (SRAM) that summarizes the relational dynamics in the partial observation and progressively anticipates the group representations with rich discriminative information. Our model explicitly anticipates both activity features and positions by two graph auto-encoders, aiming to learn a discriminative group representation for group activity prediction. Experimental results on two popularly used datasets demonstrate that our approach significantly outperforms the state-of-the-art activity prediction methods.
翻訳日:2022-11-02 07:11:09 公開日:2020-08-06
# ビデオにおける時間的局所化のための細粒度反復注意ネットワーク

Fine-grained Iterative Attention Network for TemporalLanguage Localization in Videos ( http://arxiv.org/abs/2008.02448v1 )

ライセンス: Link先を確認
Xiaoye Qu, Pengwei Tang, Zhikang Zhou, Yu Cheng, Jianfeng Dong, Pan Zhou(参考訳) ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメント1つを未トリミングビデオにグラウンドすることを目的としている。 この課題に取り組むためには,視覚とテキストの両方から基礎情報を抽出する効果的なモデルを設計することが重要である。 しかし、この分野でのこれまでの試みは、ビデオからクエリへの一方向的な相互作用にのみ焦点を絞っており、どの単語を聴き、文情報に順応すべきかを、バニラソフトな注意で強調する。 本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。 具体的には、繰り返しアテンションモジュールにおいて、ビデオ内の各フレームに細かなアテンションを施した後、ビデオが統合クエリーに反復的に出席することで、クエリ内の各ワードを最初に強化する。 最後に、ビデオ情報とクエリ情報の両方を用いて、さらなるモーダル化を実現する。 さらに,ターゲットセグメントの予測精度を向上させるために,最近のアンカーベースのローカライズに代えて,コンテンツ指向のローカライズ戦略を提案する。 本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価する。 FIANは最先端のアプローチよりも優れています。

Temporal language localization in videos aims to ground one video segment in an untrimmed video based on a given sentence query. To tackle this task, designing an effective model to extract ground-ing information from both visual and textual modalities is crucial. However, most previous attempts in this field only focus on unidirectional interactions from video to query, which emphasizes which words to listen and attends to sentence information via vanilla soft attention, but clues from query-by-video interactions implying where to look are not taken into consideration. In this paper, we propose a Fine-grained Iterative Attention Network (FIAN) that consists of an iterative attention module for bilateral query-video in-formation extraction. Specifically, in the iterative attention module, each word in the query is first enhanced by attending to each frame in the video through fine-grained attention, then video iteratively attends to the integrated query. Finally, both video and query information is utilized to provide robust cross-modal representation for further moment localization. In addition, to better predict the target segment, we propose a content-oriented localization strategy instead of applying recent anchor-based localization. We evaluate the proposed method on three challenging public benchmarks: Ac-tivityNet Captions, TACoS, and Charades-STA. FIAN significantly outperforms the state-of-the-art approaches.
翻訳日:2022-11-02 07:10:57 公開日:2020-08-06
# プライバシーを考慮した連合学習によるオンデバイス話者照合の改善

Improving on-device speaker verification using federated learning with privacy ( http://arxiv.org/abs/2008.02651v1 )

ライセンス: Link先を確認
Filip Granqvist, Matt Seigel, Rogier van Dalen, \'Aine Cahill, Stephen Shum, Matthias Paulik(参考訳) 話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。 しかし、そのような情報はしばしば非公開である。 本稿では,プライバシーに敏感な話者データを用いて,話者の声質を予測する補助的分類モデルを訓練することにより,プライバシー保全学習が話者照合システムをどのように改善できるかを検討する。 特に,異なるフェデレーション学習と差分プライバシー機構を組み合わせたアプローチによって達成される有用性について検討する。 これらのアプローチにより、ユーザのプライバシを保護しながら、ユーザのデータをデバイスに残しながら、中央モデルをトレーニングすることが可能になる。 さらに,モデル学習時の話者特性を良好に把握し,多数の話者の学習を可能にする。 ここで述べる補助モデルは、話者検証システムを起動するフレーズから抽出した特徴を用いる。 これらの特徴から,副次情報として有用な話者特性ラベルを予測する。 補助モデルの知識をマルチタスク学習を用いた話者検証システムに蒸留し,副モデルによって予測される側情報ラベルを付加課題とする。 このアプローチでは、ベースラインシステムに対するエラー率の相対的に6%向上する。

Information on speaker characteristics can be useful as side information in improving speaker recognition accuracy. However, such information is often private. This paper investigates how privacy-preserving learning can improve a speaker verification system, by enabling the use of privacy-sensitive speaker data to train an auxiliary classification model that predicts vocal characteristics of speakers. In particular, this paper explores the utility achieved by approaches which combine different federated learning and differential privacy mechanisms. These approaches make it possible to train a central model while protecting user privacy, with users' data remaining on their devices. Furthermore, they make learning on a large population of speakers possible, ensuring good coverage of speaker characteristics when training a model. The auxiliary model described here uses features extracted from phrases which trigger a speaker verification system. From these features, the model predicts speaker characteristic labels considered useful as side information. The knowledge of the auxiliary model is distilled into a speaker verification system using multi-task learning, with the side information labels predicted by this auxiliary model being the additional task. This approach results in a 6% relative improvement in equal error rate over a baseline system.
翻訳日:2022-11-02 07:03:57 公開日:2020-08-06
# Assisted Perception: コミュニケーション状態に対する観測の最適化

Assisted Perception: Optimizing Observations to Communicate State ( http://arxiv.org/abs/2008.02840v1 )

ライセンス: Link先を確認
Siddharth Reddy, Sergey Levine, Anca D. Dragan(参考訳) 我々は,ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて,複数のセンサからの観測を同時に処理したり,遅延した観察を受信したり,障害物への過大な距離を見積もったりすることで,ユーザが最適動作につながる体系的なバイアスを経験する上で,世界の状態を推定することを支援することを目的としている。 ユーザの内的信念や内的状態推定プロセスを直接変更することはできないが,ユーザの観察を変更することで,ユーザを支援することができる,というのが私たちの見解だ。 ユーザの本当の観察を見せる代わりに,ユーザによって処理された内部状態をより正確に推定する新たな観測を合成する。 本手法を補助状態推定 (ASE) と呼ぶ: 自動化されたアシスタントは、真の観測を用いて世界の状態を推定し、ユーザが消費する(例えば拡張現実インターフェースを通じて)ように修正された観察を生成し、その修正を最適化して、アシスタントの現在の信念に合うように、ユーザの新しい信念を誘導する。 ユーザが既知のユーザのバイアスを持つ2つのタスク – 帯域制限の画像分類と観察遅延を持つ駆動型ビデオゲーム – と,我々の方法が学習しなければならない未知のバイアスを持つ2つのタスク – を2Dナビゲーションと月面着陸機遠隔操作ゲームでガイドした。 画像分類を高速化するために情報ピクセルを素早く明らかにする、ダイナミックスモデルを使用して運転中の観察遅延を解き放つ、ナビゲーションのための近くのランドマークを特定し、ランダーゲームにおける傾きの視覚的指標を誇張する、といった異なる支援戦略が各ドメインに現れる。 その結果,aseは帯域幅の制約や観測遅延,その他未知のバイアスにより,ユーザのタスク性能が大幅に向上することがわかった。

We aim to help users estimate the state of the world in tasks like robotic teleoperation and navigation with visual impairments, where users may have systematic biases that lead to suboptimal behavior: they might struggle to process observations from multiple sensors simultaneously, receive delayed observations, or overestimate distances to obstacles. While we cannot directly change the user's internal beliefs or their internal state estimation process, our insight is that we can still assist them by modifying the user's observations. Instead of showing the user their true observations, we synthesize new observations that lead to more accurate internal state estimates when processed by the user. We refer to this method as assistive state estimation (ASE): an automated assistant uses the true observations to infer the state of the world, then generates a modified observation for the user to consume (e.g., through an augmented reality interface), and optimizes the modification to induce the user's new beliefs to match the assistant's current beliefs. We evaluate ASE in a user study with 12 participants who each perform four tasks: two tasks with known user biases -- bandwidth-limited image classification and a driving video game with observation delay -- and two with unknown biases that our method has to learn -- guided 2D navigation and a lunar lander teleoperation video game. A different assistance strategy emerges in each domain, such as quickly revealing informative pixels to speed up image classification, using a dynamics model to undo observation delay in driving, identifying nearby landmarks for navigation, and exaggerating a visual indicator of tilt in the lander game. The results show that ASE substantially improves the task performance of users with bandwidth constraints, observation delay, and other unknown biases.
翻訳日:2022-11-02 07:03:22 公開日:2020-08-06
# 野生におけるインスリン-グルコース動態の学習

Learning Insulin-Glucose Dynamics in the Wild ( http://arxiv.org/abs/2008.02852v1 )

ライセンス: Link先を確認
Andrew C. Miller and Nicholas J. Foti and Emily Fox(参考訳) 1型糖尿病患者の血糖値予測のためのインスリン-グルコース動態の新しいモデルを開発した。 機械学習のシーケンスモデルによって駆動される時間変動ダイナミクスを導入することで、既存の生体医学モデルを強化する。 我々のモデルは、生理学的に妥当な誘導バイアスと臨床的に解釈可能なパラメータ(インスリン感受性など)を維持しながら、現代のパターン認識アルゴリズムの柔軟性を継承している。 モデリングの成功に不可欠なのは、シーケンスモデルによる主題変動の柔軟だが構造化された表現である。 対照的に、LSTMのような制約の少ないモデルでは、信頼性や生理学的に妥当な予測が得られない。 我々は広範な実証研究を行っている。 生体モデル力学を時間的に変化させることで, 長期水平線での予測が最大6時間向上し, インスリンや炭水化物の生理的影響と一致した予測が得られた。

We develop a new model of insulin-glucose dynamics for forecasting blood glucose in type 1 diabetics. We augment an existing biomedical model by introducing time-varying dynamics driven by a machine learning sequence model. Our model maintains a physiologically plausible inductive bias and clinically interpretable parameters -- e.g., insulin sensitivity -- while inheriting the flexibility of modern pattern recognition algorithms. Critical to modeling success are the flexible, but structured representations of subject variability with a sequence model. In contrast, less constrained models like the LSTM fail to provide reliable or physiologically plausible forecasts. We conduct an extensive empirical study. We show that allowing biomedical model dynamics to vary in time improves forecasting at long time horizons, up to six hours, and produces forecasts consistent with the physiological effects of insulin and carbohydrates.
翻訳日:2022-11-02 07:02:49 公開日:2020-08-06
# グラフ位置ネットワークによるゼロショットマルチビュー屋内位置決め

Zero-Shot Multi-View Indoor Localization via Graph Location Networks ( http://arxiv.org/abs/2008.02492v1 )

ライセンス: Link先を確認
Meng-Jiun Chiou, Zhenguang Liu, Yifang Yin, Anan Liu, Roger Zimmermann(参考訳) 屋内ローカライゼーションは、位置ベースアプリケーションにおける根本的な問題である。 この問題に対する現在のアプローチは、一般的に周波数技術に依存しており、それは、インフラをサポートするだけでなく、信号の測定と校正のための人間の努力を必要とする。 さらに、すべての場所のデータ収集は既存の方法では必須であり、結果的に大規模なデプロイメントを妨げる。 本稿では,インフラストラクチャフリーで多視点画像に基づく屋内ローカライゼーションを実現する新しいニューラルネットワークアーキテクチャであるGraph Location Networks(GLN)を提案する。 GLNは、メッセージパッシングネットワークを通じて画像から抽出されたロバストな位置表現に基づいて位置予測を行う。 さらに, 提案するglnを専用ゼロショット版に拡張し, 新しい機構map2vecを利用して位置認識埋め込みを訓練し, 未知の場所における予測を行う, 新たなゼロショット屋内ローカライズ設定を提案する。 本研究では,提案手法が標準設定における最先端手法よりも優れており,半分の位置情報が利用できないゼロショット設定においても有望な精度が得られることを示す。 ソースコードとデータセットはhttps://github.com/coldmanck/zero-shot-indoor-localization-releaseで公開されている。

Indoor localization is a fundamental problem in location-based applications. Current approaches to this problem typically rely on Radio Frequency technology, which requires not only supporting infrastructures but human efforts to measure and calibrate the signal. Moreover, data collection for all locations is indispensable in existing methods, which in turn hinders their large-scale deployment. In this paper, we propose a novel neural network based architecture Graph Location Networks (GLN) to perform infrastructure-free, multi-view image based indoor localization. GLN makes location predictions based on robust location representations extracted from images through message-passing networks. Furthermore, we introduce a novel zero-shot indoor localization setting and tackle it by extending the proposed GLN to a dedicated zero-shot version, which exploits a novel mechanism Map2Vec to train location-aware embeddings and make predictions on novel unseen locations. Our extensive experiments show that the proposed approach outperforms state-of-the-art methods in the standard setting, and achieves promising accuracy even in the zero-shot setting where data for half of the locations are not available. The source code and datasets are publicly available at https://github.com/coldmanck/zero-shot-indoor-localization-release.
翻訳日:2022-11-02 07:02:35 公開日:2020-08-06
# 半教師付き腺分画に対する対関係学習

Pairwise Relation Learning for Semi-supervised Gland Segmentation ( http://arxiv.org/abs/2008.02699v1 )

ライセンス: Link先を確認
Yutong Xie, Jianpeng Zhang, Zhibin Liao, Chunhua Shen, Johan Verjans, Yong Xia(参考訳) Adenocarcinoma の診断には, 組織像の正確な腺分画, 自動的に行うことが不可欠であるが, 課題である。 その普及にもかかわらず、深層学習モデルは、常に無数の密集した注釈付き訓練画像を必要とするが、膨大な労力と、ヒストロジー画像アノテーションに関連する専門家コストのために得るのが困難である。 本稿では,組織像上の腺分割のための対関係に基づく半教師付き(prs^2)モデルを提案する。 このモデルはセグメントネットワーク(S-Net)とペア関係ネットワーク(PR-Net)で構成される。 S-Netはセグメンテーションのためのラベル付きデータに基づいて訓練され、PR-Netはラベル付きデータとラベルなしデータの両方で訓練され、特徴空間内の各画像間のセマンティック一貫性を利用して画像表現能力を向上する。 どちらのネットワークもエンコーダを共有するため、PR-Netで学習した画像表現能力をS-Netに転送してセグメンテーション性能を向上させることができる。 また, オブジェクトレベルのDice損失を設計し, 腺に触れることによる問題に対処し, S-Netの他の2つの損失関数と組み合わせる。 glasデータセットの最近の5つの手法とcragデータセットの3つの手法について評価した。 提案したPR-NetとオブジェクトレベルのDice損失の有効性を示すだけでなく,PRS^2モデルが両ベンチマークで最先端の腺セグメンテーション性能を達成することを示す。

Accurate and automated gland segmentation on histology tissue images is an essential but challenging task in the computer-aided diagnosis of adenocarcinoma. Despite their prevalence, deep learning models always require a myriad number of densely annotated training images, which are difficult to obtain due to extensive labor and associated expert costs related to histology image annotations. In this paper, we propose the pairwise relation-based semi-supervised (PRS^2) model for gland segmentation on histology images. This model consists of a segmentation network (S-Net) and a pairwise relation network (PR-Net). The S-Net is trained on labeled data for segmentation, and PR-Net is trained on both labeled and unlabeled data in an unsupervised way to enhance its image representation ability via exploiting the semantic consistency between each pair of images in the feature space. Since both networks share their encoders, the image representation ability learned by PR-Net can be transferred to S-Net to improve its segmentation performance. We also design the object-level Dice loss to address the issues caused by touching glands and combine it with other two loss functions for S-Net. We evaluated our model against five recent methods on the GlaS dataset and three recent methods on the CRAG dataset. Our results not only demonstrate the effectiveness of the proposed PR-Net and object-level Dice loss, but also indicate that our PRS^2 model achieves the state-of-the-art gland segmentation performance on both benchmarks.
翻訳日:2022-11-02 07:02:05 公開日:2020-08-06
# ランダム森林を用いた時系列モデリング -理論的展開-

Modeling of time series using random forests: theoretical developments ( http://arxiv.org/abs/2008.02479v1 )

ライセンス: Link先を確認
Richard A. Davis and Mikkel S. Nielsen(参考訳) 本稿では,非線形時系列モデリングの枠組みにおけるランダム森林の漸近特性について検討する。 ランダム林は様々な分野に適用されているが、時系列設定では理論上の正当性は考慮されていない。 温和な条件下では,非線形自己回帰過程に基づく回帰木に対する一様濃度不等式を証明し,その結果を大規模ランダム林の一貫性を証明するために用いる。 結果は様々なシミュレーションで裏付けられている。

In this paper we study asymptotic properties of random forests within the framework of nonlinear time series modeling. While random forests have been successfully applied in various fields, the theoretical justification has not been considered for their use in a time series setting. Under mild conditions, we prove a uniform concentration inequality for regression trees built on nonlinear autoregressive processes and, subsequently, we use this result to prove consistency for a large class of random forests. The results are supported by various simulations.
翻訳日:2022-11-02 07:01:19 公開日:2020-08-06
# 無線ネットワーク上でのコミュニケーション効率と分散学習:原理と応用

Communication-Efficient and Distributed Learning Over Wireless Networks: Principles and Applications ( http://arxiv.org/abs/2008.02608v1 )

ライセンス: Link先を確認
Jihong Park, Sumudu Samarakoon, Anis Elgabli, Joongheon Kim, Mehdi Bennis, Seong-Lyun Kim, M\'erouane Debbah(参考訳) 機械学習(ML)は、第5世代(5G)通信システムなどのための有望なイネーブルである。 ネットワークエッジにインテリジェンスを付与することで、エッジノードは積極的に意思決定を行い、通信遅延をゼロにしながら、ローカルな環境変化や障害に反応することができる。 この目標を達成するためには、新しいデータとMLモデルの更新を分散的に継続的に交換することにより、時間変化チャネルとネットワークダイナミクスの下での大規模ML推論精度を高めることが不可欠である。 この新しいタイプのデータトラフィックを使用すると、コミュニケーションペイロードタイプ、送信テクニック、スケジューリングを最適化し、MLアーキテクチャ、アルゴリズム、データ処理方法を最適化することで、分散学習のコミュニケーション効率を向上させることができる。 この目的のために,本稿では,関連するコミュニケーションとMLの原則を総合的に概観し,選択したユースケースを用いたコミュニケーション効率・分散学習フレームワークを提案する。

Machine learning (ML) is a promising enabler for the fifth generation (5G) communication systems and beyond. By imbuing intelligence into the network edge, edge nodes can proactively carry out decision-making, and thereby react to local environmental changes and disturbances while experiencing zero communication latency. To achieve this goal, it is essential to cater for high ML inference accuracy at scale under time-varying channel and network dynamics, by continuously exchanging fresh data and ML model updates in a distributed way. Taming this new kind of data traffic boils down to improving the communication efficiency of distributed learning by optimizing communication payload types, transmission techniques, and scheduling, as well as ML architectures, algorithms, and data processing methods. To this end, this article aims to provide a holistic overview of relevant communication and ML principles, and thereby present communication-efficient and distributed learning frameworks with selected use cases.
翻訳日:2022-11-02 07:01:11 公開日:2020-08-06
# 大規模ゼロショット学習のためのウェブ監視型セマンティック埋め込み

Webly Supervised Semantic Embeddings for Large Scale Zero-Shot Learning ( http://arxiv.org/abs/2008.02880v1 )

ライセンス: Link先を確認
Yannick Le Cacheux, Adrian Popescu, Herv\'e Le Borgne(参考訳) ゼロショット学習(ZSL)は、データセットからクラスの一部に対する視覚的なトレーニングデータがない場合に、画像内のオブジェクト認識を可能にする。 クラス数が大きくなると、クラスは通常、注釈のないテキストコレクションから自動的に学習されるセマンティッククラスのプロトタイプで表現される。 これは通常、属性のような手作業で設計されたセマンティックプロトタイプよりもはるかにパフォーマンスが低い。 ほとんどのZSLは視覚的側面に重点を置いており、一般的なテキストコレクションから学習した標準的な意味的プロトタイプを再利用するが、我々は大規模ZSLのセマンティッククラスプロトタイプ設計の問題に焦点をあてる。 より具体的には、画像に関連付けられたノイズの多いテキストメタデータをテキストコレクションとして使用することを検討する。 そこで我々は,ソースベースの投票戦略を用いて,セマンティックプロトタイプのロバスト性を向上させる。 大規模なImageNetデータセットの評価では、2つの強いベースラインと、以前の作業で使用される通常のセマンティック埋め込みよりも、ZSLのパフォーマンスが大幅に向上した。 この改善はいくつかの埋め込み手法で得られており,視覚的特徴やテキスト的特徴を自動生成する場合に,その成果が得られた。

Zero-shot learning (ZSL) makes object recognition in images possible in absence of visual training data for a part of the classes from a dataset. When the number of classes is large, classes are usually represented by semantic class prototypes learned automatically from unannotated text collections. This typically leads to much lower performances than with manually designed semantic prototypes such as attributes. While most ZSL works focus on the visual aspect and reuse standard semantic prototypes learned from generic text collections, we focus on the problem of semantic class prototype design for large scale ZSL. More specifically, we investigate the use of noisy textual metadata associated to photos as text collections, as we hypothesize they are likely to provide more plausible semantic embeddings for visual classes if exploited appropriately. We thus make use of a source-based voting strategy to improve the robustness of semantic prototypes. Evaluation on the large scale ImageNet dataset shows a significant improvement in ZSL performances over two strong baselines, and over usual semantic embeddings used in previous works. We show that this improvement is obtained for several embedding methods, leading to state of the art results when one uses automatically created visual and text features.
翻訳日:2022-11-02 06:55:08 公開日:2020-08-06
# 顔分析と深層学習を用いた小児自閉症の診断

Diagnosis of Autism in Children using Facial Analysis and Deep Learning ( http://arxiv.org/abs/2008.02890v1 )

ライセンス: Link先を確認
Madison Beary, Alex Hadsell, Ryan Messersmith, Mohammad-Parsa Hosseini(参考訳) 本稿では,子どもを,94.6%の精度で,健康的か潜在的自閉症かのどちらかに分類する深層学習モデルを提案する。 自閉症の患者は、言語と非言語の両方において、社会的スキル、反復的な行動、コミュニケーションに苦しむ。 この疾患は遺伝性と考えられているが、子供の行動特性や顔の特徴を調べると、正確な診断率が最も高い。 患者は顔の変形のパターンが共通しており、研究者は子供の画像のみを分析して、子供が病気を持っているかどうかを判断することができる。 顔分析や自閉症の分類には他にも手法やモデルがあるが,提案手法は,より安価で効率的な方法での分類を可能にする2つのアイデアを橋渡しする。 当社のディープラーニングモデルは,mobilenetと2つの高密度レイヤを使用して,特徴抽出と画像分類を行う。 モデルは3,014枚の画像を使って訓練・テストされ、自閉症の子供とそれのない子供の間に均等に分けられている。 データの90%がトレーニングに使われ、10%がテストに使用される。 本研究の精度から,自閉症の診断は画像のみを用いて効果的に行えることを提案する。 また、同様の診断が可能な疾患もある。

In this paper, we introduce a deep learning model to classify children as either healthy or potentially autistic with 94.6% accuracy using Deep Learning. Autistic patients struggle with social skills, repetitive behaviors, and communication, both verbal and nonverbal. Although the disease is considered to be genetic, the highest rates of accurate diagnosis occur when the child is tested on behavioral characteristics and facial features. Patients have a common pattern of distinct facial deformities, allowing researchers to analyze only an image of the child to determine if the child has the disease. While there are other techniques and models used for facial analysis and autism classification on their own, our proposal bridges these two ideas allowing classification in a cheaper, more efficient method. Our deep learning model uses MobileNet and two dense layers in order to perform feature extraction and image classification. The model is trained and tested using 3,014 images, evenly split between children with autism and children without it. 90% of the data is used for training, and 10% is used for testing. Based on our accuracy, we propose that the diagnosis of autism can be done effectively using only a picture. Additionally, there may be other diseases that are similarly diagnosable.
翻訳日:2022-11-02 06:54:50 公開日:2020-08-06
# モデル保護のための秘密鍵付きdnnモデルのトレーニング

Training DNN Model with Secret Key for Model Protection ( http://arxiv.org/abs/2008.02450v1 )

ライセンス: Link先を確認
MaungMaung AprilPyone and Hitoshi Kiya(参考訳) 本稿では,まず,秘密鍵を用いたブロックワイズ画素シャッフルを画像入力のための前処理手法として用いたモデル保護手法を提案する。 保護されたモデルは、事前処理された画像でトレーニングすることで構築される。 実験の結果,キーが正しい場合,保護されたモデルの性能は非保護モデルに近いが,不正なキーが与えられた場合の精度は著しく低下し,提案モデル保護は非保護モデルとほぼ同等の性能を維持しつつ,ブルートフォース攻撃だけでなく微調整攻撃に対しても頑健であることがわかった。

In this paper, we propose a model protection method by using block-wise pixel shuffling with a secret key as a preprocessing technique to input images for the first time. The protected model is built by training with such preprocessed images. Experiment results show that the performance of the protected model is close to that of non-protected models when the key is correct, while the accuracy is severely dropped when an incorrect key is given, and the proposed model protection is robust against not only brute-force attacks but also fine-tuning attacks, while maintaining almost the same performance accuracy as that of using a non-protected model.
翻訳日:2022-11-02 06:53:29 公開日:2020-08-06
# 動的勾配アグリゲーションを用いたフェデレーション伝達学習

Federated Transfer Learning with Dynamic Gradient Aggregation ( http://arxiv.org/abs/2008.02452v1 )

ライセンス: Link先を確認
Dimitrios Dimitriadis, Kenichi Kumatani, Robert Gmyr, Yashesh Gaur and Sefik Emre Eskimez(参考訳) 本稿では,連邦学習(FL)シミュレーションプラットフォームについて述べる。 ターゲットシナリオは、このプラットフォームに基づく音響モデルのトレーニングである。 私たちの知る限りでは、固有の複雑さのために音声認識タスクにfl技術を適用する最初の試みです。 提案するFLプラットフォームは,モジュール設計を取り入れたさまざまなタスクをサポートすることができる。 プラットフォームの一部として,新しい階層的最適化手法と2つの勾配集約法が提案され,bmufやfedavgなど他の分散型およびfl型トレーニングアルゴリズムと比較して,トレーニング収束速度がほぼ1桁向上した。 階層最適化は、収束速度の向上に加えて、トレーニングパイプラインにさらなる柔軟性を提供する。 階層的最適化に加えて,データ駆動重み推定に基づく動的勾配集約アルゴリズムを提案する。 この集約アルゴリズムは勾配品質の正則化として機能する。 最後に、flに合わせた教師なしのトレーニングパイプラインを個別のトレーニングシナリオとして提示する。 提案システムの実験的検証は2つのタスクに基づいている: まず, ベースライン結果と比較して, 速度が7倍, 6%の単語誤り率低減(werr)を示すlibrispeechタスクである。 第2のタスクはセッション適応に基づいており、競争力のある生産可能なLASモデルよりも20%のWERRを改善する。 提案するフェデレーション学習システムは,収束速度とモデル全体の性能の両方において,分散トレーニングの黄金水準を上回っている。

In this paper, a Federated Learning (FL) simulation platform is introduced. The target scenario is Acoustic Model training based on this platform. To our knowledge, this is the first attempt to apply FL techniques to Speech Recognition tasks due to the inherent complexity. The proposed FL platform can support different tasks based on the adopted modular design. As part of the platform, a novel hierarchical optimization scheme and two gradient aggregation methods are proposed, leading to almost an order of magnitude improvement in training convergence speed compared to other distributed or FL training algorithms like BMUF and FedAvg. The hierarchical optimization offers additional flexibility in the training pipeline besides the enhanced convergence speed. On top of the hierarchical optimization, a dynamic gradient aggregation algorithm is proposed, based on a data-driven weight inference. This aggregation algorithm acts as a regularizer of the gradient quality. Finally, an unsupervised training pipeline tailored to FL is presented as a separate training scenario. The experimental validation of the proposed system is based on two tasks: first, the LibriSpeech task showing a speed-up of 7x and 6% Word Error Rate reduction (WERR) compared to the baseline results. The second task is based on session adaptation providing an improvement of 20% WERR over a competitive production-ready LAS model. The proposed Federated Learning system is shown to outperform the golden standard of distributed training in both convergence speed and overall model performance.
翻訳日:2022-11-02 06:53:18 公開日:2020-08-06
# 条件付ランダムフィールドによる膜タンパク質の構造解明

Unravelling the Architecture of Membrane Proteins with Conditional Random Fields ( http://arxiv.org/abs/2008.02467v1 )

ライセンス: Link先を確認
Lior Lukov, Sanjay Chawla, Wei Liu, Brett Church, and Gaurav Pandey(参考訳) 本稿では,最近導入されたグラフィカルモデルである条件ランダム場 (CRF) が,生物体に関するマイクロレベルの情報を数学的モデルに統合し,マクロレベルの振る舞いを理解するテンプレートを提供する。 具体的には、CRFモデルをタンパク質科学の重要な分類問題、すなわち観察された一次構造に基づくタンパク質の二次構造予測に適用する。 ベンチマークデータセットを28の他の方法と比較すると、crfモデルは極めて正確な予測につながるだけでなく、モデルのモジュラー性や、異種、重複、非独立な情報ソースを統合できる自由によって、バイオインフォマティクスの他の多くの問題を潜在的に解決できる非常に多用途なツールとなっている。

In this paper, we will show that the recently introduced graphical model: Conditional Random Fields (CRF) provides a template to integrate micro-level information about biological entities into a mathematical model to understand their macro-level behavior. More specifically, we will apply the CRF model to an important classification problem in protein science, namely the secondary structure prediction of proteins based on the observed primary structure. A comparison on benchmark data sets against twenty-eight other methods shows that not only does the CRF model lead to extremely accurate predictions but the modular nature of the model and the freedom to integrate disparate, overlapping and non-independent sources of information, makes the model an extremely versatile tool to potentially solve many other problems in bioinformatics.
翻訳日:2022-11-02 06:46:03 公開日:2020-08-06
# ベクトル量子化オートエンコーダニューラルネットワークを用いた財務文書監査における学習サンプリング

Learning Sampling in Financial Statement Audits using Vector Quantised Autoencoder Neural Networks ( http://arxiv.org/abs/2008.02528v1 )

ライセンス: Link先を確認
Marco Schreyer, Timur Sattarov, Anita Gierbl, Bernd Reimer and Damian Borth(参考訳) ファイナンシャルステートメントの監査は、発行されたステートメントが「真実で公正なプレゼンテーション」という内容の誤記のないことを合理的に保証するように設計されている。 国際監査基準は、潜在的な誤記を検出するために「定期的エントリー」と呼ばれる、ステートメントの基盤となる関連取引の評価を必要とする。 このような項目の増加を効率的に監査するため、監査人は定期的に「監査サンプリング」と呼ばれるサンプルベースの評価を行う。 しかし, 監査作業は, 監査プロセス全体において早期に実施されることが多い。 しばしば、監査人が全ての生成要因とそのダイナミクスに気付いていない場合があり、その結果、監査のスコープ内のジャーナルエントリが生じる。 この課題を解決するために,ベクトル量子可変オートエンコーダ(VQ-VAE)ニューラルネットワークを提案する。 実世界の2つの決済データセットに基づいて、そのようなニューラルネットワークが会計データの定量化表現を学習できることを実証する。 学習した量子化が (i)変動の潜在要因と要因 (ii) 財務諸表監査における代表的監査サンプルとして活用することができる。

The audit of financial statements is designed to collect reasonable assurance that an issued statement is free from material misstatement 'true and fair presentation'. International audit standards require the assessment of a statements' underlying accounting relevant transactions referred to as 'journal entries' to detect potential misstatements. To efficiently audit the increasing quantities of such entries, auditors regularly conduct a sample-based assessment referred to as 'audit sampling'. However, the task of audit sampling is often conducted early in the overall audit process. Often at a stage, in which an auditor might be unaware of all generative factors and their dynamics that resulted in the journal entries in-scope of the audit. To overcome this challenge, we propose the application of Vector Quantised-Variational Autoencoder (VQ-VAE) neural networks. We demonstrate, based on two real-world city payment datasets, that such artificial neural networks are capable of learning a quantised representation of accounting data. We show that the learned quantisation uncovers (i) the latent factors of variation and (ii) can be utilised as a highly representative audit sample in financial statement audits.
翻訳日:2022-11-02 06:45:50 公開日:2020-08-06
# 映画検索のためのグラフwasserstein相関解析

Graph Wasserstein Correlation Analysis for Movie Retrieval ( http://arxiv.org/abs/2008.02648v1 )

ライセンス: Link先を確認
Xueya Zhang and Tong Zhang and Xiaobin Hong and Zhen Cui and Jian Yang(参考訳) 映画グラフは、人間中心の検索において、ビデオやテキストの異質なモダリティを橋渡しする上で重要な役割を果たす。 本稿では,グラフワッサースタイン相関解析(GWCA)を提案する。 スペクトルグラフフィルタリングはグラフ信号を符号化するために導入され、グラフwasserstein metric learningと呼ばれるwasserstein空間の確率分布として埋め込まれる。 このようなグラフ信号フィルタリングとメトリック学習のシームレスな統合は、両方の学習プロセスにおいて驚きの一貫性をもたらします。 さらに、グラフ比較モデルの解を、完全閉形式解を持つ古典的な一般化固有値分解問題として導出する。 最後に,映画/テキストグラフ生成と共にgwcaを映画検索の枠組みに統合し,提案手法を評価する。 MovieGrpahsデータセットに関する大規模な実験では、GWCAとフレームワーク全体の効果が示されている。

Movie graphs play an important role to bridge heterogenous modalities of videos and texts in human-centric retrieval. In this work, we propose Graph Wasserstein Correlation Analysis (GWCA) to deal with the core issue therein, i.e, cross heterogeneous graph comparison. Spectral graph filtering is introduced to encode graph signals, which are then embedded as probability distributions in a Wasserstein space, called graph Wasserstein metric learning. Such a seamless integration of graph signal filtering together with metric learning results in a surprise consistency on both learning processes, in which the goal of metric learning is just to optimize signal filters or vice versa. Further, we derive the solution of the graph comparison model as a classic generalized eigenvalue decomposition problem, which has an exactly closed-form solution. Finally, GWCA together with movie/text graphs generation are unified into the framework of movie retrieval to evaluate our proposed method. Extensive experiments on MovieGrpahs dataset demonstrate the effectiveness of our GWCA as well as the entire framework.
翻訳日:2022-11-02 06:45:21 公開日:2020-08-06
# 集合モデリングのための交換可能なニューラルode

Exchangeable Neural ODE for Set Modeling ( http://arxiv.org/abs/2008.02676v1 )

ライセンス: Link先を確認
Yang Li, Haidong Yi, Christopher M. Bender, Siyuan Shan, Junier B. Oliva(参考訳) 点クラウドのようなベクトルの集合からなるインスタンス上の推論では、要素間のセット内依存的な特徴を考慮しなければならない。 しかし、そのようなインスタンスは非順序であるため、要素の機能は入力の順序が変われば変更されなければならない。 この性質は置換同値であり、ほとんどのニューラルアーキテクチャーにとって難しい制約である。 近年の研究では、グローバルプールと注意に基づくソリューションが提案されているが、これらは実際に依存関係を捉える方法に制限される可能性がある。 本研究では、常微分方程式(ODE)による置換同値性を実現するためのより一般的な定式化を提案する。 提案するモジュールであるExNODE(Exchangeable Neural ODE)は,識別タスクと生成タスクの両方にシームレスに適用できる。 また,時間的次元における集合モデリングを拡張し,時間的集合モデリングのためのvaeモデルを提案する。 本手法の強塩基性に対する有効性を示す実験を行った。

Reasoning over an instance composed of a set of vectors, like a point cloud, requires that one accounts for intra-set dependent features among elements. However, since such instances are unordered, the elements' features should remain unchanged when the input's order is permuted. This property, permutation equivariance, is a challenging constraint for most neural architectures. While recent work has proposed global pooling and attention-based solutions, these may be limited in the way that intradependencies are captured in practice. In this work we propose a more general formulation to achieve permutation equivariance through ordinary differential equations (ODE). Our proposed module, Exchangeable Neural ODE (ExNODE), can be seamlessly applied for both discriminative and generative tasks. We also extend set modeling in the temporal dimension and propose a VAE based model for temporal set modeling. Extensive experiments demonstrate the efficacy of our method over strong baselines.
翻訳日:2022-11-02 06:45:05 公開日:2020-08-06
# より強くより高速なワッサーシュタイン攻撃

Stronger and Faster Wasserstein Adversarial Attacks ( http://arxiv.org/abs/2008.02883v1 )

ライセンス: Link先を確認
Kaiwen Wu and Allen Houze Wang and Yaoliang Yu(参考訳) 深層モデルは極めて柔軟で正確であるが、敵攻撃として知られる「小さく、知覚不能な」摂動に対して驚くほど脆弱である。 既存の攻撃の大半は$\ell_p$メートル法で摂動を測定することに重点を置いているが、画素空間の幾何学を考慮に入れているワッサーシュタイン距離は、画像品質を測定するのに適した測度として知られており、最近は$\ell_p$メートル法に代わる魅力的な代替手段として浮上している。 しかし、ワッサーシュタイン計量の下で効果的な攻撃を構築することは、計算的にはるかに困難であり、より良い最適化アルゴリズムを要求する。 このギャップを2つの方法で解決します a) より強力な投射勾配攻撃を可能にするために、正確にかつ効率的な投射演算子を開発する。 b) 適当な線形最小化オラクルを備えたフランク=ウルフ法はワッサーシュタインの制約下で極めて高速に機能することを示す。 我々のアルゴリズムはより速く収束するだけでなく、より強力な攻撃を引き起こす。 例えば、cifar-10上の残差ネットワークの精度を半径0.005$のwasserstein摂動球内の3.4\%$に低下させる。 さらに, 対戦訓練における攻撃の強化は, 対戦訓練モデルの堅牢性を大幅に向上させる。

Deep models, while being extremely flexible and accurate, are surprisingly vulnerable to "small, imperceptible" perturbations known as adversarial attacks. While the majority of existing attacks focus on measuring perturbations under the $\ell_p$ metric, Wasserstein distance, which takes geometry in pixel space into account, has long been known to be a suitable metric for measuring image quality and has recently risen as a compelling alternative to the $\ell_p$ metric in adversarial attacks. However, constructing an effective attack under the Wasserstein metric is computationally much more challenging and calls for better optimization algorithms. We address this gap in two ways: (a) we develop an exact yet efficient projection operator to enable a stronger projected gradient attack; (b) we show that the Frank-Wolfe method equipped with a suitable linear minimization oracle works extremely fast under Wasserstein constraints. Our algorithms not only converge faster but also generate much stronger attacks. For instance, we decrease the accuracy of a residual network on CIFAR-10 to $3.4\%$ within a Wasserstein perturbation ball of radius $0.005$, in contrast to $65.6\%$ using the previous Wasserstein attack based on an \emph{approximate} projection operator. Furthermore, employing our stronger attacks in adversarial training significantly improves the robustness of adversarially trained models.
翻訳日:2022-11-02 06:44:16 公開日:2020-08-06
# AutoMLを用いたエンドツーエンドASRモデルの反復圧縮

Iterative Compression of End-to-End ASR Model using AutoML ( http://arxiv.org/abs/2008.02897v1 )

ライセンス: Link先を確認
Abhinav Mehrotra, {\L}ukasz Dudziak, Jinsu Yeo, Young-yoon Lee, Ravichander Vipperla, Mohamed S. Abdelfattah, Sourav Bhattacharya, Samin Ishtiaq, Alberto Gil C. P. Ramos, SangJeong Lee, Daehyun Kim, Nicholas D. Lane(参考訳) オンデバイス自動音声認識(ASR)システムの需要が増大し、自動モデル圧縮技術の開発に新たな関心が寄せられている。 従来の研究では、エンド・ツー・エンドのEncoder-Attention-DecoderスタイルのASRモデルに適用されたAutoMLベースの低ランク因子化(LRF)技術が最大3.7倍の高速化を実現し、厳しい手動のランク選択手法よりも優れていることが示されている。 しかし、現在のAutoMLベースの検索技術は、ある圧縮レベルまでしか機能せず、それ以外は許容される単語誤り率(WER)の圧縮モデルを生成できないことを示す。 本研究では,WERを劣化させることなく5倍以上の圧縮を達成し,ASR圧縮の最先端化を図るための反復型AutoMLベースのLRF手法を提案する。

Increasing demand for on-device Automatic Speech Recognition (ASR) systems has resulted in renewed interests in developing automatic model compression techniques. Past research have shown that AutoML-based Low Rank Factorization (LRF) technique, when applied to an end-to-end Encoder-Attention-Decoder style ASR model, can achieve a speedup of up to 3.7x, outperforming laborious manual rank-selection approaches. However, we show that current AutoML-based search techniques only work up to a certain compression level, beyond which they fail to produce compressed models with acceptable word error rates (WER). In this work, we propose an iterative AutoML-based LRF approach that achieves over 5x compression without degrading the WER, thereby advancing the state-of-the-art in ASR compression.
翻訳日:2022-11-02 06:43:47 公開日:2020-08-06
# 二元アクションエージェントを用いた深層qネットワーク型マルチエージェント強化学習

Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents ( http://arxiv.org/abs/2008.04109v1 )

ライセンス: Link先を確認
Abdul Mueed Hafiz and Ghulam Mohiuddin Bhat(参考訳) 強化学習(RL)のためのディープQネットワーク(DQN)ベースのマルチエージェントシステム(MAS)は、エージェントが学習し通信しなければならない様々なスキームを使用する。 しかし、学習はそれぞれのエージェントに特異的であり、コミュニケーションはエージェントのために適切に設計される。 より複雑なQNetworksが注目されるにつれて、マルチエージェントシステムの全体的な複雑さは、トレーニングの難しさ、リソースの増大、トレーニング時間の増加、微調整の難しさといった問題につながります。 これらの問題に対処するために,DQN の体験リプレイプールをアップダデーションするために,共有状態と報酬を用いた RL のための単純かつ効率的な DQN ベースの MAS を提案する。 このアプローチの利点は、従来のdqnベースのアプローチと比べて、全体的な単純さ、収束の高速化、パフォーマンスの向上である。 メソッドが任意のDQNに拡張可能である点に注意が必要だ。 そこで我々は,DQNとDDQN(ダブルQ-ラーニング)をそれぞれ,Cartpole-v1(OpenAI Gym環境),LunarLander-v2(OpenAI Gym環境),Maze Traversal(カスタマイズ環境)の3つのタスクで使用する。 提案手法は,これらタスクのベースラインをそれぞれ適度なマージンで上回っている。

Deep Q-Network (DQN) based multi-agent systems (MAS) for reinforcement learning (RL) use various schemes where in the agents have to learn and communicate. The learning is however specific to each agent and communication may be satisfactorily designed for the agents. As more complex Deep QNetworks come to the fore, the overall complexity of the multi-agent system increases leading to issues like difficulty in training, need for higher resources and more training time, difficulty in fine-tuning, etc. To address these issues we propose a simple but efficient DQN based MAS for RL which uses shared state and rewards, but agent-specific actions, for updation of the experience replay pool of the DQNs, where each agent is a DQN. The benefits of the approach are overall simplicity, faster convergence and better performance as compared to conventional DQN based approaches. It should be noted that the method can be extended to any DQN. As such we use simple DQN and DDQN (Double Q-learning) respectively on three separate tasks i.e. Cartpole-v1 (OpenAI Gym environment) , LunarLander-v2 (OpenAI Gym environment) and Maze Traversal (customized environment). The proposed approach outperforms the baseline on these tasks by decent margins respectively.
翻訳日:2022-11-02 06:36:41 公開日:2020-08-06
# Open Domain Question Answering Datasetsにおけるテストトレインオーバーラップに関する質問と回答

Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets ( http://arxiv.org/abs/2008.02637v1 )

ライセンス: Link先を確認
Patrick Lewis, Pontus Stenetorp, Sebastian Riedel(参考訳) 理想的には、オープンドメイン質問回答モデルは、単にトレーニング時に見られる質問を覚えることから、トレーニング中に見られる回答で新しい質問に答えること、新しい回答で全く新しい質問を一般化することまで、さまざまな能力を示すべきである。 しかし、単一の集計されたテストセットスコアは、モデルが真に持つ能力の全体像を示さない。 本研究では,これらの能力に関して,人気のある3つのオープンドメインベンチマークデータセットのテストセットについて詳細な研究を行う。 テストタイムの回答の60~70%は、トレーニングセットのどこかに存在しています。 また、テストセット質問の30%が、対応するトレーニングセットにほぼ重複したパラフレーズを持っていることも判明した。 これらの知見を用いて、我々は様々な人気のあるオープンドメインモデルを評価し、それらが実際に一般化できる範囲と、その全体的なパフォーマンスを駆動する要因についてより深い知見を得る。 すべてのモデルがトレーニングセットから記憶できない問題に対して劇的にパフォーマンスを低下させ、反復データと非繰り返しデータの間の絶対パフォーマンスの差は63%であることがわかった。 最後に、BARTクローズドブックQAモデルよりもすぐ近くの単純なモデルを示し、これらのベンチマークでトレーニングセット記憶が果たす役割をさらに強調する。

Ideally Open-Domain Question Answering models should exhibit a number of competencies, ranging from simply memorizing questions seen at training time, to answering novel question formulations with answers seen during training, to generalizing to completely novel questions with novel answers. However, single aggregated test set scores do not show the full picture of what capabilities models truly have. In this work, we perform a detailed study of the test sets of three popular open-domain benchmark datasets with respect to these competencies. We find that 60-70% of test-time answers are also present somewhere in the training sets. We also find that 30% of test-set questions have a near-duplicate paraphrase in their corresponding training sets. Using these findings, we evaluate a variety of popular open-domain models to obtain greater insight into what extent they can actually generalize, and what drives their overall performance. We find that all models perform dramatically worse on questions that cannot be memorized from training sets, with a mean absolute performance difference of 63% between repeated and non-repeated data. Finally we show that simple nearest-neighbor models out-perform a BART closed-book QA model, further highlighting the role that training set memorization plays in these benchmarks
翻訳日:2022-11-02 06:36:14 公開日:2020-08-06
# 学習映像符号化のための光学フローとモード選択

Optical Flow and Mode Selection for Learning-based Video Coding ( http://arxiv.org/abs/2008.02580v1 )

ライセンス: Link先を確認
Th\'eo Ladune (IETR), Pierrick Philippe, Wassim Hamidouche (IETR), Lu Zhang (IETR), Olivier D\'eforges (IETR)(参考訳) 本稿では,mofnetとcodecnetという2つの補完的オートエンコーダに基づくフレーム間符号化手法を提案する。 MOFNetは光学フローと画素単位の符号化モードの選択の計算と伝達を目的としている。 光の流れは、符号化するフレームの予測を行うために使用される。 符号化モード選択は、予測の直接コピーとCodecNetによる送信の競合を可能にする。 提案手法は, 学習画像圧縮2020(clic20)のpフレーム符号化条件に基づいて評価され, 最先端のビデオコーデックitu/mpeg hevcと同等の性能を示す。 さらに、予測をコピーする可能性により、事前学習や専用損失項に頼ることなく、エンドツーエンドで光の流れを学習することができる。

This paper introduces a new method for inter-frame coding based on two complementary autoencoders: MOFNet and CodecNet. MOFNet aims at computing and conveying the Optical Flow and a pixel-wise coding Mode selection. The optical flow is used to perform a prediction of the frame to code. The coding mode selection enables competition between direct copy of the prediction or transmission through CodecNet. The proposed coding scheme is assessed under the Challenge on Learned Image Compression 2020 (CLIC20) P-frame coding conditions, where it is shown to perform on par with the state-of-the-art video codec ITU/MPEG HEVC. Moreover, the possibility of copying the prediction enables to learn the optical flow in an end-to-end fashion i.e. without relying on pre-training and/or a dedicated loss term.
翻訳日:2022-11-02 06:35:53 公開日:2020-08-06
# 生体情報のための多言語ニューラルマシン翻訳モデル

A Multilingual Neural Machine Translation Model for Biomedical Data ( http://arxiv.org/abs/2008.02878v1 )

ライセンス: Link先を確認
Alexandre B\'erard, Zae Myung Kim, Vassilina Nikoulina, Eunjeong L. Park, Matthias Gall\'e(参考訳) 生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。 モデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。 ドメインタグを使用して、大量のジェネリックデータとバイオメディカルデータでトレーニングされる。 我々のベンチマークでは、ニュース(ジェネリックドメイン)とバイオメディカルテストセットの両方で最先端に動作し、既存の公開モデルよりも優れています。 このリリースは、COVID-19危機のデジタルコンテンツと、社会、経済、医療政策に対するその影響の大規模多言語分析に役立つと信じています。 また,韓国英語用バイオメディカルテキストの試験セットもリリースしている。 新型コロナウイルスに関する公式ガイドラインと最近の論文の758通からなる。

We release a multilingual neural machine translation model, which can be used to translate text in the biomedical domain. The model can translate from 5 languages (French, German, Italian, Korean and Spanish) into English. It is trained with large amounts of generic and biomedical data, using domain tags. Our benchmarks show that it performs near state-of-the-art both on news (generic domain) and biomedical test sets, and that it outperforms the existing publicly released models. We believe that this release will help the large-scale multilingual analysis of the digital content of the COVID-19 crisis and of its effects on society, economy, and healthcare policies. We also release a test set of biomedical text for Korean-English. It consists of 758 sentences from official guidelines and recent papers, all about COVID-19.
翻訳日:2022-11-02 06:35:40 公開日:2020-08-06
# 強化学習におけるろ過に関するジェントル講義ノート

A Gentle Lecture Note on Filtrations in Reinforcement Learning ( http://arxiv.org/abs/2008.02622v1 )

ライセンス: Link先を確認
W.J.A. van Heeswijk(参考訳) 本研究の目的は,強化学習(rl)の文脈で用いられる濾過の概念に関する基礎的直観を提供することである。 フィルターはしばしばRL問題を正式に定義するために使われるが、その意味は測度理論の背景を持たない人には顕著ではないかもしれない。 本質的には、フィルタリングは、すでにシミュレーションされているが、意思決定者に公開されていない将来の情報を明らかにすることなく、t$までの部分的な知識をキャプチャするコンストラクタである。 離散的な結果空間と連続的な結果空間の両方について、金融分野の簡単な例で説明する。 さらに,現在の問題状態(マルコフ的性質によって可能)のみに基づいて決定を行うことで,意思決定プロセスから将来的な知識を排除することができるため,濾過の概念は不要であることを示す。

This note aims to provide a basic intuition on the concept of filtrations as used in the context of reinforcement learning (RL). Filtrations are often used to formally define RL problems, yet their implications might not be eminent for those without a background in measure theory. Essentially, a filtration is a construct that captures partial knowledge up to time $t$, without revealing any future information that has already been simulated, yet not revealed to the decision-maker. We illustrate this with simple examples from the finance domain on both discrete and continuous outcome spaces. Furthermore, we show that the notion of filtration is not needed, as basing decisions solely on the current problem state (which is possible due to the Markovian property) suffices to eliminate future knowledge from the decision-making process.
翻訳日:2022-11-02 06:34:49 公開日:2020-08-06
# Aschern at SemEval-2020 Task 11: It Takes Three to Tango: RoBERTa, CRF, Transfer Learning

aschern at SemEval-2020 Task 11: It Takes Three to Tango: RoBERTa, CRF, and Transfer Learning ( http://arxiv.org/abs/2008.02837v1 )

ライセンス: Link先を確認
Anton Chernyavskiy, Dmitry Ilvovsky, Preslav Nakov(参考訳) 本稿では,新聞記事中のプロパガンダ技術の検出に関するSemEval-2020 Task 11について述べる。 我々は,RoBERTaベースのニューラルネットワーク,追加のCRFレイヤ,2つのサブタスク間の伝達学習,タスクのマルチラベル性,ネストスパン間の一貫性,繰り返し,トレーニング中の同様のスパンからのラベルを扱うための高度な後処理を用いたアンサンブルモデルを開発した。 我々は,ベースライン微調整のRoBERTaモデルに対して大幅な改良を行い,F1スコアが0.491で,F1スコアが0.62で,36チーム中3位(ほとんどは第2位)、31チーム中2位(ほぼ第1位)をF1スコアが0.62で評価した。

We describe our system for SemEval-2020 Task 11 on Detection of Propaganda Techniques in News Articles. We developed ensemble models using RoBERTa-based neural architectures, additional CRF layers, transfer learning between the two subtasks, and advanced post-processing to handle the multi-label nature of the task, the consistency between nested spans, repetitions, and labels from similar spans in training. We achieved sizable improvements over baseline fine-tuned RoBERTa models, and the official evaluation ranked our system 3rd (almost tied with the 2nd) out of 36 teams on the span identification subtask with an F1 score of 0.491, and 2nd (almost tied with the 1st) out of 31 teams on the technique classification subtask with an F1 score of 0.62.
翻訳日:2022-11-02 06:29:24 公開日:2020-08-06
# Representational Collapse の低減によるファインチューニングの改善

Better Fine-Tuning by Reducing Representational Collapse ( http://arxiv.org/abs/2008.03156v1 )

ライセンス: Link先を確認
Armen Aghajanyan, Akshat Shrivastava, Anchit Gupta, Naman Goyal, Luke Zettlemoyer, Sonal Gupta(参考訳) 広く採用されているが、事前学習された言語モデルに対する既存のアプローチは、ハイパーパラメータの設定で不安定であることが示されている。 本稿では,従来使用されていた対数目標をパラメトリックノイズ(正規分布か均一分布か)に置き換え,性能を損なうことなく微調整時の表現変化を回避し,信頼領域理論に根ざした簡易かつ効率的な手法を提案する。 また, 信頼領域法をより一般的に活用するために, 表現的崩壊を研究することによって, 特定のエンドタスクに微調整された事前学習モデルからの一般化可能な表現の劣化を動機づける新たな分析手法を提案する。 広範囲な実験により、我々の微調整手法は、DailyMail/CNN、Gigaword、Reddit TIFU、GLUEベンチマークなど、様々な理解および生成タスクにおいて、従来の信頼領域メソッドのパフォーマンスと一致しているか、あるいは上回っていることがわかった。 事前訓練されたモデルは、微調整されるたびにより一般化可能な表現を維持している。

Although widely adopted, existing approaches for fine-tuning pre-trained language models have been shown to be unstable across hyper-parameter settings, motivating recent work on trust region methods. In this paper, we present a simplified and efficient method rooted in trust region theory that replaces previously used adversarial objectives with parametric noise (sampling from either a normal or uniform distribution), thereby discouraging representation change during fine-tuning when possible without hurting performance. We also introduce a new analysis to motivate the use of trust region methods more generally, by studying representational collapse; the degradation of generalizable representations from pre-trained models as they are fine-tuned for a specific end task. Extensive experiments show that our fine-tuning method matches or exceeds the performance of previous trust region methods on a range of understanding and generation tasks (including DailyMail/CNN, Gigaword, Reddit TIFU, and the GLUE benchmark), while also being much faster. We also show that it is less prone to representation collapse; the pre-trained models maintain more generalizable representations every time they are fine-tuned.
翻訳日:2022-11-02 06:28:41 公開日:2020-08-06
# 時系列データ拡張を用いたグローバル予測モデルの精度向上

Improving the Accuracy of Global Forecasting Models using Time Series Data Augmentation ( http://arxiv.org/abs/2008.02663v1 )

ライセンス: Link先を確認
Kasun Bandara, Hansika Hewamalage, Yuan-Hao Liu, Yanfei Kang, Christoph Bergmeir(参考訳) global forecasting models (gfm) と呼ばれる多くの時系列のセットで訓練された予測モデルは、最近の予測競技や実世界のアプリケーションにおいて有望な結果を示しており、最先端の予測手法を上回っている。 ほとんどの場合、gfmはディープニューラルネットワークを使用して実装され、特にrecurrent neural networks (rnn)は、それらのモデルパラメータを推定するのに十分な時系列を必要とする。 しかし、多くの時系列データベースは限られた数の時系列しか持たない。 本研究では,gfmモデルのベースライン精度を少ない設定で向上させることのできる,新しいデータ拡張型予測フレームワークを提案する。 我々は, GRATIS, moving block bootstrap (MBB), dynamic time warping barycentric averaging (DBA) という3つの時系列拡張技術を用いて時系列の集合を合成的に生成する。 これらの強化時系列から得られた知識は、プール化アプローチと転送学習アプローチという2つの異なるアプローチを用いて、元のデータセットに転送される。 GFMを構築する場合、プール化されたアプローチでは、元の時系列データセットと共に拡張時系列のモデルをトレーニングしますが、転送学習アプローチでは、トレーニング済みモデルを新しいデータセットに適応させます。 コンペティションおよび実世界の時系列データセットの評価において,提案した変種はGFMモデルのベースライン精度を著しく向上し,最先端の単変量予測法より優れる。

Forecasting models that are trained across sets of many time series, known as Global Forecasting Models (GFM), have shown recently promising results in forecasting competitions and real-world applications, outperforming many state-of-the-art univariate forecasting techniques. In most cases, GFMs are implemented using deep neural networks, and in particular Recurrent Neural Networks (RNN), which require a sufficient amount of time series to estimate their numerous model parameters. However, many time series databases have only a limited number of time series. In this study, we propose a novel, data augmentation based forecasting framework that is capable of improving the baseline accuracy of the GFM models in less data-abundant settings. We use three time series augmentation techniques: GRATIS, moving block bootstrap (MBB), and dynamic time warping barycentric averaging (DBA) to synthetically generate a collection of time series. The knowledge acquired from these augmented time series is then transferred to the original dataset using two different approaches: the pooled approach and the transfer learning approach. When building GFMs, in the pooled approach, we train a model on the augmented time series alongside the original time series dataset, whereas in the transfer learning approach, we adapt a pre-trained model to the new dataset. In our evaluation on competition and real-world time series datasets, our proposed variants can significantly improve the baseline accuracy of GFM models and outperform state-of-the-art univariate forecasting methods.
翻訳日:2022-11-02 06:27:42 公開日:2020-08-06
# コアスキルの総合的・自律的学習に向けて:ロコモーションを事例として

Towards General and Autonomous Learning of Core Skills: A Case Study in Locomotion ( http://arxiv.org/abs/2008.12228v1 )

ライセンス: Link先を確認
Roland Hafner, Tim Hertweck, Philipp Kl\"oppner, Michael Bloesch, Michael Neunert, Markus Wulfmeier, Saran Tunyasuvunakool, Nicolas Heess, Martin Riedmiller(参考訳) 現代の強化学習(RL)アルゴリズムは、生の感覚入力から直接、難しい運動制御問題を解くことを約束する。 彼らの魅力は、人間の専門家にとって困難または費用のかかる状況でも、合理的に設定された報酬と最小限の事前知識でソリューションを学ぶことができる一般的な方法のクラスを表現できるという事実にある。 しかし、RLがこの約束を真に達成するためには、問題固有の調整やエンジニアリングを最小限に抑えて幅広い問題に対処できるアルゴリズムと学習のセットアップが必要です。 本稿では,移動領域における一般性の概念について考察する。 そこで我々は,二足歩行,三足歩行,四足歩行,六足歩行など多種多様な歩行動作を学習する学習フレームワークを開発した。 我々の学習フレームワークは,データ効率のよいマルチタスクRLアルゴリズムと,ロボット間で意味論的に同一の報酬関数セットに依存している。 本手法の適用性を高めるため,実験中におけるハイパーパラメータ設定と報酬定義を一定に保ち,オンボードセンシングにのみ依存する。 実世界の四足歩行ロボットを含む9種類のロボットに対して、同じアルゴリズムがプラットフォーム固有の調整や学習装置の追加なしに、多種多様な再利用可能な運動スキルを迅速に学習できることを実証する。

Modern Reinforcement Learning (RL) algorithms promise to solve difficult motor control problems directly from raw sensory inputs. Their attraction is due in part to the fact that they can represent a general class of methods that allow to learn a solution with a reasonably set reward and minimal prior knowledge, even in situations where it is difficult or expensive for a human expert. For RL to truly make good on this promise, however, we need algorithms and learning setups that can work across a broad range of problems with minimal problem specific adjustments or engineering. In this paper, we study this idea of generality in the locomotion domain. We develop a learning framework that can learn sophisticated locomotion behavior for a wide spectrum of legged robots, such as bipeds, tripeds, quadrupeds and hexapods, including wheeled variants. Our learning framework relies on a data-efficient, off-policy multi-task RL algorithm and a small set of reward functions that are semantically identical across robots. To underline the general applicability of the method, we keep the hyper-parameter settings and reward definitions constant across experiments and rely exclusively on on-board sensing. For nine different types of robots, including a real-world quadruped robot, we demonstrate that the same algorithm can rapidly learn diverse and reusable locomotion skills without any platform specific adjustments or additional instrumentation of the learning setup.
翻訳日:2022-11-02 06:26:54 公開日:2020-08-06