このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200212となっている論文です。

PDF登録状況(公開日: 20200212)

TitleAuthorsAbstract論文公表日・翻訳日
# 電場と磁場の空間曲線に制約されたスピン-1/2粒子の有効動力学

Effective dynamics for a spin-1/2 particle constrained to a space curve in an electric and magnetic field ( http://arxiv.org/abs/2002.04891v1 )

ライセンス: Link先を確認
Guo-Hua Liang, Yong-Long Wang, Meng-Yun Lai, Hao Zhao, Hong-Shi Zong and Hui Liu(参考訳) 外部の電場と磁場を印加した任意の空間曲線で動くように制約されたスピン1/2粒子の動力学を考える。 ゲージ理論の助けを借りて、接と正規の動力学の分離に成功し、実効ハミルトニアンを導出する。 SU(2)ゼーマン相互作用と呼ばれる新しいタイプの量子ポテンシャルが現れ、電場によって誘導され、スピンと固有軌道角運動量とを結合する。 ハミルトニアンに基づいて、ゼロ固有軌道角運動量の場合のスピン述語と、ヘリックスに対するSU(2)ゼーマン相互作用によって引き起こされるエネルギー分割を例として論じ、幾何学と外界の組合せ効果を示す。 新しい相互作用はスピントロニクスの量子状態を操作する新しいアプローチをもたらすかもしれない。

We consider the dynamics of a spin-1/2 particle constrained to move in an arbitrary space curve with an external electric and magnetic field applied. With the aid of gauge theory, we successfully decouple the tangential and normal dynamics and derive the effective Hamiltonian. A new type of quantum potential called SU(2) Zeeman interaction appears, which is induced by the electric field and couples spin and intrinsic orbital angular momentum. Based on the Hamiltonian, we discuss the spin precession for zero intrinsic orbital angular momentum case and the energy splitting caused by the SU(2) Zeeman interaction for a helix as examples, showing the combined effect of geometry and external field. The new interaction may bring new approaches to manipulate quantum states in spintronics.
翻訳日:2023-06-03 21:30:54 公開日:2020-02-12
# 線形ガウス量子系の必要十分基準付き量子状態平滑化の一般的な基準

General criteria for quantum state smoothing with necessary and sufficient criteria for linear Gaussian quantum systems ( http://arxiv.org/abs/2002.04795v1 )

ライセンス: Link先を確認
Kiarn T. Laverick, Areeya Chantasri and Howard M. Wiseman(参考訳) 量子状態平滑化 (quantum state smoothing) は、観測された観測記録全体($\tau$ 前後の両方)で条件付けられた、部分的に観測された量子システムの量子状態を予測する手法である。 しかし、この平滑化技術は、ボブの(例えば)システムの真の状態を特定するために、観測者(アリスなど)に、彼女にとって未知な測定記録の性質を知る必要がある。 アリスがボブの系における真の状態の集合について誤った仮定をするなら、彼女は最適でない滑らかな状態を得るだろうし、さらに悪いことに、(真の状態の有効な進化に対応していない)非現実的(状態行列 $\rho\geq0$ で表されない)さえも得る。 本稿では,量子状態平滑化の歴史的背景を概観し,平滑化量子状態が満たすべき一般基準をリスト化する。 次に、線型ガウス量子系の場合、真状態の共分散行列における実現可能性に対する必要十分かつ十分な制約を導出する。 自然に、真状態の実現可能な共分散は、物理的に滑らかな状態を保証する。 物理的に滑らかな状態を与える任意の真の共分散は実現可能な真の共分散であると考えることができるが、これはそうではないことを明示的に示す。 これは実現可能性の制約の重要性を浮き彫りにする。

Quantum state smoothing is a technique for estimating the quantum state of a partially observed quantum system at time $\tau$, conditioned on an entire observed measurement record (both before and after $\tau$). However, this smoothing technique requires an observer (Alice, say) to know the nature of the measurement records that are unknown to her in order to characterize the possible true states for Bob's (say) systems. If Alice makes an incorrect assumption about the set of true states for Bob's system, she will obtain a smoothed state that is suboptimal, and, worse, may be unrealizable (not corresponding to a valid evolution for the true states) or even unphysical (not represented by a state matrix $\rho\geq0$). In this paper, we review the historical background to quantum state smoothing, and list general criteria a smoothed quantum state should satisfy. Then we derive, for the case of linear Gaussian quantum systems, a necessary and sufficient constraint for realizability on the covariance matrix of the true state. Naturally, a realizable covariance of the true state guarantees a smoothed state which is physical. It might be thought that any putative true covariance which gives a physical smoothed state would be a realizable true covariance, but we show explicitly that this is not so. This underlines the importance of the realizabilty constraint.
翻訳日:2023-06-03 21:30:27 公開日:2020-02-12
# 中性原子を用いたナノフォトニック量子ネットワークノードと統合通信インタフェース

Nanophotonic quantum network node with neutral atoms and an integrated telecom interface ( http://arxiv.org/abs/2002.05175v1 )

ライセンス: Link先を確認
Shankar G. Menon, Kevin Singh, Johannes Borregaard, Hannes Bernien(参考訳) フォトニックチャネルによってリンクされる量子メモリノードに基づく長距離分散量子ネットワークの実現は、いまだに未解決の課題である。 本稿では,ナノフォトニック結晶キャビティに結合した中性アルカリ原子をベースとした量子ネットワークノードを提案する。 本稿では,アルカリ原子の励起状態間の通信遷移を利用した原子光子絡み状態の生成のための新しいプロトコルを提案する。 ナノフォトニック結晶キャビティの完全な原子レベル構造と特性を考慮したルビジウム原子とセシウム原子を用いた本プロトコルの現実的な実装について検討した。 忠実度の高い絡み合った状態が、現在の技術で生成できることが分かりました。

The realization of a long-distance, distributed quantum network based on quantum memory nodes that are linked by photonic channels remains an outstanding challenge. We propose a quantum network node based on neutral alkali atoms coupled to nanophotonic crystal cavities that combines a long-lived memory qubit with a photonic interface at the telecom range, thereby enabling the long-distance distribution of entanglement over low loss optical fibers. We present a novel protocol for the generation of an atom-photon entangled state which uses telecom transitions between excited states of the alkali atoms. We analyze the realistic implementation of this protocol using rubidium and cesium atoms taking into account the full atomic level structure and properties of the nanophotonic crystal cavity. We find that a high fidelity entangled state can be generated with current technologies
翻訳日:2023-06-03 21:26:09 公開日:2020-02-12
# 全種類のフラクトンに対するトポロジ的欠陥ネットワーク

Topological Defect Networks for Fractons of all Types ( http://arxiv.org/abs/2002.05166v1 )

ライセンス: Link先を確認
David Aasen, Daniel Bulmash, Abhinav Prem, Kevin Slagle, Dominic J. Williamson(参考訳) フラクトン相は、ギャップ量子物質を分類する標準トポロジカル量子場理論(TQFT)のパラダイムを超えて、それらに顕著な振る舞いを示す。 本稿では,欠陥tqftの観点からフラクトン相を考察し,位相欠陥ネットワーク(3+1d tqftsに埋め込まれた位相欠陥ネットワーク)が,様々な種類のガッピングフラクトン相を記述するための統一フレームワークを提供することを示した。 この図では、フラクタル物質のサブ次元励起特性は、欠陥ネットワークによって課される移動制限の結果である。 フラクトン相を含む全てのガッピング位相は位相的欠陥ネットワーク記述を認め、x-cubeやhaahのbコードを含む多くの既知のフラクトンモデルに対してそのような構成を明示的に提供することでこの主張を支持していると推測する。 また,このフレームワークの汎用性を強調するため,非可換フラクトンをホストする新しいフラクトン位相の欠陥ネットワーク構築も提供する。 この構成の副産物として、フラクトン基底状態の一般化膜-ネット記述と、この予想が2+1Dギャップ系にタイプIIトポロジカルフラクトン相が存在しないことを示唆する議論を得る。 我々の研究は、3+1d tqftの高次ガッピング境界を構築する新しい技術にも光を当てている。

Fracton phases exhibit striking behavior which appears to render them beyond the standard topological quantum field theory (TQFT) paradigm for classifying gapped quantum matter. Here, we explore fracton phases from the perspective of defect TQFTs and show that topological defect networks---networks of topological defects embedded in stratified 3+1D TQFTs---provide a unified framework for describing various types of gapped fracton phases. In this picture, the sub-dimensional excitations characteristic of fractonic matter are a consequence of mobility restrictions imposed by the defect network. We conjecture that all gapped phases, including fracton phases, admit a topological defect network description and support this claim by explicitly providing such a construction for many well-known fracton models, including the X-Cube and Haah's B code. To highlight the generality of our framework, we also provide a defect network construction of a novel fracton phase hosting non-Abelian fractons. As a byproduct of this construction, we obtain a generalized membrane-net description for fractonic ground states as well as an argument that our conjecture implies no type-II topological fracton phases exist in 2+1D gapped systems. Our work also sheds light on new techniques for constructing higher order gapped boundaries of 3+1D TQFTs.
翻訳日:2023-06-03 21:25:56 公開日:2020-02-12
# 古典的誤り訂正量子メモリのためのgaas-spin qubitデバイスの実現に向けて

Towards a realistic GaAs-spin qubit device for a classical error-corrected quantum memory ( http://arxiv.org/abs/2002.05136v1 )

ライセンス: Link先を確認
Manuel Rispler, Pascal Cerfontaine, Veit Langrock, Barbara M. Terhal(参考訳) 数値最適化実デバイスゲートとパラメータに基づき,一重項量子ビットをホストするガリウム(gaas)量子ドットの線形配列上での位相フリップ(反復)符号の性能について検討した。 まず,回路レベルのノイズと現象論的ノイズの単純な誤差モデルを用いて,回路レベルの非分極雑音閾値を約3%と報告することにより,予測性能を検証した。 次に,最大値と最小値のマッチングデコーダを用いて密度行列シミュレーションを行い,実デバイスのデフォーカス,読み出し誤差,準静的,高速ゲートノイズの影響について検討する。 測定時間における量子ビット読み出し誤差と強調時間(t2)とのトレードオフを考慮して,実験範囲内に位置する位相フリップ符号のサブスレッショルド領域を同定する。

Based on numerically-optimized real-device gates and parameters we study the performance of the phase-flip (repetition) code on a linear array of Gallium Arsenide (GaAs) quantum dots hosting singlet-triplet qubits. We first examine the expected performance of the code using simple error models of circuit-level and phenomenological noise, reporting, for example, a circuit-level depolarizing noise threshold of approximately 3%. We then perform density-matrix simulations using a maximum-likelihood and minimum-weight matching decoder to study the effect of real-device dephasing, read-out error, quasi-static as well as fast gate noise. Considering the trade-off between qubit read-out error and dephasing time (T2) over measurement time, we identify a sub-threshold region for the phase-flip code which lies within experimental reach.
翻訳日:2023-06-03 21:24:53 公開日:2020-02-12
# DyPc$_2$分子におけるDy同位体の超微粒子と四極子相互作用

Hyperfine and quadrupole interactions for Dy isotopes in DyPc$_2$ molecules ( http://arxiv.org/abs/2002.05134v1 )

ライセンス: Link先を確認
Aleksander L. Wysocki and Kyungwha Park(参考訳) 原子核スピンレベルは、ランタニド系単分子磁石の磁化ダイナミクスと量子ビットの実装と制御を理解する上で重要な役割を果たす。 陽イオン型DyPc$_2$(Pc=フタロシアニン)単分子磁石における超微粒子と核四極子相互作用をスピン軌道相互作用を含む多構成的ab-initio法(密度汎関数理論)を用いて検討した。 Dyの2つの同位体は、他は核スピンがゼロであるため選択される。 どちらの同位体も核スピン $i=5/2$ を持つが、核磁気モーメントの大きさと符号は互いに異なる。 電子グラウンドと第一励起のクラマーズ・ダブルトの間の大きなエネルギーギャップは、ミクロ超微細構造と四重極相互作用ハミルトニアンを、グラウンド・クラマーズ・ダブルトに対応する電子擬スピン$s_{\rm eff}=1/2$を持つ有効ハミルトニアンに写像することができる。 ab-initio計算により、原子核スピンと電子軌道角運動量との結合は超微粒子相互作用に最も寄与し、超微粒子と原子核四極子相互作用は、tbpc$_2の単分子磁石において、$^{161}$dyおよび$^{163}$dyの原子核の方が$^{159}$tbの原子核の方がはるかに小さいことが示されている。 計算された電子核レベルの分離は、$^{163}$DyPc$_2$で報告された実験データに匹敵する。 ダイ・クラマーズイオンの超微細相互作用がゼロ磁場でのトンネル分割(または磁化の量子トンネル)を引き起こすことを示した。 この効果はTbPc$_2$単分子磁石では起こらない。 回避されたレベル交差の磁場値は、$^{161}$DyPc$_2$および$^{163}$DyPc$_2$に対して顕著に異なることが判明し、実験から観察できる。

Nuclear spin levels play an important role in understanding magnetization dynamics and implementation and control of quantum bits in lanthanide-based single-molecule magnets. We investigate the hyperfine and nuclear quadrupole interactions for $^{161}$Dy and $^{163}$Dy nucleus in anionic DyPc$_2$ (Pc=phthalocyanine) single-molecule magnets, using multiconfigurational ab-initio methods (beyond density-functional theory) including spin-orbit interaction. The two isotopes of Dy are chosen because the others have zero nuclear spin. Both isotopes have the nuclear spin $I=5/2$, although the magnitude and sign of the nuclear magnetic moment differ from each other. The large energy gap between the electronic ground and first-excited Kramers doublets, allows us to map the microscopic hyperfine and quadrupole interaction Hamiltonian onto an effective Hamiltonian with an electronic pseudo-spin $S_{\rm eff}=1/2$ that corresponds to the ground Kramers doublet. Our ab-initio calculations show that the coupling between the nuclear spin and electronic orbital angular momentum contributes the most to the hyperfine interaction and that both the hyperfine and nuclear quadrupole interactions for $^{161}$Dy and $^{163}$Dy nucleus are much smaller than those for $^{159}$Tb nucleus in TbPc$_2$ single-molecule magnets. The calculated separations of the electronic-nuclear levels are comparable to experimental data reported for $^{163}$DyPc$_2$. We demonstrate that hyperfine interaction for Dy Kramers ion leads to tunnel splitting (or quantum tunneling of magnetization) at zero field. This effect does not occur for TbPc$_2$ single-molecule magnets. The magnetic field values of the avoided level crossings for $^{161}$DyPc$_2$ and $^{163}$DyPc$_2$ are found to be noticeably different, which can be observed from experiment.
翻訳日:2023-06-03 21:24:39 公開日:2020-02-12
# 実験的3状態測定-非キャラクタリゼーション源を用いたデバイス非依存量子鍵分布

Experimental Three-State Measurement-Device-Independent Quantum Key Distribution with Uncharacterized Sources ( http://arxiv.org/abs/2002.04944v1 )

ライセンス: Link先を確認
Xing-Yu Zhou, Hua-Jian Ding, Chun-Hui Zhang, Jian Li, Chun-Mei Zhang and Qin Wang(参考訳) 測定デバイス非依存量子鍵分布(mdi-qkd)プロトコルは、高いセキュリティと実用性のために量子通信において重要な役割を果たす。 検出装置に向けられた全てのサイドチャネル攻撃に免疫することができる。 しかしながら、このプロトコルは、既存のほとんどのMDI-QKDスキーム(例えば、完全な状態準備や完全に特徴付けられたソース)において、状態準備の間に厳格な要件を含んでいる。 本稿では,3状態法を用いて非文字化MDI-QKDを調査し,有限サイズ効果を大幅に低減する。 状態準備の唯一の要件は、状態が二次元ヒルベルト空間で準備されることである。 さらに、170kmの送信距離を超越した実証実験を行い、記録上の同じセキュリティレベルの下で最長の送信距離を示す。

The measurement-device-independent quantum key distribution (MDI-QKD) protocol plays an important role in quantum communications due to its high level of security and practicability. It can be immune to all side-channel attacks directed on the detecting devices. However, the protocol still contains strict requirements during state preparation in most existing MDI-QKD schemes, e.g., perfect state preparation or perfectly characterized sources, which are very hard to realize in practice. In this letter, we investigate uncharacterized MDI-QKD by utilizing a three-state method, greatly reducing the finite-size effect. The only requirement for state preparation is that the state are prepared in a bidimensional Hilbert space. Furthermore, a proof-of-principle demonstration over a 170 km transmission distance is achieved, representing the longest transmission distance under the same security level on record.
翻訳日:2023-06-03 21:23:06 公開日:2020-02-12
# 決定図を用いた量子状態近似

Approximation of Quantum States Using Decision Diagrams ( http://arxiv.org/abs/2002.04904v1 )

ライセンス: Link先を確認
Alwin Zulehner, Stefan Hillmich, Igor L. Markov and Robert Wille(参考訳) 量子コンピュータの計算能力は、純粋な量子状態を表すために通常指数関数的に大きなメモリを必要とするため、新しい設計ツールに大きな課題をもたらす。 前述のように、決定図は冗長性を利用してこれらのメモリ要求を減らすことができる。 本研究では,量子状態表現における小さな不正確性を許容することで,さらなる削減を実証する。 このような不正確さは、量子コンピュータ自体がゲートと測定誤差を経験し、量子アルゴリズムはエラーに対して多少耐性があるため(誤り訂正なしでも)正当である。 これらの観測を利用して、決定図で表される量子状態を効果的に近似する4つの専用スキームを開発する。 提案手法は, 近似量子状態表現の忠実度を制御しつつ, 決定図のサイズを最大数桁削減できることを実証的に示す。

The computational power of quantum computers poses major challenges to new design tools since representing pure quantum states typically requires exponentially large memory. As shown previously, decision diagrams can reduce these memory requirements by exploiting redundancies. In this work, we demonstrate further reductions by allowing for small inaccuracies in the quantum state representation. Such inaccuracies are legitimate since quantum computers themselves experience gate and measurement errors and since quantum algorithms are somewhat resistant to errors (even without error correction). We develop four dedicated schemes that exploit these observations and effectively approximate quantum states represented by decision diagrams. We empirically show that the proposed schemes reduce the size of decision diagrams by up to several orders of magnitude while controlling the fidelity of approximate quantum state representations.
翻訳日:2023-06-03 21:22:52 公開日:2020-02-12
# 局所スクイズド貯水池を用いた二次格子の調整アルゴリズムによる非局所絡み付き汎用キラル状態の安定化

An algorithm for tailoring a quadratic lattice with a local squeezed reservoir to stabilize generic chiral states with non-local entanglement ( http://arxiv.org/abs/2002.05224v1 )

ライセンス: Link先を確認
Yariv Yanay(参考訳) 本研究では,局所スクイズド貯水池に結合したボソニック格子系の対称性を用いて,貯水池工学を通して,独自に絡み合う多体状態の生成への新しいアプローチを示す。 所望の一連の相関関係から始めると、ハミルトニアンを制約するために対称性を使い、これらの相関関係を実現する純粋な定常状態を安定化させる格子構成を求めるアルゴリズムの概要を示す。 量子情報応用に有用である非局所相関を持つ2つの一意な純粋状態の安定化にこのプロセスを使用する方法を示す。 まず、四角い格子を、四角い四角いサイトの積状態へと導く方法を示す。 第二に、二分した系を用いて、格子の半分の局所的な測定値が、後半の純粋な非局在状態を示す定常状態を生成する。

We demonstrate a new approach to the generation of custom entangled many-body states through reservoir engineering, using the symmetry properties of bosonic lattice systems coupled to a local squeezed reservoir. We outline an algorithm where, beginning with a desired set of squeezing correlations, one uses the symmetry to constrain the Hamiltonian and find a lattice configuration which stabilizes a pure steady state realizing these correlations. We demonstrate how to use this process to stabilize two unique pure states with non-local correlations that could be useful for quantum information applications. First, we show how drive a square lattice into a product state of entangled quadruplets of sites. Second, using a bisected system, we generate a steady state where local measurements in one half of the lattice herald a pure delocalized state in the second half.
翻訳日:2023-06-03 21:15:54 公開日:2020-02-12
# 最適放射熱伝達のための材料応答係数の量子限界

Quantum Limits on Material Response Factors for Optimized Radiative Heat Transfer ( http://arxiv.org/abs/2002.05210v1 )

ライセンス: Link先を確認
Ethan L. Crowell, Mark G. Kuzyk(参考訳) 量子力学的考察により, 近接場放射熱伝達(RHT)の基本限界において重要な役割を果たす物質応答係数 $|\chi|^2/\text{Im}\left[\chi \right]$ を最適化する。 選択材料に対する実験データから得られた限界値を比較すると, 現行材料は最適化された値の何桁も下がらず, 2つの物体間の放射熱伝達速度が著しく向上する可能性が示唆された。 この研究は、RHTの最適化を目指す材料設計の取り組みと、RHTの量子起源と基本極限の理論に関する洞察を提供する。

Through quantum mechanical considerations, we optimize the material response factor $|\chi|^2/\text{Im}\left[\chi \right]$, which plays a pivotal role in the fundamental limits of near-field radiative heat transfer (RHT). A comparison of the limits obtained to experimental data for select materials shows that current materials fall several orders of magnitude short of the optimized values, suggesting the possibility of significant improvement in the rate of radiative heat transfer between two bodies. This work informs material design efforts that seek to optimize RHT, as well as provides insights into the quantum origins of RHT and the theory of fundamental limits.
翻訳日:2023-06-03 21:15:37 公開日:2020-02-12
# 画像場における電子状態の密度と遮蔽電界

Density of States of an Electron in the Image Field and Blocking Electric Field ( http://arxiv.org/abs/2002.05192v1 )

ライセンス: Link先を確認
P.A. Golovinski, M.A. Preobrazhenskii, I.S. Surovtzev(参考訳) 半古典的近似では、イメージ場とブロッキング電場における電子の運動が考慮される。 状態のエネルギースペクトルの密度について、正確な解析式が示される。 スペクトル密度のエネルギー依存性は、広い範囲の電界強度で得られる。 スペクトルの定性的に異なる構造を持つエネルギー範囲を決定する。

The motion of an electron in an image field and a blocking electric field is considered in semiclassical approximation. An exact analytical expression is found for the density of the energy spectrum of states. The dependence of spectral density on energy is obtained in a wide range of electric field strengths. The energy ranges with a qualitatively different structure of the spectrum are determined.
翻訳日:2023-06-03 21:15:15 公開日:2020-02-12
# 量子暗号のための一連のスキームの実現のための光学設計

Optical designs for realization of a set of schemes for quantum cryptography ( http://arxiv.org/abs/2002.05184v1 )

ライセンス: Link先を確認
Mitali Sisodia, Kishore Thapliyal and Anirban Pathak(参考訳) 過去にいくつかの量子暗号スキームが提案され、実験的に実現されてきた。 しかし、量子技術の発展と直接安全な量子通信方式の設計への関心が高まったにもかかわらず、これらの暗号方式の実験的な実装は少ない。 本稿では,このような量子暗号スキームのための光回路の集合を,理論上提案したセキュア通信スキームの一部を変更することで,まだ実験的に実現されていない。 具体的には、2つの単一光子と1つの絡み合った状態に基づく制御量子対話方式の実装のための光学設計を提案し、その後光学設計を削減し、他の安全な量子通信タスク、すなわち制御された決定論的安全な量子通信、量子対話、量子セキュアな直接通信、量子鍵合意、量子鍵分布を実現するためのより単純な設計を導出した。 我々はさらに,エンタングルメントスワッピングに基づく決定論的セキュア量子通信とその制御型量子通信のための光学設計を提案している。

Several quantum cryptographic schemes have been proposed and realized experimentally in the past. However, even with an advancement in quantum technology and escalated interest in the designing of direct secure quantum communication schemes there are not many experimental implementations of these cryptographic schemes. In this paper, we have provided a set of optical circuits for such quantum cryptographic schemes, which have not yet been realized experimentally by modifying some of our theoretically proposed secure communication schemes. Specifically, we have proposed optical designs for the implementation of two single photon and one entangled state based controlled quantum dialogue schemes and subsequently reduced our optical designs to yield simpler designs for realizing other secure quantum communication tasks, i.e., controlled deterministic secure quantum communication, quantum dialogue, quantum secure direct communication, quantum key agreement, and quantum key distribution. We have further proposed an optical design for an entanglement swapping based deterministic secure quantum communication and its controlled counterpart.
翻訳日:2023-06-03 21:14:37 公開日:2020-02-12
# 単一ショットのフォールトトレラント量子誤差補正を超えて

Beyond single-shot fault-tolerant quantum error correction ( http://arxiv.org/abs/2002.05180v1 )

ライセンス: Link先を確認
Nicolas Delfosse, Ben W. Reichardt and Krysta M. Svore(参考訳) ノイズ量子コンピュータ上で有用な計算を行うためには、広範囲な量子誤差補正が必要である。 さらに、量子誤り訂正は不完全なパリティチェック測定に基づいて実施され、不正な結果を返すか、クォービットに追加の故障を注入する可能性がある。 フォールトトレラントな誤差補正を実現するため、Shor氏はパリティチェック測定のシーケンスを、同じ結果が十分に何度も観測されるまで繰り返すことを提案した。 そして、この情報を使用してエラー訂正を行うことができる。 このフォールトトレランス戦略の基本的な実装には、rパリティチェックで定義された距離dコードに対する$\Omega(r d^2)$パリティチェック測定が必要である。 特定の高度に構造化された量子符号に対して、ボンビンはr測定のみを使用してシングルショットのフォールトトレラントな量子誤り訂正が可能であることを示した。 本研究では,ある定数 $\alpha > 0$ に対して,距離 $d \geq \omega(n^\alpha)$ の任意の符号に対して,o(d \log(d))$ の測定値を用いて,フォールトトレラントな量子誤り訂正を実現することを実証する。 さらに,r未満の測定値を用いたサブシングルショットフォールトトレラント量子誤り訂正法の存在を証明した。 場合によっては、フォールトトレラントな量子エラー訂正に必要なパリティチェックの回数は、コードを定義するパリティチェックの数よりも指数関数的に小さい。

Extensive quantum error correction is necessary in order to perform a useful computation on a noisy quantum computer. Moreover, quantum error correction must be implemented based on imperfect parity check measurements that may return incorrect outcomes or inject additional faults into the qubits. To achieve fault-tolerant error correction, Shor proposed to repeat the sequence of parity check measurements until the same outcome is observed sufficiently many times. Then, one can use this information to perform error correction. A basic implementation of this fault tolerance strategy requires $\Omega(r d^2)$ parity check measurements for a distance-d code defined by r parity checks. For some specific highly structured quantum codes, Bombin has shown that single-shot fault-tolerant quantum error correction is possible using only r measurements. In this work, we demonstrate that fault-tolerant quantum error correction can be achieved using $O(d \log(d))$ measurements for any code with distance $d \geq \Omega(n^\alpha)$ for some constant $\alpha > 0$. Moreover, we prove the existence of a sub-single-shot fault-tolerant quantum error correction scheme using fewer than r measurements. In some cases, the number of parity check measurements required for fault-tolerant quantum error correction is exponentially smaller than the number of parity checks defining the code.
翻訳日:2023-06-03 21:14:11 公開日:2020-02-12
# マルチエージェントバンディットのためのゴシピングインサート除去アルゴリズム

The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits ( http://arxiv.org/abs/2001.05452v3 )

ライセンス: Link先を確認
Ronshee Chawla, Abishek Sankararaman, Ayalvadi Ganesh, Sanjay Shakkottai(参考訳) 我々は、N$エージェントからなる分散マルチエージェントマルチアームバンド(MAB)のセットアップを検討し、個々の累積後悔を最小限に抑えるために同じMABインスタンスを解決する。 我々のモデルでは、エージェントは任意のコネクテッドグラフ上でペアワイズゴシップスタイルの通信を通じてメッセージを交換することで協調する。 我々は2つの新しいアルゴリズムを開発し、各エージェントはすべてのアームのサブセットからのみ演奏する。 エージェントは通信媒体を使用して、腕IDのみを推奨し(サンプルではない)、腕のセットを更新する。 エージェントが接続された任意のペアのゴシップ機構を介して$\Omega(\log(T))$ timesを通信した場合、すべてのエージェントの後悔は、コラボレーションがない場合と比較して、オーダーN$の小さい要素である。 さらに,コミュニケーション制約は,アルゴリズムの後悔に対して2次効果しか与えないことを示した。 次に、後悔とコミュニケーションのトレードオフの境界を導いた後悔のこの2次項を分析する。 最後に、我々のアルゴリズムを実証的に評価し、洞察は基本であり、境界の人工物ではないと結論付ける。 また, 通信制約がない場合でも, アルゴリズムによって得られた残念なスケーリングは改善できないことを示す。 その結果、エージェント間の最小限のコラボレーションでも、すべてのエージェントに対する後悔が大幅に減少することが示された。

We consider a decentralized multi-agent Multi Armed Bandit (MAB) setup consisting of $N$ agents, solving the same MAB instance to minimize individual cumulative regret. In our model, agents collaborate by exchanging messages through pairwise gossip style communications on an arbitrary connected graph. We develop two novel algorithms, where each agent only plays from a subset of all the arms. Agents use the communication medium to recommend only arm-IDs (not samples), and thus update the set of arms from which they play. We establish that, if agents communicate $\Omega(\log(T))$ times through any connected pairwise gossip mechanism, then every agent's regret is a factor of order $N$ smaller compared to the case of no collaborations. Furthermore, we show that the communication constraints only have a second order effect on the regret of our algorithm. We then analyze this second order term of the regret to derive bounds on the regret-communication tradeoffs. Finally, we empirically evaluate our algorithm and conclude that the insights are fundamental and not artifacts of our bounds. We also show a lower bound which gives that the regret scaling obtained by our algorithm cannot be improved even in the absence of any communication constraints. Our results thus demonstrate that even a minimal level of collaboration among agents greatly reduces regret for all agents.
翻訳日:2023-01-11 06:23:23 公開日:2020-02-12
# ParkingSticker: 現実世界のオブジェクト検出データセット

ParkingSticker: A Real-World Object Detection Dataset ( http://arxiv.org/abs/2001.11639v2 )

ライセンス: Link先を確認
Caroline Potts, Ethem F. Can, Aysu Ezen-Can, Xiangqian Hu(参考訳) 我々は、PASCAL VOCのような一般的な既存のデータセットよりも、業界問題で利用可能なデータのタイプを模倣する、新しい挑戦的なオブジェクト検出データセットであるParkingStickerを提案する。 ParkingStickerには、セキュリティカメラの映像から得られた1,871枚の画像が含まれている。 目的は、セキュリティカメラが直面しているゲートに近づく車の駐車ステッカーを特定することである。 画像の駐車ステッカーの周りにバウンディングボックスが描かれています。 パーキングステッカーは、他の一般的なオブジェクト検出データセットのオブジェクトよりも平均してはるかに小さい。 このデータセットは、顧客がいくつかのビデオフレームを提示し、非常に難しい問題に対する解決策を求める、多くの業界の問題で利用可能なデータを非常にリアルに表現します。 YOLOv2アーキテクチャを用いた様々なオブジェクト検出パイプラインの性能を示し、ParkingStickerにおけるパーキングステッカーの識別が困難であることを示す。 このデータセットは、非理想的カメラ位置決めや小さなオブジェクトサイズと画像サイズ比といった現実世界の制約で現実の問題を解決するために研究者に挑戦するであろう。

We present a new and challenging object detection dataset, ParkingSticker, which mimics the type of data available in industry problems more closely than popular existing datasets like PASCAL VOC. ParkingSticker contains 1,871 images that come from a security camera's video footage. The objective is to identify parking stickers on cars approaching a gate that the security camera faces. Bounding boxes are drawn around parking stickers in the images. The parking stickers are much smaller on average than the objects in other popular object detection datasets; this makes ParkingSticker a challenging test for object detection methods. This dataset also very realistically represents the data available in many industry problems where a customer presents a few video frames and asks for a solution to a very difficult problem. Performance of various object detection pipelines using a YOLOv2 architecture are presented and indicate that identifying the parking stickers in ParkingSticker is challenging yet feasible. We believe that this dataset will challenge researchers to solve a real-world problem with real-world constraints such as non-ideal camera positioning and small object-size-to-image-size ratios.
翻訳日:2023-01-05 06:38:40 公開日:2020-02-12
# テキスト生成における比較識別を用いた自己学習

Self-Adversarial Learning with Comparative Discrimination for Text Generation ( http://arxiv.org/abs/2001.11691v2 )

ライセンス: Link先を確認
Wangchunshu Zhou, Tao Ge, Ke Xu, Furu Wei, Ming Zhou(参考訳) テキスト生成のための従来のジェネレーティブ・ジェネレーティブ・アドバイザリアル・ネットワーク(GAN)は、生成したサンプルの品質と多様性に影響を与える報酬の分散とモード崩壊の問題を引き起こす傾向にある。 そこで本研究では,テキスト生成におけるGANの性能向上のための,新たな自己逆学習(SAL)パラダイムを提案する。 サンプルが本物か生成されたかを予測するためにバイナリ分類器を識別器として使用する標準的なGANとは対照的に、SALはサンプルのペア間でテキスト品質を比較するためのペアワイズ分類器である比較判別器を使用している。 トレーニング中、SALは、現在生成された文が以前生成されたサンプルより優れていると判断されたときにジェネレータに報酬を与える。 この自己改善報酬機構により、モデルがより簡単にクレジットを受け取れるようになり、実際のサンプル数が限られているため、報酬のスパーシティ問題を軽減するだけでなく、モード崩壊のリスクを低減できる。 テキスト生成ベンチマークデータセットに関する実験では,提案手法が品質と多様性の両方を大幅に改善し,従来のテキスト生成用gansよりも安定した性能が得られることを示す。

Conventional Generative Adversarial Networks (GANs) for text generation tend to have issues of reward sparsity and mode collapse that affect the quality and diversity of generated samples. To address the issues, we propose a novel self-adversarial learning (SAL) paradigm for improving GANs' performance in text generation. In contrast to standard GANs that use a binary classifier as its discriminator to predict whether a sample is real or generated, SAL employs a comparative discriminator which is a pairwise classifier for comparing the text quality between a pair of samples. During training, SAL rewards the generator when its currently generated sentence is found to be better than its previously generated samples. This self-improvement reward mechanism allows the model to receive credits more easily and avoid collapsing towards the limited number of real samples, which not only helps alleviate the reward sparsity issue but also reduces the risk of mode collapse. Experiments on text generation benchmark datasets show that our proposed approach substantially improves both the quality and the diversity, and yields more stable performance compared to the previous GANs for text generation.
翻訳日:2023-01-05 05:43:39 公開日:2020-02-12
# ワイドニングとシーズ:正確で効率的なQNNを目指して

Widening and Squeezing: Towards Accurate and Efficient QNNs ( http://arxiv.org/abs/2002.00555v2 )

ライセンス: Link先を確認
Chuanjian Liu, Kai Han, Yunhe Wang, Hanting Chen, Qi Tian, Chunjing Xu(参考訳) 量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。 既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。 しかし, 量子化特徴の表現能力は, 実験による全精度特徴よりもかなり弱いことがわかった。 本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することでこの問題に対処する。 同時に、冗長な量子化機能は削除され、一部のデータセットの次元の無制限な増加を避けることができる。 そして、十分な表現能力を有するコンパクト量子化ニューラルネットワークが確立される。 ベンチマークデータセットを用いた実験の結果、提案手法はパラメータや計算量がはるかに少ないQNNを確立することができるが、フル精度のベースラインモデル(例えば、ImageNet ILSVRC 2012データセット上のバイナリResNet-18のトップ1エラーなど)とほぼ同等の性能を持つことが示された。

Quantization neural networks (QNNs) are very attractive to the industry because their extremely cheap calculation and storage overhead, but their performance is still worse than that of networks with full-precision parameters. Most of existing methods aim to enhance performance of QNNs especially binary neural networks by exploiting more effective training techniques. However, we find the representation capability of quantization features is far weaker than full-precision features by experiments. We address this problem by projecting features in original full-precision networks to high-dimensional quantization features. Simultaneously, redundant quantization features will be eliminated in order to avoid unrestricted growth of dimensions for some datasets. Then, a compact quantization neural network but with sufficient representation ability will be established. Experimental results on benchmark datasets demonstrate that the proposed method is able to establish QNNs with much less parameters and calculations but almost the same performance as that of full-precision baseline models, e.g. $29.9\%$ top-1 error of binary ResNet-18 on the ImageNet ILSVRC 2012 dataset.
翻訳日:2023-01-04 09:08:01 公開日:2020-02-12
# 構造的深層クラスタリングネットワーク

Structural Deep Clustering Network ( http://arxiv.org/abs/2002.01633v3 )

ライセンス: Link先を確認
Deyu Bo, Xiao Wang, Chuan Shi, Meiqi Zhu, Emiao Lu and Peng Cui(参考訳) クラスタリングはデータ分析の基本的なタスクです。 近年,ディープラーニングのアプローチから着想を得た深層クラスタリングが最先端のパフォーマンスを達成し,注目を集めている。 現在のディープクラスタリング手法は、例えばオートエンコーダなど、ディープラーニングの強力な表現能力によって、クラスタリング結果を促進させるのが一般的であり、クラスタリングのための効果的な表現の学習が重要な要件であることを示唆している。 深層クラスタリングの強みは、表現学習において注意を引かないデータの構造ではなく、データ自身から有用な表現を抽出することである。 グラフ構造を符号化する上でのグラフ畳み込みネットワーク(gcn)の成功に動機づけられ,構造情報を深層クラスタリングに統合する構造的深層クラスタリングネットワーク(sdcn)を提案する。 具体的には、autoencoderが学習した表現を対応するgcn層に転送するデリバリオペレータと、これら2つの異なるディープニューラルネットワークを統一し、モデル全体の更新をガイドするデュアルセルフ教師付きメカニズムを設計する。 このように、低次から高次の複数のデータ構造は、オートエンコーダによって学習された複数の表現と自然に結合される。 さらに,デリバリオペレータ,すなわちデリバリオペレータを理論的に解析することにより,GCNは高階グラフ正規化制約としてオートエンコーダ固有の表現を改善し,オートエンコーダはGCNの過度なスムーシング問題を緩和する。 総合的な実験を通して,提案モデルが最先端技術よりも一貫して優れた性能を発揮することを示す。

Clustering is a fundamental task in data analysis. Recently, deep clustering, which derives inspiration primarily from deep learning approaches, achieves state-of-the-art performance and has attracted considerable attention. Current deep clustering methods usually boost the clustering results by means of the powerful representation ability of deep learning, e.g., autoencoder, suggesting that learning an effective representation for clustering is a crucial requirement. The strength of deep clustering methods is to extract the useful representations from the data itself, rather than the structure of data, which receives scarce attention in representation learning. Motivated by the great success of Graph Convolutional Network (GCN) in encoding the graph structure, we propose a Structural Deep Clustering Network (SDCN) to integrate the structural information into deep clustering. Specifically, we design a delivery operator to transfer the representations learned by autoencoder to the corresponding GCN layer, and a dual self-supervised mechanism to unify these two different deep neural architectures and guide the update of the whole model. In this way, the multiple structures of data, from low-order to high-order, are naturally combined with the multiple representations learned by autoencoder. Furthermore, we theoretically analyze the delivery operator, i.e., with the delivery operator, GCN improves the autoencoder-specific representation as a high-order graph regularization constraint and autoencoder helps alleviate the over-smoothing problem in GCN. Through comprehensive experiments, we demonstrate that our propose model can consistently perform better over the state-of-the-art techniques.
翻訳日:2023-01-03 21:02:49 公開日:2020-02-12
# 混合動機強化学習における社会的多様性と社会的嗜好

Social diversity and social preferences in mixed-motive reinforcement learning ( http://arxiv.org/abs/2002.02325v2 )

ライセンス: Link先を確認
Kevin R. McKee, Ian Gemp, Brian McWilliams, Edgar A. Du\'e\~nez-Guzm\'an, Edward Hughes, and Joel Z. Leibo(参考訳) 純粋および純粋共通関心ゲームにおける強化学習に関する最近の研究は、人口の多様性の重要性を強調している。 対照的に、混合モチベーションゲームにおける強化学習の研究は、主に均質なアプローチを利用している。 混合モチベーションゲームの定義的特徴--グループメンバー間のインセンティブの不完全相関-を踏まえ,混合モチベーション強化学習における集団の多様性の影響について検討した。 我々は,社会心理学と社会的価値指向(Social Value Orientation, SVO)を用いたImbue強化学習エージェントから相互依存理論を導出し, グループ成果分布に対する嗜好の柔軟な定式化を行う。 次に,2つの混合モチベーションマルコフゲームにおける強化学習エージェントの集団に対するsvoの多様性の影響について検討した。 SVOにおける不均一性は、相互依存理論によって示唆されるエージェントの有意義で複雑な挙動変化を生じさせることを示した。 これらの混合モチベーションジレンマの実証的な結果は、不均質な集団で訓練されたエージェントが、均質な集団で訓練されたエージェントと比較して、特に一般化し、高いパフォーマンスのポリシーを発達させることを示唆している。

Recent research on reinforcement learning in pure-conflict and pure-common interest games has emphasized the importance of population heterogeneity. In contrast, studies of reinforcement learning in mixed-motive games have primarily leveraged homogeneous approaches. Given the defining characteristic of mixed-motive games--the imperfect correlation of incentives between group members--we study the effect of population heterogeneity on mixed-motive reinforcement learning. We draw on interdependence theory from social psychology and imbue reinforcement learning agents with Social Value Orientation (SVO), a flexible formalization of preferences over group outcome distributions. We subsequently explore the effects of diversity in SVO on populations of reinforcement learning agents in two mixed-motive Markov games. We demonstrate that heterogeneity in SVO generates meaningful and complex behavioral variation among agents similar to that suggested by interdependence theory. Empirical results in these mixed-motive dilemmas suggest agents trained in heterogeneous populations develop particularly generalized, high-performing policies relative to those trained in homogeneous populations.
翻訳日:2023-01-03 12:54:51 公開日:2020-02-12
# 縮小ヒルベルト変換:特異性とチェビシェフ級数展開アプローチ

Truncated Hilbert Transform: Uniqueness and a Chebyshev series Expansion Approach ( http://arxiv.org/abs/2002.02073v2 )

ライセンス: Link先を確認
Jason You(参考訳) コンパクトな支持を持つ函数とその切断ヒルベルト変換がソコトスキー-プレメリの公式を用いて同じ間隔で知られている場合、より強い一意性が得られる。 歪んだヒルベルト変換から関数を見つけるために、チェビシェフ多項式列でそれらを表現し、係数を数値的に推定する2つの方法を提案する。 計算機シミュレーションの結果から,外挿手順が数値的にうまく機能することを示す。

We derive a stronger uniqueness result if a function with compact support and its truncated Hilbert transform are known on the same interval by using the Sokhotski-Plemelj formulas. To find a function from its truncated Hilbert transform, we express them in the Chebyshev polynomial series and then suggest two methods to numerically estimate the coefficients. We present computer simulation results to show that the extrapolative procedure numerically works well.
翻訳日:2023-01-03 12:37:17 公開日:2020-02-12
# anomalydae: 帰属ネットワーク上の異常検出のためのデュアルオートエンコーダ

AnomalyDAE: Dual autoencoder for anomaly detection on attributed networks ( http://arxiv.org/abs/2002.03665v2 )

ライセンス: Link先を確認
Haoyi Fan, Fengbin Zhang, Zuoyong Li(参考訳) 属性付きネットワーク上の異常検出は,ネットワーク侵入検出やソーシャルスパマー検出など,多くのアプリケーションで普及している参照ノードからパターンが著しく逸脱したノードを見つけることを目的としている。 しかし、既存のメソッドの多くは、ネットワーク構造とノード属性の間の複雑なクロスモダリティインタラクションを無視している。 本稿では,高品質組込みのためのネットワーク構造とノード属性の複雑な相互作用を捉えるデュアルオートエンコーダ(anomalydae)による異常検出のための深結合表現学習フレームワークを提案する。 具体的には、AnomalyDAEは構造オートエンコーダと属性オートエンコーダからなり、ノード埋め込みと属性埋め込みの両方を潜在空間に共同で学習する。 さらに、アテンション機構を構造エンコーダに採用し、ノードとその周辺ノード間の重要性を学習し、異常検出に重要な構造パターンを効果的に捕捉する。 さらに、属性デコーダの入力としてノード埋め込みと属性埋め込みを併用することにより、ノード属性の再構築中にネットワーク構造とノード属性間の相互の相互作用を学習する。 最後に、構造と属性の両方の観点からノードの再構成誤差を測定することで異常を検出することができる。 実世界のデータセットに関する広範囲な実験により,提案手法の有効性が示された。

Anomaly detection on attributed networks aims at finding nodes whose patterns deviate significantly from the majority of reference nodes, which is pervasive in many applications such as network intrusion detection and social spammer detection. However, most existing methods neglect the complex cross-modality interactions between network structure and node attribute. In this paper, we propose a deep joint representation learning framework for anomaly detection through a dual autoencoder (AnomalyDAE), which captures the complex interactions between network structure and node attribute for high-quality embeddings. Specifically, AnomalyDAE consists of a structure autoencoder and an attribute autoencoder to learn both node embedding and attribute embedding jointly in latent space. Moreover, attention mechanism is employed in structure encoder to learn the importance between a node and its neighbors for an effective capturing of structure pattern, which is important to anomaly detection. Besides, by taking both the node embedding and attribute embedding as inputs of attribute decoder, the cross-modality interactions between network structure and node attribute are learned during the reconstruction of node attribute. Finally, anomalies can be detected by measuring the reconstruction errors of nodes from both the structure and attribute perspectives. Extensive experiments on real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2023-01-02 07:40:16 公開日:2020-02-12
# 文脈表現の多言語アライメント

Multilingual Alignment of Contextual Word Representations ( http://arxiv.org/abs/2002.03518v2 )

ライセンス: Link先を確認
Steven Cao, Nikita Kitaev, Dan Klein(参考訳) 文脈埋め込みアライメントの評価・強化手法を提案し,多言語BERTの分析・改善に有用であることを示す。 特に,提案したアライメント手順の後に,BERTはベースモデルと比較してXNLIのゼロショット性能を著しく改善し,ブルガリア語とギリシャ語の擬似教師付き翻訳訓練モデルに顕著に適合した。 さらに,アライメントの程度を測定するために,単語検索の文脈版を導入し,下流ゼロショット転送とよく相関することを示す。 また, この単語検索タスクを用いて, bertを解析し, 体系的な欠陥,例えば, 異なるスクリプトで記述されたオープンクラスの部分のアライメントや単語ペアのアライメントが, アライメント手順によって修正されることを見出した。 これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。

We propose procedures for evaluating and strengthening contextual embedding alignment and show that they are useful in analyzing and improving multilingual BERT. In particular, after our proposed alignment procedure, BERT exhibits significantly improved zero-shot performance on XNLI compared to the base model, remarkably matching pseudo-fully-supervised translate-train models for Bulgarian and Greek. Further, to measure the degree of alignment, we introduce a contextual version of word retrieval and show that it correlates well with downstream zero-shot transfer. Using this word retrieval task, we also analyze BERT and find that it exhibits systematic deficiencies, e.g. worse alignment for open-class parts-of-speech and word pairs written in different scripts, that are corrected by the alignment procedure. These results support contextual alignment as a useful concept for understanding large multilingual pre-trained models.
翻訳日:2023-01-02 07:32:44 公開日:2020-02-12
# 画像インペインティングのための構造知識を組み込む学習

Learning to Incorporate Structure Knowledge for Image Inpainting ( http://arxiv.org/abs/2002.04170v2 )

ライセンス: Link先を確認
Jie Yang, Zhiquan Qi, Yong Shi(参考訳) 本稿では,画像インパインティングを支援するために,画像構造知識を取り入れようとするマルチタスク学習フレームワークを開発した。 第一のアイデアは、共有ジェネレータをトレーニングして、破損した画像と対応する構造 -- エッジと勾配 -- を同時に完了させることである。 その間,学習した構造特徴をインペインティングプロセスに明示的に埋め込む構造埋め込みスキームを導入し,画像補完のための前提条件を提供する。 具体的には,構造学習と埋め込みを監督するために,新しいピラミッド構造損失を提案する。 さらに,画像中のリカレント構造とパターンをさらに活用し,生成した構造と内容の精細化を図るための注意機構を開発した。 マルチタスク学習と構造埋め込みに加えて,このフレームワークは構造知識を活用し,ベンチマークデータセットにおける最先端手法を定量的・定性的に上回っている。

This paper develops a multi-task learning framework that attempts to incorporate the image structure knowledge to assist image inpainting, which is not well explored in previous works. The primary idea is to train a shared generator to simultaneously complete the corrupted image and corresponding structures --- edge and gradient, thus implicitly encouraging the generator to exploit relevant structure knowledge while inpainting. In the meantime, we also introduce a structure embedding scheme to explicitly embed the learned structure features into the inpainting process, thus to provide possible preconditions for image completion. Specifically, a novel pyramid structure loss is proposed to supervise structure learning and embedding. Moreover, an attention mechanism is developed to further exploit the recurrent structures and patterns in the image to refine the generated structures and contents. Through multi-task learning, structure embedding besides with attention, our framework takes advantage of the structure knowledge and outperforms several state-of-the-art methods on benchmark datasets quantitatively and qualitatively.
翻訳日:2023-01-02 02:14:52 公開日:2020-02-12
# 有限マルコフ決定過程に対するテンソルネットワークアプローチ

A Tensor Network Approach to Finite Markov Decision Processes ( http://arxiv.org/abs/2002.05185v1 )

ライセンス: Link先を確認
Edward Gillman, Dominic C. Rose and Juan P. Garrahan(参考訳) 量子多体物理学の文脈でよく用いられるテンソルネットワーク(tn)技術は、機械学習(ml)問題に取り組むためのツールとしてpromiseを示した。 しかし、MLへのTNの応用は、主に教師なし学習と教師なし学習に焦点を当てている。 しかし、隠れマルコフ連鎖と直結しているTNは、強化学習(RL)の基礎となるマルコフ決定過程(MDP)にも自然に適している。 ここでは、有限、エピソード、離散 MDP の一般 TN 式を導入する。 この定式化によって、政策最適化のためにTN向けに開発されたアルゴリズムを活用できることを示す。 応用として、ランダムウォーク探索の簡単な例を図示として、特定の動的条件を満たす確率的進化を求める(RL問題として定式化された)問題を考える。

Tensor network (TN) techniques - often used in the context of quantum many-body physics - have shown promise as a tool for tackling machine learning (ML) problems. The application of TNs to ML, however, has mostly focused on supervised and unsupervised learning. Yet, with their direct connection to hidden Markov chains, TNs are also naturally suited to Markov decision processes (MDPs) which provide the foundation for reinforcement learning (RL). Here we introduce a general TN formulation of finite, episodic and discrete MDPs. We show how this formulation allows us to exploit algorithms developed for TNs for policy optimisation, the key aim of RL. As an application we consider the issue - formulated as an RL problem - of finding a stochastic evolution that satisfies specific dynamical conditions, using the simple example of random walk excursions as an illustration.
翻訳日:2023-01-01 20:46:35 公開日:2020-02-12
# HAN-ECG:階層型注意ネットワークを用いた解釈可能な心房細動検出モデル

HAN-ECG: An Interpretable Atrial Fibrillation Detection Model Using Hierarchical Attention Networks ( http://arxiv.org/abs/2002.05262v1 )

ライセンス: Link先を確認
Sajad Mousavi, Fatemeh Afghah, and U. Rajendra Acharya(参考訳) 心房細動(英: atrial fibrillation、AF)は、米国で300万人以上、世界中の3300万人以上の人の生活に影響を及ぼし、脳卒中や死亡のリスクが5倍に増加するという最も一般的な不整脈の1つである。 医療分野の他の問題と同様に、人工知能(AI)ベースのアルゴリズムは患者の生理的信号から確実にAFを検出するために使われてきた。 この不整脈の検出における心臓医レベルのパフォーマンスは、深層学習に基づく方法によって達成されることが多いが、解釈可能性の欠如に苦しむ。 言い換えれば、これらのアプローチは意思決定の背後にある理由を説明することができない。 解釈可能性の欠如は、そのような方法で臨床医の信頼を制限する、医療における機械学習ベースのアプローチの幅広い応用に対する共通の課題である。 この課題に対処するために,AF検出タスクに対する双方向リカレントニューラルネットワークに基づく解釈可能なアプローチであるHAN-ECGを提案する。 HAN-ECGは、AFにつながるECGのパターンの多分解能分析を提供するために、3つの注意機構レベルを採用している。 第1のレベル、波のレベル、第2のレベル、心拍のレベル、心拍のレベル、第3のレベル、ウィンドウ(つまり複数の心拍のレベル)を計算し、関心のクラスをトリガーする際のウィンドウの重みを生成する。 この階層的注意モデルにより検出されたパターンは、最終的な予測に最も寄与した信号のパターンを特定する際に、ニューラルネットワーク決定プロセスの解釈を促進する。 2つのAFデータベースに対する実験結果から,提案手法は既存のアルゴリズムよりも優れた性能を示した。 これらの注意層の可視化は,検出作業において臨床的に有意な重要な波と心拍数をモデルが決定することを示している。

Atrial fibrillation (AF) is one of the most prevalent cardiac arrhythmias that affects the lives of more than 3 million people in the U.S. and over 33 million people around the world and is associated with a five-fold increased risk of stroke and mortality. like other problems in healthcare domain, artificial intelligence (AI)-based algorithms have been used to reliably detect AF from patients' physiological signals. The cardiologist level performance in detecting this arrhythmia is often achieved by deep learning-based methods, however, they suffer from the lack of interpretability. In other words, these approaches are unable to explain the reasons behind their decisions. The lack of interpretability is a common challenge toward a wide application of machine learning-based approaches in the healthcare which limits the trust of clinicians in such methods. To address this challenge, we propose HAN-ECG, an interpretable bidirectional-recurrent-neural-network-based approach for the AF detection task. The HAN-ECG employs three attention mechanism levels to provide a multi-resolution analysis of the patterns in ECG leading to AF. The first level, wave level, computes the wave weights, the second level, heartbeat level, calculates the heartbeat weights, and third level, window (i.e., multiple heartbeats) level, produces the window weights in triggering a class of interest. The detected patterns by this hierarchical attention model facilitate the interpretation of the neural network decision process in identifying the patterns in the signal which contributed the most to the final prediction. Experimental results on two AF databases demonstrate that our proposed model performs significantly better than the existing algorithms. Visualization of these attention layers illustrates that our model decides upon the important waves and heartbeats which are clinically meaningful in the detection task.
翻訳日:2023-01-01 20:46:21 公開日:2020-02-12
# 高速無人航空機の視覚慣性航法

A Visual-inertial Navigation Method for High-Speed Unmanned Aerial Vehicles ( http://arxiv.org/abs/2002.04791v1 )

ライセンス: Link先を確認
Xin-long Luo, Jia-hui Lv and Geng Sun(参考訳) 本稿では,単眼カメラと慣性ナビゲーションシステムを備えた高速無人航空機(UAV)の局部化問題について検討する。 UAVの水平飛行から生じる特異点を克服するために,視覚と慣性装置の相補性を利用したナビゲーション手法を提案する。 さらに、線形部分と非線形部分を切り離し、非線形最小二乗問題を線形等角制約最適化問題に置き換えることで、局所化問題の数学的モデルを修正する。 逐次非拘束最小化手法(ペナルティ法)の最適点付近の条件特性を回避するため、線形等化最適化問題を解くために、微分代数力学系に基づく信頼領域法を用いて半単純化連続法を構築する。 また、有限積分区間における常微分方程式の数値解法における従来の収束解析以外の無限積分区間における半単純連続法の大域収束特性を解析する。 最後に、有望な数値結果も提示する。

This paper investigates the localization problem of high-speed high-altitude unmanned aerial vehicle (UAV) with a monocular camera and inertial navigation system. It proposes a navigation method utilizing the complementarity of vision and inertial devices to overcome the singularity which arises from the horizontal flight of UAV. Furthermore, it modifies the mathematical model of localization problem via separating linear parts from nonlinear parts and replaces a nonlinear least-squares problem with a linearly equality-constrained optimization problem. In order to avoid the ill-condition property near the optimal point of sequential unconstrained minimization techniques(penalty methods), it constructs a semi-implicit continuous method with a trust-region technique based on a differential-algebraic dynamical system to solve the linearly equality-constrained optimization problem. It also analyzes the global convergence property of the semi-implicit continuous method in an infinity integrated interval other than the traditional convergence analysis of numerical methods for ordinary differential equations in a finite integrated interval. Finally, the promising numerical results are also presented.
翻訳日:2023-01-01 20:45:23 公開日:2020-02-12
# 多変量時系列分類による構造健康モニタリングのための完全畳み込みネットワーク

Fully convolutional networks for structural health monitoring through multivariate time series classification ( http://arxiv.org/abs/2002.07032v1 )

ライセンス: Link先を確認
Luca Rosafalco, Andrea Manzoni, Stefano Mariani, Alberto Corigliano(参考訳) 広汎なセンサシステムによって得られたデータから,損傷に敏感な特徴の自動識別を目的とした構造健康モニタリング(SHM)を提案する。 損傷検出と局所化は分類問題として定式化され、FCN(Fully Convolutional Networks)を介して取り組まれる。 物理モデル(監視対象構造物のディジタルツインの役割を担っている)の数値シミュレーションから抽出したデータに基づいて,異なる損傷シナリオを考慮したネットワークアーキテクチャの教師付きトレーニングを行う。 この単純化された構造モデルに頼ることで、異なる長さの時系列を扱うように設計されたFCNの訓練段階において、いくつかの負荷条件が考慮される。 ニューラルネットワークのトレーニングは、監視システムが動作を開始する前に行われ、リアルタイムの損傷分類を可能にする。 提案手法の数値的性能は,低エネルギー地震によるランダム振動をモデル化した2種類の荷重を受ける8階建てせん断建物からなる数値ベンチマークケースで評価した。 実際の監視システムの出力を模倣するために、構造物の応答に測定ノイズが加えられた。 非常に優れた分類能力が示され、9つの選択肢(健康状態や床の損傷など)のうち、ダメージは95%のケースで正しく分類され、現実のケースへの適用の観点から、提案手法の強い可能性を示す。

We propose a novel approach to Structural Health Monitoring (SHM), aiming at the automatic identification of damage-sensitive features from data acquired through pervasive sensor systems. Damage detection and localization are formulated as classification problems, and tackled through Fully Convolutional Networks (FCNs). A supervised training of the proposed network architecture is performed on data extracted from numerical simulations of a physics-based model (playing the role of digital twin of the structure to be monitored) accounting for different damage scenarios. By relying on this simplified model of the structure, several load conditions are considered during the training phase of the FCN, whose architecture has been designed to deal with time series of different length. The training of the neural network is done before the monitoring system starts operating, thus enabling a real time damage classification. The numerical performances of the proposed strategy are assessed on a numerical benchmark case consisting of an eight-story shear building subjected to two load types, one of which modeling random vibrations due to low-energy seismicity. Measurement noise has been added to the responses of the structure to mimic the outputs of a real monitoring system. Extremely good classification capacities are shown: among the nine possible alternatives (represented by the healthy state and by a damage at any floor), damage is correctly classified in up to 95% of cases, thus showing the strong potential of the proposed approach in view of the application to real-life cases.
翻訳日:2023-01-01 20:41:59 公開日:2020-02-12
# 画像構造化によるオブジェクトベースメタモルフィックテスト

Object-based Metamorphic Testing through Image Structuring ( http://arxiv.org/abs/2002.07046v1 )

ライセンス: Link先を確認
Adrian Wildandyawan, Yasuharu Nishi(参考訳) ソフトウェアのテストは、多くの場合、大量生産のテストケースを必要とし、それのためのテストオラクルを提供するためコストがかかる。 これはしばしばオラクルの問題と呼ばれる。 オラクル問題を緩和するために提案された1つの方法は変成テストである。 メタモルフィックテストは、既存のテストケースを変更して新しいテストケースを生成し、システムアンダーテスト(SUT)の出力と入力の間のメタモルフィック関係を利用して、生成されたテストケースの出力を予測する。 メタモルフィックテストは、画像の属性に変更を適用して、元の画像と同じアノテーションで新しいテストケースを作成する、画像処理ソフトウェアでよく使われている。 既存の手法をイメージベースのメタモルフィックテストと呼ぶ。 本研究では,オブジェクトベースのメタモルフィックテストと,異なるメタモルフィックテストアプローチを組み合わせた複合メタモルフィックテストを提案する。

Testing software is often costly due to the need of mass-producing test cases and providing a test oracle for it. This is often referred to as the oracle problem. One method that has been proposed in order to alleviate the oracle problem is metamorphic testing. Metamorphic testing produces new test cases by altering an existing test case, and uses the metamorphic relation between the inputs and the outputs of the System Under Test (SUT) to predict the expected outputs of the produced test cases. Metamorphic testing has often been used for image processing software, where changes are applied to the image's attributes to create new test cases with annotations that are the same as the original image. We refer to this existing method as the image-based metamorphic testing. In this research, we propose an object-based metamorphic testing and a composite metamorphic testing which combines different metamorphic testing approaches to relatively increase test coverage.
翻訳日:2023-01-01 20:41:35 公開日:2020-02-12
# ユーザ生成ビデオにおける感情認識のためのエンド・ツー・エンド視覚聴覚ネットワーク

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos ( http://arxiv.org/abs/2003.00832v1 )

ライセンス: Link先を確認
Sicheng Zhao, Yunsheng Ma, Yang Gu, Jufeng Yang, Tengfei Xing, Pengfei Xu, Runbo Hu, Hua Chai, Kurt Keutzer(参考訳) ユーザ生成ビデオにおける感情認識は,人間中心型コンピューティングにおいて重要な役割を果たす。 既存の手法は主に従来の2段階の浅いパイプライン、すなわち視覚的特徴や音声的特徴を抽出し、分類器を訓練する。 本稿では,畳み込みニューラルネットワーク(CNN)に基づいて,映像の感情をエンドツーエンドで認識することを提案する。 具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層視覚聴覚ネットワーク(VAANet)を開発した。 さらに,注意生成を導くために,ポーラリティ・エモーション階層制約に基づいて,特別な分類損失,すなわち極性整合クロスエントロピー損失を設計する。 挑戦的なVideoEmotion-8とEkman-6データセットで実施された大規模な実験により、提案されたVAANetは、ビデオ感情認識の最先端アプローチよりも優れていることが示された。 ソースコードはhttps://github.com/maysonma/vaanet。

Emotion recognition in user-generated videos plays an important role in human-centered computing. Existing methods mainly employ traditional two-stage shallow pipeline, i.e. extracting visual and/or audio features and training classifiers. In this paper, we propose to recognize video emotions in an end-to-end manner based on convolutional neural networks (CNNs). Specifically, we develop a deep Visual-Audio Attention Network (VAANet), a novel architecture that integrates spatial, channel-wise, and temporal attentions into a visual 3D CNN and temporal attentions into an audio 2D CNN. Further, we design a special classification loss, i.e. polarity-consistent cross-entropy loss, based on the polarity-emotion hierarchy constraint to guide the attention generation. Extensive experiments conducted on the challenging VideoEmotion-8 and Ekman-6 datasets demonstrate that the proposed VAANet outperforms the state-of-the-art approaches for video emotion recognition. Our source code is released at: https://github.com/maysonma/VAANet.
翻訳日:2023-01-01 20:40:56 公開日:2020-02-12
# 最小平均明度誤差双ヒストグラム等化のFPGAによる実装

FPGA Implementation of Minimum Mean Brightness Error Bi-Histogram Equalization ( http://arxiv.org/abs/2003.00840v1 )

ライセンス: Link先を確認
Abhishek Saroha, Avichal Rakesh, Rajiv Kumar Tripathi(参考訳) ヒストグラム等化(HE)はコントラスト増強の一般的な方法である。 一般に、平均輝度はヒストグラム等化では保存されない。 当初は、平均輝度を維持しながらコントラストを高めるために、 Bi-Histogram Equalization (BBHE) が提案された。 しかし、平均輝度が主な関心事である場合、最小平均明度誤差ビヒストグラム等化(MMBEBHE)が最適である。 FPGA上でのヒストグラム等化の実装はいくつかあるが、MMBEBHEはFPGA上では実装されていない。 そこで,FPGA上でのMBEBHEの実装を提案する。

Histogram Equalization (HE) is a popular method for contrast enhancement. Generally, mean brightness is not conserved in Histogram Equalization. Initially, Bi-Histogram Equalization (BBHE) was proposed to enhance contrast while maintaining a the mean brightness. However, when mean brightness is primary concern, Minimum Mean Brightness Error Bi-Histogram Equalization (MMBEBHE) is the best technique. There are several implementations of Histogram Equalization on FPGA, however to our knowledge MMBEBHE has not been implemented on FPGAs before. Therefore, we present an implementation of MMBEBHE on FPGA.
翻訳日:2023-01-01 20:40:39 公開日:2020-02-12
# 固有値収縮を伴う散乱のM推定器

M-estimators of scatter with eigenvalue shrinkage ( http://arxiv.org/abs/2002.04996v1 )

ライセンス: Link先を確認
Esa Ollila, Daniel P. Palomar and Frederic Pascal(参考訳) 一般的な正規化(shrinkage)共分散推定器は、scmと同じ固有ベクトルのセットを共有するが、その固有値を大平均に向かって縮小する縮小サンプル共分散行列(scm)である。 本稿では,scmを散乱行列のm推定器に置き換えるより一般的な手法と,最小平均二乗誤差の最適収縮パラメータを計算するための完全自動データ適応法を提案する。 我々のアプローチでは、ガウス関数、フーバー関数、または$t$重み関数といった任意の重み関数の使用が可能である。 シミュレーション例では, 提案した最適チューニングと頑健な重み関数を組み合わせた縮小M推定器は, データがガウス分布である場合の縮小SCM推定器の性能を低下させることなく, 重み付き分布からデータをサンプリングする場合の大幅な性能向上を図っている。

A popular regularized (shrinkage) covariance estimator is the shrinkage sample covariance matrix (SCM) which shares the same set of eigenvectors as the SCM but shrinks its eigenvalues toward its grand mean. In this paper, a more general approach is considered in which the SCM is replaced by an M-estimator of scatter matrix and a fully automatic data adaptive method to compute the optimal shrinkage parameter with minimum mean squared error is proposed. Our approach permits the use of any weight function such as Gaussian, Huber's, or $t$ weight functions, all of which are commonly used in M-estimation framework. Our simulation examples illustrate that shrinkage M-estimators based on the proposed optimal tuning combined with robust weight function do not loose in performance to shrinkage SCM estimator when the data is Gaussian, but provide significantly improved performance when the data is sampled from a heavy-tailed distribution.
翻訳日:2023-01-01 20:33:12 公開日:2020-02-12
# MFFW:マルチフォーカス画像融合のための新しいデータセット

MFFW: A new dataset for multi-focus image fusion ( http://arxiv.org/abs/2002.04780v1 )

ライセンス: Link先を確認
Shuang Xu and Xiaoli Wei and Chunxia Zhang and Junmin Liu and Jiangshe Zhang(参考訳) MFF(Multi-focus Image fusion)は、計算写真の分野における基本的な課題である。 現在の手法は大幅な性能向上を達成している。 シミュレーション画像やLytroデータセットを用いて,現在の手法の評価を行った。 近年、現実のマルチフォーカス画像の現象であるデフォーカス拡散効果に注目する研究者が増えている。 それでも、デフォーカス拡散効果はシミュレーションやライトロのデータセットでは明らかではない。 画像上での性能とデフォーカス拡散効果を比較するために,MFF in the wild (MFFW)と呼ばれる新しいデータセットを構築した。 19対のマルチフォーカス画像がインターネットで収集されている。 ソースイメージのすべてのペアを登録し、フォーカスマップと参照イメージをペアの一部に提供します。 lytroデータセットと比較して、mffwの画像は分散効果の低下にかなり苦しむ。 加えて、mffwのシーンはより複雑である。 実験により, MFFWデータセット上の最先端手法のほとんどが, 良好な融合画像を生成することができないことが示された。 MFFWは、MMFアルゴリズムがデフォーカススプレッド効果に対処できるかどうかをテストするための新しいベースラインデータセットである。

Multi-focus image fusion (MFF) is a fundamental task in the field of computational photography. Current methods have achieved significant performance improvement. It is found that current methods are evaluated on simulated image sets or Lytro dataset. Recently, a growing number of researchers pay attention to defocus spread effect, a phenomenon of real-world multi-focus images. Nonetheless, defocus spread effect is not obvious in simulated or Lytro datasets, where popular methods perform very similar. To compare their performance on images with defocus spread effect, this paper constructs a new dataset called MFF in the wild (MFFW). It contains 19 pairs of multi-focus images collected on the Internet. We register all pairs of source images, and provide focus maps and reference images for part of pairs. Compared with Lytro dataset, images in MFFW significantly suffer from defocus spread effect. In addition, the scenes of MFFW are more complex. The experiments demonstrate that most state-of-the-art methods on MFFW dataset cannot robustly generate satisfactory fusion images. MFFW can be a new baseline dataset to test whether an MMF algorithm is able to deal with defocus spread effect.
翻訳日:2023-01-01 20:32:52 公開日:2020-02-12
# 定性レベルを持つ {0,1}-knapsack 問題

The {0,1}-knapsack problem with qualitative levels ( http://arxiv.org/abs/2002.04850v1 )

ライセンス: Link先を確認
Luca E. Sch\"afer, Tobias Dietz, Maria Barbati, Jos\'e Rui Figueira, Salvatore Greco, Stefan Ruzika(参考訳) 古典的なknapsack問題の変種は、各項目が整数の重みと定性的レベルと関連付けられていると考えられる。 与えられた項目集合の可能な部分集合に対する支配関係を定義し、この関係が事前順序を定義することを示す。 我々は,非支配ランク濃度ベクトル全体の計算を行う動的プログラミングアルゴリズムを提案し,1つの効率的な解を効率的に計算する2つのグリーディアルゴリズムを述べる。

A variant of the classical knapsack problem is considered in which each item is associated with an integer weight and a qualitative level. We define a dominance relation over the feasible subsets of the given item set and show that this relation defines a preorder. We propose a dynamic programming algorithm to compute the entire set of non-dominated rank cardinality vectors and we state two greedy algorithms, which efficiently compute a single efficient solution.
翻訳日:2023-01-01 20:32:21 公開日:2020-02-12
# cnnハイパーパラメータチューニングによる虹彩活度検出

CNN Hyperparameter tuning applied to Iris Liveness Detection ( http://arxiv.org/abs/2003.00833v1 )

ライセンス: Link先を確認
Gabriela Y. Kimura, Diego R. Lucio, Alceu S. Britto Jr., David Menotti(参考訳) irisパターンは高い安定性と特異性のために生体認証分野を大幅に改善した。 このような物理的特徴は、セキュリティやその他の関連分野において重要な役割を担ってきた。 しかし、プレゼンテーションアタックは、スプーフィング技術としても知られており、印刷された画像、人工眼、テクスチャ化されたコンタクトレンズなどの人工物で生体認証システムを回避できる。 これらのシステムの安全性を向上させるため,2013年の第1回インターナシナルアイリスライブネス検出コンペティションが実施され,その有効性が評価された。 本稿では,2017年に中国科学アカデミーがIris Liveness Detectionの第3回大会に提出したCASIAアルゴリズムのハイパーパラメータチューニングを提案する。 提案した修正により、統合データセットの評価に8.48%のアタックプレゼンテーション分類エラーレート(APCER)と0.18%のボナフィドプレゼンテーション分類エラーレート(BPCER)が導入された。 評価されたデータセット上でのAPCERとBPCERのトレードオフを低減するために、他のしきい値を評価し、成功した。

The iris pattern has significantly improved the biometric recognition field due to its high level of stability and uniqueness. Such physical feature has played an important role in security and other related areas. However, presentation attacks, also known as spoofing techniques, can be used to bypass the biometric system with artifacts such as printed images, artificial eyes, and textured contact lenses. To improve the security of these systems, many liveness detection methods have been proposed, and the first Internacional Iris Liveness Detection competition was launched in 2013 to evaluate their effectiveness. In this paper, we propose a hyperparameter tuning of the CASIA algorithm, submitted by the Chinese Academy of Sciences to the third competition of Iris Liveness Detection, in 2017. The modifications proposed promoted an overall improvement, with an 8.48% Attack Presentation Classification Error Rate (APCER) and 0.18% Bonafide Presentation Classification Error Rate (BPCER) for the evaluation of the combined datasets. Other threshold values were evaluated in an attempt to reduce the trade-off between the APCER and the BPCER on the evaluated datasets and worked out successfully.
翻訳日:2023-01-01 20:24:21 公開日:2020-02-12
# 確率的ビデオ予測のための深変分ルエンベルガー型観測者

Deep Variational Luenberger-type Observer for Stochastic Video Prediction ( http://arxiv.org/abs/2003.00835v1 )

ライセンス: Link先を確認
Dong Wang, Feng Zhou, Zheng Yan, Guang Yao, Zongxuan Liu, Wennan Ma and Cewu Lu(参考訳) 固有の確率性と不確実性を考えると、将来のビデオフレームの予測は極めて困難である。 本研究では,確率的状態空間モデルの解釈可能性と深層ニューラルネットワークの表現学習を組み合わせることで,映像予測の問題を検討する。 我々のモデルは,入力映像を潜時特徴空間に変換する変分エンコーダと,潜時特徴の動的進化を捉えるルエンベルガー型オブザーバの上に構築されている。 これにより、ビデオの静的な特徴とダイナミクスを教師なしの方法で分解することができる。 非線形ルンベルガー型観測者の安定性理論を導出することにより、特徴空間の隠れた状態は初期値に対して無感になり、モデル全体のロバスト性が向上する。 さらに、データログ類似度における変動下限を導出して、変動原理に基づく移動可能な後続予測分布を得ることができる。 最後に,ボールバウンシングデータセットや振り子データセットなどの実験を行い,提案モデルが並列処理よりも優れていることを示す。

Considering the inherent stochasticity and uncertainty, predicting future video frames is exceptionally challenging. In this work, we study the problem of video prediction by combining interpretability of stochastic state space models and representation learning of deep neural networks. Our model builds upon an variational encoder which transforms the input video into a latent feature space and a Luenberger-type observer which captures the dynamic evolution of the latent features. This enables the decomposition of videos into static features and dynamics in an unsupervised manner. By deriving the stability theory of the nonlinear Luenberger-type observer, the hidden states in the feature space become insensitive with respect to the initial values, which improves the robustness of the overall model. Furthermore, the variational lower bound on the data log-likelihood can be derived to obtain the tractable posterior prediction distribution based on the variational principle. Finally, the experiments such as the Bouncing Balls dataset and the Pendulum dataset are provided to demonstrate the proposed model outperforms concurrent works.
翻訳日:2023-01-01 20:24:00 公開日:2020-02-12
# マラヤラム語とテルグ語の母語と借用語の教師なし分離

Unsupervised Separation of Native and Loanwords for Malayalam and Telugu ( http://arxiv.org/abs/2002.05527v1 )

ライセンス: Link先を確認
Sridhama Prakhya, Deepak P(参考訳) しばしば、ある言語の単語は翻訳なしで別の言語で採用され、後者の言語で書かれたテキストで翻訳された形で現れる。 この現象は、多くの単語が英語から借用されているインドの言語で特に広まっている。 本稿では,凝集性ドラビダ語の単語の大規模データセットから,借用語を自動かつ教師なしで識別する作業について述べる。 私たちはドラヴィダ語族、Viz.、マラヤラム、Teluguの2つの特定の言語をターゲットにしています。 これらの言語との親和性に基づいて,これら両方の言語の母語は,他の言語から借用された単語よりも,単語の最初の数文字で形成された副単語列を表す略語であるstemという,より汎用的な語幹によって特徴づけられる傾向があることを概説する。 この観察を客観的な関数の構築と最適化のための反復最適化の定式化に活用し,各単語のネイティブ性のスコア付けを行う。 マラヤラムとテルグの両地域の実世界のデータセットに対する広範な実証分析を通じて,本手法の有効性について考察した。

Quite often, words from one language are adopted within a different language without translation; these words appear in transliterated form in text written in the latter language. This phenomenon is particularly widespread within Indian languages where many words are loaned from English. In this paper, we address the task of identifying loanwords automatically and in an unsupervised manner, from large datasets of words from agglutinative Dravidian languages. We target two specific languages from the Dravidian family, viz., Malayalam and Telugu. Based on familiarity with the languages, we outline an observation that native words in both these languages tend to be characterized by a much more versatile stem - stem being a shorthand to denote the subword sequence formed by the first few characters of the word - than words that are loaned from other languages. We harness this observation to build an objective function and an iterative optimization formulation to optimize for it, yielding a scoring of each word's nativeness in the process. Through an extensive empirical analysis over real-world datasets from both Malayalam and Telugu, we illustrate the effectiveness of our method in quantifying nativeness effectively over available baselines for the task.
翻訳日:2023-01-01 20:22:57 公開日:2020-02-12
# リトレーニングかリトレーニングか? --ディープCNNネットワークの効率的なプルーニング手法

Retrain or not retrain? -- efficient pruning methods of deep CNN networks ( http://arxiv.org/abs/2002.07051v1 )

ライセンス: Link先を確認
Marcin Pietron and Maciej Wielgosz(参考訳) 畳み込みニューラルネットワーク(cnn)は、画像分類、オブジェクト検出、意味セグメンテーションといった画像処理タスクにおいて重要な役割を果たす。 CNNネットワークは数百から数百の積み重ねレイヤーと数メガバイトの重みを持つことが多い。 複雑さとメモリフットプリントを減らす方法の1つは、プルーニングである。 プルーニング(pruning)は、ネットワーク内の2つの隣接層からニューロンをつなぐ重みを取り除くプロセスである。 DLモデルが多くの畳み込み層を持つ場合, 精度が低下した最適解を求めるプロセスは, より洗練される。 本論文では,再訓練に基づくアプローチと再訓練を併用しないアプローチについて述べる。

Convolutional neural networks (CNN) play a major role in image processing tasks like image classification, object detection, semantic segmentation. Very often CNN networks have from several to hundred stacked layers with several megabytes of weights. One of the possible methods to reduce complexity and memory footprint is pruning. Pruning is a process of removing weights which connect neurons from two adjacent layers in the network. The process of finding near optimal solution with specified drop in accuracy can be more sophisticated when DL model has higher number of convolutional layers. In the paper few approaches based on retraining and no retraining are described and compared together.
翻訳日:2023-01-01 20:22:36 公開日:2020-02-12
# 会話推薦システムに対するベイズ的アプローチ

A Bayesian Approach to Conversational Recommendation Systems ( http://arxiv.org/abs/2002.05063v1 )

ライセンス: Link先を確認
Francesca Mangili and Denis Broggini and Alessandro Antonucci and Marco Alberti and Lorenzo Cimasoni(参考訳) 本稿では,ベイズアプローチに基づく会話推薦システムを提案する。 ユーザとの対話後にアイテム上の確率質量関数を更新し、対話を最適に形成し、いつ会話を終了すべきかを判断し、その結果、最も確率の高い項目を推奨する。 相互作用をモデル化するパラメータの事前確率の導出手法は、基本的な構造的判断から導かれる。 このような事前情報は履歴データと組み合わせることで、異なる推奨履歴を持つ項目を判別することができる。 エンターテイナーを予約するオンラインプラットフォームである 'emph{stagend.com} へのこのアプローチの適用に基づくケーススタディを,レコメンデーション品質と効率の面でのメリットを示す実証分析とともに論じる。

We present a conversational recommendation system based on a Bayesian approach. A probability mass function over the items is updated after any interaction with the user, with information-theoretic criteria optimally shaping the interaction and deciding when the conversation should be terminated and the most probable item consequently recommended. Dedicated elicitation techniques for the prior probabilities of the parameters modeling the interactions are derived from basic structural judgements. Such prior information can be combined with historical data to discriminate items with different recommendation histories. A case study based on the application of this approach to \emph{stagend.com}, an online platform for booking entertainers, is finally discussed together with an empirical analysis showing the advantages in terms of recommendation quality and efficiency.
翻訳日:2023-01-01 20:22:26 公開日:2020-02-12
# 数学教育における誤用診断のための自動定理証明器

Using Automated Theorem Provers for Mistake Diagnosis in the Didactics of Mathematics ( http://arxiv.org/abs/2002.05083v1 )

ライセンス: Link先を確認
Merlin Carl(参考訳) Diprocheシステム(英語版)は、Koepke, Schr\oder, Cramerらによる初心者学生の運動の文脈に特化して適応した自然言語証明のための自動証明チェッカーであり、誤り診断に一般的な形式的推論規則の誤用を用いた自動定理証明器の修正を使用している。 このような「アンチATP」の概念を簡潔に説明し、その実装における基本技術について説明する。

The Diproche system, an automated proof checker for natural language proofs specifically adapted to the context of exercises for beginner's students similar to the Naproche system by Koepke, Schr\"oder, Cramer and others, uses a modification of an automated theorem prover which uses common formal fallacies intead of sound deduction rules for mistake diagnosis. We briefly describe the concept of such an `Anti-ATP' and explain the basic techniques used in its implementation.
翻訳日:2023-01-01 20:22:12 公開日:2020-02-12
# ベイズネットワーク混雑ゲームにおけるシグナル伝達:対称性の微妙なパワー

Signaling in Bayesian Network Congestion Games: the Subtle Power of Symmetry ( http://arxiv.org/abs/2002.05190v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Alberto Marchesi, Nicola Gatti(参考訳) ネットワーク混雑ゲームはマルチエージェント戦略相互作用のよく理解されたモデルである。 ユビキタスなアプリケーションにもかかわらず、ネットワークユーザ全体のエクスペリエンスを改善するために情報構造を設計できるかどうかは不明だ。 ネットワークのバガリーを(ランダムな)自然状態を通じてモデル化し、プレイヤーが引き起こすコストを決定する、アトミックプレイヤーによるベイズゲームに焦点を当てる。 サードパーティのエンティティ(送信者)は、ネットワークの現実の状態を観察し、この追加情報を利用して各プレイヤーに信号を送ることができる。 情報発信者が、合理的に信念を更新するプレイヤーに情報の戦略的供給を通じて、全体的な社会的コストを削減できるのか? 本論文は, 最適解推定信号スキームの計算問題に焦点を当て, 対称性がその解の重要な性質であることを示す。 実際、プレイヤーが対称でアフィンコスト関数を持つ場合、最適なex anteの説得的シグナリングスキームを多項式時間で計算できることを示す。 さらに、プレーヤーが非ベイズ設定でも非対称である場合、問題はnp困難になる。

Network congestion games are a well-understood model of multi-agent strategic interactions. Despite their ubiquitous applications, it is not clear whether it is possible to design information structures to ameliorate the overall experience of the network users. We focus on Bayesian games with atomic players, where network vagaries are modeled via a (random) state of nature which determines the costs incurred by the players. A third-party entity---the sender---can observe the realized state of the network and exploit this additional information to send a signal to each player. A natural question is the following: is it possible for an informed sender to reduce the overall social cost via the strategic provision of information to players who update their beliefs rationally? The paper focuses on the problem of computing optimal ex ante persuasive signaling schemes, showing that symmetry is a crucial property for its solution. Indeed, we show that an optimal ex ante persuasive signaling scheme can be computed in polynomial time when players are symmetric and have affine cost functions. Moreover, the problem becomes NP-hard when players are asymmetric, even in non-Bayesian settings.
翻訳日:2023-01-01 20:21:45 公開日:2020-02-12
# Deep-HR:現実的条件下での顔画像からの高速心拍数推定

Deep-HR: Fast Heart Rate Estimation from Face Video Under Realistic Conditions ( http://arxiv.org/abs/2002.04821v1 )

ライセンス: Link先を確認
Mohammad Sabokrou, Masoud Pourreza, Xiaobai Li, Mahmood Fathy, Guoying Zhao(参考訳) 本稿では,遠隔心拍数推定のための新しい手法を提案する。 近年の研究では、心臓による血液ポンプは顔のピクセルの濃厚な色と高い相関関係にあり、驚くべきことに遠隔hr推定に利用できることが示されている。 研究者は、このタスクのためにいくつかの方法を提案したが、現実の状況で動作させることは、コンピュータビジョンコミュニティにおいて依然として困難な問題である。 さらに、非常に限定的な注釈付きサンプルでそのような複雑なタスクをデータセット上で解くことは合理的ではない。 したがって、研究者はこの問題にディープラーニングアプローチを使うことを好まない。 本稿では、複雑なタスクからのHR推定を単純化し、非常に相関した表現からHRへの学習を簡略化し、Deep Neural Network(DNN)の利点を享受する、単純かつ効率的なアプローチを提案する。 以前の研究に触発されて、Front-End (FE) と呼ばれるコンポーネントを学習して、顔ビデオの識別表現を提供し、その後、Back-End (BE) のような光深度回帰自動エンコーダを学習して、FE表現をHRにマッピングする。 情報表現の回帰タスクは単純で、限られたトレーニングサンプルで効率的に学習することができる。 これに加えて、より正確で低品質なビデオでうまく機能するために、2つのディープエンコーダ-デコーダネットワークがfeの出力を洗練するよう訓練されている。 また,本手法が現実的な条件下で効率的に動作することを示すために,挑戦的データセット(HR-D)を導入する。 HR-DおよびMAHNOBデータセットの実験結果から,本手法はリアルタイム手法として動作し,最先端の手法よりも平均HRを推定できることを確認した。

This paper presents a novel method for remote heart rate (HR) estimation. Recent studies have proved that blood pumping by the heart is highly correlated to the intense color of face pixels, and surprisingly can be utilized for remote HR estimation. Researchers successfully proposed several methods for this task, but making it work in realistic situations is still a challenging problem in computer vision community. Furthermore, learning to solve such a complex task on a dataset with very limited annotated samples is not reasonable. Consequently, researchers do not prefer to use the deep learning approaches for this problem. In this paper, we propose a simple yet efficient approach to benefit the advantages of the Deep Neural Network (DNN) by simplifying HR estimation from a complex task to learning from very correlated representation to HR. Inspired by previous work, we learn a component called Front-End (FE) to provide a discriminative representation of face videos, afterward a light deep regression auto-encoder as Back-End (BE) is learned to map the FE representation to HR. Regression task on the informative representation is simple and could be learned efficiently on limited training samples. Beside of this, to be more accurate and work well on low-quality videos, two deep encoder-decoder networks are trained to refine the output of FE. We also introduce a challenging dataset (HR-D) to show that our method can efficiently work in realistic conditions. Experimental results on HR-D and MAHNOB datasets confirm that our method could run as a real-time method and estimate the average HR better than state-of-the-art ones.
翻訳日:2023-01-01 20:15:00 公開日:2020-02-12
# 教師なしドメイン適応のための双方向生成

Bi-Directional Generation for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2002.04869v1 )

ライセンス: Link先を確認
Guanglei Yang, Haifeng Xia, Mingli Ding, Zhengming Ding(参考訳) 教師なしのドメイン適応は、確立されたソースドメイン情報に依存するラベルなしのターゲットドメインを促進する。 潜在空間におけるドメインの不一致を強制的に減少させる従来の手法は、本質的なデータ構造を破壊することになる。 ドメイン間隙の緩和と固有構造の保存を両立させるため、2つの中間ドメインをブリッジソースとターゲットドメインに補間する一貫した分類器を持つ双方向生成ドメイン適応モデルを提案する。 具体的には、2つのクロスドメインジェネレータを使用して、一方のドメインを他方の条件で合成する。 提案手法の性能は,一貫性のある分類器とクロスドメインアライメント制約によってさらに向上することができる。 また,ターゲットサンプル予測の一貫性を最大化するために,共同で最適化した2つの分類器を設計した。 広範な実験により,提案モデルが標準クロスドメインビジュアルベンチマークの最先端を上回っていることを確認した。

Unsupervised domain adaptation facilitates the unlabeled target domain relying on well-established source domain information. The conventional methods forcefully reducing the domain discrepancy in the latent space will result in the destruction of intrinsic data structure. To balance the mitigation of domain gap and the preservation of the inherent structure, we propose a Bi-Directional Generation domain adaptation model with consistent classifiers interpolating two intermediate domains to bridge source and target domains. Specifically, two cross-domain generators are employed to synthesize one domain conditioned on the other. The performance of our proposed method can be further enhanced by the consistent classifiers and the cross-domain alignment constraints. We also design two classifiers which are jointly optimized to maximize the consistency on target sample prediction. Extensive experiments verify that our proposed model outperforms the state-of-the-art on standard cross domain visual benchmarks.
翻訳日:2023-01-01 20:14:11 公開日:2020-02-12
# 制約付き支配集合とそのコンピュータビジョンへの応用

Constrained Dominant sets and Its applications in computer vision ( http://arxiv.org/abs/2002.06028v1 )

ライセンス: Link先を確認
Alemu Leulseged Tesfaye(参考訳) 本稿では,画像検索,画像分割,コセグメンテーション,人物の再識別など,複数のコンピュータビジョンタスクを解決するために,制約付きクラスタリング手法を利用する新しい手法を提案する。 過去数十年間,コンピュータビジョンアプリケーションではクラスタリング手法が重要な役割を担ってきた。ここでは,よく知られたグラフとゲーム理論的なクラスタリング手法の拡張,再構成,統合に注目する。 そこで本研究では,提案手法の有効性を検証し,いくつかのベンチマークデータセットを用いて実験を行った。

In this thesis, we present new schemes which leverage a constrained clustering method to solve several computer vision tasks ranging from image retrieval, image segmentation and co-segmentation, to person re-identification. In the last decades clustering methods have played a vital role in computer vision applications; herein, we focus on the extension, reformulation, and integration of a well-known graph and game theoretic clustering method known as Dominant Sets. Thus, we have demonstrated the validity of the proposed methods with extensive experiments which are conducted on several benchmark datasets.
翻訳日:2023-01-01 20:12:52 公開日:2020-02-12
# 非線形フーリエ特徴を有するスパース回復

Sparse Recovery With Non-Linear Fourier Features ( http://arxiv.org/abs/2002.04985v1 )

ライセンス: Link先を確認
Ayca Ozcelikkale(参考訳) ランダムな非線形フーリエ特徴は、近年、幅広い回帰および分類応用において顕著な性能を示している。 この成功に触発されたこの記事は、スパースな非線形フーリエ機能(NFF)モデルに焦点を当てる。 高確率で未知のパラメータの完全回復を保証する十分な数のデータポイントのキャラクタリゼーションを提供する。 特に,入力データの確率分布関数に関連するカーネル行列に十分なデータ点数がどのように依存しているかを示す。 本結果と有界正則系の回復可能性境界を比較し, NFFモデルに基づくスパース回復の例を示す。

Random non-linear Fourier features have recently shown remarkable performance in a wide-range of regression and classification applications. Motivated by this success, this article focuses on a sparse non-linear Fourier feature (NFF) model. We provide a characterization of the sufficient number of data points that guarantee perfect recovery of the unknown parameters with high-probability. In particular, we show how the sufficient number of data points depends on the kernel matrix associated with the probability distribution function of the input data. We compare our results with the recoverability bounds for the bounded orthonormal systems and provide examples that illustrate sparse recovery under the NFF model.
翻訳日:2023-01-01 20:05:39 公開日:2020-02-12
# 対数的後悔を伴うカルマンフィルタのオンライン学習

Online Learning of the Kalman Filter with Logarithmic Regret ( http://arxiv.org/abs/2002.05141v1 )

ライセンス: Link先を確認
Anastasios Tsiamis and George Pappas(参考訳) 本稿では,未知の,部分的に観測された線形系によるオンライン観測の予測問題について考察する。 このような系に対して、平均二乗意味での最適予測器は有名なカルマンフィルタであり、系モデルが知られているときに明示的に計算できる。 システムモデルが未知である場合には、有限データに基づいてオンラインで観測を予測する方法を学び、カルマンフィルタの予測に関してゼロではない後悔を味わう必要がある。 我々は、高い確率で$\mathrm{poly}\log(n)$の順序を後悔することは可能であり、ここでは$n$は収集された観測数である。 我々の研究は、広く使われているカルマンフィルタに対する対数的後悔の保証を提供する最初のものである。 これは、将来の観測と過去の観測とのおよそ線形関係を利用するオンラインの最小二乗アルゴリズムを用いて達成される。 後悔解析は、カルマンフィルタの安定性特性、システム同定の有限サンプル分析のための最近の統計ツール、および時系列の最小二乗アルゴリズムの解析のための古典的な結果に基づいている。 我々の後悔分析は、未知のノイズ統計ではあるが既知の状態空間ベースでは、隠れた状態の予測にも応用できる。 基本的な技術的貢献は、確率的ノイズ下でオンライン予測を行う場合のオープン問題である、限界安定系のクラスを含む非爆発的システムクラスにおいても、我々の境界が保持されるということである。

In this paper, we consider the problem of predicting observations generated online by an unknown, partially observed linear system, which is driven by stochastic noise. For such systems the optimal predictor in the mean square sense is the celebrated Kalman filter, which can be explicitly computed when the system model is known. When the system model is unknown, we have to learn how to predict observations online based on finite data, suffering possibly a non-zero regret with respect to the Kalman filter's prediction. We show that it is possible to achieve a regret of the order of $\mathrm{poly}\log(N)$ with high probability, where $N$ is the number of observations collected. Our work is the first to provide logarithmic regret guarantees for the widely used Kalman filter. This is achieved using an online least-squares algorithm, which exploits the approximately linear relation between future observations and past observations. The regret analysis is based on the stability properties of the Kalman filter, recent statistical tools for finite sample analysis of system identification, and classical results for the analysis of least-squares algorithms for time series. Our regret analysis can also be applied for state prediction of the hidden state, in the case of unknown noise statistics but known state-space basis. A fundamental technical contribution is that our bounds hold even for the class of non-explosive systems, which includes the class of marginally stable systems, which was an open problem for the case of online prediction under stochastic noise.
翻訳日:2023-01-01 20:05:31 公開日:2020-02-12
# surrogate-loss分類による効率的な政策学習

Efficient Policy Learning from Surrogate-Loss Classification Reductions ( http://arxiv.org/abs/2002.05153v1 )

ライセンス: Link先を確認
Andrew Bennett and Nathan Kallus(参考訳) 観測データからの政策学習に関する最近の研究は、効率的な政策評価の重要性を強調し、重み付き(コスト感受性)分類の削減を提案している。 しかし、効率的な政策評価は、政策パラメータを効率的に見積もる必要はない。 我々は、直接、逆正当性重み付き、あるいは二重頑健なスコア関数を持つ政策学習の重み付きサロゲート-ロス分類による推定問題を考える。 適切な仕様仮定の下では、重み付き分類定式化はポリシーパラメータに対して効率的ではないことを示す。 我々は、正しい仕様はパラメトリックモデルを意味し、ポリシー学習では半パラメトリックモデルのみを意味する実際の(おそらく重み付けされた)バイナリ分類と対比する。 これを踏まえて,ポリシーパラメータに効率的な一般化モーメント法に基づく推定手法を提案する。 本稿では,ニューラルネットワークを用いたモーメント問題の解法に関する最近の研究に基づいて,その効率性と後悔のメリットを実証する手法を提案する。

Recent work on policy learning from observational data has highlighted the importance of efficient policy evaluation and has proposed reductions to weighted (cost-sensitive) classification. But, efficient policy evaluation need not yield efficient estimation of policy parameters. We consider the estimation problem given by a weighted surrogate-loss classification reduction of policy learning with any score function, either direct, inverse-propensity weighted, or doubly robust. We show that, under a correct specification assumption, the weighted classification formulation need not be efficient for policy parameters. We draw a contrast to actual (possibly weighted) binary classification, where correct specification implies a parametric model, while for policy learning it only implies a semiparametric model. In light of this, we instead propose an estimation approach based on generalized method of moments, which is efficient for the policy parameters. We propose a particular method based on recent developments on solving moment problems using neural networks and demonstrate the efficiency and regret benefits of this method empirically.
翻訳日:2023-01-01 20:05:06 公開日:2020-02-12
# AlignNet: オーディオ・ビジュアル・アライメントへの統一的アプローチ

AlignNet: A Unifying Approach to Audio-Visual Alignment ( http://arxiv.org/abs/2002.05070v1 )

ライセンス: Link先を確認
Jianren Wang, Zhaoyuan Fang, Hang Zhao(参考訳) 非一様および不規則な不一致の下でビデオと参照オーディオを同期するモデルであるAlignNetを提案する。 AlignNetは、ビデオの各フレームとオーディオの間のエンドツーエンドの高密度な対応を学習する。 本手法は,注意,ピラミッド処理,ワーピング,親和性関数という,単純かつ確立された原則に従って設計されている。 このモデルと合わせて,トレーニングと評価のためのダンスデータセットdance50をリリースする。 ダンス・ミュージック・アライメントと音声・リップアライメントの質的,定量的,主観的な評価結果は,我々の手法が最先端の手法よりも優れていることを示している。 プロジェクトビデオとコードはhttps://jianrenw.github.io/alignnetで入手できる。

We present AlignNet, a model that synchronizes videos with reference audios under non-uniform and irregular misalignments. AlignNet learns the end-to-end dense correspondence between each frame of a video and an audio. Our method is designed according to simple and well-established principles: attention, pyramidal processing, warping, and affinity function. Together with the model, we release a dancing dataset Dance50 for training and evaluation. Qualitative, quantitative and subjective evaluation results on dance-music alignment and speech-lip alignment demonstrate that our method far outperforms the state-of-the-art methods. Project video and code are available at https://jianrenw.github.io/AlignNet.
翻訳日:2023-01-01 20:04:48 公開日:2020-02-12
# デュアル性と機械学習をつなぐ

Connecting Dualities and Machine Learning ( http://arxiv.org/abs/2002.05169v1 )

ライセンス: Link先を確認
Philip Betzler, Sven Krippendorf(参考訳) 双対性は、高い精度で相関関数を得るために量子場理論や弦理論で広く使われている。 本稿では,2重データ表現が教師付き分類,機械学習,および理論物理学における典型的なタスクに有用である例を示す。 次に,このような有益表現がニューラルネットワークの潜在次元においてどのように強制されるかについて議論する。 特徴分離に基づく損失に対する追加の貢献、所望の表現に対する特徴マッチング、および'単純'な相関関数での優れたパフォーマンスは、既知の双対表現と未知の二重表現に繋がる可能性がある。 これはコンピュータが双対性を見つけることができる最初の概念実証である。 離散フーリエ変換とイジングモデルに基づき、我々の例は理論物理学における他の双対性(例えばセイバーグ双対性)とどのようにつながるかについて議論する。

Dualities are widely used in quantum field theories and string theory to obtain correlation functions at high accuracy. Here we present examples where dual data representations are useful in supervised classification, linking machine learning and typical tasks in theoretical physics. We then discuss how such beneficial representations can be enforced in the latent dimension of neural networks. We find that additional contributions to the loss based on feature separation, feature matching with respect to desired representations, and a good performance on a `simple' correlation function can lead to known and unknown dual representations. This is the first proof of concept that computers can find dualities. We discuss how our examples, based on discrete Fourier transformation and Ising models, connect to other dualities in theoretical physics, for instance Seiberg duality.
翻訳日:2023-01-01 20:04:36 公開日:2020-02-12
# Marginal Searchによる近似MMAP

Approximate MMAP by Marginal Search ( http://arxiv.org/abs/2002.04827v1 )

ライセンス: Link先を確認
Alessandro Antonucci and Thomas Tiotto(参考訳) 本稿では,グラフモデルにおけるマージンマップ(mmap)クエリのヒューリスティック戦略を提案する。 このアルゴリズムは、タスクを余剰推論計算の多項式数に還元することに基づいている。 入力証拠が与えられた場合、説明すべき変数の限界質量関数が計算される。 マージナル情報ゲイン(Marginal information gain)は、まず説明すべき変数を決定するために使用され、その結果、最も可能性の高い境界状態が証拠に移される。 この手順の逐次反復は、MMAP説明につながり、プロセス中に得られた最小情報ゲインは、その説明に対する信頼度尺度とみなすことができる。 予備実験により,提案手法は,アルゴリズムが正確であるインスタンスを適切に検出し,十分な信頼性レベルにおいて,アルゴリズムが正確な解,あるいは正確な解からのハミング距離が小さい近似を与えることを示す。

We present a heuristic strategy for marginal MAP (MMAP) queries in graphical models. The algorithm is based on a reduction of the task to a polynomial number of marginal inference computations. Given an input evidence, the marginals mass functions of the variables to be explained are computed. Marginal information gain is used to decide the variables to be explained first, and their most probable marginal states are consequently moved to the evidence. The sequential iteration of this procedure leads to a MMAP explanation and the minimum information gain obtained during the process can be regarded as a confidence measure for the explanation. Preliminary experiments show that the proposed confidence measure is properly detecting instances for which the algorithm is accurate and, for sufficiently high confidence levels, the algorithm gives the exact solution or an approximation whose Hamming distance from the exact one is small.
翻訳日:2023-01-01 20:04:08 公開日:2020-02-12
# 予測モデルとモンテカルロ木探索を用いたサービス選択

Service Selection using Predictive Models and Monte-Carlo Tree Search ( http://arxiv.org/abs/2002.04852v1 )

ライセンス: Link先を確認
Cliff Laschet, Jorn op den Buijs, Mark H. M. Winands, Steffen Pauws(参考訳) 本稿では,治療効果の向上と再入院コストの低減を図るための自動サービス選択手法を提案する。 nhhcs(national home and hospice care survey)データセットを用いて,再ホスピタリゼーションリスクに対するケアサービスの効果を定量化する予測モデルを開発した。 患者の特徴やその他の選択されたサービスを考慮して、モデルは特定のnhhcs患者に対するサービスの組み合わせの全体的な有効性を示すことができる。 開発モデルはモンテカルロ木探索 (MCTS) に組み込まれ, 緊急再ホスピタライゼーションのリスクを最小限に抑えるサービスの組み合わせを最適に決定する。 この場合、MCTSはリスク最小化アルゴリズムとして機能し、探索中のガイダンスの予測モデルを使用する。 本手法をNHHCSデータセットに用いて, 臨床医が行ったオリジナル選択と比較して, 再入院リスクの大幅な低減が観察された。 11.89ポイントのリスク低減が平均で達成される。 NHHCS患者では最もリスクの高いカテゴリーで約40ポイントの低下が観察された。 これらの結果は、近い将来、サービス選択を改善する大きな可能性を示唆しているようだ。

This article proposes a method for automated service selection to improve treatment efficacy and reduce re-hospitalization costs. A predictive model is developed using the National Home and Hospice Care Survey (NHHCS) dataset to quantify the effect of care services on the risk of re-hospitalization. By taking the patient's characteristics and other selected services into account, the model is able to indicate the overall effectiveness of a combination of services for a specific NHHCS patient. The developed model is incorporated in Monte-Carlo Tree Search (MCTS) to determine optimal combinations of services that minimize the risk of emergency re-hospitalization. MCTS serves as a risk minimization algorithm in this case, using the predictive model for guidance during the search. Using this method on the NHHCS dataset, a significant reduction in risk of re-hospitalization is observed compared to the original selections made by clinicians. An 11.89 percentage points risk reduction is achieved on average. Higher reductions of roughly 40 percentage points on average are observed for NHHCS patients in the highest risk categories. These results seem to indicate that there is enormous potential for improving service selection in the near future.
翻訳日:2023-01-01 20:03:56 公開日:2020-02-12
# オーディオ埋め込みによるラジオ番組の自動セグメンテーションの改善

Improving automated segmentation of radio shows with audio embeddings ( http://arxiv.org/abs/2002.05194v1 )

ライセンス: Link先を確認
Oberon Berlage, Klaus-Michael Lux, David Graus(参考訳) 音声機能は、自動トピックセグメンテーションシステムの性能向上に有用であることが証明されている。 本研究は,ラジオ番組の自動的コヒーレントセグメンテーションにオーディオ埋め込みを用いた新しい課題について検討する。 異なるドメインの3つのデータセットにマルチクラス分類タスクを使用して、3つのオーディオ埋め込みジェネレータを作成しました。 音声埋め込みのトピックセグメンテーション性能を評価し,テキストのみのベースラインと比較した。 非音声音声イベント分類タスクによって生成された音声埋め込みを含むセットアップは、F1尺度においてテキストのみのベースラインを32.3%上回る。 さらに,セグメンテーション性能の異なる音声組込みを,異なる分類タスクで実現することがわかった。

Audio features have been proven useful for increasing the performance of automated topic segmentation systems. This study explores the novel task of using audio embeddings for automated, topically coherent segmentation of radio shows. We created three different audio embedding generators using multi-class classification tasks on three datasets from different domains. We evaluate topic segmentation performance of the audio embeddings and compare it against a text-only baseline. We find that a set-up including audio embeddings generated through a non-speech sound event classification task significantly outperforms our text-only baseline by 32.3% in F1-measure. In addition, we find that different classification tasks yield audio embeddings that vary in segmentation performance.
翻訳日:2023-01-01 19:58:00 公開日:2020-02-12
# deep autotuner:歌唱演奏のためのピッチ補正ネットワーク

Deep Autotuner: a Pitch Correcting Network for Singing Performances ( http://arxiv.org/abs/2002.05511v1 )

ライセンス: Link先を確認
Sanna Wager, George Tzanetakis, Cheng-i Wang, Minje Kim(参考訳) 独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。 提案手法は,歌唱と伴奏のそれぞれのスペクトルとの関係から音韻のピッチシフトを予測する。 このアプローチは商業システムと異なり、通常、ボーカルトラックノートはユーザー定義スコアのピッチを中心にシフトされるか、または12等級の等温音階の中で最も近いピッチにマップされる。 提案システムでは,楽譜中の音符の集合に依存するのではなく,音符を連続値として扱うことにより,歌唱演奏における即興演奏と調和を実現する。 良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。 本モデルでは,修正学習を行う不正確なイントネーションと,保存学習を行う意図的なピッチ変動の両方をトレーニングする。 畳み込み層上にゲートリカレントユニットを有するディープニューラルネットワークは、自動チューニングの実際のスコアフリー歌唱ピッチ補正タスクにおいて有望な性能を示す。

We introduce a data-driven approach to automatic pitch correction of solo singing performances. The proposed approach predicts note-wise pitch shifts from the relationship between the respective spectrograms of the singing and accompaniment. This approach differs from commercial systems, where vocal track notes are usually shifted to be centered around pitches in a user-defined score, or mapped to the closest pitch among the twelve equal-tempered scale degrees. The proposed system treats pitch as a continuous value rather than relying on a set of discretized notes found in musical scores, thus allowing for improvisation and harmonization in the singing performance. We train our neural network model using a dataset of 4,702 amateur karaoke performances selected for good intonation. Our model is trained on both incorrect intonation, for which it learns a correction, and intentional pitch variation, which it learns to preserve. The proposed deep neural network with gated recurrent units on top of convolutional layers shows promising performance on the real-world score-free singing pitch correction task of autotuning.
翻訳日:2023-01-01 19:57:42 公開日:2020-02-12
# ビッグ3: 企業が気遣う疑問に答えることによるデータサイエンスのROI向上手法

The Big Three: A Methodology to Increase Data Science ROI by Answering the Questions Companies Care About ( http://arxiv.org/abs/2002.07069v1 )

ライセンス: Link先を確認
Daniel K. Griffin(参考訳) 企業は、業界アプリケーションでデータサイエンスから得られる価値の3分の1しか達成していないかもしれない。 本稿では,データサイエンスを用いて,「The Big Three」の質問(何が起きているのか,何を引き起こしているのか,どのような行動を取ればよいのか)を分類し,回答するための方法論を提案する。 データサイエンスの応用は、今日の現代的なランドスケープにおいてほぼ無限に存在し、各企業が新しいデータと洞察経済における地位を競うように思える。 しかし、データサイエンティストは、‘何が起きているのか’という質問に答えるために、分類、回帰、クラスタリングの方法のみに焦点を当てているようだ。 なぜ物事が起きているのか、あるいはメトリクスを改善するために最適な行動を取るかという質問に対する回答は、ニッチな研究分野に委ねられ、業界データサイエンス分析では一般的に無視される。 我々は、これらの重要な質問に答える技術的な手法を調査し、これらの手法が適用されている分野を説明し、我々の方法論と選択した手法を実際のビジネスユースケースに適用する方法の実践例を提供する。

Companies may be achieving only a third of the value they could be getting from data science in industry applications. In this paper, we propose a methodology for categorizing and answering 'The Big Three' questions (what is going on, what is causing it, and what actions can I take that will optimize what I care about) using data science. The applications of data science seem to be nearly endless in today's modern landscape, with each company jockeying for position in the new data and insights economy. Yet, data scientists seem to be solely focused on using classification, regression, and clustering methods to answer the question 'what is going on'. Answering questions about why things are happening or how to take optimal actions to improve metrics are relegated to niche fields of research and generally neglected in industry data science analysis. We survey technical methods to answer these other important questions, describe areas in which some of these methods are being applied, and provide a practical example of how to apply our methodology and selected methods to a real business use case.
翻訳日:2023-01-01 19:57:25 公開日:2020-02-12
# ゼロショット指紋提示攻撃検出システム

A Zero-Shot based Fingerprint Presentation Attack Detection System ( http://arxiv.org/abs/2002.04908v1 )

ライセンス: Link先を確認
Haozhe Liu, Wentian Zhang, Guojie Liu and Feng Liu(参考訳) プレゼンテーション攻撃の発展に伴い、自動指紋認識システム(AFRS)はプレゼンテーション攻撃に対して脆弱である。 したがって, afrs の正規利用を保証するため, プレゼンテーションアタック検出(pad) の手法が多数提案されている。 しかし,大規模なプレゼンテーションアタック画像の要求と低レベルの一般化能力は,既存のpad法の性能を常に制限している。 そこで本研究では,PADモデルの一般化を保証するため,ゼロショット提示検出モデルを提案する。 生成モデルに基づくZSPADモデルでは,構成過程において負のサンプルを一切利用しないため,様々なタイプや材料による提示攻撃に対する堅牢性が保証される。 他のオートエンコーダベースモデルとは異なり、オートエンコーダネットワークの再構成誤差を改善するためのファイングラニュラーマップアーキテクチャを提案し、タスク固有ガウスモデルを用いてクラスタリングの品質を向上させる。 一方,提案モデルの性能向上のために,本論文では9つの信頼性スコアについて論じる。 実験結果から,ZSPADモデルがZSPADの最先端技術であり,MSスコアが最高の信頼性スコアであることがわかった。 既存の手法と比較して,提案手法は特徴ベース法よりも優れており,マルチショット設定では学習ベース法をほとんど学習データで上回っている。 大規模なトレーニングデータが利用できる場合、結果は似ている。

With the development of presentation attacks, Automated Fingerprint Recognition Systems(AFRSs) are vulnerable to presentation attack. Thus, numerous methods of presentation attack detection(PAD) have been proposed to ensure the normal utilization of AFRS. However, the demand of large-scale presentation attack images and the low-level generalization ability always astrict existing PAD methods' actual performances. Therefore, we propose a novel Zero-Shot Presentation Attack Detection Model to guarantee the generalization of the PAD model. The proposed ZSPAD-Model based on generative model does not utilize any negative samples in the process of establishment, which ensures the robustness for various types or materials based presentation attack. Different from other auto-encoder based model, the Fine-grained Map architecture is proposed to refine the reconstruction error of the auto-encoder networks and a task-specific gaussian model is utilized to improve the quality of clustering. Meanwhile, in order to improve the performance of the proposed model, 9 confidence scores are discussed in this article. Experimental results showed that the ZSPAD-Model is the state of the art for ZSPAD, and the MS-Score is the best confidence score. Compared with existing methods, the proposed ZSPAD-Model performs better than the feature-based method and under the multi-shot setting, the proposed method overperforms the learning based method with little training data. When large training data is available, their results are similar.
翻訳日:2023-01-01 19:56:42 公開日:2020-02-12
# hypoML: 仮説に基づく機械学習モデルの評価のためのビジュアル分析

HypoML: Visual Analysis for Hypothesis-based Evaluation of Machine Learning Models ( http://arxiv.org/abs/2002.05271v1 )

ライセンス: Link先を確認
Qianwen Wang, William Alexander, Jack Pegg, Huamin Qu, and Min Chen(参考訳) 本稿では,機械学習モデル(ML)の仮説に基づく評価を可能にする視覚解析ツールを提案する。 本稿では,従来の統計的仮説テスト(実証実験でよく用いられる)と,複数の仮説の結論に関する論理的推論を組み合わせたML-testingフレームワークについて述べる。 このフレームワークは、"概念"や"機能"に関する余分な情報がMLモデルにどのような恩恵をもたらすか、あるいは妨げられるかについて、多くの仮説をテストするための制御された構成を定義している。 複数の仮説を推論することは必ずしも簡単ではないため、マルチスレッドテストデータを視覚的表現に変換して、結論とテストデータと仮説の間の論理フローを迅速に観察するビジュアル分析ツールとして、hypomlを提供する。

In this paper, we present a visual analytics tool for enabling hypothesis-based evaluation of machine learning (ML) models. We describe a novel ML-testing framework that combines the traditional statistical hypothesis testing (commonly used in empirical research) with logical reasoning about the conclusions of multiple hypotheses. The framework defines a controlled configuration for testing a number of hypotheses as to whether and how some extra information about a "concept" or "feature" may benefit or hinder a ML model. Because reasoning multiple hypotheses is not always straightforward, we provide HypoML as a visual analysis tool, with which, the multi-thread testing data is transformed to a visual representation for rapid observation of the conclusions and the logical flow between the testing data and hypotheses.We have applied HypoML to a number of hypothesized concepts, demonstrating the intuitive and explainable nature of the visual analysis.
翻訳日:2023-01-01 19:55:12 公開日:2020-02-12
# x-vectors meet emotions: 感情と話者認識の依存性に関する研究

x-vectors meet emotions: A study on dependencies between emotion and speaker recognition ( http://arxiv.org/abs/2002.05039v1 )

ライセンス: Link先を確認
Raghavendra Pappagari, Tianzi Wang, Jesus Villalba, Nanxin Chen, Najim Dehak(参考訳) 本研究では,話者認識と感情認識の関係について検討する。 まず,話者認識のための知識を伝達学習を通じて感情認識に再利用できることを示す。 次に,感情が話者認識に与える影響を示す。 感情認識では,xベクトルモデルなどの事前学習モデルから抽出した特徴に対して,単純な線形モデルを用いることで良好な性能が得られることを示す。 そして、感情分類の微調整により、感情認識性能を向上させる。 IEMOCAP, MSP-Podcast, Crema-Dの3種類のデータセットについて実験を行った。 プレトレーニングなしのベースラインモデルでは,IEMOCAP,MPP-Podcast,Crema-Dの30.40%,7.99%,および8.61%の絶対改善が得られた。 最後に,感情が話者の検証に及ぼす影響について述べる。 話者照合性能はテスト話者の感情の変化に起因していることがわかった。 怒った発話による試験は、3つのデータセットで最悪の結果となった。 われわれの分析が、話者認識コミュニティにおける新しい研究のラインを創り出すことを期待している。

In this work, we explore the dependencies between speaker recognition and emotion recognition. We first show that knowledge learned for speaker recognition can be reused for emotion recognition through transfer learning. Then, we show the effect of emotion on speaker recognition. For emotion recognition, we show that using a simple linear model is enough to obtain good performance on the features extracted from pre-trained models such as the x-vector model. Then, we improve emotion recognition performance by fine-tuning for emotion classification. We evaluated our experiments on three different types of datasets: IEMOCAP, MSP-Podcast, and Crema-D. By fine-tuning, we obtained 30.40%, 7.99%, and 8.61% absolute improvement on IEMOCAP, MSP-Podcast, and Crema-D respectively over baseline model with no pre-training. Finally, we present results on the effect of emotion on speaker verification. We observed that speaker verification performance is prone to changes in test speaker emotions. We found that trials with angry utterances performed worst in all three datasets. We hope our analysis will initiate a new line of research in the speaker recognition community.
翻訳日:2023-01-01 19:48:21 公開日:2020-02-12
# 近似ガウス過程のモデリングと制御戦略の開発

Development of modeling and control strategies for an approximated Gaussian process ( http://arxiv.org/abs/2002.05105v1 )

ライセンス: Link先を確認
Shisheng Cui and Chia-Jung Chang(参考訳) 関数の先行として広く適用されてきたガウス過程(GP)モデルは優れた性能を示した。 多数のパラメータの仕様は、計算効率と制御戦略の実装可能性に影響を及ぼす。 GPを近似する線形モデルを提案し、このモデルは一連の基底関数によってGPモデルを拡張する。 提案手法の利点を示すために,いくつかの例とシミュレーション研究を行った。 制御戦略には線形モデルが提案されている。

The Gaussian process (GP) model, which has been extensively applied as priors of functions, has demonstrated excellent performance. The specification of a large number of parameters affects the computational efficiency and the feasibility of implementation of a control strategy. We propose a linear model to approximate GPs; this model expands the GP model by a series of basis functions. Several examples and simulation studies are presented to demonstrate the advantages of the proposed method. A control strategy is provided with the proposed linear model.
翻訳日:2023-01-01 19:47:26 公開日:2020-02-12
# 制約付き統計学習における経験的双対性ギャップ

The empirical duality gap of constrained statistical learning ( http://arxiv.org/abs/2002.05183v1 )

ライセンス: Link先を確認
Luiz F. O. Chamon and Santiago Paternain and Miguel Calvo-Fullana and Alejandro Ribeiro(参考訳) 本稿では,現代の情報処理のほぼすべてにおいて,制約付き統計学習問題(制約なし版)について検討する。 しかし、制約を考慮に入れることは、事前の知識を取り入れ、ソリューションに望ましい構造的および統計的性質を課すのに最重要である。 しかし、制約付き統計問題を解くことは依然として困難であり、規則化された定式化を用いて取り組まなければならない。 実用的かつ効果的ではあるが、パラメータと制約の直接的な関係が欠如しているため、要求を満たすために正規化パラメータを選択することは可能な限り難しい。 本研究では,有限次元パラメータ化,サンプル平均,双対性理論を用いて,その無限次元性,未知分布,制約を克服する制約付き統計問題を直接解くことを提案する。 問題を抽出可能とする以外に、これらのツールは経験的双対性ギャップ、すなわち、近似的抽出可能解と元の統計問題の実際の解との差を拘束することができる。 フェアラーニングアプリケーションにおいて,この制約付き定式化の有効性と有用性を示す。

This paper is concerned with the study of constrained statistical learning problems, the unconstrained version of which are at the core of virtually all of modern information processing. Accounting for constraints, however, is paramount to incorporate prior knowledge and impose desired structural and statistical properties on the solutions. Still, solving constrained statistical problems remains challenging and guarantees scarce, leaving them to be tackled using regularized formulations. Though practical and effective, selecting regularization parameters so as to satisfy requirements is challenging, if at all possible, due to the lack of a straightforward relation between parameters and constraints. In this work, we propose to directly tackle the constrained statistical problem overcoming its infinite dimensionality, unknown distributions, and constraints by leveraging finite dimensional parameterizations, sample averages, and duality theory. Aside from making the problem tractable, these tools allow us to bound the empirical duality gap, i.e., the difference between our approximate tractable solutions and the actual solutions of the original statistical problem. We demonstrate the effectiveness and usefulness of this constrained formulation in a fair learning application.
翻訳日:2023-01-01 19:46:10 公開日:2020-02-12
# calvis: 深層学習の基礎的真実としての3次元人体メッシュの胸部, 腰部, 骨盤周囲

CALVIS: chest, waist and pelvis circumference from 3D human body meshes as ground truth for deep learning ( http://arxiv.org/abs/2003.00834v1 )

ライセンス: Link先を確認
Yansel Gonzalez Tejeda and Helmut Mayer(参考訳) 本稿では,3次元人体メッシュの周囲から,$\textbf{C}$hest,w$\textbf{A}$ist,pe$\textbf{LVIS}$ circumferenceを計算する方法であるCALVISを提案する。 我々のモチベーションは、このデータを畳み込みニューラルネットワーク(cnn)のトレーニングの基盤として使うことです。 以前の研究では、大規模なCAESARデータセットを使用していたり、人や人間の3D体メッシュから、これらの人文計測を$\textit{manually}$で決定していた。 残念ながら、これらのデータを取得するのはコストと時間を要する。 対照的に、この方法は3dメッシュで自動的に使用できる。 8つの人体メッシュを合成し、胸部、腰部、骨盤周囲をカルビスで計算する。 実験の結果を定性的に評価し,その測定結果を用いて人の形状を推定できることを確かめた。 そして、CALVISで地上真実を生成して、小さなCNNを訓練することで、我々のアプローチの妥当性を評価する。 データを用いてネットワークをトレーニングした後、競合する検証エラーを発生させる。 さらに、我々はCALVISの実装を公開して分野を前進させる。

In this paper we present CALVIS, a method to calculate $\textbf{C}$hest, w$\textbf{A}$ist and pe$\textbf{LVIS}$ circumference from 3D human body meshes. Our motivation is to use this data as ground truth for training convolutional neural networks (CNN). Previous work had used the large scale CAESAR dataset or determined these anthropometrical measurements $\textit{manually}$ from a person or human 3D body meshes. Unfortunately, acquiring these data is a cost and time consuming endeavor. In contrast, our method can be used on 3D meshes automatically. We synthesize eight human body meshes and apply CALVIS to calculate chest, waist and pelvis circumference. We evaluate the results qualitatively and observe that the measurements can indeed be used to estimate the shape of a person. We then asses the plausibility of our approach by generating ground truth with CALVIS to train a small CNN. After having trained the network with our data, we achieve competitive validation error. Furthermore, we make the implementation of CALVIS publicly available to advance the field.
翻訳日:2023-01-01 19:40:07 公開日:2020-02-12
# 注意型LSTMニューラルネットを用いたハイライト分類器の構成

Constructing a Highlight Classifier with an Attention Based LSTM Neural Network ( http://arxiv.org/abs/2002.04608v1 )

ライセンス: Link先を確認
Michael Kuehne and Marius Radu(参考訳) データは人類史上、これまで以上に大量生産されている。 この不確実な情報の供給を人間に浸透させ分析させる技術への需要が高まるのを期待するのは当然です。 このニーズは、ビデオ記録を通じて大量の消費者調査データを収集する市場調査産業に存在している。 現在、ビデオデータを分析する標準的な方法は人的労働である。 市場研究者は、コンシューマーリサーチビデオの大部分を手作業でレビューし、関連する部分を特定する。 アートのターンアラウンド比の業界状況は2.2であり、ビデオコンテンツの毎時間2.2時間を必要とする。 本研究では,市場研究者によるデータ収集を支援する教師付き学習モデルに基づく,NLPに基づくハイライト識別と抽出のための新しいアプローチを提案する。 提案手法は,長大かつ短大なビデオデータから構築したユーザ生成ハイライトクリップを手作業で作成する。 この問題は、ビデオの書き起こしが可能であるため、NLPアプローチに最も適している。 勾配ブースティングから再帰ニューラルネットワークまで,複数のモデルのクラスを評価し,ハイライトの抽出と同定における性能を比較した。 次に,分類器の最大入力長よりもはるかに大きい文書を解析するための4つのサンプリング手法を用いて,最高の性能モデルを評価する。 スタンドアロンの分類器, roc auc スコアは 0.93-0.94 の範囲で非常に高い性能を示すが, 大きな文書で評価した場合の有効性は著しく低下する。 この結果に基づき,様々なユースケースに対するモデル/サンプリングアルゴリズムの組み合わせを提案する。

Data is being produced in larger quantities than ever before in human history. It's only natural to expect a rise in demand for technology that aids humans in sifting through and analyzing this inexhaustible supply of information. This need exists in the market research industry, where large amounts of consumer research data is collected through video recordings. At present, the standard method for analyzing video data is human labor. Market researchers manually review the vast majority of consumer research video in order to identify relevant portions - highlights. The industry state of the art turnaround ratio is 2.2 - for every hour of video content 2.2 hours of manpower are required. In this study we present a novel approach for NLP-based highlight identification and extraction based on a supervised learning model that aides market researchers in sifting through their data. Our approach hinges on a manually curated user-generated highlight clips constructed from long and short-form video data. The problem is best suited for an NLP approach due to the availability of video transcription. We evaluate multiple classes of models, from gradient boosting to recurrent neural networks, comparing their performance in extraction and identification of highlights. The best performing models are then evaluated using four sampling methods designed to analyze documents much larger than the maximum input length of the classifiers. We report very high performances for the standalone classifiers, ROC AUC scores in the range 0.93-0.94, but observe a significant drop in effectiveness when evaluated on large documents. Based on our results we suggest combinations of models/sampling algorithms for various use cases.
翻訳日:2023-01-01 19:39:40 公開日:2020-02-12
# 領域外発話における注意音声認識モデル

Attentional Speech Recognition Models Misbehave on Out-of-domain Utterances ( http://arxiv.org/abs/2002.05150v1 )

ライセンス: Link先を確認
Phillip Keung, Wei Niu, Yichao Lu, Julian Salazar, Vikas Bhardwaj(参考訳) 本稿では,自動音声認識のための自己回帰シーケンスからシーケンスへの注意構造におけるエコー転写の問題点について論じる。 我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。 我々は,500文字以上の復号出力(つまり毎秒100文字以上)を生成する5秒記録が多数存在することを観察した。 同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。 これらの復号問題はespnetの音声トランスフォーマーモデルで再現可能であり、自己照準ctcモデルではより少ない範囲で再現可能であり、これらの問題は注意機構の使用に固有のものであることを示唆している。 我々は、出力中のワードピースの正しい数を予測するために、別々の長さ予測モデルを作成し、LibriSpeechタスクのワードエラー率を増大させることなく、問題のあるデコード結果を特定し、切り離すことができる。

We discuss the problem of echographic transcription in autoregressive sequence-to-sequence attentional architectures for automatic speech recognition, where a model produces very long sequences of repetitive outputs when presented with out-of-domain utterances. We decode audio from the British National Corpus with an attentional encoder-decoder model trained solely on the LibriSpeech corpus. We observe that there are many 5-second recordings that produce more than 500 characters of decoding output (i.e. more than 100 characters per second). A frame-synchronous hybrid (DNN-HMM) model trained on the same data does not produce these unusually long transcripts. These decoding issues are reproducible in a speech transformer model from ESPnet, and to a lesser extent in a self-attention CTC model, suggesting that these issues are intrinsic to the use of the attention mechanism. We create a separate length prediction model to predict the correct number of wordpieces in the output, which allows us to identify and truncate problematic decoding results without increasing word error rates on the LibriSpeech task.
翻訳日:2023-01-01 19:39:03 公開日:2020-02-12
# ストリーミングデータを用いた入射表面マッピングのためのスパースガウス過程エキスパートの集合

Ensemble of Sparse Gaussian Process Experts for Implicit Surface Mapping with Streaming Data ( http://arxiv.org/abs/2002.04911v1 )

ライセンス: Link先を確認
Johannes A. Stork and Todor Stoyanov(参考訳) 地図の作成はロボティクスの重要なタスクであり、効果的な計画とナビゲーションの基盤を提供する。 本稿では,既知のポーズを持つ距離データのストリームから,環境のコンパクトで連続的な暗黙的表面マップを学習する。 このために,マップの異なる部分に対してそれぞれ責任を負う近似ガウス過程(gp)の専門家のアンサンブルを作成し,段階的に調整する。 gpモデルに到着したすべてのデータを挿入する代わりに、モデルの複雑さと予測エラーをゆるやかにトレードオフします。 したがって, このアルゴリズムでは, 幾何学的特徴が少なく, 環境が多種多様である地域では資源の消費が少ない。 合成および実世界のデータセットに対する我々のアプローチを評価し,パラメータに対する感度と測定ノイズを分析した。 その結果、異なる条件下ではコンパクトで正確な暗黙的表面モデルを学習でき、サブサンプルデータによるgp回帰と同等かそれ以上の性能が得られることがわかった。

Creating maps is an essential task in robotics and provides the basis for effective planning and navigation. In this paper, we learn a compact and continuous implicit surface map of an environment from a stream of range data with known poses. For this, we create and incrementally adjust an ensemble of approximate Gaussian process (GP) experts which are each responsible for a different part of the map. Instead of inserting all arriving data into the GP models, we greedily trade-off between model complexity and prediction error. Our algorithm therefore uses less resources on areas with few geometric features and more where the environment is rich in variety. We evaluate our approach on synthetic and real-world data sets and analyze sensitivity to parameters and measurement noise. The results show that we can learn compact and accurate implicit surface models under different conditions, with a performance comparable to or better than that of exact GP regression with subsampled data.
翻訳日:2023-01-01 19:37:04 公開日:2020-02-12
# ラベル雑音による半教師付き学習における粒子競合と協調

Particle Competition and Cooperation for Semi-Supervised Learning with Label Noise ( http://arxiv.org/abs/2002.05198v1 )

ライセンス: Link先を確認
Fabricio Aparecido Breve, Liang Zhao, Marcos Gon\c{c}alves Quiles(参考訳) 半教師付き学習法は通常、データ項目の小さなサブセットのみをラベル付けしたデータセットの分類に使用される。 これらのシナリオではラベルノイズが重要な問題であり、ノイズが大きな部分やデータセット全体に分散し易いため、分類精度が大幅に低下する可能性がある。 そのため、半教師付き学習におけるラベルノイズの有害な影響を低減する新しい手法の開発が不可欠である。 近年,粒子競合と協調に基づくグラフに基づく半教師付き学習手法が開発されている。 このモデルでは、粒子はデータセットから構築されたグラフの中を歩く。 競合は異なるクラスラベルを表す粒子間で行われ、協調は同一のラベルを持つ粒子間で起こる。 本稿では,ラベルノイズの存在に対するロバスト性の向上と,ラベル雑音耐性の向上を目的とした新しい粒子競合・協調アルゴリズムを提案する。 他の方法とは異なり、提案手法はラベルノイズに対処する別の手法を必要としない。 ラベルなしノードの分類とラベルノイズの影響を受けるノードの再分類をユニークなプロセスで実行する。 計算機シミュレーションにより,提案手法を実世界のいくつかのデータセットに適用した場合の分類精度を示す。 この分類精度は,従来のパーティクルコンペティションと協調アルゴリズムおよび他のグラフベース半教師付き学習法で得られたものと比較した。 その結果,提案手法の有効性が示された。

Semi-supervised learning methods are usually employed in the classification of data sets where only a small subset of the data items is labeled. In these scenarios, label noise is a crucial issue, since the noise may easily spread to a large portion or even the entire data set, leading to major degradation in classification accuracy. Therefore, the development of new techniques to reduce the nasty effects of label noise in semi-supervised learning is a vital issue. Recently, a graph-based semi-supervised learning approach based on Particle competition and cooperation was developed. In this model, particles walk in the graphs constructed from the data sets. Competition takes place among particles representing different class labels, while the cooperation occurs among particles with the same label. This paper presents a new particle competition and cooperation algorithm, specifically designed to increase the robustness to the presence of label noise, improving its label noise tolerance. Different from other methods, the proposed one does not require a separate technique to deal with label noise. It performs classification of unlabeled nodes and reclassification of the nodes affected by label noise in a unique process. Computer simulations show the classification accuracy of the proposed method when applied to some artificial and real-world data sets, in which we introduce increasing amounts of label noise. The classification accuracy is compared to those achieved by previous particle competition and cooperation algorithms and other representative graph-based semi-supervised learning methods using the same scenarios. Results show the effectiveness of the proposed method.
翻訳日:2023-01-01 19:30:37 公開日:2020-02-12
# 深層学習手法を用いた最短経路距離近似

Shortest path distance approximation using deep learning techniques ( http://arxiv.org/abs/2002.05257v1 )

ライセンス: Link先を確認
Fatemeh Salehi Rizi, Joerg Schloetterer, Michael Granitzer(参考訳) ノード間の最短経路距離の計算は多くのグラフアルゴリズムやアプリケーションの中心にある。 ブロードス・ファースト・サーチ (BFS) のような伝統的な正確な手法は、現在の大規模ネットワークを急速に発展させ、現代までスケールしない。 そのため、大きなスピードアップでスケーラブルなグラフ処理を可能にする近似手法を見つける必要がある。 本稿では,ディープラーニング技術で学習したベクトル埋め込みを利用して,グラフの最も短い経路距離を近似する。 埋め込みを施したフィードフォワードニューラルネットワークは比較的低い歪み誤差で距離を近似できることを示す。 提案手法は,Facebook,BlogCatalog,Youtube,Flickrのソーシャルネットワーク上で評価される。

Computing shortest path distances between nodes lies at the heart of many graph algorithms and applications. Traditional exact methods such as breadth-first-search (BFS) do not scale up to contemporary, rapidly evolving today's massive networks. Therefore, it is required to find approximation methods to enable scalable graph processing with a significant speedup. In this paper, we utilize vector embeddings learnt by deep learning techniques to approximate the shortest paths distances in large graphs. We show that a feedforward neural network fed with embeddings can approximate distances with relatively low distortion error. The suggested method is evaluated on the Facebook, BlogCatalog, Youtube and Flickr social networks.
翻訳日:2023-01-01 19:29:23 公開日:2020-02-12
# 貯水池メモリマシン

Reservoir memory machines ( http://arxiv.org/abs/2003.04793v1 )

ライセンス: Link先を確認
Benjamin Paassen and Alexander Schulz(参考訳) 近年、ニューラルネットワークの柔軟性とチューリングマシンの計算能力とを結合することで、ニューラルチューリングマシンが注目を集めている。 しかし、ニューラルチューリングマシンはトレーニングが難しいことで知られており、適用性が制限されている。 ニューラルネットワークチューリングマシンのベンチマークテストのいくつかは依然として解決できるが、学習にはるかに高速であり、アライメントアルゴリズムと線形回帰のみを必要とするリザーバメモリマシンを提案する。 我々のモデルは、外部メモリによるエコー状態ネットワークの拡張と見なすことができ、干渉することなく任意の長さの記憶が可能となる。

In recent years, Neural Turing Machines have gathered attention by joining the flexibility of neural networks with the computational capabilities of Turing machines. However, Neural Turing Machines are notoriously hard to train, which limits their applicability. We propose reservoir memory machines, which are still able to solve some of the benchmark tests for Neural Turing Machines, but are much faster to train, requiring only an alignment algorithm and linear regression. Our model can also be seen as an extension of echo state networks with an external memory, enabling arbitrarily long storage without interference.
翻訳日:2023-01-01 19:28:50 公開日:2020-02-12
# 埋め込み空間の強化による深層畳み込みニューラルネットワークの効率的な学習

Efficient Training of Deep Convolutional Neural Networks by Augmentation in Embedding Space ( http://arxiv.org/abs/2002.04776v1 )

ライセンス: Link先を確認
Mohammad Saeed Abrishami, Amir Erfan Eshratifar, David Eigen, Yanzhi Wang, Shahin Nazarian, Massoud Pedram(参考訳) 人工知能の分野での最近の進歩は、ディープニューラルネットワークによって実現されている。 データが少ないアプリケーションでは、ディープラーニングモデルの一般化を改善するために、転送学習とデータ拡張技術が一般的に使用される。 しかし、生の入力空間におけるデータ拡張を伴う転送モデルの微調整は、拡張入力毎に全ネットワークを実行するための計算コストが高い。 これは、計算資源とエネルギー資源が限られている組み込みデバイスに大規模なモデルを実装する場合、特に重要である。 本研究では,生の入力空間における拡張を,埋め込み空間で純粋に作用する近似的に置き換える手法を提案する。 実験の結果,提案手法は計算量を大幅に削減するが,モデルの精度は無視できることがわかった。

Recent advances in the field of artificial intelligence have been made possible by deep neural networks. In applications where data are scarce, transfer learning and data augmentation techniques are commonly used to improve the generalization of deep learning models. However, fine-tuning a transfer model with data augmentation in the raw input space has a high computational cost to run the full network for every augmented input. This is particularly critical when large models are implemented on embedded devices with limited computational and energy resources. In this work, we propose a method that replaces the augmentation in the raw input space with an approximate one that acts purely in the embedding space. Our experimental results show that the proposed method drastically reduces the computation, while the accuracy of models is negligibly compromised.
翻訳日:2023-01-01 19:28:41 公開日:2020-02-12
# ベイジアンディープラーニングのための学習可能なBernoulliドロップアウト

Learnable Bernoulli Dropout for Bayesian Deep Learning ( http://arxiv.org/abs/2002.05155v1 )

ライセンス: Link先を確認
Shahin Boluki, Randy Ardywibowo, Siamak Zamani Dadaneh, Mingyuan Zhou, Xiaoning Qian(参考訳) 本研究では,学習可能なbernoulli dropout(lbd)を提案する。これはモデル非依存な新しいドロップアウトスキームで,ドロップアウトレートを他のモデルパラメータと共同で最適化したパラメータとみなす。 ベルヌーイドロップアウトの確率論的モデリングにより,深層モデルにおいてよりロバストな予測と不確実性定量化を可能にする。 特に、可変オートエンコーダ(VAE)と組み合わせることで、LBDは柔軟な半単純後部表現を可能にし、新しい半単純VAE〜(SIVAE)モデルを生み出す。 本研究では,不偏・低分散勾配推定器であるaugment-reinforce-merge(arm)を用いて,ドロップアウトパラメータに対するトレーニングの最適化を行う。 様々なタスクにおける実験は、他の一般的なドロップアウト方式と比較して、我々のアプローチの優れた性能を示しています。 総じて、lbdは画像分類と意味セグメンテーションにおける精度と不確実性の推定を改善する。 さらに,複数の公開データセット上での暗黙的なフィードバックに対して,協調フィルタリングによる最先端のパフォーマンスを実現することができる。

In this work, we propose learnable Bernoulli dropout (LBD), a new model-agnostic dropout scheme that considers the dropout rates as parameters jointly optimized with other model parameters. By probabilistic modeling of Bernoulli dropout, our method enables more robust prediction and uncertainty quantification in deep models. Especially, when combined with variational auto-encoders (VAEs), LBD enables flexible semi-implicit posterior representations, leading to new semi-implicit VAE~(SIVAE) models. We solve the optimization for training with respect to the dropout parameters using Augment-REINFORCE-Merge (ARM), an unbiased and low-variance gradient estimator. Our experiments on a range of tasks show the superior performance of our approach compared with other commonly used dropout schemes. Overall, LBD leads to improved accuracy and uncertainty estimates in image classification and semantic segmentation. Moreover, using SIVAE, we can achieve state-of-the-art performance on collaborative filtering for implicit feedback on several public datasets.
翻訳日:2023-01-01 19:19:17 公開日:2020-02-12
# 移動学習における目標データの価値について

On the Value of Target Data in Transfer Learning ( http://arxiv.org/abs/2002.04747v1 )

ライセンス: Link先を確認
Steve Hanneke and Samory Kpotufe(参考訳) 本研究の目的は,転送学習におけるラベル付きあるいはラベルなしのターゲットデータの価値を,任意の量のソースデータに対して理解することであり,サンプリングコストの最小化に関する実践的な質問によって動機付けられている。 この目的のために, ソースサイズとターゲットサイズの両方で最初のミニマックスレートを設定し, 転送指数と呼ぶソースとターゲット間の不一致の新しい概念によって, 性能限界を捉えていることを示す。

We aim to understand the value of additional labeled or unlabeled target data in transfer learning, for any given amount of source data; this is motivated by practical questions around minimizing sampling costs, whereby, target data is usually harder or costlier to acquire than source data, but can yield better accuracy. To this aim, we establish the first minimax-rates in terms of both source and target sample sizes, and show that performance limits are captured by new notions of discrepancy between source and target, which we refer to as transfer exponents.
翻訳日:2023-01-01 19:12:13 公開日:2020-02-12
# 効率的な遠隔モニタリングのための協調推論

Collaborative Inference for Efficient Remote Monitoring ( http://arxiv.org/abs/2002.04759v1 )

ライセンス: Link先を確認
Chi Zhang, Yong Sheng Soh, Ling Feng, Tianyi Zhou, Qianxiao Li(参考訳) 現在の機械学習モデルは、幅広いアプリケーションで印象的なパフォーマンスを発揮するが、そのサイズと複雑さは、ストレージと計算能力に制限のあるエッジデバイスでのリモート監視のようなタスクには適さない。 モデルレベルでこれを解決するためのナイーブなアプローチは、単純なアーキテクチャを使用することだが、予測精度を犠牲にして、有害なイベントの発生を正確に検出する必要のあるアプリケーションの監視には適さない。 本稿では,ローカルモニタリングツールとして機能する単純な関数と,サーバ上で評価される複雑な補正項の和として予測モデルを分解することで,この問題に対する代替案を提案する。 早期警戒システムとして効果的に機能できるという意味で、ローカル監視機能が安全であることを保証するために、後者にサイン要求が課される。 我々の分析は、モデルの複雑さと性能のトレードオフを定量化し、アーキテクチャ設計のガイダンスとして役立ちます。 提案するフレームワークを一連のモニタリング実験で検証し,安全要件を最小に破る複雑さを著しく低減したモニタリングモデルの学習に成功した。 より広い範囲において、このフレームワークは偽陰性が偽陽性よりも著しくコストがかかるアプリケーションにおける分類器の学習に有用である。

While current machine learning models have impressive performance over a wide range of applications, their large size and complexity render them unsuitable for tasks such as remote monitoring on edge devices with limited storage and computational power. A naive approach to resolve this on the model level is to use simpler architectures, but this sacrifices prediction accuracy and is unsuitable for monitoring applications requiring accurate detection of the onset of adverse events. In this paper, we propose an alternative solution to this problem by decomposing the predictive model as the sum of a simple function which serves as a local monitoring tool, and a complex correction term to be evaluated on the server. A sign requirement is imposed on the latter to ensure that the local monitoring function is safe, in the sense that it can effectively serve as an early warning system. Our analysis quantifies the trade-offs between model complexity and performance, and serves as a guidance for architecture design. We validate our proposed framework on a series of monitoring experiments, where we succeed at learning monitoring models with significantly reduced complexity that minimally violate the safety requirement. More broadly, our framework is useful for learning classifiers in applications where false negatives are significantly more costly compared to false positives.
翻訳日:2023-01-01 19:11:46 公開日:2020-02-12
# マルチタスク学習におけるタスクバランスの難しさに対する簡易的一般化

A Simple General Approach to Balance Task Difficulty in Multi-Task Learning ( http://arxiv.org/abs/2002.04792v1 )

ライセンス: Link先を確認
Sicong Liang and Yu Zhang(参考訳) マルチタスク学習では、異なるタスクの難易度レベルが異なる。 この状況に対処する多くの作業があり、直接和法、重み付け和法、最大化法、カリキュラム学習法、多目的最適化法を含む5つのカテゴリに分類しています。 これらのアプローチには、手動で設計したルールを使用してタスクの重みを更新する、非滑らかな目的関数を使用する、トレーニング損失以外の機能を組み込む、といった、独自の制限がある。 本稿では,これらの制約を緩和するために,BMTL(Ba balanced Multi-Task Learning)フレームワークを提案する。 タスク重み付けに依存する既存の研究とは異なり、BMTLフレームワークは、最適化手順中により大きなトレーニング損失を持つタスクがより注目されるという直感的なアイデアに基づいて、各タスクのトレーニング損失をタスク間の難易度バランスに変換することを提案する。 変換関数を分析し,必要条件を導出する。 提案するBMTLフレームワークは非常にシンプルで、ほとんどのマルチタスク学習モデルと組み合わせることができる。 実験により,提案したBMTLフレームワークの最先端性能を示す。

In multi-task learning, difficulty levels of different tasks are varying. There are many works to handle this situation and we classify them into five categories, including the direct sum approach, the weighted sum approach, the maximum approach, the curriculum learning approach, and the multi-objective optimization approach. Those approaches have their own limitations, for example, using manually designed rules to update task weights, non-smooth objective function, and failing to incorporate other functions than training losses. In this paper, to alleviate those limitations, we propose a Balanced Multi-Task Learning (BMTL) framework. Different from existing studies which rely on task weighting, the BMTL framework proposes to transform the training loss of each task to balance difficulty levels among tasks based on an intuitive idea that tasks with larger training losses will receive more attention during the optimization procedure. We analyze the transformation function and derive necessary conditions. The proposed BMTL framework is very simple and it can be combined with most multi-task learning models. Empirical studies show the state-of-the-art performance of the proposed BMTL framework.
翻訳日:2023-01-01 19:10:57 公開日:2020-02-12
# 一般化テンソルトレースノルムによる深部マルチタスク学習

Deep Multi-Task Learning via Generalized Tensor Trace Norm ( http://arxiv.org/abs/2002.04799v1 )

ライセンス: Link先を確認
Yi Zhang, Yu Zhang, Wei Wang(参考訳) トレースノルムは、モデルパラメータの観点からタスク間の低ランク構造を発見できるため、マルチタスク学習で広く使われている。 近年,大規模データセットの出現とディープラーニング技術の普及により,深層マルチタスクモデルにテンソルトレースノルムが使用されている。 しかし、既存のテンソルトレースノルムは、すべての低ランク構造を発見できず、ユーザは手作業でコンポーネントの重要性を判断する必要がある。 本稿では,これら2つの問題を解決するために,一般化テンソルトレースノルム(GTTN)を提案する。 GTTNは、すべての可能なテンソル平坦化の行列トレースノルムの凸結合として定義されるため、可能な低ランク構造をすべて発見できる。 誘導目的関数では、gttnの組合せ係数を学習し、重要度を自動的に決定する。 実世界のデータセットに対する実験は、提案したGTTNの有効性を示す。

The trace norm is widely used in multi-task learning as it can discover low-rank structures among tasks in terms of model parameters. Nowadays, with the emerging of big datasets and the popularity of deep learning techniques, tensor trace norms have been used for deep multi-task models. However, existing tensor trace norms cannot discover all the low-rank structures and they require users to manually determine the importance of their components. To solve those two issues together, in this paper, we propose a Generalized Tensor Trace Norm (GTTN). The GTTN is defined as a convex combination of matrix trace norms of all possible tensor flattenings and hence it can discover all the possible low-rank structures. In the induced objective function, we will learn combination coefficients in the GTTN to automatically determine the importance. Experiments on real-world datasets demonstrate the effectiveness of the proposed GTTN.
翻訳日:2023-01-01 19:10:36 公開日:2020-02-12
# Lookahead: マグニチュードベースのプルーニングの遠目代替

Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning ( http://arxiv.org/abs/2002.04809v1 )

ライセンス: Link先を確認
Sejun Park, Jaeho Lee, Sangwoo Mo, Jinwoo Shin(参考訳) マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。 その単純さにもかかわらず、マグニチュードベースのプルーニングとその変種は近代建築のプルーニングに顕著な性能を示した。 本研究では,単一層に対応する線形作用素のフロベニウス歪みを実際に最小化できるという観測に基づいて,単一層最適化を多層最適化に拡張し,ルックアヘッドプルーニングと呼ばれる単純なプルーニング法を開発した。 実験の結果,提案手法はVGGやResNetなど様々なネットワーク,特に高スパーシティシステムにおいて,等級ベースプルーニングよりも優れていた。 コードについてはhttps://github.com/alinlab/lookahead_pruningを参照。

Magnitude-based pruning is one of the simplest methods for pruning neural networks. Despite its simplicity, magnitude-based pruning and its variants demonstrated remarkable performances for pruning modern architectures. Based on the observation that magnitude-based pruning indeed minimizes the Frobenius distortion of a linear operator corresponding to a single layer, we develop a simple pruning method, coined lookahead pruning, by extending the single layer optimization to a multi-layer optimization. Our experimental results demonstrate that the proposed method consistently outperforms magnitude-based pruning on various networks, including VGG and ResNet, particularly in the high-sparsity regime. See https://github.com/alinlab/lookahead_pruning for codes.
翻訳日:2023-01-01 19:10:04 公開日:2020-02-12
# 階層型グラフニューラルネットワークによる深層マルチタスク拡張機能学習

Deep Multi-Task Augmented Feature Learning via Hierarchical Graph Neural Network ( http://arxiv.org/abs/2002.04813v1 )

ライセンス: Link先を確認
Pengxin Guo, Chang Deng, Linjie Xu, Xiaonan Huang, Yu Zhang(参考訳) 深層マルチタスク学習は、多くのアプリケーションで優れたパフォーマンスを達成するため、近年多くの注目を集めている。 タスク間で共通情報を共有するために、機能学習は深層マルチタスク学習にとって重要である。 本稿では,階層型グラフニューラルネットワーク(HGNN)を提案する。 HGNNは2レベルグラフニューラルネットワークで構成されている。 低レベルでは、タスク内グラフニューラルネットワークは、隣接するデータを集約することで、タスク内の各データポイントに対する強力な表現を学習する責務を負う。 学習した表現に基づいて、maxプーリングと同様の方法で各タスクに対してタスク埋め込みを生成することができる。 第2のレベルでは、タスク関係をモデル化するアテンションメカニズムに基づいて、タスクのすべてのタスクの埋め込みをタスク間ニューラルネットワークが更新する。 次に、1つのタスクのタスク埋め込みを使用して、このタスク内のデータポイントの特徴表現を強化します。 さらに、分類タスクでは、クラス間グラフニューラルネットワークを導入して、より細かい粒度、すなわちクラスレベルで同様の操作を行い、すべてのタスクで各クラスに対するクラス埋め込みを生成し、その特徴表現を増強するためにクラス埋め込みを使用する。 提案された機能拡張戦略は、多くの深層マルチタスク学習モデルで使用できる。 我々はHGNNを訓練と一般化損失の観点から分析する。 実世界のデータステスの実験は、この戦略を使用する際の大幅なパフォーマンス向上を示している。

Deep multi-task learning attracts much attention in recent years as it achieves good performance in many applications. Feature learning is important to deep multi-task learning for sharing common information among tasks. In this paper, we propose a Hierarchical Graph Neural Network (HGNN) to learn augmented features for deep multi-task learning. The HGNN consists of two-level graph neural networks. In the low level, an intra-task graph neural network is responsible of learning a powerful representation for each data point in a task by aggregating its neighbors. Based on the learned representation, a task embedding can be generated for each task in a similar way to max pooling. In the second level, an inter-task graph neural network updates task embeddings of all the tasks based on the attention mechanism to model task relations. Then the task embedding of one task is used to augment the feature representation of data points in this task. Moreover, for classification tasks, an inter-class graph neural network is introduced to conduct similar operations on a finer granularity, i.e., the class level, to generate class embeddings for each class in all the tasks use class embeddings to augment the feature representation. The proposed feature augmentation strategy can be used in many deep multi-task learning models. we analyze the HGNN in terms of training and generalization losses. Experiments on real-world datastes show the significant performance improvement when using this strategy.
翻訳日:2023-01-01 19:09:50 公開日:2020-02-12
# 文レベルの名前付きエンティティリンクにおけるジョイント埋め込み

Joint Embedding in Named Entity Linking on Sentence Level ( http://arxiv.org/abs/2002.04936v1 )

ライセンス: Link先を確認
Wei Shi, Siyuan Zhang, Zhiwei Zhang, Hong Cheng, Jeffrey Xu Yu(参考訳) 名前付きエンティティリンクは、文書中の曖昧な記述を知識ベース内のエンティティにマッピングする。 ドキュメントに言及するための複数の候補エンティティが存在するという事実を考えると、名前付きエンティティリンクは困難である。 文献に複数回登場すると、記述の出現に関する文脈に矛盾があるため、その記述をリンクすることは困難である。 加えて、与えられたトレーニングデータセットが小さいため、その参照をマッピングエンティティにリンクするために手動で行われるため、難しい。 文献では、最近の組込み手法が文書レベルでトレーニングデータセットからエンティティのベクトルを学ぶという多くの研究が報告されている。 これらの問題に対処するために,文レベルでの発言のエンティティをリンクする方法に注目する。これにより,使用する情報不足を犠牲にして,文書中の同一の発言の出現によるノイズを低減できる。 知識グラフから学習した関係を最大化することで,新しい統一埋め込み手法を提案する。 実験研究において,本手法の有効性を確認した。

Named entity linking is to map an ambiguous mention in documents to an entity in a knowledge base. The named entity linking is challenging, given the fact that there are multiple candidate entities for a mention in a document. It is difficult to link a mention when it appears multiple times in a document, since there are conflicts by the contexts around the appearances of the mention. In addition, it is difficult since the given training dataset is small due to the reason that it is done manually to link a mention to its mapping entity. In the literature, there are many reported studies among which the recent embedding methods learn vectors of entities from the training dataset at document level. To address these issues, we focus on how to link entity for mentions at a sentence level, which reduces the noises introduced by different appearances of the same mention in a document at the expense of insufficient information to be used. We propose a new unified embedding method by maximizing the relationships learned from knowledge graphs. We confirm the effectiveness of our method in our experimental studies.
翻訳日:2023-01-01 19:03:03 公開日:2020-02-12
# BERT中間層を用いたアスペクトベース感性分析と自然言語推論

Utilizing BERT Intermediate Layers for Aspect Based Sentiment Analysis and Natural Language Inference ( http://arxiv.org/abs/2002.04815v1 )

ライセンス: Link先を確認
Youwei Song, Jiahai Wang, Zhiwei Liang, Zhiyue Liu, Tao Jiang(参考訳) アスペクトに基づく感情分析は、テキストの特定の側面に対する感情傾向を特定することを目的としている。 事前訓練されたBERTの微調整は、このタスクに優れ、最先端のパフォーマンスを達成する。 既存のBERTベースの作業はBERTの最後の出力層のみを使用し、中間層における意味的な知識を無視する。 本稿では,BERTの微調整性能を高めるため,BERT中間層を活用する可能性について検討する。 私たちの知る限りでは、この研究に関する既存の研究は行われていません。 汎用性を示すために、自然言語推論タスクにもこのアプローチを適用します。 実験の結果,提案手法の有効性と汎用性を示した。

Aspect based sentiment analysis aims to identify the sentimental tendency towards a given aspect in text. Fine-tuning of pretrained BERT performs excellent on this task and achieves state-of-the-art performances. Existing BERT-based works only utilize the last output layer of BERT and ignore the semantic knowledge in the intermediate layers. This paper explores the potential of utilizing BERT intermediate layers to enhance the performance of fine-tuning of BERT. To the best of our knowledge, no existing work has been done on this research. To show the generality, we also apply this approach to a natural language inference task. Experimental results demonstrate the effectiveness and generality of the proposed approach.
翻訳日:2023-01-01 19:02:20 公開日:2020-02-12
# オープンドメイン自然言語生成モデルのより良い訓練と評価のための比較学習

Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models ( http://arxiv.org/abs/2002.05058v1 )

ライセンス: Link先を確認
Wangchunshu Zhou and Ke Xu(参考訳) オープンドメイン自然言語生成(NLG)モデルの自動評価は依然として課題であり、BLEUやPerplexityといった広く使われている指標は誤解を招くことがある。 本稿では,自然言語理解能力が良好であることが判明した,合成文対の比較を学習し,自然言語生成モデルを評価することを提案する。 また, nlgモデルのモデルレベル品質を, サンプルレベル比較結果とスキルレーティングシステムを用いて評価する。 完全に自己監督された方法で訓練することができるが、我々のモデルは人間の判断をよりよく模倣するために、少量の人間の好みアノテーションでさらに微調整することができる。 トレーニングモデルの評価に加えて,ハイパーパラメータチューニングと早期停止の改善のために,トレーニング中のパフォーマンス指標としてモデルを適用することを提案する。 我々は,物語生成とチャット対話生成の両方に対するアプローチを評価する。 実験の結果,従来の自動評価手法と比較して,モデルが人間の好みと相関することがわかった。 提案手法を用いたトレーニングは, 提案モデルの有効性をさらに示し, 評価精度の向上をもたらす。

Automated evaluation of open domain natural language generation (NLG) models remains a challenge and widely used metrics such as BLEU and Perplexity can be misleading in some cases. In our paper, we propose to evaluate natural language generation models by learning to compare a pair of generated sentences by fine-tuning BERT, which has been shown to have good natural language understanding ability. We also propose to evaluate the model-level quality of NLG models with sample-level comparison results with skill rating system. While able to be trained in a fully self-supervised fashion, our model can be further fine-tuned with a little amount of human preference annotation to better imitate human judgment. In addition to evaluating trained models, we propose to apply our model as a performance indicator during training for better hyperparameter tuning and early-stopping. We evaluate our approach on both story generation and chit-chat dialogue response generation. Experimental results show that our model correlates better with human preference compared with previous automated evaluation approaches. Training with the proposed metric yields better performance in human evaluation, which further demonstrates the effectiveness of the proposed model.
翻訳日:2023-01-01 19:02:11 公開日:2020-02-12
# tablegraphnetを用いた表データの説明可能な深層モデリング

Explainable Deep Modeling of Tabular Data using TableGraphNet ( http://arxiv.org/abs/2002.05205v1 )

ライセンス: Link先を確認
Gabriel Terejanu, Jawad Chowdhury, Rezaur Rashid, Asif Chowdhury(参考訳) 説明可能性に関するほとんどの研究は、説明可能なモデリングではなく、説明可能性に焦点を当てている。 すなわち、可能な限り高い性能を達成するためだけに作られた複雑なブラックボックスモデルを説明するために、説明モデルが導出される。 この傾向は、説明可能性と正確さの間にトレードオフがあるという誤解が原因かもしれない。 さらに、ゲーム理論に基づくシェイプリー値に関する一連の研究は、ディープラーニングモデルを含む様々な機械学習モデルに対するより良い近似に関する説明後研究の新たな波にも貢献している。 付加的特徴属性の形で説明可能な予測を本質的に生成する新しいアーキテクチャを提案する。 提案手法はデータセットの各レコードのグラフ表現を学習する。 属性中心の特徴はグラフから導出され、最終的な予測を生成するためにコントリビューションディープセットモデルに入力される。 説明可能なモデルはブラックボックスモデルと同じレベルの性能が得られることを示す。 最後に,不確かさを生かし,精度を損なうことなく高レベルの一貫性(形状値に要求されるような)が得られるモデルトレーニング手法を提案する。

The vast majority of research on explainability focuses on post-explainability rather than explainable modeling. Namely, an explanation model is derived to explain a complex black box model built with the sole purpose of achieving the highest performance possible. In part, this trend might be driven by the misconception that there is a trade-off between explainability and accuracy. Furthermore, the consequential work on Shapely values, grounded in game theory, has also contributed to a new wave of post-explainability research on better approximations for various machine learning models, including deep learning models. We propose a new architecture that inherently produces explainable predictions in the form of additive feature attributions. Our approach learns a graph representation for each record in the dataset. Attribute centric features are then derived from the graph and fed into a contribution deep set model to produce the final predictions. We show that our explainable model attains the same level of performance as black box models. Finally, we provide an augmented model training approach that leverages the missingness property and yields high levels of consistency (as required for the Shapely values) without loss of accuracy.
翻訳日:2023-01-01 19:01:37 公開日:2020-02-12
# 適応行動政策共有による強化学習のためのデータ効率的な訓練

Data Efficient Training for Reinforcement Learning with Adaptive Behavior Policy Sharing ( http://arxiv.org/abs/2002.05229v1 )

ライセンス: Link先を確認
Ge Liu, Rui Wu, Heng-Tze Cheng, Jing Wang, Jayden Ooi, Lihong Li, Ang Li, Wai Lok Sibon Li, Craig Boutilier, Ed Chi(参考訳) 深層強化学習(rl)はシミュレーション環境での意思決定に強力であることが証明されている。 しかしながら,大規模医療システムやレコメンデーションシステムといった実世界の応用においては,対話のコストと運用予算の制限のため,深層RLモデルのトレーニングは困難である。 データ非効率の1つの側面は、ディープニューラルネットワークを最適化する際の高価なハイパーパラメータチューニングである。 ハイパーパラメータのアンサンブルで訓練されたエージェントのプールから適応的に選択された行動ポリシーによって収集された経験を共有することを可能にするデータ効率の高いトレーニングアルゴリズムであるadaptive behavior policy sharing (abps)を提案する。 さらに、ABPSを適応したABPS-PBT(Population Based Training)と併用することにより、トレーニング中にABPSを拡張してハイパーパラメータを進化させる。 最大16個のハイパーパラメータ/アーキテクチャ設定のatariゲームで実験を行った。 ABPSは、単独のエージェントを訓練するのと同じ数の環境相互作用しか必要とせず、より優れた総合的な性能、上位25%のエージェントの分散の低減、および独立トレーニングによる従来のハイパーパラメータチューニングと比較して最高のエージェントの等価性能を実現している。 また,ABPS-PBTは収束速度をさらに向上し,分散を減少させることを示した。

Deep Reinforcement Learning (RL) is proven powerful for decision making in simulated environments. However, training deep RL model is challenging in real world applications such as production-scale health-care or recommender systems because of the expensiveness of interaction and limitation of budget at deployment. One aspect of the data inefficiency comes from the expensive hyper-parameter tuning when optimizing deep neural networks. We propose Adaptive Behavior Policy Sharing (ABPS), a data-efficient training algorithm that allows sharing of experience collected by behavior policy that is adaptively selected from a pool of agents trained with an ensemble of hyper-parameters. We further extend ABPS to evolve hyper-parameters during training by hybridizing ABPS with an adapted version of Population Based Training (ABPS-PBT). We conduct experiments with multiple Atari games with up to 16 hyper-parameter/architecture setups. ABPS achieves superior overall performance, reduced variance on top 25% agents, and equivalent performance on the best agent compared to conventional hyper-parameter tuning with independent training, even though ABPS only requires the same number of environmental interactions as training a single agent. We also show that ABPS-PBT further improves the convergence speed and reduces the variance.
翻訳日:2023-01-01 18:54:29 公開日:2020-02-12
# テキスト誘導による画像間翻訳

Image-to-Image Translation with Text Guidance ( http://arxiv.org/abs/2002.05235v1 )

ライセンス: Link先を確認
Bowen Li, Xiaojuan Qi, Philip H. S. Torr, Thomas Lukasiewicz(参考訳) 本研究の目的は, 合成画像の視覚的特徴をテキスト記述で決定できる, 生成的敵対的ネットワークを用いた画像から画像への変換に, 自然言語記述などの制御可能な要素を組み込むことである。 We propose four key components: (1) the implementation of part-of-speech tagging to filter out non-semantic words in the given description, (2) the adoption of an affine combination module to effectively fuse different modality text and image features, (3) a novel refined multi-stage architecture to strengthen the differential ability of discriminators and the rectification ability of generators, and (4) a new structure loss to further improve discriminators to better distinguish real and synthetic images. COCOデータセットの大規模な実験により,提案手法は視覚的リアリズムと,与えられた記述とのセマンティック一貫性の両方において優れた性能を示した。

The goal of this paper is to embed controllable factors, i.e., natural language descriptions, into image-to-image translation with generative adversarial networks, which allows text descriptions to determine the visual attributes of synthetic images. We propose four key components: (1) the implementation of part-of-speech tagging to filter out non-semantic words in the given description, (2) the adoption of an affine combination module to effectively fuse different modality text and image features, (3) a novel refined multi-stage architecture to strengthen the differential ability of discriminators and the rectification ability of generators, and (4) a new structure loss to further improve discriminators to better distinguish real and synthetic images. Extensive experiments on the COCO dataset demonstrate that our method has a superior performance on both visual realism and semantic consistency with given descriptions.
翻訳日:2023-01-01 18:53:30 公開日:2020-02-12
# 現実か非現実か、それが質問だ

Real or Not Real, that is the Question ( http://arxiv.org/abs/2002.05512v1 )

ライセンス: Link先を確認
Yuanbo Xiangli, Yubin Deng, Bo Dai, Chen Change Loy, Dahua Lin(参考訳) 本稿では,様々な話題においてgan(generative adversarial network)が広く採用されている一方で,多角から推定可能な確率変数として現実性を扱うことにより,標準ganを新たな視点に一般化する。 この一般化されたフレームワークはRealnessGANと呼ばれ、判別器は実数の尺度として分布を出力する。 RealnessGANは、標準的なGANと同様の理論的保証を共有しているが、敵対的学習に関する洞察を提供する。 複数のベースラインと比較して、RealnessGANはジェネレータのより強力なガイダンスを提供し、合成データセットと実世界のデータセットの両方の改善を実現している。 さらに、scratchからトレーニングすると、1024*1024の解像度で現実的なイメージを生成することができる。

While generative adversarial networks (GAN) have been widely adopted in various topics, in this paper we generalize the standard GAN to a new perspective by treating realness as a random variable that can be estimated from multiple angles. In this generalized framework, referred to as RealnessGAN, the discriminator outputs a distribution as the measure of realness. While RealnessGAN shares similar theoretical guarantees with the standard GAN, it provides more insights on adversarial learning. Compared to multiple baselines, RealnessGAN provides stronger guidance for the generator, achieving improvements on both synthetic and real-world datasets. Moreover, it enables the basic DCGAN architecture to generate realistic images at 1024*1024 resolution when trained from scratch.
翻訳日:2023-01-01 18:52:39 公開日:2020-02-12
# 一級分類による希少なベント性マクロ無脊椎動物分類の同定

Boosting rare benthic macroinvertebrates taxa identification with one-class classification ( http://arxiv.org/abs/2002.10420v1 )

ライセンス: Link先を確認
Fahad Sohrab, Jenni Raitoharju(参考訳) 昆虫モニタリングは、急激な生態変化の結果を理解するために重要であるが、現在、分類学の特定には面倒な手作業が必要であり、効率的にスケールアップすることはできない。 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は、生体モニタリング量を大幅に増加させる有効な方法である。 しかし、分類学的多さは一般的に非常に不均衡であり、最も希少なクラスの訓練画像の量は、深層cnnでは単に少なすぎる。 その結果、希少なクラスからのサンプルは、しばしば完全に欠落し、検出は生物学的に重要である。 本稿では,訓練された深層cnnと1クラス分類器を組み合わせた希少種識別法を提案する。 一級分類モデルは伝統的により少ないサンプルで訓練されており、人間の検査のための稀なクラスに属するサンプルを示すメカニズムを提供することができる。 実験により,提案手法がタクサ識別タスクの部分的自動化に向けた動きを実際に支援できることを確認した。

Insect monitoring is crucial for understanding the consequences of rapid ecological changes, but taxa identification currently requires tedious manual expert work and cannot be scaled-up efficiently. Deep convolutional neural networks (CNNs), provide a viable way to significantly increase the biomonitoring volumes. However, taxa abundances are typically very imbalanced and the amounts of training images for the rarest classes are simply too low for deep CNNs. As a result, the samples from the rare classes are often completely missed, while detecting them has biological importance. In this paper, we propose combining the trained deep CNN with one-class classifiers to improve the rare species identification. One-class classification models are traditionally trained with much fewer samples and they can provide a mechanism to indicate samples potentially belonging to the rare classes for human inspection. Our experiments confirm that the proposed approach may indeed support moving towards partial automation of the taxa identification task.
翻訳日:2023-01-01 18:51:52 公開日:2020-02-12
# dtControl:コントローラ表現のための決定木学習アルゴリズム

dtControl: Decision Tree Learning Algorithms for Controller Representation ( http://arxiv.org/abs/2002.04991v1 )

ライセンス: Link先を確認
Pranav Ashok, Mathias Jackermeier, Pushpak Jagtap, Jan K\v{r}et\'insk\'y, Maximilian Weininger, Majid Zamani(参考訳) 決定木学習(Decision Tree Learning)は、機械学習アプリケーションでよく使われる一般的な分類手法である。 近年の研究により、決定木は確実に正しいコントローラを簡潔に表現できることが示された。 ルックアップテーブルやバイナリ決定ダイアグラムを使った表現と比較すると、決定木は小さく説明しやすい。 dtcontrolは、メモリレスコントローラを決定木として表現するための、拡張しやすいツールである。 構成制御器合成から生じる10のケーススタディに適用した各種決定木学習アルゴリズムの包括的評価を行った。 これらのアルゴリズムには、決定木学習に任意の線形二分法を使用するための2つの新しい手法と、決定木構築中にコントローラを決定する新しいアプローチが含まれる。 特に後者は極めて効率的であることが判明し、5つのケーススタディで1桁の数の決定ノードを持つ決定木が得られる。

Decision tree learning is a popular classification technique most commonly used in machine learning applications. Recent work has shown that decision trees can be used to represent provably-correct controllers concisely. Compared to representations using lookup tables or binary decision diagrams, decision trees are smaller and more explainable. We present dtControl, an easily extensible tool for representing memoryless controllers as decision trees. We give a comprehensive evaluation of various decision tree learning algorithms applied to 10 case studies arising out of correct-by-construction controller synthesis. These algorithms include two new techniques, one for using arbitrary linear binary classifiers in the decision tree learning, and one novel approach for determinizing controllers during the decision tree construction. In particular the latter turns out to be extremely efficient, yielding decision trees with a single-digit number of decision nodes on 5 of the case studies.
翻訳日:2023-01-01 18:51:35 公開日:2020-02-12
# 人工知能における深層学習の有効性

The Unreasonable Effectiveness of Deep Learning in Artificial Intelligence ( http://arxiv.org/abs/2002.04806v1 )

ライセンス: Link先を確認
Terrence J. Sejnowski(参考訳) ディープ・ラーニング・ネットワークは、高いパフォーマンスで音声認識、キャプション写真、言語間のテキスト翻訳を訓練されている。 深層学習ネットワークの現実世界問題への応用が普及しつつあるが、それがなぜこれほど効果的なのかについての我々の理解は不足している。 これらの経験的結果は、統計学や非凸最適化理論のサンプル複雑性によっては不可能である。 しかし、深層学習ネットワークの訓練と効果のパラドックスが研究され、高次元空間の幾何学における洞察が発見されている。 ディープラーニングの数学的理論は、それらがどのように機能するかを照らし、異なるネットワークアーキテクチャの強みと弱みを評価し、大きな改善をもたらす。 ディープラーニングは、人間がデジタルデバイスと通信する自然な方法を提供し、人工知能の構築の基礎となっている。 ディープラーニングは、大脳皮質のアーキテクチャと自律性と一般的な知性に関する洞察に触発され、計画と生存に不可欠な他の脳領域に見られるかもしれないが、これらの目標を達成するためには大きなブレークスルーが必要である。

Deep learning networks have been trained to recognize speech, caption photographs and translate text between languages at high levels of performance. Although applications of deep learning networks to real world problems have become ubiquitous, our understanding of why they are so effective is lacking. These empirical results should not be possible according to sample complexity in statistics and non-convex optimization theory. However, paradoxes in the training and effectiveness of deep learning networks are being investigated and insights are being found in the geometry of high-dimensional spaces. A mathematical theory of deep learning would illuminate how they function, allow us to assess the strengths and weaknesses of different network architectures and lead to major improvements. Deep learning has provided natural ways for humans to communicate with digital devices and is foundational for building artificial general intelligence. Deep learning was inspired by the architecture of the cerebral cortex and insights into autonomy and general intelligence may be found in other brain regions that are essential for planning and survival, but major breakthroughs will be needed to achieve these goals.
翻訳日:2023-01-01 18:45:34 公開日:2020-02-12
# GLUバリアントがトランスを改良

GLU Variants Improve Transformer ( http://arxiv.org/abs/2002.05202v1 )

ライセンス: Link先を確認
Noam Shazeer(参考訳) ゲート付き線形単位 (arxiv:1612.08083) は、2つの線型射影の成分的積であり、そのうちの1つは最初にシグモイド関数を通る。 GLU上の変分は、シグモイドの代わりに異なる非線形(あるいは線型)関数を用いて可能である。 これらの変異はTransformerのフィードフォワードサブレイヤ(arXiv:1706.03762)のシーケンス・ツー・シーケンスモデルでテストし、典型的にはReLUやGELUのアクティベーションよりも品質が向上することを示す。

Gated Linear Units (arXiv:1612.08083) consist of the component-wise product of two linear projections, one of which is first passed through a sigmoid function. Variations on GLU are possible, using different nonlinear (or even linear) functions in place of sigmoid. We test these variants in the feed-forward sublayers of the Transformer (arXiv:1706.03762) sequence-to-sequence model, and find that some of them yield quality improvements over the typically-used ReLU or GELU activations.
翻訳日:2023-01-01 18:45:16 公開日:2020-02-12
# プライバシーポリシーカバレッジ分析のためのシーケンス分類モデルの比較検討

A Comparative Study of Sequence Classification Models for Privacy Policy Coverage Analysis ( http://arxiv.org/abs/2003.04972v1 )

ライセンス: Link先を確認
Zachary Lindner(参考訳) プライバシーポリシーは、ウェブサイトがユーザーのデータを収集、使用、配布する方法を記述する法的文書である。 残念なことに、このような文書は複雑すぎ、法的な用語で満たされていることが多いため、ユーザが正確に何が収集されているのか、なぜなのかを十分に理解することは困難である。 この問題に対する当社のソリューションは、さまざまな古典的な機械学習とディープラーニング技術を使用して、Webサイトのプライバシポリシのカバレッジ分析をユーザに提供することです。 ウェブサイトのプライバシーポリシーが与えられたら、分類器は論理セグメントごとに関連するデータプラクティスを特定する。 これらのデータプラクティス/ラベルは、OPP-115コーパスから直接取得される。 例えば、データ・プラクティスの"データ・リテンション"は、ウェブサイトがユーザーの情報をいつまで保存するかを示す。 カバレッジ分析により、ユーザーは特定の関心のあるデータプラクティスに対応するセクションを識別し、可能なデータプラクティスの10つのうち何つがカバーされているかを決定することができる。

Privacy policies are legal documents that describe how a website will collect, use, and distribute a user's data. Unfortunately, such documents are often overly complicated and filled with legal jargon; making it difficult for users to fully grasp what exactly is being collected and why. Our solution to this problem is to provide users with a coverage analysis of a given website's privacy policy using a wide range of classical machine learning and deep learning techniques. Given a website's privacy policy, the classifier identifies the associated data practice for each logical segment. These data practices/labels are taken directly from the OPP-115 corpus. For example, the data practice "Data Retention" refers to how long a website stores a user's information. The coverage analysis allows users to determine how many of the ten possible data practices are covered, along with identifying the sections that correspond to the data practices of particular interest.
翻訳日:2023-01-01 18:44:41 公開日:2020-02-12
# ウォームスタートシーケンシャル選択のための最適多重停止規則

Optimal Multiple Stopping Rule for Warm-Starting Sequential Selection ( http://arxiv.org/abs/2002.05160v1 )

ライセンス: Link先を確認
Mathilde Fekom, Nicolas Vayatis, Argyris Kalogeratos(参考訳) 本稿では,標準オンライン選択問題の変種として,動的プログラミングを用いて開発したウォームスタート動的しきい値アルゴリズムを提案する。 この問題は、仕事のポジションが自由であるか、プロセスの開始時に既に占められているかのいずれかである。 選択プロセスを通じて、意思決定者は、新たな候補を次々とインタビューし、それぞれの品質スコアを明らかにする。 その情報に基づいて、彼女は即時かつ不可避な決定を行うことで、各仕事を最大1回割り当てることができる。 動的プログラミングアルゴリズムのクラスのハード要件を緩和し、候補のスコアが引き出される分布を完全に把握し、意思決定者が候補にインタビューしながら下記のスコア分布を逐次学習できる部分的および非情報的ケースの拡張を提示する。

In this paper we present the Warm-starting Dynamic Thresholding algorithm, developed using dynamic programming, for a variant of the standard online selection problem. The problem allows job positions to be either free or already occupied at the beginning of the process. Throughout the selection process, the decision maker interviews one after the other the new candidates and reveals a quality score for each of them. Based on that information, she can (re)assign each job at most once by taking immediate and irrevocable decisions. We relax the hard requirement of the class of dynamic programming algorithms to perfectly know the distribution from which the scores of candidates are drawn, by presenting extensions for the partial and no-information cases, in which the decision maker can learn the underlying score distribution sequentially while interviewing candidates.
翻訳日:2023-01-01 18:43:04 公開日:2020-02-12
# シナジスティックな行動を促進する固有の動機付け

Intrinsic Motivation for Encouraging Synergistic Behavior ( http://arxiv.org/abs/2002.05189v1 )

ライセンス: Link先を確認
Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, Abhinav Gupta(参考訳) スパース・リワード・相乗的タスク(sparse-reward synergistic tasks)における強化学習のための探索バイアスとしての本質的動機づけの役割について検討した。 私たちの重要な考え方は、シナジスティックなタスクにおける本質的な動機づけのための優れた指針は、エージェントが単独で行動した場合に達成できない方法で世界に影響を与える行動を取ることです。 そこで本研究では,各エージェントに対する予測効果の合成によって予測できない作用を,各エージェントに対して与えるインセンティブについて提案する。 本稿では,この概念の2つのインスタンス化について検討する。一つは遭遇した真の状態に基づくもので,もう一つはポリシーと並行して訓練された力学モデルに基づくものである。 前者は単純であるが、後者は行動に関して分析的に微分可能であるという利点がある。 ロボットのバイマニュアル操作とマルチエージェント動作タスクにおける,スパース報酬によるアプローチの有効性を検証する。 1)軽微な報酬と報酬のみによる訓練 2) 主観的動機づけの典型的サプライズに基づく定式化は, 相乗的行動に偏らない。 ビデオはプロジェクトのWebページ(https://sites.google.com/view/iclr2020-synergistic)で公開されている。

We study the role of intrinsic motivation as an exploration bias for reinforcement learning in sparse-reward synergistic tasks, which are tasks where multiple agents must work together to achieve a goal they could not individually. Our key idea is that a good guiding principle for intrinsic motivation in synergistic tasks is to take actions which affect the world in ways that would not be achieved if the agents were acting on their own. Thus, we propose to incentivize agents to take (joint) actions whose effects cannot be predicted via a composition of the predicted effect for each individual agent. We study two instantiations of this idea, one based on the true states encountered, and another based on a dynamics model trained concurrently with the policy. While the former is simpler, the latter has the benefit of being analytically differentiable with respect to the action taken. We validate our approach in robotic bimanual manipulation and multi-agent locomotion tasks with sparse rewards; we find that our approach yields more efficient learning than both 1) training with only the sparse reward and 2) using the typical surprise-based formulation of intrinsic motivation, which does not bias toward synergistic behavior. Videos are available on the project webpage: https://sites.google.com/view/iclr2020-synergistic.
翻訳日:2023-01-01 18:42:51 公開日:2020-02-12