このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200227となっている論文です。

PDF登録状況(公開日: 20200227)

TitleAuthorsAbstract論文公表日・翻訳日
# 周期駆動スピン鎖におけるエルゴード局在接合

Ergodic-localized junctions in a periodically-driven spin chain ( http://arxiv.org/abs/2001.09169v3 )

ライセンス: Link先を確認
Chen Zha, V. M. Bastidas, Ming Gong, Yulin Wu, Hao Rong, Rui Yang, Yangsen Ye, Shaowei Li, Qingling Zhu, Shiyu Wang, Youwei Zhao, Futian Liang, Jin Lin, Yu Xu, Cheng-Zhi Peng, Jorg Schmiedmayer, Kae Nemoto, Hui Deng, W. J. Munro, Xiaobo Zhu and Jian-Wei Pan(参考訳) 12個の超伝導量子ビットの配列を用いたエルゴディック局在接合のアナログシミュレーションを報告する。 シミュレーションを行うために、エルゴード系を表す駆動領域と、乱れの影響で局所化された領域の2つの領域に分割した超伝導量子プロセッサを作製した。 局所化状態と非局在化状態の重複により、小さな障害に対して近接効果があり、局所化が破壊される。 この現象を実験的に解明するために,マイクロ波励起を駆動領域に準備し,そのダイナミクスを探究することで,乱れた領域をどの程度深く通過できるかを探究する。 さらに,50以上の障害の認識をアンサンブル平均で行い,その近接効果が明らかとなった。 我々の研究は、凝縮物質物理学と物質科学に応用した駆動非秩序系の量子シミュレータを構築するための新しい道を開く

We report the analogue simulation of an ergodiclocalized junction by using an array of 12 coupled superconducting qubits. To perform the simulation, we fabricated a superconducting quantum processor that is divided into two domains: a driven domain representing an ergodic system, while the second is localized under the effect of disorder. Due to the overlap between localized and delocalized states, for small disorder there is a proximity effect and localization is destroyed. To experimentally investigate this, we prepare a microwave excitation in the driven domain and explore how deep it can penetrate the disordered region by probing its dynamics. Furthermore, we performed an ensemble average over 50 realizations of disorder, which clearly shows the proximity effect. Our work opens a new avenue to build quantum simulators of driven-disordered systems with applications in condensed matter physics and material science
翻訳日:2023-06-06 02:55:57 公開日:2020-02-27
# 散逸環境下における量子光計測における非マルコフ効果

Non-Markovian effect on quantum optical metrology under dissipative environment ( http://arxiv.org/abs/2002.03378v3 )

ライセンス: Link先を確認
Kai Bai, Hong-Gang Luo, Wenxian Zhang, Meng Xiao(参考訳) 量子気象学は量子効果を利用して物理量の高精度な測定を行う。 しかし、ユビキタスデコヒーレンスはその適用を妨げる。 近年,非マルコフ効果は局所散逸環境下での量子光計測に有効であることが示されている。 しかし、メカニズムはいまだに曖昧である。 ここで、結合状態を形成することが、絡み合ったコヒーレント状態の量子フィッシャー情報を介して拡散的環境から量子性を保護できる理由を明らかにする。 長エンコーディング時間条件における量子フィッシャー情報の正確な解析式が導出され、平均光子数が小さい場合、精度のダイナミクスは理想のケースに漸近的に到達できることが分かる。 一方、スケーリングは、平均光子数が増加するにつれて、弱いハイゼンベルク極限から下位古典限界への移行を示す。 本研究は,非マルコフ効果を利用して雑音の存在下での超感度測定を実現するためのレシピを提供する。

Quantum metrology utilizes quantum effects to reach higher precision measurements of physical quantities compared with their classical counterparts. However the ubiquitous decoherence obstructs its application. Recently, non-Markovian effects are shown to be effective in performing quantum optical metrology under locally dissipative environments\cite{PhysRevLett.123.040402}. However, the mechanism is still rather hazy. Here, we uncover the reason why forming a bound state can protect the quantumness against a dissipative ambient via the quantum Fisher information of entangled coherent states. An exact analytical expression of the quantum Fisher information in the long-encoding-time condition is derived, which reveals that the dynamics of precision can asymptotically reach the ideal-case-promised one easily when the average photon number is small. Meanwhile, the scaling exhibits a transition from the weak Heisenberg limit to the sub-classical limit with the increase of average photon number. Our work provides a recipe to realize ultrasensitive measurements in the presence of noise by utilizing non-Markovian effects.
翻訳日:2023-06-04 03:48:31 公開日:2020-02-27
# 単一希土類電子スピンによる個々の核スピンのセンシング

Sensing individual nuclear spins with a single rare-earth electron spin ( http://arxiv.org/abs/2002.09357v2 )

ライセンス: Link先を確認
Thomas Kornher, Da-Wu Xiao, Kangwei Xia, Fiammetta Sardi, Nan Zhao, Roman Kolesov, J\"org Wrachtrup(参考訳) 結晶ホストにおける希土類関連電子スピンは、テレコムバンド光子と長寿命スピン量子ビットとの間の直接のインターフェースを提供することができるため、ユニークな物質系である。 特に、その環境における核スピンと相互作用する固体中の光学的にアクセス可能な電子スピンは、貴重な量子記憶資源である。 近隣の個々の核スピンの検出は、ダイヤモンドのNV中心や炭化ケイ素のケイ素空孔のような希薄な核スピン浴のホストシステムに限られており、通常は高密度の核スピン浴を展示するホスト材料において希少なアースにとってオープンな課題であった。 ここで、yttriumオルソシリケートホストにおける単一のce$^{3+}$ イオンの電子スピン分光法を示し、コヒーレンス時間は$t_{2}=124\,\mu$sである。 このコヒーレント相互作用時間は、約$^{89}$yの核スピン浴から近位$^{89}$yの核スピンを分離するのに十分長い。 さらに、約5%の量を持つホスト材料に固有の、近傍の1つの$^{29}$si核スピンを検出できる。 この研究は、結合した環境核スピンに基づく希土類イオン系における量子メモリ応用への扉を開く。

Rare-earth related electron spins in crystalline hosts are unique material systems, as they can potentially provide a direct interface between telecom band photons and long-lived spin quantum bits. Specifically, their optically accessible electron spins in solids interacting with nuclear spins in their environment are valuable quantum memory resources. Detection of nearby individual nuclear spins, so far exclusively shown for few dilute nuclear spin bath host systems such as the NV center in diamond or the silicon vacancy in silicon carbide, remained an open challenge for rare-earths in their host materials, which typically exhibit dense nuclear spin baths. Here, we present the electron spin spectroscopy of single Ce$^{3+}$ ions in a yttrium orthosilicate host, featuring a coherence time of $T_{2}=124\,\mu$s. This coherent interaction time is sufficiently long to isolate proximal $^{89}$Y nuclear spins from the nuclear spin bath of $^{89}$Y. Furthermore, it allows for the detection of a single nearby $^{29}$Si nuclear spin, native to the host material with ~5% abundance. This study opens the door to quantum memory applications in rare-earth ion related systems based on coupled environmental nuclear spins, potentially useful for quantum error correction schemes.
翻訳日:2023-06-02 11:39:37 公開日:2020-02-27
# 機械振動子による光波・光・マグノンの絡み合いの発生

Generating lightwave-photon-and-magnon entanglement with a mechanical oscillator as a "cold reservoir" ( http://arxiv.org/abs/2002.10877v2 )

ライセンス: Link先を確認
Zhi-Bo Yang, Jin-Song Liu, Hua Jin, Qing-Hao Zhu, Hong-Yu Liu, Ai-Dong Zhu, and Rong-Can Yang(参考訳) 本稿では、補助マイクロ波空洞を断熱的に除去し、非局在化ボゴリューボフモードを効果的にレーザー冷却することにより、ハイブリッド光子-マグノン系における定常光波-光子-磁気交絡を実現する手法を提案する。 システムはマグノン、光波、マイクロ波光子、フォノンから構成される。 マグノンは、巨視的強磁性体における多数のスピンの集団運動によって具現化される。 メカニカル共振器に付随する赤と青のサイドバンドにおいて、マノンと光子の絡み合う相互作用を実現するために、光学キャビティとマノンを駆動する。 特に、効果結合の相対比を最適化することは、単に大きさを増大させるのではなく、強い絡み合いを達成するために不可欠である。 典型的な散逸的絡み合いスキームとは異なり、この結果はリンブラッドマスター方程式を用いて絡み合う貯水池の効果を扱い、説明できない。

We present a scheme to implement a steady lightwave-photon-and-magnon entanglement in a hybrid photon-magnon system by adiabatically eliminating the auxiliary microwave cavity and effectively laser cooling a delocalized Bogoliubov mode. The system consists of magnons, lightwave and microwave photons, and phonons. The magnons are embodied by a collective motion of a large number of spins in a macroscopic ferrimagnet. To achieve an entangling interaction between magnons and lightwave photons, we drive optical cavity and magnon at the red and blue sideband associated with the mechanical resonator. In particular, optimizing the relative ratio of effect couplings, rather than simply increasing their magnitudes, is essential for achieving strong entanglement. Unlike typical dissipative entanglement schemes, our results cannot be described by treating the effects of the entangling reservoir via a Linblad master equation.
翻訳日:2023-06-02 07:15:27 公開日:2020-02-27
# 1次元双極子気体のトポロジカルポンピングによる量子多体傷の創出

Creating quantum many-body scars through topological pumping of a 1D dipolar gas ( http://arxiv.org/abs/2002.10475v2 )

ライセンス: Link先を確認
Wil Kao, Kuan-Yu Li, Kuan-Yu Lin, Sarang Gopalakrishnan, and Benjamin L. Lev(参考訳) 量子多体傷、熱化を回避した相関量子カオス系の長寿命励起状態は、非常に基本的かつ技術的な関心事である。 我々は,超トンク・ギラルドー気体の崩壊・熱化に対する安定化と反発的長距離双極子相互作用による安定化により,ボソニック1次元ジスプロシウムガス中の新たなスカー状態を生成する。 剛性およびエネルギー密度測定により, 接触相互作用強度によらず動的に安定であることが示された。 これにより、弱い反応から強い反発、そして強い誘惑、そして最終的に弱い反応へと接触相互作用を循環させることができる。 このサイクルは(量子ホロノミーによる)エネルギー空間のトポロジカルポンプであることを示す。 このサイクルを反復することで、探索されていないトポロジカルポンプ法が量子多体散乱状態の階層を形成する。

Quantum many-body scars, long-lived excited states of correlated quantum chaotic systems that evade thermalization, are of great fundamental and technological interest. We create novel scar states in a bosonic 1D quantum gas of dysprosium by stabilizing a super-Tonks-Girardeau gas against collapse and thermalization with repulsive long-range dipolar interactions. Stiffness and energy density measurements show that the system is dynamically stable regardless of contact interaction strength. This enables us to cycle contact interactions from weakly to strongly repulsive, then strongly attractive, and finally weakly attractive. We show that this cycle is an energy-space topological pump (due to a quantum holonomy). Iterating this cycle offers an unexplored topological pumping method to create a hierarchy of quantum many-body scar states.
翻訳日:2023-06-02 05:07:07 公開日:2020-02-27
# 三次元カイラルトポロジカル絶縁体の量子シミュレーション

Quantum simulation for three-dimensional chiral topological insulator ( http://arxiv.org/abs/2002.11352v2 )

ライセンス: Link先を確認
Wentao Ji, Lin Zhang, Mengqi Wang, Long Zhang, Yuhang Guo, Zihua Chai, Xing Rong, Fazhan Shi, Xiong-Jun Liu, Ya Wang, and Jiangfeng Du(参考訳) 量子シミュレーションは、最先端技術として、自然限界を超える位相量子相を探索する強力な方法を提供する。 それでも、以前に実現されなかった3次元キラルトポロジカル絶縁体を量子クエンチで証明し、バルクおよび表面トポロジカル物理学の完全な研究を行う。 第一に、運動量空間における動的バルク面対応が観察され、3次元位相のバルク位相が実空間におけるバルク境界対応と同値であるバンド反転面(BISs)と呼ばれる2次元運動量超曲面に現れる非自明なクエンチダイナミクスと一意に一致することを示す。 さらに, 3次元カイラル相の対称性保護は, カイラル対称性の保存時(破砕時)に完全(破砕時)のトポロジーを示すBISの動的スピンテクスチャを測定することによって明らかにされる。 最後にトポロジカル電荷を測定し,バルクトポロジーを直接特徴付け,クエンチを深層から浅層に変化させる際の動的トポロジカル遷移を同定する。 この研究は、トポロジカル量子相の完全な研究に向けた新しい量子シミュレーションの道を開く。

Quantum simulation, as a state-of-art technique, provides the powerful way to explore topological quantum phases beyond natural limits. Nevertheless, a previously-not-realized three-dimensional (3D) chiral topological insulator, and demonstrate by quantum quenches a complete study of both the bulk and surface topological physics. First, a dynamical bulk-surface correspondence in momentum space is observed, showing that the bulk topology of the 3D phase uniquely corresponds to the nontrivial quench dynamics emerging on 2D momentum hypersurfaces called band inversion surfaces (BISs), equivalent to the bulk-boundary correspondence in real space. Further, the symmetry protection of the 3D chiral phase is uncovered by measuring dynamical spin textures on BISs, which exhibit perfect (broken) topology when the chiral symmetry is preserved (broken). Finally we measure the topological charges to characterize directly the bulk topology, and identify an emergent dynamical topological transition when varying the quenches from deep to shallow regimes. This work opens a new avenue of quantum simulation towards for the complete study of topological quantum phases.
翻訳日:2023-06-01 21:25:18 公開日:2020-02-27
# 一般環境に結合したオープンシステムの速度制限

Speed limit for open systems coupled to general environments ( http://arxiv.org/abs/2002.11991v1 )

ライセンス: Link先を確認
Naoto Shiraishi and Keiji Saito(参考訳) 本研究では,任意の結合相互作用を持つ一般環境に結合した量子系と古典系の状態変換速度の制限について検討する。 オープン量子システムにおけるこの速度制限の不等式において, マンデルシュタム-タム型速度制限が存在し, エネルギーゆらぎが依然として重要な役割を担っていることを示す。 環境への結合に加えて、ターゲットシステムのエネルギー変動が不平等の鍵となる。 また、オープンシステムの速度制限の古典的なバージョンも提示する。 提案する速度極限式の適用可能性として, 量子サイクリックエンジンの状態変化の基本的な限界と, 孤立量子系の熱化現象に必要な平衡時間について考察する。

In this study, we investigate the bound on the speed of state transformation in the quantum and classical systems that are coupled to general environment with arbitrary coupling interactions. We show that a Mandelstam-Tamm type speed limit exists and energy fluctuation still plays a crucial role in this speed limit inequality for open quantum systems. The energy fluctuation of the target system in addition to the coupling to the environment is key in the inequality. We also present the classical version of the speed limit for open systems. As potential applications of the proposed speed limit expression, we discuss the fundamental limitation of the state change in quantum cyclic engines and the equilibriation time required for the thermalization phenomena of isolated quantum systems.
翻訳日:2023-06-01 12:47:58 公開日:2020-02-27
# k$-MEコンカレンス、負性、多項式不変量、および三角形の関係

Relations among $k$-ME concurrence, negativity, polynomial invariants, and tangle ( http://arxiv.org/abs/2002.11902v1 )

ライセンス: Link先を確認
Limei Zhang, Ting Gao, Fengli Yan(参考訳) 多部絡み(ME)の尺度としての$k$-ME収束は、任意の次元におけるすべての$k$-非分離状態を検出し、絡み合い測度の多くの重要な性質を満たす。 負性(英: Negativity)は、単純な計算可能な双部エンタングルメント測度である。 invariant と tangle は量子状態の性質を研究するのに有用なツールである。 本稿では、主に$k$-MEコンカレンス、負性、多項式不変量、およびタングルの内部関係について検討する。 k$-MEコンカレンスと負性率、および$k$-MEコンカレンスと多項式不変量の間の強いリンクが導出される。 我々は、すべての$n$-qubit状態に対する$k$-ME$k$=$n$)コンカレンスと負性の間の定量的な関係を求め、$n$-qubit GHZ状態とホワイトノイズの混合に対して$n$-MEコンカレンスを正確に値付けし、$n$-MEコンカレンスと$n$-qubit W状態との接続を導出する。 さらに、$3-qubitの純粋な状態であれば、$k$-meのコンカージェンスが$k$=2です。 3) 負性、三角形、多項式不変量に関連するが、$4$-qubit の場合、$k$-ME コンカレンス ($k$=2 の場合) の関係が表れている。 4)および負性、および$k$-MEコンカレンスと多項式不変量も存在する。 我々の研究は、k$-me共起とネガティビティ、およびk$-me共起と多項式不変量の間の明確な定量的な関係を提供する。

The $k$-ME concurrence as a measure of multipartite entanglement (ME) unambiguously detects all $k$-nonseparable states in arbitrary dimensions, and satisfies many important properties of an entanglement measure. Negativity is a simple computable bipartite entanglement measure. Invariant and tangle are useful tools to study the properties of the quantum states. In this paper we mainly investigate the internal relations among the $k$-ME concurrence, negativity, polynomial invariants, and tangle. Strong links between $k$-ME concurrence and negativity as well as between $k$-ME concurrence and polynomial invariants are derived. We obtain the quantitative relation between $k$-ME ($k$=$n$) concurrence and negativity for all $n$-qubit states, give a exact value of the $n$-ME concurrence for the mixture of $n$-qubit GHZ states and white noise, and derive an connection between $k$-ME concurrence and tangle for $n$-qubit W state. Moreover, we find that for any $3$-qubit pure state the $k$-ME concurrence ($k$=2, 3) is related to negativity, tangle and polynomial invariants, while for $4$-qubit states the relations between $k$-ME concurrence (for $k$=2, 4) and negativity, and between $k$-ME concurrence and polynomial invariants also exist. Our work provides clear quantitative connections between $k$-ME concurrence and negativity, and between $k$-ME concurrence and polynomial invariants.
翻訳日:2023-06-01 12:47:16 公開日:2020-02-27
# Wigner-Yanaseスキュー情報に基づく観測物と水路の密接な不確実性関係

Tighter uncertainty relations based on Wigner-Yanase skew information for observables and channels ( http://arxiv.org/abs/2002.11884v1 )

ライセンス: Link先を確認
Limei Zhang, Ting Gao, Fengli Yan(参考訳) 不確実性原理は量子力学の基礎である。 これは微小粒子の運動の基本法則を反映している。 Wigner-Yanaseスキュー情報は、量子不確実性の尺度として、状態と可観測物の固有の特徴を特徴づけるために用いられる。 本稿では,スキュー情報に基づく量子力学的観測量と量子チャネルの和の不確かさ関係について主に検討する。 我々は、2つの非互換可観測性に対して飽和(等式として保持される)であるn$オブザーバブルについて、ウィグナー・ヤナススキュー情報の観点から新たな不確実性関係を確立する。 また、スキュー情報を用いて任意の有限n$量子チャネルに対する2つの不確かさ関係を示す。 我々の不確実性の関係は、既存のものよりも狭い範囲を持つ。 詳細な例がある。

Uncertainty principle is the basis of quantum mechanics. It reflects the basic law of the movement of microscopic particles. Wigner-Yanase skew information, as a measure of quantum uncertainties, is used to characterize the intrinsic features of the state and the observable. In this paper, we mainly investigate the sum uncertainty relations for both quantum mechanical observables and quantum channels based on skew information. We establish a new uncertainty relation in terms of Wigner-Yanase skew information for $n$ observables, which is saturated (thus it holds as equality) for two incompatible observables. We also present two uncertainty relations for arbitrary finite $N$ quantum channels by using skew information. Our uncertainty relations have tighter lower bounds than the existing ones. Detailed examples are provided.
翻訳日:2023-06-01 12:46:39 公開日:2020-02-27
# 空間変調電位を有するグラフェンのジッテルベウグング効果

Zitterbewegung Effect in Graphene with Spacially Modulated Potential ( http://arxiv.org/abs/2002.12179v1 )

ライセンス: Link先を確認
Abdellatif Kamal, Ahmed Jellal(参考訳) zitterbewegung (zb) 効果は、元のディラック点 (odp) と余剰ディラック点 (edp) 付近に空間的に変調されたポテンシャルを持つグラフェンで研究されている。 我々の計算は、大きなZB振動を得るためには、ゼロエネルギーのEDPに対して$\theta_0=0$、有限エネルギーで$\varepsilon=m\pi$$$m$のODPに対して$\theta_0=\pi/2$であることを示す。 ガウス波パケットの周期ポテンシャルのパラメータ (q_2, \mathbb{V}$) と初期運動量 (\kappa_0, \theta_0$) を変化させることで、ZB振動の周波数は EDP のどの種類が生成され、振幅が数百のアングストロームに達するが、その減衰は非常に遅くなる。 周波数のさらなる分析は、我々のシステムにおけるZB効果を実験的に実現する可能性を示している。

The Zitterbewegung (ZB) effect is investigated in graphene with spacially modulated potential near the original Dirac point (ODP) and extra Dirac points (EDPs). Our calculations show that to get the large ZB oscillations, the wave packet center must be at the angle $\theta_0=0$ for EDPs located at zero-energy, or $\theta_0=\pi/2$ for both ODP and EDPs at finite energy $\varepsilon=m\pi$ ($m$ integer). By varying the parameters ($q_2, \mathbb{V}$) of the periodic potential and the initial momentum ($\kappa_0, \theta_0$) of Gaussian wave packet, it is found that the frequency of the ZB oscillations is in the range $[10^{7}~\text{Hz}, 10^{13}~\text{Hz}$] depending on what type of EDP is generated and the amplitude reaches hundreds of angstroms but their attenuation becomes very slow. More analysis of the frequency shows the possibilities in experimentally realizing the ZB effect in our system.
翻訳日:2023-06-01 12:37:47 公開日:2020-02-27
# ベル実験の量子力学的記述は局所性を仮定する

Quantum Mechanical description of Bell's experiment assumes Locality ( http://arxiv.org/abs/2002.12153v1 )

ライセンス: Link先を確認
Alejandro Hnilo(参考訳) ここで、フォン・ノイマンの計測理論のカノンによるベルの実験の最も単純な記述は、局所性の(量子力学-言語等価な)条件を明示的に仮定していることが示されている。 この結果は、非局所性は古典的隠れ変数理論の枠組みの中での実験を記述するのに必要であるが、量子力学の枠組みでそれを記述することは不要であることを示す最近の論文と相補的である。 これらの結果と関連する結果をまとめると、量子力学の枠組みの中で、非局所的効果の存在を信じる理由は全く存在しないと結論づけられた。 基本的重要性に加えて、この結論は量子認証およびデバイス非依存ランダムネス生成の分野や、絡み合った状態を用いた量子鍵分配スキームのセキュリティに実践的な影響を及ぼす。

Here it is shown that the simplest description of Bell's experiment according to the canon of von Neumann's theory of measurement explicitly assumes the (Quantum Mechanics-language equivalent of the classical) condition of Locality. This result is complementary to a recently published one demonstrating that non-Locality is necessary to describe said experiment within the framework of classical hidden variables theories, but that it is unnecessary to describe it within the framework of Quantum Mechanics. Summing up these and other related results, it is concluded that, within the framework of Quantum Mechanics, there is absolutely no reason to believe in the existence of non-Local effects. In addition to its foundational significance, this conclusion has practical impact in the fields of quantum-certified and device-independent randomness generation and on the security of Quantum Key Distribution schemes using entangled states.
翻訳日:2023-06-01 12:37:01 公開日:2020-02-27
# 超伝導プロセッサを用いたqed回路の創発光子対伝播

Emergent photon pair propagation in circuit QED with superconducting processors ( http://arxiv.org/abs/2002.12405v1 )

ライセンス: Link先を確認
Sayan Lahiri, Suman Mondal, Kanhaiya Pandey and Tapan Mishra(参考訳) 本稿では,3レベル超伝導回路のアレイにおける光子対伝播を実現する手法を提案する。 1次元と2次元のマイクロ波伝送路を介して強い非調和性を持つ実験可能な3段階人工原子を仮定し、システムの回路量子電磁力学(qed)を解析した。 異なるレベル間の結合比の適切な選択のために、単一光子伝播が抑制され、光子対の伝播が現れることを明示的に示す。 この光子対の伝播は、系に付随する偏光子の対超流動に繋がる。 真空とモット絶縁体の間に挟まれた対の超流動相を示すポラリトン量子物質の全相図を、強いカップリング状態において2つに等しいポラリトン密度に対応するモット絶縁状態とで計算する。

We propose a method to achieve photon pair propagation in an array of three-level superconducting circuits. Assuming experimentally accessible three-level artificial atoms with strong anharmonicity coupled via microwave transmission lines in both one and two dimensions we analyze the circuit Quantum Electrodynamics(QED) of the system. We explicitly show that for a suitable choice of the coupling ratio between different levels, the single photon propagation is suppressed and the propagation of photon pairs emerges. This propagation of photon pairs leads to the pair superfluid of polaritons associated to the system. We compute the complete phase diagram of the polariton quantum matter revealing the pair superfluid phase which is sandwiched between the vacuum and the Mott insulator state corresponding to the polariton density equal to two in the strong coupling regime.
翻訳日:2023-06-01 12:30:11 公開日:2020-02-27
# unmetによるモバイル翻訳aiの必要性と機会

Unmet Needs and Opportunities for Mobile Translation AI ( http://arxiv.org/abs/2002.12387v1 )

ライセンス: Link先を確認
Daniel J. Liebling, Michal Lahav, Abigail Evans, Aaron Donsbach, Jess Holbrook, Boris Smus, Lindsey Boran(参考訳) 翻訳アプリやデバイスは、海外旅行中に支援を提供する文脈でしばしば提示される。 しかし、言語間コミュニケーションの必要性のスペクトルはずっと広い。 これらのニーズを調査するために,(1)米国を拠点とした旅行者,(2)インドからの移民労働者,(3)米国からの移民の3つの人口について調査を行った。 旅行者の認識と実際の翻訳ニーズを2つの移民コミュニティのそれと比較した。 後者の2つは、言語能力が低く、日常生活をナビゲートするために必要な翻訳能力が最も高い。 しかし、現在のモバイル翻訳アプリはこれらのニーズを満たしていない。 本研究は,モバイル翻訳ツールの利用状況と限界に関する新たな知見を提供する。 最後に,アプリケーションのニーズを満たすための設計上の意味について述べる。

Translation apps and devices are often presented in the context of providing assistance while traveling abroad. However, the spectrum of needs for cross-language communication is much wider. To investigate these needs, we conducted three studies with populations spanning socioeconomic status and geographic regions: (1) United States-based travelers, (2) migrant workers in India, and (3) immigrant populations in the United States. We compare frequent travelers' perception and actual translation needs with those of the two migrant communities. The latter two, with low language proficiency, have the greatest translation needs to navigate their daily lives. However, current mobile translation apps do not meet these needs. Our findings provide new insights on the usage practices and limitations of mobile translation tools. Finally, we propose design implications to help apps better serve these unmet needs.
翻訳日:2023-06-01 12:29:01 公開日:2020-02-27
# 計測によるランダムユニタリ回路の自己組織的誤り補正

Self-Organized Error Correction in Random Unitary Circuits with Measurement ( http://arxiv.org/abs/2002.12385v1 )

ライセンス: Link先を確認
Ruihua Fan, Sagar Vijay, Ashvin Vishwanath and Yi-Zhuang You(参考訳) ランダム測定は、測定の強度がしきい値を超えると、カオス的ユニタリダイナミクスの下で進化する拡張量子系の相転移を引き起こすことが示されている。 このしきい値以下では、サブサーマル体積の法則の絡み合いを持つ定常状態が現れ、測定値の不連続作用に抵抗し、量子誤り訂正符号への接続を示唆する。 ここで、ボリュームローの絡み合いエントロピーに対する普遍的かつサブリーディングな対数貢献を同定することで、これらの概念を定量化する: $s^{(2)}(a)=\kappa l_a+\frac{3}{2}\log l_a$ であり、これはシステムの内部領域 $a$ と他の部分とのqudit間の相互情報に束縛される。 具体的には、地域の境界からの距離が$x$である相互情報である$I(\{x\}:\bar{A})\propto x^{-3/2}$の力の法則が崩壊することを見出した。 これらの結果は、エンタングルメントダイナミクスをイジングモデルの想像上の時間発展にマッピングすることで得られる。 最後に、誤差補正の観点から、ボリュームロー状態は量子誤り訂正符号におけるページ状態の符号化であり、臨界測定強度$p_{c}$をqudit次元$d$:$p_{c}\log[(d^{2}-1)({p_{c}^{-1})]\le \log[(1-p_{c})d]$の関数として得ると仮定する。 境界は$p_c(d\rightarrow\infty)=1/2$で飽和し、量子ビット遷移に対する合理的な推定を与える:$p_c(d=2) \le 0.1893$。

Random measurements have been shown to induce a phase transition in an extended quantum system evolving under chaotic unitary dynamics, when the strength of measurements exceeds a threshold value. Below this threshold, a steady state with a sub-thermal volume law entanglement emerges, which is resistant to the disentangling action of measurements, suggesting a connection to quantum error-correcting codes. Here we quantify these notions by identifying a universal, subleading logarithmic contribution to the volume law entanglement entropy: $S^{(2)}(A)=\kappa L_A+\frac{3}{2}\log L_A$ which bounds the mutual information between a qudit inside region $A$ and the rest of the system. Specifically, we find the power law decay of the mutual information $I(\{x\}:\bar{A})\propto x^{-3/2}$ with distance $x$ from the region's boundary, which implies that measuring a qudit deep inside $A$ will have negligible effect on the entanglement of $A$. We obtain these results by mapping the entanglement dynamics to the imaginary time evolution of an Ising model, to which we can apply field-theoretic and matrix-product-state techniques. Finally, exploiting the error-correction viewpoint, we assume that the volume-law state is an encoding of a Page state in a quantum error-correcting code to obtain a bound on the critical measurement strength $p_{c}$ as a function of the qudit dimension $d$: $p_{c}\log[(d^{2}-1)({p_{c}^{-1}-1})]\le \log[(1-p_{c})d]$. The bound is saturated at $p_c(d\rightarrow\infty)=1/2$ and provides a reasonable estimate for the qubit transition: $p_c(d=2) \le 0.1893$.
翻訳日:2023-06-01 12:28:50 公開日:2020-02-27
# 浅い回路出力のエントロピーの推定は難しい

Estimating the entropy of shallow circuit outputs is hard ( http://arxiv.org/abs/2002.12814v1 )

ライセンス: Link先を確認
Alexandru Gheorghiu, Matty J. Hoban(参考訳) シャノンエントロピーを推定する決定問題版はエントロピー差分問題 (ED) であり、2つの回路の記述を与えられた場合、どの回路が一様ランダムな入力に作用するかを決定する。 量子回路(qed)と類似する問題は、固定入力状態および出力の一部をトレースした後に、von neumannエントロピーが大きい状態を生成する回路を決定することである。 可算な複雑性理論の仮定に基づき、これらの問題は多項式時間量子計算では難解であると考えられている。 本稿では,入力回路がそれぞれ対数深さと定数深さを持つ場合,これらの問題の硬さについて検討する。 オラクルとは対照的に、これらの問題は多項式サイズの回路と同等に難しいものではないことを示す。 さらに, qedからlog-depthバージョンへのある種の還元が存在する場合, 任意の多項式時間量子計算をログ深さで実行できることを示す。 このことは、浅い回路を持つことでエントロピー推定が容易になることを示しているが、この問題はLWE(Learning-With-Errors)から一定深度EDへの還元を証明し、多項式時間量子計算において難解であることを示す。 次に、量子重力研究への我々の結果の潜在的応用について考察する。 まず、QEDのハミルトン版を紹介し、そこでは2つの局所ハミルトニアンを与え、基底状態の絡み合いエントロピー差を推定する。 この問題は回路版と同等に難しいことを示し、LWEを効率的に解くためにAdS/CFT対応を利用した潜在的実験について議論する。 我々は、AdS/CFTバルクと境界写像が指数関数的に複雑でなければ、この実験はLWEの難解性仮定に反するであろうと推測する。

The decision problem version of estimating the Shannon entropy is the Entropy Difference problem (ED): given descriptions of two circuits, determine which circuit produces more entropy in its output when acting on a uniformly random input. The analogous problem with quantum circuits (QED) is to determine which circuit produces the state with greater von Neumann entropy, when acting on a fixed input state and after tracing out part of the output. Based on plausible complexity-theoretic assumptions, both of these problems are believed to be intractable for polynomial-time quantum computation. In this paper, we investigate the hardness of these problems in the case where the input circuits have logarithmic and constant depth, respectively. We show that, relative to an oracle, these problems cannot be as hard as their counterparts with polynomial-size circuits. Furthermore, we show that if a certain type of reduction from QED to the log-depth version exists, it implies that any polynomial-time quantum computation can be performed in log depth. While this suggests that having shallow circuits makes entropy estimation easier, we give indication that the problem remains intractable for polynomial-time quantum computation by proving a reduction from Learning-With-Errors (LWE) to constant-depth ED. We then consider a potential application of our results to quantum gravity research. First, we introduce a Hamiltonian version of QED where one is given two local Hamiltonians and asked to estimate the entanglement entropy difference in their ground states. We show that this problem is at least as hard as the circuit version and then discuss a potential experiment that would make use of the AdS/CFT correspondence to solve LWE efficiently. We conjecture that unless the AdS/CFT bulk to boundary map is exponentially complex, this experiment would violate the intractability assumption of LWE.
翻訳日:2023-06-01 12:18:58 公開日:2020-02-27
# 絡み合いに基づく量子深層学習

Entanglement-based quantum deep learning ( http://arxiv.org/abs/2002.12790v1 )

ライセンス: Link先を確認
Zhenwei Yang and Xiangdong Zhang(参考訳) 古典的なディープラーニングアルゴリズムは、画像認識、言語翻訳、意思決定問題などの分野で、学界でも業界でも大きな関心を集めている。 本研究では,完全量子プロセスにおけるニューラルネットワークの計算とトレーニングを含む,マルチキュービットの絡み合い状態に基づく量子深層学習方式を提案する。 トレーニングの過程で、未知単位ベクトルと未知単位ベクトルとの距離の効率的な計算は、グリーンベルガー・ホーネ・ザイリンガー絡み状態に基づく適切な測定によって実現されている。 古典的アルゴリズムに対する指数的な高速化が実証されている。 計算過程では、多層フィードフォワードニューラルネットワークに対応する量子スキームが提供されている。 Irisデータセットを用いた提案手法の有用性を示した。 異なる種類のモデルに対する現在のスキームの拡張性も分析されている。

Classical deep learning algorithms have aroused great interest in both academia and industry for their utility in image recognition, language translation, decision-making problems and more. In this work, we have provided a quantum deep learning scheme based on multi-qubit entanglement states, including computation and training of neural network in full quantum process. In the course of training, efficient calculation of the distance between unknown unit vector and known unit vector has been realized by proper measurement based on the Greenberger-Horne-Zeilinger entanglement states. An exponential speedup over classical algorithms has been demonstrated. In the process of computation, quantum scheme corresponding to multi-layer feedforward neural network has been provided. We have shown the utility of our scheme using Iris dataset. The extensibility of the present scheme to different types of model has also been analyzed
翻訳日:2023-06-01 12:18:24 公開日:2020-02-27
# pyGSTiを用いた量子プロセッサの性能検証

Probing quantum processor performance with pyGSTi ( http://arxiv.org/abs/2002.12476v1 )

ライセンス: Link先を確認
Erik Nielsen, Kenneth Rudinger, Timothy Proctor, Antonio Russo, Kevin Young, Robin Blume-Kohout(参考訳) PyGSTiは、量子コンピューティングプロセッサの性能を評価し、特徴付けるPythonソフトウェアパッケージである。 スタンドアロンのアプリケーションとして、あるいはライブラリとして使用して、構築された量子プロセッサ上で様々な量子キャラクタリゼーション、検証、検証(QCVV)プロトコルを実行することができる。 複数の例を使ってpyGSTiの構造とそれができることを概説する。 その主な特徴付けプロトコルをエンドツーエンドの実装でカバーする。 ゲートセットトモグラフィー、一つまたは複数のキュービットのランダム化ベンチマーク、およびいくつかの特殊な技術が含まれる。 また、ユーザがpyGSTiをカスタマイズし、そのコンポーネントを活用して特別なQCVVプロトコルを作成し、ユーザ固有の問題を解決する方法について論じる。

PyGSTi is a Python software package for assessing and characterizing the performance of quantum computing processors. It can be used as a standalone application, or as a library, to perform a wide variety of quantum characterization, verification, and validation (QCVV) protocols on as-built quantum processors. We outline pyGSTi's structure, and what it can do, using multiple examples. We cover its main characterization protocols with end-to-end implementations. These include gate set tomography, randomized benchmarking on one or many qubits, and several specialized techniques. We also discuss and demonstrate how power users can customize pyGSTi and leverage its components to create specialized QCVV protocols and solve user-specific problems.
翻訳日:2023-06-01 12:18:13 公開日:2020-02-27
# スーパーポジションクエリなしの量子攻撃:オフラインSimonのアルゴリズム

Quantum Attacks without Superposition Queries: the Offline Simon's Algorithm ( http://arxiv.org/abs/2002.12439v1 )

ライセンス: Link先を確認
Xavier Bonnetain, Akinori Hosoyamada, Mar\'ia Naya-Plasencia, Yu Sasaki, and Andr\'e Schrottenloher(参考訳) 対称暗号解析では、重ね合わせクエリのモデルが驚くべき結果をもたらし、サイモンの周期探索アルゴリズムのおかげで多くの構成が多項式時間で破られた。 しかし、これらの攻撃の実際的な意味はあいまいである。 対照的に、古典的クエリのみを作る量子敵に対するこれまでの結果はあまり印象的ではない。 本稿では,Simonのサブルーチンを新しい方法で利用した新しい量子アルゴリズムを提案する。 我々は、古典的なクエリやオフラインの量子計算に限られる量子攻撃者の文脈で、暗号システムの代数構造をうまく活用する。 我々は、グロバーのアルゴリズムを用いた標準徹底探索として、ハードウェア要件(量子および古典)を同程度だけ使用しながら、現在の文献に関する量子時間/古典データトレードオフを改善した。 特に、量子時間 $\tilde{O}(2^{n/3})$, $O(2^{n/3})$ 古典的クエリと$O(n^2)$ qubits で偶数マンソルの構成を破ることができる。 さらに、指数関数から多項式へのデータ複雑性を同時に減少させることにより、過去の重ね合わせ攻撃を改善する。 グロバーのアルゴリズムを用いた探索の反復中、あるいは、その代数的構造により、衝突探索に基づくいくつかの量子攻撃におけるメモリ要求の除去である。 我々は、均等な構成、fx構成、いくつかのスポンジ認証された暗号化モードなどを含む暗号アプリケーションのリストを提供する。

In symmetric cryptanalysis, the model of superposition queries has led to surprising results, with many constructions being broken in polynomial time thanks to Simon's period-finding algorithm. But the practical implications of these attacks remain blurry. In contrast, the results obtained so far for a quantum adversary making classical queries only are less impressive. In this paper, we introduce a new quantum algorithm which uses Simon's subroutines in a novel way. We manage to leverage the algebraic structure of cryptosystems in the context of a quantum attacker limited to classical queries and offline quantum computations. We obtain improved quantum-time/classical-data tradeoffs with respect to the current literature, while using only as much hardware requirements (quantum and classical) as a standard exhaustive search with Grover's algorithm. In particular, we are able to break the Even-Mansour construction in quantum time $\tilde{O}(2^{n/3})$, with $O(2^{n/3})$ classical queries and $O(n^2)$ qubits only. In addition, we improve some previous superposition attacks by reducing the data complexity from exponential to polynomial, with the same time complexity. Our approach can be seen in two complementary ways: \emph{reusing} superposition queries during the iteration of a search using Grover's algorithm, or alternatively, removing the memory requirement in some quantum attacks based on a collision search, thanks to their algebraic structure. We provide a list of cryptographic applications, including the Even-Mansour construction, the FX construction, some Sponge authenticated modes of encryption, and many more.
翻訳日:2023-06-01 12:17:30 公開日:2020-02-27
# 不確実性原理を用いた量子次元試験

Quantum dimension test using the uncertainty principle ( http://arxiv.org/abs/2002.12432v1 )

ライセンス: Link先を確認
Rui Chao, Ben W. Reichardt(参考訳) 量子システムの次元を検証するためのテストを提案し、その中にランダムな$n$-bit 文字列を計算またはアダマール基底に格納し、後にその文字列がほとんど回復可能であることをチェックする。 プロトコルはノイズを許容し、検証者は1キュービットの状態を用意するだけでよい。 解析は、berta et al. (2010) による量子記憶の存在における不確実性関係に基づいている。

We propose a test for certifying the dimension of a quantum system: store in it a random $n$-bit string, in either the computational or the Hadamard basis, and later check that the string can be mostly recovered. The protocol tolerates noise, and the verifier only needs to prepare one-qubit states. The analysis is based on uncertainty relations in the presence of quantum memory, due to Berta et al. (2010).
翻訳日:2023-06-01 12:16:38 公開日:2020-02-27
# EcoNAS: 経済的なニューラルネットワーク探索のためのプロキシを見つける

EcoNAS: Finding Proxies for Economical Neural Architecture Search ( http://arxiv.org/abs/2001.01233v2 )

ライセンス: Link先を確認
Dongzhan Zhou, Xinchi Zhou, Wenwei Zhang, Chen Change Loy, Shuai Yi, Xuesen Zhang, Wanli Ouyang(参考訳) neural architecture search (nas)は多くのコンピュータビジョンタスクで大きな進歩を遂げている。 NASの効率を改善するために多くの手法が提案されているが、大規模な検索空間上での有望なアーキテクチャの訓練と評価が時間を要するため、探索の進行はいまだに困難である。 プロキシ下でのネットワーク候補の評価(すなわち、計算量を減らす設定)は避けられない。 本稿では,既存のプロキシのほとんどが,ネットワーク候補間のランク一貫性を維持する上で異なる行動を示すことを観察する。 特に、いくつかのプロキシはより信頼性が高い - 候補のランクは、設定性能の低下と最終的なパフォーマンスに大きく違いはない。 本稿では,広く採用されている還元因子を系統的に検討し,観察結果を報告する。 これらの観察から着想を得て,信頼性の高いプロキシを示し,さらに階層的なプロキシ戦略を定式化する。 この戦略は、より正確な候補ネットワークにより多くの計算を費やす一方で、高速なプロキシで初期段階の未予測ネットワークを破棄する。 これにより、経済進化ベースのNAS(EcoNAS)が実現し、進化ベースの技術(8対3150GPU日)と比較して400倍の検索時間削減を実現している。 我々の観測によって導かれるいくつかの新しいプロキシは、他のNAS手法を加速するためにも適用できるが、以前のプロキシ戦略で見いだされた性能にマッチする優れた候補ネットワークを発見できる。

Neural Architecture Search (NAS) achieves significant progress in many computer vision tasks. While many methods have been proposed to improve the efficiency of NAS, the search progress is still laborious because training and evaluating plausible architectures over large search space is time-consuming. Assessing network candidates under a proxy (i.e., computationally reduced setting) thus becomes inevitable. In this paper, we observe that most existing proxies exhibit different behaviors in maintaining the rank consistency among network candidates. In particular, some proxies can be more reliable -- the rank of candidates does not differ much comparing their reduced setting performance and final performance. In this paper, we systematically investigate some widely adopted reduction factors and report our observations. Inspired by these observations, we present a reliable proxy and further formulate a hierarchical proxy strategy. The strategy spends more computations on candidate networks that are potentially more accurate, while discards unpromising ones in early stage with a fast proxy. This leads to an economical evolutionary-based NAS (EcoNAS), which achieves an impressive 400x search time reduction in comparison to the evolutionary-based state of the art (8 vs. 3150 GPU days). Some new proxies led by our observations can also be applied to accelerate other NAS methods while still able to discover good candidate networks with performance matching those found by previous proxy strategies.
翻訳日:2023-01-14 07:35:14 公開日:2020-02-27
# CNN 101:畳み込みニューラルネットワークのためのインタラクティブビジュアルラーニング

CNN 101: Interactive Visual Learning for Convolutional Neural Networks ( http://arxiv.org/abs/2001.02004v3 )

ライセンス: Link先を確認
Zijie J. Wang, Robert Turko, Omar Shaikh, Haekyu Park, Nilaksh Das, Fred Hohman, Minsuk Kahng, Duen Horng Chau(参考訳) 先述した難題を解決するディープラーニングの成功は、多くの非専門家にこのエキサイティングな技術を学び理解させるきっかけとなった。 しかし、ディープラーニングモデルの複雑さのため、学習者が最初のステップを踏むことはしばしば困難である。 本稿では,畳み込みニューラルネットワークの説明と教育を行うインタラクティブな可視化システムであるCNN 101を紹介する。 密接に統合されたインタラクティブなビューを通じて、cnn 101はモデルがどのように動作するかの概要と詳細な説明を提供する。 最新のWeb技術を使って構築されたCNN 101は、特別なハードウェアを必要とせずに、ユーザのWebブラウザでローカルに動作し、現代のディープラーニング技術への教育アクセスを広くする。

The success of deep learning solving previously-thought hard problems has inspired many non-experts to learn and understand this exciting technology. However, it is often challenging for learners to take the first steps due to the complexity of deep learning models. We present our ongoing work, CNN 101, an interactive visualization system for explaining and teaching convolutional neural networks. Through tightly integrated interactive views, CNN 101 offers both overview and detailed descriptions of how a model works. Built using modern web technologies, CNN 101 runs locally in users' web browsers without requiring specialized hardware, broadening the public's education access to modern deep learning techniques.
翻訳日:2023-01-13 20:25:41 公開日:2020-02-27
# GUPとポイントインタラクション

GUP and Point Interaction ( http://arxiv.org/abs/2001.02850v2 )

ライセンス: Link先を確認
DaeKil Park and Eylee Jung(参考訳) 一般化不確実性原理(GUP)を持つ非相対論的量子力学は、ポテンシャルが1次元の$\delta-$functionであるときに検討される。 通常の量子力学とは異なり、Schr\"{o}dinger と Feynman の経路積分アプローチは GUP パラメータの第一次で等価でないことが示されている。

The non-relativistic quantum mechanics with the generalized uncertainty principle (GUP) is examined when the potential is one-dimensional $\delta-$function. It is shown that unlike usual quantum mechanics, the Schr\"{o}dinger and Feynman's path-integral approaches are inequivalent at the first order of GUP parameter.
翻訳日:2023-01-13 05:23:23 公開日:2020-02-27
# 視覚言語表現による広告創造デザインの推奨テーマ

Recommending Themes for Ad Creative Design via Visual-Linguistic Representations ( http://arxiv.org/abs/2001.07194v2 )

ライセンス: Link先を確認
Yichao Zhou, Shaunak Mishra, Manisha Verma, Narayan Bhamidipati, and Wei Wang(参考訳) オンライン広告業界では、オンラインユーザーをブランドに誘うために使用される画像やテキストなど、広告クリエイティビティをリフレッシュする多年にわたるニーズがある。 このようなリフレッシュは、オンラインユーザーの間での広告疲労の可能性を減らし、他の成功キャンペーンからの洞察を関連製品カテゴリーに取り入れるために必要である。 ブランドが与えられたら、新しい広告のテーマを考え出すのは、クリエイティブストラテジストにとって手間と時間を消費するプロセスだ。 ストラテジストは通常、過去の広告キャンペーンに使われた画像やテキスト、ブランドに関する世界の知識からインスピレーションを得ている。 過去の広告キャンペーンにおいて,このようなマルチモーダル情報を介して広告テーマを自動推論するために,広告クリエイティブストラテジストのためのテーマ(キーワード)推薦システムを提案する。 テーマレコメンデータは、以下のものを取り込むヴィジュアル質問応答(vqa)タスクの結果の集約に基づいています。 (i)広告画像 (ii)広告に関連付けられたテキスト、および広告内のブランドのウィキペディアページ、 (iii)広告に関する質問。 VQAタスクの視覚言語表現をトレーニングするために、トランスフォーマーベースのクロスモーダルエンコーダを利用する。 我々はVQAタスクの2つの定式化を分類とランク付けの行に沿って検討し、公開データセットの実験を通して、クロスモーダル表現が分類精度とランク付け精度を著しく向上させることを示した。 クロスモーダル表現は、画像とテキストの別々の表現よりも優れたパフォーマンスを示す。 さらに、マルチモーダル情報の利用は、テキスト情報や視覚情報のみを使用することで、大幅な上昇を示す。

There is a perennial need in the online advertising industry to refresh ad creatives, i.e., images and text used for enticing online users towards a brand. Such refreshes are required to reduce the likelihood of ad fatigue among online users, and to incorporate insights from other successful campaigns in related product categories. Given a brand, to come up with themes for a new ad is a painstaking and time consuming process for creative strategists. Strategists typically draw inspiration from the images and text used for past ad campaigns, as well as world knowledge on the brands. To automatically infer ad themes via such multimodal sources of information in past ad campaigns, we propose a theme (keyphrase) recommender system for ad creative strategists. The theme recommender is based on aggregating results from a visual question answering (VQA) task, which ingests the following: (i) ad images, (ii) text associated with the ads as well as Wikipedia pages on the brands in the ads, and (iii) questions around the ad. We leverage transformer based cross-modality encoders to train visual-linguistic representations for our VQA task. We study two formulations for the VQA task along the lines of classification and ranking; via experiments on a public dataset, we show that cross-modal representations lead to significantly better classification accuracy and ranking precision-recall metrics. Cross-modal representations show better performance compared to separate image and text representations. In addition, the use of multimodal information shows a significant lift over using only textual or visual information.
翻訳日:2023-01-08 05:05:48 公開日:2020-02-27
# GraphAF: 分子グラフ生成のためのフローベース自己回帰モデル

GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation ( http://arxiv.org/abs/2001.09382v2 )

ライセンス: Link先を確認
Chence Shi, Minkai Xu, Zhaocheng Zhu, Weinan Zhang, Ming Zhang, Jian Tang(参考訳) 分子グラフ生成は薬物発見の根本的な問題であり、注目を集めている。 問題は、化学的に有効な分子構造を生成するだけでなく、その間に化学特性を最適化する必要があるためである。 本稿では,近年の深層生成モデルの発展に触発されて,グラフ生成のためのフローベース自己回帰モデルであるGraphAFを提案する。 GraphAFは,(1)データ密度推定のための高いモデル柔軟性,(2)訓練のための効率的な並列計算,(3)化学領域の知識を有効活用する反復サンプリングプロセスといった,自己回帰的アプローチとフローベースアプローチの両方の利点を併せ持つ。 実験の結果,graphafは化学知識規則や100%有効分子がなくても68%の化学有効分子を生成できることがわかった。 GraphAFのトレーニングプロセスは、既存の最先端アプローチGCPNの2倍高速である。 強化学習による目標指向特性最適化のモデルを微調整した後、GraphAFは化学特性最適化と制約特性最適化の両方の最先端性能を達成する。

Molecular graph generation is a fundamental problem for drug discovery and has been attracting growing attention. The problem is challenging since it requires not only generating chemically valid molecular structures but also optimizing their chemical properties in the meantime. Inspired by the recent progress in deep generative models, in this paper we propose a flow-based autoregressive model for graph generation called GraphAF. GraphAF combines the advantages of both autoregressive and flow-based approaches and enjoys: (1) high model flexibility for data density estimation; (2) efficient parallel computation for training; (3) an iterative sampling process, which allows leveraging chemical domain knowledge for valency checking. Experimental results show that GraphAF is able to generate 68% chemically valid molecules even without chemical knowledge rules and 100% valid molecules with chemical rules. The training process of GraphAF is two times faster than the existing state-of-the-art approach GCPN. After fine-tuning the model for goal-directed property optimization with reinforcement learning, GraphAF achieves state-of-the-art performance on both chemical property optimization and constrained property optimization.
翻訳日:2023-01-06 19:18:28 公開日:2020-02-27
# カナダ悪質運転条件データセット

Canadian Adverse Driving Conditions Dataset ( http://arxiv.org/abs/2001.10117v3 )

ライセンス: Link先を確認
Matthew Pitropov, Danson Garcia, Jason Rebello, Michael Smart, Carlos Wang, Krzysztof Czarnecki, Steven Waslander(参考訳) カナディアン・リバース・ドライビング・コンディションズ(CADC)データセットは、リンカーンMKZを改造したオートノーズ・自動運転車プラットフォームで収集された。 カナダ、ウォータールー州で冬季に収集されたデータセットは、特に悪運転条件に焦点を当てた最初の自動運転車データセットである。 8台のカメラ(Ximea MQ013CG-E2)、Lidar(VLP-32C)、GNSS+INSシステム(Novatel OEM638)から、様々な冬の天候条件から収集された7,000フレームを含んでいる。 センサーは、データセットに含まれる内在キャリブレーションと外在キャリブレーションと時間同期および校正される。 3Dオブジェクトの検出と追跡の真実を表すLidarフレームアノテーションがScale AIによって提供されている。

The Canadian Adverse Driving Conditions (CADC) dataset was collected with the Autonomoose autonomous vehicle platform, based on a modified Lincoln MKZ. The dataset, collected during winter within the Region of Waterloo, Canada, is the first autonomous vehicle dataset that focuses on adverse driving conditions specifically. It contains 7,000 frames collected through a variety of winter weather conditions of annotated data from 8 cameras (Ximea MQ013CG-E2), Lidar (VLP-32C) and a GNSS+INS system (Novatel OEM638). The sensors are time synchronized and calibrated with the intrinsic and extrinsic calibrations included in the dataset. Lidar frame annotations that represent ground truth for 3D object detection and tracking have been provided by Scale AI.
翻訳日:2023-01-06 08:24:55 公開日:2020-02-27
# 人間のようなオープンドメインチャットボットを目指して

Towards a Human-like Open-Domain Chatbot ( http://arxiv.org/abs/2001.09977v3 )

ライセンス: Link先を確認
Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le(参考訳) meenaというマルチターンのオープンドメインチャットボットは、パブリックドメインのソーシャルメディアの会話から抽出、フィルタリングされたデータをエンドツーエンドで訓練する。 この2.6bパラメータニューラルネットワークは、単に次のトークンのパープレキシティを最小化するために訓練される。 また,人間ライクなマルチターン会話の重要な要素を捉えたssa(sensibleness and specificity average)と呼ばれる人間評価指標を提案する。 本実験は, パープレキシティとSSAとの間に強い相関関係を示した。 最高のパープレキシティのエンドツーエンドトレーニングであるMeenaは、SSA(マルチターン評価では72%)に高いスコアを与えているという事実は、パープレキシティをより良く最適化できれば、人間レベルのSSAが86%に達する可能性があることを示唆している。 さらに、Meenaのフルバージョン(フィルタリング機構とチューニングされた復号化)では、SSAが79%、絶対SSAが23%向上しました。

We present Meena, a multi-turn open-domain chatbot trained end-to-end on data mined and filtered from public domain social media conversations. This 2.6B parameter neural network is simply trained to minimize perplexity of the next token. We also propose a human evaluation metric called Sensibleness and Specificity Average (SSA), which captures key elements of a human-like multi-turn conversation. Our experiments show strong correlation between perplexity and SSA. The fact that the best perplexity end-to-end trained Meena scores high on SSA (72% on multi-turn evaluation) suggests that a human-level SSA of 86% is potentially within reach if we can better optimize perplexity. Additionally, the full version of Meena (with a filtering mechanism and tuned decoding) scores 79% SSA, 23% higher in absolute SSA than the existing chatbots we evaluated.
翻訳日:2023-01-06 07:23:57 公開日:2020-02-27
# 大規模iotネットワークにおける準周期トラフィック監視のための機械学習手法

Machine Learning Methods for Monitoring of Quasi-Periodic Traffic in Massive IoT Networks ( http://arxiv.org/abs/2002.01552v2 )

ライセンス: Link先を確認
Ren\'e Brandborg S{\o}rensen, Jimmy Jessen Nielsen, Petar Popovski(参考訳) 大規模なモノのインターネット(IoT)デプロイメントにおける中心的な問題のひとつは、大量のリンクの状態をモニタリングすることだ。 この問題は、リンク越しに送信されるトラフィックの不規則さによって増大し、トラフィックの断続性をリンク障害として偽装し、その逆も可能である。 本研究では、準周期的なアプリケーションを実行するIoTデバイスのトラフィックモデルを示し、スマートメータや環境モニタリング、農業モニタリングといった準周期的なレポートを用いて、IoTデプロイメントのネットワークパフォーマンスを監視するための教師付きおよび教師なしの機械学習手法を提示する。 この手法は、天文学者によって不均一なサンプル時系列のスペクトル密度を推定するために開発されたLomb-Scargle periodogramに基づいている。

One of the central problems in massive Internet of Things (IoT) deployments is the monitoring of the status of a massive number of links. The problem is aggravated by the irregularity of the traffic transmitted over the link, as the traffic intermittency can be disguised as a link failure and vice versa. In this work we present a traffic model for IoT devices running quasi-periodic applications and we present both supervised and unsupervised machine learning methods for monitoring the network performance of IoT deployments with quasi-periodic reporting, such as smart-metering, environmental monitoring and agricultural monitoring. The unsupervised methods are based on the Lomb-Scargle periodogram, an approach developed by astronomers for estimating the spectral density of unevenly sampled time series.
翻訳日:2023-01-04 03:46:18 公開日:2020-02-27
# CIFAR-10 特徴アンサンブルを用いた画像分類

CIFAR-10 Image Classification Using Feature Ensembles ( http://arxiv.org/abs/2002.03846v2 )

ライセンス: Link先を確認
Felipe O. Giuste and Juan C. Vizcarra(参考訳) 画像分類は、グループ識別に有用な画像パターンを検出できる特徴の生成を必要とする。 本研究の目的は,手動と深層学習の両方で異なる画像特徴源の組み合わせを利用して,公開CIFAR-10画像データセットから画像の分類を行うことである。 向き勾配 (HOG) と画素強度のヒストグラムは, それぞれ53%, 59%の分類精度を示したが, 改善の余地は大きい。 ImageNetのトレーニングされた重量とCIFAR-10最適化モデル(CIFAR-VGG)を備えたVGG16は、画像分類(それぞれ60%と93.43%の精度)をさらに改善した。 さらに,VGG16 (TL-VGG) と Inception ResNet v2 (TL-Inception) の最適ネットワークウェイトを再確立するために転送学習を活用して分類を改良し,それぞれ 85% と 90.74% の大幅な性能向上を実現したが,CIFAR-VGG を超えなかった。 生成した各特徴集合が分類問題に関するユニークな洞察を得た場合、これらの特徴を組み合わせることで、CIFAR-VGGよりも高い分類精度が得られると仮定した。 TL-VGG,TL-Inception,HOG,ピクセルインテンシティ,CIFAR-VGGから上位1000の主成分を選択すると、94.6%の精度でテストを行い、仮説を支持した。

Image classification requires the generation of features capable of detecting image patterns informative of group identity. The objective of this study was to classify images from the public CIFAR-10 image dataset by leveraging combinations of disparate image feature sources from both manual and deep learning approaches. Histogram of oriented gradients (HOG) and pixel intensities successfully inform classification (53% and 59% classification accuracy, respectively), yet there is much room for improvement. VGG16 with ImageNet trained weights and a CIFAR-10 optimized model (CIFAR-VGG) further improve upon image classification (60% and 93.43% accuracy, respectively). We further improved classification by utilizing transfer learning to re-establish optimal network weights for VGG16 (TL-VGG) and Inception ResNet v2 (TL-Inception) resulting in significant performance increases (85% and 90.74%, respectively), yet fail to surpass CIFAR-VGG. We hypothesized that if each generated feature set obtained some unique insight into the classification problem, then combining these features would result in greater classification accuracy, surpassing that of CIFAR-VGG. Upon selection of the top 1000 principal components from TL-VGG, TL-Inception, HOG, pixel intensities, and CIFAR-VGG, we achieved testing accuracy of 94.6%, lending support to our hypothesis.
翻訳日:2023-01-03 03:33:26 公開日:2020-02-27
# 高次元共変量を用いたオンラインバッチ決定処理

Online Batch Decision-Making with High-Dimensional Covariates ( http://arxiv.org/abs/2002.09438v2 )

ライセンス: Link先を確認
Chi-Hua Wang, Guang Cheng(参考訳) 我々は,各決定期において, \textit{a batch of users} の代わりに同時に \textit{a batch of users} と対話する逐次的意思決定のための新しいアルゴリズムのクラスを提案し,検討する。 このタイプのバッチモデルは、対話型マーケティングと臨床試験によって動機付けられ、集団が同時に扱われ、集団全体の成果が決定の次の段階で収集される。 このようなシナリオでは、観察された高次元ユーザ共変量に基づいて治療効果を最大化するために、治療のバッチを割り当てることが目的である。 我々は,チームワークステージと利己的なステージを切り替えることで,探索探索ジレンマのバッチバージョンを解消する,‘textit{Teamwork LASSO Bandit algorithm’というソリューションを提供する。 これは、一連のバッチ観測に適応する治療効果のLASSO推定の統計的特性に基づいて可能である。 一般に、データ収集方式における探索と搾取のトレードオフを明らかにするために最適な割り当て条件の比率が提案され、LASSOが観測されたユーザ共変量に対する最適な処理を識別するのに十分である。 提案アルゴリズムに期待される累積後悔の上限を与える。

We propose and investigate a class of new algorithms for sequential decision making that interacts with \textit{a batch of users} simultaneously instead of \textit{a user} at each decision epoch. This type of batch models is motivated by interactive marketing and clinical trial, where a group of people are treated simultaneously and the outcomes of the whole group are collected before the next stage of decision. In such a scenario, our goal is to allocate a batch of treatments to maximize treatment efficacy based on observed high-dimensional user covariates. We deliver a solution, named \textit{Teamwork LASSO Bandit algorithm}, that resolves a batch version of explore-exploit dilemma via switching between teamwork stage and selfish stage during the whole decision process. This is made possible based on statistical properties of LASSO estimate of treatment efficacy that adapts to a sequence of batch observations. In general, a rate of optimal allocation condition is proposed to delineate the exploration and exploitation trade-off on the data collection scheme, which is sufficient for LASSO to identify the optimal treatment for observed user covariates. An upper bound on expected cumulative regret of the proposed algorithm is provided.
翻訳日:2022-12-30 00:42:27 公開日:2020-02-27
# 単段階逆行訓練による反復的逆行例の修正

Using Single-Step Adversarial Training to Defend Iterative Adversarial Examples ( http://arxiv.org/abs/2002.09632v2 )

ライセンス: Link先を確認
Guanxiong Liu, Issa Khalil, Abdallah Khreishah(参考訳) 敵対的な例は、機械学習モデル、特にニューラルネットワーク分類器が直面する最大の課題の1つになっています。 これらの敵対的な例は、攻撃のないシナリオと、人間に無意味な摂動を伴うSOTA(State-of-the-art)分類器の仮定を破る。 これまでのところ、研究者は敵の訓練を防衛として活用する上で大きな進歩を遂げた。 しかし、圧倒的な計算コストは適用性を低下させ、この問題を克服するためにはほとんど行われていない。 単段攻撃訓練法は計算可能解として提案されているが、反復攻撃例に対する防御には至っていない。 本研究では,まず,複数のSOTA防御手法を,敵の例に対して実験的に解析する。 そこで本研究では,実験から得られた観測に基づいて,一段階と反復の双方の敵を防御できる新しい一段階対逆訓練法を提案する。 最後に,提案手法がSOTA単段階および反復的対逆訓練防御よりも優れていることを示す。 CIFAR10データセット上のATDA (single-step method)と比較して,テスト精度が35.67%,トレーニング時間が19.14%向上した。 CIFAR10データセット上でBIMやMadryの例(定性的な方法)を使用する手法と比較すると、テスト精度が3.78%未満のトレーニング時間の76.03%を節約できる。

Adversarial examples have become one of the largest challenges that machine learning models, especially neural network classifiers, face. These adversarial examples break the assumption of attack-free scenario and fool state-of-the-art (SOTA) classifiers with insignificant perturbations to human. So far, researchers achieved great progress in utilizing adversarial training as a defense. However, the overwhelming computational cost degrades its applicability and little has been done to overcome this issue. Single-Step adversarial training methods have been proposed as computationally viable solutions, however they still fail to defend against iterative adversarial examples. In this work, we first experimentally analyze several different SOTA defense methods against adversarial examples. Then, based on observations from experiments, we propose a novel single-step adversarial training method which can defend against both single-step and iterative adversarial examples. Lastly, through extensive evaluations, we demonstrate that our proposed method outperforms the SOTA single-step and iterative adversarial training defense. Compared with ATDA (single-step method) on CIFAR10 dataset, our proposed method achieves 35.67% enhancement in test accuracy and 19.14% reduction in training time. When compared with methods that use BIM or Madry examples (iterative methods) on CIFAR10 dataset, it saves up to 76.03% in training time with less than 3.78% degeneration in test accuracy.
翻訳日:2022-12-29 19:01:55 公開日:2020-02-27
# ミニバッチの調整によるSGD訓練の改善

Improve SGD Training via Aligning Mini-batches ( http://arxiv.org/abs/2002.09917v2 )

ライセンス: Link先を確認
Xiangrui Li, Deng Pan, Xin Li, Dongxiao Zhu(参考訳) 教師付き学習のためのディープニューラルネットワーク(DNN)は、特徴抽出器(すなわち最後の隠蔽層)と線形分類器(すなわち出力層)のパイプラインとして見ることができ、確率勾配降下(SGD)と共に訓練される。 sgdの各イテレーションでは、訓練データからのミニバッチをサンプリングし、このミニバッチで算出されたノイズ勾配として損失関数の真の勾配を推定する。 特徴学習の観点からは、特徴抽出器を更新して、データ全体について有意義な特徴を学習し、ミニバッチにおけるノイズへの調節を低減する必要がある。 このモチベーションにより、DNNトレーニングを改善し、オーバーフィッティングを減らすために、ITDM(In-Training Distribution Matching)を提案する。 具体的には、損失関数とともに、SGDの各イテレーションで異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化し、最大平均差を最小化する。 したがって、ITDMは潜在機能空間におけるデータ分布の明示的なパラメトリック形式を前提としない。 提案手法の有効性を示すため,広範な実験を行った。

Deep neural networks (DNNs) for supervised learning can be viewed as a pipeline of a feature extractor (i.e. last hidden layer) and a linear classifier (i.e. output layer) that is trained jointly with stochastic gradient descent (SGD). In each iteration of SGD, a mini-batch from the training data is sampled and the true gradient of the loss function is estimated as the noisy gradient calculated on this mini-batch. From the feature learning perspective, the feature extractor should be updated to learn meaningful features with respect to the entire data, and reduce the accommodation to noise in the mini-batch. With this motivation, we propose In-Training Distribution Matching (ITDM) to improve DNN training and reduce overfitting. Specifically, along with the loss function, ITDM regularizes the feature extractor by matching the moments of distributions of different mini-batches in each iteration of SGD, which is fulfilled by minimizing the maximum mean discrepancy. As such, ITDM does not assume any explicit parametric form of data distribution in the latent feature space. Extensive experiments are conducted to demonstrate the effectiveness of our proposed strategy.
翻訳日:2022-12-29 09:19:55 公開日:2020-02-27
# アナログ遠絡探索によるオフポリティディーディープ強化学習

Off-Policy Deep Reinforcement Learning with Analogous Disentangled Exploration ( http://arxiv.org/abs/2002.10738v2 )

ライセンス: Link先を確認
Anji Liu, Yitao Liang, Guy Van den Broeck(参考訳) オフ政治強化学習(RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。 前者の政策(すなわち目標政策)は報奨だが(多くの場合、決定論的な)表現力に富んでいるが、後者の作業では表現力のある政策(すなわち行動政策)が必要であり、指導的かつ効果的な探索を提供する。 最適性と表現力の間のトレードオフをするほとんどの方法とは対照的に、対立するフレームワークは2つの目的を明確に分離し、それぞれが別々の方針によって扱われる。 自分たちの目的に関して2つのポリシーを自由に設計し、最適化することができるが、それらを完全に切り離すことは、非効率な学習や安定性の問題につながる可能性がある。 この問題を軽減するために提案手法であるAnalogous Disentangled Actor-Critic (ADAC) はアクターと批評家の類似のペアを設計する。 特に、ADACはStein variational gradient descent (SVGD) に関する重要な特性を活用して、効率的な探索を行うための目標に対する表現的エネルギーベースの行動ポリシーを制約する。 さらに、本質的な報酬を原則的に取り入れ、全体的な学習安定性と効果を理論的に保証する類似の批評家ペアが導入された。 環境に配慮したADACを14タスクで実証的に評価し,その内10タスクについて報告した。 さらに,本質的な報酬と組み合わせたadacを,探索課題における代替案よりも優れていることを示す。

Off-policy reinforcement learning (RL) is concerned with learning a rewarding policy by executing another policy that gathers samples of experience. While the former policy (i.e. target policy) is rewarding but in-expressive (in most cases, deterministic), doing well in the latter task, in contrast, requires an expressive policy (i.e. behavior policy) that offers guided and effective exploration. Contrary to most methods that make a trade-off between optimality and expressiveness, disentangled frameworks explicitly decouple the two objectives, which each is dealt with by a distinct separate policy. Although being able to freely design and optimize the two policies with respect to their own objectives, naively disentangling them can lead to inefficient learning or stability issues. To mitigate this problem, our proposed method Analogous Disentangled Actor-Critic (ADAC) designs analogous pairs of actors and critics. Specifically, ADAC leverages a key property about Stein variational gradient descent (SVGD) to constraint the expressive energy-based behavior policy with respect to the target one for effective exploration. Additionally, an analogous critic pair is introduced to incorporate intrinsic rewards in a principled manner, with theoretical guarantees on the overall learning stability and effectiveness. We empirically evaluate environment-reward-only ADAC on 14 continuous-control tasks and report the state-of-the-art on 10 of them. We further demonstrate ADAC, when paired with intrinsic rewards, outperform alternatives in exploration-challenging tasks.
翻訳日:2022-12-28 20:42:42 公開日:2020-02-27
# 勾配整形によるデータ中毒攻撃の緩和効果について

On the Effectiveness of Mitigating Data Poisoning Attacks with Gradient Shaping ( http://arxiv.org/abs/2002.11497v2 )

ライセンス: Link先を確認
Sanghyun Hong, Varun Chandrasekaran, Yi\u{g}itcan Kaya, Tudor Dumitra\c{s}, Nicolas Papernot(参考訳) 機械学習アルゴリズムは、データ中毒攻撃に弱い。 特定のシナリオ、例えば無差別または標的に焦点を当てた以前の分類学は、既知の攻撃の対応するサブセットに対する防御を可能にした。 しかし、これは敵と守備隊の必然的な武器競争をもたらす。 本研究では,すべての中毒攻撃に共通するアーティファクトに依存する攻撃非依存な防御の実現可能性について検討する。 具体的には、すべてのアタックの共通要素に注目し、モデルをトレーニングするために計算された勾配を変更する。 毒物の存在下で計算された勾配の2つの主要な成果物を同定する: (1) それらの$\ell_2$ のノルムはクリーン勾配のものとかなり高い等級を持ち、(2) それらの向きはクリーン勾配とは異なる。 これらの観測に基づいて, 汎用的な防毒対策の前提条件として, 勾配の等級を束縛し, 配向の差を最小限に抑える必要がある。 これを勾配整形と呼ぶ。 グラデーションシェーピングの実現可能性を評価するための例として,トレーニング中の個々のグラデーションをクリップし,摂動させる差分プライベート確率勾配降下(dp-sgd)を用いて,プライバシ保証を得る。 DP-SGDは、意味のあるプライバシー保証が得られない構成であっても、攻撃を非差別化するためのモデルの堅牢性を高める。 また、最悪の攻撃を緩和し、マルチポゾンシナリオにおける敵のコストを増加させる。 DP-SGDが効果がないと分かった唯一の攻撃は、強いが非現実的で差別的な攻撃である。 以上の結果から,現在一般的な中毒防御が欠けているが,勾配形成は今後の研究に有望な方向性であることが示唆された。

Machine learning algorithms are vulnerable to data poisoning attacks. Prior taxonomies that focus on specific scenarios, e.g., indiscriminate or targeted, have enabled defenses for the corresponding subset of known attacks. Yet, this introduces an inevitable arms race between adversaries and defenders. In this work, we study the feasibility of an attack-agnostic defense relying on artifacts that are common to all poisoning attacks. Specifically, we focus on a common element between all attacks: they modify gradients computed to train the model. We identify two main artifacts of gradients computed in the presence of poison: (1) their $\ell_2$ norms have significantly higher magnitudes than those of clean gradients, and (2) their orientation differs from clean gradients. Based on these observations, we propose the prerequisite for a generic poisoning defense: it must bound gradient magnitudes and minimize differences in orientation. We call this gradient shaping. As an exemplar tool to evaluate the feasibility of gradient shaping, we use differentially private stochastic gradient descent (DP-SGD), which clips and perturbs individual gradients during training to obtain privacy guarantees. We find that DP-SGD, even in configurations that do not result in meaningful privacy guarantees, increases the model's robustness to indiscriminate attacks. It also mitigates worst-case targeted attacks and increases the adversary's cost in multi-poison scenarios. The only attack we find DP-SGD to be ineffective against is a strong, yet unrealistic, indiscriminate attack. Our results suggest that, while we currently lack a generic poisoning defense, gradient shaping is a promising direction for future research.
翻訳日:2022-12-28 15:44:48 公開日:2020-02-27
# 画像ベース深層学習アプリケーションにおけるグラフコアC2カードの性能

Graphcore C2 Card performance for image-based deep learning application: A Report ( http://arxiv.org/abs/2002.11670v2 )

ライセンス: Link先を確認
Ilyes Kacher and Maxime Portaz and Hicham Randrianarivo and Sylvain Peyronnet(参考訳) 最近、graphcoreは機械学習アプリケーションを高速化するipuプロセッサを導入した。 プロセッサのアーキテクチャは、トレーニングと推論の両方のために、現在のマシンインテリジェンスモデル上でのアートパフォーマンスの状態を達成するために設計されている。 本稿では,ディープニューラルネットワーク上でのipuプロセッサの性能を推定のために評価したベンチマークについて報告する。 ResNeXtのような深層視覚モデルに焦点を当てる。 観測されたレイテンシ,スループット,エネルギー効率について報告する。

Recently, Graphcore has introduced an IPU Processor for accelerating machine learning applications. The architecture of the processor has been designed to achieve state of the art performance on current machine intelligence models for both training and inference. In this paper, we report on a benchmark in which we have evaluated the performance of IPU processors on deep neural networks for inference. We focus on deep vision models such as ResNeXt. We report the observed latency, throughput and energy efficiency.
翻訳日:2022-12-28 14:34:48 公開日:2020-02-27
# SGD学習におけるバッチサイズの段階的拡大

Stagewise Enlargement of Batch Size for SGD-based Learning ( http://arxiv.org/abs/2002.11601v2 )

ライセンス: Link先を確認
Shen-Yi Zhao, Yin-Peng Xie, and Wu-Jun Li(参考訳) 既存の研究では、バッチサイズが確率勾配降下(SGD)に基づく学習のパフォーマンスに深刻な影響を与えることが示されている。 バッチサイズが大きくなると、通常はパラメータの更新が少なくなる。 分散トレーニングでは、より大きなバッチサイズが通信頻度を低下させる。 しかし、より大きなバッチサイズは、一般化のギャップをより容易にする。 したがって、sgdの適切なバッチサイズを設定する方法が最近注目を集めている。 バッチサイズを設定する方法が提案されているが、バッチサイズの問題はまだ十分に解決されていない。 本稿では,まず,適切なバッチサイズがモデルパラメータの初期化と最適化の間のギャップに関係していることを示す理論を提案する。 次に、この理論に基づき、sgd の適切なバッチサイズを設定するための新しい方法である \underline{s}tagewise \underline{e}nlargement of \underline{b}atch \underline{s}ize~(\mbox{sebs})を提案する。 より具体的には、 \mbox{SEBS} はマルチステージスキームを採用し、バッチサイズをステージごとに幾何的に拡大する。 理論的には,学習速度を段階的に低下させる古典的な段階的SGDと比較して,一般化誤差を増大させることなくパラメータ更新数を減少させることができる。 SEBS は \mbox{SGD} 、運動量 \mbox{SGD} および AdaGrad に適している。 実データに関する実証結果は、mbox{SEBS}の理論の検証に成功している。 さらに,SEBSが他のベースラインより優れていることを示す実験結果も得られた。

Existing research shows that the batch size can seriously affect the performance of stochastic gradient descent~(SGD) based learning, including training speed and generalization ability. A larger batch size typically results in less parameter updates. In distributed training, a larger batch size also results in less frequent communication. However, a larger batch size can make a generalization gap more easily. Hence, how to set a proper batch size for SGD has recently attracted much attention. Although some methods about setting batch size have been proposed, the batch size problem has still not been well solved. In this paper, we first provide theory to show that a proper batch size is related to the gap between initialization and optimum of the model parameter. Then based on this theory, we propose a novel method, called \underline{s}tagewise \underline{e}nlargement of \underline{b}atch \underline{s}ize~(\mbox{SEBS}), to set proper batch size for SGD. More specifically, \mbox{SEBS} adopts a multi-stage scheme, and enlarges the batch size geometrically by stage. We theoretically prove that, compared to classical stagewise SGD which decreases learning rate by stage, \mbox{SEBS} can reduce the number of parameter updates without increasing generalization error. SEBS is suitable for \mbox{SGD}, momentum \mbox{SGD} and AdaGrad. Empirical results on real data successfully verify the theories of \mbox{SEBS}. Furthermore, empirical results also show that SEBS can outperform other baselines.
翻訳日:2022-12-28 14:25:42 公開日:2020-02-27
# PHS:並列ハイパーパラメータ検索のためのツールボックス

PHS: A Toolbox for Parallel Hyperparameter Search ( http://arxiv.org/abs/2002.11429v2 )

ライセンス: Link先を確認
Peter Michael Habelitz and Janis Keuper(参考訳) 任意のpython関数の多数の計算インスタンス上でハイパーパラメータ最適化を実現するために,PHS- Parallel Hyperparameter Searchというオープンソースのpythonフレームワークを導入する。 これはターゲット関数内の最小限の変更で達成される。 機械学習のようなハイパーパラメータに強く依存する数値計算を評価するために、考えられるアプリケーションは高価である。 ベイズ最適化は、次のパラメータのクエリーセットを提案するサンプル効率の良い方法として選択される。

We introduce an open source python framework named PHS - Parallel Hyperparameter Search to enable hyperparameter optimization on numerous compute instances of any arbitrary python function. This is achieved with minimal modifications inside the target function. Possible applications appear in expensive to evaluate numerical computations which strongly depend on hyperparameters such as machine learning. Bayesian optimization is chosen as a sample efficient method to propose the next query set of parameters.
翻訳日:2022-12-28 14:16:14 公開日:2020-02-27
# 可変星分類のための不均衡学習

Imbalance Learning for Variable Star Classification ( http://arxiv.org/abs/2002.12386v1 )

ライセンス: Link先を確認
Zafiirah Hosenie, Robert Lyon, Benjamin Stappers, Arrykrishna Mootoovaloo and Vanessa McBride(参考訳) 変光星のそれぞれのサブタイプへの正確な自動分類は困難である。 機械学習に基づくソリューションは、しばしば不均衡な学習問題に悪影響を及ぼし、特に希少な変光星サブタイプにおいて、実際的な一般化性能が低下する。 これまで我々は,階層型機械学習分類器の開発を通じて,そのような欠陥を克服しようと試みてきた。 この'algorithm-level'アプローチは、不均衡に取り組むために、カタリナリアルタイムサーベイ(crts)データに有望な結果をもたらし、この領域で以前適用されていたバイナリおよびマルチクラス分類スキームを上回った。 本研究では,学習データを直接強化するために「データレベル」アプローチを適用することにより,階層的分類性能をさらに向上させようとする。 例えば、$\textit{r}$andomly $\textit{a}$ugmented $\textit{s}$ampled $\textit{l}$ight curves from magnitude $\textit{e}$rror ($\texttt{rasle}$)、ガウス的プロセスモデリング($\texttt{gpfit}$)と合成的マイノリティオーバーサンプリング($\textt{smote}$)による光曲線の拡張である。 agorithm-level'(すなわち階層スキーム)と'data-level'アプローチを組み合わせることで、変光星の分類精度をさらに1-4$\%$向上させる。 階層モデルで$\texttt{GpFit}$を使用すると,より高い分類率が得られることがわかった。 測定値のさらなる改善には、正しく同定された変光星のより良い標準セットが必要である。

The accurate automated classification of variable stars into their respective sub-types is difficult. Machine learning based solutions often fall foul of the imbalanced learning problem, which causes poor generalisation performance in practice, especially on rare variable star sub-types. In previous work, we attempted to overcome such deficiencies via the development of a hierarchical machine learning classifier. This 'algorithm-level' approach to tackling imbalance, yielded promising results on Catalina Real-Time Survey (CRTS) data, outperforming the binary and multi-class classification schemes previously applied in this area. In this work, we attempt to further improve hierarchical classification performance by applying 'data-level' approaches to directly augment the training data so that they better describe under-represented classes. We apply and report results for three data augmentation methods in particular: $\textit{R}$andomly $\textit{A}$ugmented $\textit{S}$ampled $\textit{L}$ight curves from magnitude $\textit{E}$rror ($\texttt{RASLE}$), augmenting light curves with Gaussian Process modelling ($\texttt{GpFit}$) and the Synthetic Minority Over-sampling Technique ($\texttt{SMOTE}$). When combining the 'algorithm-level' (i.e. the hierarchical scheme) together with the 'data-level' approach, we further improve variable star classification accuracy by 1-4$\%$. We found that a higher classification rate is obtained when using $\texttt{GpFit}$ in the hierarchical model. Further improvement of the metric scores requires a better standard set of correctly identified variable stars and, perhaps enhanced features are needed.
翻訳日:2022-12-28 09:34:17 公開日:2020-02-27
# MajorityNets: 効率を改善するために近似人口を利用するBNN

MajorityNets: BNNs Utilising Approximate Popcount for Improved Efficiency ( http://arxiv.org/abs/2002.12900v1 )

ライセンス: Link先を確認
Seyedramin Rasoulinezhad, Sean Fox, Hao Zhou, Lingli Wang, David Boland, Philip H.W. Leong(参考訳) 二元化ニューラルネットワーク(BNN)は、領域、エネルギー、レイテンシの制約が最重要である組み込み実装でニューラルネットワークを利用するエキサイティングな可能性を示している。 BNNでは、Multiply-accumulate (MAC)操作をXnorPopcount操作に単純化することができ、メモリと計算リソースの両方が大幅に削減される。 さらに、フィールドプログラマブルゲートアレイ(FPGA)の実装において、BNNの複数の効率的な実装が報告されている。 本稿では,FPGA実装の恩恵を受ける最新のFPGAルックアップテーブルスキームに触発された,XnorPopcountoperation のより小さく,よりエネルギー効率の良い近似置換 XNorMaj を提案する。 XNorMajはXnorPopcount操作の最大2倍のリソース効率を持つことを示す。 xnormaj操作は正確性に小さな有害な影響を与えるが、リソースの節約により、大きなネットワークを使って損失を回復できる。

Binarized neural networks (BNNs) have shown exciting potential for utilising neural networks in embedded implementations where area, energy and latency constraints are paramount. With BNNs, multiply-accumulate (MAC) operations can be simplified to XnorPopcount operations, leading to massive reductions in both memory and computation resources. Furthermore, multiple efficient implementations of BNNs have been reported on field-programmable gate array (FPGA) implementations. This paper proposes a smaller, faster, more energy-efficient approximate replacement for the XnorPopcountoperation, called XNorMaj, inspired by state-of-the-art FPGAlook-up table schemes which benefit FPGA implementations. Weshow that XNorMaj is up to 2x more resource-efficient than the XnorPopcount operation. While the XNorMaj operation has a minor detrimental impact on accuracy, the resource savings enable us to use larger networks to recover the loss.
翻訳日:2022-12-28 09:33:30 公開日:2020-02-27
# BBAND Index:非参照帯状アーチファクト予測器

BBAND Index: A No-Reference Banding Artifact Predictor ( http://arxiv.org/abs/2002.11891v1 )

ライセンス: Link先を確認
Zhengzhong Tu, Jessie Lin, Yilin Wang, Balu Adsumilli, and Alan C. Bovik(参考訳) バンドングアーティファクト(英: banding artifact)は、エンコードされたビデオにおいて、大きな平坦な領域に現れる傾向がある一般的なビデオ圧縮障害である。 これらの階段型のカラーバンドは、高精細度ビデオで非常に目立つ。 そこで本研究では,Blind BANding Detector(BBANDインデックス)と呼ばれる,新たな歪み特異的な非参照ビデオ品質モデルを提案する。 BBANDは人間の視覚モデルにインスパイアされている。 提案した検出器は、画素単位のバンドリング可視マップを生成し、フレームレベルとビデオレベルの両方でバンドリング重大度スコアを出力することができる。 実験の結果,提案手法は最先端のバンディング検出アルゴリズムよりも優れており,主観的評価との一貫性が向上した。

Banding artifact, or false contouring, is a common video compression impairment that tends to appear on large flat regions in encoded videos. These staircase-shaped color bands can be very noticeable in high-definition videos. Here we study this artifact, and propose a new distortion-specific no-reference video quality model for predicting banding artifacts, called the Blind BANding Detector (BBAND index). BBAND is inspired by human visual models. The proposed detector can generate a pixel-wise banding visibility map and output a banding severity score at both the frame and video levels. Experimental results show that our proposed method outperforms state-of-the-art banding detection algorithms and delivers better consistency with subjective evaluations.
翻訳日:2022-12-28 09:33:13 公開日:2020-02-27
# 3次元ディジタル乳房結合分類のための2次元畳み込みニューラルネットワーク

2D Convolutional Neural Networks for 3D Digital Breast Tomosynthesis Classification ( http://arxiv.org/abs/2002.12314v1 )

ライセンス: Link先を確認
Yu Zhang, Xiaoqin Wang, Hunter Blanton, Gongbo Liang, Xin Xing, and Nathan Jacobs(参考訳) 乳がん検診の自動化手法は2Dマンモグラフィーに焦点をあてており、臨床で頻繁に用いられる3Dデジタル乳腺合成(DBT)は無視されている。 dbt分類の自動化手法を開発する上での2つの重要な課題は、スライス数の可変処理とスライスからスライスへの変更の保持である。 両課題を同時に克服するDBT分類のための,新しい2次元畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 提案手法は,スライス数に関わらず全ボリュームで動作するため,注釈付きトレーニングデータが少ないため,事前学習した2D CNNを特徴抽出に利用することができる。 実世界の臨床データセットに対する広範な評価では,3次元CNNに基づくアプローチよりも28.80%高い0.854 auROCを達成した。 また、これらの改善はさまざまなモデル構成で安定しています。

Automated methods for breast cancer detection have focused on 2D mammography and have largely ignored 3D digital breast tomosynthesis (DBT), which is frequently used in clinical practice. The two key challenges in developing automated methods for DBT classification are handling the variable number of slices and retaining slice-to-slice changes. We propose a novel deep 2D convolutional neural network (CNN) architecture for DBT classification that simultaneously overcomes both challenges. Our approach operates on the full volume, regardless of the number of slices, and allows the use of pre-trained 2D CNNs for feature extraction, which is important given the limited amount of annotated training data. In an extensive evaluation on a real-world clinical dataset, our approach achieves 0.854 auROC, which is 28.80% higher than approaches based on 3D CNNs. We also find that these improvements are stable across a range of model configurations.
翻訳日:2022-12-28 09:32:57 公開日:2020-02-27
# 共同2D-3D乳癌分類

Joint 2D-3D Breast Cancer Classification ( http://arxiv.org/abs/2002.12392v1 )

ライセンス: Link先を確認
Gongbo Liang, Xiaoqin Wang, Yu Zhang, Xin Xing, Hunter Blanton, Tawfiq Salem, Nathan Jacobs(参考訳) 乳癌は、女性の癌死亡率が最も高い悪性腫瘍である。 デジタルマンモグラフィ(digital mammogram、dmまたは2d mammogram)とデジタルマンモグラフィ(digital breast tomo synthesis、dbtまたは3d mammogram)は、乳がんの診断と診断のために臨床で用いられる2種類のマンモグラフィ画像である。 放射線技師は通常、両方の画像モダリティを組み合わせて読むが、既存のコンピュータ支援診断ツールは1つの画像モダリティのみを用いて設計されている。 そこで本研究では, 2次元および3次元のマンモグラムを同時に用いる, 乳がん分類のための革新的な畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。 提案法が乳癌の分類精度を大幅に向上させることを示す。 3つのcnn分類器を組み立てることで、提案したモデルは 0.97 auc を達成し、これは1つのイメージングモダリティのみを使用する方法よりも34.72%高い。

Breast cancer is the malignant tumor that causes the highest number of cancer deaths in females. Digital mammograms (DM or 2D mammogram) and digital breast tomosynthesis (DBT or 3D mammogram) are the two types of mammography imagery that are used in clinical practice for breast cancer detection and diagnosis. Radiologists usually read both imaging modalities in combination; however, existing computer-aided diagnosis tools are designed using only one imaging modality. Inspired by clinical practice, we propose an innovative convolutional neural network (CNN) architecture for breast cancer classification, which uses both 2D and 3D mammograms, simultaneously. Our experiment shows that the proposed method significantly improves the performance of breast cancer classification. By assembling three CNN classifiers, the proposed model achieves 0.97 AUC, which is 34.72% higher than the methods using only one imaging modality.
翻訳日:2022-12-28 09:32:42 公開日:2020-02-27
# 強化学習による制御剛性を最適化した組立ロボット

Assembly robots with optimized control stiffness through reinforcement learning ( http://arxiv.org/abs/2002.12207v1 )

ライセンス: Link先を確認
Masahide Oikawa, Kyo Kutsuzawa, Sho Sakaino, Toshiaki Tsuji(参考訳) ロボットのタスク自動化に対する需要が高まっている。 一連の操作で複数の接触遷移が発生するコンタクトリッチタスクは、高い精度を実現するために広く研究されている。 本研究では,ロボットの強化学習(RL)を用いて,損傷を生じさせることなく,物体との正確な接触を必要とする組立作業を実行する手法を提案する。 提案手法は,局所軌道最適化の性能向上に役立つ剛性行列のオンライン生成を保証する。 この手法は軌道計画の短サンプリング時間による迅速な応答の利点がある。 本手法の有効性は,2つのコンタクトリッチタスクを含む実験により検証した。 提案手法は様々なコンタクトリッチな操作で実装可能であることを示す。 デモビデオはパフォーマンスを示しています。 (https://youtu.be/gxSCl7Tp4-0)

There is an increased demand for task automation in robots. Contact-rich tasks, wherein multiple contact transitions occur in a series of operations, are extensively being studied to realize high accuracy. In this study, we propose a methodology that uses reinforcement learning (RL) to achieve high performance in robots for the execution of assembly tasks that require precise contact with objects without causing damage. The proposed method ensures the online generation of stiffness matrices that help improve the performance of local trajectory optimization. The method has an advantage of rapid response owing to short sampling time of the trajectory planning. The effectiveness of the method was verified via experiments involving two contact-rich tasks. The results indicate that the proposed method can be implemented in various contact-rich manipulations. A demonstration video shows the performance. (https://youtu.be/gxSCl7Tp4-0)
翻訳日:2022-12-28 09:32:00 公開日:2020-02-27
# アクティブセット型コンビネーションリコンディショニングによるグラフ総変動の最適化

Optimization of Graph Total Variation via Active-Set-based Combinatorial Reconditioning ( http://arxiv.org/abs/2002.12236v1 )

ライセンス: Link先を確認
Zhenzhang Ye, Thomas M\"ollenhoff, Tao Wu, Daniel Cremers(参考訳) 重み付きグラフの構造化凸最適化は、機械学習とコンピュータビジョンに多くの応用がある。 本稿では,本問題クラスにおける近位アルゴリズムの適応的事前条件付け手法を提案する。 我々のプレコンディショナーは、現在の繰り返しの「アクティブセット」に依存する局所線形収束率の鋭い解析によって駆動される。 不活性な辺のネストフォレスト分解は、保証された局所線形収束率をもたらす。 さらに,このようなネスト分解を実現する実用的グリーディヒューリスティックを提案し,本手法を近似勾配法や原始双対ハイブリッド勾配法に適用した場合,競合性能が向上することを示す数値実験を行った。 この結果から,局所収束解析は近似アルゴリズムにおける可変指標選択の指針となることが示唆された。

Structured convex optimization on weighted graphs finds numerous applications in machine learning and computer vision. In this work, we propose a novel adaptive preconditioning strategy for proximal algorithms on this problem class. Our preconditioner is driven by a sharp analysis of the local linear convergence rate depending on the "active set" at the current iterate. We show that nested-forest decomposition of the inactive edges yields a guaranteed local linear convergence rate. Further, we propose a practical greedy heuristic which realizes such nested decompositions and show in several numerical experiments that our reconditioning strategy, when applied to proximal gradient or primal-dual hybrid gradient algorithm, achieves competitive performances. Our results suggest that local convergence analysis can serve as a guideline for selecting variable metrics in proximal algorithms.
翻訳日:2022-12-28 09:27:02 公開日:2020-02-27
# 輪郭規則化ハイブリッドネットによるCCTAスキャンの冠動脈壁分画

Coronary Wall Segmentation in CCTA Scans via a Hybrid Net with Contours Regularization ( http://arxiv.org/abs/2002.12263v1 )

ライセンス: Link先を確認
Kaikai Huang and Antonio Tejero-de-Pablos and Hiroaki Yamane and Yusuke Kurose and Junichi Iho and Youji Tokunaga and Makoto Horie and Keisuke Nishizawa and Yusaku Hayashi and Yasushi Koyama and Tatsuya Harada(参考訳) 冠動脈疾患(cad)の診断において循環器科医の補助には,冠動脈の閉鎖的・密接な境界を提供することが不可欠である。 近年,医療画像における境界検出とセグメンテーションのための深層学習手法が提案されている。 しかし、冠動脈壁の検出に適用すると、不正確な境界が生じる傾向がある。 本稿では,冠動脈境界の連続性と接続性に着目した新しい冠動脈境界検出法を提案する。 連続した画像の空間的連続性をモデル化するために、我々のハイブリッドアーキテクチャは、入力としてボリューム(すなわち冠状動脈のセグメント)を取り、ターゲットスライスの境界(すなわち、セグメントの中央スライス)を検出する。 そこで, 閉境界を確保するために, 輪郭制約付き重み付きハウスドルフ距離損失を提案する。 冠動脈造影検査(ct angiography)を施行した34例を対象に, 冠動脈の湾曲平面再構成(ccta-cpr)により検討した。 実験の結果,本手法は最先端の精度よりも滑らかな閉じた境界を生成できることがわかった。

Providing closed and well-connected boundaries of coronary artery is essential to assist cardiologists in the diagnosis of coronary artery disease (CAD). Recently, several deep learning-based methods have been proposed for boundary detection and segmentation in a medical image. However, when applied to coronary wall detection, they tend to produce disconnected and inaccurate boundaries. In this paper, we propose a novel boundary detection method for coronary arteries that focuses on the continuity and connectivity of the boundaries. In order to model the spatial continuity of consecutive images, our hybrid architecture takes a volume (i.e., a segment of the coronary artery) as input and detects the boundary of the target slice (i.e., the central slice of the segment). Then, to ensure closed boundaries, we propose a contour-constrained weighted Hausdorff distance loss. We evaluate our method on a dataset of 34 patients of coronary CT angiography scans with curved planar reconstruction (CCTA-CPR) of the arteries (i.e., cross-sections). Experiment results show that our method can produce smooth closed boundaries outperforming the state-of-the-art accuracy.
翻訳日:2022-12-28 09:26:47 公開日:2020-02-27
# RSANet:多発性硬化症病変分類のためのスライスワイズ注意ネットワーク

RSANet: Recurrent Slice-wise Attention Network for Multiple Sclerosis Lesion Segmentation ( http://arxiv.org/abs/2002.12470v1 )

ライセンス: Link先を確認
Hang Zhang, Jinwei Zhang, Qihao Zhang, Jeremy Kim, Shun Zhang, Susan A. Gauthier, Pascal Spincemaille, Thanh D. Nguyen, Mert R. Sabuncu, and Yi Wang(参考訳) t2強調mri画像による脳病変容積は多発性硬化症(ms)における臨床的に重要な疾患マーカーである。 MS病変のマニュアル・デライン化は, 時間を要する, 高い操作性に依存した作業であり, 病変の大きさ, 形状, 目立たしさに影響される。 近年,深層ニューラルネットワークに基づく自動病変分割アルゴリズムが開発され,有望な結果が得られた。 本稿では,3次元MRI画像をスライスシーケンスとしてモデル化し,MS病変のコンテキスト情報を活用するために,リカレントな方法で長距離依存関係をキャプチャする新しいリカレントスライスワイドアテンションネットワーク(RSANet)を提案する。 43人の患者を対象にしたデータセット実験により,提案手法が最先端のアプローチより優れていることが示された。 実装はhttps://github.com/tinymilky/rsanetで利用可能です。

Brain lesion volume measured on T2 weighted MRI images is a clinically important disease marker in multiple sclerosis (MS). Manual delineation of MS lesions is a time-consuming and highly operator-dependent task, which is influenced by lesion size, shape and conspicuity. Recently, automated lesion segmentation algorithms based on deep neural networks have been developed with promising results. In this paper, we propose a novel recurrent slice-wise attention network (RSANet), which models 3D MRI images as sequences of slices and captures long-range dependencies through a recurrent manner to utilize contextual information of MS lesions. Experiments on a dataset with 43 patients show that the proposed method outperforms the state-of-the-art approaches. Our implementation is available online at https://github.com/tinymilky/RSANet.
翻訳日:2022-12-28 09:26:26 公開日:2020-02-27
# レーダー3次元物体検出の深層学習

Deep Learning on Radar Centric 3D Object Detection ( http://arxiv.org/abs/2003.00851v1 )

ライセンス: Link先を確認
Seungjun Lee(参考訳) 既存の3Dオブジェクト検出アルゴリズムの多くはカメラとLiDARに依存しているが、カメラとLiDARは厳しい天候や照明条件の影響を受けやすい。 一方、レーダーはそのような条件に耐性がある。 しかし、最近の研究でレーダーデータにディープニューラルネットワークを適用することが判明した。 本稿では,レーダーのみを用いた3次元物体検出のための深層学習手法を提案する。 私たちの知る限りでは、私たちは、公開レーダデータセットでトレーニングされたレーダーのみを用いたディープラーニングベースの3Dオブジェクト検出モデルを初めてデモしました。 レーダラベル付きデータの欠如を克服するために,レーダライクな点雲データとアグレッシブなレーダ拡張技術に変換することで,豊富なLiDARデータを利用する新しい手法を提案する。

Even though many existing 3D object detection algorithms rely mostly on camera and LiDAR, camera and LiDAR are prone to be affected by harsh weather and lighting conditions. On the other hand, radar is resistant to such conditions. However, research has found only recently to apply deep neural networks on radar data. In this paper, we introduce a deep learning approach to 3D object detection with radar only. To the best of our knowledge, we are the first ones to demonstrate a deep learning-based 3D object detection model with radar only that was trained on the public radar dataset. To overcome the lack of radar labeled data, we propose a novel way of making use of abundant LiDAR data by transforming it into radar-like point cloud data and aggressive radar augmentation techniques.
翻訳日:2022-12-28 09:26:11 公開日:2020-02-27
# 高次元一般化線形モデルに対するチューニング自由尾根推定器

Tuning-free ridge estimators for high-dimensional generalized linear models ( http://arxiv.org/abs/2002.11916v1 )

ライセンス: Link先を確認
Shih-Ting Huang, Fang Xie, and Johannes Lederer(参考訳) リッジ推定器は2乗ユークリッド長のパラメータを正規化する。 このような推定器は数理的にも計算的にも魅力的であるが、校正が難しいチューニングパラメータが伴う。 本稿では,リッジ推定器を調整パラメータを完全に回避できるように修正可能であることを示す。 また、これらの修正版は、標準リッジ推定器とクロスバリデーションを組み合わせることで、経験的予測精度を向上させることができることを示す。

Ridge estimators regularize the squared Euclidean lengths of parameters. Such estimators are mathematically and computationally attractive but involve tuning parameters that can be difficult to calibrate. In this paper, we show that ridge estimators can be modified such that tuning parameters can be avoided altogether. We also show that these modified versions can improve on the empirical prediction accuracies of standard ridge estimators combined with cross-validation, and we provide first theoretical guarantees.
翻訳日:2022-12-28 09:25:59 公開日:2020-02-27
# SkinAugment:自動音声翻訳のための自動符号化話者変換

SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech Translation ( http://arxiv.org/abs/2002.12231v1 )

ライセンス: Link先を確認
Arya D. McCarthy and Liezl Puzon and Juan Pino(参考訳) 自動音声翻訳における訓練データ拡張のための自動符号化話者変換を提案する。 この技術は直接音声シーケンスを変換し、その結果、他の話者の声に似た音声が合成される。 提案手法は,英語のSpecAugment on English$\to$ French and English$\to$Romanian Automatic Speech Translation (AST) タスクと低リソースの英語自動音声認識 (ASR) タスクとを比較した。 さらに,アブレーションにおいて,拡張データの量と多様性の双方の利点を示す。 最後に、我々のアプローチと機械翻訳による拡張を組み合わせることで、英語$\to$ French ASTタスクにおいて非常に強力なカスケードモデルより優れた競合するエンドツーエンドASTモデルが得られることを示す。 提案手法は,他の音声生成・分析タスクに適用できるほど一般的である。

We propose autoencoding speaker conversion for training data augmentation in automatic speech translation. This technique directly transforms an audio sequence, resulting in audio synthesized to resemble another speaker's voice. Our method compares favorably to SpecAugment on English$\to$French and English$\to$Romanian automatic speech translation (AST) tasks as well as on a low-resource English automatic speech recognition (ASR) task. Further, in ablations, we show the benefits of both quantity and diversity in augmented data. Finally, we show that we can combine our approach with augmentation by machine-translated transcripts to obtain a competitive end-to-end AST model that outperforms a very strong cascade model on an English$\to$French AST task. Our method is sufficiently general that it can be applied to other speech generation and analysis tasks.
翻訳日:2022-12-28 09:18:38 公開日:2020-02-27
# 強重力レンズ同定におけるマルチクラスおよびバイナリ分類機械学習モデルの比較

Comparison of Multi-Class and Binary Classification Machine Learning Models in Identifying Strong Gravitational Lenses ( http://arxiv.org/abs/2002.11849v1 )

ライセンス: Link先を確認
Hossen Teimoorinia, Robert D. Toyonaga, Sebastien Fabbro, Connor Bottrell(参考訳) 通常、レンズ候補と非レンズを区別するために二分分類レンズフィンディングスキームが用いられる。 しかし、これらのモデルはしばしば実質的な偽陽性の分類に苦しむ。 このような偽陽性は、混み合った源、腕を持つ銀河、そして中央の源と周囲のより小さな源を含む画像によってしばしば起こる。 したがって、モデルがその条件をアインシュタイン環と混同することができる。 このような誤分類された画像タイプを独自のクラスにすることで、実際のレンズを含む画像とレンズインポスタを含む画像の違いを、機械学習モデルがより容易に学習できることが提案されている。 ハッブル宇宙望遠鏡 (hst) の画像を用いて, f814wフィルタを用いて, レンズ探索タスクに適用した二値分類モデルと多値分類モデルの比較を行った。 この結果から,バイナリモデル上でのマルチクラスモデルの利用には大きなメリットはない,という結論が得られた。 また、マルチクラス機械学習モデルを用いた簡単なレンズ探索の結果と、新しいレンズ候補の可能性についても述べる。

Typically, binary classification lens-finding schemes are used to discriminate between lens candidates and non-lenses. However, these models often suffer from substantial false-positive classifications. Such false positives frequently occur due to images containing objects such as crowded sources, galaxies with arms, and also images with a central source and smaller surrounding sources. Therefore, a model might confuse the stated circumstances with an Einstein ring. It has been proposed that by allowing such commonly misclassified image types to constitute their own classes, machine learning models will more easily be able to learn the difference between images that contain real lenses, and images that contain lens imposters. Using Hubble Space Telescope (HST) images, in the F814W filter, we compare the usage of binary and multi-class classification models applied to the lens finding task. From our findings, we conclude there is not a significant benefit to using the multi-class model over a binary model. We will also present the results of a simple lens search using a multi-class machine learning model, and potential new lens candidates.
翻訳日:2022-12-28 09:18:23 公開日:2020-02-27
# 脳ミッドライン記述のためのセグメンテーションベース手法と動的プログラミング

Segmentation-based Method combined with Dynamic Programming for Brain Midline Delineation ( http://arxiv.org/abs/2002.11918v1 )

ライセンス: Link先を確認
Shen Wang, Kongming Liang, Chengwei Pan, Chuyang Ye, Xiuli Li, Feng Liu, Yizhou Yu, Yizhou Wang(参考訳) 脳卒中や外傷性脳損傷(TBI)による脳圧迫の重症度を評価するには,中線関連画像の特徴が重要である。 自動ミッドラインデライン化は、脳卒中症状や頭部外傷の患者に対する評価と臨床判断を改善するだけでなく、診断の時間を短縮する。 それにもかかわらず、以前の手法のほとんどは解剖学的点を局所化することで中間線をモデル化しており、重篤な症例では検出や欠如が困難である。 本稿では,脳の中間線をセグメンテーションタスクとして定式化し,三段階の枠組みを提案する。 提案フレームワークはまず,入力されたCT画像を標準空間に整列する。 そして、coordconv層とカスケードatrouscconvモジュールとを一体化した中線検出ネットワーク(md-net)でアライメント画像を処理して確率マップを得る。 最後に, 最適中線選択を経路探索問題として定式化し, 中間線分割の不連続性の問題を解く。 実験の結果,提案フレームワークは1つの内部データセットと1つのパブリックデータセットにおいて優れた性能を達成できることがわかった。

The midline related pathological image features are crucial for evaluating the severity of brain compression caused by stroke or traumatic brain injury (TBI). The automated midline delineation not only improves the assessment and clinical decision making for patients with stroke symptoms or head trauma but also reduces the time of diagnosis. Nevertheless, most of the previous methods model the midline by localizing the anatomical points, which are hard to detect or even missing in severe cases. In this paper, we formulate the brain midline delineation as a segmentation task and propose a three-stage framework. The proposed framework firstly aligns an input CT image into the standard space. Then, the aligned image is processed by a midline detection network (MD-Net) integrated with the CoordConv Layer and Cascade AtrousCconv Module to obtain the probability map. Finally, we formulate the optimal midline selection as a pathfinding problem to solve the problem of the discontinuity of midline delineation. Experimental results show that our proposed framework can achieve superior performance on one in-house dataset and one public dataset.
翻訳日:2022-12-28 09:18:07 公開日:2020-02-27
# XSepConv: 極めて分離されたコンボリューション

XSepConv: Extremely Separated Convolution ( http://arxiv.org/abs/2002.12046v1 )

ライセンス: Link先を確認
Jiarong Chen, Zongqing Lu, Jing-Hao Xue, Qingmin Liao(参考訳) 奥行きの畳み込みは、現代の効率的なニューラルネットワークにとって、徐々に必須の操作となり、さらに大きなカーネルサイズ($\ge5$)が適用されるようになった。 本稿では,空間的に分離可能な畳み込みを奥行き畳み込みに融合させ,大規模カーネルの計算コストとパラメータサイズをさらに削減する,超分離型畳み込みブロック(XSepConv)を提案する。 さらに、空間的に分離可能な畳み込みによって引き起こされる副作用を補うために、改良された対称パディング戦略と組み合わされた2.2\times2$の奥行き畳み込みを用いる。 XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。 これを検証するために、XSepConvを最先端アーキテクチャMobileNetV3-Smallに使用し、4つの非常に競争の激しいベンチマークデータセット(CIFAR-10、CIFAR-100、SVHN、Tiny-ImageNet)で広範な実験を行い、XSepConvが精度と効率のトレードオフを実際に達成できることを示す。

Depthwise convolution has gradually become an indispensable operation for modern efficient neural networks and larger kernel sizes ($\ge5$) have been applied to it recently. In this paper, we propose a novel extremely separated convolutional block (XSepConv), which fuses spatially separable convolutions into depthwise convolution to further reduce both the computational cost and parameter size of large kernels. Furthermore, an extra $2\times2$ depthwise convolution coupled with improved symmetric padding strategy is employed to compensate for the side effect brought by spatially separable convolutions. XSepConv is designed to be an efficient alternative to vanilla depthwise convolution with large kernel sizes. To verify this, we use XSepConv for the state-of-the-art architecture MobileNetV3-Small and carry out extensive experiments on four highly competitive benchmark datasets (CIFAR-10, CIFAR-100, SVHN and Tiny-ImageNet) to demonstrate that XSepConv can indeed strike a better trade-off between accuracy and efficiency.
翻訳日:2022-12-28 09:17:23 公開日:2020-02-27
# データ代表性基準:データ集合の類似性に基づく教師付き分類の性能予測

The Data Representativeness Criterion: Predicting the Performance of Supervised Classification Based on Data Set Similarity ( http://arxiv.org/abs/2002.12105v1 )

ライセンス: Link先を確認
Evelien Schat, Rens van de Schoot, Wouter M. Kouw, Duco Veen, Adri\"enne M. Mendrik(参考訳) 幅広い分野において、教師付き分類アルゴリズムを再利用し、新しいデータセットに適用することが望ましいかもしれない。 しかし、そのようなアルゴリズムの一般化と類似の分類性能の実現は、アルゴリズムを構築するのに使用されるトレーニングデータが、適用したい新しい未認識データと似ている場合にのみ可能である。 アルゴリズムが未知のデータに対してどのように振る舞うかは事前には分かっておらず、アルゴリズムを全くデプロイしない重要な理由である。 そのため、データセットの類似性を測定するツールが必要となる。 本稿では,新しい未知データセットのトレーニングデータセットの表現方法を決定するために,データ代表性基準(data representativeness criterion, drc)を提案する。 本稿では、DRCがデータセットの類似性を定量化できるかどうか、およびDRCが教師付き分類アルゴリズムの性能に関係しているかどうかを原理として示す。 mri( magnetic resonance imaging)のデータセットをいくつか比較し,微妙な差異から取得パラメータの違いまでについて検討した。 結果は、データセットの類似性に基づいて、DRCが教師付き分類器の性能が低下した時期を示すことを示唆している。 DRCの厳密さは、ユーザーが許容できる低パフォーマンスとみなすものに応じて、ユーザによって設定できる。

In a broad range of fields it may be desirable to reuse a supervised classification algorithm and apply it to a new data set. However, generalization of such an algorithm and thus achieving a similar classification performance is only possible when the training data used to build the algorithm is similar to new unseen data one wishes to apply it to. It is often unknown in advance how an algorithm will perform on new unseen data, being a crucial reason for not deploying an algorithm at all. Therefore, tools are needed to measure the similarity of data sets. In this paper, we propose the Data Representativeness Criterion (DRC) to determine how representative a training data set is of a new unseen data set. We present a proof of principle, to see whether the DRC can quantify the similarity of data sets and whether the DRC relates to the performance of a supervised classification algorithm. We compared a number of magnetic resonance imaging (MRI) data sets, ranging from subtle to severe difference is acquisition parameters. Results indicate that, based on the similarity of data sets, the DRC is able to give an indication as to when the performance of a supervised classifier decreases. The strictness of the DRC can be set by the user, depending on what one considers to be an acceptable underperformance.
翻訳日:2022-12-28 09:16:33 公開日:2020-02-27
# CT画像デノイングのための多サイクル共振器ネットワーク

Multi-Cycle-Consistent Adversarial Networks for CT Image Denoising ( http://arxiv.org/abs/2002.12130v1 )

ライセンス: Link先を確認
Jinglan Liu, Yukun Ding, Jinjun Xiong, Qianjun Jia, Meiping Huang, Jian Zhuang, Bike Xie, Chun-Chen Liu, Yiyu Shi(参考訳) CT画像のデノイズ化は、ソースドメインの$X$(ノイズ画像)とターゲットドメインの$Y$(クリーン画像)との変換を学ぶことを目標とする画像から画像への変換タスクとして扱うことができる。 近年、CCADN(Cycle-Consistent Adversarial Denoising Network)は、ペアトレーニングデータを必要としないサイクル-Consistent Losを強制することで、最先端の成果を上げている。 CCADNの詳細な分析は、多くの興味深い疑問を提起する。 例えば、ノイズが大きい場合、ドメイン $x$ とドメイン $y$ の間に大きな差が生じた場合、中間ドメイン $z$ で$x$ と $y$ を橋渡しできますか? このような中間ドメインが複数のサイクルにつながるので、どのようにしてサイクル一貫性を強制するか? そこで本研究では,中間ドメインを構築し,局所的およびグローバル的サイクル一貫性を強制するマルチサイクル整合逆ネットワーク (mccan) を提案する。 グローバルサイクル整合性は、すべてのジェネレータを結合してデノナイジングプロセス全体をモデル化し、一方、局所サイクル整合性は隣り合うドメイン間のプロセスに効果的な監督を課す。 実験の結果,局地的・グローバルなサイクル整合性がMCCANの成功に重要であることが明らかとなった。

CT image denoising can be treated as an image-to-image translation task where the goal is to learn the transform between a source domain $X$ (noisy images) and a target domain $Y$ (clean images). Recently, cycle-consistent adversarial denoising network (CCADN) has achieved state-of-the-art results by enforcing cycle-consistent loss without the need of paired training data. Our detailed analysis of CCADN raises a number of interesting questions. For example, if the noise is large leading to significant difference between domain $X$ and domain $Y$, can we bridge $X$ and $Y$ with an intermediate domain $Z$ such that both the denoising process between $X$ and $Z$ and that between $Z$ and $Y$ are easier to learn? As such intermediate domains lead to multiple cycles, how do we best enforce cycle-consistency? Driven by these questions, we propose a multi-cycle-consistent adversarial network (MCCAN) that builds intermediate domains and enforces both local and global cycle-consistency. The global cycle-consistency couples all generators together to model the whole denoising process, while the local cycle-consistency imposes effective supervision on the process between adjacent domains. Experiments show that both local and global cycle-consistency are important for the success of MCCAN, which outperforms the state-of-the-art.
翻訳日:2022-12-28 09:15:53 公開日:2020-02-27
# フォーラムディスカッションにおけるコメントランキングの多様化

Comment Ranking Diversification in Forum Discussions ( http://arxiv.org/abs/2002.12457v1 )

ライセンス: Link先を確認
Curtis G. Northcutt, Kimberly A. Leon, Naichun Chen(参考訳) 数百以上のコメントを持つディスカッションフォーラムの閲覧は、トップランクのコメントしか見ることができないため、ランキングに依存する。 コメントが順序付きスコア(リプライ数やアップボイト数など)でランク付けされた場合、ほぼランク付けされたコメントのセマンティックな類似性を調整することなく、トップランクのコメントは多数意見と冗長性を強調する傾向にある。 本稿では,MMR(Maximal Marginal Relevance)を用いたトップKコメントの再分類モデルを提案し,その影響を(1)意味的多様性,(2)下級コメントの意味論の含意,(3)冗長性の3つのカテゴリで評価する。 本研究は,多彩度ランキングの上位5点と得点順の基準ランクの2点を被験者が選択することを目的とした,二重盲検小規模評価実験を行った。 対象者は,100の試験において,多変量化(75%,25%の多変量化)を,(1)多変量化,(2)包括的化,(3)冗長度低下の順に選択した。 各カテゴリの信頼性は中等度で,典型的なコーエンカッパスコアは0.2。 その結果,(1)多様化,(2)包括性,(3)冗長性が改善され,オンラインディスカッションフォーラムの上位kランクのコメントの中で評価された。

Viewing consumption of discussion forums with hundreds or more comments depends on ranking because most users only view top-ranked comments. When comments are ranked by an ordered score (e.g. number of replies or up-votes) without adjusting for semantic similarity of near-ranked comments, top-ranked comments are more likely to emphasize the majority opinion and incur redundancy. In this paper, we propose a top K comment diversification re-ranking model using Maximal Marginal Relevance (MMR) and evaluate its impact in three categories: (1) semantic diversity, (2) inclusion of the semantics of lower-ranked comments, and (3) redundancy, within the context of a HarvardX course discussion forum. We conducted a double-blind, small-scale evaluation experiment requiring subjects to select between the top 5 comments of a diversified ranking and a baseline ranking ordered by score. For three subjects, across 100 trials, subjects selected the diversified (75% score, 25% diversification) ranking as significantly (1) more diverse, (2) more inclusive, and (3) less redundant. Within each category, inter-rater reliability showed moderate consistency, with typical Cohen-Kappa scores near 0.2. Our findings suggest that our model improves (1) diversification, (2) inclusion, and (3) redundancy, among top K ranked comments in online discussion forums.
翻訳日:2022-12-28 09:09:50 公開日:2020-02-27
# ディープラーニングアクセラレータのためのメモリアクセスパターンの最適化

Optimizing Memory-Access Patterns for Deep Learning Accelerators ( http://arxiv.org/abs/2002.12798v1 )

ライセンス: Link先を確認
Hongbin Zheng, Sejong Oh, Huiqing Wang, Preston Briggs, Jiading Gai, Animesh Jain, Yizhi Liu, Rich Heaton, Randy Huang, Yida Wang(参考訳) ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータに向かっている。 現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積演算を扱うのに長けているが、ソフトウェア管理スクラッチパッドメモリでデータを適切に実行しなければならないため、アクセラレータの計算能力を完全に活用することは困難である。 失敗するとパフォーマンスが大幅に低下する可能性がある。 本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。 実験の結果,Amazon EC2 Inf1インスタンスを通じて利用可能な,自家製のAWS機械学習推論チップであるInferentiaに対する,一般的なニューラルネットワークモデルに必要なメモリアクセスの影響を大幅に低減できることがわかった。

Deep learning (DL) workloads are moving towards accelerators for faster processing and lower cost. Modern DL accelerators are good at handling the large-scale multiply-accumulate operations that dominate DL workloads; however, it is challenging to make full use of the compute power of an accelerator since the data must be properly staged in a software-managed scratchpad memory. Failing to do so can result in significant performance loss. This paper proposes a systematic approach which leverages the polyhedral model to analyze all operators of a DL model together to minimize the number of memory accesses. Experiments show that our approach can substantially reduce the impact of memory accesses required by common neural-network models on a homegrown AWS machine-learning inference chip named Inferentia, which is available through Amazon EC2 Inf1 instances.
翻訳日:2022-12-28 09:09:24 公開日:2020-02-27
# 第8回教育用ソフトウェアの定理証明コンポーネントに関する国際ワークショップ

Proceedings 8th International Workshop on Theorem Proving Components for Educational Software ( http://arxiv.org/abs/2002.11895v1 )

ライセンス: Link先を確認
Pedro Quaresma (University of Coimbra, Portugal), Walther Neuper (Graz University of Technology, Austria), Jo\~ao Marcos (UFRN, Brazil)(参考訳) このEPTCSの巻には、2019年8月25日にブラジルのナタールで行われたCADE-27の衛星イベントとして宣伝されたThEdu'19ワークショップの手続きが含まれている。 Theduシリーズの8番目の導入を代表して、Sarah Winkler氏による招待講演、4つのコントリビューション、Geometry Automated Provers Competitionの第1版が開催された。 ワークショップの後、公募が発行され、7件の提出書が寄せられ、そのうち6件が審査員によって受理され、現在発行後巻にまとめられている。 セドゥ級数(Thedu series)は、中等教育における数学の直感的な方法から、STEM教育におけるより形式的なアプローチへのスムーズな移行を追求する一方で、定理証明技術の力を活用して、この移行に対するソフトウェアサポートを支持する。 巻の編集者は、この論文集が定理に基づくソフトウェアの開発をさらに促進し、コンピュータ数学者と教育ステークホルダーの相互理解の改善に協力することを望んでいる。

This EPTCS volume contains the proceedings of the ThEdu'19 workshop, promoted on August 25, 2019, as a satellite event of CADE-27, in Natal, Brazil. Representing the eighth installment of the ThEdu series, ThEdu'19 was a vibrant workshop, with an invited talk by Sarah Winkler, four contributions, and the first edition of a Geometry Automated Provers Competition. After the workshop an open call for papers was issued and attracted seven submissions, six of which have been accepted by the reviewers, and collected in the present post-proceedings volume. The ThEdu series pursues the smooth transition from an intuitive way of doing mathematics at secondary school to a more formal approach to the subject in STEM education, while favoring software support for this transition by exploiting the power of theorem-proving technologies. The volume editors hope that this collection of papers will further promote the development of theorem-proving-based software, and that it will collaborate on improving mutual understanding between computer mathematicians and stakeholders in education.
翻訳日:2022-12-28 09:08:43 公開日:2020-02-27
# C-CoCoA: 機能的DCOPを解くための連続的協調制約近似アルゴリズム

C-CoCoA: A Continuous Cooperative Constraint Approximation Algorithm to Solve Functional DCOPs ( http://arxiv.org/abs/2002.12427v1 )

ライセンス: Link先を確認
Amit Sarker, Abdullahil Baki Arif, Moumita Choudhury, Md. Mosaddek Khan(参考訳) 分散制約最適化問題(DCOP)は、協調型マルチエージェントシステムにおける相互作用(すなわち制約)の協調に広く用いられている。 従来のDCOPモデルは、エージェントが所有する変数は離散値のみを取ることができ、制約のコスト関数は変数の集合の可能な値割り当て毎に定義されると仮定している。 この定式化はしばしば合理的であるが、変数が連続決定変数であり、制約が関数形式である多くの応用がある。 この制限を克服するため、連続変数で問題をモデル化できる関数型DCOP(F-DCOP)モデルが提案されている。 既存のF-DCOPアルゴリズムは膨大な計算と通信オーバーヘッドを経験する。 本稿では,協調制約近似(CoCoA)アルゴリズムに非線形最適化法を適用した。 提案アルゴリズムは,既存のF-DCOPアルゴリズムと比較して通信コストと実行時間を削減し,高品質な解が得られることを実証的に示す。

Distributed Constraint Optimization Problems (DCOPs) have been widely used to coordinate interactions (i.e. constraints) in cooperative multi-agent systems. The traditional DCOP model assumes that variables owned by the agents can take only discrete values and constraints' cost functions are defined for every possible value assignment of a set of variables. While this formulation is often reasonable, there are many applications where the variables are continuous decision variables and constraints are in functional form. To overcome this limitation, Functional DCOP (F-DCOP) model is proposed that is able to model problems with continuous variables. The existing F-DCOPs algorithms experience huge computation and communication overhead. This paper applies continuous non-linear optimization methods on Cooperative Constraint Approximation (CoCoA) algorithm. We empirically show that our algorithm is able to provide high-quality solutions at the expense of smaller communication cost and execution time compared to the existing F-DCOP algorithms.
翻訳日:2022-12-28 09:08:01 公開日:2020-02-27
# ML専門家はAIシステムの説明可能性について議論しているか? ドメイン固有のソリューションの業界における議論事例

Do ML Experts Discuss Explainability for AI Systems? A discussion case in the industry for a domain-specific solution ( http://arxiv.org/abs/2002.12450v1 )

ライセンス: Link先を確認
Juliana Jansen Ferreira and Mateus de Souza Monteiro(参考訳) さまざまな分野におけるAI(Artificial Intelligence)ツールの応用は、業界で卓越したいと願うすべての企業にとって必須となっている。 AIを成功させる上での大きな課題のひとつは、機械学習(ML)の専門知識とドメイン知識を組み合わせて、AIツールを適用した最高の結果を得ることだ。 ドメインスペシャリストは、データとそれが意思決定に与える影響を理解する。 ML専門家は、大量のデータを扱うAIベースのツールを使用して、ドメインエキスパートの洞察を生成することができる。 しかし、データに対する深い理解がなければ、MLの専門家は特定のドメインに対して最適な結果を得るためにモデルを調整できません。 したがって、ドメインエキスパートはMLツールの主要なユーザであり、これらのAIツールの説明可能性はそのコンテキストにおいて不可欠な機能となる。 さまざまなコンテキスト、ユーザ、目標に対するAI説明可能性の研究には、多くの取り組みがあります。 本稿では、特定のドメイン向けに開発されるmlツールの機能を定義しながら、機械学習の専門家がaiの説明可能性に対する懸念を表現する方法に関する興味深い知見について論じる。 我々は,2つのブレインストーミングセッションのデータを分析し,MLツールの機能について議論し,地震データ(ドメイン固有のデータ)をMLリソースで分析する地学者(ドメインの専門家)を支援する。

The application of Artificial Intelligence (AI) tools in different domains are becoming mandatory for all companies wishing to excel in their industries. One major challenge for a successful application of AI is to combine the machine learning (ML) expertise with the domain knowledge to have the best results applying AI tools. Domain specialists have an understanding of the data and how it can impact their decisions. ML experts have the ability to use AI-based tools dealing with large amounts of data and generating insights for domain experts. But without a deep understanding of the data, ML experts are not able to tune their models to get optimal results for a specific domain. Therefore, domain experts are key users for ML tools and the explainability of those AI tools become an essential feature in that context. There are a lot of efforts to research AI explainability for different contexts, users and goals. In this position paper, we discuss interesting findings about how ML experts can express concerns about AI explainability while defining features of an ML tool to be developed for a specific domain. We analyze data from two brainstorm sessions done to discuss the functionalities of an ML tool to support geoscientists (domain experts) on analyzing seismic data (domain-specific data) with ML resources.
翻訳日:2022-12-28 09:07:47 公開日:2020-02-27
# 距離メトリクス近似のための区分線形回帰

Piecewise linear regressions for approximating distance metrics ( http://arxiv.org/abs/2002.12466v1 )

ライセンス: Link先を確認
Josiah Putman, Lisa Oh, Luyang Zhao, Evan Honnold, Galen Brown, Weifu Wang, Devin Balkcom(参考訳) 本稿では,ロボット構成空間における構成間の距離を,距離関数の局所線形近似に用いるパラメータを含む二項空間分割を用いて要約したデータ構造を提案する。 データ構造のクエリは、特に確率的ロードマップのクエリに必要なグラフ検索と比較して非常に高速であり、メモリ要件は有望である。 本稿では,単一ロボットに構築したデータ構造を用いて,マルチロボット動作計画問題に対するヒューリスティックなアプローチを提案する。 潜在的な応用としては、リモート計算を使用してロボットの動きの空間を分析し、計算資源が少ないロボットにオンデマンドで送信することもある。

This paper presents a data structure that summarizes distances between configurations across a robot configuration space, using a binary space partition whose cells contain parameters used for a locally linear approximation of the distance function. Querying the data structure is extremely fast, particularly when compared to the graph search required for querying Probabilistic Roadmaps, and memory requirements are promising. The paper explores the use of the data structure constructed for a single robot to provide a heuristic for challenging multi-robot motion planning problems. Potential applications also include the use of remote computation to analyze the space of robot motions, which then might be transmitted on-demand to robots with fewer computational resources.
翻訳日:2022-12-28 09:07:27 公開日:2020-02-27
# 音声バイオマーカーを用いた認知症診断

Identification of Dementia Using Audio Biomarkers ( http://arxiv.org/abs/2002.12788v1 )

ライセンス: Link先を確認
Rupayan Chakraborty, Meghna Pandharipande, Chitralekha Bhat, and Sunil Kumar Kopparapu(参考訳) 認知症は、一般的に認知機能の低下を特徴とする慢性的な疾患であり、特に高齢者において、日常生活に影響を及ぼすほど重篤である。 認知症の早期診断は、効果を緩和し、時には認知症の進行を遅らせるためのタイムリーな治療に不可欠である。 発話は、人の認知状態を示すものとして知られている。 本研究の目的は,軽度認知障害 (MCI) やアルツハイマー病 (AD) などの認知症を自動診断するために,音声処理と機械学習技術を使用することである。 この目的のために非言語的音響パラメータが使われ、言語に依存しないアプローチとなっている。 The Pitt corpus of DementiaBank database から抽出した臨床参加者による音声の抜粋を分析し,MCI, AD, および健康な(HC)音声とを最もよく区別する音声パラメータを同定した。 スペクトル, 時間, ケプストラム, 特徴量融合, 選択といった様々な音響的特徴の認知症ステージの同定への寄与を分析した。 さらに,機能レベルの融合とスコアレベルの融合の性能を比較する。 スコアレベルの融合では82%の精度が得られ、特徴レベルの融合よりも5%向上した。

Dementia is a syndrome, generally of a chronic nature characterized by a deterioration in cognitive function, especially in the geriatric population and is severe enough to impact their daily activities. Early diagnosis of dementia is essential to provide timely treatment to alleviate the effects and sometimes to slow the progression of dementia. Speech has been known to provide an indication of a person's cognitive state. The objective of this work is to use speech processing and machine learning techniques to automatically identify the stage of dementia such as mild cognitive impairment (MCI) or Alzheimers disease (AD). Non-linguistic acoustic parameters are used for this purpose, making this a language independent approach. We analyze the patients audio excerpts from a clinician-participant conversations taken from the Pitt corpus of DementiaBank database, to identify the speech parameters that best distinguish between MCI, AD and healthy (HC) speech. We analyze the contribution of various types of acoustic features such as spectral, temporal, cepstral their feature-level fusion and selection towards the identification of dementia stage. Additionally, we compare the performance of using feature-level fusion and score-level fusion. An accuracy of 82% is achieved using score-level fusion with an absolute improvement of 5% over feature-level fusion.
翻訳日:2022-12-28 09:07:18 公開日:2020-02-27
# トータル3dunderstanding:単一画像からの屋内シーンのジョイントレイアウト、オブジェクトポーズ、メッシュ再構成

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image ( http://arxiv.org/abs/2002.12212v1 )

ライセンス: Link先を確認
Yinyu Nie, Xiaoguang Han, Shihui Guo, Yujian Zheng, Jian Chang, Jian Jun Zhang(参考訳) 屋内シーンのセマンティックな再構築は、シーン理解とオブジェクト再構築の両方を指す。 既存の作業は、この問題の一部に対処するか、独立したオブジェクトに焦点を当てる。 本稿では,理解と再構築のギャップを橋渡し,一つの画像から部屋レイアウト,オブジェクト境界ボックス,メッシュを共同で再構築するエンドツーエンドソリューションを提案する。 シーン理解とオブジェクト再構築を別々に解決する代わりに,本手法は全体的シーンコンテキストに基づいて,3つの要素からなる粗い階層構造を提案する。 1. カメラポーズ付き部屋レイアウト 2. 3次元オブジェクトバウンディングボックス 3. オブジェクトメッシュ。 各コンポーネントのコンテキストを理解することは、他のコンポーネントを解析するタスクを補助し、共同理解と再構築を可能にする、と我々は主張する。 SUN RGB-D および Pix3D データセットを用いた実験により,本手法は屋内配置推定,3次元物体検出,メッシュ再構成において,既存の手法よりも一貫して優れていることが示された。

Semantic reconstruction of indoor scenes refers to both scene understanding and object reconstruction. Existing works either address one part of this problem or focus on independent objects. In this paper, we bridge the gap between understanding and reconstruction, and propose an end-to-end solution to jointly reconstruct room layout, object bounding boxes and meshes from a single image. Instead of separately resolving scene understanding and object reconstruction, our method builds upon a holistic scene context and proposes a coarse-to-fine hierarchy with three components: 1. room layout with camera pose; 2. 3D object bounding boxes; 3. object meshes. We argue that understanding the context of each component can assist the task of parsing the others, which enables joint understanding and reconstruction. The experiments on the SUN RGB-D and Pix3D datasets demonstrate that our method consistently outperforms existing methods in indoor layout estimation, 3D object detection and mesh reconstruction.
翻訳日:2022-12-28 08:59:49 公開日:2020-02-27
# ゼロショット超解法のメタトランスファー学習

Meta-Transfer Learning for Zero-Shot Super-Resolution ( http://arxiv.org/abs/2002.12213v1 )

ライセンス: Link先を確認
Jae Woong Soh, Sunwoo Cho, Nam Ik Cho(参考訳) 畳み込みニューラルネットワーク(cnns)は、大規模外部サンプルを用いてシングルイメージスーパーレゾリューション(sisr)を劇的に改善した。 外部データセットに基づく顕著なパフォーマンスにもかかわらず、特定の画像内の内部情報を活用できない。 もう一つの問題は、それらが管理されているデータの特定の条件にのみ適用可能であることである。 例えば、低分解能(LR)画像は高分解能(HR)画像からの「バイコビック」なノイズフリー画像であるべきである。 両方の問題に対処するため、柔軟な内部学習のためにゼロショットスーパーレゾリューション(zssr)が提案されている。 しかし、それらは数千の勾配更新、すなわち長い推論時間を必要とする。 本稿では,ZSSRを利用したゼロショット超解法(MZSR)のためのメタトランスファー学習を提案する。 正確には、内部学習に適した一般的な初期パラメータを見つけることに基づいている。 したがって、単一の勾配更新でかなりの結果が得られる外部情報と内部情報の両方を利用することができる。 (第1図参照) 提案手法により,ネットワークは所定の画像条件に迅速に適応できる。 この点において、本手法は高速適応プロセスにおいて、多数の画像条件に適用することができる。

Convolutional neural networks (CNNs) have shown dramatic improvements in single image super-resolution (SISR) by using large-scale external samples. Despite their remarkable performance based on the external dataset, they cannot exploit internal information within a specific image. Another problem is that they are applicable only to the specific condition of data that they are supervised. For instance, the low-resolution (LR) image should be a "bicubic" downsampled noise-free image from a high-resolution (HR) one. To address both issues, zero-shot super-resolution (ZSSR) has been proposed for flexible internal learning. However, they require thousands of gradient updates, i.e., long inference time. In this paper, we present Meta-Transfer Learning for Zero-Shot Super-Resolution (MZSR), which leverages ZSSR. Precisely, it is based on finding a generic initial parameter that is suitable for internal learning. Thus, we can exploit both external and internal information, where one single gradient update can yield quite considerable results. (See Figure 1). With our method, the network can quickly adapt to a given image condition. In this respect, our method can be applied to a large spectrum of image conditions within a fast adaptation process.
翻訳日:2022-12-28 08:59:31 公開日:2020-02-27
# ぼやけたビデオフレーム補間

Blurry Video Frame Interpolation ( http://arxiv.org/abs/2002.12259v1 )

ライセンス: Link先を確認
Wang Shen, Wenbo Bao, Guangtao Zhai, Li Chen, Xiongkuo Min, Zhiyong Gao(参考訳) 既存の作業では、フレームのぼやけやフレーム補間を含む2つの異なる方法でフレームレートをアップコンバートする。 しかし、低フレームレートのぼやけた入力から高フレームレートのクリアな結果を合成する共同ビデオ強調問題に近づいた研究はほとんどない。 本稿では,動きのぼやきとアップコンバータのフレームレートを同時に低減する,ぼやけた映像フレーム補間法を提案する。 具体的には,明瞭な中間フレームを周期的に合成するピラミッドモジュールを開発した。 ピラミッドモジュールは、調整可能な空間受容場と時間的スコープを備え、制御可能な計算複雑性と復元能力に寄与する。 さらに,時間的関係を利用して逐次モデルを接続するピラミド間リカレントモジュールを提案する。 ピラミッドモジュールはリカレントモジュールを統合し、モデルサイズを大幅に増大させることなく、時間的に滑らかな結果を反復的に合成することができる。 広範な実験結果から,本手法は最先端手法に好適な効果を示した。

Existing works reduce motion blur and up-convert frame rate through two separate ways, including frame deblurring and frame interpolation. However, few studies have approached the joint video enhancement problem, namely synthesizing high-frame-rate clear results from low-frame-rate blurry inputs. In this paper, we propose a blurry video frame interpolation method to reduce motion blur and up-convert frame rate simultaneously. Specifically, we develop a pyramid module to cyclically synthesize clear intermediate frames. The pyramid module features adjustable spatial receptive field and temporal scope, thus contributing to controllable computational complexity and restoration ability. Besides, we propose an inter-pyramid recurrent module to connect sequential models to exploit the temporal relationship. The pyramid module integrates a recurrent module, thus can iteratively synthesize temporally smooth results without significantly increasing the model size. Extensive experimental results demonstrate that our method performs favorably against state-of-the-art methods.
翻訳日:2022-12-28 08:59:17 公開日:2020-02-27
# SilhoNet-Fisheye: ROIに基づく単眼魚眼画像へのオブジェクトポース推定ネットワークの適応

SilhoNet-Fisheye: Adaptation of A ROI Based Object Pose Estimation Network to Monocular Fisheye Images ( http://arxiv.org/abs/2002.12415v1 )

ライセンス: Link先を確認
Gideon Billings, Matthew Johnson-Roberson(参考訳) 近年,単眼画像に基づく物体ポーズ推定のためのディープラーニング手法が注目されている。 物体のポーズ推定は,ロボットと物理的世界との自律的相互作用において重要な問題であり,モノクラー法の適用範囲は拡大するが,魚眼画像システムにこれらの手法を適用する研究はほとんど行われていない。 また、これらの手法を開発・テストできる注釈付き魚眼画像データセットの方法もほとんど存在しない。 研究の風景は、水中ドメインや魚眼画像などに適用される物体検出方法として、さらに疎い。 本研究では、ROIに基づく6Dオブジェクトのポーズ推定手法を魚眼画像に適用するための新しいフレームワークを提案する。 この方法は、魚眼歪みの補正のために、中間球面画像表現から興味領域のゲノム投影を組み込む。 さらに,魚眼画像データセットであるUWHandlesを,自然水中で収集し,6Dオブジェクトポーズと2Dバウンディングボックスアノテーションを付加した。

There has been much recent interest in deep learning methods for monocular image based object pose estimation. While object pose estimation is an important problem for autonomous robot interaction with the physical world, and the application space for monocular-based methods is expansive, there has been little work on applying these methods with fisheye imaging systems. Also, little exists in the way of annotated fisheye image datasets on which these methods can be developed and tested. The research landscape is even more sparse for object detection methods applied in the underwater domain, fisheye image based or otherwise. In this work, we present a novel framework for adapting a ROI-based 6D object pose estimation method to work on full fisheye images. The method incorporates the gnomic projection of regions of interest from an intermediate spherical image representation to correct for the fisheye distortions. Further, we contribute a fisheye image dataset, called UWHandles, collected in natural underwater environments, with 6D object pose and 2D bounding box annotations.
翻訳日:2022-12-28 08:59:02 公開日:2020-02-27
# TGGLines:低画質バイナリ画像のためのロバストなトポロジカルグラフガイド線分割検出器

TGGLines: A Robust Topological Graph Guided Line Segment Detector for Low Quality Binary Images ( http://arxiv.org/abs/2002.12428v1 )

ライセンス: Link先を確認
Ming Gong, Liping Yang, Catherine Potts, Vijayan K. Asari, Diane Oyen, Brendt Wohlberg(参考訳) ラインセグメント検出は、コンピュータビジョンや画像解析において不可欠なタスクであり、形状モデリングや自動運転のための路車線検出といった高度なタスクの重要な基盤である。 本稿では,低品質なバイナリ画像における線分検出のための頑健なトポロジカルグラフガイド手法を提案する(TGGLines と呼ぶ)。 グラフ誘導のアプローチにより、TGGLinesは線セグメントを検出するだけでなく、検出された線セグメントのトポロジ的関係(例えば、交差、孤立した線セグメント)をキャプチャして保存する。 実験の結果,TGGLines検出器は最先端の線分検出法より視覚的,定量的に優れていることがわかった。 さらに,TGGLinesの手法には,(1)本手法では1つのパラメータしか必要とせず,適応性がある,一方,他のほとんどの行セグメント検出手法では複数のパラメータ(非適応性)が必要,(2)TGGLinesで検出された行セグメントは線分接続グラフによって構成される,という2つの競争上の優位性がある。

Line segment detection is an essential task in computer vision and image analysis, as it is the critical foundation for advanced tasks such as shape modeling and road lane line detection for autonomous driving. We present a robust topological graph guided approach for line segment detection in low quality binary images (hence, we call it TGGLines). Due to the graph-guided approach, TGGLines not only detects line segments, but also organizes the segments with a line segment connectivity graph, which means the topological relationships (e.g., intersection, an isolated line segment) of the detected line segments are captured and stored; whereas other line detectors only retain a collection of loose line segments. Our empirical results show that the TGGLines detector visually and quantitatively outperforms state-of-the-art line segment detection methods. In addition, our TGGLines approach has the following two competitive advantages: (1) our method only requires one parameter and it is adaptive, whereas almost all other line segment detection methods require multiple (non-adaptive) parameters, and (2) the line segments detected by TGGLines are organized by a line segment connectivity graph.
翻訳日:2022-12-28 08:58:24 公開日:2020-02-27
# 浮動小数点プログラムにおける反例探索における変数選択の自由度

Bringing freedom in variable choice when searching counter-examples in floating point programs ( http://arxiv.org/abs/2002.12447v1 )

ライセンス: Link先を確認
Heytem Zitoun, Claude Michel, Laurent Michel, Michel Rueher(参考訳) プログラム検証技術は通常、プログラムの特性に反する反例を見つけることに焦点を当てる。 制約プログラミングは、状態変換をモデル化し、反例を求める検索を指定することで、プログラムを検証する便利な方法を提供する。 浮動小数点演算は浮動小数点演算の意味的な微妙な性質から検証のための追加の課題を与える。 本論文は,浮動小数点数制約システムを用いたCSPの探索戦略とプログラム検証に焦点をあてる。 最先端戦略を上回り、グローバルな発生回数に基づく新たな検索ヒューリスティックを導入する。 さらに重要なことは、検証されたプログラムの入力変数のみを分岐する新しい手法が性能を向上させることである。 これは、固定地平線内で同じ変数の選択を防止し、さらに性能を改善し、様々な変数選択ヒューリスティック間の格差を低減する、多様化技術で構成される。 その結果, 提案手法は, 探索戦略を, 対向例の検索特性に応じて調整できるロバストな手法である。

Program verification techniques typically focus on finding counter-examples that violate properties of a program. Constraint programming offers a convenient way to verify programs by modeling their state transformations and specifying searches that seek counter-examples. Floating-point computations present additional challenges for verification given the semantic subtleties of floating point arithmetic. % This paper focuses on search strategies for CSPs using floating point numbers constraint systems and dedicated to program verification. It introduces a new search heuristic based on the global number of occurrences that outperforms state-of-the-art strategies. More importantly, it demonstrates that a new technique that only branches on input variables of the verified program improve performance. It composes with a diversification technique that prevents the selection of the same variable within a fixed horizon further improving performances and reduces disparities between various variable choice heuristics. The result is a robust methodology that can tailor the search strategy according to the sought properties of the counter example.
翻訳日:2022-12-28 08:51:01 公開日:2020-02-27
# ビデオキャプションのための階層的メモリデコード

Hierarchical Memory Decoding for Video Captioning ( http://arxiv.org/abs/2002.11886v1 )

ライセンス: Link先を確認
Aming Wu, Yahong Han(参考訳) ビデオキャプションの最近の進歩は、しばしばリカレントニューラルネットワーク(RNN)をデコーダとして採用している。 しかし、RNNは長期的な情報を希薄化する傾向がある。 最近の研究は、メモリネットワーク(MemNet)が長期情報を保存する利点を実証している。 しかし、デコーダとして、ビデオキャプションにはあまり活用されていない。 その理由の一部は、MemNetによるシーケンスデコーディングの難しさにある。 本稿では,ビデオキャプションのための新しいメモリデコーダを考案する。 具体的には、事前学習したネットワークを介して各フレームの表現を得た後、まず視覚情報と語彙情報を融合する。 そして各ステップで,マルチレイヤのMemNetベースのデコーダを構築する。すなわち,各レイヤでは,前の情報を格納するためのメモリセットと,現在の入力に関する情報を選択するためのアテンション機構を用いる。 したがって、このデコーダは長期的な情報の希釈を避けることができる。 そして、多層アーキテクチャは、フレームとワードシーケンス間の依存関係をキャプチャするのに役立ちます。 実験の結果,符号化ネットワークがなくても,デコーダは競争性能が得られ,RNNデコーダの性能より優れていた。 さらに、1層RNNデコーダと比較して、デコーダのパラメータは少ない。

Recent advances of video captioning often employ a recurrent neural network (RNN) as the decoder. However, RNN is prone to diluting long-term information. Recent works have demonstrated memory network (MemNet) has the advantage of storing long-term information. However, as the decoder, it has not been well exploited for video captioning. The reason partially comes from the difficulty of sequence decoding with MemNet. Instead of the common practice, i.e., sequence decoding with RNN, in this paper, we devise a novel memory decoder for video captioning. Concretely, after obtaining representation of each frame through a pre-trained network, we first fuse the visual and lexical information. Then, at each time step, we construct a multi-layer MemNet-based decoder, i.e., in each layer, we employ a memory set to store previous information and an attention mechanism to select the information related to the current input. Thus, this decoder avoids the dilution of long-term information. And the multi-layer architecture is helpful for capturing dependencies between frames and word sequences. Experimental results show that even without the encoding network, our decoder still could obtain competitive performance and outperform the performance of RNN decoder. Furthermore, compared with one-layer RNN decoder, our decoder has fewer parameters.
翻訳日:2022-12-28 08:50:39 公開日:2020-02-27
# 個人識別のための状態情報を用いた弱教師付き識別特徴学習

Weakly supervised discriminative feature learning with state information for person identification ( http://arxiv.org/abs/2002.11939v1 )

ライセンス: Link先を確認
Hong-Xing Yu, Wei-Shi Zheng(参考訳) 手動ラベリングが高価である実世界のタスクにおいて,識別識別視覚特徴の教師なし学習が注目されている。 しかし、例えば、異なるカメラビューやポーズなど、異なる状態下で撮影された場合、アイデンティティの画像は視覚的に切り離すことができる。 この視覚的な相違は、教師なしの差別学習において大きな困難をもたらす。 幸いなことに、現実世界のタスクでは、人間のアノテーションなしでは、しばしば状態を知ることができる。例えば、人物再識別でカメラビューラベル、顔認識で顔のポーズラベルを付けることができる。 本研究では,異なる状態による視覚的相違に対処するために,状態情報を弱い監督力として活用することを提案する。 簡単な擬似ラベルモデルを定式化し,提案する擬似ラベルを弱教師付き決定境界修正と弱教師付き特徴ドリフト正規化により洗練するために,状態情報を利用する。 我々は,教師なし人物再同定とポーズ不変顔認識に関するモデルを評価する。 我々の手法の単純さにもかかわらず、Duke-reID、MultiPIE、CFPデータセットの最先端結果を標準のResNet-50バックボーンで上回ります。 また、3つのデータセットの標準教師付き微調整結果と相容れない結果が得られた。 コードはhttps://github.com/KovenYu/state-informationで入手できる。

Unsupervised learning of identity-discriminative visual feature is appealing in real-world tasks where manual labelling is costly. However, the images of an identity can be visually discrepant when images are taken under different states, e.g. different camera views and poses. This visual discrepancy leads to great difficulty in unsupervised discriminative learning. Fortunately, in real-world tasks we could often know the states without human annotation, e.g. we can easily have the camera view labels in person re-identification and facial pose labels in face recognition. In this work we propose utilizing the state information as weak supervision to address the visual discrepancy caused by different states. We formulate a simple pseudo label model and utilize the state information in an attempt to refine the assigned pseudo labels by the weakly supervised decision boundary rectification and weakly supervised feature drift regularization. We evaluate our model on unsupervised person re-identification and pose-invariant face recognition. Despite the simplicity of our method, it could outperform the state-of-the-art results on Duke-reID, MultiPIE and CFP datasets with a standard ResNet-50 backbone. We also find our model could perform comparably with the standard supervised fine-tuning results on the three datasets. Code is available at https://github.com/KovenYu/state-information
翻訳日:2022-12-28 08:49:27 公開日:2020-02-27
# 顔認識のための地理的性能差の低減

Reducing Geographic Performance Differential for Face Recognition ( http://arxiv.org/abs/2002.12093v1 )

ライセンス: Link先を確認
Martins Bruveris, Jochem Gietema, Pouria Mortazavian, Mohan Mahadevan(参考訳) 顔認識アルゴリズムがより正確になり、より広くデプロイされるようになると、アルゴリズムが誰にとっても同じように動作するようにすることがますます重要になる。 自撮り写真とid文書の写真を比較する際,異なる国における偽の受け入れ率と偽の拒絶率の地域差について検討した。 データセットに大きな不均衡があるにもかかわらず、サンプリング戦略を用いて地理的性能差を緩和する方法を示す。 ドメイン固有のdoc-selfieデータ上で顔認識cnnを微調整するためにバニラドメイン適応戦略を使用すると、そのデータに対するモデルの性能が向上するが、不均衡なトレーニングデータの存在下では、人口バイアスも著しく増加する。 次に,学習手順のバランスをとるためにサンプリング戦略を用いることにより,この効果を緩和する方法を示す。

As face recognition algorithms become more accurate and get deployed more widely, it becomes increasingly important to ensure that the algorithms work equally well for everyone. We study the geographic performance differentials-differences in false acceptance and false rejection rates across different countries-when comparing selfies against photos from ID documents. We show how to mitigate geographic performance differentials using sampling strategies despite large imbalances in the dataset. Using vanilla domain adaptation strategies to fine-tune a face recognition CNN on domain-specific doc-selfie data improves the performance of the model on such data, but, in the presence of imbalanced training data, also significantly increases the demographic bias. We then show how to mitigate this effect by employing sampling strategies to balance the training procedure.
翻訳日:2022-12-28 08:48:48 公開日:2020-02-27
# シームズネットワークを用いた深層学習による行動品質評価

Action Quality Assessment using Siamese Network-Based Deep Metric Learning ( http://arxiv.org/abs/2002.12096v1 )

ライセンス: Link先を確認
Hiteshi Jain, Gaurav Harit, Avinash Sharma(参考訳) 自動視覚に基づくスコア推定モデルは、判断バイアスを避けるための代替意見として使用できる。 過去の研究では,映像表現を審査員が提示した真実スコアに回帰することで,スコア推定モデルを学習した。 しかし、これらの回帰に基づく解は、与えられたスコアの理由を与えるという点で解釈可能性に欠ける。 スコアをよりわかりやすくするための解決策は、与えられたアクションビデオと参照ビデオを比較することである。 これにより、参照ビデオの時間変動を捉え、それらの変動を最終的なスコアにマッピングする。 本研究では,2段階システムとしての新たなアクションスコアリングシステムを提案する。(1)ジャッジが与えた基礎的真理スコアに基づいて,任意の2つのアクションビデオ間の類似性を学習するディープメトリック学習モジュール,(2)第1のモジュールを用いて参照ビデオに対するビデオの類似度を判断し,評価スコアを与えるためのスコア推定モジュールである。 提案されたスコアリングモデルはオリンピックのダイビングや体操の高跳び用にテストされ、既存の最先端のスコアリングモデルよりも優れています。

Automated vision-based score estimation models can be used as an alternate opinion to avoid judgment bias. In the past works the score estimation models were learned by regressing the video representations to the ground truth score provided by the judges. However such regression-based solutions lack interpretability in terms of giving reasons for the awarded score. One solution to make the scores more explicable is to compare the given action video with a reference video. This would capture the temporal variations w.r.t. the reference video and map those variations to the final score. In this work, we propose a new action scoring system as a two-phase system: (1) A Deep Metric Learning Module that learns similarity between any two action videos based on their ground truth scores given by the judges; (2) A Score Estimation Module that uses the first module to find the resemblance of a video to a reference video in order to give the assessment score. The proposed scoring model has been tested for Olympics Diving and Gymnastic vaults and the model outperforms the existing state-of-the-art scoring models.
翻訳日:2022-12-28 08:48:34 公開日:2020-02-27
# 中国のソーシャルメディアテキストにおける名前付きエンティティ認識のためのDNNフレームワークへの境界組立の統合

Integrating Boundary Assembling into a DNN Framework for Named Entity Recognition in Chinese Social Media Text ( http://arxiv.org/abs/2002.11910v1 )

ライセンス: Link先を確認
Zhaoheng Gong, Ping Chen, Jiang Zhou(参考訳) 名前付きエンティティ認識は自然言語処理において特に非公式で騒がしいソーシャルメディアテキストにとって難しい課題である。 中国語の単語境界もまたエンティティ境界であるため、中国語の単語分割によって出力される単語境界検出の恩恵を受けることができる。 しかし、中国語のセグメンテーションは、セグメンテーション基準や採用アルゴリズムなど、いくつかの要因の影響を受けているため、独自の難題を呈している。 不適切に、名前付きエンティティ認識の品質にカスケード障害が発生する可能性がある。 本稿では,最先端の深層ニューラルネットワークモデルと境界組立手法を統合し,更新された単語境界情報を名前付きエンティティ認識のための条件付きランダムフィールドモデルに組み込む。 本手法は,従来の結果よりも絶対値が2%向上することを示す。

Named entity recognition is a challenging task in Natural Language Processing, especially for informal and noisy social media text. Chinese word boundaries are also entity boundaries, therefore, named entity recognition for Chinese text can benefit from word boundary detection, outputted by Chinese word segmentation. Yet Chinese word segmentation poses its own difficulty because it is influenced by several factors, e.g., segmentation criteria, employed algorithm, etc. Dealt improperly, it may generate a cascading failure to the quality of named entity recognition followed. In this paper we integrate a boundary assembling method with the state-of-the-art deep neural network model, and incorporate the updated word boundary information into a conditional random field model for named entity recognition. Our method shows a 2% absolute improvement over previous state-of-the-art results.
翻訳日:2022-12-28 08:41:56 公開日:2020-02-27
# チャンキングによる言語間モデル転送の改善

Improving cross-lingual model transfer by chunking ( http://arxiv.org/abs/2002.12097v1 )

ライセンス: Link先を確認
Ayan Das and Sudeshna Sarkar(参考訳) 本稿では,ソース言語と対象言語間の構文的差異をより効果的に解決するために,浅いパーサ誘導型言語間モデル転送手法を提案する。 本研究は、文中の単語の順序の違いと文中の句の順序の違いから生じるソース言語と対象言語との構文的な差異に対処するために、文中のチャンクやフレーズを転送単位として想定する。

We present a shallow parser guided cross-lingual model transfer approach in order to address the syntactic differences between source and target languages more effectively. In this work, we assume the chunks or phrases in a sentence as transfer units in order to address the syntactic differences between the source and target languages arising due to the differences in ordering of words in the phrases and the ordering of phrases in a sentence separately.
翻訳日:2022-12-28 08:41:43 公開日:2020-02-27
# タスク指向ダイアログのためのマイズショット自然言語生成

Few-shot Natural Language Generation for Task-Oriented Dialog ( http://arxiv.org/abs/2002.12328v1 )

ライセンス: Link先を確認
Baolin Peng, Chenguang Zhu, Chunyuan Li, Xiujun Li, Jinchao Li, Michael Zeng, and Jianfeng Gao(参考訳) タスク指向ダイアログシステムにおいて重要なコンポーネントとして、自然言語生成(NLG)モジュールは、意味形式で表されるダイアログを自然言語の応答に変換する。 従来のテンプレートベースや統計モデルの成功は、新しいドメインでは実現不可能な、重い注釈付きデータに依存している。 したがって、NLGシステムは、実際のアプリケーションで限られたラベル付きデータでうまく一般化することが重要である。 この目的のために,タスク指向対話システムにおける数ショット学習設定をシミュレートする最初のNLGベンチマークであるFewShotWozを提案する。 さらに,SC-GPTモデルを開発した。 制御可能な生成能力を得るために、多数のアノテーション付きnlgコーパスで事前学習され、新しいドメインに適応するために、少数のドメイン固有ラベルで微調整される。 FewShotWozとMulti-Domain-WOZデータセットの実験により、提案したSC-GPTは、様々な自動測定値と人的評価値によって測定された既存の手法よりも大幅に優れていることが示された。

As a crucial component in task-oriented dialog systems, the Natural Language Generation (NLG) module converts a dialog act represented in a semantic form into a response in natural language. The success of traditional template-based or statistical models typically relies on heavily annotated data, which is infeasible for new domains. Therefore, it is pivotal for an NLG system to generalize well with limited labelled data in real applications. To this end, we present FewShotWoz, the first NLG benchmark to simulate the few-shot learning setting in task-oriented dialog systems. Further, we develop the SC-GPT model. It is pre-trained on a large set of annotated NLG corpus to acquire the controllable generation ability, and fine-tuned with only a few domain-specific labels to adapt to new domains. Experiments on FewShotWoz and the large Multi-Domain-WOZ datasets show that the proposed SC-GPT significantly outperforms existing methods, measured by various automatic metrics and human evaluations.
翻訳日:2022-12-28 08:41:24 公開日:2020-02-27
# 解釈可能なマルチホップ質問応答のためのフォローアップ質問の生成

Generating Followup Questions for Interpretable Multi-hop Question Answering ( http://arxiv.org/abs/2002.12344v1 )

ライセンス: Link先を確認
Christopher Malon and Bing Bai(参考訳) 本稿では,事前学習された単一ホップ回答抽出器を用いて,部分情報を読み取ってフォローアップ質問を生成するオープンドメインマルチホップ質問に対する応答フレームワークを提案する。 このフレームワークは、各ホップを解釈可能にし、後のホップに関連する検索を、最初のホップと同じくらい柔軟で特定可能にします。 このフレームワークの最初のインスタンス化として、ポインター生成ネットワークを訓練し、質問と部分的情報に基づいてフォローアップ質問を予測する。 これは、最終回答とその支持する事実に基づいて、弱基底真理の単一ホップフォローアップ質問を与えるために適用される、ニューラル質問生成ネットワークの新しい応用を提供する。 関連する回答を下流の支持する事実に対して選択するフォローアップ質問を生成するための学習は、前提の注意をそらすのを避けながら、テキスト生成にとってエキサイティングな意味的課題となる。 本稿では,HotpotQAの2ホップブリッジ問題を用いて評価を行う。

We propose a framework for answering open domain multi-hop questions in which partial information is read and used to generate followup questions, to finally be answered by a pretrained single-hop answer extractor. This framework makes each hop interpretable, and makes the retrieval associated with later hops as flexible and specific as for the first hop. As a first instantiation of this framework, we train a pointer-generator network to predict followup questions based on the question and partial information. This provides a novel application of a neural question generation network, which is applied to give weak ground truth single-hop followup questions based on the final answers and their supporting facts. Learning to generate followup questions that select the relevant answer spans against downstream supporting facts, while avoiding distracting premises, poses an exciting semantic challenge for text generation. We present an evaluation using the two-hop bridge questions of HotpotQA.
翻訳日:2022-12-28 08:41:05 公開日:2020-02-27
# Adv-BERT: BERTはミススペルでは堅牢ではありません! BERT上の自然対向サンプルの生成

Adv-BERT: BERT is not robust on misspellings! Generating nature adversarial samples on BERT ( http://arxiv.org/abs/2003.04985v1 )

ライセンス: Link先を確認
Lichao Sun, Kazuma Hashimoto, Wenpeng Yin, Akari Asai, Jia Li, Philip Yu, Caiming Xiong(参考訳) 悪意を持って生成された敵の例を扱うことでディープニューラルネットワークの脆さを主張する文献が増えている。 しかし、悪質なインスタンスが頻繁に存在するような現実的なシナリオでは、モデルがどのように機能するのかは不明だ。 この研究は、NLPにおける最先端のトランスフォーマースタイルモデルであるBERTの頑健さを体系的に探求し、ノイズの多いデータ、特にキーボードの入力ミスを不注意に処理する。 感情分析と質問応答ベンチマークに関する集中的な実験は、次のように示している。 (i)文のさまざまな単語のタイプミスは等しく影響しない。 情報的な言葉のタイプミスは、より深刻なダメージを与える。 (ii)ミスタイプは挿入や削除などと比較して最も有害な要因である。 ; (iii)人間と機械は、敵の攻撃を認識することに焦点を当てている。

There is an increasing amount of literature that claims the brittleness of deep neural networks in dealing with adversarial examples that are created maliciously. It is unclear, however, how the models will perform in realistic scenarios where \textit{natural rather than malicious} adversarial instances often exist. This work systematically explores the robustness of BERT, the state-of-the-art Transformer-style model in NLP, in dealing with noisy data, particularly mistakes in typing the keyboard, that occur inadvertently. Intensive experiments on sentiment analysis and question answering benchmarks indicate that: (i) Typos in various words of a sentence do not influence equally. The typos in informative words make severer damages; (ii) Mistype is the most damaging factor, compared with inserting, deleting, etc.; (iii) Humans and machines have different focuses on recognizing adversarial attacks.
翻訳日:2022-12-28 08:40:47 公開日:2020-02-27
# 最適化によるプログラミングを用いた最大頂点重みクランク問題の確率的局所探索の性能向上

Improving the Performance of Stochastic Local Search for Maximum Vertex Weight Clique Problem Using Programming by Optimization ( http://arxiv.org/abs/2002.11909v1 )

ライセンス: Link先を確認
Yi Chu, Chuan Luo, Holger H. Hoos, QIngwei Lin, Haihang You(参考訳) 最大頂点重心問題(英: maximum vertex weight clique problem、MVWCP)は、幅広い実世界の応用を持つ最大傾心問題の重要な一般化である。 解の最適性に関する厳密な保証が不要な状況では、MVWCPは通常、確率的局所探索(SLS)アルゴリズムを用いて解決される。 しかし、MVWCPインスタンスの全てのクラスに最高の性能を与える単一のSLSアルゴリズムはなく、MVWCPインスタンスの各クラスに最適なアルゴリズムを効果的に識別することは困難である。 本研究では,MVWCPを解くための新しい,フレキシブルで高パラメトリックなSLSフレームワークを開発するために,最適化によるプログラミング(PbO)のパラダイムに従う。 このPbO-MWCフレームワークを自動構成することにより,移植医療(キドニー交換)の現実的応用と研究の卓越性評価など,MVWCPを幅広いベンチマークで解く上で,最先端の進歩を実現している。

The maximum vertex weight clique problem (MVWCP) is an important generalization of the maximum clique problem (MCP) that has a wide range of real-world applications. In situations where rigorous guarantees regarding the optimality of solutions are not required, MVWCP is usually solved using stochastic local search (SLS) algorithms, which also define the state of the art for solving this problem. However, there is no single SLS algorithm which gives the best performance across all classes of MVWCP instances, and it is challenging to effectively identify the most suitable algorithm for each class of MVWCP instances. In this work, we follow the paradigm of Programming by Optimization (PbO) to develop a new, flexible and highly parametric SLS framework for solving MVWCP, combining, for the first time, a broad range of effective heuristic mechanisms. By automatically configuring this PbO-MWC framework, we achieve substantial advances in the state-of-the-art in solving MVWCP over a broad range of prominent benchmarks, including two derived from real-world applications in transplantation medicine (kidney exchange) and assessment of research excellence.
翻訳日:2022-12-28 08:40:33 公開日:2020-02-27
# 浮動小数点smt問題に対する効率的な制約に基づくフレームワーク

An efficient constraint based framework forhandling floating point SMT problems ( http://arxiv.org/abs/2002.12441v1 )

ライセンス: Link先を確認
Heytem Zitoun, Claude Michel, Laurent Michel, Michel Rueher(参考訳) 本稿では,smtlibのsmt言語で表現される浮動小数点検証問題に対する新しい制約プログラミングフレームワークである \us{} の2019年バージョンを紹介する。 SMTソルバは、特定の理論(例えば浮動小数点、ビットベクトル、配列、...)に委譲して、SATエンコーディングが煩雑で非効率な組合せ的あるいはその他の複雑な制約について推論するタスクを分解する。 この分解および符号化プロセスは、高レベルの制約の難解化と、組合せモデルの構造に関する情報の喪失につながる。 \us{} では、フロート上の制約は第一級のオブジェクトであり、目的は探索プロセスを強化するために浮動小数点領域の構造を公開し活用することである。 記号相は各SMTLIBインスタンスを基本制約に書き換え、非生産的な補助変数を除去する。 探索空間内の多様化技術は、探索空間の非生産領域におけるコストのかかる列挙から脱却する。 実験的な評価は、2019年のバージョンの \us{} が、計算に挑戦する浮動小数点ベンチマークと競合していることを示している。 推論と検索の両方を利用する能力は重要だ、と強調する。 実際、これはColibriよりも3倍改善され、SMTソルバの最大10倍高速である。 評価はSMTLIBの標準である214ベンチマーク(The Griggio suite)で実施された。

This paper introduces the 2019 version of \us{}, a novel Constraint Programming framework for floating point verification problems expressed with the SMT language of SMTLIB. SMT solvers decompose their task by delegating to specific theories (e.g., floating point, bit vectors, arrays, ...) the task to reason about combinatorial or otherwise complex constraints for which the SAT encoding would be cumbersome or ineffective. This decomposition and encoding processes lead to the obfuscation of the high-level constraints and a loss of information on the structure of the combinatorial model. In \us{}, constraints over the floats are first class objects, and the purpose is to expose and exploit structures of floating point domains to enhance the search process. A symbolic phase rewrites each SMTLIB instance to elementary constraints, and eliminates auxiliary variables whose presence is counterproductive. A diversification technique within the search steers it away from costly enumerations in unproductive areas of the search space. The empirical evaluation demonstrates that the 2019 version of \us{} is competitive on computationally challenging floating point benchmarks that induce significant search efforts even for other CP solvers. It highlights that the ability to harness both inference and search is critical. Indeed, it yields a factor 3 improvement over Colibri and is up to 10 times faster than SMT solvers. The evaluation was conducted over 214 benchmarks (The Griggio suite) which is a standard within SMTLIB.
翻訳日:2022-12-28 08:40:11 公開日:2020-02-27
# 適応行動のための多層自動計画(拡張版)

Multi-tier Automated Planning for Adaptive Behavior (Extended Version) ( http://arxiv.org/abs/2002.12445v1 )

ライセンス: Link先を確認
Daniel Ciolek, Nicol\'as D'Ippolito, Alberto Pozanco, Sebastian Sardina(参考訳) 計画ドメインは、どんなモデルでも、決して完成せず、必然的に環境のダイナミックさを仮定します。 1つのドメインモデルの仕様を許可することにより、知識エンジニアは1つの仮定セットのみを作成でき、1つの客観的目標を指定できる。 ソフトウェア工学の仕事から借用し、異なる仮定セットと異なる対応する目的の仕様を可能にする計画のための多層フレームワークを提案する。 このフレームワークは、任意の計画モデリングタスクにおける本質的なリスクを軽減するために、適応行動の合成を支援することを目的としている。 マルチ層計画タスクとそのソリューション概念を定義した後、簡潔なコンパイルによって問題インスタンスを非決定論的計画形式にする方法を示す。 そこで本手法は,公正かつ不公平な行動と,二重公正性の仮定をサポートする計画システム開発により多くの努力を要した計画の適用性を正当化する。

A planning domain, as any model, is never complete and inevitably makes assumptions on the environment's dynamic. By allowing the specification of just one domain model, the knowledge engineer is only able to make one set of assumptions, and to specify a single objective-goal. Borrowing from work in Software Engineering, we propose a multi-tier framework for planning that allows the specification of different sets of assumptions, and of different corresponding objectives. The framework aims to support the synthesis of adaptive behavior so as to mitigate the intrinsic risk in any planning modeling task. After defining the multi-tier planning task and its solution concept, we show how to solve problem instances by a succinct compilation to a form of non-deterministic planning. In doing so, our technique justifies the applicability of planning with both fair and unfair actions, and the need for more efforts in developing planning systems supporting dual fairness assumptions.
翻訳日:2022-12-28 08:39:46 公開日:2020-02-27
# aiを用いた低コストuavの目標検出・追跡・回避システム

Target Detection, Tracking and Avoidance System for Low-cost UAVs using AI-Based Approaches ( http://arxiv.org/abs/2002.12461v1 )

ライセンス: Link先を確認
Vinorth Varatharasan, Alice Shuang Shuang Rao, Eric Toutounji, Ju-Hyeon Hong, Hyo-Sang Shin(参考訳) 本稿では,aiを用いた低コストuav飛行制御装置のためのオンボードターゲット検出・追跡・回避システムを開発した。 提案システムの目的は、味方のUAVがネットで敵のUAVを避けたり追跡したりできることである。 この観点からは、シンプルでロバストな目標検出・追跡・回避システムを設計する。 SSDと呼ばれる最先端のオブジェクト検出技術と、MAVSDKと呼ばれるMAVLink互換システムのためのAPIである。 MAVSDKは、UAVの検出時に速度制御を行い、操作を簡単かつ効率的に行う。 提案システムは,SITL (Software in the loop) とHITL (Hardware in the loop) シミュレータを用いて検証した。 このアルゴリズムの単純さは革新的であり、配送ドローンアプリケーションのような低コストハードウェアで堅牢な性能を必要とする将来のアプリケーションで使われるべきである。

An onboard target detection, tracking and avoidance system has been developed in this paper, for low-cost UAV flight controllers using AI-Based approaches. The aim of the proposed system is that an ally UAV can either avoid or track an unexpected enemy UAV with a net to protect itself. In this point of view, a simple and robust target detection, tracking and avoidance system is designed. Two open-source tools were used for the aim: a state-of-the-art object detection technique called SSD and an API for MAVLink compatible systems called MAVSDK. The MAVSDK performs velocity control when a UAV is detected so that the manoeuvre is done simply and efficiently. The proposed system was verified with Software in the loop (SITL) and Hardware in the loop (HITL) simulators. The simplicity of this algorithm makes it innovative, and therefore it should be used in future applications needing robust performances with low-cost hardware such as delivery drone applications.
翻訳日:2022-12-28 08:33:55 公開日:2020-02-27
# クラッタ背景の物体検出・分類における学習効果の改善

Improving Learning Effectiveness For Object Detection and Classification in Cluttered Backgrounds ( http://arxiv.org/abs/2002.12467v1 )

ライセンス: Link先を確認
Vinorth Varatharasan, Hyo-Sang Shin, Antonios Tsourdos, Nick Colosimo(参考訳) 通常、ニューラルネットワークモデルは、均質な背景にある画像の大きなデータセットで訓練される。 問題は、訓練されたネットワークモデルの性能が複雑で異質な環境で著しく劣化することである。 この問題を軽減するため,異種乱雑な背景のトレーニングデータセットを自律的に生成するフレームワークを開発した。 提案するフレームワークの学習効率は,典型的なデータセットと比較すると,複雑で異種な環境で改善されるべきである。 このフレームワークでは、DeepLabと呼ばれる最先端の画像セグメンテーション技術を用いて、画像から興味対象を抽出し、クロマキー技術を用いて、抽出した関心対象を特定の異種背景にマージする。 提案フレームワークの性能を実証実験により検討し,COCOデータセットを用いてトレーニングしたモデルと比較した。 その結果,提案フレームワークはモデルよりも優れていた。 これは、フレームワークの学習効率が典型的なデータセットを持つモデルよりも優れていることを意味する。

Usually, Neural Networks models are trained with a large dataset of images in homogeneous backgrounds. The issue is that the performance of the network models trained could be significantly degraded in a complex and heterogeneous environment. To mitigate the issue, this paper develops a framework that permits to autonomously generate a training dataset in heterogeneous cluttered backgrounds. It is clear that the learning effectiveness of the proposed framework should be improved in complex and heterogeneous environments, compared with the ones with the typical dataset. In our framework, a state-of-the-art image segmentation technique called DeepLab is used to extract objects of interest from a picture and Chroma-key technique is then used to merge the extracted objects of interest into specific heterogeneous backgrounds. The performance of the proposed framework is investigated through empirical tests and compared with that of the model trained with the COCO dataset. The results show that the proposed framework outperforms the model compared. This implies that the learning effectiveness of the framework developed is superior to the models with the typical dataset.
翻訳日:2022-12-28 08:33:38 公開日:2020-02-27
# Deep Meditations: 潜在空間の制御されたナビゲーション

Deep Meditations: Controlled navigation of latent space ( http://arxiv.org/abs/2003.00910v1 )

ライセンス: Link先を確認
Memo Akten, Rebecca Fiebrink, Mick Grierson(参考訳) 本研究では,深層生成モデルの潜在空間を創造的に探索し,ナビゲートする手法を提案する。 具体的には,これらの高次元空間におけるtextit{discover} と \textit{design} \textit{trajectories} をユーザに提供することで,ストーリーを構築し,ビデオなどのタイムベースのメディアを生成する。 我々のゴールは、創造的な表現と物語を有意義な人間のコントロールで伝える媒体として、深層生成モデルの使用を奨励し支援することである。 本手法は,従来のビデオ制作パイプラインと類似しており,プロキシクリップを用いた従来の非線形ビデオエディタを用いて,潜在空間ベクトルの配列に適合する。 例は \url{http://deepmeditations.ai} で見ることができる。

We introduce a method which allows users to creatively explore and navigate the vast latent spaces of deep generative models. Specifically, our method enables users to \textit{discover} and \textit{design} \textit{trajectories} in these high dimensional spaces, to construct stories, and produce time-based media such as videos---\textit{with meaningful control over narrative}. Our goal is to encourage and aid the use of deep generative models as a medium for creative expression and story telling with meaningful human control. Our method is analogous to traditional video production pipelines in that we use a conventional non-linear video editor with proxy clips, and conform with arrays of latent space vectors. Examples can be seen at \url{http://deepmeditations.ai}.
翻訳日:2022-12-28 08:33:22 公開日:2020-02-27
# MLography:新しいデータマイニングとディープラーニングアプローチを用いた不純物異常検出のための自動定量メタログラフィーモデル

MLography: An Automated Quantitative Metallography Model for Impurities Anomaly Detection using Novel Data Mining and Deep Learning Approach ( http://arxiv.org/abs/2003.04226v1 )

ライセンス: Link先を確認
Matan Rusanovsky, Gal Oren, Sigalit Ifergane, Ofer Beeri(参考訳) ほとんどの工学合金のマイクロ構造にはいくつかの包含物や沈殿物が含まれており、その特性に影響を与えうるため、それらの特徴付けが不可欠である。 本研究では,合金中の不純物の異常度を自動的に定量化するMLographyという,最先端の人工知能モデルの開発に焦点をあてる。 本研究の目的は,不純物が既にラベル付けされていることを踏まえ,その目的に基づいて最も異常な物体をうまく検出する空間的,形状的,面積的異常という,いくつかの異常検出手法を導入することである。 最初の2つの測度は、それぞれの物体がその近傍よりも遠く、大きくなっているか、そしてそれぞれの形状の異常によって、各物体の異常の度合いを定量化する。 最後の尺度は、前者2つを組み合わせることで、全ての入力画像の中で最も異常な領域をハイライトし、後の(物理的)検査を行う。 モデルの性能を提示し,いくつかの代表事例に基づいて解析する。 ここで述べたモデルはメタログラフィー解析のために開発されたが、そのほとんどは幾何学的対象の異常検出が望まれるより広い問題に一般化できると強調する。 この作業のために作成されたすべてのモデルとデータセットは、https://github.com/matanr/MLography.comで公開されている。

The micro-structure of most of the engineering alloys contains some inclusions and precipitates, which may affect their properties, therefore it is crucial to characterize them. In this work we focus on the development of a state-of-the-art artificial intelligence model for Anomaly Detection named MLography to automatically quantify the degree of anomaly of impurities in alloys. For this purpose, we introduce several anomaly detection measures: Spatial, Shape and Area anomaly, that successfully detect the most anomalous objects based on their objective, given that the impurities were already labeled. The first two measures quantify the degree of anomaly of each object by how each object is distant and big compared to its neighborhood, and by the abnormally of its own shape respectively. The last measure, combines the former two and highlights the most anomalous regions among all input images, for later (physical) examination. The performance of the model is presented and analyzed based on few representative cases. We stress that although the models presented here were developed for metallography analysis, most of them can be generalized to a wider set of problems in which anomaly detection of geometrical objects is desired. All models as well as the data-set that was created for this work, are publicly available at: https://github.com/matanr/MLography.
翻訳日:2022-12-28 08:33:06 公開日:2020-02-27
# 深部制御政策における弱さの爆発訓練

Training Adversarial Agents to Exploit Weaknesses in Deep Control Policies ( http://arxiv.org/abs/2002.12078v1 )

ライセンス: Link先を確認
Sampo Kuutti, Saber Fallah, Richard Bowden(参考訳) ディープラーニングは、ロボットアーム操作、ロボットナビゲーション、自律走行車など、さまざまな制御問題の一般的なテクニックになりつつある。 しかし、ディープニューラルネットワークを使用して制御ポリシーを学ぶことの欠点は、その不透明な性質と安全性を検証することの難しさである。 最先端の結果を得るためのネットワークは、ますます深く複雑になり、彼らが学んだルールやその運用方法を理解するのが難しくなる。 これは、安全クリティカルなアプリケーションでは、制御ポリシーの安全性は高い信頼性レベルに保証されなければならないため、問題となる。 本稿では,敵対的強化学習に基づく自動ブラックボックステストフレームワークを提案する。 この手法は、テスト対象モデルの性能を劣化させることを目標とする敵エージェントを使用する。 本研究は,ニューラルネットワーク駆動型自律走行車が衝突する原因となる敵の強化学習エージェントを訓練することにより,自動運転車問題に対するアプローチをテストする。 自律運転のために訓練された2つのニューラルネットワークを比較し、テストの結果を用いて学習した制御ポリシーの堅牢性を比較する。 提案手法は,オンラインテストでは明らかでないコントロールポリシの弱点を見つけることができ,手作業によるテスト方法よりも大きなメリットがあることを示す。

Deep learning has become an increasingly common technique for various control problems, such as robotic arm manipulation, robot navigation, and autonomous vehicles. However, the downside of using deep neural networks to learn control policies is their opaque nature and the difficulties of validating their safety. As the networks used to obtain state-of-the-art results become increasingly deep and complex, the rules they have learned and how they operate become more challenging to understand. This presents an issue, since in safety-critical applications the safety of the control policy must be ensured to a high confidence level. In this paper, we propose an automated black box testing framework based on adversarial reinforcement learning. The technique uses an adversarial agent, whose goal is to degrade the performance of the target model under test. We test the approach on an autonomous vehicle problem, by training an adversarial reinforcement learning agent, which aims to cause a deep neural network-driven autonomous vehicle to collide. Two neural networks trained for autonomous driving are compared, and the results from the testing are used to compare the robustness of their learned control policies. We show that the proposed framework is able to find weaknesses in both control policies that were not evident during online testing and therefore, demonstrate a significant benefit over manual testing methods.
翻訳日:2022-12-28 08:32:20 公開日:2020-02-27
# 非線形力学法則学習のためのテンソルネットワークアプローチ

Tensor network approaches for learning non-linear dynamical laws ( http://arxiv.org/abs/2002.12388v1 )

ライセンス: Link先を確認
A. Goe{\ss}mann, M. G\"otte, I. Roth, R. Sweke, G. Kutyniok, J. Eisert(参考訳) 物理系の観察から、基礎となる非線形支配方程式を特定することは基本的な課題であり、決定論的未来予測の理解と生成に必要である。 最も現実的な妥当性は、多くの自由度を持つ複雑なシステムに対して効率的にスケールする理論構築への自動化アプローチである。 現在、利用可能なスケーラブルなメソッドは、インタラクションの局所性のような基本的な物理的原則を活用または提供することなく、データ駆動の補間を目標としている。 本研究では,制御方程式に対するテンソルネットワークに基づくパラメータ化により,様々な物理的制約を捕捉できることを示し,スケーラビリティを自然に保証する。 このようなモデルを用いた現実的な物理システムへの利用を動機付ける分析結果の提供に加えて、適切なテンソルランクの知識を必要とせずに、効率的なランク適応最適化アルゴリズムを用いて最適なテンソルネットワークモデルを学習できることを実証する。 そこで我々は,データから構造的動的法則を復元する物理インフォームドアプローチを提案し,表現性と拡張性の必要性を適応的にバランスさせる。

Given observations of a physical system, identifying the underlying non-linear governing equation is a fundamental task, necessary both for gaining understanding and generating deterministic future predictions. Of most practical relevance are automated approaches to theory building that scale efficiently for complex systems with many degrees of freedom. To date, available scalable methods aim at a data-driven interpolation, without exploiting or offering insight into fundamental underlying physical principles, such as locality of interactions. In this work, we show that various physical constraints can be captured via tensor network based parameterizations for the governing equation, which naturally ensures scalability. In addition to providing analytic results motivating the use of such models for realistic physical systems, we demonstrate that efficient rank-adaptive optimization algorithms can be used to learn optimal tensor network models without requiring a~priori knowledge of the exact tensor ranks. As such, we provide a physics-informed approach to recovering structured dynamical laws from data, which adaptively balances the need for expressivity and scalability.
翻訳日:2022-12-28 08:30:34 公開日:2020-02-27
# 音声強調のためのディープ残差格子ネットワーク

Deep Residual-Dense Lattice Network for Speech Enhancement ( http://arxiv.org/abs/2002.12794v1 )

ライセンス: Link先を確認
Mohammad Nikzad, Aaron Nicolson, Yongsheng Gao, Jun Zhou, Kuldip K. Paliwal, Fanhua Shang(参考訳) 残差リンク(ResNet)と因果拡張畳み込みユニットを備えた畳み込みニューラルネットワーク(CNN)は、深層学習による音声強調のためのネットワークとして選択されている。 残差リンクはトレーニング中の勾配流を改善するが, 深層出力の繰り返し和により浅層出力の特性が小さくなる。 機能の再使用を改善する1つの戦略は、ResNetsと高密度に接続されたCNN(DenseNets)を融合させることである。 しかし、DenseNetsは機能再使用のパラメータを過剰に割り当てている。 そこで本稿では,残差と高密度の重み付けを併用した音声強調のための新しいCNNであるRess-Dense lattice Network (RDL-Net)を提案する。 これはRDLブロックのトポロジーによって管理され、密度集約に使用される出力の数を制限する。 広範に実験を行った結果,RDL-Net は残差や密集度を用いた CNN よりも高い音声強調性能が得られることがわかった。 RDL-Netはパラメータもかなり少なく、計算量も少ない。 さらに、RDL-Netsは、音声強調に対する最先端のディープラーニングアプローチよりも優れていることを示す。

Convolutional neural networks (CNNs) with residual links (ResNets) and causal dilated convolutional units have been the network of choice for deep learning approaches to speech enhancement. While residual links improve gradient flow during training, feature diminution of shallow layer outputs can occur due to repetitive summations with deeper layer outputs. One strategy to improve feature re-usage is to fuse both ResNets and densely connected CNNs (DenseNets). DenseNets, however, over-allocate parameters for feature re-usage. Motivated by this, we propose the residual-dense lattice network (RDL-Net), which is a new CNN for speech enhancement that employs both residual and dense aggregations without over-allocating parameters for feature re-usage. This is managed through the topology of the RDL blocks, which limit the number of outputs used for dense aggregations. Our extensive experimental investigation shows that RDL-Nets are able to achieve a higher speech enhancement performance than CNNs that employ residual and/or dense aggregations. RDL-Nets also use substantially fewer parameters and have a lower computational requirement. Furthermore, we demonstrate that RDL-Nets outperform many state-of-the-art deep learning approaches to speech enhancement.
翻訳日:2022-12-28 08:24:58 公開日:2020-02-27
# 多人数ゼロサムゲームにおけるアライアンスジレンマ解消のための学習

Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games ( http://arxiv.org/abs/2003.00799v1 )

ライセンス: Link先を確認
Edward Hughes, Thomas W. Anthony, Tom Eccles, Joel Z. Leibo, David Balduzzi, Yoram Bachrach(参考訳) ゼロサムゲームは、優れた戦略空間と明確な評価基準の両方を持っているため、人工知能の研究を長い間導いてきた。 さらに、競争は、ダーウィンの進化、市場経済、AlphaZeroアルゴリズムなど、インテリジェントなイノベーションを生み出すことができる多くの現実世界のマルチエージェントシステムにおいて、重要なメカニズムである。 2人プレイのゼロサムゲームでは、挑戦は通常ナッシュ均衡戦略の発見と見なされ、相手に関係なく搾取から保護される。 これはチェスや囲碁の複雑さをとらえるが、単細胞生物から人間の文明への大きな転換を象徴する共同プレイヤとの協力の概念を避ける。 2人のプレイヤーを超えて、同盟の形成はしばしば優位性を与えるが、これは信頼、すなわち欠陥に対するインセンティブに直面した相互協力の約束を必要とする。 したがって、成功したプレイには、非爆発性の追求よりも、共同プレイヤーへの適応が必要である。 ここでは、多人数ゼロサムゲームの体系的研究が人工知能研究の重要な要素であると主張する。 対称ゼロサムマトリクスゲームを用いて,アライアンス形成を社会的ジレンマと見なすことができ,その結果,na\"ive multi-agent reinforcement learningではアライアンスの形成に失敗することを実証した。 我々は,経済競争の玩具モデルを紹介し,同盟を発見・実施するためのピアツーピア契約機構によって強化学習が強化される可能性を示す。 最後に,エージェントモデルを一般化して,時間的に拡張された契約を取り入れることで,さらなる作業の機会を提供する。

Zero-sum games have long guided artificial intelligence research, since they possess both a rich strategy space of best-responses and a clear evaluation metric. What's more, competition is a vital mechanism in many real-world multi-agent systems capable of generating intelligent innovations: Darwinian evolution, the market economy and the AlphaZero algorithm, to name a few. In two-player zero-sum games, the challenge is usually viewed as finding Nash equilibrium strategies, safeguarding against exploitation regardless of the opponent. While this captures the intricacies of chess or Go, it avoids the notion of cooperation with co-players, a hallmark of the major transitions leading from unicellular organisms to human civilization. Beyond two players, alliance formation often confers an advantage; however this requires trust, namely the promise of mutual cooperation in the face of incentives to defect. Successful play therefore requires adaptation to co-players rather than the pursuit of non-exploitability. Here we argue that a systematic study of many-player zero-sum games is a crucial element of artificial intelligence research. Using symmetric zero-sum matrix games, we demonstrate formally that alliance formation may be seen as a social dilemma, and empirically that na\"ive multi-agent reinforcement learning therefore fails to form alliances. We introduce a toy model of economic competition, and show how reinforcement learning may be augmented with a peer-to-peer contract mechanism to discover and enforce alliances. Finally, we generalize our agent model to incorporate temporally-extended contracts, presenting opportunities for further work.
翻訳日:2022-12-28 08:24:39 公開日:2020-02-27
# モバイルペイメントマーケティングにおけるマーチャントインセンティブ最適化のためのグラフ表現学習

Graph Representation Learning for Merchant Incentive Optimization in Mobile Payment Marketing ( http://arxiv.org/abs/2003.01515v1 )

ライセンス: Link先を確認
Ziqi Liu, Dong Wang, Qianyu Yu, Zhiqiang Zhang, Yue Shen, Jian Ma, Wenliang Zhong, Jinjie Gu, Jun Zhou, Shuang Yang, Yuan Qi(参考訳) Alipayのようなモバイル支払いは、私たちの日常生活で広く使われてきた。 モバイル決済をさらに促進するためには、クーポンや手数料などのインセンティブを商人に提供し、限られた予算でマーケティングキャンペーンを行うことが重要である。 その結果、インセンティブ最適化はマーケティングキャンペーンの商業目的を最大化するための鍵となる。 オンライン実験の分析により,取引ネットワークは,インセンティブ最適化問題において非常に有効な,異なるインセンティブに対する商人の反応の類似性を微妙に記述できることが判明した。 本稿では,モバイルペイメントマーケティングにおけるマーチャントインセンティブ最適化のためのトランザクションネットワーク上にグラフ表現学習手法を提案する。 オンライン実験から得られた限られたサンプルを用いて,まず属性付き取引ネットワークに基づいて商店表現を学習し,各商店が達成できる商業目的と,様々な処理によるインセンティブとの相関関係を効果的にモデル化する。 これにより、各商人に対するインセンティブに対する感受性をモデル化し、マーケティングキャンペーンで強い感受性を示す商人に予算を費やすことができる。 Alipayの大規模なオフラインおよびオンライン実験結果から,提案手法の有効性が示された。

Mobile payment such as Alipay has been widely used in our daily lives. To further promote the mobile payment activities, it is important to run marketing campaigns under a limited budget by providing incentives such as coupons, commissions to merchants. As a result, incentive optimization is the key to maximizing the commercial objective of the marketing campaign. With the analyses of online experiments, we found that the transaction network can subtly describe the similarity of merchants' responses to different incentives, which is of great use in the incentive optimization problem. In this paper, we present a graph representation learning method atop of transaction networks for merchant incentive optimization in mobile payment marketing. With limited samples collected from online experiments, our end-to-end method first learns merchant representations based on an attributed transaction networks, then effectively models the correlations between the commercial objectives each merchant may achieve and the incentives under varying treatments. Thus we are able to model the sensitivity to incentive for each merchant, and spend the most budgets on those merchants that show strong sensitivities in the marketing campaign. Extensive offline and online experimental results at Alipay demonstrate the effectiveness of our proposed approach.
翻訳日:2022-12-28 08:24:10 公開日:2020-02-27
# defense-pointnet: 敵の攻撃からpointnetを守る

Defense-PointNet: Protecting PointNet Against Adversarial Attacks ( http://arxiv.org/abs/2002.11881v1 )

ライセンス: Link先を確認
Yu Zhang, Gongbo Liang, Tawfiq Salem, Nathan Jacobs(参考訳) 幅広いタスクにわたる顕著なパフォーマンスにもかかわらず、ニューラルネットワークは敵の攻撃に弱いことが示されている。 多くの作品は2d画像に対する敵対的な攻撃と防御に焦点を当てているが、3dポイントのクラウドに焦点を当てるものは少ない。 本稿では,3次元点群において最も広く利用されているモデルの一つであるPointNetの対角性を高めることを目的とする。 高速勾配符号攻撃法(FGSM)を3次元点群に適用し,FGSMを用いて逆画像だけでなく,逆点群も生成できることを示した。 敵攻撃に対するPointNetの脆弱性を最小限に抑えるために,Defense-PointNetを提案する。 モデルと2つのベースラインアプローチを比較して,Defense-PointNetは敵のサンプルに対するネットワークのロバスト性を大幅に改善することを示す。

Despite remarkable performance across a broad range of tasks, neural networks have been shown to be vulnerable to adversarial attacks. Many works focus on adversarial attacks and defenses on 2D images, but few focus on 3D point clouds. In this paper, our goal is to enhance the adversarial robustness of PointNet, which is one of the most widely used models for 3D point clouds. We apply the fast gradient sign attack method (FGSM) on 3D point clouds and find that FGSM can be used to generate not only adversarial images but also adversarial point clouds. To minimize the vulnerability of PointNet to adversarial attacks, we propose Defense-PointNet. We compare our model with two baseline approaches and show that Defense-PointNet significantly improves the robustness of the network against adversarial samples.
翻訳日:2022-12-28 08:23:31 公開日:2020-02-27
# ビューベース3次元オブジェクト検索のための多重識別とペアワイズCNN

Multiple Discrimination and Pairwise CNN for View-based 3D Object Retrieval ( http://arxiv.org/abs/2002.11977v1 )

ライセンス: Link先を確認
Z. Gao, K.X Xue, S.H Wan(参考訳) コンピュータ、カメラデバイス、ネットワーク、ハードウェア技術の急速な発展と応用により、3dオブジェクト(またはモデル)の検索が広く注目され、コンピュータビジョンの分野ではホットな研究テーマとなっている。 すでに3Dオブジェクト検索で利用できるディープラーニング機能は、手作り機能の検索性能よりも優れていることが証明されている。 しかし、既存のネットワークのほとんどは、ネットワークトレーニングにおけるマルチビュー画像選択の影響を考慮せず、コントラスト損失のみを使用することで、同じクラスのサンプルを可能な限り近づけることしかできない。 本研究では,3次元オブジェクト検索のためのMDPCNN (Multi-view Discrimination and Pairwise CNN) という新しい手法を提案する。 スライス層とconcat層を追加することで、複数のバッチと複数のビューを同時に入力することができる。 さらに、クラスタリングによって分類しにくいサンプルをトレーニングすることで、高い識別性ネットワークが得られる。 最後に,クラス内コンパクト性とクラス間分離性を向上する最適化目的として,コントラスト中心損失とコントラスト損失を配置する。 大規模実験により,提案したMDPCNNは3次元オブジェクト検索における最先端のアルゴリズムよりも高い性能が得られることが示された。

With the rapid development and wide application of computer, camera device, network and hardware technology, 3D object (or model) retrieval has attracted widespread attention and it has become a hot research topic in the computer vision domain. Deep learning features already available in 3D object retrieval have been proven to be better than the retrieval performance of hand-crafted features. However, most existing networks do not take into account the impact of multi-view image selection on network training, and the use of contrastive loss alone only forcing the same-class samples to be as close as possible. In this work, a novel solution named Multi-view Discrimination and Pairwise CNN (MDPCNN) for 3D object retrieval is proposed to tackle these issues. It can simultaneously input of multiple batches and multiple views by adding the Slice layer and the Concat layer. Furthermore, a highly discriminative network is obtained by training samples that are not easy to be classified by clustering. Lastly, we deploy the contrastive-center loss and contrastive loss as the optimization objective that has better intra-class compactness and inter-class separability. Large-scale experiments show that the proposed MDPCNN can achieve a significant performance over the state-of-the-art algorithms in 3D object retrieval.
翻訳日:2022-12-28 08:23:18 公開日:2020-02-27
# zoomcount: 静止画像における群衆カウントのためのズーム機構

ZoomCount: A Zooming Mechanism for Crowd Counting in Static Images ( http://arxiv.org/abs/2002.12256v1 )

ライセンス: Link先を確認
Usman Sajid, Hasan Sajid, Hongcheng Wang, Guanghui Wang(参考訳) 本稿では,静的画像の低密度・高密度シナリオにおける群集数に対する新しいアプローチを提案する。 現在のアプローチでは、巨大な群衆の多様性をうまく処理できないため、極端なケースでは、画像の異なる領域の群衆密度が低すぎるか高すぎるため、群衆の過大評価や過大評価につながる。 提案手法は,このような極端な事例を特別な方法で検出・処理することで,より優れた群衆推定が可能となるという観測に基づく。 さらに、既存の手法では、実際の群衆と散らかった背景領域を区別することは困難であり、その結果、過大評価がさらに増える。 そこで我々は,まず入力イメージを固定サイズのパッチに分割し,次に各イメージパッチをロー,中,ハイセンス,ノークロードと分類する4方向分類モジュールに供給する,簡易かつ効果的なモジュラーアプローチを提案する。 このモジュールはラベルのカウントも提供し、イメージが2つの極端なケース(非常に低いか、非常に高い密度)または通常のケースに属するかを決定するために、特別に考案された新しい決定モジュールによって分析される。 画像は、高密度または低密度の極端または通常のケースとして指定され、それぞれ専用のズームブロックまたは通常のパッチ作成ブロックを通過して、群衆推定のための固定サイズパッチの形式でレグレッタにルーティングする。 広範な実験評価の結果,提案手法は評価基準のほとんどにおいて4つのベンチマークにおいて最先端手法を上回っていることがわかった。

This paper proposes a novel approach for crowd counting in low to high density scenarios in static images. Current approaches cannot handle huge crowd diversity well and thus perform poorly in extreme cases, where the crowd density in different regions of an image is either too low or too high, leading to crowd underestimation or overestimation. The proposed solution is based on the observation that detecting and handling such extreme cases in a specialized way leads to better crowd estimation. Additionally, existing methods find it hard to differentiate between the actual crowd and the cluttered background regions, resulting in further count overestimation. To address these issues, we propose a simple yet effective modular approach, where an input image is first subdivided into fixed-size patches and then fed to a four-way classification module labeling each image patch as low, medium, high-dense or no-crowd. This module also provides a count for each label, which is then analyzed via a specifically devised novel decision module to decide whether the image belongs to any of the two extreme cases (very low or very high density) or a normal case. Images, specified as high- or low-density extreme or a normal case, pass through dedicated zooming or normal patch-making blocks respectively before routing to the regressor in the form of fixed-size patches for crowd estimate. Extensive experimental evaluations demonstrate that the proposed approach outperforms the state-of-the-art methods on four benchmarks under most of the evaluation criteria.
翻訳日:2022-12-28 08:22:58 公開日:2020-02-27
# Mertens Unrolled Network (MU-Net):ウィンドシールドドライバ認識による高ダイナミックレンジ核融合ニューラルネットワーク

The Mertens Unrolled Network (MU-Net): A High Dynamic Range Fusion Neural Network for Through the Windshield Driver Recognition ( http://arxiv.org/abs/2002.12257v1 )

ライセンス: Link先を確認
Max Ruby, David S. Bolme, Joel Brogan, David Cornett III, Baldemar Delgado, Gavin Jager, Christi Johnson, Jose Martinez-Mendoza, Hector Santos-Villalobos, Nisha Srinivas(参考訳) 制約のない環境でのフロントガラスによる車両の乗員の認識は、グレア、照明不足、ドライバーのポーズ、動きのぼやけなど、多くのユニークな課題をもたらす。 本稿では,これらの課題をより克服するために,カスタム車両撮像システムのハードウェアとソフトウェアコンポーネントを更に開発する。 ハイダイナミックレンジ(HDR)イメージングを行う物理プロトタイプシステムを構築した後、既知のドライバのスルーウインドシールド画像の小さなデータセットを収集する。 次に,従来のMertens-Kautz-Van Reeth HDR融合アルゴリズムを,スルーウインドシールド画像のHDR出力を微調整する目的で,Mertens Unrolled Network (MU-Net) と命名した。 この新たなHDR法から再構成した顔は, 従来のHDR法と実験的なHDR法とを, 訓練済みのSOTA (State-of-the-art) 顔認識パイプラインで比較し, 提案手法の有効性を検証した。

Face recognition of vehicle occupants through windshields in unconstrained environments poses a number of unique challenges ranging from glare, poor illumination, driver pose and motion blur. In this paper, we further develop the hardware and software components of a custom vehicle imaging system to better overcome these challenges. After the build out of a physical prototype system that performs High Dynamic Range (HDR) imaging, we collect a small dataset of through-windshield image captures of known drivers. We then re-formulate the classical Mertens-Kautz-Van Reeth HDR fusion algorithm as a pre-initialized neural network, which we name the Mertens Unrolled Network (MU-Net), for the purpose of fine-tuning the HDR output of through-windshield images. Reconstructed faces from this novel HDR method are then evaluated and compared against other traditional and experimental HDR methods in a pre-trained state-of-the-art (SOTA) facial recognition pipeline, verifying the efficacy of our approach.
翻訳日:2022-12-28 08:22:29 公開日:2020-02-27
# MNN: ユニバーサルで効率的な推論エンジン

MNN: A Universal and Efficient Inference Engine ( http://arxiv.org/abs/2002.12418v1 )

ライセンス: Link先を確認
Xiaotang Jiang, Huan Wang, Yiliu Chen, Ziqi Wu, Lichuan Wang, Bin Zou, Yafeng Yang, Zongyang Cui, Yu Cai, Tianhang Yu, Chengfei Lv, Zhihua Wu(参考訳) モバイルデバイスにディープラーニングモデルをデプロイすることは、最近ますます注目を集めている。 しかし、デバイス上で効率的な推論エンジンを設計することは、モデル互換性、デバイスの多様性、リソース制限といった大きな課題の下にあります。 これらの課題に対処するために,モバイルアプリケーションに適した汎用的で効率的な推論エンジンであるMobile Neural Network (MNN)を提案する。 本稿では,(1)実行時最適化を管理するプリ推論と呼ばれるメカニズムの提示,(2)最適な計算性能を実現するための演算子へのカーネル最適化の提供,(3)ハイブリッドスケジューリングを可能にするバックエンド抽象化モジュールの導入,およびエンジンの軽量化。 大規模なベンチマーク実験により、MNNは他の人気のある軽量ディープラーニングフレームワークに対して好意的に機能することが示された。 MNNは、https://github.com/alibaba/MNN.comで公開されている。

Deploying deep learning models on mobile devices draws more and more attention recently. However, designing an efficient inference engine on devices is under the great challenges of model compatibility, device diversity, and resource limitation. To deal with these challenges, we propose Mobile Neural Network (MNN), a universal and efficient inference engine tailored to mobile applications. In this paper, the contributions of MNN include: (1) presenting a mechanism called pre-inference that manages to conduct runtime optimization; (2)deliveringthorough kernel optimization on operators to achieve optimal computation performance; (3) introducing backend abstraction module which enables hybrid scheduling and keeps the engine lightweight. Extensive benchmark experiments demonstrate that MNN performs favorably against other popular lightweight deep learning frameworks. MNN is available to public at: https://github.com/alibaba/MNN.
翻訳日:2022-12-28 08:21:45 公開日:2020-02-27
# 不正アカウント検出のためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Networks for Malicious Account Detection ( http://arxiv.org/abs/2002.12307v1 )

ライセンス: Link先を確認
Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song(参考訳) GEMは、世界でも有数のモバイルキャッシュレス決済プラットフォームであるAlipayで悪意のあるアカウントを検出するための、最初の異種グラフニューラルネットワークである。 我々のアプローチはコネクテッド・サブグラフのアプローチに触発され、攻撃者の2つの基本的な弱点、すなわちデバイスアグリゲーションとアクティビティアグリゲーションに基づいて、異種アカウント・デバイスグラフからの識別埋め込みを適応的に学習する。 様々な種類のノードからなる異種グラフに対して,各タイプのノードの集約パターンをモデル化するためにsum演算子を使用しながら,異なる種類のノードの重要性を学習するための注意機構を提案する。 実験の結果,我々のアプローチは,経時的に比較して有望な結果をもたらすことがわかった。

We present, GEM, the first heterogeneous graph neural network approach for detecting malicious accounts at Alipay, one of the world's leading mobile cashless payment platform. Our approach, inspired from a connected subgraph approach, adaptively learns discriminative embeddings from heterogeneous account-device graphs based on two fundamental weaknesses of attackers, i.e. device aggregation and activity aggregation. For the heterogeneous graph consists of various types of nodes, we propose an attention mechanism to learn the importance of different types of nodes, while using the sum operator for modeling the aggregation patterns of nodes in each type. Experiments show that our approaches consistently perform promising results compared with competitive methods over time.
翻訳日:2022-12-28 08:15:03 公開日:2020-02-27
# 協調フィルタリングとランク付けの進歩

Advances in Collaborative Filtering and Ranking ( http://arxiv.org/abs/2002.12312v1 )

ライセンス: Link先を確認
Liwei Wu(参考訳) 本稿では,協調フィルタリングとランキングの最近の進歩について述べる。 In chapter 1, we give a brief introduction of the history and the current landscape of collaborative filtering and ranking; chapter 2 we first talk about pointwise collaborative filtering problem with graph information, and how our proposed new method can encode very deep graph information which helps four existing graph collaborative filtering algorithms; chapter 3 is on the pairwise approach for collaborative ranking and how we speed up the algorithm to near-linear time complexity; chapter 4 is on the new listwise approach for collaborative ranking and how the listwise approach is a better choice of loss for both explicit and implicit feedback over pointwise and pairwise loss; chapter 5 is about the new regularization technique Stochastic Shared Embeddings (SSE) we proposed for embedding layers and how it is both theoretically sound and empirically effectively for 6 different tasks across recommendation and natural language processing; chapter 6 is how we introduce personalization for the state-of-the-art sequential recommendation model with the help of SSE, which plays an important role in preventing our personalized model from overfitting to the training data; chapter 7, we summarize what we have achieved so far and predict what the future directions can be; chapter 8 is the appendix to all the chapters.

In this dissertation, we cover some recent advances in collaborative filtering and ranking. In chapter 1, we give a brief introduction of the history and the current landscape of collaborative filtering and ranking; chapter 2 we first talk about pointwise collaborative filtering problem with graph information, and how our proposed new method can encode very deep graph information which helps four existing graph collaborative filtering algorithms; chapter 3 is on the pairwise approach for collaborative ranking and how we speed up the algorithm to near-linear time complexity; chapter 4 is on the new listwise approach for collaborative ranking and how the listwise approach is a better choice of loss for both explicit and implicit feedback over pointwise and pairwise loss; chapter 5 is about the new regularization technique Stochastic Shared Embeddings (SSE) we proposed for embedding layers and how it is both theoretically sound and empirically effectively for 6 different tasks across recommendation and natural language processing; chapter 6 is how we introduce personalization for the state-of-the-art sequential recommendation model with the help of SSE, which plays an important role in preventing our personalized model from overfitting to the training data; chapter 7, we summarize what we have achieved so far and predict what the future directions can be; chapter 8 is the appendix to all the chapters.
翻訳日:2022-12-28 08:14:49 公開日:2020-02-27
# ネットワーク学習による保険詐欺陰謀の解明

Uncovering Insurance Fraud Conspiracy with Network Learning ( http://arxiv.org/abs/2002.12789v1 )

ライセンス: Link先を確認
Chen Liang, Ziqi Liu, Bin Liu, Jun Zhou, Xiaolong Li, Shuang Yang, Yuan Qi(参考訳) 不正なクレーム検出は、保険業界が直面する最大の課題の1つだ。 alibabaのreturn-freight insuranceは、eコマースプラットフォーム上で商品の返品に対して返品料を支払い、毎日何千もの詐欺的な請求を受けています。 このような保険政策の故意な乱用は、大きな損失をもたらす可能性がある。 不正な保険請求の検出と防止のために,ネットワーク情報を学習し,組織的詐欺師の集団を識別するための新しいデータ駆動手法を開発した。 本稿では,請求者間のデバイス共有ネットワークについて紹介するとともに,グラフ学習アルゴリズムに基づく不正検出の自動ソリューションを開発し,詐欺師を正規顧客から分離し,組織的詐欺師のグループを明らかにする。 alibabaが適用したこのソリューションは80%以上の精度を実現し、人間の専門家による調査の後、以前デプロイされたルールベースの分類器と比較して44%以上の疑わしいアカウントをカバーできる。 我々のアプローチは他のタイプの保険に簡単かつ効果的に一般化できる。

Fraudulent claim detection is one of the greatest challenges the insurance industry faces. Alibaba's return-freight insurance, providing return-shipping postage compensations over product return on the e-commerce platform, receives thousands of potentially fraudulent claims every day. Such deliberate abuse of the insurance policy could lead to heavy financial losses. In order to detect and prevent fraudulent insurance claims, we developed a novel data-driven procedure to identify groups of organized fraudsters, one of the major contributions to financial losses, by learning network information. In this paper, we introduce a device-sharing network among claimants, followed by developing an automated solution for fraud detection based on graph learning algorithms, to separate fraudsters from regular customers and uncover groups of organized fraudsters. This solution applied at Alibaba achieves more than 80% precision while covering 44% more suspicious accounts compared with a previously deployed rule-based classifier after human expert investigations. Our approach can easily and effectively generalizes to other types of insurance.
翻訳日:2022-12-28 08:12:50 公開日:2020-02-27
# 小売業者はいくら売れますか? tmallにおける販売予測

How Much Can A Retailer Sell? Sales Forecasting on Tmall ( http://arxiv.org/abs/2002.11940v1 )

ライセンス: Link先を確認
Chaochao Chen, Ziqi Liu, Jun Zhou, Xiaolong Li, Yuan Qi, Yujing Jiao, and Xingyu Zhong(参考訳) 時系列予測は学術と産業の両方において重要な課題であり、在庫、水供給、販売予測など多くの実際の予測問題を解決するために応用することができる。 本稿では,世界有数のオンラインB2CプラットフォームであるTmallにおける小売業者の売り上げ予測について検討する。 データを分析することにより、小売業の異なるグループをグループ化した後の販売季節性と、販売転換後のツイーディー分布(予測対象)の2つの主要な観察結果が得られる。 本研究は,販売予測,すなわち季節性抽出と流通転換の2つのメカニズムを設計する。 まず,フーリエ分解(fourier decomposition)を採用することで,小売業者の異なるカテゴリの季節性を自動的に抽出し,任意の既定回帰アルゴリズムの追加機能として利用できる。 第2に,対数変換後の売上損失を最適化する手法を提案する。 これらの2つのメカニズムを古典回帰モデル、すなわちニューラルネットワークと勾配ブースティング決定木に適用し、Tmallデータセットの実験結果から、どちらのメカニズムも予測結果を大幅に改善できることが示された。

Time-series forecasting is an important task in both academic and industry, which can be applied to solve many real forecasting problems like stock, water-supply, and sales predictions. In this paper, we study the case of retailers' sales forecasting on Tmall|the world's leading online B2C platform. By analyzing the data, we have two main observations, i.e., sales seasonality after we group different groups of retails and a Tweedie distribution after we transform the sales (target to forecast). Based on our observations, we design two mechanisms for sales forecasting, i.e., seasonality extraction and distribution transformation. First, we adopt Fourier decomposition to automatically extract the seasonalities for different categories of retailers, which can further be used as additional features for any established regression algorithms. Second, we propose to optimize the Tweedie loss of sales after logarithmic transformations. We apply these two mechanisms to classic regression models, i.e., neural network and Gradient Boosting Decision Tree, and the experimental results on Tmall dataset show that both mechanisms can significantly improve the forecasting results.
翻訳日:2022-12-28 08:05:11 公開日:2020-02-27
# MetFlow: Markov Chain Monte Carlo と変分推論のギャップを埋める新しい効率的な方法

MetFlow: A New Efficient Method for Bridging the Gap between Markov Chain Monte Carlo and Variational Inference ( http://arxiv.org/abs/2002.12253v1 )

ライセンス: Link先を確認
Achille Thin, Nikita Kotelevskii, Jean-Stanislas Denain, Leo Grinsztajn, Alain Durmus, Maxim Panov and Eric Moulines(参考訳) 本研究では,変分推論(vi)とマルコフ連鎖モンテカルロ(mcmc)を組み合わせた計算効率の高い新しい手法を提案する。 このアプローチは汎用MCMCカーネルで使用することができるが,提案手法を正規化フローを用いて提案するMCMCアルゴリズムの新たなファミリであるtextit{MetFlow} に特に適している。 このようなMCMCアルゴリズムが生み出す限界分布は流れに基づく分布の混合であり、したがって変動族の表現率が劇的に増加する。 この方向に従う従来の手法とは異なり、我々の手法は再パラメータ化のトリックに適応し、計算コストのかかる逆カーネルに依存しない。 大規模な数値実験は、最先端の手法よりも明確な計算と性能の向上を示している。

In this contribution, we propose a new computationally efficient method to combine Variational Inference (VI) with Markov Chain Monte Carlo (MCMC). This approach can be used with generic MCMC kernels, but is especially well suited to \textit{MetFlow}, a novel family of MCMC algorithms we introduce, in which proposals are obtained using Normalizing Flows. The marginal distribution produced by such MCMC algorithms is a mixture of flow-based distributions, thus drastically increasing the expressivity of the variational family. Unlike previous methods following this direction, our approach is amenable to the reparametrization trick and does not rely on computationally expensive reverse kernels. Extensive numerical experiments show clear computational and performance improvements over state-of-the-art methods.
翻訳日:2022-12-28 08:04:05 公開日:2020-02-27
# オフライン観察による高能率第三者模倣

Provably Efficient Third-Person Imitation from Offline Observation ( http://arxiv.org/abs/2002.12446v1 )

ライセンス: Link先を確認
Aaron Zweig and Joan Bruna(参考訳) 模倣学習におけるドメイン適応は、一般化性を改善するための重要なステップである。 しかし、同型マルコフ決定過程間の移動が制限された第三者模倣においても、転送されたポリシーのパフォーマンスに強い保証はない。 オフライン環境での観察から第三者の模倣に対する問題依存的,統計的学習を保証するとともに,オンライン環境でのパフォーマンスに対する制約を低くする。

Domain adaptation in imitation learning represents an essential step towards improving generalizability. However, even in the restricted setting of third-person imitation where transfer is between isomorphic Markov Decision Processes, there are no strong guarantees on the performance of transferred policies. We present problem-dependent, statistical learning guarantees for third-person imitation from observation in an offline setting, and a lower bound on performance in the online setting.
翻訳日:2022-12-28 07:57:46 公開日:2020-02-27
# 拡張排他的群lassoによる特徴選択の相関

Correlated Feature Selection with Extended Exclusive Group Lasso ( http://arxiv.org/abs/2002.12460v1 )

ライセンス: Link先を確認
Yuxin Sun and Benny Chain and Samuel Kaski and John Shawe-Taylor(参考訳) 生物学的文脈で設定された多くの高次元の分類や回帰問題において、情報的特徴の集合の完全な同定は、機械的洞察と概念的理解を提供するため、予測精度と同じくらいに重要である。 ラッソとその関連アルゴリズムは、スパース解が自然に情報的特徴の集合を識別して以来、広く使われている。 しかしながら、lassoは特徴が関連付けられると不規則に機能する。 これにより、生物学的問題におけるそのようなアルゴリズムの使用が制限され、遺伝子のような特徴はしばしば経路内で協調して働き、高い相関性を持つ特徴の集合に繋がる。 本稿では,ラッソの排他的群であるラッソ誘導体の性能について検討する。 排他的群 Lasso を解くための高速アルゴリズムを提案し、基礎となる群構造が不明な場合に解を導入する。 このソリューションは、安定性選択とランダムグループ割り当てと人工的な特徴の導入を組み合わせたものである。 合成データと実世界のデータの両方を用いた実験は、情報的特徴の包括的選択において、ラッソに対して提案された手法の利点を強調している。

In many high dimensional classification or regression problems set in a biological context, the complete identification of the set of informative features is often as important as predictive accuracy, since this can provide mechanistic insight and conceptual understanding. Lasso and related algorithms have been widely used since their sparse solutions naturally identify a set of informative features. However, Lasso performs erratically when features are correlated. This limits the use of such algorithms in biological problems, where features such as genes often work together in pathways, leading to sets of highly correlated features. In this paper, we examine the performance of a Lasso derivative, the exclusive group Lasso, in this setting. We propose fast algorithms to solve the exclusive group Lasso, and introduce a solution to the case when the underlying group structure is unknown. The solution combines stability selection with random group allocation and introduction of artificial features. Experiments with both synthetic and real-world data highlight the advantages of this proposed methodology over Lasso in comprehensive selection of informative features.
翻訳日:2022-12-28 07:57:39 公開日:2020-02-27
# グラフスペクトル測度に基づくスーパークラスによるグラフのFew-Shot学習

Few-Shot Learning on Graphs via Super-Classes based on Graph Spectral Measures ( http://arxiv.org/abs/2002.12815v1 )

ライセンス: Link先を確認
Jatin Chauhan, Deepak Nathani, Manohar Kaul(参考訳) 本稿では,グラフニューラルネットワーク(GNN)におけるショットグラフ分類の問題について,ラベル付きグラフの限られた例を考慮し,未確認のクラスを認識することを提案する。 最近、ノード分類やグラフ分類のタスクにいくつかの興味深いGNN変種が提案されているが、いくつかのショットセットでラベル付けされた例が不足しているため、これらのGNNは分類性能に大きな損失を出している。 ここでは、ラプラシアン正規化グラフのスペクトルに基づいて、各グラフに確率測度を割り当てる手法を提案する。 これにより、グラフに関連付けられたグラフベースラベルをスーパークラスにクラスタリングすることが可能となり、Lpワッサーシュタイン距離が基礎となる距離メートル法として機能する。 その後、スーパークラスに基づいて構築されたスーパーグラフを、スーパーグラフによって明示された潜在クラス間関係を利用してグラフ間のより良いクラスラベル分離を実現するGNNフレームワークに供給する。 提案手法を徹底的に実験的に評価し,本手法が少数のショットシナリオに対するアートグラフ分類法の状態適応と,我々のナイーブなベースラインgnnよりも優れていることを示す。 さらに,本手法の動作を半教師あり,アクティブな学習シナリオにも拡張・検討した。

We propose to study the problem of few shot graph classification in graph neural networks (GNNs) to recognize unseen classes, given limited labeled graph examples. Despite several interesting GNN variants being proposed recently for node and graph classification tasks, when faced with scarce labeled examples in the few shot setting, these GNNs exhibit significant loss in classification performance. Here, we present an approach where a probability measure is assigned to each graph based on the spectrum of the graphs normalized Laplacian. This enables us to accordingly cluster the graph base labels associated with each graph into super classes, where the Lp Wasserstein distance serves as our underlying distance metric. Subsequently, a super graph constructed based on the super classes is then fed to our proposed GNN framework which exploits the latent inter class relationships made explicit by the super graph to achieve better class label separation among the graphs. We conduct exhaustive empirical evaluations of our proposed method and show that it outperforms both the adaptation of state of the art graph classification methods to few shot scenario and our naive baseline GNNs. Additionally, we also extend and study the behavior of our method to semi supervised and active learning scenarios.
翻訳日:2022-12-28 07:57:22 公開日:2020-02-27
# 視覚単語の袋予測による学習表現

Learning Representations by Predicting Bags of Visual Words ( http://arxiv.org/abs/2002.12247v1 )

ライセンス: Link先を確認
Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick P\'erez, Matthieu Cord(参考訳) 自己教師付き表現学習ターゲットは、ラベルのないデータからconvnetベースのイメージ表現を学ぶ。 この分野でのNLP手法の成功に触発された本研究では,視覚的単語と呼ばれる離散的な視覚概念を符号化した空間的に密集した画像記述に基づく自己教師型アプローチを提案する。 このような離散表現を構築するために、k-means に基づく語彙を用いて、最初の事前訓練された自己教師付き共振器の特徴写像を定量化する。 そして、自己監督タスクとして、画像の摂動バージョン入力として与えられた画像の視覚的ワード(すなわち単語の袋表現)のヒストグラムを予測するために、別のconvnetを訓練する。 提案したタスクは、ダウンストリーム画像理解タスクに有用な摂動不変およびコンテキスト対応の画像特徴を学習させる。 我々は,本手法を広範囲に評価し,例えば,事前学習した自己教師表現は,検出タスクにおいて,また,教師付きケースと比較して,事前学習中に「見えない」クラスに対する分類よりも優れていることを示す。 これはまた、視覚的単語への画像認識のプロセスが、画像領域における非常に強力な自己監督的アプローチの基礎となることを示し、これまで非常に成功してきたNLPドメインの関連手法にさらなる接続を可能にする。

Self-supervised representation learning targets to learn convnet-based image representations from unlabeled data. Inspired by the success of NLP methods in this area, in this work we propose a self-supervised approach based on spatially dense image descriptions that encode discrete visual concepts, here called visual words. To build such discrete representations, we quantize the feature maps of a first pre-trained self-supervised convnet, over a k-means based vocabulary. Then, as a self-supervised task, we train another convnet to predict the histogram of visual words of an image (i.e., its Bag-of-Words representation) given as input a perturbed version of that image. The proposed task forces the convnet to learn perturbation-invariant and context-aware image features, useful for downstream image understanding tasks. We extensively evaluate our method and demonstrate very strong empirical results, e.g., our pre-trained self-supervised representations transfer better on detection task and similarly on classification over classes "unseen" during pre-training, when compared to the supervised case. This also shows that the process of image discretization into visual words can provide the basis for very powerful self-supervised approaches in the image domain, thus allowing further connections to be made to related methods from the NLP domain that have been extremely successful so far.
翻訳日:2022-12-28 07:55:54 公開日:2020-02-27
# 自己教師付き単眼深度に対する意味指導型表現学習

Semantically-Guided Representation Learning for Self-Supervised Monocular Depth ( http://arxiv.org/abs/2002.12319v1 )

ライセンス: Link先を確認
Vitor Guizilini, Rui Hou, Jie Li, Rares Ambrus, Adrien Gaidon(参考訳) 自己教師付き学習は、幾何学を唯一の監督源として用いて、単眼深度推定に非常に有望である。 深度ネットワークは、カテゴリーレベルのパターンを暗黙的に活用することで、視覚的な外観と3D特性を関連付ける表現を学習することができる。 本研究では,この意味構造をより直接的に活用して幾何学的表現学習を指導する方法を検討する。 マルチタスクアプローチでは,セマンティックラベルやプロキシ損失を代用する代わりに,予め訓練されたセマンティックセグメンテーションネットワークを利用して,画素適応畳み込みによる自己教師付き表現学習を誘導するアーキテクチャを提案する。 さらに,リサンプリングにより動的オブジェクトに対する共通意味バイアスを克服する2段階のトレーニングプロセスを提案する。 本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。

Self-supervised learning is showing great promise for monocular depth estimation, using geometry as the only source of supervision. Depth networks are indeed capable of learning representations that relate visual appearance to 3D properties by implicitly leveraging category-level patterns. In this work we investigate how to leverage more directly this semantic structure to guide geometric representation learning, while remaining in the self-supervised regime. Instead of using semantic labels and proxy losses in a multi-task approach, we propose a new architecture leveraging fixed pretrained semantic segmentation networks to guide self-supervised representation learning via pixel-adaptive convolutions. Furthermore, we propose a two-stage training process to overcome a common semantic bias on dynamic objects via resampling. Our method improves upon the state of the art for self-supervised monocular depth prediction over all pixels, fine-grained details, and per semantic categories.
翻訳日:2022-12-28 07:55:29 公開日:2020-02-27
# データ評価のための分散フレームワーク

A Distributional Framework for Data Valuation ( http://arxiv.org/abs/2002.12334v1 )

ライセンス: Link先を確認
Amirata Ghorbani, Michael P. Kim, James Zou(参考訳) shapley valueはゲーム理論の古典的な概念であり、歴史的にグループ内の個人の貢献を定量化するために使われ、最近では機械学習モデルをトレーニングする際にデータポイントに価値を割り当てるために応用されている。 基本的な役割にもかかわらず、データ共有フレームワークの重要な制限は、固定データセット内のポイントに対する評価のみを提供することだ。 データの統計的側面を考慮せず、データセット外の点を推論する手段を提供していない。 これらの制限に対処するため、我々は、基礎となるデータ分散の文脈でポイントの値が定義される、新しいフレームワーク、分散共有を提案する。 分布Shapleyにはいくつかの望ましい統計特性があることを証明し、例えば、データはデータポイント自体や基礎となるデータ分散に対する摂動の下で安定している。 これらの特性を活かして,データから値を推定する新たなアルゴリズムを開発した。形式的保証を伴い,(非分布的)データシェープリー値を計算するための最先端アルゴリズムよりも2桁高速に動作している。 分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。

Shapley value is a classic notion from game theory, historically used to quantify the contributions of individuals within groups, and more recently applied to assign values to data points when training machine learning models. Despite its foundational role, a key limitation of the data Shapley framework is that it only provides valuations for points within a fixed data set. It does not account for statistical aspects of the data and does not give a way to reason about points outside the data set. To address these limitations, we propose a novel framework -- distributional Shapley -- where the value of a point is defined in the context of an underlying data distribution. We prove that distributional Shapley has several desirable statistical properties; for example, the values are stable under perturbations to the data points themselves and to the underlying data distribution. We leverage these properties to develop a new algorithm for estimating values from data, which comes with formal guarantees and runs two orders of magnitude faster than state-of-the-art algorithms for computing the (non-distributional) data Shapley values. We apply distributional Shapley to diverse data sets and demonstrate its utility in a data market setting.
翻訳日:2022-12-28 07:47:00 公開日:2020-02-27
# EHRからの多変量時系列におけるインフォーマティブな欠如を爆発させるカーネル

A Kernel to Exploit Informative Missingness in Multivariate Time Series from EHRs ( http://arxiv.org/abs/2002.12359v1 )

ライセンス: Link先を確認
Karl {\O}yvind Mikalsen and Cristina Soguero-Ruiz and Robert Jenssen(参考訳) 電子健康記録(ehrs)の大部分は、検査やバイタルサインなどの時間とともに収集された臨床測定からなり、患者の健康状態に関する重要な情報を提供する。 これらの臨床測定のシーケンスは自然に時系列として表され、複数の変数と大量の欠落データによって特徴づけられ、解析が複雑になる。 本研究では、観測値からの情報と、EHRから派生した多変量時系列(MTS)の欠落パターンに隠された情報の両方を活用できる新しいカーネルを提案する。 TCK$_{IM}$と呼ばれるカーネルは、アンサンブル学習戦略を用いて設計されており、ベースモデルが新しい混合モードのベイズ混合モデルであり、命令法を使わずに情報不足を効果的に活用することができる。 さらに、アンサンブルアプローチはハイパーパラメータに対する堅牢性を保証するため、TCK$_{IM}$はラベルが不足している場合には特に適している。 3つの実世界の臨床データセットの実験は、提案したカーネルの有効性を示す。

A large fraction of the electronic health records (EHRs) consists of clinical measurements collected over time, such as lab tests and vital signs, which provide important information about a patient's health status. These sequences of clinical measurements are naturally represented as time series, characterized by multiple variables and large amounts of missing data, which complicate the analysis. In this work, we propose a novel kernel which is capable of exploiting both the information from the observed values as well the information hidden in the missing patterns in multivariate time series (MTS) originating e.g. from EHRs. The kernel, called TCK$_{IM}$, is designed using an ensemble learning strategy in which the base models are novel mixed mode Bayesian mixture models which can effectively exploit informative missingness without having to resort to imputation methods. Moreover, the ensemble approach ensures robustness to hyperparameters and therefore TCK$_{IM}$ is particularly well suited if there is a lack of labels - a known challenge in medical applications. Experiments on three real-world clinical datasets demonstrate the effectiveness of the proposed kernel.
翻訳日:2022-12-28 07:46:42 公開日:2020-02-27
# 学ぶための学習の理論モデル

Theoretical Models of Learning to Learn ( http://arxiv.org/abs/2002.12364v1 )

ライセンス: Link先を確認
Jonathan Baxter(参考訳) 機械は何らかの方法でバイアスを受けているかしか学べない。 通常、バイアスは、例えば適切な機能のセットを選択することで手によって供給される。 しかし、学習機械が関連するタスクの「em環境」に埋め込まれている場合、環境から十分に多くのタスクを学習することで、自分自身のバイアスを学習することができる。 本稿では,バイアス学習の2つのモデル(またはそれと同値な学習)を紹介し,その主な理論結果について述べる。 第1モデルは経験的プロセス理論に基づくpac型モデルであり,第2モデルは階層ベイズモデルである。

A Machine can only learn if it is biased in some way. Typically the bias is supplied by hand, for example through the choice of an appropriate set of features. However, if the learning machine is embedded within an {\em environment} of related tasks, then it can {\em learn} its own bias by learning sufficiently many tasks from the environment. In this paper two models of bias learning (or equivalently, learning to learn) are introduced and the main theoretical results presented. The first model is a PAC-type model based on empirical process theory, while the second is a hierarchical Bayes model.
翻訳日:2022-12-28 07:46:23 公開日:2020-02-27
# tskファジィ分類器のための教師付き強化ソフトサブスペースクラスタリング(sessc)

Supervised Enhanced Soft Subspace Clustering (SESSC) for TSK Fuzzy Classifiers ( http://arxiv.org/abs/2002.12404v1 )

ライセンス: Link先を確認
Yuqi Cui, Huidong Wang, Dongrui Wu(参考訳) ファジィc平均クラスタリングアルゴリズムは,高木スゲノカン(TSK)ファジィ分類器の先行パラメータ推定によく用いられる。 1つのルールは各クラスタから初期化されます。 しかし、これらのクラスタリングアルゴリズムのほとんどは教師なしであり、トレーニングデータに貴重なラベル情報を無駄にしている。 本稿では,クラスタ内コンパクト性,クラスタ間分離,クラスタリングにおけるラベル情報とを同時に考慮した拡張ソフトサブスペースクラスタリング(SESSC)アルゴリズムを提案する。 高次元データを効果的に処理したり、分類器単独で使用したり、tskファジィ分類器に統合してさらに性能を向上させることができる。 さまざまなアプリケーションドメインからの9つのUCIデータセットの実験では、SESSCベースの初期化は、特にルールの数が少ない場合、他のクラスタリングアプローチよりも優れていた。

Fuzzy c-means based clustering algorithms are frequently used for Takagi-Sugeno-Kang (TSK) fuzzy classifier antecedent parameter estimation. One rule is initialized from each cluster. However, most of these clustering algorithms are unsupervised, which waste valuable label information in the training data. This paper proposes a supervised enhanced soft subspace clustering (SESSC) algorithm, which considers simultaneously the within-cluster compactness, between-cluster separation, and label information in clustering. It can effectively deal with high-dimensional data, be used as a classifier alone, or be integrated into a TSK fuzzy classifier to further improve its performance. Experiments on nine UCI datasets from various application domains demonstrated that SESSC based initialization outperformed other clustering approaches, especially when the number of rules is small.
翻訳日:2022-12-28 07:46:13 公開日:2020-02-27
# 表現学習のための自由エネルギー原理

A Free-Energy Principle for Representation Learning ( http://arxiv.org/abs/2002.12406v1 )

ライセンス: Link先を確認
Yansong Gao and Pratik Chaudhari(参考訳) 本稿では,機械学習と熱力学の形式的接続を用いて,トランスファー学習における学習表現の質を特徴付ける。 モデルの速度、歪み、分類損失といった情報理論的機能がどのように凸、いわゆる平衡面上に存在するのかを議論し、例えば、速度と歪みを交換して分類損失を一定に保つ等級化過程において、この表面をトラバースする動的過程を規定する。 本稿では、このプロセスを用いて、分類損失を一定に保ちながら、ソースデータセットからターゲットデータセットに表現を転送する方法を示す。 標準画像分類データセット上で理論的結果の実験的検証を行う。

This paper employs a formal connection of machine learning with thermodynamics to characterize the quality of learnt representations for transfer learning. We discuss how information-theoretic functional such as rate, distortion and classification loss of a model lie on a convex, so-called equilibrium surface.We prescribe dynamical processes to traverse this surface under constraints, e.g., an iso-classification process that trades off rate and distortion to keep the classification loss unchanged. We demonstrate how this process can be used for transferring representations from a source dataset to a target dataset while keeping the classification loss constant. Experimental validation of the theoretical results is provided on standard image-classification datasets.
翻訳日:2022-12-28 07:45:59 公開日:2020-02-27
# 生入力画像の絡み合いに基づく状態表現学習によるクラッタ視覚把握のためのアクタ-クリティック深層強化学習の高速化

Acceleration of Actor-Critic Deep Reinforcement Learning for Visual Grasping in Clutter by State Representation Learning Based on Disentanglement of a Raw Input Image ( http://arxiv.org/abs/2002.11903v1 )

ライセンス: Link先を確認
Taewon Kim, Yeseong Park, Youngbin Park and Il Hong Suh(参考訳) 乱雑な環境に多様な未確認対象物が存在するロボット把握タスクにおいて, 深層学習に基づくいくつかの手法は, 直接視覚入力を用いて最先端の結果を得た。 対照的に、アクター-クリティック深層強化学習(rl)法は、通常、様々なオブジェクトを掴む場合、特に生の画像から学習し、報酬が乏しい場合、非常によく機能しない。 視覚に基づく把握作業において,これらのRL技術を実現するために,我々は状態表現学習(SRL)を用いて,RLにおいて重要な情報を最初にエンコードする。 しかし,ロボットが対象対象物をつかもうとする表現学習の視覚入力は極めて複雑であるため,一般的な表現学習手順は把持スキルを学習するための関連する情報を抽出するのに不適当である。 その結果,原画像の歪みに基づく前処理が,コンパクトな表現を効果的に捉える鍵であることが判明した。 これにより、深いRLは、高度に多様な視覚入力からロボットの把握スキルを学ぶことができる。 本手法の有効性を,現実的なシミュレーション環境において,様々なレベルの絡み合いで示す。

For a robotic grasping task in which diverse unseen target objects exist in a cluttered environment, some deep learning-based methods have achieved state-of-the-art results using visual input directly. In contrast, actor-critic deep reinforcement learning (RL) methods typically perform very poorly when grasping diverse objects, especially when learning from raw images and sparse rewards. To make these RL techniques feasible for vision-based grasping tasks, we employ state representation learning (SRL), where we encode essential information first for subsequent use in RL. However, typical representation learning procedures are unsuitable for extracting pertinent information for learning the grasping skill, because the visual inputs for representation learning, where a robot attempts to grasp a target object in clutter, are extremely complex. We found that preprocessing based on the disentanglement of a raw input image is the key to effectively capturing a compact representation. This enables deep RL to learn robotic grasping skills from highly varied and diverse visual inputs. We demonstrate the effectiveness of this approach with varying levels of disentanglement in a realistic simulated environment.
翻訳日:2022-12-28 07:39:28 公開日:2020-02-27
# MDP準同型に対する平面近似:作用下の等分散

Plannable Approximations to MDP Homomorphisms: Equivariance under Actions ( http://arxiv.org/abs/2002.11963v1 )

ライセンス: Link先を確認
Elise van der Pol, Thomas Kipf, Frans A. Oliehoek, Max Welling(参考訳) 本研究は強化学習における表現学習にアクション等価性を利用する。 作用による等分散は、入力空間の遷移は潜在空間における等価な遷移によってミラーされ、写像と遷移関数も可換であることを示す。 学習した表現に作用同値を強制する対照的な損失関数を導入する。 損失がゼロであるとき、決定論的マルコフ決定過程(MDP)の準同型が存在することを証明している。 等変写像の学習は構造化された潜在空間へとつながり、価値の反復を通じて計画するモデルを構築することができる。 本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。 さらに、このアプローチは目標状態の変化に容易に適応できる。 実験により, モデルフリーの手法よりも新たな目標への一般化を図りながら, 再構成を用いた表現学習手法と比較して, より少ないエポックの表現が得られることを示した。

This work exploits action equivariance for representation learning in reinforcement learning. Equivariance under actions states that transitions in the input space are mirrored by equivalent transitions in latent space, while the map and transition functions should also commute. We introduce a contrastive loss function that enforces action equivariance on the learned representations. We prove that when our loss is zero, we have a homomorphism of a deterministic Markov Decision Process (MDP). Learning equivariant maps leads to structured latent spaces, allowing us to build a model on which we plan through value iteration. We show experimentally that for deterministic MDPs, the optimal policy in the abstract MDP can be successfully lifted to the original MDP. Moreover, the approach easily adapts to changes in the goal states. Empirically, we show that in such MDPs, we obtain better representations in fewer epochs compared to representation learning approaches using reconstructions, while generalizing better to new goals than model-free approaches.
翻訳日:2022-12-28 07:38:40 公開日:2020-02-27
# 有意グラフ上の半教師あり異常検出

Semi-supervised Anomaly Detection on Attributed Graphs ( http://arxiv.org/abs/2002.12011v1 )

ライセンス: Link先を確認
Atsutoshi Kumagai, Tomoharu Iwata, Yasuhiro Fujiwara(参考訳) 本稿では,少数のインスタンスのラベル情報を用いて属性グラフ上の異常なインスタンスを検出する方法を提案する。 標準的な異常検出手法では、インスタンスは独立かつ同一に分散していると仮定されるが、多くの実世界のアプリケーションでは、インスタンスはしばしば互いに明示的に接続され、いわゆる帰結グラフとなる。 提案手法は,その属性とグラフ畳み込みネットワーク(gcns)に基づくグラフ構造を考慮に入れて,潜在空間内の有界グラフにノード(インスタンス)を埋め込む。 異常検出に特化したノード埋め込みを学習するために、異常のララリティによるクラス不均衡がある場合、gcnのパラメータは、異常なノードを超球の外に埋め込みながら、正常なインスタンスのノード埋め込みを囲む超球の体積を最小化するように訓練される。 これにより,ノード埋め込みとハイパースフィアセンター間の距離を計算し,異常を検出することができる。 提案手法は, ノードの属性, グラフ構造, クラス不均衡を考慮し, 少数のノードのラベル情報をラベルのないノードに効果的に伝達することができる。 実世界の5つの属性グラフデータセットを用いた実験において,提案手法が既存の異常検出法よりも優れた性能を示すことを示す。

We propose a simple yet effective method for detecting anomalous instances on an attribute graph with label information of a small number of instances. Although with standard anomaly detection methods it is usually assumed that instances are independent and identically distributed, in many real-world applications, instances are often explicitly connected with each other, resulting in so-called attributed graphs. The proposed method embeds nodes (instances) on the attributed graph in the latent space by taking into account their attributes as well as the graph structure based on graph convolutional networks (GCNs). To learn node embeddings specialized for anomaly detection, in which there is a class imbalance due to the rarity of anomalies, the parameters of a GCN are trained to minimize the volume of a hypersphere that encloses the node embeddings of normal instances while embedding anomalous ones outside the hypersphere. This enables us to detect anomalies by simply calculating the distances between the node embeddings and hypersphere center. The proposed method can effectively propagate label information on a small amount of nodes to unlabeled ones by taking into account the node's attributes, graph structure, and class imbalance. In experiments with five real-world attributed graph datasets, we demonstrate that the proposed method achieves better performance than various existing anomaly detection methods.
翻訳日:2022-12-28 07:37:57 公開日:2020-02-27
# トポロジー距離:創発的逆ネットワーク評価のためのトポロジーベースアプローチ

Topology Distance: A Topology-Based Approach For Evaluating Generative Adversarial Networks ( http://arxiv.org/abs/2002.12054v1 )

ライセンス: Link先を確認
Danijela Horak, Simiao Yu, Gholamreza Salimi-Khorshidi(参考訳) GAN(Generative Adversarial Networks)の自動評価は、機械学習分野における課題である。 本研究では,実データの潜在多様体の幾何学的特徴と位相的特徴を生成データとを比較することを主目的とするトポロジー距離 (td) という既存の尺度を補完する距離を提案する。 より具体的には、2つの多様体の永続ホモロジー群の違いに基づいて、画像特徴量に基づいてVietoris-Rips複合体を構築し、TDを定義する。 我々はTDを、様々なデータセットにおける様々な実験において、Inception Score(IS)、Frechet Inception Distance(FID)、Kernel Inception Distance(KID)、Geometry Score(GS)など、この分野で最もよく使われている、関連する指標と比較した。 上記のメトリクスに対する提案手法の独特なアドバンテージと優位性を実証する。 実験結果とTDを支持する理論的議論を組み合わせることで,TDはGANの学習の良さを自動評価する上で,研究者が活用できる強力な候補指標である,という主張を強く支持する。

Automatic evaluation of the goodness of Generative Adversarial Networks (GANs) has been a challenge for the field of machine learning. In this work, we propose a distance complementary to existing measures: Topology Distance (TD), the main idea behind which is to compare the geometric and topological features of the latent manifold of real data with those of generated data. More specifically, we build Vietoris-Rips complex on image features, and define TD based on the differences in persistent-homology groups of the two manifolds. We compare TD with the most commonly used and relevant measures in the field, including Inception Score (IS), Frechet Inception Distance (FID), Kernel Inception Distance (KID) and Geometry Score (GS), in a range of experiments on various datasets. We demonstrate the unique advantage and superiority of our proposed approach over the aforementioned metrics. A combination of our empirical results and the theoretical argument we propose in favour of TD, strongly supports the claim that TD is a powerful candidate metric that researchers can employ when aiming to automatically evaluate the goodness of GANs' learning.
翻訳日:2022-12-28 07:37:18 公開日:2020-02-27
# アフガニスタンにおける有害事象の予測:地理的依存度ではなく時系列データの回帰分析

Prediction of adverse events in Afghanistan: regression analysis of time series data grouped not by geographic dependencies ( http://arxiv.org/abs/2002.12211v1 )

ライセンス: Link先を確認
Krzysztof Fiok (1), Waldemar Karwowski (1), Maciej Wilamowski (2) ((1) University of Central Florida, Department of Industrial Engineering and Management Systems, Orlando, Florida, USA (2) University of Warsaw, Faculty of Economic Sciences, Warsaw, Poland)(参考訳) 本研究の目的は、アフガニスタンの戦域に関する高度にバランスの取れないデータに対する、困難な回帰課題にアプローチすることであった。 アフガニスタンの400地区ごとに、投資と負の出来事に関する歴史的データから得られる出来事の正確な性質を区別せずに、負の事象数を予測することに注力した。 これまでの研究とは対照的に,これらの領域の非慣習的集約から利益を得る時系列データ分析へのアプローチを提案する。 初期の探索データ分析を行うことで,提案手法に従ってデータを分割することで,選択した対象変数の強い傾向や季節成分を識別できることを示す。 このアプローチを利用することで、予測性能においてどの投資に関するデータがもっとも重要であるかを推定しようとした。 探索分析と先行研究に基づいて,3つの機械学習回帰モデルに与えた独立変数5セットを作成した。 平均絶対誤差と平均二乗誤差によって表される結果は、対象変数に関する履歴データを活用することで妥当な性能が得られることを示しているが、残念ながら他の提案された独立変数は予測品質を向上しないようである。

The aim of this study was to approach a difficult regression task on highly unbalanced data regarding active theater of war in Afghanistan. Our focus was set on predicting the negative events number without distinguishing precise nature of the events given historical data on investment and negative events per each of predefined 400 Afghanistan districts. In contrast with previous research on the matter, we propose an approach to analysis of time series data that benefits from non-conventional aggregation of these territorial entities. By carrying out initial exploratory data analysis we demonstrate that dividing data according to our proposal allows to identify strong trend and seasonal components in the selected target variable. Utilizing this approach we also tried to estimate which data regarding investments is most important for prediction performance. Based on our exploratory analysis and previous research we prepared 5 sets of independent variables that were fed to 3 machine learning regression models. The results expressed by mean absolute and mean square errors indicate that leveraging historical data regarding target variable allows for reasonable performance, however unfortunately other proposed independent variables does not seem to improve prediction quality.
翻訳日:2022-12-28 07:36:54 公開日:2020-02-27
# 画像キャプションにおける多様性-正確性トレードオフの解析

Analysis of diversity-accuracy tradeoff in image captioning ( http://arxiv.org/abs/2002.11848v1 )

ライセンス: Link先を確認
Ruotian Luo, Gregory Shakhnarovich(参考訳) 自動生成画像キャプションの多様性に及ぼす異なるモデルアーキテクチャ,トレーニング目標,ハイパーパラメータ設定,デコード手順の影響について検討する。 私たちの結果は 1) 簡素なサンプリングによる簡単な復号は,低温と組み合わせて,多様で正確なキャプションセットを作成するための競争的で高速な方法である。 2) 強化学習を用いたサイダー報酬による訓練は, 復号パラメータの操作では軽減できない生成器の多様性を損なう。 さらに,一組のキャプションの精度と多様性を1つの値で評価する新たな指標であるAllSPICEを提案する。

We investigate the effect of different model architectures, training objectives, hyperparameter settings and decoding procedures on the diversity of automatically generated image captions. Our results show that 1) simple decoding by naive sampling, coupled with low temperature is a competitive and fast method to produce diverse and accurate caption sets; 2) training with CIDEr-based reward using Reinforcement learning harms the diversity properties of the resulting generator, which cannot be mitigated by manipulating decoding parameters. In addition, we propose a new metric AllSPICE for evaluating both accuracy and diversity of a set of captions by a single value.
翻訳日:2022-12-28 07:29:43 公開日:2020-02-27
# 変分オートエンコーダを用いたゲーム間の制御可能なレベルブレンド

Controllable Level Blending between Games using Variational Autoencoders ( http://arxiv.org/abs/2002.11869v1 )

ライセンス: Link先を確認
Anurag Sarkar, Zhihan Yang, Seth Cooper(参考訳) 以前の研究では、既存のゲームのブレンドレベルを探求し、オリジナルのゲームの性質を混ぜ合わせた新しいゲームのレベルを作成した。 本稿では, 変分オートエンコーダ(VAE)を用いて, このような手法を改良する。 vaesは、データセットの潜在表現を学習し、新しい出力を生成する人工ニューラルネットワークである。 スーパーマリオブラザースとキッド・イカルスからのレベルデータでvaeを訓練し、両方のゲームにまたがる潜在空間を捉えることができる。 そして、この空間を使って両方のゲームからレベルの特性を結合したレベルセグメントを生成します。 さらに、潜在空間に進化探索を適用することにより、特定の制約を満たすレベルセグメントを進化させる。 これらの価格設定により、VAEベースのアプローチは特に共同創造的レベルの設計に適しており、GANやVAE-GANといった類似の生成モデルと比較する。

Previous work explored blending levels from existing games to create levels for a new game that mixes properties of the original games. In this paper, we use Variational Autoencoders (VAEs) for improving upon such techniques. VAEs are artificial neural networks that learn and use latent representations of datasets to generate novel outputs. We train a VAE on level data from Super Mario Bros. and Kid Icarus, enabling it to capture the latent space spanning both games. We then use this space to generate level segments that combine properties of levels from both games. Moreover, by applying evolutionary search in the latent space, we evolve level segments satisfying specific constraints. We argue that these affordances make the VAE-based approach especially suitable for co-creative level design and compare its performance with similar generative models like the GAN and the VAE-GAN.
翻訳日:2022-12-28 07:29:33 公開日:2020-02-27
# マルコフ決定過程におけるリスク制約政策の強化学習

Reinforcement Learning of Risk-Constrained Policies in Markov Decision Processes ( http://arxiv.org/abs/2002.12086v1 )

ライセンス: Link先を確認
Tomas Brazdil, Krishnendu Chatterjee, Petr Novotny, Jiri Vahala(参考訳) マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。 古典的なMDPの最適化基準は、システムに非常に悪影響を及ぼす低確率の破滅的な事象を無視する、期待される割引済の支払いを最大化することである。 一方、リスク逆ポリシでは、望ましくない値が与えられた閾値を下回る確率が要求されるが、期待される支払の最適化は考慮されない。 破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。 リスク制約計画の目的は、障害状態が所望のしきい値を下回る確率を確保するために、期待される割引済ペイオフアポンリスクアバースポリシーを最大化することである。 我々の主な貢献は、CTライクな探索とMDP(AlphaZeroのスタイル)との予測学習と、線形プロ文法によるリスク制約された行動選択を組み合わせ、効率的なリスク制約型計画アルゴリズムである。 文献から古典的mdpに関する実験を行い,10^6状態のインクレーディングベンチマークを用いて,本手法の有効性を実証した。

Markov decision processes (MDPs) are the defacto frame-work for sequential decision making in the presence ofstochastic uncertainty. A classical optimization criterion forMDPs is to maximize the expected discounted-sum pay-off, which ignores low probability catastrophic events withhighly negative impact on the system. On the other hand,risk-averse policies require the probability of undesirableevents to be below a given threshold, but they do not accountfor optimization of the expected payoff. We consider MDPswith discounted-sum payoff with failure states which repre-sent catastrophic outcomes. The objective of risk-constrainedplanning is to maximize the expected discounted-sum payoffamong risk-averse policies that ensure the probability to en-counter a failure state is below a desired threshold. Our maincontribution is an efficient risk-constrained planning algo-rithm that combines UCT-like search with a predictor learnedthrough interaction with the MDP (in the style of AlphaZero)and with a risk-constrained action selection via linear pro-gramming. We demonstrate the effectiveness of our approachwith experiments on classical MDPs from the literature, in-cluding benchmarks with an order of 10^6 states.
翻訳日:2022-12-28 07:29:17 公開日:2020-02-27
# 機械学習モデルの単調性テスト

Testing Monotonicity of Machine Learning Models ( http://arxiv.org/abs/2002.12278v1 )

ライセンス: Link先を確認
Arnab Sharma and Heike Wehrheim(参考訳) 今日、機械学習(ML)モデルは意思決定にますます適用されています。 これにより、(しばしばドメインに依存した)要求に対して、MLモデルの品質保証が緊急に必要となる。 単調性はそのような要件の1つである。 mlアルゴリズムによってソフトウェアを 'learned' と指定し、いくつかの属性値の増加による予測を増加させる。 生成したモデルの単調性を保証するための複数のMLアルゴリズムが存在するが、特にブラックボックスモデルの単調性をチェックするアプローチには、ほとんど欠けている。 本研究では,モノトニック性の検証に基づく検証,すなわち,検証技術によるテスト入力の形式的計算,およびテスト中のブラックボックスモデルからのこの近似されたホワイトボックスモデルの自動推論を提案する。 ホワイトボックスモデルでは、テスト入力の空間はテストケースの有向計算によって体系的に探究することができる。 90のブラックボックスモデルに対する実証的な評価は、検証ベースのテストは、適応的ランダムテストと、有効性と効率性に関してプロパティベースの技術より優れていることを示している。

Today, machine learning (ML) models are increasingly applied in decision making. This induces an urgent need for quality assurance of ML models with respect to (often domain-dependent) requirements. Monotonicity is one such requirement. It specifies a software as 'learned' by an ML algorithm to give an increasing prediction with the increase of some attribute values. While there exist multiple ML algorithms for ensuring monotonicity of the generated model, approaches for checking monotonicity, in particular of black-box models, are largely lacking. In this work, we propose verification-based testing of monotonicity, i.e., the formal computation of test inputs on a white-box model via verification technology, and the automatic inference of this approximating white-box model from the black-box model under test. On the white-box model, the space of test inputs can be systematically explored by a directed computation of test cases. The empirical evaluation on 90 black-box models shows verification-based testing can outperform adaptive random testing as well as property-based techniques with respect to effectiveness and efficiency.
翻訳日:2022-12-28 07:28:54 公開日:2020-02-27
# モジュラーアルゴリズムの誘導に向けて

Towards Modular Algorithm Induction ( http://arxiv.org/abs/2003.04227v1 )

ライセンス: Link先を確認
Daniel A. Abolafia, Rishabh Singh, Manzil Zaheer, Charles Sutton(参考訳) 入力出力の一連の例からアルゴリズムを学習するモジュール型ニューラルネットワークアーキテクチャであるMainを提案する。 mainは可変長の入力テープと対話し、対応する引数選択とともにモジュールを構成することを学ぶニューラルコントローラで構成されている。 以前のアプローチとは異なり、Mainはモジュールとその引数の選択に一般的なドメインに依存しないメカニズムを使用する。 一般的な入力テープレイアウトと並列履歴テープを使用して、最も最近使われた場所を示す。 最後に、長さ不変のセルフアテンションベースの入力テープエンコーディングを備えたメモリレスコントローラを使用して、テープ位置へのランダムなアクセスを可能にする。 主なアーキテクチャは、一連の入出力例からの強化学習を使用してエンドツーエンドでトレーニングされる。 Mainを5つのアルゴリズムタスクに基づいて評価し、トレーニングに使用するものよりもはるかに長い入力に完全に一般化するポリシーを学習可能であることを示す。

We present a modular neural network architecture Main that learns algorithms given a set of input-output examples. Main consists of a neural controller that interacts with a variable-length input tape and learns to compose modules together with their corresponding argument choices. Unlike previous approaches, Main uses a general domain-agnostic mechanism for selection of modules and their arguments. It uses a general input tape layout together with a parallel history tape to indicate most recently used locations. Finally, it uses a memoryless controller with a length-invariant self-attention based input tape encoding to allow for random access to tape locations. The Main architecture is trained end-to-end using reinforcement learning from a set of input-output examples. We evaluate Main on five algorithmic tasks and show that it can learn policies that generalizes perfectly to inputs of much longer lengths than the ones used for training.
翻訳日:2022-12-28 07:28:23 公開日:2020-02-27
# 遷移ダイナミクスミスマッチによる状態のみの模倣

State-only Imitation with Transition Dynamics Mismatch ( http://arxiv.org/abs/2002.11879v1 )

ライセンス: Link先を確認
Tanmay Gangwani, Jian Peng(参考訳) 模倣学習(il)は、正しい報酬関数を設計する際の困難に対処するのではなく、専門家の行動を活用することで複雑な目標を達成するための訓練エージェントの一般的なパラダイムである。 Markov Decision Process (MDP) としてモデル化された環境では、既存のILアルゴリズムのほとんどは、新しい模倣者ポリシーを学習するのと同じMDPで専門家によるデモンストレーションが利用可能になっている。 これは、特に遷移力学関数において、専門家と模倣MDPの相違が一般的である多くの実生活シナリオに特有ではない。 さらに、専門家の行動を得ることはコストがかかるか実現不可能であり、国家のみのil(専門家のデモンストレーションが状態や観察のみを構成する)への最近の傾向は、非常に有望である。 本稿では, 発散最小化のアイデアを動機とする最近の敵対的模倣手法に基づいて, 状態のみのilアルゴリズムを提案する。 最適化対象を間接ステップを導入して2つのサブプロブレムに分割し、反復的にサブプロブレムを解く。 提案手法は, エキスパートとイミテータのmdp間に遷移ダイナミクスのミスマッチがある場合に特に有効であり, また, ベースラインのilメソッドは性能低下に苦しむ。 これを解析するために,OpenAI Gym の MuJoCo 移動タスクの設定パラメータを変更することで,興味深い MDP を構築する。

Imitation Learning (IL) is a popular paradigm for training agents to achieve complicated goals by leveraging expert behavior, rather than dealing with the hardships of designing a correct reward function. With the environment modeled as a Markov Decision Process (MDP), most of the existing IL algorithms are contingent on the availability of expert demonstrations in the same MDP as the one in which a new imitator policy is to be learned. This is uncharacteristic of many real-life scenarios where discrepancies between the expert and the imitator MDPs are common, especially in the transition dynamics function. Furthermore, obtaining expert actions may be costly or infeasible, making the recent trend towards state-only IL (where expert demonstrations constitute only states or observations) ever so promising. Building on recent adversarial imitation approaches that are motivated by the idea of divergence minimization, we present a new state-only IL algorithm in this paper. It divides the overall optimization objective into two subproblems by introducing an indirection step and solves the subproblems iteratively. We show that our algorithm is particularly effective when there is a transition dynamics mismatch between the expert and imitator MDPs, while the baseline IL methods suffer from performance degradation. To analyze this, we construct several interesting MDPs by modifying the configuration parameters for the MuJoCo locomotion tasks from OpenAI Gym.
翻訳日:2022-12-28 07:28:09 公開日:2020-02-27
# メタ学習のアイデアは、標準教師付き学習におけるディープニューラルネットワークの一般化を改善するか?

Is the Meta-Learning Idea Able to Improve the Generalization of Deep Neural Networks on the Standard Supervised Learning? ( http://arxiv.org/abs/2002.12455v1 )

ライセンス: Link先を確認
Xiang Deng and Zhongfei Zhang(参考訳) より多くのパラメータを導入することなく、より良いパフォーマンスを得るために、ディープニューラルネットワーク(DNN)の一般化能力を改善するための実質的な努力がなされている。 一方で、メタラーニングのアプローチは、少数の学習において新しいタスクに対して強力な一般化を示す。 直感的には、目標クラスがトレーニングサンプルをほとんど、あるいは全く持たないため、標準教師あり学習よりも少ないショットラーニングの方が難しい。 自然の疑問は、メタラーニングのアイデアが標準教師付き学習におけるDNNの一般化に利用できるかどうかである。 本稿では,DNNのためのメタラーニングベーストレーニング手法(MLTP)を提案し,メタラーニングのアイデアがDNNの一般化能力を向上させることを実証する。 MLTPは、一連のトレーニングサンプルをタスクとして考慮して、メタトレーニングプロセスをシミュレートする。 重要なアイデアは、現在のタスクパフォーマンスを改善するための勾配降下ステップは、ニューラルネットのトレーニングの現在の標準手順によって無視される新しいタスクパフォーマンスも改善されるべきである。 MLTPはまた、ドロップアウト、体重減少、バッチ正規化といった既存のトレーニングテクニックの恩恵を受ける。 我々は,CIFAR-10,CIFAR-100,Tiny ImageNetという3つのベンチマークデータセットを用いて,MLTPの評価を行った。 実験結果は,MLTPの可能性を検証し,メタラーニングのアイデアが標準教師付き学習におけるDNNの一般化を改善することができることを示す。

Substantial efforts have been made on improving the generalization abilities of deep neural networks (DNNs) in order to obtain better performances without introducing more parameters. On the other hand, meta-learning approaches exhibit powerful generalization on new tasks in few-shot learning. Intuitively, few-shot learning is more challenging than the standard supervised learning as each target class only has a very few or no training samples. The natural question that arises is whether the meta-learning idea can be used for improving the generalization of DNNs on the standard supervised learning. In this paper, we propose a novel meta-learning based training procedure (MLTP) for DNNs and demonstrate that the meta-learning idea can indeed improve the generalization abilities of DNNs. MLTP simulates the meta-training process by considering a batch of training samples as a task. The key idea is that the gradient descent step for improving the current task performance should also improve a new task performance, which is ignored by the current standard procedure for training neural networks. MLTP also benefits from all the existing training techniques such as dropout, weight decay, and batch normalization. We evaluate MLTP by training a variety of small and large neural networks on three benchmark datasets, i.e., CIFAR-10, CIFAR-100, and Tiny ImageNet. The experimental results show a consistently improved generalization performance on all the DNNs with different sizes, which verifies the promise of MLTP and demonstrates that the meta-learning idea is indeed able to improve the generalization of DNNs on the standard supervised learning.
翻訳日:2022-12-28 07:20:57 公開日:2020-02-27
# デュアルドメインにおける分散リスクによる注意深い強化学習

Cautious Reinforcement Learning via Distributional Risk in the Dual Domain ( http://arxiv.org/abs/2002.12475v1 )

ライセンス: Link先を確認
Junyu Zhang, Amrit Singh Bedi, Mengdi Wang, Alec Koppel(参考訳) マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。 従来の取り組みは、リスクに敏感なMDPが時間的に不整合であるという事実に関連した計算上の課題に大きく左右される。 この問題を改善するために,強化学習の線形計画(lp)定式化の2つの目的に付加されるペナルティ関数として,注意と呼ばれる新たなリスク定義を提案する。 注意事項は、政策の長期的な国家占有分布の機能である政策の分配リスクを測定する。 この問題をオンラインモデルフリーで解くために,kullback-lieber (kl) 発散を近近法として用いたプライマル・デュアル法の確率的変種を提案する。 このスキームのおよそ最適解を得るために必要なイテレーション/サンプルの数は、状態および作用空間の濃度に対する厳密な依存と一致するが、リスク尺度の勾配の無限大ノルムへの依存は異なる。 実験は,計算負荷を増すことなく報酬蓄積の信頼性を向上させるための,この手法の利点を実証する。

We study the estimation of risk-sensitive policies in reinforcement learning problems defined by a Markov Decision Process (MDPs) whose state and action spaces are countably finite. Prior efforts are predominately afflicted by computational challenges associated with the fact that risk-sensitive MDPs are time-inconsistent. To ameliorate this issue, we propose a new definition of risk, which we call caution, as a penalty function added to the dual objective of the linear programming (LP) formulation of reinforcement learning. The caution measures the distributional risk of a policy, which is a function of the policy's long-term state occupancy distribution. To solve this problem in an online model-free manner, we propose a stochastic variant of primal-dual method that uses Kullback-Lieber (KL) divergence as its proximal term. We establish that the number of iterations/samples required to attain approximately optimal solutions of this scheme matches tight dependencies on the cardinality of the state and action spaces, but differs in its dependence on the infinity norm of the gradient of the risk measure. Experiments demonstrate the merits of this approach for improving the reliability of reward accumulation without additional computational burdens.
翻訳日:2022-12-28 07:19:11 公開日:2020-02-27
# ゼロショット視覚計画のための幻覚的トポロジカルメモリ

Hallucinative Topological Memory for Zero-Shot Visual Planning ( http://arxiv.org/abs/2002.12336v1 )

ライセンス: Link先を確認
Kara Liu, Thanard Kurutach, Christine Tung, Pieter Abbeel, Aviv Tamar(参考訳) 視覚計画(VP)において、エージェントは、オフラインで取得した動的システムの観察、例えば、自己監督ロボットのインタラクションから得られる画像から、目標指向の行動を計画することを学ぶ。 vpの以前のほとんどの作業は、学習された潜在空間で計画することでこの問題にアプローチし、その結果、低品質の視覚計画と難しい訓練アルゴリズムを生み出した。 そこで本研究では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。 我々は,半パラメトリックトポロジカルメモリ (SPTM) 法に基づいて,画像サンプルをグラフ内のノードとして処理し,画像シーケンスデータからグラフ接続を学習し,従来のグラフ探索手法を用いて計画を行う。 本稿ではSPTMに関する2つの修正を提案する。 まず、安定なトレーニングを許容するコントラスト予測符号化を用いて、エネルギーベースのグラフ接続関数を訓練する。 第2に,新たなドメインにおけるゼロショット計画を可能にするために,条件付きvaeモデルを学び,ドメインのコンテキストに与えられたイメージを生成し,これらの幻覚的なサンプルを使用して接続グラフの構築と計画を行う。 提案手法は,提案計画を用いて軌道追従制御器を誘導する場合の,計画解釈可能性と成功率の両方の観点から,最先端のVP手法を著しく上回ることを示す。 興味深いことに,本手法は,物体の形状などの非自明な視覚特性を抽出し,計画において考慮することができる。

In visual planning (VP), an agent learns to plan goal-directed behavior from observations of a dynamical system obtained offline, e.g., images obtained from self-supervised robot interaction. Most previous works on VP approached the problem by planning in a learned latent space, resulting in low-quality visual plans, and difficult training algorithms. Here, instead, we propose a simple VP method that plans directly in image space and displays competitive performance. We build on the semi-parametric topological memory (SPTM) method: image samples are treated as nodes in a graph, the graph connectivity is learned from image sequence data, and planning can be performed using conventional graph search methods. We propose two modifications on SPTM. First, we train an energy-based graph connectivity function using contrastive predictive coding that admits stable training. Second, to allow zero-shot planning in new domains, we learn a conditional VAE model that generates images given a context of the domain, and use these hallucinated samples for building the connectivity graph and planning. We show that this simple approach significantly outperform the state-of-the-art VP methods, in terms of both plan interpretability and success rate when using the plan to guide a trajectory-following controller. Interestingly, our method can pick up non-trivial visual properties of objects, such as their geometry, and account for it in the plans.
翻訳日:2022-12-28 07:13:00 公開日:2020-02-27
# エコー状態ニューラルマシン翻訳

Echo State Neural Machine Translation ( http://arxiv.org/abs/2002.11847v1 )

ライセンス: Link先を確認
Ankush Garg, Yuan Cao, and Qi Ge(参考訳) 本稿では,エコー状態ネットワーク(esn)にインスパイアされたニューラルマシン翻訳(nmt)モデルについて,エンコーダとデコーダ層重みをランダムに生成し,トレーニング中に固定するエコー状態nmt(esnmt)を提案する。 この極めて単純なモデル構築およびトレーニング手順であっても、ESNMTは、完全にトレーニング可能なベースラインの70-80%の品質に達することができる。 モデルの特徴を特徴づける重要な量である貯留層のスペクトル半径がモデル挙動を決定するかを検討する。 本研究は,複雑なシーケンス・ツー・シーケンス予測NLPタスクにおいても,ランダム化ネットワークが有効であることを示す。

We present neural machine translation (NMT) models inspired by echo state network (ESN), named Echo State NMT (ESNMT), in which the encoder and decoder layer weights are randomly generated then fixed throughout training. We show that even with this extremely simple model construction and training procedure, ESNMT can already reach 70-80% quality of fully trainable baselines. We examine how spectral radius of the reservoir, a key quantity that characterizes the model, determines the model behavior. Our findings indicate that randomized networks can work well even for complicated sequence-to-sequence prediction NLP tasks.
翻訳日:2022-12-28 07:12:33 公開日:2020-02-27
# 私のニューラルネットワークはニューロモルフィックか? ニューロモルフィック・エンジニアリングの分類学,最近の動向,今後の展開

Is my Neural Network Neuromorphic? Taxonomy, Recent Trends and Future Directions in Neuromorphic Engineering ( http://arxiv.org/abs/2002.11945v1 )

ライセンス: Link先を確認
Sumon Kumar Bose, Jyotibdha Acharya, and Arindam Basu(参考訳) 本稿では,ニューロモルフィック工学の領域で過去3年間に発表された最近の研究を概観し,これらのシステムに共通する特徴について分析する。 1) アナログコンピューティング (2) 非ノイマンアーキテクチャと低精度デジタル処理 (3) 生物学に密接に関連するコンポーネントを持つスパイクニューラルネットワーク(SNN)。 最近の機械学習アクセラレータチップを比較して、アナログ処理とビット精度の低減が、スループット、エネルギー、面積効率に優れていることを示した。 しかし、純粋なデジタルアーキテクチャは、非ノイマンアーキテクチャを採用するだけで非常に高い効率を達成することができる。 デジタルハードウェア設計のための設計自動化ツールを考えると、近い将来にアナログ処理が産業設計に採用される可能性についての疑問が持ち上がる。 次に,ニューロモルフィック・システム設計の進展において,標準を定義することの重要性と適切なベンチマークの選択について論じ,それらのベンチマークの望ましい特徴を提案する。 最後に、これらのベンチマークの基準をすべて満たす潜在的なタスクとして、脳と機械のインターフェースを示す。

In this paper, we review recent work published over the last 3 years under the umbrella of Neuromorphic engineering to analyze what are the common features among such systems. We see that there is no clear consensus but each system has one or more of the following features:(1) Analog computing (2) Non vonNeumann Architecture and low-precision digital processing (3) Spiking Neural Networks (SNN) with components closely related to biology. We compare recent machine learning accelerator chips to show that indeed analog processing and reduced bit precision architectures have best throughput, energy and area efficiencies. However, pure digital architectures can also achieve quite high efficiencies by just adopting a non von-Neumann architecture. Given the design automation tools for digital hardware design, it raises a question on the likelihood of adoption of analog processing in the near future for industrial designs. Next, we argue about the importance of defining standards and choosing proper benchmarks for the progress of neuromorphic system designs and propose some desired characteristics of such benchmarks. Finally, we show brain-machine interfaces as a potential task that fulfils all the criteria of such benchmarks.
翻訳日:2022-12-28 07:12:20 公開日:2020-02-27
# マスキングオーケストレーション:マルチロール対話表現学習のためのマルチタスク事前学習

Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue Representation Learning ( http://arxiv.org/abs/2003.04994v1 )

ライセンス: Link先を確認
Tianyi Wang, Yating Zhang, Xiaozhong Liu, Changlong Sun, Qiong Zhang(参考訳) マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。 対話コーパスは豊富に利用できるが、特定の学習タスクのためのラベル付きデータは非常に少なく高価である。 本研究では,発話の性質やマルチロール会話の構造に応じて,訓練対象が自然に与えられるような,教師なし事前学習タスクの多種多様な対話文脈表現学習について検討する。 一方、対話要約/抽出に不可欠な情報を見つけるために、事前学習プロセスは外部知識の統合を可能にする。 提案する微調整事前学習機構は、3つの異なる対話データセットと多数の下流対話マイニングタスクによって包括的に評価される。 その結果,提案するプリトレーニング機構は,エンコーダの識別を伴わずに下流タスクのすべてに著しく寄与することがわかった。

Multi-role dialogue understanding comprises a wide range of diverse tasks such as question answering, act classification, dialogue summarization etc. While dialogue corpora are abundantly available, labeled data, for specific learning tasks, can be highly scarce and expensive. In this work, we investigate dialogue context representation learning with various types unsupervised pretraining tasks where the training objectives are given naturally according to the nature of the utterance and the structure of the multi-role conversation. Meanwhile, in order to locate essential information for dialogue summarization/extraction, the pretraining process enables external knowledge integration. The proposed fine-tuned pretraining mechanism is comprehensively evaluated via three different dialogue datasets along with a number of downstream dialogue-mining tasks. Result shows that the proposed pretraining mechanism significantly contributes to all the downstream tasks without discrimination to different encoders.
翻訳日:2022-12-28 07:11:14 公開日:2020-02-27
# conqur: 深層q学習における想起バイアスの軽減

ConQUR: Mitigating Delusional Bias in Deep Q-learning ( http://arxiv.org/abs/2002.12399v1 )

ライセンス: Link先を確認
Andy Su, Jayden Ooi, Tyler Lu, Dale Schuurmans, Craig Boutilier(参考訳) 妄想バイアスは、近似Q-ラーニングの基本的なエラー源である。 今のところ、想起に明示的に対処できる唯一のテクニックは、表値推定を用いた包括的検索である。 本稿では,下層の欲求政策クラスと「一致」したラベルを持つQ近似器を訓練することにより,妄想バイアスを緩和する効率的な手法を開発する。 本稿では,学習バッチにまたがるQラベルを表現可能なポリシークラスと整合性を保つための簡単なペナル化手法を提案する。 また,複数のQ-近似器を生成・追跡し,早期(単純)の政策コミットメントの効果を緩和する検索フレームワークを提案する。 実験の結果,これらの手法は様々なatariゲームにおけるq-learningの性能を劇的に向上させることができることがわかった。

Delusional bias is a fundamental source of error in approximate Q-learning. To date, the only techniques that explicitly address delusion require comprehensive search using tabular value estimates. In this paper, we develop efficient methods to mitigate delusional bias by training Q-approximators with labels that are "consistent" with the underlying greedy policy class. We introduce a simple penalization scheme that encourages Q-labels used across training batches to remain (jointly) consistent with the expressible policy class. We also propose a search framework that allows multiple Q-approximators to be generated and tracked, thus mitigating the effect of premature (implicit) policy commitments. Experimental results demonstrate that these methods can improve the performance of Q-learning in a variety of Atari games, sometimes dramatically.
翻訳日:2022-12-28 07:10:49 公開日:2020-02-27
# 多様体上のデータ再構成のためのカーネルバイリニアモデリング:動的mriの場合

Kernel Bi-Linear Modeling for Reconstructing Data on Manifolds: The Dynamic-MRI Case ( http://arxiv.org/abs/2002.11885v1 )

ライセンス: Link先を確認
Gaurav N.Shetty, Konstantinos Slavakis, Ukash Nakarmi, Gesualdo Scutari, and Leslie Ying(参考訳) 本稿では,動的(d)MRIデータ復元問題に適した,多様体上のデータ再構成のためのカーネルベースのフレームワークを確立する。 提案手法は、カーネルヒルベルト空間を再現するために多様体の単純接空間ジオメトリを活用し、古典的な核近似引数に従い、データ回復タスクを双線型逆問題として構成する。 提案手法ではトレーニングデータを使用しず,最適化作業のペナルティ化にグラフラプラシアン行列を用いず,特徴点を入力空間にマッピングするためのコスト(カーネル)前処理も行わず,k空間データを考慮した複雑なカーネル関数を用いる。 このフレームワークは、合成されたdMRIデータに基づいて検証され、最先端のスキームとの比較は、データ回復問題における提案手法の豊かな可能性を強調する。

This paper establishes a kernel-based framework for reconstructing data on manifolds, tailored to fit the dynamic-(d)MRI-data recovery problem. The proposed methodology exploits simple tangent-space geometries of manifolds in reproducing kernel Hilbert spaces and follows classical kernel-approximation arguments to form the data-recovery task as a bi-linear inverse problem. Departing from mainstream approaches, the proposed methodology uses no training data, employs no graph Laplacian matrix to penalize the optimization task, uses no costly (kernel) pre-imaging step to map feature points back to the input space, and utilizes complex-valued kernel functions to account for k-space data. The framework is validated on synthetically generated dMRI data, where comparisons against state-of-the-art schemes highlight the rich potential of the proposed approach in data-recovery problems.
翻訳日:2022-12-28 07:10:18 公開日:2020-02-27