このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200210となっている論文です。

PDF登録状況(公開日: 20200210)

TitleAuthorsAbstract論文公表日・翻訳日
# フェムトリットル検出体積を用いた電子スピン共鳴分光

Electron Spin Resonance spectroscopy with femtoliter detection volume ( http://arxiv.org/abs/2002.03669v1 )

ライセンス: Link先を確認
Vishal Ranjan, Sebastian Probst, Bartolo Albanese, Thomas Schenkel, Denis Vion, Daniel Esteve, John Morton and Patrice Bertet(参考訳) 超伝導平面マイクロ共振器とジョセフソンパラメトリック増幅器を用いたミリケルビン温度におけるシリコン中のドナーの電子スピン共鳴測定について報告する。 共振器は、フェムトリットル検出ボリュームを定義するナノワイヤインダクタを含む。 基板のひずみにより、ドナー共鳴線は大幅に膨張する。 最大$\sim 3~\text{kHz}$までの光子結合強度が観察される。 単発感度は$120 \pm 24~$spins/Hahn echoで、繰り返し取得するために$\approx 12 \pm 3$~spins$/\sqrt{\text{Hz}}$に対応する。

We report electron spin resonance measurements of donors in silicon at millikelvin temperatures using a superconducting $LC$ planar micro-resonator and a Josephson Parametric Amplifier. The resonator includes a nanowire inductor, defining a femtoliter detection volume. Due to strain in the substrate, the donor resonance lines are heavily broadened. Single-spin to photon coupling strengths up to $\sim 3~\text{kHz}$ are observed. The single shot sensitivity is $120 \pm 24~$spins/Hahn echo, corresponding to $\approx 12 \pm 3$~spins$/\sqrt{\text{Hz}}$ for repeated acquisition.
翻訳日:2023-06-04 02:03:20 公開日:2020-02-10
# フォッカー理論におけるスカラー粒子相互作用系のためのファインマンプロパゲータ

Feynman Propagator for a System of Interacting Scalar Particles in the Fokker Theory ( http://arxiv.org/abs/2002.03607v1 )

ライセンス: Link先を確認
Natalia Gorobey, Alexander Lukyanenko, and A. V.Goltsev(参考訳) 2つの粒子系の電磁フォッカー相互作用の理論を一般化した定式化法を提案する。 一般化位相空間上の函数積分は、量子論における初期積分として定義される。 モーメント上の積分の後、世界粒子線の一般化構成空間における積分の測度が決定される。 固有時間パラメータの独立な粒子系に対するファインマンプロパゲータの動的解釈の問題点について考察した。 ミンコフスキー空間の粒子の時間座標によって独立時間パラメータの役割を取られるプロパゲータの修正を提案する。

A generalized canonical formulation of the theory of the electromagnetic Fokker interaction for a system of two particles is proposed. The functional integral on the generalized phase space is defined as the initial one in quantum theory. After integration over the momenta, the measure of integration in the generalized configuration space of world particle lines is determined. The problem of dynamic interpretation of the Feynman propagator for a system of particles with independent proper time parameters is discussed. A modification of the propagator is proposed, in which the role of independent time parameters is taken by the time coordinates of the particles in Minkowski space.
翻訳日:2023-06-04 02:02:48 公開日:2020-02-10
# 量子フーリエ解析

Quantum Fourier Analysis ( http://arxiv.org/abs/2002.03477v1 )

ライセンス: Link先を確認
Arthur Jaffe, Chunlan Jiang, Zhengwei Liu, Yunxiang Ren, and Jinsong Wu(参考訳) 量子フーリエ解析 (quantum Fourier analysis) は、代数的フーリエ変換 (subfactor theory) と解析的推定(英語版)を組み合わせた新しい主題である。 これは量子対称性のような現象を研究する興味深いツールを提供する。 我々は、適切に定義された$L^{p}$空間の間の写像として量子フーリエ変換 $\FS$ 上の境界を確立し、相対エントロピーに対する新しい不確実性原理を導いた。 サブファクタ理論、圏論、および量子情報における量子フーリエ解析のいくつかの応用を引用する。 我々は新しい位相的不等式を提案し、いくつかのオープンな問題を概説する。

{\em Quantum Fourier analysis} is a new subject that combines an algebraic Fourier transform (pictorial in the case of subfactor theory) with analytic estimates. This provides interesting tools to investigate phenomena such as quantum symmetry. We establish bounds on the quantum Fourier transform $\FS$, as a map between suitably defined $L^{p}$ spaces, leading to a new uncertainty principle for relative entropy. We cite several applications of the quantum Fourier analysis in subfactor theory, in category theory, and in quantum information. We suggest a new topological inequality, and we outline several open problems.
翻訳日:2023-06-04 02:01:46 公開日:2020-02-10
# 自由空間CV-QKD系における構成可能な有限サイズ効果

Composable finite-size effects in free-space CV-QKD systems ( http://arxiv.org/abs/2002.03476v1 )

ライセンス: Link先を確認
Nedasadat Hosseinidehaj, Nathan Walk, Timothy C. Ralph(参考訳) 自由空間チャネルは、グローバル通信ネットワークにおいて連続可変量子鍵分布(CV-QKD)を確立する可能性を提供する。 しかし、これらのチャネルにおける透過率の変動の性質は、達成可能な秘密鍵レートを減少させる余分なノイズをもたらす。 チャネルのゆらぎによるノイズを低減するために,高透過性データの選択とデータクラスタ化という2つの古典的な後処理戦略を検討する。 我々は,集合的および個人的攻撃に対する現実的な有限サイズの体制において,構成可能なセキュリティ証明を利用する戦略について,最初の調査を行う。 また,ポスト選択されたデータやクラスタ化されたデータに対して効果的なガウスパラメータを推定する効率的なパラメータ推定手法を提案する。 コンポーザブルな有限サイズ効果は,データサイズ削減とクラスタ化の両面において重要となるが,これらの戦略は,特定の条件下でプロトコルをセキュアでない状態からセキュアな状態に移行しても,個人攻撃と集団攻撃の両方に対する有限サイズ鍵レートを著しく向上させることができることを示す。

Free-space channels provide the possibility of establishing continuous-variable quantum key distribution (CV-QKD) in global communication networks. However, the fluctuating nature of transmissivity in these channels introduces an extra noise which reduces the achievable secret key rate. We consider two classical post-processing strategies, post-selection of high-transmissivity data and data clusterization, to reduce the fluctuation-induced noise of the channel. We undertake the first investigation of such strategies utilising a composable security proof in a realistic finite-size regime against both collective and individual attacks. We also present an efficient parameter estimation approach to estimate the effective Gaussian parameters over the post-selected data or the clustered data. Although the composable finite-size effects become more significant with the post-selection and clusterization both reducing the size of the data, our results show that these strategies are still able to enhance the finite-size key rate against both individual and collective attacks with a remarkable improvement against collective attacks--even moving the protocol from an insecure regime to a secure regime under certain conditions.
翻訳日:2023-06-04 02:01:36 公開日:2020-02-10
# x状態に対するコヒーレンス共起

Coherence Concurrence for X States ( http://arxiv.org/abs/2002.03831v1 )

ライセンス: Link先を確認
Ming-Jing Zhao, Teng Ma, Zhen Wang, Shao-Ming Fei, Rajesh Pereira(参考訳) コヒーレンス共起の性質を研究し,支援のコヒーレンスに類似した物理的説明を与える。 我々は、量子ビット状態のコヒーレンス収束を達成する最適純粋状態分解を与える。 別の方法で直和演算の下でコヒーレンス共起の加法性を証明する。 これらの結果を用いて, x 状態のコヒーレンス共起を解析的に計算し,その最適分解を示す。 さらに,コヒーレンス共起がシュミット相関状態の凸屋根拡張負性率の2倍であることを示し,コヒーレンス共起と量子絡み合いの直接的な関係を確立する。

We study the properties of coherence concurrence and present a physical explanation analogous to the coherence of assistance. We give an optimal pure state decomposition which attains the coherence concurrence for qubit states. We prove the additivity of coherence concurrence under direct sum operations in another way. Using these results, we calculate analytically the coherence concurrence for X states and show its optimal decompositions. Moreover, we show that the coherence concurrence is exactly twice the convex roof extended negativity of the Schmidt correlated states, thus establishing a direct relation between coherence concurrence and quantum entanglement.
翻訳日:2023-06-04 01:55:36 公開日:2020-02-10
# 援助の一貫性のl1規範

The l1 Norm of Coherence of Assistance ( http://arxiv.org/abs/2002.03823v1 )

ライセンス: Link先を確認
Ming-Jing Zhao, Teng Ma, Quan Quan, Heng Fan, and Rajesh Pereira(参考訳) 支援のコヒーレンスのl1規範を理論的および運用的に紹介・検討する。 まず,補助のコヒーレンス l1 のノルムに対する上界を提供し,上界の飽和に必要十分条件を示す。 2次元と3次元の量子状態に対しては、補助のコヒーレンスのl1ノルムの解析式が与えられる。 操作上、混合量子コヒーレンスは常に他のパーティの局所的な測定の助けを借りて増大し、補助のコヒーレンス(英語版)のl1ノルムと、援助のコヒーレンス(英語版)の相対エントロピーが元のコヒーレンスよりも厳密に大きいことが示されている。 補助のコヒーレンスにおけるl1ノルムと絡み合いの関係を明らかにする。 最後に、補助のコヒーレンスのl1規範と支援のコヒーレンスの相対エントロピーの比較を行う。

We introduce and study the l1 norm of coherence of assistance both theoretically and operationally. We first provide an upper bound for the l1 norm of coherence of assistance and show a necessary and sufficient condition for the saturation of the upper bound. For two and three dimensional quantum states, the analytical expression of the l1 norm of coherence of assistance is given. Operationally, the mixed quantum coherence can always be increased with the help of another party' s local measurement and one way classical communication since the l1 norm of coherence of assistance, as well as the relative entropy of coherence of assistance, is shown to be strictly larger than the original coherence. The relation between the l1 norm of coherence of assistance and entanglement is revealed. Finally, a comparison between the l1 norm of coherence of assistance and the relative entropy of coherence of assistance is made.
翻訳日:2023-06-04 01:55:25 公開日:2020-02-10
# n-quditシステムへのマクロアプローチ

Macroscopic approach to N-qudit systems ( http://arxiv.org/abs/2002.03819v1 )

ライセンス: Link先を確認
C. Mu\~noz, I. Sainz, A.B. Klimov(参考訳) 巨視的quditシステムの解析のための汎用スキームを開発した。 a) qudits のマクロな性質を最適な方法で特徴づける一連の集合的可観測性を導入すること。 b) 完全なマクロ情報を含む$N$quditシステムに対する$\tilde{Q}$関数を投影した構成 c) 一般および対称な$N$-qudit状態のための集合トモグラフィープロトコルを提案する。 n$-qutrit の例は詳細に分析され、$n$-qubit の場合と比較される

We develop a general scheme for an analysis of macroscopic qudit systems: a) introduce a set of collective observables, which characterizes the macroscopic properties of qudits in an optimal way; b) construct projected $\tilde{Q}$-functions for $N$ qudit systems, containing full macroscopic information; c) propose a collective tomographic protocol both for a general and symmetric $N$-qudit states. The example of $N$-qutrit is analyzed in details and compared to $N$-qubit case
翻訳日:2023-06-04 01:55:07 公開日:2020-02-10
# wibsontree: 分散データマーケットプレースでセラーのプライバシを効率的に保存する

WibsonTree: Efficiently Preserving Seller's Privacy in a Decentralized Data Marketplace ( http://arxiv.org/abs/2002.03810v1 )

ライセンス: Link先を確認
Ariel Futoransky, Carlos Sarraute, Ariel Waissbein, Matias Travizano, Daniel Fernandez(参考訳) 提案するwibsontreeという暗号化プリミティブは,ユーザのプライバシを保護するために,属性の値を明かすことなく,個人属性の述語を示せるように設計されている。 wibson marketplaceのような分散プライバシ保存データマーケットプレース(dpdm)で対話するエージェントは,buyers, sellers, notariesの3種類あると思います。 我々はWibsonTreeプロトコルを,売り手のプライバシを保護しながらプライベート情報の交換を可能にする,効率的な暗号プリミティブとして導入する。 プリミティブを使用することで、データ販売者は、追加情報を公開することなく、購入者のデータ要求のターゲットオーディエンスに属することを効率的に証明できます。

We present a cryptographic primitive called WibsonTree designed to preserve users' privacy by allowing them to demonstrate predicates on their personal attributes, without revealing the values of those attributes. We suppose that there are three types of agents --buyers, sellers and notaries-- who interact in a decentralized privacy-preserving data marketplace (dPDM) such as the Wibson marketplace. We introduce the WibsonTree protocol as an efficient cryptographic primitive that enables the exchange of private information while preserving the seller's privacy. Using our primitive, a data seller can efficiently prove that he/she belongs to the target audience of a buyer's data request, without revealing any additional information.
翻訳日:2023-06-04 01:55:00 公開日:2020-02-10
# オープンアクセスを動機づけるためにゲーム化を使うための第1の方向

First Directions for Using Gamification to Motivate for Open Access ( http://arxiv.org/abs/2002.03681v1 )

ライセンス: Link先を確認
Athanasios Mazarakis and Paula Br\"auer(参考訳) 多くの科学者は、従来の定期購読ベースの出版モデルに加えて、研究をオープンアクセスで公開する可能性も認識している。 様々な調査により、科学者はこの新モデルに賛成であることが示されている。 それでも、オープンアクセスへの移行は今のところ非常に遅い。 このプロセスを加速するために、研究者がオープンアクセスのトピックに対処するためのインセンティブを生み出す新たな機会を探している。 28名の参加者によるフィールドスタディにおいて,ゲームデザイン要素バッジとプログレスバーがオープンアクセスの話題に対するオンラインクイズ作業時のモチベーションに及ぼす影響について検討した。 本研究では,両ゲームデザイン要素が,制御群と比較して解答数の統計的に有意な増加をもたらすことを示した。 これは、ゲーミフィケーションがオープンアクセスを動機付けるのに役立つことを示唆している。

Most scientists are aware that, in addition to the traditional and subscription-based publication model, there is also the possibility of publishing their research in open access. Various surveys show that scientists are in favour of this new model. Nevertheless, the transition to open access has been very slow so far. In order to accelerate this process, we are looking for new opportunities to create incentives for researchers to deal with the topic of open access. In a field study with 28 participants the effects of the game design elements badge and progress bar on the motivation when working on an online quiz on the topic of open access are examined. In our study both game design elements provide a statistically significant increase in the number of questions answered compared to a control group. This suggests that gamification is useful to motivate for open access.
翻訳日:2023-06-04 01:53:38 公開日:2020-02-10
# 有界エネルギーを持つ量子状態の集合の極端点

Extreme points of the set of quantum states with bounded energy ( http://arxiv.org/abs/2002.03969v1 )

ライセンス: Link先を確認
Stephan Weis and Maksim Shirokov(参考訳) 任意のエネルギーに対して、有界エネルギーを持つ量子状態の集合の極端点が純粋な状態であることを示す。 これにより、有界エネルギーの純状態の連続凸結合の観点からすべての状態を記述することができる。 さらに、有限エネルギーを持つ任意の量子状態は、同じエネルギーを持つ純状態の連続凸結合として表現できることを証明できる。 量子情報理論の例について論じる。

We show that for any energy observable every extreme point of the set of quantum states with bounded energy is a pure state. This allows us to write every state with bounded energy in terms of a continuous convex combination of pure states of bounded energy. Furthermore, we prove that any quantum state with finite energy can be represented as a continuous convex combination of pure states with the same energy. We discuss examples from quantum information theory.
翻訳日:2023-06-04 01:46:35 公開日:2020-02-10
# adiabaticity への近道による移動光格子によるアトムのノイズ感受性

Noise Sensitivities for an Atom Shuttled by a Moving Optical Lattice via Shortcuts to Adiabaticity ( http://arxiv.org/abs/2002.03951v1 )

ライセンス: Link先を確認
Xiao-Jing Lu, Andreas Ruschhaupt, Sof\'ia Mart\'inez-Garaot, and J. Gonzalo Muga(参考訳) 近距離-断熱輸送プロトコルに従って移動する光格子によって伝播される粒子のノイズ感受性(すなわち、ノイズの摂動に対するエネルギーの二次項)を見いだす。 異なる光学格子パラメータ,トラップ深さ,位置,格子周期性に影響を与える雑音について考察する。 任意の雑音スペクトルに対する感度の一般的な表現は見出すが、基本基準としてホワイトノイズ限界、非ゼロ相関時間の影響を考慮したornstein-uhlenbeckノイズに焦点をあてる。

We find the noise sensitivities (i.e., the quadratic terms of the energy with respect to the perturbation of the noise) of a particle shuttled by an optical lattice that moves according to a shortcut-to-adiabaticity transport protocol. Noises affecting different optical lattice parameters, trap depth, position, and lattice periodicity, are considered. We find generic expressions of the sensitivities for arbitrary noise spectra but focus on the white-noise limit as a basic reference, and on Ornstein-Uhlenbeck noise to account for the effect of non-zero correlation times.
翻訳日:2023-06-04 01:46:30 公開日:2020-02-10
# 電子フライング量子ビット動作のためのサブ電子感度単発電子検出器の設計

Design of a Single-Shot Electron detector with sub-electron sensitivity for electron flying qubit operation ( http://arxiv.org/abs/2002.03947v1 )

ライセンス: Link先を確認
Glattli D. C., Nath J., Taktak I., Roulleau P., Bauerle C., Waintal X(参考訳) 近年の導体におけるコヒーレントな単一電子源の実現により、量子光学実験に類似した時間分解電子干渉測定実験の実施が想定された。 しかし、重要な欠落したブロックはシングルショット電子検出であり、空飛ぶ量子ビットで完全な量子情報操作を可能にする。 本稿では,電子飛行量子ビットの飛行中検出が可能な単一電荷検出器の設計と検討を行う。 その準電子感度は、分数帯電された量子ホール効果のフライング・エニオンの検出を可能にし、偶然の測定で任意の統計を検出できるようにする。

The recent realization of coherent single-electron sources in ballistic conductors let us envision performing time-resolved electronic interferometry experiments analogous to quantum optics experiments.One could eventually use propagating electronic excitations as flying qubits. However an important missing brick is the single-shot electron detection which would enable a complete quantum information operation with flying qubits. Here, we propose and discuss the design of a single charge detector able to achieve in-flight detection of electron flying qubits. Its sub-electron sensitivity would allow the detection of the fractionally charged flying anyons of the Fractional Quantum Hall Effect and would enable the detection of anyonic statistics using coincidence measurements.
翻訳日:2023-06-04 01:46:20 公開日:2020-02-10
# CaWO$_{4}$結晶におけるCe$^{3+}=スピン状態のコヒーレンス時間

Coherence times of Ce$^{3+}$ spin states in CaWO$_{4}$ crystal ( http://arxiv.org/abs/2002.03930v1 )

ライセンス: Link先を確認
M.R. Gafurov, I.N. Kurkin, E.I. Baibekov(参考訳) タングステン結晶中の3価セリウムイオンのコヒーレンス時間と最低エネルギー状態の操作について検討した。 位相記憶時間が14.2${\mu}$sに達し、コヒーレント操作が低温限界で0.3${\mu}$sに達すると、後者は回転角と外共振誤差補正スキームを用いて伸長することができる。

We study the coherence times and perform manipulations on the lowest-energy states of trivalent cerium ion in calcium tungstate crystal. We find the phase memory time reaching 14.2 ${\mu}$s and the time of coherent manipulations reaching 0.3 ${\mu}$s in the low-temperature limit, the latter can potentially be elongated by using the rotation angle and off-resonance error correction schemes.
翻訳日:2023-06-04 01:45:56 公開日:2020-02-10
# マルウェアによるFacebookの偏見による誤認識攻撃

Beyond Trolling: Malware-Induced Misperception Attacks on Polarized Facebook Discourse ( http://arxiv.org/abs/2002.03885v1 )

ライセンス: Link先を確認
Filipo Sharevski, Paige Treebridge, Peter Jachim, Audrey Li, Adam Babin, Jessica Westbrook(参考訳) ソーシャルメディアのトロリングは、道徳的要素の高い問題に対する世論を操る強力な戦術である。 トロルファームは、過去に実証されたように、2016年の米大統領選挙でソーシャルメディア上で人々が意見を共有するように促したり、黙らせるために作られたコンテンツを生み出した。 本稿では,ユーザが真のコンテンツをどう知覚するかを操作することによって,ソーシャルメディアの言論を喚起し,サイレンシングする方法を紹介する。 この操作は、正真正銘のソーシャルメディア投稿やコメントの言語的内容を秘密裏に並べ替える中間者マルウェアによって行われる。 この攻撃をマルウェアによる誤解(mim)と呼ぶのは、ソーシャルメディア上でスパイラル・オブ・サイレンス(スパイラル・オブ・サイレンス)な条件を社会的に設計することを目的としているからです。 大学キャンパスにおける政治表現の自由に関するfacebookの投稿において,マルウェアが選択した単語を秘密裏に改変した,制御された設定 (n = 311) で実験を行った。 実験の結果,(1)ソーシャルメディア上でのスパイラル・オブ・サイレンス効果の存在に関する過去の知見を確認し,(2)誤認識の誘発はFacebook上のターゲットユーザーを黙らせ,刺激し,政治的問題を偏在させる効果的な戦術であることを実証した。

Social media trolling is a powerful tactic to manipulate public opinion on issues with a high moral component. Troll farms, as evidenced in the past, created fabricated content to provoke or silence people to share their opinion on social media during the US presidential election in 2016. In this paper, we introduce an alternate way of provoking or silencing social media discourse by manipulating how users perceive authentic content. This manipulation is performed by man-in-the-middle malware that covertly rearranges the linguistic content of an authentic social media post and comments. We call this attack Malware-Induced Misperception (MIM) because the goal is to socially engineer spiral-of-silence conditions on social media by inducing perception. We conducted experimental tests in controlled settings (N = 311) where a malware covertly altered selected words in a Facebook post about the freedom of political expression on college campuses. The empirical results (1) confirm the previous findings about the presence of the spiral-of-silence effect on social media; and (2) demonstrate that inducing misperception is an effective tactic to silence or provoke targeted users on Facebook to express their opinion on a polarizing political issue.
翻訳日:2023-06-04 01:45:46 公開日:2020-02-10
# 作用素成長と始発ポアンカレ対称性について

On operator growth and emergent Poincar\'e symmetries ( http://arxiv.org/abs/2002.03865v1 )

ライセンス: Link先を確認
Javier M. Magan and Joan Simon(参考訳) 有限温度での一般大Nゲージ理論に対する作用素成長を考える。 我々の解析はフーリエモードで行われ、時間発展とともに他の演算子と混合されず、その相関関数は2点関数のみで決定され、大きなN極限の先頭の順序で決定される。 これらのモードの代数は、初期作用素が時間とともに混合する作用素の簡単な解析を可能にし、バウンド CFT 作用素がバルク Poincar\'e 代数を閉じることを保証する。 本稿では、数演算子、固有エネルギー、多体再帰法、量子回路の複雑性、ブラックホールダイナミクスにおける古典的カオスとの関係など、演算子の成長に対する既存のアプローチについて議論する。 この分析はバルク対境界二分法を回避し、すべてのそのようなアプローチがホログラフィック双対性の両側で同じであることを示す。 このようにして、これらのアプローチは、作用素の進化をより伝統的な量子状態の進化にマッピングし、作用素成長の概念をQFTへ拡張するゲルファント・ナイマルク・セガル構造(GNS)の観点で自然な定式化を持つことを示す。

We consider operator growth for generic large-N gauge theories at finite temperature. Our analysis is performed in terms of Fourier modes, which do not mix with other operators as time evolves, and whose correlation functions are determined by their two-point functions alone, at leading order in the large-N limit. The algebra of these modes allows for a simple analysis of the operators with whom the initial operator mixes over time, and guarantees the existence of boundary CFT operators closing the bulk Poincar\'e algebra, describing the experience of infalling observers. We discuss several existing approaches to operator growth, such as number operators, proper energies, the many-body recursion method, quantum circuit complexity, and comment on its relation to classical chaos in black hole dynamics. The analysis evades the bulk vs boundary dichotomy and shows that all such approaches are the same at both sides of the holographic duality, a statement that simply rests on the equality between operator evolution itself. In the way, we show all these approaches have a natural formulation in terms of the Gelfand-Naimark-Segal (GNS) construction, which maps operator evolution to a more conventional quantum state evolution, and provides an extension of the notion of operator growth to QFT.
翻訳日:2023-06-04 01:44:45 公開日:2020-02-10
# 長鎖イオン鎖の効率的なサイドバンド冷却プロトコル

Efficient sideband cooling protocol for long trapped-ion chains ( http://arxiv.org/abs/2002.04133v1 )

ライセンス: Link先を確認
J.-S. Chen, K. Wright, N. C. Pisenti, D. Murphy, K. M. Beck, K. Landsman, J. M. Amini and Y. Nam(参考訳) トラップイオンは大規模量子計算の有望な候補である。 いくつかのシステムは、控えめな大きさの量子アルゴリズムを実装するために、学術的および工業的な設定で構築されている。 運動自由度の効率的な冷却は、トラップイオンを用いた高忠実度量子演算の鍵となる要件である。 本稿では,個々のイオンが個々の運動モードを並列に冷却するために使用され,イオン鎖を運動基底状態に持ち込むのに必要な時間を短縮する手法を提案する。 本手法を実験的に実証し,従来の方法と比較して並列側バンド冷却技術の有効性を理解するためのモデルを開発した。 この手法は、コトラップされた原子種の分解されたサイドバンド冷却を用いるあらゆるシステムに適用でき、捕捉された粒子の個々のアドレスのみを必要とする。

Trapped ions are a promising candidate for large scale quantum computation. Several systems have been built in both academic and industrial settings to implement modestly-sized quantum algorithms. Efficient cooling of the motional degrees of freedom is a key requirement for high-fidelity quantum operations using trapped ions. Here, we present a technique whereby individual ions are used to cool individual motional modes in parallel, reducing the time required to bring an ion chain to its motional ground state. We demonstrate this technique experimentally and develop a model to understand the efficiency of our parallel sideband cooling technique compared to more traditional methods. This technique is applicable to any system using resolved sideband cooling of co-trapped atomic species and only requires individual addressing of the trapped particles.
翻訳日:2023-06-04 01:36:44 公開日:2020-02-10
# バーレス・ハル・アンサンブル上の平均エンタングルメントエントロピーに対するサーカー・クマールの導出の証明

Proof of Sarkar-Kumar's Conjectures on Average Entanglement Entropies over the Bures-Hall Ensemble ( http://arxiv.org/abs/2002.04085v1 )

ライセンス: Link先を確認
Lu Wei(参考訳) SarkarとKumarは最近[J]を推測した。 Phys a: 数学。 Theor $\textbf{52}$, 295203 (2019)] ヒルベルト次元 $mn$ の双分割系において、バーレス・ハル測度上の次元 $m\leq n$ の部分系の量子純度とフォン・ノイマンエントロピーの平均値は、それぞれ \begin{equation*} \frac{2n(2n+m)-m^{2}+1}{2n(2mn-m^2+2)} \end{equation*} と \begin{equation*} \psi_{0}\left(mn-\frac{m^2}{2}+1\right)-\psi_{0}\left(n+\frac{1}{2}}), \end{equation*} によって与えられる。 この研究で上記の予想式を証明します。 証明の鍵となる要素は、ベルトゥーラ、ゲクトマン、シュミゲルスキによって研究された、ビューレスホールアンサンブルとコーシー=ラゲール・ビョートルソゴナルアンサンブルの間の関係に関するフォレスターとキーバーグの発見である。

Sarkar and Kumar recently conjectured [J. Phys. A: Math. Theor. $\textbf{52}$, 295203 (2019)] that for a bipartite system of Hilbert dimension $mn$, the mean values of quantum purity and von Neumann entropy of a subsystem of dimension $m\leq n$ over the Bures-Hall measure are given by \begin{equation*} \frac{2n(2n+m)-m^{2}+1}{2n(2mn-m^2+2)} \end{equation*} and \begin{equation*} \psi_{0}\left(mn-\frac{m^2}{2}+1\right)-\psi_{0}\left(n+\frac{1}{2}\right), \end{equation*} respectively, where $\psi_{0}(\cdot)$ is the digamma function. We prove the above conjectured formulas in this work. A key ingredient of the proofs is Forrester and Kieburg's discovery on the connection between the Bures-Hall ensemble and the Cauchy-Laguerre biorthogonal ensemble studied by Bertola, Gekhtman, and Szmigielski.
翻訳日:2023-06-04 01:36:23 公開日:2020-02-10
# 任意の有限次元における量子状態トモグラフィーを実現するための3次元コンパクトフォトニック回路

3D compact photonic circuits for realizing quantum state tomography of qudits in any finite dimension ( http://arxiv.org/abs/2002.04053v1 )

ライセンス: Link先を確認
Wilder Cardoso, Davi Barros, Leonardo Neves, and Sebasti\~ao P\'adua(参考訳) 本研究では,N次元パスキューディットの量子状態トモグラフィーを実現するために,回路の複雑度を大幅に低減する3次元フォトニック回路の設計を提案する。 この作業で選択されたPOVM(Positive Operator-Valued Measure)は、奇数次元の場合、そのようなプロセスが最小限であることを保証する。 提案手法は、N個の導波路からなるN個の垂直セクターからなる正方形アレイとして回路を構成する導波路を垂直方向に配置することで構成する。 選択されたPOVMの対称性に基づいて、初期量子系に作用する干渉計は、3つの異なるユニタリ演算の列に分割することができる。 これらの操作は、回路の各垂直セクターまたは層に独立に作用し、その決定を単純化する。 これにより、ビームスプリッターの数が量子系次元の次数3の多項式関数に従うような回路が得られたが、現在の提案では次数4の多項式関数で増大する。 さらに、光学深度は、このスキームにおける量子系次元の2次関数から線形関数に還元される。 本提案では,フォトニック回路の複雑さを著しく低減することを確認した。

In this work, we propose three-dimensional photonic circuit designs that guarantee a considerable reduction in the complexity of circuits for the purpose of performing quantum state tomography of N-dimensional path qudits. The POVM (Positive Operator-Valued Measure) chosen in this work ensures that, for odd dimensions, such process is minimal. Our proposal consists of organizing the waveguides that form the circuit as a square array formed by N vertical sectors composed of N waveguides each, arranged in the vertical direction. Based on the symmetry of the chosen POVM, the interferometer acting on the initial quantum system can be divided into a sequence of three different unitary operations. These operations act independently on each vertical sector, or layer, of the circuit, which simplifies their determination. We have thus obtained circuits such that the number of beam splitters obeys a polynomial function of degree 3 with the quantum system dimension, whereas in current proposals this quantity grows with a polynomial function of degree 4. Besides that, the optical depth is reduced from a quadratic to a linear function of the quantum system dimension in our scheme. These results confirm the remarkable reduction of the complexity of the photonic circuits in our proposal.
翻訳日:2023-06-04 01:34:58 公開日:2020-02-10
# AWSによるカリキュラムのクラウド化

Cloudifying the Curriculum with AWS ( http://arxiv.org/abs/2002.04020v1 )

ライセンス: Link先を確認
Michael Soltys(参考訳) この10年間でクラウドはコンピューティングの主要なパラダイムとなり、コンピュータサイエンスのカリキュラムはその現実を反映して更新されなければならない。 本稿では,Amazon Web Services(AWS)やコンピュータサイエンス,ビジネス,コミュニケーション,数学などの分野において,カリキュラムのクラウド化を実現するための簡単な方法を検討する。

The Cloud has become a principal paradigm of computing in the last ten years, and Computer Science curricula must be updated to reflect that reality. This paper examines simple ways to accomplish curriculum cloudification using Amazon Web Services (AWS), for Computer Science and other disciplines such as Business, Communication and Mathematics.
翻訳日:2023-06-04 01:34:38 公開日:2020-02-10
# 誤りに対する普遍的検証不確かさ関係の幾何学的定式化

Geometric Formulation of Universally Valid Uncertainty Relation for Error ( http://arxiv.org/abs/2002.04008v1 )

ライセンス: Link先を確認
Jaeha Lee and Izumi Tsutsui(参考訳) 統計的性質の量子測定に有効な不確実性関係の新しい幾何学的定式化を提案する。 その単純さと有形性から、我々の関係は普遍的に有効であり、実験的に可能である。 我々の関係は位置と運動量を測定するために$\hbar/2$の非可換性に反するが、不確実性原理の精神は依然として強い。 我々の関係は、特に、大沢関係を系として含み、また測定が非形式的である場合、標準ケナード・ロバートソン関係にシームレスに還元する。

We present a new geometric formulation of uncertainty relation valid for any quantum measurements of statistical nature. Owing to its simplicity and tangibility, our relation is universally valid and experimentally viable. Although our relation violates the na{\"i}ve non-commutativity bound $\hbar/2$ for the measurement of position and momentum, the spirit of the uncertainty principle still stands strong. Our relation entails, among others, the Ozawa relation as a corollary, and also reduces seamlessly to the standard Kennard-Robertson relation when the measurement is non-informative.
翻訳日:2023-06-04 01:34:18 公開日:2020-02-10
# 機械学習のための量子埋め込み

Quantum embeddings for machine learning ( http://arxiv.org/abs/2001.03622v2 )

ライセンス: Link先を確認
Seth Lloyd, Maria Schuld, Aroosa Ijaz, Josh Izaac, Nathan Killoran(参考訳) 量子分類器は、機械学習モデルとして使用されるトレーニング可能な量子回路である。 回路の第1部は古典的な入力を量子状態に符号化し、高次元ヒルベルト空間にデータを埋め込む量子特徴写像を実装し、第2部はモデルの出力として解釈される量子測定を実行する。 通常、測定は量子埋め込みデータを区別するために訓練される。 代わりに、Hilbert空間におけるデータクラスを最大限に分離することを目的として、回路の最初の部分(埋め込み)をトレーニングすることを提案します。 結果として、線形分類損失を最小化する測定は既に知られており、l1またはトレース距離を用いてデータを分離するための埋め込み、これはヘルストロム測定であり、l2またはヒルベルト・シュミット距離については単純な重複測定である。 このアプローチは、量子機械学習のための強力な分析フレームワークを提供し、現在のモデルの主要なコンポーネントを取り除き、短期的な量子情報プロセッサの能力を最大限活用するためにより貴重なリソースを解放する。

Quantum classifiers are trainable quantum circuits used as machine learning models. The first part of the circuit implements a quantum feature map that encodes classical inputs into quantum states, embedding the data in a high-dimensional Hilbert space; the second part of the circuit executes a quantum measurement interpreted as the output of the model. Usually, the measurement is trained to distinguish quantum-embedded data. We propose to instead train the first part of the circuit -- the embedding -- with the objective of maximally separating data classes in Hilbert space, a strategy we call quantum metric learning. As a result, the measurement minimizing a linear classification loss is already known and depends on the metric used: for embeddings separating data using the l1 or trace distance, this is the Helstrom measurement, while for the l2 or Hilbert-Schmidt distance, it is a simple overlap measurement. This approach provides a powerful analytic framework for quantum machine learning and eliminates a major component in current models, freeing up more precious resources to best leverage the capabilities of near-term quantum information processors.
翻訳日:2023-01-12 23:32:23 公開日:2020-02-10
# 視覚システムのモデルとしての畳み込みニューラルネットワーク:過去,現在,未来

Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future ( http://arxiv.org/abs/2001.07092v2 )

ライセンス: Link先を確認
Grace W. Lindsay(参考訳) 畳み込みニューラルネットワーク(CNN)は、生物学的視覚の研究の初期の発見に触発された。 その後、コンピュータービジョンと、視覚タスクにおける神経活動と行動の両方の最先端モデルにおいて成功している。 このレビューは、cnnの文脈において、計算神経科学の優れたモデルであり、モデルが洞察を提供する様々な方法であることを意味することを強調する。 具体的には、CNNの起源と、それらを生物学的視覚のモデルとして検証する手法について述べる。 その後、CNNの理解と実験によって生物の視覚について何が学べるかを詳しく研究し、基本的な物体認識を超えた視覚研究にCNNSを使用する新たな機会について論じる。

Convolutional neural networks (CNNs) were inspired by early findings in the study of biological vision. They have since become successful tools in computer vision and state-of-the-art models of both neural activity and behavior on visual tasks. This review highlights what, in the context of CNNs, it means to be a good model in computational neuroscience and the various ways models can provide insight. Specifically, it covers the origins of CNNs and the methods by which we validate them as models of biological vision. It then goes on to elaborate on what we can learn about biological vision by understanding and experimenting on CNNs and discusses emerging opportunities for the use of CNNS in vision research beyond basic object recognition.
翻訳日:2023-01-08 05:05:07 公開日:2020-02-10
# テンソル脳:知覚と記憶のための意味的デコーディング

The Tensor Brain: Semantic Decoding for Perception and Memory ( http://arxiv.org/abs/2001.11027v3 )

ライセンス: Link先を確認
Volker Tresp and Sahand Sharifzadeh and Dario Konopatzki and Yunpu Ma(参考訳) 我々は、知識グラフとテンソルの数学的モデルを用いて知覚と記憶を分析し、人間の心の機能に関する洞察を得る。 我々の議論は,初等的事実を表現するための三重項である \textit{subject-predicate-object} (spo) からなる命題文の概念に基づいている。 spo文は、ほとんどの自然言語の基礎であるが、明示的な知覚や宣言的記憶だけでなく、脳内コミュニケーションや議論や推論の能力にも重要である。 SPO文の集合は知識グラフとして記述することができ、隣接テンソルに変換することができる。 我々は、概念が指標として二重表現と関連する埋め込みを持つテンソルモデルを導入し、脳内の暗黙的および明示的な知覚と記憶を理解する上で不可欠な2つの構成要素を紹介する。 知覚と記憶の生物学的実現は情報処理に制約を課すと主張する。 特に、明示的な認識と宣言的記憶は、単純な実現において、感覚記憶層を感覚入力のためのバッファとして、第2、情報放送のためのインデックス層として、第3、脳の「ブラックボード」または「キャンバス」として、第4、処理センタとしてのワーキングメモリ層とデータバッファとして、4つのレイヤに基づいて、意味的デコーダを必要とすることを提案する。 これら4層の操作について論じ,グローバルワークスペース理論に関連付ける。 ベイズ脳の解釈では、セマンティックメモリは観測可能な三項文の先行を定義する。 本研究では, エージェントのプロセスにおける創発的特性として, セマンティックメモリ, エピソードメモリ, 自然言語が進化し, 感覚情報の理解を深めることを提案する。

We analyse perception and memory, using mathematical models for knowledge graphs and tensors, to gain insights into the corresponding functionalities of the human mind. Our discussion is based on the concept of propositional sentences consisting of \textit{subject-predicate-object} (SPO) triples for expressing elementary facts. SPO sentences are the basis for most natural languages but might also be important for explicit perception and declarative memories, as well as intra-brain communication and the ability to argue and reason. A set of SPO sentences can be described as a knowledge graph, which can be transformed into an adjacency tensor. We introduce tensor models, where concepts have dual representations as indices and associated embeddings, two constructs we believe are essential for the understanding of implicit and explicit perception and memory in the brain. We argue that a biological realization of perception and memory imposes constraints on information processing. In particular, we propose that explicit perception and declarative memories require a semantic decoder, which, in a simple realization, is based on four layers: First, a sensory memory layer, as a buffer for sensory input, second, an index layer representing concepts, third, a memoryless representation layer for the broadcasting of information ---the "blackboard", or the "canvas" of the brain--- and fourth, a working memory layer as a processing center and data buffer. We discuss the operations of the four layers and relate them to the global workspace theory. In a Bayesian brain interpretation, semantic memory defines the prior for observable triple statements. We propose that ---in evolution and during development--- semantic memory, episodic memory, and natural language evolved as emergent properties in agents' process to gain a deeper understanding of sensory information.
翻訳日:2023-01-05 20:37:00 公開日:2020-02-10
# ハイブリッド画像のより深い考察

A Deeper Look into Hybrid Images ( http://arxiv.org/abs/2001.11302v2 )

ライセンス: Link先を確認
Jimut Bahan Pal(参考訳) oliviaらが最初に紹介したのは$hybrid$ $images$で、画像が距離を見る機能として変化するように、2つの解釈で静的な画像を生成する。 ハイブリッド画像は、マルチスケール画像の人間の処理を研究することによって構築され、視覚知覚におけるマスキング研究によって動機付けられる。 最初のハイブリッド画像の導入により、2つの画像が高域通過フィルタと低域通過フィルタとをブレンドできることが示され、このブレンド画像が距離から見ると高域通過フィルタは消失し、低域通過フィルタが顕著になる。 私たちの主な目的は、特定のパラメータを変更して微調整することで、生成されたブレンド画像の品質にどのように影響するかを研究することです。 我々は、その機能と、それがリアルタイムシステムで利用できるかどうかを確認するために、徹底的に異なる画像とフィルタを用いてきた。

$Hybrid$ $images$ was first introduced by Olivia et al., that produced static images with two interpretations such that the images changes as a function of viewing distance. Hybrid images are built by studying human processing of multiscale images and are motivated by masking studies in visual perception. The first introduction of hybrid images showed that two images can be blend together with a high pass filter and a low pass filter in such a way that when the blended image is viewed from a distance, the high pass filter fades away and the low pass filter becomes prominent. Our main aim here is to study and review the original paper by changing and tweaking certain parameters to see how they affect the quality of the blended image produced. We have used exhaustively different set of images and filters to see how they function and whether this can be used in a real time system or not.
翻訳日:2023-01-05 12:30:51 公開日:2020-02-10
# ノイズ脳MRI画像の分割のための3DPIFCM新しいアルゴリズム

3DPIFCM Novel Algorithm for Segmentation of Noisy Brain MRI Images ( http://arxiv.org/abs/2002.01985v2 )

ライセンス: Link先を確認
Arie Agranonik, Maya Herman, Mark Last(参考訳) ノイズの多いMRI脳画像の自動分割のための3DPIFCMという新しいアルゴリズムを提案する。 このアルゴリズムは、よく知られたIFCM(Improved Fuzzy C-Means)アルゴリズムの拡張である。 ファジィセグメンテーションを行い、ボクセルの近接と3d画像の色強度によって影響を受けるフィットネス機能を導入する。 3DPIFCMアルゴリズムはPSO(Particle Swarm Optimization)を用いてフィットネス機能を最適化する。 さらに、3dpifcmは、ボクセル近傍の3d特徴を利用してノイズの多いアーティファクトを調整している。 実験では,雑音レベルが1%から20%のt1brainwebデータセットと3dの基底真理を持つ合成データセットの3dpifcmを評価した。 セグメンテーション結果の解析により,ノイズ画像における2つの汎用的変種と,fcm(fuzzy c-means)と比較して60%までのセグメンテーション品質に有意な改善が認められた。

We present a novel algorithm named 3DPIFCM, for automatic segmentation of noisy MRI Brain images. The algorithm is an extension of a well-known IFCM (Improved Fuzzy C-Means) algorithm. It performs fuzzy segmentation and introduces a fitness function that is affected by proximity of the voxels and by the color intensity in 3D images. The 3DPIFCM algorithm uses PSO (Particle Swarm Optimization) in order to optimize the fitness function. In addition, the 3DPIFCM uses 3D features of near voxels to better adjust the noisy artifacts. In our experiments, we evaluate 3DPIFCM on T1 Brainweb dataset with noise levels ranging from 1% to 20% and on a synthetic dataset with ground truth both in 3D. The analysis of the segmentation results shows a significant improvement in the segmentation quality of up to 28% compared to two generic variants in noisy images and up to 60% when compared to the original FCM (Fuzzy C-Means).
翻訳日:2023-01-03 22:06:39 公開日:2020-02-10
# ディープハイパーネットワークに基づくMIMO検出

Deep HyperNetwork-Based MIMO Detection ( http://arxiv.org/abs/2002.02750v2 )

ライセンス: Link先を確認
Mathieu Goutay, Fay\c{c}al Ait Aoudia, Jakob Hoydis(参考訳) マルチインプット・マルチアウトプット(MIMO)システムに対する最適シンボル検出はNPハード問題として知られている。 従来のヒューリスティックアルゴリズムは複雑すぎて実用的すぎるか、パフォーマンスが悪いかのいずれかである。 近年,この検出器をディープニューラルネットワークとして実装する手法がいくつか提案されている。 しかし、実際には空間的相関のあるチャネル上では不満足な性能を達成するか、あるいは各チャネル実現のために再トレーニングを必要とするため、計算的に要求される。 本研究では,チャネルマトリクスを入力とし,ニューラルnnベースの検出器の重みを生成するハイパーネットワークと呼ばれる追加のニューラルネットワーク(nn)をトレーニングすることで,これらの問題に対処する。 提案手法は, 再学習を必要とせず, ほぼ最先端の性能を実現する。

Optimal symbol detection for multiple-input multiple-output (MIMO) systems is known to be an NP-hard problem. Conventional heuristic algorithms are either too complex to be practical or suffer from poor performance. Recently, several approaches tried to address those challenges by implementing the detector as a deep neural network. However, they either still achieve unsatisfying performance on practical spatially correlated channels, or are computationally demanding since they require retraining for each channel realization. In this work, we address both issues by training an additional neural network (NN), referred to as the hypernetwork, which takes as input the channel matrix and generates the weights of the neural NN-based detector. Results show that the proposed approach achieves near state-of-the-art performance without the need for re-training.
翻訳日:2023-01-03 05:21:06 公開日:2020-02-10
# Sparse and Smooth:動的確率ブロックモデルにおけるスペクトルクラスタリングの保証の改善

Sparse and Smooth: improved guarantees for Spectral Clustering in the Dynamic Stochastic Block Model ( http://arxiv.org/abs/2002.02892v2 )

ライセンス: Link先を確認
Nicolas Keriven, Samuel Vaiter(参考訳) 本稿では、動的確率ブロックモデル(DSBM)において、スペクトルクラスタリング(SC)アルゴリズムの古典的変種を分析する。 既存の結果から,予測次数がノード数と対数的に増加する比較的スパースなケースでは,静的ケースの保証を動的ケースに拡張し,DSBMが十分にスムーズな時間,すなわちコミュニティが2つの時間ステップの間に過度に変化しない場合に,エラー境界を改善できることが示されている。 DSBMのスムーズさとスムーズさの新たなリンクを描画することで,これらの結果を改善する。DSBMがより規則的になればなるほど,よりスムーズになると同時に,一貫した回復が保証される。 特に、滑らかさに関する穏やかな条件は、スパースケースを有界度で扱うことができる。 また、これらの保証を正規化ラプラシアンにも拡張し、解析の副産物として、ベルヌーイ成分が独立な行列の正規化ラプラシアンに対して利用可能な最高のスペクトル濃度を求める。

In this paper, we analyse classical variants of the Spectral Clustering (SC) algorithm in the Dynamic Stochastic Block Model (DSBM). Existing results show that, in the relatively sparse case where the expected degree grows logarithmically with the number of nodes, guarantees in the static case can be extended to the dynamic case and yield improved error bounds when the DSBM is sufficiently smooth in time, that is, the communities do not change too much between two time steps. We improve over these results by drawing a new link between the sparsity and the smoothness of the DSBM: the more regular the DSBM is, the more sparse it can be, while still guaranteeing consistent recovery. In particular, a mild condition on the smoothness allows to treat the sparse case with bounded degree. We also extend these guarantees to the normalized Laplacian, and as a by-product of our analysis, we obtain to our knowledge the best spectral concentration bound available for the normalized Laplacian of matrices with independent Bernoulli entries.
翻訳日:2023-01-03 04:37:30 公開日:2020-02-10
# あなたのチェーンメール大好き! knights smile in a fantasy game world: オープンドメインのゴール指向対話エージェント

I love your chain mail! Making knights smile in a fantasy game world: Open-domain goal-oriented dialogue agents ( http://arxiv.org/abs/2002.02878v2 )

ライセンス: Link先を確認
Shrimai Prabhumoye and Margaret Li and Jack Urbanek and Emily Dinan and Douwe Kiela and Jason Weston and Arthur Szlam(参考訳) 対話研究は、チャットとゴール指向タスクを区別する傾向がある。 前者はおそらくより自然主義的であり、言語がより広く使われているが、後者は明確なメトリクスと分かりやすい学習信号を持っている。 人間は、情報を交換したり、特定の反応を引き出すという目標と、チトチャットに携わるなど、この2つを熱心に組み合わせている。 ここでは、エージェントと人間がアクションと対話の両方を行うリッチなマルチプレイヤーテキストベースのファンタジー環境の設定において、これら2つのドメインの分割を橋渡しする。 具体的には, 「チットチャット」 モデルに対する強化学習による目標指向モデルを2つのアプローチで訓練する: ポリシーはトピックを選択することを学ぶか, あるいは、チットチャットモデルからトップK発話を与えられた発話を選択することを学習する。 両モデルとも逆モデルベースラインを上回っており,目標を達成するために対話相手と自然に会話できることを示す。

Dialogue research tends to distinguish between chit-chat and goal-oriented tasks. While the former is arguably more naturalistic and has a wider use of language, the latter has clearer metrics and a straightforward learning signal. Humans effortlessly combine the two, for example engaging in chit-chat with the goal of exchanging information or eliciting a specific response. Here, we bridge the divide between these two domains in the setting of a rich multi-player text-based fantasy environment where agents and humans engage in both actions and dialogue. Specifically, we train a goal-oriented model with reinforcement learning against an imitation-learned ``chit-chat'' model with two approaches: the policy either learns to pick a topic or learns to pick an utterance given the top-K utterances from the chit-chat model. We show that both models outperform an inverse model baseline and can converse naturally with their dialogue partner in order to achieve goals.
翻訳日:2023-01-03 03:24:54 公開日:2020-02-10
# 動的システムモデリングのための深部表現学習

Deep Representation Learning for Dynamical Systems Modeling ( http://arxiv.org/abs/2002.05111v1 )

ライセンス: Link先を確認
Anna Shalova and Ivan Oseledets(参考訳) 適切な状態の表現はカオスシステムの動的モデリングの成功の鍵である。 自然言語処理やコンピュータビジョンといった様々な分野における近年の深層表現の進歩に触発されて,最先端トランスフォーマーモデルの力学系モデリングへの応用を提案する。 このモデルは、トラジェクトリの生成や、状態分布やリャプノフ指数を含む一般的なアトラクタの特性近似における有望な結果を示す。

Proper states' representations are the key to the successful dynamics modeling of chaotic systems. Inspired by recent advances of deep representations in various areas such as natural language processing and computer vision, we propose the adaptation of the state-of-art Transformer model in application to the dynamical systems modeling. The model demonstrates promising results in trajectories generation as well as in the general attractors' characteristics approximation, including states' distribution and Lyapunov exponent.
翻訳日:2023-01-02 09:51:31 公開日:2020-02-10
# 神経分布学習による音楽入力確率のモデル化

Modeling Musical Onset Probabilities via Neural Distribution Learning ( http://arxiv.org/abs/2002.03559v1 )

ライセンス: Link先を確認
Jaesung Huh, Egil Martinsson, Adrian Kim, Jung-Woo Ha(参考訳) オンセット検出は、音楽をオンセットイベントのシーケンスとして定義することで、tse(time-to-event)またはtse(time-from-event)予測タスクとして定式化することができる。 本稿では,逐次密度予測モデルを導入することにより,入力確率をモデル化する新しい手法を提案する。 提案モデルでは,畳み込みニューラルネットワーク(CNN)を密度予測器として,メル-スペクトログラムからTTEおよびTSE分布を推定する。 ボックデータセットのモデルを評価すると,従来のディープラーニングモデルと比較した結果が得られる。

Musical onset detection can be formulated as a time-to-event (TTE) or time-since-event (TSE) prediction task by defining music as a sequence of onset events. Here we propose a novel method to model the probability of onsets by introducing a sequential density prediction model. The proposed model estimates TTE & TSE distributions from mel-spectrograms using convolutional neural networks (CNNs) as a density predictor. We evaluate our model on the Bock dataset show-ing comparable results to previous deep-learning models.
翻訳日:2023-01-02 09:48:22 公開日:2020-02-10
# 1ステップ制約ビームサーチによるRNNトランスデューサの高速化

Accelerating RNN Transducer Inference via One-Step Constrained Beam Search ( http://arxiv.org/abs/2002.03577v1 )

ライセンス: Link先を確認
Juntae Kim and Yoonhan Lee(参考訳) 本稿では,リカレントニューラルネットワーク (RNN) トランスデューサ (RNN-T) 推論を高速化する一段階拘束型 (OSC) ビーム探索を提案する。 元々のRNN-Tビームサーチは、復号処理の高速化につながる時間ループを持つ。 OSCビームサーチは、この時ループを複数の仮説をベクトル化することによって排除する。 このベクトル化は、元のrnn-tビーム探索における仮説の展開が互いに異なるため、非自明である。 しかし,この仮説はデコードステップ毎に1回しか拡張されないことが判明し,最大展開数を1に制限することで,仮説のベクトル化が可能となった。 さらなる加速のために、冗長な探索空間をpruneするために仮定の接頭辞に制約を割り当てる。 さらに、oscビーム探索は復号過程中の仮説間で重複チェックを行い、重複は検索空間を望ましくないほど縮小することができる。 音素や単語誤り率の低い他のrnn-tビーム探索法と比較して,高速化が図られた。

We propose a one-step constrained (OSC) beam search to accelerate recurrent neural network (RNN) transducer (RNN-T) inference. The original RNN-T beam search has a while-loop leading to speed down of the decoding process. The OSC beam search eliminates this while-loop by vectorizing multiple hypotheses. This vectorization is nontrivial as the expansion of the hypotheses within the original RNN-T beam search can be different from each other. However, we found that the hypotheses expanded only once at each decoding step in most cases; thus, we constrained the maximum expansion number to one, thereby allowing vectorization of the hypotheses. For further acceleration, we assign constraints to the prefixes of the hypotheses to prune the redundant search space. In addition, OSC beam search has duplication check among hypotheses during the decoding process as duplication can undesirably shrink the search space. We achieved significant speedup compared with other RNN-T beam search methods with lower phoneme and word error rate.
翻訳日:2023-01-02 09:48:12 公開日:2020-02-10
# ロボット応用のための音声知覚の教師なし学習:T-SNE/UMAP空間へのデータ投影学習

Unsupervised Learning of Audio Perception for Robotics Applications: Learning to Project Data to T-SNE/UMAP space ( http://arxiv.org/abs/2002.04076v1 )

ライセンス: Link先を確認
Prateek Verma, Kenneth Salisbury(参考訳) 音声知覚は、音響シーン分析、音楽メタデータ抽出、レコメンデーション、合成、分析など、様々な問題を解決する鍵となる。 また、日々の作業で人間が力ずくで行うタスクにおいて、コンピューターを増強することもできる。 本論文は,接地データにアクセスせずにタッチ音の知覚を構築するための重要なアイデアに基づいている。 我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。 これらの音は画像とともに使われ、これらの画像の潜在表現のクラスタ化された空間に音をマッピングする。 このアプローチは、興味のある音のセマンティックな表現を学習するだけでなく、学習された区別に異なるモダリティを関連付けることを可能にする。 音をこのクラスタ化された表現にマップするように訓練されたモデルは、多くの人間の注釈データを集める高価な方法とは対照的に、合理的なパフォーマンスを提供する。 このようなアプローチは、いくつかの信号処理機能を使って記述されたあらゆる興味ある音に対する芸術知覚モデルを構築するために使用できる。 信号処理とニューラルアーキテクチャを組み合わせた高精度な音響イベント検出器とラベルなしデータの高次元クラスタリングは、非常に強力なアイデアであり、将来は様々な方法で研究されるだろう。

Audio perception is a key to solving a variety of problems ranging from acoustic scene analysis, music meta-data extraction, recommendation, synthesis and analysis. It can potentially also augment computers in doing tasks that humans do effortlessly in day-to-day activities. This paper builds upon key ideas to build perception of touch sounds without access to any ground-truth data. We show how we can leverage ideas from classical signal processing to get large amounts of data of any sound of interest with a high precision. These sounds are then used, along with the images to map the sounds to a clustered space of the latent representation of these images. This approach, not only allows us to learn semantic representation of the possible sounds of interest, but also allows association of different modalities to the learned distinctions. The model trained to map sounds to this clustered representation, gives reasonable performance as opposed to expensive methods collecting a lot of human annotated data. Such approaches can be used to build a state of art perceptual model for any sound of interest described using a few signal processing features. Daisy chaining high precision sound event detectors using signal processing combined with neural architectures and high dimensional clustering of unlabelled data is a vastly powerful idea, and can be explored in a variety of ways in future.
翻訳日:2023-01-02 09:47:55 公開日:2020-02-10
# マルコフジャンプ線形系に対するポリシー最適化手法の収束保証

Convergence Guarantees of Policy Optimization Methods for Markovian Jump Linear Systems ( http://arxiv.org/abs/2002.04090v1 )

ライセンス: Link先を確認
Joao Paulo Jansch-Porto, Bin Hu, Geir Dullerud(参考訳) 近年,強化学習への関心が高まり,制御目的の政策最適化が注目されている。 本稿では,マルコフジャンプ線形系(MJLS)の2次制御に対するポリシー最適化の収束について検討する。 まず,MJLSの直接政策最適化の最適化状況について検討し,特に,結果の非凸性にもかかわらず,一意の定常点が大域的最適解であることを示す。 次に, ガウスニュートン法と自然方針勾配法が, 閉ループ力学を平均二乗的に安定化させる制御器で初期化した場合, 線形速度で MJLS の最適状態フィードバック制御器に収束することが証明された。 収束証明における重要な安定性問題を修正するための新しいリアプノフ論法を提案する。 最後に,この理論を裏付ける数値的な例を示す。 我々の研究は、未知のMJLSを制御する政策学習手法の性能を理解するための新たな洞察をもたらす。

Recently, policy optimization for control purposes has received renewed attention due to the increasing interest in reinforcement learning. In this paper, we investigate the convergence of policy optimization for quadratic control of Markovian jump linear systems (MJLS). First, we study the optimization landscape of direct policy optimization for MJLS, and, in particular, show that despite the non-convexity of the resultant problem the unique stationary point is the global optimal solution. Next, we prove that the Gauss-Newton method and the natural policy gradient method converge to the optimal state feedback controller for MJLS at a linear rate if initialized at a controller which stabilizes the closed-loop dynamics in the mean square sense. We propose a novel Lyapunov argument to fix a key stability issue in the convergence proof. Finally, we present a numerical example to support our theory. Our work brings new insights for understanding the performance of policy learning methods on controlling unknown MJLS.
翻訳日:2023-01-02 09:47:33 公開日:2020-02-10
# 臨床画像アーカイブにおけるマルチオルガンセグメンテーションの検証と最適化

Validation and Optimization of Multi-Organ Segmentation on Clinical Imaging Archives ( http://arxiv.org/abs/2002.04102v1 )

ライセンス: Link先を確認
Yuchen Xu, Olivia Tang, Yucheng Tang, Ho Hin Lee, Yunqiang Chen, Dashan Gao, Shizhong Han, Riqiang Gao, Michael R. Savona, Richard G. Abramson, Yuankai Huo, Bennett A. Landman(参考訳) 腹部CT(Segmentation of abdominal Computed Tomography)は, 空間的文脈, 形態的特性, 組織特異的放射線学的評価の枠組みを提供する。 2015年のMICCAIチャレンジは、従来の学習法と深層学習法の両方で、多臓器の腹部CTセグメンテーションに大きな革新をもたらした。 近年の深い方法の革新により、臨床翻訳がアピールされるレベルへのパフォーマンスが向上している。 しかし、オープンデータセット上での相互検証は間接的な知識汚染のリスクを示し、循環推論をもたらす可能性がある。 さらに,患者の腹部生理学の多様性が広いことから,「現実世界」のセグメンテーションは困難である。 そこで本研究では,最近発表された3D U-Net(ベースラインアルゴリズム)の変動に対して,臨床に取得した腹部CTコホートを抽出する2つのデータ検索を行った。 まず, 脾臓異常 (cohort a) を伴う診断コード476例について, 2004年度の同定調査を行った。 第2に,脾臓異常(コホートb)を伴わない1754例について,4313例の同定調査を行った。 両コホートにおける既存アルゴリズムの予測評価を行い,それぞれ13%,8%の故障率を示した。 そして, 分節不全を伴う51例のコホートaを同定し, 肝・胆嚢ラベルを手作業で修正した。 我々は,手動ラベルを追加するモデルを再訓練し,AとBのコホートにおいて,9%と6%の性能改善を実現した。 要約すると、prospective cohortsのベースラインのパフォーマンスは、以前公開されたデータセットのものと似ている。 さらに、第1のコホートからのデータの追加により、第2の保留検証コホート上で評価した場合のパフォーマンスが大幅に向上した。

Segmentation of abdominal computed tomography(CT) provides spatial context, morphological properties, and a framework for tissue-specific radiomics to guide quantitative Radiological assessment. A 2015 MICCAI challenge spurred substantial innovation in multi-organ abdominal CT segmentation with both traditional and deep learning methods. Recent innovations in deep methods have driven performance toward levels for which clinical translation is appealing. However, continued cross-validation on open datasets presents the risk of indirect knowledge contamination and could result in circular reasoning. Moreover, 'real world' segmentations can be challenging due to the wide variability of abdomen physiology within patients. Herein, we perform two data retrievals to capture clinically acquired deidentified abdominal CT cohorts with respect to a recently published variation on 3D U-Net (baseline algorithm). First, we retrieved 2004 deidentified studies on 476 patients with diagnosis codes involving spleen abnormalities (cohort A). Second, we retrieved 4313 deidentified studies on 1754 patients without diagnosis codes involving spleen abnormalities (cohort B). We perform prospective evaluation of the existing algorithm on both cohorts, yielding 13% and 8% failure rate, respectively. Then, we identified 51 subjects in cohort A with segmentation failures and manually corrected the liver and gallbladder labels. We re-trained the model adding the manual labels, resulting in performance improvement of 9% and 6% failure rate for the A and B cohorts, respectively. In summary, the performance of the baseline on the prospective cohorts was similar to that on previously published datasets. Moreover, adding data from the first cohort substantively improved performance when evaluated on the second withheld validation cohort.
翻訳日:2023-01-02 09:39:58 公開日:2020-02-10
# Affective Computingのための視覚に基づく身体ジェスチャーメタ機能

Vision based body gesture meta features for Affective Computing ( http://arxiv.org/abs/2003.00809v1 )

ライセンス: Link先を確認
Indigo J. D. Orton(参考訳) 心理的苦痛の早期発見は効果的な治療の鍵となる。 うつ病などの苦痛を自動的に検出することは、研究の活発な領域である。 現在のアプローチは、声、顔、身体のモダリティを利用する。 これらのうち、身体的モダリティは、ビデオからの身体的表現の抽出が困難であることと、部分的には実行可能なデータセットの欠如のため、ほとんど調査されていない。 既存のボディモダリティアプローチでは、自然言語内の単語のように、ボディ言語を一連の特定の表現として表現するために、表現の自動分類を使用する。 本論文では, 身体のモダリティの中で, 速度などのジェスチャーのメタ情報を表す新しいタイプの特徴を提示し, 非クリニカルな抑うつラベルの予測に利用する。 これは既存の作業と異なり、全体の動作を人の動きから派生した小さな集約されたメタ特徴の集合として表現する。 本手法では,ビデオからポーズ推定を抽出し,身体部分内のジェスチャーを検出し,個々のジェスチャーからメタ情報を抽出し,最終的にこれらの特徴を集約し,予測タスクに使用する小さな特徴ベクトルを生成する。 自己評価された苦悩、個性、人口統計ラベルを用いたインタビューの65のビデオ録画のデータセットを新たに紹介する。 このデータセットは、身体全体を救難検出タスクに活用する機能の開発を可能にする。 抑うつ,不安,認知的ストレス,体性ストレス,5つの標準的個性尺度,性別を予測するメタ機能について検討した。 これらの特徴を用いた線形回帰型分類器は、私の新しいデータセットにおける抑うつを予測するための82.70%のF1スコアを得る。

Early detection of psychological distress is key to effective treatment. Automatic detection of distress, such as depression, is an active area of research. Current approaches utilise vocal, facial, and bodily modalities. Of these, the bodily modality is the least investigated, partially due to the difficulty in extracting bodily representations from videos, and partially due to the lack of viable datasets. Existing body modality approaches use automatic categorization of expressions to represent body language as a series of specific expressions, much like words within natural language. In this dissertation I present a new type of feature, within the body modality, that represents meta information of gestures, such as speed, and use it to predict a non-clinical depression label. This differs to existing work by representing overall behaviour as a small set of aggregated meta features derived from a person's movement. In my method I extract pose estimation from videos, detect gestures within body parts, extract meta information from individual gestures, and finally aggregate these features to generate a small feature vector for use in prediction tasks. I introduce a new dataset of 65 video recordings of interviews with self-evaluated distress, personality, and demographic labels. This dataset enables the development of features utilising the whole body in distress detection tasks. I evaluate my newly introduced meta-features for predicting depression, anxiety, perceived stress, somatic stress, five standard personality measures, and gender. A linear regression based classifier using these features achieves a 82.70% F1 score for predicting depression within my novel dataset.
翻訳日:2023-01-02 09:39:34 公開日:2020-02-10
# iDCR:マルチセンサ故障診断のためのデンプスター組合せ規則の改良

iDCR: Improved Dempster Combination Rule for Multisensor Fault Diagnosis ( http://arxiv.org/abs/2002.03639v1 )

ライセンス: Link先を確認
Nimisha Ghosh, Sayantan Saha, Rourab Paul(参考訳) 複数のセンサーから収集されたデータは、多くのエンジニアリングアプリケーションを正確に監視するために効果的に融合することができる。 過去数年間、マルチセンサー融合の最も望まれた応用の1つは、故障診断である。 Dempster-Shafer Theory of Evidence with Dempsters Combination Ruleは、故障診断にうまく適用できるマルチセンサー融合の非常に一般的な方法である。 しかし、異なるセンサーから得られる情報が衝突が大きい場合、古典的なDempsters Combination Ruleは反直感的な結果をもたらす可能性がある。 この欠点を克服するために,マルチセンサデータ融合のための組合せルールの改善を提案する。 提案手法の有効性を示す数値的な例が提案されている。 また,マルチセンサ故障診断における提案手法の優位性を示すため,既存手法との比較分析を行った。

Data gathered from multiple sensors can be effectively fused for accurate monitoring of many engineering applications. In the last few years, one of the most sought after applications for multi sensor fusion has been fault diagnosis. Dempster-Shafer Theory of Evidence along with Dempsters Combination Rule is a very popular method for multi sensor fusion which can be successfully applied to fault diagnosis. But if the information obtained from the different sensors shows high conflict, the classical Dempsters Combination Rule may produce counter-intuitive result. To overcome this shortcoming, this paper proposes an improved combination rule for multi sensor data fusion. Numerical examples have been put forward to show the effectiveness of the proposed method. Comparative analysis has also been carried out with existing methods to show the superiority of the proposed method in multi sensor fault diagnosis.
翻訳日:2023-01-02 09:39:10 公開日:2020-02-10
# 深層学習による銀河の星形成特性の予測

Predicting star formation properties of galaxies using deep learning ( http://arxiv.org/abs/2002.03578v1 )

ライセンス: Link先を確認
Shraddha Surana, Yogesh Wadadekar, Omkar Bait, Hrushikesh Bhosle(参考訳) 銀河の星形成特性を宇宙エポックの関数として理解することは、銀河進化の研究において重要な運動である。 伝統的に、星団合成モデルは銀河の星形成を特徴づける最も適したパラメータを得るために用いられてきた。 何千もの銀河でマルチバンドフラックス測定が利用可能になると、機械学習を用いて星形成を特徴づける別のアプローチが実現可能になる。 本研究では、恒星質量、星形成速度、塵の光度という3つの重要な星形成特性を予測するための深層学習手法を提案する。 我々は,標準星群合成符号の出力との比較により,ディープラーニングモデルの性能を特徴付ける。

Understanding the star-formation properties of galaxies as a function of cosmic epoch is a critical exercise in studies of galaxy evolution. Traditionally, stellar population synthesis models have been used to obtain best fit parameters that characterise star formation in galaxies. As multiband flux measurements become available for thousands of galaxies, an alternative approach to characterising star formation using machine learning becomes feasible. In this work, we present the use of deep learning techniques to predict three important star formation properties -- stellar mass, star formation rate and dust luminosity. We characterise the performance of our deep learning models through comparisons with outputs from a standard stellar population synthesis code.
翻訳日:2023-01-02 09:38:33 公開日:2020-02-10
# 最適なカーネルと並列サンプル特徴選択を用いたコンボリューションスパースカーネル変換学習に基づくパーキンソン病音声データの分類アルゴリズム

Classification Algorithm of Speech Data of Parkinsons Disease Based on Convolution Sparse Kernel Transfer Learning with Optimal Kernel and Parallel Sample Feature Selection ( http://arxiv.org/abs/2002.03716v1 )

ライセンス: Link先を確認
Xiaoheng Zhang, Yongming Li, Pin Wang, Xiaoheng Tan, and Yuchuan Liu(参考訳) パーキンソン病(PD)患者のラベル付き音声データは乏しく、既存のデータセットではトレーニングデータとテストデータの統計的分布が大きく異なる。 これらの問題を解決するためには、次元の減少とサンプルの増大を考慮する必要がある。 本稿では,サンプルと特徴の並列最適化を組み合わせたスパースカーネル転送学習に基づく新しいpd分類アルゴリズムを提案する。 ソースドメインデータとして公開データセットからPD音声特徴の効果的な構造情報を抽出するためにスパース転送学習を使用し、高速ADDMイテレーションを改善して情報抽出性能を向上させる。 並列最適化を実現するために, サンプルと特徴の潜在的な関係は, 高品質な複合特徴を得ると考えられる。 まず、特定の公開音声データセットから特徴を抽出し、ソースドメインとして特徴データセットを構築する。 そして、トレーニングおよびテストデータセットを含むpdターゲットドメインは、畳み込みスパースコーディングによってエンコードされ、より深い情報を抽出することができる。 次に並列最適化を実装する。 さらに分類性能を向上させるため、畳み込みカーネル最適化機構を設計する。 2つの代表的な公開データセットと1つの自己構築データセットを使用して、実験は30以上の関連するアルゴリズムを比較する。 その結果、Sakarデータセット、MaxLittleデータセット、DNSHデータセットをターゲットドメインとすると、提案アルゴリズムは分類精度が明らかに向上することがわかった。 この研究は、トランスファー学習アプローチと比較してアルゴリズムの大幅な改善も見出しており、トランスファー学習がより効果的であり、より許容される時間コストを持つことを示した。

Labeled speech data from patients with Parkinsons disease (PD) are scarce, and the statistical distributions of training and test data differ significantly in the existing datasets. To solve these problems, dimensional reduction and sample augmentation must be considered. In this paper, a novel PD classification algorithm based on sparse kernel transfer learning combined with a parallel optimization of samples and features is proposed. Sparse transfer learning is used to extract effective structural information of PD speech features from public datasets as source domain data, and the fast ADDM iteration is improved to enhance the information extraction performance. To implement the parallel optimization, the potential relationships between samples and features are considered to obtain high-quality combined features. First, features are extracted from a specific public speech dataset to construct a feature dataset as the source domain. Then, the PD target domain, including the training and test datasets, is encoded by convolution sparse coding, which can extract more in-depth information. Next, parallel optimization is implemented. To further improve the classification performance, a convolution kernel optimization mechanism is designed. Using two representative public datasets and one self-constructed dataset, the experiments compare over thirty relevant algorithms. The results show that when taking the Sakar dataset, MaxLittle dataset and DNSH dataset as target domains, the proposed algorithm achieves obvious improvements in classification accuracy. The study also found large improvements in the algorithms in this paper compared with nontransfer learning approaches, demonstrating that transfer learning is both more effective and has a more acceptable time cost.
翻訳日:2023-01-02 09:37:36 公開日:2020-02-10
# $\ell_\infty$-constrained Encoding and Deep Decodingによる超高忠実画像圧縮

Ultra High Fidelity Image Compression with $\ell_\infty$-constrained Encoding and Deep Decoding ( http://arxiv.org/abs/2002.03482v1 )

ライセンス: Link先を確認
Xi Zhang and Xiaolin Wu(参考訳) 医学、リモートセンシング、科学など多くの専門分野において、ユーザーは数学的に損失のない画像圧縮方法を要求する。 しかし、ロスレス画像符号化は圧縮率がかなり低い(自然画像では約2:1)。 厳密な忠実性要件を満たしながら重要な圧縮を実現する唯一の手法は、90年代に開発された$\ell_\infty$-constrained codeの方法論である。 我々は,新しいCNNベースのソフト$\ell_\infty$-constrained decoding法を開発することで,20年後の$\ell_\infty$-constrained画像符号化に大きな進歩を遂げた。 新しい方法は、$\ell_\infty\mbox{-sdnet}$と呼ばれる復元cnnを使用して圧縮欠陥を修復し、従来の復号化された画像を潜在画像にマッピングする。 $\ell_\infty\mbox{-SDNet}$のユニークな強みは、ピクセル単位の厳密なエラーを強制する能力である。 そのため、主流のCNN修復法によって犠牲にされる統計的外れ値であっても、元の画像の小さな特徴的構造を落とすことも歪めることもできない。 さらに重要なことに、この研究は$\ell_\infty$-constrainedエンコーディングと深層ソフトデコード($\ell_\infty\mbox{-ed}^2$)の新たな画像圧縮システムを導入する。 この$\ell_\infty \mbox{-ed}^2$のアプローチは、$\ell_\infty$だけでなく$\ell_2$エラーメトリックと知覚品質においても、知覚的に透明な再構成のしきい値に近いビットレートで、既存の損失画像圧縮法(例えば、bpg、webpなど)の最高値を上回っている。 操作上、新しい圧縮システムは実用的であり、低複雑さのリアルタイムエンコーダと高速初期デコーダとオプションのcnnソフトデコーダからなるカスケードデコーダを備えている。

In many professional fields, such as medicine, remote sensing and sciences, users often demand image compression methods to be mathematically lossless. But lossless image coding has a rather low compression ratio (around 2:1 for natural images). The only known technique to achieve significant compression while meeting the stringent fidelity requirements is the methodology of $\ell_\infty$-constrained coding that was developed and standardized in nineties. We make a major progress in $\ell_\infty$-constrained image coding after two decades, by developing a novel CNN-based soft $\ell_\infty$-constrained decoding method. The new method repairs compression defects by using a restoration CNN called the $\ell_\infty\mbox{-SDNet}$ to map a conventionally decoded image to the latent image. A unique strength of the $\ell_\infty\mbox{-SDNet}$ is its ability to enforce a tight error bound on a per pixel basis. As such, no small distinctive structures of the original image can be dropped or distorted, even if they are statistical outliers that are otherwise sacrificed by mainstream CNN restoration methods. More importantly, this research ushers in a new image compression system of $\ell_\infty$-constrained encoding and deep soft decoding ($\ell_\infty\mbox{-ED}^2$). The $\ell_\infty \mbox{-ED}^2$ approach beats the best of existing lossy image compression methods (e.g., BPG, WebP, etc.) not only in $\ell_\infty$ but also in $\ell_2$ error metric and perceptual quality, for bit rates near the threshold of perceptually transparent reconstruction. Operationally, the new compression system is practical, with a low-complexity real-time encoder and a cascade decoder consisting of a fast initial decoder and an optional CNN soft decoder.
翻訳日:2023-01-02 09:29:56 公開日:2020-02-10
# 教師の指導力向上による顔面深層学習の特徴圧縮

End-to-End Facial Deep Learning Feature Compression with Teacher-Student Enhancement ( http://arxiv.org/abs/2002.03627v1 )

ライセンス: Link先を確認
Shurun Wang, Wenhan Yang, Shiqi Wang(参考訳) 本稿では,ディープニューラルネットワークの表現能力と学習能力を活用して,精度と効率を期待できるインテリジェントなフロントエンド機器分析を行う新しいエンドツーエンド特徴圧縮方式を提案する。 特に、レート歪みコストを最適化して特徴量表現を達成することで、抽出された特徴をエンドツーエンドでコンパクトに符号化する。 圧縮性能をさらに向上させるため,低ビットレート表現を高ビットレート表現に効率的に転送できる潜在コードレベルの教師・学生エンハンスメントモデルを提案する。 このような戦略により、表現コストをデコードに適応的にシフトさせ、デコード機能を強化したより柔軟な特徴圧縮を実現することができる。 提案モデルの有効性を顔特徴量で検証し, 既存のモデルと比較して圧縮性能が良好であることを実験的に明らかにした。

In this paper, we propose a novel end-to-end feature compression scheme by leveraging the representation and learning capability of deep neural networks, towards intelligent front-end equipped analysis with promising accuracy and efficiency. In particular, the extracted features are compactly coded in an end-to-end manner by optimizing the rate-distortion cost to achieve feature-in-feature representation. In order to further improve the compression performance, we present a latent code level teacher-student enhancement model, which could efficiently transfer the low bit-rate representation into a high bit rate one. Such a strategy further allows us to adaptively shift the representation cost to decoding computations, leading to more flexible feature compression with enhanced decoding capability. We verify the effectiveness of the proposed model with the facial feature, and experimental results reveal better compression performance in terms of rate-accuracy compared with existing models.
翻訳日:2023-01-02 09:28:43 公開日:2020-02-10
# 異常局在のための正規データ多様体上の反復エネルギーに基づく射影

Iterative energy-based projection on a normal data manifold for anomaly localization ( http://arxiv.org/abs/2002.03734v1 )

ライセンス: Link先を確認
David Dehaene, Oriel Frigo, S\'ebastien Combrexelle, Pierre Eline(参考訳) オートエンコーダの再構成は、教師なしの異常局在のタスクに広く使われている。 実際、通常のデータでトレーニングされたオートエンコーダは、画像とオートエンコーダの再構成を単純に比較することで、画像内の異常画素のセグメンテーションを可能にするため、データの正常な特徴のみを再構築することが期待されている。 しかし実際には、通常の画像に加えられた局所的な欠陥は全体の復元を悪化させ、この分割が困難になる。 本稿では, オートエンコーダの損失関数から導かれるエネルギーの勾配勾配を利用して, オートエンコーダを学習した正規データ多様体上に異常データを投影する手法を提案する。 このエネルギーは、モデルがユーザー定義の最適射影を構成するものを優先する正規化項で拡張することができる。 オートエンコーダの入力を反復的に更新することで、オートエンコーダボトルネックによる高周波情報の損失を回避できる。 これにより、古典的な復元よりも高品質な画像が作成できる。 本手法は,種々の異常な局所化データセットの最先端結果を実現する。 また、celebaデータセット上の塗装タスクで有望な結果を表示する。

Autoencoder reconstructions are widely used for the task of unsupervised anomaly localization. Indeed, an autoencoder trained on normal data is expected to only be able to reconstruct normal features of the data, allowing the segmentation of anomalous pixels in an image via a simple comparison between the image and its autoencoder reconstruction. In practice however, local defects added to a normal image can deteriorate the whole reconstruction, making this segmentation challenging. To tackle the issue, we propose in this paper a new approach for projecting anomalous data on a autoencoder-learned normal data manifold, by using gradient descent on an energy derived from the autoencoder's loss function. This energy can be augmented with regularization terms that model priors on what constitutes the user-defined optimal projection. By iteratively updating the input of the autoencoder, we bypass the loss of high-frequency information caused by the autoencoder bottleneck. This allows to produce images of higher quality than classic reconstructions. Our method achieves state-of-the-art results on various anomaly localization datasets. It also shows promising results at an inpainting task on the CelebA dataset.
翻訳日:2023-01-02 09:28:08 公開日:2020-02-10
# ガウス混合損失を用いたクリーンラベル汚染防止

Preventing Clean Label Poisoning using Gaussian Mixture Loss ( http://arxiv.org/abs/2003.00798v1 )

ライセンス: Link先を確認
Muhammad Yaseen, Muneeb Aadil, Maria Sargsyan(参考訳) 2014年、Szegedyらは、慎重に設計された入力の摂動がディープニューラルネットワーク(DNN)のラベルを誤って分類する可能性を示して以来、このような悪意のある摂動に対してDNNをより堅牢にするための研究が進行中である。 本研究は,CLPA(Clear Labeling poisoning attack)と呼ばれる中毒発作について考察する。 CLPAの目標は、テスト時に後続のクエリが誤分類される可能性があるため、DNNの決定境界を大幅に変更できる一見良質なインスタンスを注入することである。 我々は、学習中にCLPAに対する強力な防御をモデルに組み込むことができ、ネットワークの特徴を最大層内の大マルギン・ガウス混合分布に従わせることができると論じる。 このような事前の知識を持つことで、ラベルの存在を前提として、例がいかに異常であるかを体系的に評価することができる。 我々は、MNISTおよびCIFARデータセットの実験を通して、ビルトインディフェンスを実証する。 各データセットで2つのモデルをトレーニングします。1つはsoftmaxで、もう1つはlgmでトレーニングします。 以上の結果から,lgmはデータサニタイズ処理のオーバーヘッドを増加させずに,clpaの有効性を実質的に低減できることが示された。 結果を再現するコードはオンラインで入手できる。

Since 2014 when Szegedy et al. showed that carefully designed perturbations of the input can lead Deep Neural Networks (DNNs) to wrongly classify its label, there has been an ongoing research to make DNNs more robust to such malicious perturbations. In this work, we consider a poisoning attack called Clean Labeling poisoning attack (CLPA). The goal of CLPA is to inject seemingly benign instances which can drastically change decision boundary of the DNNs due to which subsequent queries at test time can be mis-classified. We argue that a strong defense against CLPA can be embedded into the model during the training by imposing features of the network to follow a Large Margin Gaussian Mixture distribution in the penultimate layer. By having such a prior knowledge, we can systematically evaluate how unusual the example is, given the label it is claiming to be. We demonstrate our builtin defense via experiments on MNIST and CIFAR datasets. We train two models on each dataset: one trained via softmax, another via LGM. We show that using LGM can substantially reduce the effectiveness of CLPA while having no additional overhead of data sanitization. The code to reproduce our results is available online.
翻訳日:2023-01-02 09:19:57 公開日:2020-02-10
# アプリレビュー応答生成の自動化

Automating App Review Response Generation ( http://arxiv.org/abs/2002.03552v1 )

ライセンス: Link先を確認
Cuiyun Gao, Jichuan Zeng, Xin Xia, David Lo, Michael R. Lyu, Irwin King(参考訳) 以前の研究では、ユーザーレビューに対する回答は、通常、ユーザーがアプリに与える評価に肯定的な影響を及ぼすことが示された。 例えば、Hassanらによると、レビューに対する反応は、ユーザーが回答しないよりも、評価を更新する確率を最大6倍に向上させる。 ユーザーレビューの大部分に対する回答の手間を軽減するために、開発者は通常テンプレートベースの戦略を採用し、テンプレートはアプリの使用に対する評価を表現したり、ユーザがフォローする会社のメールアドレスに言及したりする。 しかし、毎日大量のユーザレビューを読むことは、開発者にとって簡単な作業ではない。 したがって、開発者がユーザレビューに反応するのを助けるために、さらなる自動化が必要である。 本研究は、上記のニーズに対処し、レビューと回答の間の知識関係を学習することでレビュー応答を自動的に生成する新しいアプローチRRGenを提案する。 RRGenは、ユーザ評価やレビューの長さなどのレビュー属性を明示的に取り入れ、利用可能なトレーニングデータから、レビューと対応するレスポンスの関係を教師付き方法で学習する。 58のアプリと309,246のレビュー-レスポンスペアの実験では、RRGenはBLEU-4(対話応答生成システムの評価に広く使用される精度測定)で少なくとも67.4%のベースラインを上回っている。 定性的分析は、RRGenが関連性および正確な応答を生成する効果も確認する。

Previous studies showed that replying to a user review usually has a positive effect on the rating that is given by the user to the app. For example, Hassan et al. found that responding to a review increases the chances of a user updating their given rating by up to six times compared to not responding. To alleviate the labor burden in replying to the bulk of user reviews, developers usually adopt a template-based strategy where the templates can express appreciation for using the app or mention the company email address for users to follow up. However, reading a large number of user reviews every day is not an easy task for developers. Thus, there is a need for more automation to help developers respond to user reviews. Addressing the aforementioned need, in this work we propose a novel approach RRGen that automatically generates review responses by learning knowledge relations between reviews and their responses. RRGen explicitly incorporates review attributes, such as user rating and review length, and learns the relations between reviews and corresponding responses in a supervised way from the available training data. Experiments on 58 apps and 309,246 review-response pairs highlight that RRGen outperforms the baselines by at least 67.4% in terms of BLEU-4 (an accuracy measure that is widely used to evaluate dialogue response generation systems). Qualitative analysis also confirms the effectiveness of RRGen in generating relevant and accurate responses.
翻訳日:2023-01-02 09:19:21 公開日:2020-02-10
# 高速・厳密な深層学習のための半自動的精度・高精度解析の枠組み

A Framework for Semi-Automatic Precision and Accuracy Analysis for Fast and Rigorous Deep Learning ( http://arxiv.org/abs/2002.03869v1 )

ライセンス: Link先を確認
Christoph Lauter and Anastasia Volkova(参考訳) Deep Neural Networks (DNN) はパフォーマンス向上のためのアプリケーションである。 浮動小数点演算(fp)とカスタム浮動小数点演算はこの空腹を満たす。 速度は必要とされているが、DNNの推論は正確さを必要としないようだ。 多くの論文は、DNNが驚くほど低い精度で正常に動作可能であることを実験的に観察している。 本論文の目的は、まず、DNNのFP精度が低いFP精度のために高いままである理由について、理論的な光を流すことである。 畳み込みステップにおける相対的精度の損失は、非常によく条件づけられた活性化層によって回復される。 DNNにおける精度と精度の関係を解釈する。 第2に,ディープラーニングの推論フェーズにおける半自動FPエラー解析のためのソフトウェアフレームワークを提案する。 一般的なtensorflow/kerasモデルと互換性があり、frugally-deep python/c++ライブラリを使用して、ニューラルネットワークをc++コードに変換し、ネットワークの精度のニーズを分析する。 この厳密な解析は、dnnの絶対および相対誤差境界を計算するための区間とアフィン演算に基づいている。 私たちはいくつかの例でツールを示します。

Deep Neural Networks (DNN) represent a performance-hungry application. Floating-Point (FP) and custom floating-point-like arithmetic satisfies this hunger. While there is need for speed, inference in DNNs does not seem to have any need for precision. Many papers experimentally observe that DNNs can successfully run at almost ridiculously low precision. The aim of this paper is two-fold: first, to shed some theoretical light upon why a DNN's FP accuracy stays high for low FP precision. We observe that the loss of relative accuracy in the convolutional steps is recovered by the activation layers, which are extremely well-conditioned. We give an interpretation for the link between precision and accuracy in DNNs. Second, the paper presents a software framework for semi-automatic FP error analysis for the inference phase of deep-learning. Compatible with common Tensorflow/Keras models, it leverages the frugally-deep Python/C++ library to transform a neural network into C++ code in order to analyze the network's need for precision. This rigorous analysis is based on Interval and Affine arithmetics to compute absolute and relative error bounds for a DNN. We demonstrate our tool with several examples.
翻訳日:2023-01-02 09:18:57 公開日:2020-02-10
# 大規模知識グラフにおける検索アルゴリズムの最適化

Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs ( http://arxiv.org/abs/2002.03686v1 )

ライセンス: Link先を確認
Jens D\"orpinghaus, Andreas Stefan(参考訳) 知識グラフは、例えば生命科学やバイオインフォマティクスの分野において、近年の知識マイニングや発見において重要な役割を果たすことが示されている。 クエリ最適化、クエリ変換、そしてもちろん大規模知識グラフの保存と検索において多くの研究がなされているが、アルゴリズム最適化の分野は依然として大きな課題であり、グラフデータベースを使用する上で重要な要素である。 大規模ラベル付きプロパティグラフでアルゴリズムを最適化する問題に対処する研究者はほとんどいない。 本稿では,2つの最適化手法を示し,グラフデータベースを直接クエリするナイーブなアプローチと比較する。 我々の研究の目的はneo4jのようなグラフデータベースの制限要因を判定することであり、これらの課題に取り組むための新しい解決策について述べる。 このために,グラフデータベース上の問題の複雑さを区別するための分類スキーマを提案する。 テキストマイニングデータに富んだ知識グラフに基づくバイオメディカルパブリッシングデータを含むテストシステムに対する最適化手法の評価を行った。 この高密度グラフは71m以上のノードと850mの関係を持つ。 結果は非常に励ましく、問題によっては44から3839までのスピードアップを示すことができました。

Knowledge graphs have been shown to play an important role in recent knowledge mining and discovery, for example in the field of life sciences or bioinformatics. Although a lot of research has been done on the field of query optimization, query transformation and of course in storing and retrieving large scale knowledge graphs the field of algorithmic optimization is still a major challenge and a vital factor in using graph databases. Few researchers have addressed the problem of optimizing algorithms on large scale labeled property graphs. Here, we present two optimization approaches and compare them with a naive approach of directly querying the graph database. The aim of our work is to determine limiting factors of graph databases like Neo4j and we describe a novel solution to tackle these challenges. For this, we suggest a classification schema to differ between the complexity of a problem on a graph database. We evaluate our optimization approaches on a test system containing a knowledge graph derived biomedical publication data enriched with text mining data. This dense graph has more than 71M nodes and 850M relationships. The results are very encouraging and - depending on the problem - we were able to show a speedup of a factor between 44 and 3839.
翻訳日:2023-01-02 09:18:22 公開日:2020-02-10
# 確率的深層学習によるエンド・ツー・エンド学習Dense Stereo Matchingの不確かさ推定

Uncertainty Estimation for End-To-End Learned Dense Stereo Matching via Probabilistic Deep Learning ( http://arxiv.org/abs/2002.03663v1 )

ライセンス: Link先を確認
Max Mehltretter(参考訳) 近年,不整合の特定の必要性から,密度ステレオマッチングの不確実性や信頼性評価への様々なアプローチが提案されている。 他の多くの分野と同様に、特にディープラーニングに基づく手法は説得力のある結果を示している。 しかし、これらの手法のほとんどはデータに含まれる不確実性のみをモデル化するが、高濃度ステレオマッチング手順の不確実性は無視する。 しかし、トレーニングデータのドメインが処理対象のデータと異なる場合、後者のモデリングは特に有益である。 この目的のために,本研究では,高密度ステレオマッチングの課題に対して,確率的深層学習のアイデアを初めて適用した。 一般によく知られたGC-Netアーキテクチャに基づいて, 共振器補正ステレオ画像対からの結合深さと不確実性推定のための新しい確率的ニューラルネットワークを提案する。 提案する確率的ニューラルネットワークは、ネットワークパラメータを直接学習する代わりに、予測毎にパラメータがサンプリングされる確率分布を学習する。 同じ画像対上の複数の予測のバリエーションは、モデルの不確実性を近似することができる。 推定深度と不確実性情報の質を3つの異なるデータセットで広範囲に評価する。

Motivated by the need to identify erroneous disparity assignments, various approaches for uncertainty and confidence estimation of dense stereo matching have been presented in recent years. As in many other fields, especially deep learning based methods have shown convincing results. However, most of these methods only model the uncertainty contained in the data, while ignoring the uncertainty of the employed dense stereo matching procedure. Additionally modelling the latter, however, is particularly beneficial if the domain of the training data varies from that of the data to be processed. For this purpose, in the present work the idea of probabilistic deep learning is applied to the task of dense stereo matching for the first time. Based on the well-known and commonly employed GC-Net architecture, a novel probabilistic neural network is presented, for the task of joint depth and uncertainty estimation from epipolar rectified stereo image pairs. Instead of learning the network parameters directly, the proposed probabilistic neural network learns a probability distribution from which parameters are sampled for every prediction. The variations between multiple such predictions on the same image pair allow to approximate the model uncertainty. The quality of the estimated depth and uncertainty information is assessed in an extensive evaluation on three different datasets.
翻訳日:2023-01-02 09:09:26 公開日:2020-02-10
# 効果的な顔属性分類のためのディープマルチタスクマルチラベルCNN

Deep Multi-task Multi-label CNN for Effective Facial Attribute Classification ( http://arxiv.org/abs/2002.03683v1 )

ライセンス: Link先を確認
Longbiao Mao, Yan Yan, Jing-Hao Xue, and Hanzi Wang(参考訳) 顔属性分類(FAC)はコンピュータビジョンやパターン認識において注目を集めている。 しかし、最先端のFAC法は、顔検出/アライメントとFACを独立に行う。 これらのタスク間の固有の依存関係は、完全には利用されない。 さらに、ほとんどの方法は、顔属性の異なる学習の複雑さを無視する同じcnnネットワークアーキテクチャを使用して、すべての顔属性を予測する。 上記の問題に対処するため,DMM-CNNと呼ばれる新しいマルチタスクマルチラベルCNNを提案する。 具体的には、DMM-CNNは、2つの密接に関連するタスク(顔のランドマーク検出とFAC)を共同で最適化し、マルチタスク学習を活用することにより、FACの性能を向上させる。 顔属性の多様な学習複雑さに対処するため、属性を目的属性と主観属性の2つのグループに分割する。 2つの異なるネットワークアーキテクチャは2つの属性のグループの特徴を抽出するために設計され、トレーニング中に各顔属性に損失重みを自動的に割り当てる新しい動的重み付け方式が提案されている。 さらに,マルチラベル学習におけるクラス不均衡の問題を効果的に緩和する適応的しきい値設定戦略を開発した。 CelebA と LFWA データセットによる実験結果から,提案した DMM-CNN 法はいくつかの最先端 FAC 法と比較して優れていることが示された。

Facial Attribute Classification (FAC) has attracted increasing attention in computer vision and pattern recognition. However, state-of-the-art FAC methods perform face detection/alignment and FAC independently. The inherent dependencies between these tasks are not fully exploited. In addition, most methods predict all facial attributes using the same CNN network architecture, which ignores the different learning complexities of facial attributes. To address the above problems, we propose a novel deep multi-task multi-label CNN, termed DMM-CNN, for effective FAC. Specifically, DMM-CNN jointly optimizes two closely-related tasks (i.e., facial landmark detection and FAC) to improve the performance of FAC by taking advantage of multi-task learning. To deal with the diverse learning complexities of facial attributes, we divide the attributes into two groups: objective attributes and subjective attributes. Two different network architectures are respectively designed to extract features for two groups of attributes, and a novel dynamic weighting scheme is proposed to automatically assign the loss weight to each facial attribute during training. Furthermore, an adaptive thresholding strategy is developed to effectively alleviate the problem of class imbalance for multi-label learning. Experimental results on the challenging CelebA and LFWA datasets show the superiority of the proposed DMM-CNN method compared with several state-of-the-art FAC methods.
翻訳日:2023-01-02 09:09:09 公開日:2020-02-10
# repose: 人間の素早いポーズ推定のための深い運動前処理の学習

RePose: Learning Deep Kinematic Priors for Fast Human Pose Estimation ( http://arxiv.org/abs/2002.03933v1 )

ライセンス: Link先を確認
Hossam Isack, Christian Haene, Cem Keskin, Sofien Bouaziz, Yuri Boykov, Shahram Izadi and Sameh Khamis(参考訳) 一つの画像から人間のポーズを推定する新しい効率的で軽量なモデルを提案する。 本モデルは,様々な最先端手法のパラメータ数と計算コストのごく一部で競合する結果を得るように設計されている。 この目的のために、階層的予測フレームワークに部分的構造と幾何学的事前を明示的に組み込む。 最も粗い解像度で、また古典的な部分ベースのアプローチと似た方法で、人体の運動構造を利用してキーポイントまたは身体部分間の畳み込み特徴の更新を伝達する。 従来のアプローチとは異なり、私たちはエンドツーエンドのトレーニングを採用して、データから機能更新を通じて幾何学的な事前学習を行っています。 次に、粗い解像度における特徴表現を階層化して、予測されたポーズを粗い方法で洗練する。 最終的なネットワークは、軽量なディープニューラルネットワーク内の幾何学的事前と直観を効果的にモデル化し、leeds sports poseとmpii human poseの2つの標準データセットで、このサイズのモデルに対して最先端の結果を与える。

We propose a novel efficient and lightweight model for human pose estimation from a single image. Our model is designed to achieve competitive results at a fraction of the number of parameters and computational cost of various state-of-the-art methods. To this end, we explicitly incorporate part-based structural and geometric priors in a hierarchical prediction framework. At the coarsest resolution, and in a manner similar to classical part-based approaches, we leverage the kinematic structure of the human body to propagate convolutional feature updates between the keypoints or body parts. Unlike classical approaches, we adopt end-to-end training to learn this geometric prior through feature updates from data. We then propagate the feature representation at the coarsest resolution up the hierarchy to refine the predicted pose in a coarse-to-fine fashion. The final network effectively models the geometric prior and intuition within a lightweight deep neural network, yielding state-of-the-art results for a model of this size on two standard datasets, Leeds Sports Pose and MPII Human Pose.
翻訳日:2023-01-02 09:08:31 公開日:2020-02-10
# unconstrained periocular recognition: 属性正規化のための生成的ディープラーニングフレームワーク

Unconstrained Periocular Recognition: Using Generative Deep Learning Frameworks for Attribute Normalization ( http://arxiv.org/abs/2002.03985v1 )

ライセンス: Link先を確認
Luiz A. Zanlorensi, Hugo Proen\c{c}a, David Menotti(参考訳) 非拘束環境で働く眼生体計測システムは、通常、得られたデータの品質を共同で低下させる複数の要因によって引き起こされる小さなクラス内コンパクト性の問題に直面する。 本研究では,二者間比較に用いるサンプルのばらつきを低減し,識別性を低下させることなく,ディープラーニング生成フレームワークに基づく属性正規化戦略を提案する。 提案手法は,データの正規化に寄与し,認識精度を向上し,使用する認識戦略に完全に依存する前処理ステップと見なすことができる。 概念実証として,提案する正規化手法を用いて,5つの異なる認識法の性能レベルを比較検討し,「眼鏡」と「ガゼ」の因子を考察した。 また,モバイル端末で取得した画像から,非拘束的ペリオラー認識のための新しいデータセットを導入し,特に「眼鏡着用」が認識効果に与える影響を知覚するのに適している。 実験は2つの異なるデータセットで実施し,認識性能を向上させるための属性正規化手法の有用性を検証した。

Ocular biometric systems working in unconstrained environments usually face the problem of small within-class compactness caused by the multiple factors that jointly degrade the quality of the obtained data. In this work, we propose an attribute normalization strategy based on deep learning generative frameworks, that reduces the variability of the samples used in pairwise comparisons, without reducing their discriminability. The proposed method can be seen as a preprocessing step that contributes for data regularization and improves the recognition accuracy, being fully agnostic to the recognition strategy used. As proof of concept, we consider the "eyeglasses" and "gaze" factors, comparing the levels of performance of five different recognition methods with/without using the proposed normalization strategy. Also, we introduce a new dataset for unconstrained periocular recognition, composed of images acquired by mobile devices, particularly suited to perceive the impact of "wearing eyeglasses" in recognition effectiveness. Our experiments were performed in two different datasets, and support the usefulness of our attribute normalization scheme to improve the recognition performance.
翻訳日:2023-01-02 09:07:36 公開日:2020-02-10
# 自己教師付きリニアモーションデブラリング

Self-Supervised Linear Motion Deblurring ( http://arxiv.org/abs/2002.04070v1 )

ライセンス: Link先を確認
Peidong Liu, Joel Janai, Marc Pollefeys, Torsten Sattler and Andreas Geiger(参考訳) 動きのぼやけ画像は、特徴検出、動き推定、物体認識など、多くのコンピュータビジョンアルゴリズムに挑戦する。 深層畳み込みニューラルネットワークは、画像デブラリングの最先端技術である。 しかし、シャープでぼやけた画像ペアでトレーニングデータを得ることは困難である。 本稿では,映像の鮮明さに頼らずに,実世界のぼやけた画像列からネットワークを学習することのできる,自己監督型モーションデブロアリングのための識別可能なリブロアモデルを提案する。 我々の重要な洞察は、連続した画像から得られる動きの手がかりが、遅延タスクに十分な情報をもたらすことである。 そこで我々は,逆レンダリング問題としてデブロワーリングを定式化し,物理画像形成過程を考慮し,まず,対応する光フローを推定する2つのデブロワード画像を予測する。 これらの予測を用いて、ぼやけた画像を再レンダリングし、元のぼやけた入力に対する差を最小化する。 実験評価には合成データと実データの両方を用いる。 我々の実験は、自己監督された単一画像の劣化が本当に実現可能であり、視覚的に魅力的な結果をもたらすことを示した。

Motion blurry images challenge many computer vision algorithms, e.g, feature detection, motion estimation, or object recognition. Deep convolutional neural networks are state-of-the-art for image deblurring. However, obtaining training data with corresponding sharp and blurry image pairs can be difficult. In this paper, we present a differentiable reblur model for self-supervised motion deblurring, which enables the network to learn from real-world blurry image sequences without relying on sharp images for supervision. Our key insight is that motion cues obtained from consecutive images yield sufficient information to inform the deblurring task. We therefore formulate deblurring as an inverse rendering problem, taking into account the physical image formation process: we first predict two deblurred images from which we estimate the corresponding optical flow. Using these predictions, we re-render the blurred images and minimize the difference with respect to the original blurry inputs. We use both synthetic and real dataset for experimental evaluations. Our experiments demonstrate that self-supervised single image deblurring is really feasible and leads to visually compelling results.
翻訳日:2023-01-02 09:07:20 公開日:2020-02-10
# 腹部セグメンテーションのoutlier guideによる最適化

Outlier Guided Optimization of Abdominal Segmentation ( http://arxiv.org/abs/2002.04098v1 )

ライセンス: Link先を確認
Yuchen Xu, Olivia Tang, Yucheng Tang, Ho Hin Lee, Yunqiang Chen, Dashan Gao, Shizhong Han, Riqiang Gao, Michael R. Savona, Richard G. Abramson, Yuankai Huo, Bennett A. Landman(参考訳) 腹部ct画像のマルチオルガンセグメンテーションは広範な研究の対象となっている。 腹部臓器の形状と分布は、時間とともに人口や個人によって大きく異なるため、医療画像処理において大きな課題となる。 トレーニングセットへの新しいデータセットの継続的統合は、セグメンテーションパフォーマンスを改善する可能性を提供するが、大規模データの収集はコストだけでなく、いくつかのコンテキストにおいて非現実的でもある。 さらに、付加的なデータがどのような限界値を提供するのかは不明だ。 本稿では,品質保証(QA)を用いたシングルパス能動学習手法を提案する。 腹部マルチオーガンセグメンテーションのための事前訓練された3d u-netモデルを構築し,外れ値データ(例えば,ベースラインアルゴリズムが失敗した例)や異常値(例えば,ベースラインアルゴリズムが動作する例)でデータセットを拡張した。 新たなモデルでは、5倍のクロスバリデーション(outlierデータ)と、outlierサンプル(inlierデータ)を備えたデータセットを使用してトレーニングが行われた。 アウトリーチによる手動ラベリングでは, インリーチによる0.067の増加 (p<0.001, 2尾対t-test) と比較して, アウトリーチによるDiceスコアが0.130増加した。 トレーニングに5から37のイナリアやイナリアを追加することで,イナリアを追加する限界値がイナリアを追加する値よりも高いことが分かる。 要約すると, 単臓器性能の改善は, 多臓器性能を低下させることなく, トレーニング時間を大幅に向上させることができた。 したがって、ベースライン障害の同定と修正は、アルゴリズムの性能を向上させるためにトレーニングデータを選択する効率的かつ効率的な方法である。

Abdominal multi-organ segmentation of computed tomography (CT) images has been the subject of extensive research interest. It presents a substantial challenge in medical image processing, as the shape and distribution of abdominal organs can vary greatly among the population and within an individual over time. While continuous integration of novel datasets into the training set provides potential for better segmentation performance, collection of data at scale is not only costly, but also impractical in some contexts. Moreover, it remains unclear what marginal value additional data have to offer. Herein, we propose a single-pass active learning method through human quality assurance (QA). We built on a pre-trained 3D U-Net model for abdominal multi-organ segmentation and augmented the dataset either with outlier data (e.g., exemplars for which the baseline algorithm failed) or inliers (e.g., exemplars for which the baseline algorithm worked). The new models were trained using the augmented datasets with 5-fold cross-validation (for outlier data) and withheld outlier samples (for inlier data). Manual labeling of outliers increased Dice scores with outliers by 0.130, compared to an increase of 0.067 with inliers (p<0.001, two-tailed paired t-test). By adding 5 to 37 inliers or outliers to training, we find that the marginal value of adding outliers is higher than that of adding inliers. In summary, improvement on single-organ performance was obtained without diminishing multi-organ performance or significantly increasing training time. Hence, identification and correction of baseline failure cases present an effective and efficient method of selecting training data to improve algorithm performance.
翻訳日:2023-01-02 09:07:04 公開日:2020-02-10
# 正規化テンソル分解による混合多層ネットワークのコミュニティ検出

Community Detection on Mixture Multi-layer Networks via Regularized Tensor Decomposition ( http://arxiv.org/abs/2002.04457v1 )

ライセンス: Link先を確認
Bing-Yi Jing and Ting Li and Zhongyuan Lyu and Dong Xia(参考訳) マルチ層ネットワークにおけるコミュニティ検出の問題について検討し,複数のモードでノードのペアを関連付ける方法を提案する。 本稿では,汎用フレームワークである混合多層確率ブロックモデル(mmsbm)について紹介する。 ノードのグローバル/ローカルなメンバシップとレイヤのメンバシップの両方を明らかにするためのテンソルベースアルゴリズム(TWIST)を提案する。 ノード数や層数が増加するにつれて,TWIST は誤分類誤差の少ないコミュニティを正確に検出できることを示す。 数値研究は我々の理論的知見を裏付ける。 我々の知る限り、これはテンソル分解を用いた混合多層ネットワークに関する最初の体系的研究である。 この手法は、世界の取引ネットワークとマラリア寄生虫遺伝子ネットワークの2つの実際のデータセットに適用され、新たな興味深い発見をもたらす。

We study the problem of community detection in multi-layer networks, where pairs of nodes can be related in multiple modalities. We introduce a general framework, i.e., mixture multi-layer stochastic block model (MMSBM), which includes many earlier models as special cases. We propose a tensor-based algorithm (TWIST) to reveal both global/local memberships of nodes, and memberships of layers. We show that the TWIST procedure can accurately detect the communities with small misclassification error as the number of nodes and/or the number of layers increases. Numerical studies confirm our theoretical findings. To our best knowledge, this is the first systematic study on the mixture multi-layer networks using tensor decomposition. The method is applied to two real datasets: worldwide trading networks and malaria parasite genes networks, yielding new and interesting findings.
翻訳日:2023-01-02 09:00:01 公開日:2020-02-10
# 説明可能な深層rdfs推論器

Explainable Deep RDFS Reasoner ( http://arxiv.org/abs/2002.03514v1 )

ライセンス: Link先を確認
Bassem Makni, Ibrahim Abdelaziz, James Hendler(参考訳) RDFS推論におけるニューラル・シンボリックギャップの橋渡しを目的とした最近の研究は、ディープラーニング技術がRDFS推論規則の学習に利用できることを実証的に証明した。 しかし、ルールに基づく推論と比べ、彼らの主な欠点は推論された三重項(ai用語の説明可能性)の導出の欠如である。 本稿では,推定されたグラフだけでなく,これらの三重項がどのように推論されたかを説明するために,これらのアプローチを構築した。 グラフワードアプローチでは、RDFグラフは、ニューラルネットワーク翻訳によって推論が達成されるグラフワードのシーケンスとして表現される。 RDFS推論における説明可能性を実現するため,提案手法を再検討し,入力グラフをグラフ単語の列として取得するニューラルニューラルネットワークモデルを導入し,推定三重の符号化を行い,推定三重の導出を出力する。 我々は2つのデータセットについて正当化モデルを評価した: 合成データセット--lubmベンチマーク--と実世界のデータセット --会議に関するscholarlydata-- で、最も低い検証精度が96%に近づいた。

Recent research efforts aiming to bridge the Neural-Symbolic gap for RDFS reasoning proved empirically that deep learning techniques can be used to learn RDFS inference rules. However, one of their main deficiencies compared to rule-based reasoners is the lack of derivations for the inferred triples (i.e. explainability in AI terms). In this paper, we build on these approaches to provide not only the inferred graph but also explain how these triples were inferred. In the graph words approach, RDF graphs are represented as a sequence of graph words where inference can be achieved through neural machine translation. To achieve explainability in RDFS reasoning, we revisit this approach and introduce a new neural network model that gets the input graph--as a sequence of graph words-- as well as the encoding of the inferred triple and outputs the derivation for the inferred triple. We evaluated our justification model on two datasets: a synthetic dataset-- LUBM benchmark-- and a real-world dataset --ScholarlyData about conferences-- where the lowest validation accuracy approached 96%.
翻訳日:2023-01-02 08:59:46 公開日:2020-02-10
# 文字アンカーポーリングによるシーンテキスト認識におけるフレキシブルな特徴収集の新しい視点

A New Perspective for Flexible Feature Gathering in Scene Text Recognition Via Character Anchor Pooling ( http://arxiv.org/abs/2002.03509v1 )

ライセンス: Link先を確認
Shangbang Long, Yushuo Guan, Kaigui Bian, Cong Yao(参考訳) 不規則なシーンテキスト認識は、主に自然のシーンにおけるテキストの形状の複雑さのために、研究コミュニティから多くの注目を集めている。 しかし、最近の手法は、境界ボックス回帰のような形状に敏感なモジュールに依存するか、シーケンス学習を捨てる。 これらの問題に対処するため,キャラクタアンコリングモジュール (CAM) とアンカープールモジュール (APM) と呼ばれる結合モジュールのペアを提案し,2次元空間から高レベルなセマンティクスを抽出して特徴系列を生成する。 提案するcamは,文字を個々にアンカーすることで,形状に敏感な方法でテキストをローカライズする。 APMは、文字アンカーに沿って柔軟に機能を補間して収集し、シーケンス学習を可能にする。 相補モジュールは、空間情報とシーケンス学習の調和統一を実現する。 提案したモジュールでは,不規則なテキストデータセット,ICDAR 2015,CUTE,Total-Text,および通常のテキストデータセットの最先端性能の並列化など,従来よりも高い精度で認識システムを実現している。

Irregular scene text recognition has attracted much attention from the research community, mainly due to the complexity of shapes of text in natural scene. However, recent methods either rely on shape-sensitive modules such as bounding box regression, or discard sequence learning. To tackle these issues, we propose a pair of coupling modules, termed as Character Anchoring Module (CAM) and Anchor Pooling Module (APM), to extract high-level semantics from two-dimensional space to form feature sequences. The proposed CAM localizes the text in a shape-insensitive way by design by anchoring characters individually. APM then interpolates and gathers features flexibly along the character anchors which enables sequence learning. The complementary modules realize a harmonic unification of spatial information and sequence learning. With the proposed modules, our recognition system surpasses previous state-of-the-art scores on irregular and perspective text datasets, including, ICDAR 2015, CUTE, and Total-Text, while paralleling state-of-the-art performance on regular text datasets.
翻訳日:2023-01-02 08:59:27 公開日:2020-02-10
# アンカー生成から分布アライメントへ:ゼロショット認識のための識別埋め込み空間の学習

From Anchor Generation to Distribution Alignment: Learning a Discriminative Embedding Space for Zero-Shot Recognition ( http://arxiv.org/abs/2002.03554v1 )

ライセンス: Link先を確認
Fuzhen Li, Zhenfeng Zhu, Xingxing Zhang, Jian Cheng, Yao Zhao(参考訳) ゼロショット学習(ZSL)では、分類されるサンプルは通常、属性などのサイド情報テンプレートに投影される。 しかし、テンプレートの不規則な分布は分類結果を混乱させる。 この問題を軽減するために,DAGDA(Digiminative Anchor Generation and Distribution Alignment Model)と呼ばれる新しいフレームワークを提案する。 まず, 拡散型グラフ畳み込みネットワークを用いて, クラス情報と側情報の相互作用を明示的にモデル化し, 識別的アンカーを生成する手法を提案する。 第2に,アンカー空間におけるサンプルと対応するアンカーとのさらなる整合を図るため,アンカー空間における意味的関係正則化を導入する。 インダクティブ・ラーニング(inductive learning)の方法に従って,本手法は,従来のベンチマークデータセットと一般的なzsl設定の両方において,既存の最先端手法よりも優れている。 一方, アブレーション実験は各成分の有効性を強く示している。

In zero-shot learning (ZSL), the samples to be classified are usually projected into side information templates such as attributes. However, the irregular distribution of templates makes classification results confused. To alleviate this issue, we propose a novel framework called Discriminative Anchor Generation and Distribution Alignment Model (DAGDA). Firstly, in order to rectify the distribution of original templates, a diffusion based graph convolutional network, which can explicitly model the interaction between class and side information, is proposed to produce discriminative anchors. Secondly, to further align the samples with the corresponding anchors in anchor space, which aims to refine the distribution in a fine-grained manner, we introduce a semantic relation regularization in anchor space. Following the way of inductive learning, our approach outperforms some existing state-of-the-art methods, on several benchmark datasets, for both conventional as well as generalized ZSL setting. Meanwhile, the ablation experiments strongly demonstrate the effectiveness of each component.
翻訳日:2023-01-02 08:58:54 公開日:2020-02-10
# 自動車の運転助手

Vehicle Driving Assistant ( http://arxiv.org/abs/2002.03556v1 )

ライセンス: Link先を確認
Akanksha Dwivedi, Anoop Toffy, Athul Suresh, Tarini Chandrashekhar(参考訳) 自動運転車は、SAEレベル3のTesla輸送車のような自動車メーカーにとって、日々の生活において一般的な用語である。 これらの車両には、駐車補助やクルーズコントロールなど多くの機能が含まれているが、主に外国の道路に合わせている。 ポットホール、そしてそれらの豊富さは、我々のインドの道路に特有のものです。 視覚画像からポットホールの検出を成功させることは,様々なシナリオに適用できると考えている。 さらに, ポットホールの色, 形状, 大きさの多様性は, 現代の機械学習と画像処理技術を用いて, この問題を解決すべき適度な候補にしている。

Autonomous vehicles has been a common term in our day to day life with car manufacturers like Tesla shipping cars that are SAE Level 3. While these vehicles include a slew of features such as parking assistance and cruise control,they have mostly been tailored to foreign roads. Potholes, and the abundance of them, is something that is unique to our Indian roads. We believe that successful detection of potholes from visual images can be applied in a variety of scenarios. Moreover, the sheer variety in the color, shape and size of potholes makes this problem an apt candidate to be solved using modern machine learning and image processing techniques.
翻訳日:2023-01-02 08:58:28 公開日:2020-02-10
# 深層学習を用いた網膜細胞核の自動検出と計測

Automatic detection and counting of retina cell nuclei using deep learning ( http://arxiv.org/abs/2002.03563v1 )

ライセンス: Link先を確認
S. M. Hadi Hosseini, Hao Chen, Monica M. Jablonski(参考訳) 加齢黄斑変性症(amd)のような眼疾患において、網膜細胞や他の生物学的物体のサイズ、数、グレードを自動的に検出、分類、計算する能力は極めて重要である。 本稿では, 深層学習技術とMask R-CNNモデルに基づく自動ツールを開発し, 透過電子顕微鏡(TEM)画像の大規模なデータセットを分析し, 高速かつ高精度に網膜細胞を定量化する。 我々は、外核層(onl)細胞についてlive, intermediate, pyknoticの3つのカテゴリを検討した。 24サンプルのデータセットを用いてモデルをトレーニングした。 次に、別の6つのサンプルを用いてハイパーパラメータを最適化した。 本研究は,テストデータセットに適用し,網膜のONL中の細胞核を自動的に検出,分類,計数するための高精度な手法であることを示した。 モデルの性能は,検出のための平均平均精度(mAP),精度,リコール,F1スコア,分類とカウントのための精度といった一般的な指標を用いて検証した。

The ability to automatically detect, classify, calculate the size, number, and grade of retinal cells and other biological objects is critically important in eye disease like age-related macular degeneration (AMD). In this paper, we developed an automated tool based on deep learning technique and Mask R-CNN model to analyze large datasets of transmission electron microscopy (TEM) images and quantify retinal cells with high speed and precision. We considered three categories for outer nuclear layer (ONL) cells: live, intermediate, and pyknotic. We trained the model using a dataset of 24 samples. We then optimized the hyper-parameters using another set of 6 samples. The results of this research, after applying to the test datasets, demonstrated that our method is highly accurate for automatically detecting, categorizing, and counting cell nuclei in the ONL of the retina. Performance of our model was tested using general metrics: general mean average precision (mAP) for detection; and precision, recall, F1-score, and accuracy for categorizing and counting.
翻訳日:2023-01-02 08:58:19 公開日:2020-02-10
# 開集合領域適応のためのバランスのとれたランダム林の協調学習

Collaborative Training of Balanced Random Forests for Open Set Domain Adaptation ( http://arxiv.org/abs/2002.03642v1 )

ライセンス: Link先を確認
Jongbin Ryu, Jiun Bae, Jongwoo Lim(参考訳) 本稿では,ドメイン適応タスクのための畳み込みニューラルネットワークを用いたランダム林の協調学習アルゴリズムを提案する。 実際のシナリオでは、ほとんどのドメイン適応アルゴリズムはノイズ、不十分なトレーニングデータ、オープンセットの分類といった課題に直面します。 そのような場合、従来の手法は過剰フィッティングに苦しめられ、ソースの知識をターゲットドメインにうまく転送できない。 これらの問題に対処するため、以下の2つの手法が提案されている。 まず,情報ゲインを最大化しつつ,各ノードのデータを等しいサイズに分割する畳み込みニューラルネットワークを用いた決定木構築手法を提案する。 差別力の向上と過剰適合問題の軽減に寄与する均等な制約のため、深い特徴のバランスのとれた決定木を生成する。 第2に、ドメインのミスアライメント問題に取り組むため、ソースとターゲットのドメインデータの不均一な分割を罰するドメインアライメントロスを提案する。 ラベル付きソースデータの情報ゲインとラベル付き対象データ分布のエントロピーを協調的に最適化することにより,提案手法は最先端手法よりも優れた性能を実現する。

In this paper, we introduce a collaborative training algorithm of balanced random forests with convolutional neural networks for domain adaptation tasks. In real scenarios, most domain adaptation algorithms face the challenges from noisy, insufficient training data and open set categorization. In such cases, conventional methods suffer from overfitting and fail to successfully transfer the knowledge of the source to the target domain. To address these issues, the following two techniques are proposed. First, we introduce the optimized decision tree construction method with convolutional neural networks, in which the data at each node are split into equal sizes while maximizing the information gain. It generates balanced decision trees on deep features because of the even-split constraint, which contributes to enhanced discrimination power and reduced overfitting problem. Second, to tackle the domain misalignment problem, we propose the domain alignment loss which penalizes uneven splits of the source and target domain data. By collaboratively optimizing the information gain of the labeled source data as well as the entropy of unlabeled target data distributions, the proposed CoBRF algorithm achieves significantly better performance than the state-of-the-art methods.
翻訳日:2023-01-02 08:57:30 公開日:2020-02-10
# 脳腫瘍分節における知識蒸留

Knowledge Distillation for Brain Tumor Segmentation ( http://arxiv.org/abs/2002.03688v1 )

ライセンス: Link先を確認
Dmitrii Lachinov, Elena Shipunova and Vadim Turlapov(参考訳) マルチモーダルMRIにおける脳腫瘍のセグメンテーションは、医療画像解析において最も困難な課題の1つである。 この課題を解決する技術アルゴリズムの最近の状況は、特に機械学習のアプローチとディープラーニングに基づいている。 このようなモデルのトレーニングに使用されるデータの量とその変動性は、高い表現力を持つアルゴリズムを構築するためのキーストーンである。 本稿では,学習過程におけるモデルの性能とデータ量との関係について検討する。 脳腫瘍分節課題の例では,課題主催者が提供するラベル付きデータで訓練されたモデルと,異種モデルのアンサンブルでアノテートされた追加のラベル付きデータを用いて全教師付きで訓練されたモデルを比較した。 結果として、追加データでトレーニングされた単一のモデルは、複数のモデルのアンサンブルに近いパフォーマンスを達成し、個々のメソッドよりも優れています。

The segmentation of brain tumors in multimodal MRIs is one of the most challenging tasks in medical image analysis. The recent state of the art algorithms solving this task is based on machine learning approaches and deep learning in particular. The amount of data used for training such models and its variability is a keystone for building an algorithm with high representation power. In this paper, we study the relationship between the performance of the model and the amount of data employed during the training process. On the example of brain tumor segmentation challenge, we compare the model trained with labeled data provided by challenge organizers, and the same model trained in omni-supervised manner using additional unlabeled data annotated with the ensemble of heterogeneous models. As a result, a single model trained with additional data achieves performance close to the ensemble of multiple models and outperforms individual methods.
翻訳日:2023-01-02 08:50:28 公開日:2020-02-10
# ビッグデータマイニングとクラスタリングのための分散ベイズ行列分解

Distributed Bayesian Matrix Decomposition for Big Data Mining and Clustering ( http://arxiv.org/abs/2002.03703v1 )

ライセンス: Link先を確認
Chihao Zhang and Yang Yang and Wei Zhang and Shihua Zhang(参考訳) マトリックス分解は、現代のアプリケーションによって生成されたビッグデータから知識を見つけるための基本的なツールの1つである。 しかし、そのような手法を1台のマシンで使用すると、非常に大きなデータを処理するのが効率的か不可能である。 さらに、ビッグデータは分散的に収集され、異なるマシンに格納されることが多い。 したがって、そのようなデータは一般に強い異種ノイズを持つ。 ビッグデータ分析のための分散行列分解の開発は不可欠かつ有用である。 このような手法は、スケールを良くし、異種ノイズをモデル化し、分散システムにおける通信問題に対処するべきである。 そこで本研究では,ビッグデータマイニングとクラスタリングのための分散ベイズ行列分解モデル(DBMD)を提案する。 具体的には,分散コンピューティングを実装するための3つの戦略を採用する。 1) 勾配降下の加速 2)乗算器の交互方向法(ADMM)と 3)統計的推論。 これらのアルゴリズムの理論的収束挙動について検討する。 雑音の不均一性に対処するため,推定値のばらつきを低減する最適プラグイン重み付き平均を提案する。 合成実験は,我々の理論的結果を検証し,実世界の実験により,我々のアルゴリズムがビッグデータに順応し,他の分散手法と比較して優れた,あるいは競合的な性能を発揮することを示した。

Matrix decomposition is one of the fundamental tools to discover knowledge from big data generated by modern applications. However, it is still inefficient or infeasible to process very big data using such a method in a single machine. Moreover, big data are often distributedly collected and stored on different machines. Thus, such data generally bear strong heterogeneous noise. It is essential and useful to develop distributed matrix decomposition for big data analytics. Such a method should scale up well, model the heterogeneous noise, and address the communication issue in a distributed system. To this end, we propose a distributed Bayesian matrix decomposition model (DBMD) for big data mining and clustering. Specifically, we adopt three strategies to implement the distributed computing including 1) the accelerated gradient descent, 2) the alternating direction method of multipliers (ADMM), and 3) the statistical inference. We investigate the theoretical convergence behaviors of these algorithms. To address the heterogeneity of the noise, we propose an optimal plug-in weighted average that reduces the variance of the estimation. Synthetic experiments validate our theoretical results, and real-world experiments show that our algorithms scale up well to big data and achieves superior or competing performance compared to other distributed methods.
翻訳日:2023-01-02 08:50:13 公開日:2020-02-10
# ディープオートエンコーダを用いた熱可視顔認識

Thermal to Visible Face Recognition Using Deep Autoencoders ( http://arxiv.org/abs/2002.04219v1 )

ライセンス: Link先を確認
Alperen Kantarc{\i}, Haz{\i}m Kemal Ekenel(参考訳) 視覚的顔認識システムは、ディープラーニングを用いてほぼ完璧な認識精度を達成する。 しかし、光の不足により、これらのシステムは性能が良くない。 この問題に対処する方法は、熱から可視的なクロスドメイン顔マッチングである。 これは夜間の監視に有用であるため、望ましい技術である。 しかし、2つのドメインの違いのため、顔認識は非常に難しい問題である。 本稿では,可視画像と熱画像のマッピングを学習する深層オートエンコーダシステムを提案する。 また,熱的および可視的顔認識におけるアライメントの影響についても検討した。 この目的のために、CarlおよびEURECOMデータセットの顔のランドマークを手動でアノテートする。 提案されたアプローチは、Carl、UND-X1、EURECOMの3つの公開データセットで広くテストされている。 実験の結果,提案手法は最先端を著しく改善することがわかった。 我々はアライメントがパフォーマンスを約2%向上させるのを観察する。 本研究は、github.com/Alpkant/Thermal-to-Visible-Face-Recognition-Using-Deep-Autoencoders というリンクから、注釈付き顔のランドマーク位置をダウンロードすることができる。

Visible face recognition systems achieve nearly perfect recognition accuracies using deep learning. However, in lack of light, these systems perform poorly. A way to deal with this problem is thermal to visible cross-domain face matching. This is a desired technology because of its usefulness in night time surveillance. Nevertheless, due to differences between two domains, it is a very challenging face recognition problem. In this paper, we present a deep autoencoder based system to learn the mapping between visible and thermal face images. Also, we assess the impact of alignment in thermal to visible face recognition. For this purpose, we manually annotate the facial landmarks on the Carl and EURECOM datasets. The proposed approach is extensively tested on three publicly available datasets: Carl, UND-X1, and EURECOM. Experimental results show that the proposed approach improves the state-of-the-art significantly. We observe that alignment increases the performance by around 2%. Annotated facial landmark positions in this study can be downloaded from the following link: github.com/Alpkant/Thermal-to-Visible-Face-Recognition-Using-Deep-Autoencoders .
翻訳日:2023-01-02 08:49:57 公開日:2020-02-10
# 大規模・複雑・時空間系のスケーラブルな予測とサブグリッドスケールクロージャのための機械学習と知識ベースモデリングの組み合わせ

Combining Machine Learning with Knowledge-Based Modeling for Scalable Forecasting and Subgrid-Scale Closure of Large, Complex, Spatiotemporal Systems ( http://arxiv.org/abs/2002.05514v1 )

ライセンス: Link先を確認
Alexander Wikner, Jaideep Pathak, Brian Hunt, Michelle Girvan, Troy Arcomano, Istvan Szunyogh, Andrew Pomerance, and Edward Ott(参考訳) 従来のシステム状態の時系列データとシステム全体のダイナミクスの不完全なモデルの両方にアクセスできる場合、大きな時空間的カオス力学系の時間発展を予測することを目標とする、一般的に遭遇する状況(例えば天気予報)を考える。 具体的には,過去のデータを予測に組み込むために必要なツールとして,機械学習を活用する。 時空間カオスシステムが非常に大きく複雑である共通シナリオへのスケーラビリティ向上のために,我々は2つのアプローチを組み合わせることを提案する。 i) 並列機械学習予測方式,及び (ii)知識ベースコンポーネントと機械学習ベースのコンポーネントからなる複合予測システムのためのハイブリッド手法。 私たちはこの方法を組み合わせるだけでなく (i)および (ii) 非常に大規模なシステムに優れた性能を与えるためにスケールさせると同時に、並列機械学習コンポーネントを並列化せずにトレーニングするために必要な時系列データの長さが、並列化なしで必要なものよりも劇的に小さくなることも示している。 さらに,知識ベースコンポーネントの計算的実現がサブグリッドスケールプロセスの解決を行なわない場合を考えると,未解決の短スケールダイナミクスが解決された長スケールダイナミックス(「サブグリッドスケール閉鎖」)に与える影響をトレーニングデータに組み込むことができる。

We consider the commonly encountered situation (e.g., in weather forecasting) where the goal is to predict the time evolution of a large, spatiotemporally chaotic dynamical system when we have access to both time series data of previous system states and an imperfect model of the full system dynamics. Specifically, we attempt to utilize machine learning as the essential tool for integrating the use of past data into predictions. In order to facilitate scalability to the common scenario of interest where the spatiotemporally chaotic system is very large and complex, we propose combining two approaches:(i) a parallel machine learning prediction scheme; and (ii) a hybrid technique, for a composite prediction system composed of a knowledge-based component and a machine-learning-based component. We demonstrate that not only can this method combining (i) and (ii) be scaled to give excellent performance for very large systems, but also that the length of time series data needed to train our multiple, parallel machine learning components is dramatically less than that necessary without parallelization. Furthermore, considering cases where computational realization of the knowledge-based component does not resolve subgrid-scale processes, our scheme is able to use training data to incorporate the effect of the unresolved short-scale dynamics upon the resolved longer-scale dynamics ("subgrid-scale closure").
翻訳日:2023-01-02 08:48:36 公開日:2020-02-10
# 心を変えたもの - 論証過程における動的トピックと談話の役割-

What Changed Your Mind: The Roles of Dynamic Topics and Discourse in Argumentation Process ( http://arxiv.org/abs/2002.03536v1 )

ライセンス: Link先を確認
Jichuan Zeng, Jing Li, Yulan He, Cuiyun Gao, Michael R. Lyu, Irwin King(参考訳) 不確実性に満ちた私たちの世界では、議論と議論が科学と社会の進歩に寄与します。 人間の議論を特徴づける注意が高まっているにもかかわらず、ほとんどの進歩は議論の成果に焦点を合わせ、議論プロセスの動的なパターンを無視した。 本稿では,誰を説得するかを単に予測するだけでなく,議論の説得力の主要な要因を自動的に分析する。 具体的には,議論的会話における潜在話題や談話の変化を動的に追跡し,説得の結果に影響を与える役割を解明できる新しいニューラルモデルを提案する。 ソーシャルメディアと最高裁判所の両方で議論的な会話に関する広範な実験が行われている。 その結果,本モデルは,話題や談話の動的要因を明示的に探究することで説得的引数を識別する上で,最先端モデルよりも優れていることがわかった。 さらに,話題や談話が説得力に与える影響を分析した結果,双方が有用であることが判明した。 さらに、実験結果からいくつかの知見が得られ、将来の説得力のある会話へのより深い関与に役立つだろう。

In our world with full of uncertainty, debates and argumentation contribute to the progress of science and society. Despite of the increasing attention to characterize human arguments, most progress made so far focus on the debate outcome, largely ignoring the dynamic patterns in argumentation processes. This paper presents a study that automatically analyzes the key factors in argument persuasiveness, beyond simply predicting who will persuade whom. Specifically, we propose a novel neural model that is able to dynamically track the changes of latent topics and discourse in argumentative conversations, allowing the investigation of their roles in influencing the outcomes of persuasion. Extensive experiments have been conducted on argumentative conversations on both social media and supreme court. The results show that our model outperforms state-of-the-art models in identifying persuasive arguments via explicitly exploring dynamic factors of topic and discourse. We further analyze the effects of topics and discourse on persuasiveness, and find that they are both useful - topics provide concrete evidence while superior discourse styles may bias participants, especially in social media arguments. In addition, we draw some findings from our empirical results, which will help people better engage in future persuasive conversations.
翻訳日:2023-01-02 08:48:11 公開日:2020-02-10
# 科学論文の要約についての一考察

A Study of Human Summaries of Scientific Articles ( http://arxiv.org/abs/2002.03604v1 )

ライセンス: Link先を確認
Odellia Boni, Guy Feigenblat, Doron Cohen, Haggai Roitman, David Konopnicki(参考訳) 研究者や学生は、新たに出版された論文の爆発に直面している。 これは科学論文の人間の要約を共有する傾向に繋がった。 これらのプラットフォームのひとつで共有されている要約を分析します。 目標は、科学論文の人間の要約を特徴付け、既存の科学論文の領域に既存の自動要約システムの改善と適応のために得られた洞察を利用することである。

Researchers and students face an explosion of newly published papers which may be relevant to their work. This led to a trend of sharing human summaries of scientific papers. We analyze the summaries shared in one of these platforms Shortscience.org. The goal is to characterize human summaries of scientific papers, and use some of the insights obtained to improve and adapt existing automatic summarization systems to the domain of scientific papers.
翻訳日:2023-01-02 08:47:52 公開日:2020-02-10
# 無線分散学習における通信遅延について

On the Communication Latency of Wireless Decentralized Learning ( http://arxiv.org/abs/2002.04069v1 )

ライセンス: Link先を確認
Navid Naderializadeh(参考訳) 我々は,分散学習アルゴリズムを用いて局所データセットを用いてグローバル目的関数を最適化する,半径$r$の円周領域に位置するn$ノードからなる無線ネットワークについて検討する。 ネットワーク全体の勾配交換を可能にするために、各ノードは隣り合うノードの集合とのみ通信し、そのノードは距離$r n^{-\beta}$であり、ここで$\beta\in(0,\frac{1}{2})$である。 ネットワーク情報理論とランダム幾何グラフ理論のツールを用いて、ネットワーク全体のすべてのリンク上の1ラウンドのグラデーションの通信遅延が$\mathcal{O}\left(\frac{n^{2-3\beta}}{\beta\log n}\right)$となり、ノード数と勾配交換閾値距離の両方で(異なる速度で)増加することを示す。

We consider a wireless network comprising $n$ nodes located within a circular area of radius $R$, which are participating in a decentralized learning algorithm to optimize a global objective function using their local datasets. To enable gradient exchanges across the network, we assume each node communicates only with a set of neighboring nodes, which are within a distance $R n^{-\beta}$ of itself, where $\beta\in(0,\frac{1}{2})$. We use tools from network information theory and random geometric graph theory to show that the communication delay for a single round of exchanging gradients on all the links throughout the network scales as $\mathcal{O}\left(\frac{n^{2-3\beta}}{\beta\log n}\right)$, increasing (at different rates) with both the number of nodes and the gradient exchange threshold distance.
翻訳日:2023-01-02 08:39:39 公開日:2020-02-10
# 滑らかな概念ドリフト下における非定常バッチデータによるモデル適応と教師なし学習

Model adaptation and unsupervised learning with non-stationary batch data under smooth concept drift ( http://arxiv.org/abs/2002.04094v1 )

ライセンス: Link先を確認
Subhro Das, Prasanth Lade, Soundar Srinivasan(参考訳) ほとんどの予測モデルは、トレーニングとテストデータは定常プロセスから生成されると仮定している。 しかし、実際にはこの仮定は当てはまらない。 本稿では,データソースの非定常性に起因した漸進的概念ドリフトのシナリオについて考察する。 これまでの研究は、教師付き学習と適応の条件下でこのシナリオを調査してきたが、ラベルがトレーニング中にのみ利用できる場合の、一般的な現実世界のシナリオに対処した例は少ない。 予測モデルの教師なし適応のための新しい反復アルゴリズムを提案する。 本稿では,バッチ適応予測アルゴリズムの性能が,対応する未適応バージョンよりも優れていることを示す。 提案アルゴリズムは,他の技術手法と比較して,実行時間内での類似(あるいはほとんどの場合,より優れた)性能を提供する。 合成データと実データの両方について広範囲な数値評価を行いながら,我々の主張を検証する。

Most predictive models assume that training and test data are generated from a stationary process. However, this assumption does not hold true in practice. In this paper, we consider the scenario of a gradual concept drift due to the underlying non-stationarity of the data source. While previous work has investigated this scenario under a supervised-learning and adaption conditions, few have addressed the common, real-world scenario when labels are only available during training. We propose a novel, iterative algorithm for unsupervised adaptation of predictive models. We show that the performance of our batch adapted prediction algorithm is better than that of its corresponding unadapted version. The proposed algorithm provides similar (or better, in most cases) performance within significantly less run time compared to other state of the art methods. We validate our claims though extensive numerical evaluations on both synthetic and real data.
翻訳日:2023-01-02 08:39:19 公開日:2020-02-10
# 複数のタスクを対象としたニューラルアーキテクチャとヘテロジニアスasic加速器設計の共存

Co-Exploration of Neural Architectures and Heterogeneous ASIC Accelerator Designs Targeting Multiple Tasks ( http://arxiv.org/abs/2002.04116v1 )

ライセンス: Link先を確認
Lei Yang, Zheyu Yan, Meng Li, Hyoukjun Kwon, Liangzhen Lai, Tushar Krishna, Vikas Chandra, Weiwen Jiang, Yiyu Shi(参考訳) Neural Architecture Search(NAS)は、Field Programmable Gate Arrays(FPGA)やGraphic Processing Units(GPU)など、さまざまなAIアクセラレーションプラットフォームにその能力を実証している。 しかし、最も強力なAIアクセラレーションプラットフォームであるにもかかわらず、どのようにNASをアプリケーション特化集積回路(ASIC)と統合するかは未解決の問題である。 主なボトルネックはASICの設計に関連する大きな設計の自由にある。 さらに、複数のDNNが多様なレイヤ操作とサイズで異なるワークロードに対して並列に実行されることを考慮すると、異なるDNNのための異種ASICサブアクセラレータをひとつの設計に統合することは、性能を大幅に向上させると同時に、設計空間をさらに複雑にする可能性がある。 これらの課題に対処するため,本稿では,既存の設計に基づくasicテンプレートセットを構築し,そのユニークなデータフローによって記述し,設計スペースを大幅に削減する。 さらに、テンプレートに基づいて、複数のDNNアーキテクチャとそれに関連する異種ASICアクセラレータ設計を同時に識別し、設計仕様(仕様)を満足でき、精度を最大化できるフレームワークであるNASAICを提案する。 実験の結果、nasおよびasicの設計最適化が設計仕様違反につながるのに対して、nasaicは17.77%、2.49x、および2.32倍のレイテンシ、エネルギー、面積の削減と0.76%の精度損失で設計仕様を満たすことを保証できることがわかった。 著者の知る限りでは、これはニューラルアーキテクチャとASICアクセラレーター設計の共同探索に関する最初の研究である。

Neural Architecture Search (NAS) has demonstrated its power on various AI accelerating platforms such as Field Programmable Gate Arrays (FPGAs) and Graphic Processing Units (GPUs). However, it remains an open problem, how to integrate NAS with Application-Specific Integrated Circuits (ASICs), despite them being the most powerful AI accelerating platforms. The major bottleneck comes from the large design freedom associated with ASIC designs. Moreover, with the consideration that multiple DNNs will run in parallel for different workloads with diverse layer operations and sizes, integrating heterogeneous ASIC sub-accelerators for distinct DNNs in one design can significantly boost performance, and at the same time further complicate the design space. To address these challenges, in this paper we build ASIC template set based on existing successful designs, described by their unique dataflows, so that the design space is significantly reduced. Based on the templates, we further propose a framework, namely NASAIC, which can simultaneously identify multiple DNN architectures and the associated heterogeneous ASIC accelerator design, such that the design specifications (specs) can be satisfied, while the accuracy can be maximized. Experimental results show that compared with successive NAS and ASIC design optimizations which lead to design spec violations, NASAIC can guarantee the results to meet the design specs with 17.77%, 2.49x, and 2.32x reductions on latency, energy, and area and with 0.76% accuracy loss. To the best of the authors' knowledge, this is the first work on neural architecture and ASIC accelerator design co-exploration.
翻訳日:2023-01-02 08:39:08 公開日:2020-02-10
# 車載テレマティクスにおける操作モチーフの発見

Finding manoeuvre motifs in vehicle telematics ( http://arxiv.org/abs/2002.04127v1 )

ライセンス: Link先を確認
Maria In\^es Silva and Roberto Henriques(参考訳) 運転行動は道路安全に大きな影響を与えます。 運転行動を分析する一般的な方法は、運転者の有用な情報を提供するため、焦点を操作者に移すことである。 本稿では,車載テレマティクスデータから,時系列におけるモチーフ検出を通じて,新たな操作を識別する方法を検討する。 我々は,時系列のための古典的可変長モチーフ検出アルゴリズムである拡張モチーフディスカバリ(emd)アルゴリズムの修正版を実装し,公開可能な自然駆動データセットであるuah-drivesetに適用した。 抽出されたモチーフを体系的に探索した結果,emdアルゴリズムは加速度,ブレーキ,曲線などの単純なモチーフを抽出できるだけでなく,レーン変更やモチーフ発見を将来研究の価値のある線として検証するマヌーヴルよりも複雑なモチーフを抽出できることがわかった。

Driving behaviour has a great impact on road safety. A popular way of analysing driving behaviour is to move the focus to the manoeuvres as they give useful information about the driver who is performing them. In this paper, we investigate a new way of identifying manoeuvres from vehicle telematics data, through motif detection in time-series. We implement a modified version of the Extended Motif Discovery (EMD) algorithm, a classical variable-length motif detection algorithm for time-series and we applied it to the UAH-DriveSet, a publicly available naturalistic driving dataset. After a systematic exploration of the extracted motifs, we were able to conclude that the EMD algorithm was not only capable of extracting simple manoeuvres such as accelerations, brakes and curves, but also more complex manoeuvres, such as lane changes and overtaking manoeuvres, which validates motif discovery as a worthwhile line for future research.
翻訳日:2023-01-02 08:38:37 公開日:2020-02-10
# ディープラーニングにおける特徴レベルのマルウェア難読化

Feature-level Malware Obfuscation in Deep Learning ( http://arxiv.org/abs/2002.05517v1 )

ライセンス: Link先を確認
Keith Dillon(参考訳) 我々は,マルウェアを大量の良性コードと組み合わせた深層学習モデルによるマルウェア検出の問題点を考察する。 例えば、ピギーバックやトロイの木馬の攻撃では、悪意のある振る舞いが有用なアプリケーション内に隠されている。 マルウェアを増強する柔軟性が加わったことで、コードの難読度が大幅に向上する。 したがって、静的な機能、特にIntent、Permissions、API呼び出しの使用に重点を置いています。 まず,良性およびマルウェアサンプルの特徴を用いて,マルウェア分類のためのディープニューラルネットワーク分類器を訓練する。 そして、マルウェアに良性アプリの機能をランダムに追加するだけで、偽陰性率(すなわち攻撃が成功する)が急上昇することを示した。 最後に、このような攻撃に対して分類器を強化するためにデータ拡張の使用をテストする。 API呼び出しでは、IntentsやPermissionsの使用があまり成功しない攻撃の大部分を拒否することが可能である。

We consider the problem of detecting malware with deep learning models, where the malware may be combined with significant amounts of benign code. Examples of this include piggybacking and trojan horse attacks on a system, where malicious behavior is hidden within a useful application. Such added flexibility in augmenting the malware enables significantly more code obfuscation. Hence we focus on the use of static features, particularly Intents, Permissions, and API calls, which we presume cannot be ultimately hidden from the Android system, but only augmented with yet more such features. We first train a deep neural network classifier for malware classification using features of benign and malware samples. Then we demonstrate a steep increase in false negative rate (i.e., attacks succeed), simply by randomly adding features of a benign app to malware. Finally we test the use of data augmentation to harden the classifier against such attacks. We find that for API calls, it is possible to reject the vast majority of attacks, where using Intents or Permissions is less successful.
翻訳日:2023-01-02 08:37:41 公開日:2020-02-10
# 加速度的根管MRIにおける教師なし適応型ニューラルネットワークの正規化

Unsupervised Adaptive Neural Network Regularization for Accelerated Radial Cine MRI ( http://arxiv.org/abs/2002.03820v1 )

ライセンス: Link先を確認
Andreas Kofler, Marc Dewey, Tobias Schaeffter, Christoph Kolbitsch and Markus Haltmeier(参考訳) 本研究では,浅部畳み込みニューラルネットワークの非教師なし学習に基づく2次元ラジアルシンMRIのための反復的再構成手法(ALONE - Adaptive Learning of NEtworks)を提案する。 ネットワークは、再構築中の溶液の現在の推定値のパッチを近似するように訓練される。 浅いネットワークトポロジーを付与し、学習したフィルタの$L_2$-normを制約することにより、ネットワークの表現力はノイズを回復できないように制限される。 したがって、ネットワークは、反転過程を安定化するためのパッチの低次元近似を行うように解釈することができる。 提案手法は,提案手法を,よく知られた全変量(TV)最小化法と教師なし適応辞書学習(DIC)法という2つの基礎的真偽のない再構成手法と比較する。 提案手法は, 報告されたすべての定量的測定値に対して, どちらの手法よりも優れる。 さらに、パッチのスパース近似が複雑な最適化問題の解を含むDICとは対照的に、ALONEはすべてのパッチを浅層ネットワークに転送することしか必要とせず、したがって再構築を著しく加速する。

In this work, we propose an iterative reconstruction scheme (ALONE - Adaptive Learning Of NEtworks) for 2D radial cine MRI based on ground truth-free unsupervised learning of shallow convolutional neural networks. The network is trained to approximate patches of the current estimate of the solution during the reconstruction. By imposing a shallow network topology and constraining the $L_2$-norm of the learned filters, the network's representation power is limited in order not to be able to recover noise. Therefore, the network can be interpreted to perform a low dimensional approximation of the patches for stabilizing the inversion process. We compare the proposed reconstruction scheme to two ground truth-free reconstruction methods, namely a well known Total Variation (TV) minimization and an unsupervised adaptive Dictionary Learning (DIC) method. The proposed method outperforms both methods with respect to all reported quantitative measures. Further, in contrast to DIC, where the sparse approximation of the patches involves the solution of a complex optimization problem, ALONE only requires a forward pass of all patches through the shallow network and therefore significantly accelerates the reconstruction.
翻訳日:2023-01-02 08:29:31 公開日:2020-02-10
# otariid pinnipedsにおける獲物の取扱い行動同定のための機械学習手法

Machine learning approaches for identifying prey handling activity in otariid pinnipeds ( http://arxiv.org/abs/2002.03866v1 )

ライセンス: Link先を確認
Rita Pucci and Alessio Micheli and Stefano Chessa and Jane Hunter(参考訳) センサーを搭載したウェアラブルデバイスで開発されたシステムは、データの自動分類の観点から人間や動物の活動のデータ収集に広く利用されている。 これらのシステムの興味深い応用は、センサーのデータ分析によって収集された動物の行動監視をサポートすることである。 これは困難な領域であり、特に固定記憶能力は、デバイスは人間のオペレーターによって回収される前に、長時間自律的に動作でき、オンボードでのアクティビティを分類できることは、彼らの自律性を大幅に改善できるためである。 本稿では,捕食活動が成功していることを示す主な運動の一つであるアザラシ(動物が獲物を付着・噛むとき)における獲物の取扱い活動の同定に着目する。 考慮されたデータは、3d加速度計のストリームとアザラシに直接取り付けられたデバイスによって収集された深度センサー値である。 これらのデータを解析するために,機械学習(ML)アルゴリズムに基づく自動モデルを提案する。 特に,入力遅延ニューラルネットワーク,サポートベクトルマシン,エコー状態ネットワークの3つのMLアルゴリズムの性能(精度とF1スコア)を比較した。 我々は,自動分類器の開発の最終目的に参画する。 そこで本稿では,各mlアプローチで得られた性能とメモリフットプリントの比較を行う。 最後に、野生動物のモニタリングにおける実現可能性の観点から、MLアルゴリズムを使用することの利点を強調した。

Systems developed in wearable devices with sensors onboard are widely used to collect data of humans and animals activities with the perspective of an on-board automatic classification of data. An interesting application of these systems is to support animals' behaviour monitoring gathered by sensors' data analysis. This is a challenging area and in particular with fixed memories capabilities because the devices should be able to operate autonomously for long periods before being retrieved by human operators, and being able to classify activities onboard can significantly improve their autonomy. In this paper, we focus on the identification of prey handling activity in seals (when the animal start attaching and biting the prey), which is one of the main movement that identifies a successful foraging activity. Data taken into consideration are streams of 3D accelerometers and depth sensors values collected by devices attached directly on seals. To analyse these data, we propose an automatic model based on Machine Learning (ML) algorithms. In particular, we compare the performance (in terms of accuracy and F1score) of three ML algorithms: Input Delay Neural Networks, Support Vector Machines, and Echo State Networks. We attend to the final aim of developing an automatic classifier on-board. For this purpose, in this paper, the comparison is performed concerning the performance obtained by each ML approach developed and its memory footprint. In the end, we highlight the advantage of using an ML algorithm, in terms of feasibility in wild animals' monitoring.
翻訳日:2023-01-02 08:28:52 公開日:2020-02-10
# youtubeソーシャルネットワークにおける新しい機械学習アルゴリズムによる集中性とクランクの検出

Novel Machine Learning Algorithms for Centrality and Cliques Detection in Youtube Social Networks ( http://arxiv.org/abs/2002.03893v1 )

ライセンス: Link先を確認
Craigory Coppola, Heba Elgazzar(参考訳) この研究プロジェクトの目標は、機械学習技術を用いてソーシャルネットワークのダイナミクスを分析し、最大のクライクを見つけ、ターゲット層を特定するためにクラスタを見つけることである。 このプロジェクトでは、YouTubeからのデータセットを分析し、ソーシャルネットワーク内のコミュニティを発見し、中央ノードを見つけるために、教師なしの機械学習技術が設計され実装されている。 異なるクラスタリングアルゴリズムが実装され、YouTubeデータセットに適用される。 有名なbron-kerboschアルゴリズムは、この研究で最大クランクを見つけるために効果的に使われている。 この研究から得られた結果は、広告目的やスマートレコメンデーションシステムの構築に利用することができる。 アルゴリズムはすべてpythonで実装された。 実験の結果,クライク集中度と次数集中度により,中央ノードの探索に成功していることがわかった。 この研究は斜め検出アルゴリズムを利用して、機械学習アルゴリズムがより大きなネットワーク内のクローズドニットグループを検出する方法を示した。

The goal of this research project is to analyze the dynamics of social networks using machine learning techniques to locate maximal cliques and to find clusters for the purpose of identifying a target demographic. Unsupervised machine learning techniques are designed and implemented in this project to analyze a dataset from YouTube to discover communities in the social network and find central nodes. Different clustering algorithms are implemented and applied to the YouTube dataset. The well-known Bron-Kerbosch algorithm is used effectively in this research to find maximal cliques. The results obtained from this research could be used for advertising purposes and for building smart recommendation systems. All algorithms were implemented using Python programming language. The experimental results show that we were able to successfully find central nodes through clique-centrality and degree centrality. By utilizing clique detection algorithms, the research shown how machine learning algorithms can detect close knit groups within a larger network.
翻訳日:2023-01-02 08:28:03 公開日:2020-02-10
# 関数空間における局所性に敏感なハッシュ

Locality-sensitive hashing in function spaces ( http://arxiv.org/abs/2002.03909v1 )

ライセンス: Link先を確認
Will Shand and Stephen Becker(参考訳) 本稿では,関数空間上で類似性探索を行う問題について論じる。 このような空間を妥当な時間で探索するために、我々は {\displaystyle {\it locality-sensitive hashing} (lsh) を用いる。 本論文では,$\mathbb{r}^n$ 上の lsh 関数を $l^p$ 空間に拡張する2つの方法を提案する。 1次元連続確率分布上のwasserstein距離のためのlshファミリを構成するために,提案ハッシュスキームを用いる。

We discuss the problem of performing similarity search over function spaces. To perform search over such spaces in a reasonable amount of time, we use {\it locality-sensitive hashing} (LSH). We present two methods that allow LSH functions on $\mathbb{R}^N$ to be extended to $L^p$ spaces: one using function approximation in an orthonormal basis, and another using (quasi-)Monte Carlo-style techniques. We use the presented hashing schemes to construct an LSH family for Wasserstein distance over one-dimensional, continuous probability distributions.
翻訳日:2023-01-02 08:27:49 公開日:2020-02-10
# 移動ロボットナビゲーションのための逆整形について:強化学習とSLAMに基づくアプローチ

On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning and SLAM Based Approach ( http://arxiv.org/abs/2002.04109v1 )

ライセンス: Link先を確認
Nicol\`o Botteghi, Beril Sirmacek, Khaled A. A. Mustafa, Mannes Poel and Stefano Stramigioli(参考訳) 本稿では,40次元生レーザーデータとオドメトリ情報のみに依存する未知環境における移動ロボットの深層強化学習(drl)に基づくマップレス経路計画アルゴリズムを提案する。 このプランナーは、グリッドベースのrao黒化粒子フィルタを用いて得られた訓練環境の地図のオンライン知識に基づいて形成された報酬関数を用いて訓練され、エージェントの障害物認識を高める。 エージェントは複雑なシミュレーション環境で訓練され、2つの目に見えない環境で評価される。 導入した報酬関数を用いて訓練した政策は, 収束速度, 繰り返しステップの36.9倍の削減, 衝突サンプルの削減などにより, 標準報酬関数より優れるだけでなく, より単純な作業空間において, エージェントの挙動を23倍, よりクラスタ化された環境では45倍に大きく改善することを示した。 さらに、シミュレーション環境で訓練されたポリシーを実際のロボットに直接、かつうまく転送することができる。 実験のビデオは、https://youtu.be/UEV7W6e6ZqIで見ることができる。

We present a map-less path planning algorithm based on Deep Reinforcement Learning (DRL) for mobile robots navigating in unknown environment that only relies on 40-dimensional raw laser data and odometry information. The planner is trained using a reward function shaped based on the online knowledge of the map of the training environment, obtained using grid-based Rao-Blackwellized particle filter, in an attempt to enhance the obstacle awareness of the agent. The agent is trained in a complex simulated environment and evaluated in two unseen ones. We show that the policy trained using the introduced reward function not only outperforms standard reward functions in terms of convergence speed, by a reduction of 36.9\% of the iteration steps, and reduction of the collision samples, but it also drastically improves the behaviour of the agent in unseen environments, respectively by 23\% in a simpler workspace and by 45\% in a more clustered one. Furthermore, the policy trained in the simulation environment can be directly and successfully transferred to the real robot. A video of our experiments can be found at: https://youtu.be/UEV7W6e6ZqI
翻訳日:2023-01-02 08:20:31 公開日:2020-02-10
# 半簡易バックプロパゲーション

Semi-Implicit Back Propagation ( http://arxiv.org/abs/2002.03516v1 )

ライセンス: Link先を確認
Ren Liu, Xiaoqun Zhang(参考訳) ニューラルネットワークは長い間大きな注目を集めており、多くの研究者がニューラルネットワークトレーニングアルゴリズムの有効性向上に力を入れている。 確率勾配降下法(SGD)や他の明示的な勾配に基づく手法は広く採用されているが、勾配の消滅や小さなステップサイズなど多くの課題があるため、SGDアルゴリズムの収束と不安定性が遅くなる。 誤差バック伝播(bp)と近位法に動機づけられ,ニューラルネットワークトレーニングのための半簡易バック伝播法を提案する。 BPと同様に、ニューロンの差は後方方向に伝播し、パラメータは近位マッピングで更新される。 隠れたニューロンとパラメータの両方に対する暗黙の更新により、トレーニングアルゴリズムで大きなステップサイズを選択できる。 最後に、このアルゴリズムによって生成される収束列の固定点は、目的損失関数の定常点であることを示す。 MNIST と CIFAR-10 の両実験により,提案した半単純BP アルゴリズムは,SGD と類似のアルゴリズムである ProxBP と比較して,損失減少とトレーニング/バリデーションの精度の両方において性能が向上することを示した。

Neural network has attracted great attention for a long time and many researchers are devoted to improve the effectiveness of neural network training algorithms. Though stochastic gradient descent (SGD) and other explicit gradient-based methods are widely adopted, there are still many challenges such as gradient vanishing and small step sizes, which leads to slow convergence and instability of SGD algorithms. Motivated by error back propagation (BP) and proximal methods, we propose a semi-implicit back propagation method for neural network training. Similar to BP, the difference on the neurons are propagated in a backward fashion and the parameters are updated with proximal mapping. The implicit update for both hidden neurons and parameters allows to choose large step size in the training algorithm. Finally, we also show that any fixed point of convergent sequences produced by this algorithm is a stationary point of the objective loss function. The experiments on both MNIST and CIFAR-10 demonstrate that the proposed semi-implicit BP algorithm leads to better performance in terms of both loss decreasing and training/validation accuracy, compared to SGD and a similar algorithm ProxBP.
翻訳日:2023-01-02 08:19:54 公開日:2020-02-10
# プロパティ仕様言語における解釈可能なモデル学習

Learning Interpretable Models in the Property Specification Language ( http://arxiv.org/abs/2002.03668v1 )

ライセンス: Link先を確認
Rajarshi Roy, Dana Fisman and Daniel Neider(参考訳) 本稿では,複雑なシステムの人間解釈可能な記述を,その振る舞いの有限個の正・負の例から学ぶ問題に対処する。 線形時相論理(ltl)で表現される記述に焦点を当てたこの分野の最近の研究の多くとは対照的に、ieee標準時相論理psl (property specification language) における公式の学習アルゴリズムを開発した。 我々の研究の動機は、例えば n 番目の点ごとに発生する事象のような多くの自然特性が LTL では表現できないのに対して、PSL ではそのような性質は容易に表現できるという事実にある。 さらに、psl の式は ltl の式よりも簡潔で容易に解釈できる(psl の式で正規表現を使用することにより)。 我々の学習アルゴリズムはLTL公式を学習するための既存のアルゴリズムの上に構築されている。 大まかに言えば、我々のアルゴリズムは学習課題を命題論理の制約満足度問題に還元し、SATソルバを用いて漸進的に解を求める。 本アルゴリズムを実装し,提案手法と既存のltl学習アルゴリズムとの比較検討を行った。 提案手法の有効性を考察し, 実例による簡潔な人間解釈記述を提案する。

We address the problem of learning human-interpretable descriptions of a complex system from a finite set of positive and negative examples of its behavior. In contrast to most of the recent work in this area, which focuses on descriptions expressed in Linear Temporal Logic (LTL), we develop a learning algorithm for formulas in the IEEE standard temporal logic PSL (Property Specification Language). Our work is motivated by the fact that many natural properties, such as an event happening at every n-th point in time, cannot be expressed in LTL, whereas it is easy to express such properties in PSL. Moreover, formulas in PSL can be more succinct and easier to interpret (due to the use of regular expressions in PSL formulas) than formulas in LTL. Our learning algorithm builds on top of an existing algorithm for learning LTL formulas. Roughly speaking, our algorithm reduces the learning task to a constraint satisfaction problem in propositional logic and then uses a SAT solver to search for a solution in an incremental fashion. We have implemented our algorithm and performed a comparative study between the proposed method and the existing LTL learning algorithm. Our results illustrate the effectiveness of the proposed approach to provide succinct human-interpretable descriptions from examples.
翻訳日:2023-01-02 08:16:56 公開日:2020-02-10
# ソーシャルリコメンデータシステムのためのネットワークベースモデル

Network-based models for social recommender systems ( http://arxiv.org/abs/2002.03700v1 )

ライセンス: Link先を確認
Antonia Godoy-Lorite, Roger Guimera and Marta Sales-Pardo(参考訳) 近年、オンライン製品が圧倒的に普及している中、関連するパーソナライズされたアドバイスをユーザーに届ける必要性が高まっている。 レコメンダシステムは、映画、書籍、研究論文など、さまざまな項目に対する個人の好みをモデル化し、予測することで、この問題を解決する。 本章では,提案手法に勝る厳密なネットワークモデルについて検討する。 私たちが考慮するネットワークモデルは、個人とアイテムの集団が存在するという明確な仮定に基づいており、アイテムに対する個人の好みはグループメンバーシップによってのみ決定される。 アイテムに対する個々のユーザー好みの正確な予測は、モンテカルロサンプリングや期待最大化法といった異なる手法によって達成され、後者は大規模データセットに適したスケーラブルなアルゴリズムとなる。

With the overwhelming online products available in recent years, there is an increasing need to filter and deliver relevant personalized advice for users. Recommender systems solve this problem by modeling and predicting individual preferences for a great variety of items such as movies, books or research articles. In this chapter, we explore rigorous network-based models that outperform leading approaches for recommendation. The network models we consider are based on the explicit assumption that there are groups of individuals and of items, and that the preferences of an individual for an item are determined only by their group memberships. The accurate prediction of individual user preferences over items can be accomplished by different methodologies, such as Monte Carlo sampling or Expectation-Maximization methods, the latter resulting in a scalable algorithm which is suitable for large datasets.
翻訳日:2023-01-02 08:16:39 公開日:2020-02-10
# 逆平衡表現による時間的対実的処理結果の推定

Estimating Counterfactual Treatment Outcomes over Time Through Adversarially Balanced Representations ( http://arxiv.org/abs/2002.04083v1 )

ライセンス: Link先を確認
Ioana Bica, Ahmed M. Alaa, James Jordon, Mihaela van der Schaar(参考訳) 患者にいつ治療を施すか、どのように複数の治療法を選択するかを特定することは、いくつかの既存のソリューションで重要な医療問題である。 本稿では,患者観察データを活用し,治療効果を経時的に推定し,そのような問いに答える新しいシーケンス・ツー・シーケンスモデルであるreturnfactual recurrent network (crn)を提案する。 観察データにおける治療割当方針に影響を与えるコバリアリートである時変共同設立者のバイアスに対処するために、crnは患者履歴のバランスをとるためにドメイン敵訓練を使用する。 それぞれの時間ステップにおいて、crnは患者の履歴と治療課題との関係を取り除き、偽りの予測に確実に使用できる治療不変表現を構築する。 腫瘍増殖のシミュレーションモデルにおいて, 時間依存的コンファウンディングの程度が異なっており, 本モデルが偽物推定における誤差を低くし, 治療タイミングや治療方法の選択を現在の方法よりも容易に行えることを示す。

Identifying when to give treatments to patients and how to select among multiple treatments over time are important medical problems with a few existing solutions. In this paper, we introduce the Counterfactual Recurrent Network (CRN), a novel sequence-to-sequence model that leverages the increasingly available patient observational data to estimate treatment effects over time and answer such medical questions. To handle the bias from time-varying confounders, covariates affecting the treatment assignment policy in the observational data, CRN uses domain adversarial training to build balancing representations of the patient history. At each timestep, CRN constructs a treatment invariant representation which removes the association between patient history and treatment assignments and thus can be reliably used for making counterfactual predictions. On a simulated model of tumour growth, with varying degree of time-dependent confounding, we show how our model achieves lower error in estimating counterfactuals and in choosing the correct treatment and timing of treatment than current state-of-the-art methods.
翻訳日:2023-01-02 08:10:40 公開日:2020-02-10
# 高速オンデバイスアプリケーションのための低メモリPairwise Neural Networks (PairNets)

Pairwise Neural Networks (PairNets) with Low Memory for Fast On-Device Applications ( http://arxiv.org/abs/2002.04458v1 )

ライセンス: Link先を確認
Luna M. Zhang(参考訳) 従来の人工ニューラルネットワーク(ANN)は通常、バックプロパゲーションアルゴリズムのような勾配降下アルゴリズムによってゆっくりと訓練される。 畳み込みニューラルネットワークのようなディープニューラルネットワークの多数のハイパーパラメータが多くのメモリを占めるため、メモリ非効率なディープラーニングモデルは、携帯電話などのさまざまなデバイス上のリアルタイムモノのインターネット(IoT)アプリケーションには理想的ではない。 したがって、リアルタイムオンデバイスアプリケーションのための高速でメモリ効率のよい人工知能(AIoT)システムを開発する必要がある。 Pairwise Neural Network"(PairNet)と呼ばれる,高速な非漸進型ハイパーパラメータ最適化を備えた,幅広で浅い4層ANNを作成した。 ペアネットは、多変量最小二乗法を用いて線形方程式の系を単純に解くことによって、ハイパーパラメータが直接最適化されるため、わずか1エポックですばやく訓練される。 さらに、n-入力空間を多くのn-入力データ部分空間に分割し、局所的なPairNetをn-入力部分空間に構築する。 この分断型アプローチは、特定のローカル機能を使用してローカルPairNetをトレーニングし、モデルパフォーマンスを改善する。 シミュレーションの結果,逐次学習を持つ3つのPairNetは平均2乗誤差が小さく,従来のANNよりもはるかに高速であることが示唆された。 将来の重要な課題は、より効率的で高速でメモリ効率のよいPairNetを生成するために、より高速な非階調ハイパーパラメータ最適化アルゴリズムを開発することである。

A traditional artificial neural network (ANN) is normally trained slowly by a gradient descent algorithm, such as the backpropagation algorithm, since a large number of hyperparameters of the ANN need to be fine-tuned with many training epochs. Since a large number of hyperparameters of a deep neural network, such as a convolutional neural network, occupy much memory, a memory-inefficient deep learning model is not ideal for real-time Internet of Things (IoT) applications on various devices, such as mobile phones. Thus, it is necessary to develop fast and memory-efficient Artificial Intelligence of Things (AIoT) systems for real-time on-device applications. We created a novel wide and shallow 4-layer ANN called "Pairwise Neural Network" ("PairNet") with high-speed non-gradient-descent hyperparameter optimization. The PairNet is trained quickly with only one epoch since its hyperparameters are directly optimized one-time via simply solving a system of linear equations by using the multivariate least squares fitting method. In addition, an n-input space is partitioned into many n-input data subspaces, and a local PairNet is built in a local n-input subspace. This divide-and-conquer approach can train the local PairNet using specific local features to improve model performance. Simulation results indicate that the three PairNets with incremental learning have smaller average prediction mean squared errors, and achieve much higher speeds than traditional ANNs. An important future work is to develop better and faster non-gradient-descent hyperparameter optimization algorithms to generate effective, fast, and memory-efficient PairNets with incremental learning on optimal subspaces for real-time AIoT on-device applications.
翻訳日:2023-01-02 08:09:51 公開日:2020-02-10
# airbnb検索のディープラーニングの改善

Improving Deep Learning For Airbnb Search ( http://arxiv.org/abs/2002.05515v1 )

ライセンス: Link先を確認
Malay Haldar, Mustafa Abdool, Prashant Ramanathan, Tyler Sax, Lanbo Zhang, Aamir Mansawala, Shulin Yang, Bradley Turnbull, Junshuo Liao(参考訳) ディープラーニングの検索ランク付けへの応用は、Airbnbで最も影響力のあるプロダクト改善のひとつだ。 しかし、ディープラーニングモデルを立ち上げるとどうなるのか? 本稿では,検索改善のabcs,アーキテクチャのa,バイアスのb,コールドスタートのcについて論じた。 アーキテクチャでは、完全に接続された2層ネットワークを超えて、既存のDNNを進化させるプロセスに焦点を当てた、新たなランキングニューラルネットワークについて説明する。 ランキングにおける位置バイアスの扱いについて,dnnが歴史的に困難と感じた在庫の扱いにおいて,最も重要な改善の1つを導いた新しいアプローチについて述べる。 コールドスタートを解決するために、プラットフォーム上での新しいリスティングの扱いを改善するために行った問題と変更について、我々の視点を述べる。 私たちは、ディープラーニングに移行するチームが、DNNの反復方法の実践的なケーススタディを見つけることを望んでいます。

The application of deep learning to search ranking was one of the most impactful product improvements at Airbnb. But what comes next after you launch a deep learning model? In this paper we describe the journey beyond, discussing what we refer to as the ABCs of improving search: A for architecture, B for bias and C for cold start. For architecture, we describe a new ranking neural network, focusing on the process that evolved our existing DNN beyond a fully connected two layer network. On handling positional bias in ranking, we describe a novel approach that led to one of the most significant improvements in tackling inventory that the DNN historically found challenging. To solve cold start, we describe our perspective on the problem and changes we made to improve the treatment of new listings on the platform. We hope ranking teams transitioning to deep learning will find this a practical case study of how to iterate on DNNs.
翻訳日:2023-01-02 08:09:21 公開日:2020-02-10
# 画像分割のための空間正規化・体積・星形優先型深部畳み込みニューラルネットワーク

Deep Convolutional Neural Networks with Spatial Regularization, Volume and Star-shape Priori for Image Segmentation ( http://arxiv.org/abs/2002.03989v1 )

ライセンス: Link先を確認
Jun Liu, Xiangyue Wang, Xue-cheng Tai(参考訳) 画像分割問題にはディープ畳み込みニューラルネットワーク(DCNN)を用いる。 DCNNは自然画像から特徴を抽出できる。 しかし、既存のCNNのネットワークアーキテクチャにおける分類関数は単純であり、多くのよく知られた変分モデルのために行われた方法で重要な空間情報を扱う能力に欠ける。 従来のDCNNでは、空間的正則性、容積前、物体形状などがうまく扱えない。 本稿では,従来の変分モデルの多くの空間的前処理を画像分割のためのdcnnに容易に統合できる新しいソフトしきい値ダイナミクス(std)フレームワークを提案する。 この手法の目新しさは, 変動問題においてソフトマックス活性化関数を双対変数として解釈することであり, 双対空間に多くの空間前駆を課すことができる。 この観点から、DCNNの出力が空間的規則性、容積制約、星形優先といった多くの特別な先行性を持つことができるSTDベースのフレームワークを構築することができる。 提案手法は一般的な数学的枠組みであり,任意の意味セグメンテーションdcnnに適用可能である。 本手法の効率と精度を示すために,一般的なdeeplabv3+画像分割ネットワークに適用し,本手法がデータ駆動画像セグメンテーションdcnn上で効率的に動作することを示す。

We use Deep Convolutional Neural Networks (DCNNs) for image segmentation problems. DCNNs can well extract the features from natural images. However, the classification functions in the existing network architecture of CNNs are simple and lack capabilities to handle important spatial information in a way that have been done for many well-known traditional variational models. Prior such as spatial regularity, volume prior and object shapes cannot be well handled by existing DCNNs. We propose a novel Soft Threshold Dynamics (STD) framework which can easily integrate many spatial priors of the classical variational models into the DCNNs for image segmentation. The novelty of our method is to interpret the softmax activation function as a dual variable in a variational problem, and thus many spatial priors can be imposed in the dual space. From this viewpoint, we can build a STD based framework which can enable the outputs of DCNNs to have many special priors such as spatial regularity, volume constraints and star-shape priori. The proposed method is a general mathematical framework and it can be applied to any semantic segmentation DCNNs. To show the efficiency and accuracy of our method, we applied it to the popular DeepLabV3+ image segmentation network, and the experiments results show that our method can work efficiently on data-driven image segmentation DCNNs.
翻訳日:2023-01-02 08:08:39 公開日:2020-02-10
# antコロニー最適化アルゴリズムの動的影響

Dynamic Impact for Ant Colony Optimization algorithm ( http://arxiv.org/abs/2002.04099v1 )

ライセンス: Link先を確認
Jonas Skackauskas, Tatiana Kalganova, Ian Dear, Mani Janakram(参考訳) 本稿では,antコロニー最適化(aco)アルゴリズムであるdynamic impactの拡張手法を提案する。 dynamic impactは、最適化されたソリューションの他の部分とリソース消費と適合性の非線形関係を持つ最適化問題を解くために設計されている。 提案手法は, 複雑な実世界のマイクロチップ製造プラント生産床最適化(mmppfo)問題や, 理論ベンチマーク多次元ナップサック問題(mkp)に対して有効である。 MMPPFOは、個々のウェハロットを優先順位付けすることなく、ウェハロットの集合に解の適合値が依存するため、非自明な最適化問題である。 単目的最適化におけるダイナミックインパクトの使用は33.2%改善されている。 さらに、少量のmkpベンチマークインスタンスは、高いソリューションスパースが観察される100%の成功率まで解決され、大規模なインスタンスでは平均ギャップが4.26倍向上している。 アルゴリズムの実装は、小さくて大きなデータセットとスパース最適化の問題で優れた性能を示した。

This paper proposes an extension method for Ant Colony Optimization (ACO) algorithm called Dynamic Impact. Dynamic Impact is designed to solve challenging optimization problems that has nonlinear relationship between resource consumption and fitness in relation to other part of the optimized solution. This proposed method is tested against complex real-world Microchip Manufacturing Plant Production Floor Optimization (MMPPFO) problem, as well as theoretical benchmark Multi-Dimensional Knapsack problem (MKP). MMPPFO is a non-trivial optimization problem, due the nature of solution fitness value dependence on collection of wafer-lots without prioritization of any individual wafer-lot. Using Dynamic Impact on single objective optimization fitness value is improved by 33.2%. Furthermore, MKP benchmark instances of small complexity have been solved to 100% success rate where high degree of solution sparseness is observed, and large instances have showed average gap improved by 4.26 times. Algorithm implementation demonstrated superior performance across small and large datasets and sparse optimization problems.
翻訳日:2023-01-02 08:07:41 公開日:2020-02-10
# 学習改善のための遊び方:複数分類器による逆学習のための繰り返しゲーム

Playing to Learn Better: Repeated Games for Adversarial Learning with Multiple Classifiers ( http://arxiv.org/abs/2002.03924v1 )

ライセンス: Link先を確認
Prithviraj Dasgupta, Joseph B. Collins, Michael McCarrick(参考訳) 逆学習環境において,学習者と呼ばれる機械学習アルゴリズムによる予測の問題を考える。 学習者のタスクは、クエリとして渡されるデータのクラスを正確に予測することである。 しかし、クリーンなデータを含むクエリとともに、学習者は敵から悪意のあるあるいは敵対的なクエリを受け取ることもできる。 本研究の目的は,学習者による誤ったクラス予測の結果となる逆クエリを送信することにより,学習者の予測メカニズムを回避することであり,学習者の目的は,クリーンなクエリの予測品質を低下させることなく,これらの逆クエリの誤予測を低減することである。 本稿では,学習者が自己プレイを用いて敵のモデルと繰り返し対話し,敵とクリーンなクエリの分布を決定する,反復ベイズシーケンスゲーム(Repeated Bayesian Sequential Game)と呼ばれるゲーム理論に基づく手法を提案する。 そして、クエリの正しい予測可能性のバランスをとる一連の事前学習された分類器から分類器を戦略的に選択し、分類器を使用するコストを削減します。 提案手法は,深層ニューラルネットワークに基づく分類器を用いたクリーンで逆行性のあるテキストデータを用いて評価し,学習者は分類器の使用コストを意識しながら,クエリタイプ(クリーンあるいは逆行)と共用する適切な分類器を選択できることを示した。

We consider the problem of prediction by a machine learning algorithm, called learner, within an adversarial learning setting. The learner's task is to correctly predict the class of data passed to it as a query. However, along with queries containing clean data, the learner could also receive malicious or adversarial queries from an adversary. The objective of the adversary is to evade the learner's prediction mechanism by sending adversarial queries that result in erroneous class prediction by the learner, while the learner's objective is to reduce the incorrect prediction of these adversarial queries without degrading the prediction quality of clean queries. We propose a game theory-based technique called a Repeated Bayesian Sequential Game where the learner interacts repeatedly with a model of the adversary using self play to determine the distribution of adversarial versus clean queries. It then strategically selects a classifier from a set of pre-trained classifiers that balances the likelihood of correct prediction for the query along with reducing the costs to use the classifier. We have evaluated our proposed technique using clean and adversarial text data with deep neural network-based classifiers and shown that the learner can select an appropriate classifier that is commensurate with the query type (clean or adversarial) while remaining aware of the cost to use the classifier.
翻訳日:2023-01-02 08:01:13 公開日:2020-02-10
# Varying Normsによる適応型オンライン学習

Adaptive Online Learning with Varying Norms ( http://arxiv.org/abs/2002.03963v1 )

ライセンス: Link先を確認
Ashok Cutkosky(参考訳) R_T(u)=\sum_{t=1}^T \ell_t(w_t)-\ell_t(u)\le \tilde O\left(\|u\|_{T-1}\sqrt {\sum_{t=1}^T \|g_t\|_{t-1,\star}^2right) ここで、$g$は$R_t(u)=\sum_{t=1}^T \ell_t(w_t)-\ell_t(u)\le \tilde O\left(\|u\|_{T-1}\sqrt {\sum_{t=1}^T \|g_t\|_{t-1,\star}^2right)である。 このメソッドは$u$の値のチューニングを必要とせず、任意の凸$w$を許容する。 この結果を用いて新しい「完全行列」型後悔境界を得る。 その過程で,AdaGradアルゴリズムの完全行列を新たに検討し,事前解析によりより優れた学習率値が得られたことを示唆する。 新しい手法を使ってAdaGradをオンザフライでチューニングし、具体的なアルゴリズムで改善したバウンドを実現する。

Given any increasing sequence of norms $\|\cdot\|_0,\dots,\|\cdot\|_{T-1}$, we provide an online convex optimization algorithm that outputs points $w_t$ in some domain $W$ in response to convex losses $\ell_t:W\to \mathbb{R}$ that guarantees regret $R_T(u)=\sum_{t=1}^T \ell_t(w_t)-\ell_t(u)\le \tilde O\left(\|u\|_{T-1}\sqrt{\sum_{t=1}^T \|g_t\|_{t-1,\star}^2}\right)$ where $g_t$ is a subgradient of $\ell_t$ at $w_t$. Our method does not require tuning to the value of $u$ and allows for arbitrary convex $W$. We apply this result to obtain new "full-matrix"-style regret bounds. Along the way, we provide a new examination of the full-matrix AdaGrad algorithm, suggesting a better learning rate value that improves significantly upon prior analysis. We use our new techniques to tune AdaGrad on-the-fly, realizing our improved bound in a concrete algorithm.
翻訳日:2023-01-02 08:00:18 公開日:2020-02-10
# 階層型ガウス過程によるベイズ型ニューラルネットワークの重み付け

Hierarchical Gaussian Process Priors for Bayesian Neural Network Weights ( http://arxiv.org/abs/2002.04033v1 )

ライセンス: Link先を確認
Theofanis Karaletsos, Thang D. Bui(参考訳) 確率的ニューラルネットワークは通常、独立重み付きでモデル化され、これは事前の重み相関を捉えず、関数空間における特性を表現するための相似インターフェースを提供しない。 望ましい事前のクラスは、重みをコンパクトに表現し、重み間の相関を捉え、不確実性に関する校正的推論を促進し、周期性や入力などの文脈への依存といった関数空間に関する事前知識を含ませることである。 この目的のために,本稿では2つのイノベーションを紹介する。 i) 関係重み構造を柔軟に符号化可能な単位埋め込みに基づくガウス過程に基づくネットワーク重みの階層モデル (II)これらの重み付けの入力依存バージョンは、文脈入力で定義されたカーネルを用いて関数空間を規則化する便利な方法を提供する。 これらのモデルは,分布外データに対して望ましいテスト時間不確実性推定を提供し,トレーニングデータからの補間と補間の両方に役立つカーネルによるニューラルネットワークの帰納バイアスをモデル化し,アクティブな学習ベンチマークで競合予測性能を示す。

Probabilistic neural networks are typically modeled with independent weight priors, which do not capture weight correlations in the prior and do not provide a parsimonious interface to express properties in function space. A desirable class of priors would represent weights compactly, capture correlations between weights, facilitate calibrated reasoning about uncertainty, and allow inclusion of prior knowledge about the function space such as periodicity or dependence on contexts such as inputs. To this end, this paper introduces two innovations: (i) a Gaussian process-based hierarchical model for network weights based on unit embeddings that can flexibly encode correlated weight structures, and (ii) input-dependent versions of these weight priors that can provide convenient ways to regularize the function space through the use of kernels defined on contextual inputs. We show these models provide desirable test-time uncertainty estimates on out-of-distribution data, demonstrate cases of modeling inductive biases for neural networks with kernels which help both interpolation and extrapolation from training data, and demonstrate competitive predictive performance on an active learning benchmark.
翻訳日:2023-01-02 07:58:53 公開日:2020-02-10
# 最小として定義される関数の自動微分の超効率

Super-efficiency of automatic differentiation for functions defined as a minimum ( http://arxiv.org/abs/2002.03722v1 )

ライセンス: Link先を確認
Pierre Ablin, Gabriel Peyr\'e and Thomas Moreau(参考訳) min-min最適化やmax-min最適化では、最小として定義される関数の勾配を計算する必要がある。 ほとんどの場合、最小値は閉形式を持たず、近似は反復アルゴリズムによって得られる。 関数の勾配を推定する通常の方法は2つあり、近似の正確さを仮定した解析式とアルゴリズムによる自動微分のいずれかを用いる。 本稿では,これらの推定器による漸近誤差を最適化誤差の関数として検討する。 その結果, 自動推定器の誤差は, 超効率現象を反映した解析推定器の誤差の2乗に近いことがわかった。 自動推定器の収束はアルゴリズムのヤコビアンの収束に大きく依存する。 本研究は, 勾配降下および確率勾配降下について解析し, 推定器の収束率を導出する。 本解析は玩具問題およびwasserstein barycenter計算に関する数値実験によって裏付けられている。 最後に,これらの推定器の計算複雑性を議論し,それらの間に選択する実践的指針を与える。

In min-min optimization or max-min optimization, one has to compute the gradient of a function defined as a minimum. In most cases, the minimum has no closed-form, and an approximation is obtained via an iterative algorithm. There are two usual ways of estimating the gradient of the function: using either an analytic formula obtained by assuming exactness of the approximation, or automatic differentiation through the algorithm. In this paper, we study the asymptotic error made by these estimators as a function of the optimization error. We find that the error of the automatic estimator is close to the square of the error of the analytic estimator, reflecting a super-efficiency phenomenon. The convergence of the automatic estimator greatly depends on the convergence of the Jacobian of the algorithm. We analyze it for gradient descent and stochastic gradient descent and derive convergence rates for the estimators in these cases. Our analysis is backed by numerical experiments on toy problems and on Wasserstein barycenter computation. Finally, we discuss the computational complexity of these estimators and give practical guidelines to chose between them.
翻訳日:2023-01-02 07:51:12 公開日:2020-02-10
# 単射信号-記号変換のクロスモーダル変分推論

Cross-modal variational inference for bijective signal-symbol translation ( http://arxiv.org/abs/2002.03862v1 )

ライセンス: Link先を確認
Axel Chemla--Romeu-Santos, Stavros Ntalampiras, Philippe Esling, Goffredo Haus, G\'erard Assayag(参考訳) 信号からの記号情報の抽出は、特に音楽情報検索領域における多くの応用を可能にする研究の活発な分野である。 この複雑なタスクはピッチ抽出や楽器認識といった他のトピックとも関係しており、多くのアプローチを生み出し、主に高度な信号処理に基づくアルゴリズムに基づいている。 しかし、これらの技法はしばしば非ジェネリックであり、信号(ピッチ、オクターブ)の特定の物理的性質を抽出することができるが、任意の語彙やより一般的な注釈を許さない。 その上、これらの技術は一方通行であり、音声信号からシンボルデータを抽出できるが、逆処理を行わず、記号-信号生成を行うことはできない。 本稿では,この問題を,関連する確率変数として考慮した,信号領域と記号領域上の密度推定タスクに変換することにより,信号/記号変換の単射的手法を提案する。 2つの異なる変分オートエンコーダでこのジョイント分布を推定し,その内的表現を加法制約と一致させることで,モデル間の学習と生成を分離し,信号対記号推論と記号対符号推論を可能にした。 本稿では,音符,オクターブ,ダイナミクスの記号を用いたモデル実験を行い,音楽の書き起こしとラベル制約による音声生成の基本的なステップを構成する。 その汎用性に加えて、このシステムはトレーニングと生成の間は比較的軽く、記事の最後に概説するいくつかの興味深い創造的利用を可能にします。

Extraction of symbolic information from signals is an active field of research enabling numerous applications especially in the Musical Information Retrieval domain. This complex task, that is also related to other topics such as pitch extraction or instrument recognition, is a demanding subject that gave birth to numerous approaches, mostly based on advanced signal processing-based algorithms. However, these techniques are often non-generic, allowing the extraction of definite physical properties of the signal (pitch, octave), but not allowing arbitrary vocabularies or more general annotations. On top of that, these techniques are one-sided, meaning that they can extract symbolic data from an audio signal, but cannot perform the reverse process and make symbol-to-signal generation. In this paper, we propose an bijective approach for signal/symbol translation by turning this problem into a density estimation task over signal and symbolic domains, considered both as related random variables. We estimate this joint distribution with two different variational auto-encoders, one for each domain, whose inner representations are forced to match with an additive constraint, allowing both models to learn and generate separately while allowing signal-to-symbol and symbol-to-signal inference. In this article, we test our models on pitch, octave and dynamics symbols, which comprise a fundamental step towards music transcription and label-constrained audio generation. In addition to its versatility, this system is rather light during training and generation while allowing several interesting creative uses that we outline at the end of the article.
翻訳日:2023-01-02 07:49:38 公開日:2020-02-10
# スケールでの正則化サブモジュラー最大化

Regularized Submodular Maximization at Scale ( http://arxiv.org/abs/2002.03503v1 )

ライセンス: Link先を確認
Ehsan Kazemi and Shervin Minaee and Moran Feldman and Amin Karbasi(参考訳) 本稿では,単調部分モジュラ関数 $g$ とモジュラ関数 $\ell$ との差として表現される正規化部分モジュラ関数 $f = g - \ell$ を最大化するスケーラブルな手法を提案する。 実際、亜モジュラリティは本質的に多様性、範囲、代表性の概念と関係している。 特に、行列点過程、部分モジュラー確率モデル、強い対数凹凸分布など、多様性の多くの一般的な確率モデルのモードを見つけることは、(正規化)部分モジュラー函数の最大化を伴う。 正規化函数 $f$ は負の値を取ることができるので、部分モジュラー函数の非負性仮定に強く依存する部分モジュラー極大化の古典理論は適用できないかもしれない。 この課題を回避するために,$k$-cardinality制約を受ける正則化部分モジュラ関数を最大化するための最初の1パスストリーミングアルゴリズムを開発した。 解 $S$ を $f(S)\geq(\phi^{-2}-\epsilon) \cdot g(OPT)-\ell (OPT)$ とすると、$\phi$ は黄金比である。 さらに、$\mathbb{e}[f(s)] \geq (1-\epsilon) [(1-e^{-1}) \cdot g(opt)-\ell(opt)]$ in $o(1/ \epsilon)$ rounds of mapreduce computingを保証して、$s$を返す最初の分散アルゴリズムを開発した。 モジュラー項 $\ell$ が 0 であるような非正規化の場合でさえ、既存の作業のメモリと通信の複雑さを$O(1/ \epsilon)$ の係数で改善し、より単純な分散アルゴリズムと統一解析を提供する。 また,分散モードの発見やデータの要約,製品レコメンデーションなど,一連の実生活アプリケーション上でのスケーラブルな手法の性能を実証的に検討する。

In this paper, we propose scalable methods for maximizing a regularized submodular function $f = g - \ell$ expressed as the difference between a monotone submodular function $g$ and a modular function $\ell$. Indeed, submodularity is inherently related to the notions of diversity, coverage, and representativeness. In particular, finding the mode of many popular probabilistic models of diversity, such as determinantal point processes, submodular probabilistic models, and strongly log-concave distributions, involves maximization of (regularized) submodular functions. Since a regularized function $f$ can potentially take on negative values, the classic theory of submodular maximization, which heavily relies on the non-negativity assumption of submodular functions, may not be applicable. To circumvent this challenge, we develop the first one-pass streaming algorithm for maximizing a regularized submodular function subject to a $k$-cardinality constraint. It returns a solution $S$ with the guarantee that $f(S)\geq(\phi^{-2}-\epsilon) \cdot g(OPT)-\ell (OPT)$, where $\phi$ is the golden ratio. Furthermore, we develop the first distributed algorithm that returns a solution $S$ with the guarantee that $\mathbb{E}[f(S)] \geq (1-\epsilon) [(1-e^{-1}) \cdot g(OPT)-\ell(OPT)]$ in $O(1/ \epsilon)$ rounds of MapReduce computation, without keeping multiple copies of the entire dataset in each round (as it is usually done). We should highlight that our result, even for the unregularized case where the modular term $\ell$ is zero, improves the memory and communication complexity of the existing work by a factor of $O(1/ \epsilon)$ while arguably provides a simpler distributed algorithm and a unifying analysis. We also empirically study the performance of our scalable methods on a set of real-life applications, including finding the mode of distributions, data summarization, and product recommendation.
翻訳日:2023-01-02 07:43:00 公開日:2020-02-10
# バリア関数によるサブモジュラー最大化

Submodular Maximization Through Barrier Functions ( http://arxiv.org/abs/2002.03523v1 )

ライセンス: Link先を確認
Ashwinkumar Badanidiyuru and Amin Karbasi and Ehsan Kazemi and Jan Vondrak(参考訳) 本稿では,連続最適化におけるバリア関数に触発された制約付き部分モジュラー最大化手法を提案する。 この接続は制約付き部分モジュラー最大化の実行時間を改善するだけでなく、技術保証の状態も提供する。 より正確には、$k$-matchoid と $\ell$-knapsack の制約($\ell\leq k$ に対して)の組合せである単調部分モジュラ関数を最大化するために、ほぼ最小化できるポテンシャル関数を提案する。 ポテンシャル関数を$\epsilon$エラーまで最小化すれば、列挙法により$(k+1+\epsilon)$-approximation Factorがさらに$(k+1+\epsilon)$に改善できるような実現可能な集合が見つかったことが保証される。 提案アルゴリズムは,映画レコメンデーションシステム,YouTubeビデオの要約タスク,Twitterフィード,Yelpビジネスロケーション,セットカバー問題など,いくつかの実世界のアプリケーションに対して広く評価されている。

In this paper, we introduce a novel technique for constrained submodular maximization, inspired by barrier functions in continuous optimization. This connection not only improves the running time for constrained submodular maximization but also provides the state of the art guarantee. More precisely, for maximizing a monotone submodular function subject to the combination of a $k$-matchoid and $\ell$-knapsack constraint (for $\ell\leq k$), we propose a potential function that can be approximately minimized. Once we minimize the potential function up to an $\epsilon$ error it is guaranteed that we have found a feasible set with a $2(k+1+\epsilon)$-approximation factor which can indeed be further improved to $(k+1+\epsilon)$ by an enumeration technique. We extensively evaluate the performance of our proposed algorithm over several real-world applications, including a movie recommendation system, summarization tasks for YouTube videos, Twitter feeds and Yelp business locations, and a set cover problem.
翻訳日:2023-01-02 07:42:01 公開日:2020-02-10
# 教師付き学習: 損失なし 涙なし

Supervised Learning: No Loss No Cry ( http://arxiv.org/abs/2002.03555v1 )

ライセンス: Link先を確認
Richard Nock and Aditya Krishna Menon(参考訳) 教師付き学習は最小化するために損失関数の仕様を必要とする。 計算と統計の両方の観点からの許容損失の理論はよく発達しているが、これらは異なる選択のパノピーを提供する。 実際には、この選択は通常 \emph{ad hoc} の方法で行われる。 この手順をより原則的にすることを望んで、下流タスク(例えば分類)に対する \emph{learning the loss function} の問題は最近の関心を集めている。 しかし、この分野の研究は自然界において概して経験的であった。 本稿では,kakade et al. (2011) の {\sc slisotron} アルゴリズムを新しいレンズを通して再検討し,bregman divergences に基づく一般化を導出し,損失学習のための原理的手順を提供する方法を示す。 詳しくは、複合正方形損失の族から損失を学習するものとして {\sc slisotron} をキャストする。 これを \emph{proper loss} のレンズで解釈することで、ブレグマンの発散に基づく {\sc SLIsotron} の一般化が導かれる。 結果の {\sc BregmanTron} アルゴリズムは、分類器とともに損失を共同で学習する。 学習した損失に対する収束性の簡単な保証と、その可能な出力セットには、ベイズ則の不可知な近似可能性の保証が備わっている。 実験により、 {\sc BregmanTron} は {\sc SLIsotron} を著しく上回り、学習した損失は異なるタスクに対して他のアルゴリズムによって最小化され、したがってドメイン間での \textit{loss transfer} という興味深い問題が発生する。

Supervised learning requires the specification of a loss function to minimise. While the theory of admissible losses from both a computational and statistical perspective is well-developed, these offer a panoply of different choices. In practice, this choice is typically made in an \emph{ad hoc} manner. In hopes of making this procedure more principled, the problem of \emph{learning the loss function} for a downstream task (e.g., classification) has garnered recent interest. However, works in this area have been generally empirical in nature. In this paper, we revisit the {\sc SLIsotron} algorithm of Kakade et al. (2011) through a novel lens, derive a generalisation based on Bregman divergences, and show how it provides a principled procedure for learning the loss. In detail, we cast {\sc SLIsotron} as learning a loss from a family of composite square losses. By interpreting this through the lens of \emph{proper losses}, we derive a generalisation of {\sc SLIsotron} based on Bregman divergences. The resulting {\sc BregmanTron} algorithm jointly learns the loss along with the classifier. It comes equipped with a simple guarantee of convergence for the loss it learns, and its set of possible outputs comes with a guarantee of agnostic approximability of Bayes rule. Experiments indicate that the {\sc BregmanTron} substantially outperforms the {\sc SLIsotron}, and that the loss it learns can be minimized by other algorithms for different tasks, thereby opening the interesting problem of \textit{loss transfer} between domains.
翻訳日:2023-01-02 07:41:18 公開日:2020-02-10
# エネルギー利用によるオートエンコーダに基づく時系列クラスタリング

Autoencoder-based time series clustering with energy applications ( http://arxiv.org/abs/2002.03624v1 )

ライセンス: Link先を確認
Guillaume Richard, Beno\^it Grossin, Guillaume Germaine, Georges H\'ebrail, Anne de Moliner(参考訳) 時系列クラスタリングは、データの特定の性質のため、難しい作業である。 古典的なアプローチはうまく機能せず、新しい距離測定やデータ変換によって適応する必要がある。 本稿では,畳み込み型オートエンコーダとk-メノイドアルゴリズムの組み合わせによる時系列クラスタリングについて検討する。 畳み込みオートエンコーダは、意味のある特徴を抽出し、データの次元を削減し、その後のクラスタリングを改善する。 シミュレーションとエネルギー関連データを用いてアプローチを検証し、実験結果から、クラスタリングが標準手法よりも微細なクラスタに繋がることを示す。

Time series clustering is a challenging task due to the specific nature of the data. Classical approaches do not perform well and need to be adapted either through a new distance measure or a data transformation. In this paper we investigate the combination of a convolutional autoencoder and a k-medoids algorithm to perfom time series clustering. The convolutional autoencoder allows to extract meaningful features and reduce the dimension of the data, leading to an improvement of the subsequent clustering. Using simulation and energy related data to validate the approach, experimental results show that the clustering is robust to outliers thus leading to finer clusters than with standard methods.
翻訳日:2023-01-02 07:40:46 公開日:2020-02-10
# STM Scholarly Articles の疫学的分類のための新しい Kuhnian オントロジー

A Novel Kuhnian Ontology for Epistemic Classification of STM Scholarly Articles ( http://arxiv.org/abs/2002.03531v1 )

ライセンス: Link先を確認
Khalid M. Saqr, Abdelrahman Elsharawy(参考訳) トーマス・クーンは50年前に科学的発見のパラダイム的見解を提案した。 パラダイムの概念は科学の進歩を説明するだけでなく、stm科学者の中心的な認識概念にもなっている。 ここでは,stm論文の影響を分類し評価することを目的とした新しいオントロジーを構築するために,クーン哲学の原理を採用する。 まず,kuhnian cycle of scienceが認識論的に異なる段階の研究をどのように記述しているかを説明する。 次に,クーニアンサイクルを,パラダイム中心の知識への貢献に応じて学術論文を分類するモジュラーオントロジーに再構築する方法を示す。 提案するオントロジーとそのシナリオについて論じる。 著者の知識を最大限に活用するために、これはクーン人の科学のパラダイム観に基づく学術論文を記述するためのオントロジーを作る最初の試みである。

Thomas Kuhn proposed his paradigmatic view of scientific discovery five decades ago. The concept of paradigm has not only explained the progress of science, but has also become the central epistemic concept among STM scientists. Here, we adopt the principles of Kuhnian philosophy to construct a novel ontology aims at classifying and evaluating the impact of STM scholarly articles. First, we explain how the Kuhnian cycle of science describes research at different epistemic stages. Second, we show how the Kuhnian cycle could be reconstructed into modular ontologies which classify scholarly articles according to their contribution to paradigm-centred knowledge. The proposed ontology and its scenarios are discussed. To the best of the authors knowledge, this is the first attempt for creating an ontology for describing scholarly articles based on the Kuhnian paradigmatic view of science.
翻訳日:2023-01-02 07:32:59 公開日:2020-02-10
# realm: 検索による言語モデルの事前学習

REALM: Retrieval-Augmented Language Model Pre-Training ( http://arxiv.org/abs/2002.08909v1 )

ライセンス: Link先を確認
Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang(参考訳) 言語モデルの事前学習は、疑問応答などのNLPタスクに不可欠な、驚くほど多くの世界の知識を捉えることが示されている。 しかし、この知識はニューラルネットワークのパラメータに暗黙的に格納され、より多くの事実をカバーするために、より広いネットワークを必要とする。 よりモジュール的で解釈可能な方法で知識をキャプチャするために、潜伏知識検索器で事前学習する言語モデルを拡張し、事前学習、微調整、推論に使用されるウィキペディアのような大規模なコーパスから文書を検索し、出席できるようにする。 学習信号としてマスク付き言語モデリングを用い,数百万の文書を考慮した検索ステップをバックプロパゲーションすることにより,このような知識検索者を教師なしで事前学習する方法を初めて示す。 オープンドメイン質問回答(Open-QA)の課題を微調整し,検索言語モデル事前学習(REALM)の有効性を示す。 3つの人気のあるOpen-QAベンチマークにおける暗黙的および暗黙的知識ストレージの最先端モデルと比較し、従来の手法を大きなマージン(絶対精度4-16%)で上回り、解釈可能性やモジュラリティなどの質的な利点も提供する。

Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networks to cover more facts. To capture knowledge in a more modular and interpretable way, we augment language model pre-training with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus such as Wikipedia, used during pre-training, fine-tuning and inference. For the first time, we show how to pre-train such a knowledge retriever in an unsupervised manner, using masked language modeling as the learning signal and backpropagating through a retrieval step that considers millions of documents. We demonstrate the effectiveness of Retrieval-Augmented Language Model pre-training (REALM) by fine-tuning on the challenging task of Open-domain Question Answering (Open-QA). We compare against state-of-the-art models for both explicit and implicit knowledge storage on three popular Open-QA benchmarks, and find that we outperform all previous methods by a significant margin (4-16% absolute accuracy), while also providing qualitative benefits such as interpretability and modularity.
翻訳日:2023-01-02 07:31:59 公開日:2020-02-10
# 転送学習を用いた最小ラベル付きソーシャルメディアデータによる局地的洪水検出

Localized Flood DetectionWith Minimal Labeled Social Media Data Using Transfer Learning ( http://arxiv.org/abs/2003.04973v1 )

ライセンス: Link先を確認
Neha Singh, Nirmalya Roy, Aryya Gangopadhyay(参考訳) ソーシャルメディアは日常的に膨大な量のデータを生成するが、ターゲットアプリケーションにアノテートしたりラベル付けしたりすることなく、効果的に活用することは極めて困難である。 最小ラベル付きデータを用いた効率的かつ信頼性の高い洪水テキスト分類モデルを提供するために,ソーシャルセンシングモデル(Twitter)を用いた局所的な洪水検出の問題点について検討する。 本研究は,災害時や救助活動,早期警戒などにおいて,洪水関連の更新や通知を市当局に提供する上で,非常に有効である。 そこで本研究では,事前学習した言語モデル ULMFiT を用いてテキスト分類を行い,新しい場所における洪水関連フィードの分類を効果的に行うことを提案する。 最後に,対象領域にラベル付きデータが非常に少ないことで,人為的な事実とtwitterからの観察データを用いた洪水検出と分析のための効率的かつハイパフォーマンスなモデルの構築に成功できることを実証する。

Social media generates an enormous amount of data on a daily basis but it is very challenging to effectively utilize the data without annotating or labeling it according to the target application. We investigate the problem of localized flood detection using the social sensing model (Twitter) in order to provide an efficient, reliable and accurate flood text classification model with minimal labeled data. This study is important since it can immensely help in providing the flood-related updates and notifications to the city officials for emergency decision making, rescue operations, and early warnings, etc. We propose to perform the text classification using the inductive transfer learning method i.e pre-trained language model ULMFiT and fine-tune it in order to effectively classify the flood-related feeds in any new location. Finally, we show that using very little new labeled data in the target domain we can successfully build an efficient and high performing model for flood detection and analysis with human-generated facts and observations from Twitter.
翻訳日:2023-01-02 07:31:36 公開日:2020-02-10
# if-thenプログラム合成のためのシーケンスからシーケンスへの学習モデルの評価

Evaluating Sequence-to-Sequence Learning Models for If-Then Program Synthesis ( http://arxiv.org/abs/2002.03485v1 )

ライセンス: Link先を確認
Dhairya Dalal and Byron V. Galbraith(参考訳) エンタープライズプロセスの自動化を実装するには、しばしば技術的な専門知識とエンジニアリングの努力が必要です。 非技術ユーザにとって、ビジネスプロセスを自然言語で記述でき、インテリジェントなシステムが自動的に実行されるワークフローを生成することは有益である。 プロセス自動化のビルディングブロックはif-thenプログラムである。 コンシューマの世界では、IFTTTやZapierのようなサイトでは、グラフィカルインターフェースを使用してif-Thenプログラムを定義することで、自動化を作成できる。 シーケンス学習タスクとしてのif-Thenプログラムのモデリングの有効性について検討する。 Seq2Seqアプローチは(Zapierのレシピに強く依存する)高い可能性を持ち、より複雑なプログラム合成課題への有望なアプローチとして機能する。

Implementing enterprise process automation often requires significant technical expertise and engineering effort. It would be beneficial for non-technical users to be able to describe a business process in natural language and have an intelligent system generate the workflow that can be automatically executed. A building block of process automations are If-Then programs. In the consumer space, sites like IFTTT and Zapier allow users to create automations by defining If-Then programs using a graphical interface. We explore the efficacy of modeling If-Then programs as a sequence learning task. We find Seq2Seq approaches have high potential (performing strongly on the Zapier recipes) and can serve as a promising approach to more complex program synthesis challenges.
翻訳日:2023-01-02 07:31:00 公開日:2020-02-10
# 成人心磁気共鳴画像データに基づくU-Netによる分節訓練は, 外科的計画のための希少な先天性心疾患にどのように一般化されるか?

How well do U-Net-based segmentation trained on adult cardiac magnetic resonance imaging data generalise to rare congenital heart diseases for surgical planning? ( http://arxiv.org/abs/2002.04392v1 )

ライセンス: Link先を確認
Sven Koehler and Animesh Tandon and Tarique Hussain and Heiner Latus and Thomas Pickardt and Samir Sarikouch and Philipp Beerbaum and Gerald Greil and Sandy Engelhardt and Ivo Wolf(参考訳) 先天性ファロー心疾患四徴症(tof)患者における肺弁置換術の最適介入時期の計画は主に心室容積と機能に基づく。 これら2つのバイオマーカーは3次元心臓磁気共鳴(CMR)画像のセグメンテーションによって最も確実に評価される。 過去数年間のいくつかの大きな課題において、U-Netアーキテクチャは提供されたデータに対して印象的な結果を示している。 しかし, 臨床では, 個々の病理や異なるスキャナ特性から得られた画像特性を考えると, データセットはより多様である。 さらに、TOFのような複雑なレアな疾患に対する特定のトレーニングデータも少ない。 この作品のために 1) 市販のラベル付きデータセット(acdcデータ)を用いてトレーニングを行い,その後,tof患者のcmrデータに適用した場合の精度ギャップを評価し,その逆も検討した。 2) より異質なデータベースにモデルを適用する場合、同様の結果が得られるかどうか。 複数のディープラーニングモデルを4倍のクロス検証でトレーニングした。 その後、他のコレクションから得られた未認識のcmr画像で評価した。 その結果,1つのデータ収集において,現在のディープラーニングモデルは優れた結果(左心室ジス$0.951\pm{0.003}$/$0.941\pm{0.007}$ train/validation)が得られることを確認した。 しかし、それらが他の病理に適用されると、それがトレーニング病理にどの程度適しているかが明らかになる(左が0.072 pm{0.001}$、右心室が0.165 pm{0.001}$)。

Planning the optimal time of intervention for pulmonary valve replacement surgery in patients with the congenital heart disease Tetralogy of Fallot (TOF) is mainly based on ventricular volume and function according to current guidelines. Both of these two biomarkers are most reliably assessed by segmentation of 3D cardiac magnetic resonance (CMR) images. In several grand challenges in the last years, U-Net architectures have shown impressive results on the provided data. However, in clinical practice, data sets are more diverse considering individual pathologies and image properties derived from different scanner properties. Additionally, specific training data for complex rare diseases like TOF is scarce. For this work, 1) we assessed the accuracy gap when using a publicly available labelled data set (the Automatic Cardiac Diagnosis Challenge (ACDC) data set) for training and subsequent applying it to CMR data of TOF patients and vice versa and 2) whether we can achieve similar results when applying the model to a more heterogeneous data base. Multiple deep learning models were trained with four-fold cross validation. Afterwards they were evaluated on the respective unseen CMR images from the other collection. Our results confirm that current deep learning models can achieve excellent results (left ventricle dice of $0.951\pm{0.003}$/$0.941\pm{0.007}$ train/validation) within a single data collection. But once they are applied to other pathologies, it becomes apparent how much they overfit to the training pathologies (dice score drops between $0.072\pm{0.001}$ for the left and $0.165\pm{0.001}$ for the right ventricle).
翻訳日:2023-01-02 07:20:49 公開日:2020-02-10
# yolov3モデルに基づく海洋シナリオのリアルタイムターゲット検出

Real-Time target detection in maritime scenarios based on YOLOv3 model ( http://arxiv.org/abs/2003.00800v1 )

ライセンス: Link先を確認
Alessandro Betti, Benedetto Michelozzi, Andrea Bracci and Andrea Masini(参考訳) 本研究では, ウェブスクレイピングにより収集した船舶の56万枚以上の画像と12の船舶カテゴリからなる新しい船舶データセットを提案する。 Keras APIに基づいたYOLOv3シングルステージ検出器がこのデータセット上に構築されている。 現在の4つのカテゴリー(貨物船、船舶、石油船、タグ船)の結果、平均精度は0.5のIoU(Intersection over Union)で最大96%、検出性能は0.8のIoU(IoU)である。 QTフレームワークとDarknet-53エンジンに基づくデータ分析GUIサービスも実装されており、デプロイメントプロセスを簡素化し、データサイエンスの専門知識を持たない人でも大量の画像を分析する。

In this work a novel ships dataset is proposed consisting of more than 56k images of marine vessels collected by means of web-scraping and including 12 ship categories. A YOLOv3 single-stage detector based on Keras API is built on top of this dataset. Current results on four categories (cargo ship, naval ship, oil ship and tug ship) show Average Precision up to 96% for Intersection over Union (IoU) of 0.5 and satisfactory detection performances up to IoU of 0.8. A Data Analytics GUI service based on QT framework and Darknet-53 engine is also implemented in order to simplify the deployment process and analyse massive amount of images even for people without Data Science expertise.
翻訳日:2023-01-02 07:20:23 公開日:2020-02-10
# シナプス可塑性の新規生産法

Novelty Producing Synaptic Plasticity ( http://arxiv.org/abs/2002.03620v1 )

ライセンス: Link先を確認
Anil Yaman, Giovanni Iacca, Decebal Constantin Mocanu, George Fletcher, Mykola Pechenizkiy(参考訳) 可塑性を持つ学習プロセスは、しばしばプロセスを導くために強化信号を必要とする。 しかし、いくつかのタスク(迷路ナビゲーションなど)では、目標の位置が分かっていないため、エージェント(すなわちフィットネス値)のパフォーマンスを測定するのは非常に困難(あるいは不可能)である。 これは、補強信号の知識がなくても、多くの可能な行動の中で正しい行動を見つける必要がある。 これらの場合、徹底的な探索が必要である。 しかし、特に連続したドメインで人工ニューラルネットワークを最適化する場合、これは実現不可能である。 本研究では, シナプス可塑性(NPSP)を創出する新鮮さを導入し, シナプス可塑性規則を進化させ, できるだけ多くの新規な挙動を創出し, 問題を解くことができる振る舞いを見出す。 複雑な行動を必要とする迷路環境における迷路ナビゲーションにおけるNPSPの評価と,それを実現するためのサブゴールの達成について検討した。 この結果から,提案したNPSPを用いた探索ヒューリスティックは,ベースラインとしてランダムな探索と比較して,はるかに新しい動作を実現できることがわかった。

A learning process with the plasticity property often requires reinforcement signals to guide the process. However, in some tasks (e.g. maze-navigation), it is very difficult (or impossible) to measure the performance of an agent (i.e. a fitness value) to provide reinforcements since the position of the goal is not known. This requires finding the correct behavior among a vast number of possible behaviors without having the knowledge of the reinforcement signals. In these cases, an exhaustive search may be needed. However, this might not be feasible especially when optimizing artificial neural networks in continuous domains. In this work, we introduce novelty producing synaptic plasticity (NPSP), where we evolve synaptic plasticity rules to produce as many novel behaviors as possible to find the behavior that can solve the problem. We evaluate the NPSP on maze-navigation on deceptive maze environments that require complex actions and the achievement of subgoals to complete. Our results show that the search heuristic used with the proposed NPSP is indeed capable of producing much more novel behaviors in comparison with a random search taken as baseline.
翻訳日:2023-01-02 07:20:09 公開日:2020-02-10
# ニューラルネットワークにおけるReLU活性化とSoftmax出力層の近似能力について

On Approximation Capabilities of ReLU Activation and Softmax Output Layer in Neural Networks ( http://arxiv.org/abs/2002.04060v1 )

ライセンス: Link先を確認
Behnam Asadi, Hui Jiang(参考訳) 本稿では,非有界ReLU活性化関数と非線形ソフトマックス出力層を用いたニューラルネットワークに,確立された普遍近似理論を拡張した。 reluアクティベーション関数を用いた十分大きなニューラルネットワークは、任意の精度まで$l^1$で任意の関数を近似できることを証明した。 さらに, 非線形ソフトマックス出力層を用いた大規模ニューラルネットワークは, 実数多クラスパターン分類問題において, 相互排他的クラスラベルと同値である$l^1$の任意の指標関数を近似できることを示した。 私たちの知る限りでは、この研究はパターン分類にニューラルネットワークのsoftmax出力層を使用する最初の理論的正当化である。

In this paper, we have extended the well-established universal approximator theory to neural networks that use the unbounded ReLU activation function and a nonlinear softmax output layer. We have proved that a sufficiently large neural network using the ReLU activation function can approximate any function in $L^1$ up to any arbitrary precision. Moreover, our theoretical results have shown that a large enough neural network using a nonlinear softmax output layer can also approximate any indicator function in $L^1$, which is equivalent to mutually-exclusive class labels in any realistic multiple-class pattern classification problems. To the best of our knowledge, this work is the first theoretical justification for using the softmax output layers in neural networks for pattern classification.
翻訳日:2023-01-02 07:12:28 公開日:2020-02-10
# 組込み型大規模検索のための事前学習タスク

Pre-training Tasks for Embedding-based Large-scale Retrieval ( http://arxiv.org/abs/2002.03932v1 )

ライセンス: Link先を確認
Wei-Cheng Chang, Felix X. Yu, Yin-Wen Chang, Yiming Yang, Sanjiv Kumar(参考訳) クエリ(質問など)が与えられた場合、関連する文書(回答を含む段落など)の集合を大きなドキュメントコーパスから返却する。 この問題は2つのステップで解決されることが多い。 検索フェーズは、まず解空間を縮小し、候補文書のサブセットを返す。 スコアリングフェーズは、ドキュメントを再ランクする。 批判的に、検索アルゴリズムは高いリコールを求めるだけでなく、ドキュメント数に比例する時間内に候補を返すことで、高い効率性も要求する。 BERT方式のクロスアテンションモデルにおける事前学習タスクにより,最近重要な進歩が見られたスコアリングフェーズとは異なり,検索フェーズはいまだにあまり研究されていない。 これまでのほとんどの研究は、BM-25 (token matching + TF-IDF weights)のような古典的な情報検索法に依存していた。 これらのモデルは、スパースハンドクラフト機能のみを受け入れ、異なる下流タスクに最適化できない。 本稿では,埋め込み型検索モデルについて包括的な研究を行う。 組込み型トランスフォーマーモデルを学習する上で重要な要素が,事前学習作業のセットであることを示す。 適切に設計された段落レベルの事前訓練タスクにより、トランスフォーマーモデルは広く使用されているbm-25やトランスフォーマーのない埋め込みモデルを大幅に改善することができる。 段落レベルの事前学習課題は,逆クローズタスク(ICT),ボディーファーストセレクション(BFS),ウィキリンク予測(WLP),およびこれら3つの組み合わせである。

We consider the large-scale query-document retrieval problem: given a query (e.g., a question), return the set of relevant documents (e.g., paragraphs containing the answer) from a large document corpus. This problem is often solved in two steps. The retrieval phase first reduces the solution space, returning a subset of candidate documents. The scoring phase then re-ranks the documents. Critically, the retrieval algorithm not only desires high recall but also requires to be highly efficient, returning candidates in time sublinear to the number of documents. Unlike the scoring phase witnessing significant advances recently due to the BERT-style pre-training tasks on cross-attention models, the retrieval phase remains less well studied. Most previous works rely on classic Information Retrieval (IR) methods such as BM-25 (token matching + TF-IDF weights). These models only accept sparse handcrafted features and can not be optimized for different downstream tasks of interest. In this paper, we conduct a comprehensive study on the embedding-based retrieval models. We show that the key ingredient of learning a strong embedding-based Transformer model is the set of pre-training tasks. With adequately designed paragraph-level pre-training tasks, the Transformer models can remarkably improve over the widely-used BM-25 as well as embedding models without Transformers. The paragraph-level pre-training tasks we studied are Inverse Cloze Task (ICT), Body First Selection (BFS), Wiki Link Prediction (WLP), and the combination of all three.
翻訳日:2023-01-02 07:12:16 公開日:2020-02-10
# 薬物発見のための自然言語処理手法を用いた化学空間の探索

Exploring Chemical Space using Natural Language Processing Methodologies for Drug Discovery ( http://arxiv.org/abs/2002.06053v1 )

ライセンス: Link先を確認
Hakime \"Ozt\"urk, Arzucan \"Ozg\"ur, Philippe Schwaller, Teodoro Laino, Elif Ozkirimli(参考訳) テキストに基づく化学物質やタンパク質の表現は、ドメイン固有の知識を記述するために人間がコード化した非構造言語と考えることができる。 音声言語処理における自然言語処理(NLP)手法の進歩は、これらの生化学的実体のテキスト表現における隠れた知識の解明にNLPの適用を加速させ、それを分子特性の予測や新しい分子の設計のためのモデルの構築に利用した。 本総説では、これらの進歩が薬物発見に与える影響を概説し、薬理学者とコンピュータ科学者との対話をさらに進めることを目的とする。

Text-based representations of chemicals and proteins can be thought of as unstructured languages codified by humans to describe domain-specific knowledge. Advances in natural language processing (NLP) methodologies in the processing of spoken languages accelerated the application of NLP to elucidate hidden knowledge in textual representations of these biochemical entities and then use it to construct models to predict molecular properties or to design novel molecules. This review outlines the impact made by these advances on drug discovery and aims to further the dialogue between medicinal chemists and computer scientists.
翻訳日:2023-01-02 07:11:52 公開日:2020-02-10
# 公正な相関クラスタリング

Fair Correlation Clustering ( http://arxiv.org/abs/2002.03508v1 )

ライセンス: Link先を確認
Saba Ahmadi, Sainyam Galhotra, Barna Saha, Roy Schwartz(参考訳) 本稿では,正当性制約下での相関クラスタリングの問題について検討する。 古典的な相関クラスタリング問題では、各辺が正または負のラベル付けされた完全グラフが与えられる。 目的は、クラスタ内に閉じ込められた負のエッジの数と異なるクラスタ間の正のエッジを最小化する、頂点のクラスタリングを得ることだ。 各ノードが色を持つ相関クラスタリングの問題に対して,フェアネス制約の2つのバリエーションを考察し,任意の色の頂点を過剰に表現しないクラスタを形成することを目標とした。 最初の変種は、各クラスタにおける特徴(例えば性別)の分布がグローバルな分布と同じである最小の不一致でクラスタを生成することを目的としている。 2色の場合、各クラスタ内の色数の所望の比率が1:p$の場合、$\mathcal{o}(p^2)$近似アルゴリズムが得られる。 アルゴリズムは複数の色に拡張できる。 我々はこの問題がNPハードであることを証明する。 第2の変種は、クラスタ内の任意の色のノード数に対する相対的な上限と下限を考える。 目的は、クラスタ内の各色に対応する上下境界の違反を回避し、不一致の総数を最小限に抑えることである。 本研究では,実世界のデータセットに対する経験的評価により,公平なクラスタを生成するアルゴリズムの有効性を示す。

In this paper we study the problem of correlation clustering under fairness constraints. In the classic correlation clustering problem, we are given a complete graph where each edge is labeled positive or negative. The goal is to obtain a clustering of the vertices that minimizes disagreements -- the number of negative edges trapped inside a cluster plus positive edges between different clusters. We consider two variations of fairness constraint for the problem of correlation clustering where each node has a color, and the goal is to form clusters that do not over-represent vertices of any color. The first variant aims to generate clusters with minimum disagreements, where the distribution of a feature (e.g. gender) in each cluster is same as the global distribution. For the case of two colors when the desired ratio of the number of colors in each cluster is $1:p$, we get $\mathcal{O}(p^2)$-approximation algorithm. Our algorithm could be extended to the case of multiple colors. We prove this problem is NP-hard. The second variant considers relative upper and lower bounds on the number of nodes of any color in a cluster. The goal is to avoid violating upper and lower bounds corresponding to each color in each cluster while minimizing the total number of disagreements. Along with our theoretical results, we show the effectiveness of our algorithm to generate fair clusters by empirical evaluation on real world data sets.
翻訳日:2023-01-02 07:11:27 公開日:2020-02-10