このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210122となっている論文です。

PDF登録状況(公開日: 20210122)

TitleAuthorsAbstract論文公表日・翻訳日
# トーリック・コードにおける変化位相と境界による位相相転移

Topological Phase Transitions Induced by Varying Topology and Boundaries in the Toric Code ( http://arxiv.org/abs/2004.03614v3 )

ライセンス: Link先を確認
Amit Jamadagni, Arpan Bhattacharyya(参考訳) 物質の位相相の重要な特徴の1つは、それらが定義される底面多様体の位相である。 本稿では,境界条件の変化によって引き起こされる相転移を調べることにより,下層のトポロジーに対する物質の相の感度について述べる。 これらの相転移は励起空間の破れ対称性を伴い、さらなる知見を得るため、基底状態の縮退、位相的絡み合いエントロピーなどの様々なシグネチャを解析し、期待値が位相遷移を効果的に捉えた開ループ作用素を導入する。 さらに, 有効崩壊作用素を定義することで, 解析を開量子系に拡張し, 系の冷却を異なる位相秩序定常状態へと拡張する。 このような定常状態間の相転移は開ループ演算子の期待値によって効果的に捕捉されることを示す。

One of the important characteristics of topological phases of matter is the topology of the underlying manifold on which they are defined. In this paper, we present the sensitivity of such phases of matter to the underlying topology, by studying the phase transitions induced due to the change in the boundary conditions. We claim that these phase transitions are accompanied by broken symmetries in the excitation space and to gain further insight we analyze various signatures like the ground state degeneracy, topological entanglement entropy while introducing the open-loop operator whose expectation value effectively captures the phase transition. Further, we extend the analysis to an open quantum setup by defining effective collapse operators, the dynamics of which cool the system to different topologically ordered steady states. We show that the phase transition between such steady states is effectively captured by the expectation value of the open-loop operator.
翻訳日:2023-05-26 04:00:28 公開日:2021-01-22
# 単一フォノン付加と機械的熱状態への減算

Single-Phonon Addition and Subtraction to a Mechanical Thermal State ( http://arxiv.org/abs/2006.11599v3 )

ライセンス: Link先を確認
Georg Enzian, John J. Price, Lars Freisem, Joshua Nunn, Jiri Janousek, Ben C. Buchler, Ping Koy Lam, Michael R. Vanner(参考訳) ボソニック系の熱状態への単一の励起量子の付加または減算は、その平均占有量をほぼ2倍にする直観的効果を持つ。 単一フォノン付加とブリルアン光力学によるメカニカル発振器の熱状態へのサブトラクションを光ささやくマイクロ共振器で行うことにより、光学外におけるこの効果を初めて実験的に実証する。 単一光子計数と光学的ヘテロダイン検出を組み合わせた検出手法を用いて, この力学的熱揺らぎを高精度に倍増させた。 この共同クリックダインの検知方式の能力は、光学量子科学と応用のための重要な新しい次元を付加する。

Adding or subtracting a single quantum of excitation to a thermal state of a bosonic system has the counter-intuitive effect of approximately doubling its mean occupation. We perform the first experimental demonstration of this effect outside optics by implementing single-phonon addition and subtraction to a thermal state of a mechanical oscillator via Brillouin optomechanics in an optical whispering-gallery microresonator. Using a detection scheme that combines single-photon counting and optical heterodyne detection, we observe this doubling of the mechanical thermal fluctuations to a high precision. The capabilities of this joint click-dyne detection scheme adds a significant new dimension for optomechanical quantum science and applications.
翻訳日:2023-05-13 07:20:50 公開日:2021-01-22
# 発散の力学拡張の一意性と最適性

Uniqueness and Optimality of Dynamical Extensions of Divergences ( http://arxiv.org/abs/2006.13340v2 )

ライセンス: Link先を確認
Gilad Gour(参考訳) 本稿では,超チャネル下でのモノトニック性の3つの情報理論的公理(すなわち,一般データ処理の不等式),テンソル積による加法性と正規化に基づく,チャネルの分岐とチャネル相対エントロピーに対する公理的アプローチについて紹介する。 これらの公理はチャネル領域に十分な構造を与えるのに十分であり、すべてのチャネルの発散に適用できる多くの性質をもたらす。 これらは忠実性、連続性、三角形の不等式の種類、ミンとマックスチャネルの相対エントロピーの間の有界性を含む。 さらに、Kulback-Leibler の発散が古典チャネルへの1つの拡張しか持たないことを示す一意性定理を証明した。 量子チャネルでは、最大相対エントロピーを除いて、この一意性は成立しない。 代わりに、梅垣相対エントロピーの補正チャネル拡張の最適性を証明し、古典的状態におけるクルバック・リーブラー分岐に還元される全てのチャネル相対エントロピーに下限を与えることを示した。 また、与えられた古典状態の分岐の最大チャネル拡張を導入し、その特性について研究する。

We introduce an axiomatic approach for channel divergences and channel relative entropies that is based on three information-theoretic axioms of monotonicity under superchannels (i.e. generalized data processing inequality), additivity under tensor products, and normalization, similar to the approach given recently for the state domain. We show that these axioms are sufficient to give enough structure also in the channel domain, leading to numerous properties that are applicable to all channel divergences. These include faithfulness, continuity, a type of triangle inequality, and boundedness between the min and max channel relative entropies. In addition, we prove a uniqueness theorem showing that the Kullback-Leibler divergence has only one extension to classical channels. For quantum channels, with the exception of the max relative entropy, this uniqueness does not hold. Instead we prove the optimality of the amortized channel extension of the Umegaki relative entropy, by showing that it provides a lower bound on all channel relative entropies that reduce to the Kullback-Leibler divergence on classical states. We also introduce the maximal channel extension of a given classical state divergence and study its properties.
翻訳日:2023-05-13 00:32:10 公開日:2021-01-22
# 極短スピンチェーンにおける量子カオス、平衡、制御

Quantum chaos, equilibration and control in extremely short spin chains ( http://arxiv.org/abs/2006.14468v3 )

ライセンス: Link先を確認
Nicol\'as Mirkin, Diego Wisniacki(参考訳) 開量子系の環境は通常、大きな多体量子系としてモデル化される。 しかしながら、孤立量子系自体が多体量子系である場合、内部平衡を生成するのにどの程度大きく複雑でなければならないかという問題は、文献においてオープンキーポイントである。 本研究では, 純度劣化による単一スピンの平衡度をモニタリングすることにより, 結合するジェネリックスピン鎖のカオス的挙動を検出することができる。 驚くべきことに、3つのスピンからなる極端に短いスピンチェーンの場合でさえ、これは保持され、カオス遷移に可積分な全体も再現できる。 最後に,量子制御実験の意義を議論し,小鎖においても量子カオスが最善の制御レベルを乗り越えていることを示す。

The environment of an open quantum system is usually modelled as a large many-body quantum system. However, when an isolated quantum system itself is a many-body quantum system, the question of how large and complex it must be in order to generate internal equilibration is an open key-point in the literature. In this work, by monitoring the degree of equilibration of a single spin through its purity degradation, we are able to sense the chaotic behaviour of the generic spin chain to which it is coupled. Quite remarkably, this holds even in the case of extremely short spin chains composed of three spins, where we can also reproduce the whole integrable to chaos transition. Finally, we discuss implications on quantum control experiments and show that quantum chaos reigns over the best degree of control achieved, even in small chains.
翻訳日:2023-05-12 19:54:52 公開日:2021-01-22
# 量子宇宙論における文脈的プランクパラメータと古典的極限

A contextual Planck parameter and the classical limit in quantum cosmology ( http://arxiv.org/abs/2006.16036v2 )

ライセンス: Link先を確認
John D. Barrow and Joao Magueijo(参考訳) ハイゼンベルクの不確実性関係(与えられた相補的対の可観測物)を制御する量は、有効プランクパラメータと同一視されるべきである。 この定義では、プランクパラメータが研究対象の領域に依存し、時間的に変化し、どのオブザーバブルにフォーカスするかにも依存する例を見つけることは難しくない。 量子宇宙論において、有効なプランクパラメータは研究中の衝突領域のサイズに依存するため、選択された領域と時間に依存する。 この基準により、古典的限界は期待され、プランク長より大きい領域では、$l_{p}$ではなく、$l_{q}=(l_{p}^{2}h^{-1})^{1/3}$であり、ここでは$h$がハッブルパラメータである。 宇宙定数が力学である理論では、他のすべてが古典的と見なされる文脈においても、後者は量子を保つことができる。 これらの結果は標準量子化法から導出されるが、観測中の長さスケールでアドホックプランクパラメータが異なるような投機的ケースも含む。 さらに、同様の相補的な概念がブラックホールの温度やエントロピーなどの熱力学変数に影響を及ぼす可能性についても検討する。

We propose that whatever quantity controls the Heisenberg uncertainty relations (for a given complementary pair of observables) it should be identified with an effective Planck parameter. With this definition it is not difficult to find examples where the Planck parameter depends on the region under study, varies in time, and even depends on which pair of observables one focuses on. In quantum cosmology the effective Planck parameter depends on the size of the comoving region under study, and so depends on that chosen region and on time. With this criterion, the classical limit is expected, not for regions larger than the Planck length, $l_{P}$, but for those larger than $l_{Q}=(l_{P}^{2}H^{-1})^{1/3}$, where $H$ is the Hubble parameter. In theories where the cosmological constant is dynamical, it is possible for the latter to remain quantum even in contexts where everything else is deemed classical. These results are derived from standard quantization methods, but we also include more speculative cases where ad hoc Planck parameters scale differently with the length scale under observation. Even more speculatively, we examine the possibility that similar complementary concepts affect thermodynamical variables, such as the temperature and the entropy of a black hole.
翻訳日:2023-05-12 03:38:09 公開日:2021-01-22
# 閉鎖空洞における反発カシミール・リフシッツ圧力

Repulsive Casimir-Lifshitz pressure in closed cavities ( http://arxiv.org/abs/2008.02031v4 )

ライセンス: Link先を確認
C. Romaniega(参考訳) 磁気誘電体空洞内を囲む誘電体球面に作用する相互作用圧力を考察する。 熱平衡系におけるキャビティの形状に関わらず, この量の符号を定式化し, 均質スラブに対するジアルシンスキー-リフシッツ-ピタエフスキーの結果を拡張した。 カシミール・リフシッツ力に関する以前の定理と同様に、結果は散乱形式に基づいている。 この場合の証明は、電磁散乱の可変位相アプローチから導かれる。 これにより、圧力に対する相互作用と自己エネルギーの寄与の両方が球を広げる傾向にある構成を示す。

We consider the interaction pressure acting on the surface of a dielectric sphere enclosed within a magnetodielectric cavity. We determine the sign of this quantity regardless of the geometry of the cavity for systems at thermal equilibrium, extending the Dzyaloshinskii-Lifshitz-Pitaevskii result for homogeneous slabs. As in previous theorems regarding Casimir-Lifshitz forces, the result is based on the scattering formalism. In this case the proof follows from the variable phase approach of electromagnetic scattering. With this, we present configurations in which both the interaction and the self-energy contribution to the pressure tend to expand the sphere.
翻訳日:2023-05-07 02:23:18 公開日:2021-01-22
# 駆動型一粒子量子サイクロトロン

Driven One-Particle Quantum Cyclotron ( http://arxiv.org/abs/2008.08188v2 )

ライセンス: Link先を確認
Xing Fan, Gerald Gabrielse(参考訳) 量子サイクロトロン(quantum cyclotron)は、最も低いサイクロトロンとスピン状態のみを占有する電子または陽電子である。 主方程式は、QND (quantum nondemolition) が熱平衡における検出発振器に結合する駆動量子サイクロトロンに対して解かれる。 検出運動と熱貯水池の小さな結合のために、駆動周波数の関数としてシクロトロンとスピン量子ジャンプの予測速度は、過去の測定で予測されたものと大きく異なる。 この計算は、粒子物理学の標準モデルの最も正確な予測と、素粒子の性質の最も正確な測定との違いを調べるために必要となるように、より正確な電子磁気モーメント測定が可能であることを示唆している。

A quantum cyclotron is one trapped electron or positron that occupies only its lowest cyclotron and spin states. A master equation is solved for a driven quantum cyclotron with a QND (quantum nondemolition) coupling to a detection oscillator in thermal equilibrium - the first quantum calculation for this coupled and open system. The predicted rate of cyclotron and spin quantum jumps as a function of drive frequency, for a small coupling between the detection motion and its thermal reservoir, differs sharply from what has been predicted and used for past measurements. The calculation suggests a ten times more precise electron magnetic moment measurement is possible, as needed to investigate current differences between the most precise prediction of the standard model of particle physics, and the most accurate measurement of a property of an elementary particle.
翻訳日:2023-05-05 22:38:20 公開日:2021-01-22
# ボソニック作用素関数のニュートン級数展開

Newton series expansion of bosonic operator functions ( http://arxiv.org/abs/2008.11139v4 )

ライセンス: Link先を確認
J\"urgen K\"onig and Alfred Hucht(参考訳) ボゾン数作用素の関数の級数展開は自然に有限差分法から導かれることを示す。 このスキームは微分計算から知られているテイラー級数ではなくニュートン級数を使い、テイラー展開が失敗する場合にも機能する。 数演算子の函数に対して、そのような拡張は自動的に正規化される。 スピンのホルシュタイン・プリマコフ表現に適用すると、スキームは有限個の項を持つ完全級数展開を与え、さらに、全ヒルベルト空間の切断された部分内のスピン交換関係に関するスピン作用素の体系的な展開を可能にする。 さらにニュートン級数展開は、コヒーレントな状態に対する期待値の計算を強く促進する。 第3の例として、光子または電子計数の文脈で生じる因子モーメントと因子累積はニュートン級数展開の自然な結果であることを示す。 最後に、メリン変換に関連する対応する積分変換を決定することにより、正規順序付け、テイラー級数とニュートン級数の接続を解明する。

We show how series expansions of functions of bosonic number operators are naturally derived from finite-difference calculus. The scheme employs Newton series rather than Taylor series known from differential calculus, and also works in cases where the Taylor expansion fails. For a function of number operators, such an expansion is automatically normal ordered. Applied to the Holstein-Primakoff representation of spins, the scheme yields an exact series expansion with a finite number of terms and, in addition, allows for a systematic expansion of the spin operators that respects the spin commutation relations within a truncated part of the full Hilbert space. Furthermore, the Newton series expansion strongly facilitates the calculation of expectation values with respect to coherent states. As a third example, we show that factorial moments and factorial cumulants arising in the context of photon or electron counting are a natural consequence of Newton series expansions. Finally, we elucidate the connection between normal ordering, Taylor and Newton series by determining a corresponding integral transformation, which is related to the Mellin transform.
翻訳日:2023-05-04 23:52:26 公開日:2021-01-22
# 新型コロナウイルス対策戦略の要件調査 第1部:新聞のクリップ

A Survey of Requirements for COVID-19 Mitigation Strategies. Part I: Newspaper Clips ( http://arxiv.org/abs/2011.07887v3 )

ライセンス: Link先を確認
Wojciech Jamroga, David Mestel, Peter B. Roenne, Peter Y. A. Ryan, Marjan Skrobot(参考訳) 新型コロナウイルスのパンデミックは、私たちの生活のあらゆる側面に影響を与えています。 世界各国は、社会的、政治的、技術的手段に基づいた様々な緩和戦略を流行に応用してきた。 我々は、特定の緩和戦略にコミットする前に、関連する要件を識別するべきであると仮定する。 これを実現する一つの方法は、一般大衆が関係していると考えられるものを概観し、メディアで言及することである。 この目的のために、私たちは多くのニュースクリップを集め、緩和戦略の可能な目標と要件について言及しました。 スニペットは、健康関連の目標、社会的、政治的影響、公民権、倫理的要件など、いくつかのカテゴリに分類される。 近日発表のコンパニオンペーパーでは,ニュースクリップから得られた要件のダイジェストと,それらの公式仕様に関する予備的考察を紹介する。

The COVID-19 pandemic has influenced virtually all aspects of our lives. Across the world, countries have applied various mitigation strategies for the epidemic, based on social, political, and technological instruments. We postulate that one should {identify the relevant requirements} before committing to a particular mitigation strategy. One way to achieve it is through an overview of what is considered relevant by the general public, and referred to in the media. To this end, we have collected a number of news clips that mention the possible goals and requirements for a mitigation strategy. The snippets are sorted thematically into several categories, such as health-related goals, social and political impact, civil rights, ethical requirements, and so on. In a forthcoming companion paper, we will present a digest of the requirements, derived from the news clips, and a preliminary take on their formal specification.
翻訳日:2023-04-23 23:51:51 公開日:2021-01-22
# ハイパーエンタングルメントを用いた高効率多部絡み合い浄化

High efficient multipartite entanglement purification using hyperentanglement ( http://arxiv.org/abs/2101.08920v1 )

ライセンス: Link先を確認
Lan Zhou, Pei-Shun Yan, Wei Zhong, Yu-Bo Sheng(参考訳) マルチパーティ・エンタングルメントは、制御された量子テレポーテーション、量子秘密共有、量子メトロジー、その他の重要な量子情報分野において重要な役割を果たす。 しかし、ノイズのため、最大多部交絡状態は混合状態に分解される。 グリーンバーガー・ホルン・ザイリンガー(GHZ)状態において,N-光子系における高品質な絡み合い状態から,高品質な絡み合い状態を抽出できる効率的な多部絡み合い浄化プロトコル(EPP)を提案する。 このプロトコルを実行した後、空間モード絡み合いを用いて偏光絡みを浄化し、1対の高品質偏光絡み状態を得る。 このETPにはいくつかの利点がある。 第一に、同じ浄化成功確率で、このEPPは1対の多部GHZ状態のみを必要とするが、既存のETPは2対の多部GHZ状態を必要とする。 第二に、実用的な透過率と検出器効率を考えると、このEPPは光子数と透過距離の両方で精製効率の比が急速に増加するのに非常に有用である。 第三に、このプロトコルは線形光学を必要としており、実験のために追加の計測操作を加えない。 これらすべての利点により、このプロトコルは将来の量子情報処理に潜在的に応用される。

Multipartite entanglement plays an important role in controlled quantum teleportation, quantum secret sharing, quantum metrology and some other important quantum information branches. However, the maximally multipartite entangled state will degrade into the mixed state because of the noise. We present an efficient multipartite entanglement purification protocol (EPP) which can distill the high quality entangled states from low quality entangled states for N-photon systems in a Greenberger-Horne-Zeilinger (GHZ) state in only linear optics. After performing the protocol, the spatial-mode entanglement is used to purify the polarization entanglement and one pair of high quality polarization entangled state will be obtained. This EPP has several advantages. Firstly, with the same purification success probability, this EPP only requires one pair of multipartite GHZ state, while existing EPPs usually require two pairs of multipartite GHZ state. Secondly, if consider the practical transmission and detector efficiency, this EPP may be extremely useful for the ratio of purification efficiency is increased rapidly with both the number of photons and the transmission distance. Thirdly, this protocol requires linear optics and does not add additional measurement operations, so that it is feasible for experiment. All these advantages will make this protocol have potential application for future quantum information processing.
翻訳日:2023-04-14 06:33:22 公開日:2021-01-22
# 量子偏光変換装置における絡み合い尺度としてのウィグナー関数のネガティビティについて

On the negativity of the Wigner function as a measure of entanglement under quantum polarization converter devices ( http://arxiv.org/abs/2101.09182v1 )

ライセンス: Link先を確認
Mustapha Ziane and Morad El Baz(参考訳) 量子偏光変換器の非ガウス状態における絡み合いの尺度として, ウィグナー関数の負性(NWF)の挙動について検討した。 2モードコヒーレント状態の重ね合わせで作成するシステムにおいて、この量を他のエンタングルメント尺度と比較分析する。 WFは非ガウス的絡み合いの量化器として同定できることを示す。

We study the behaviour of the Negativity of Wigner Function (NWF) as a measure of entanglement in non-Gaussian states under quantum polarisation converter devices. We analyze comparatively this quantity with other measures of entanglement in a system prepared in a superposition of two-mode coherent states. We show that the (WF) can be identified as a quantifier of non-Gaussian entanglement.
翻訳日:2023-04-14 06:29:24 公開日:2021-01-22
# 固定重み付き2層フィードフォワードニューラルネットワークの近似能力

Approximation capability of two hidden layer feedforward neural networks with fixed weights ( http://arxiv.org/abs/2101.09181v1 )

ライセンス: Link先を確認
Namig J. Guliyev, Vugar E. Ismailov(参考訳) 我々は2つの隠れ層feedforward neural network(tlfn)モデルを構築し、その重みをd$-dimensional euclidean spaceの単位座標ベクトルとして固定し、合計3d+2$の隠れニューロンを持つ。 この結果は特に、固定重みを持つSLFNは多変量関数を近似する能力を持たないため、単一の隠れ層フィードフォワードニューラルネットワーク(SLFN)モデルよりもTLFNモデルの方が優れていることを示している。

We algorithmically construct a two hidden layer feedforward neural network (TLFN) model with the weights fixed as the unit coordinate vectors of the $d$-dimensional Euclidean space and having $3d+2$ number of hidden neurons in total, which can approximate any continuous $d$-variable function with an arbitrary precision. This result, in particular, shows an advantage of the TLFN model over the single hidden layer feedforward neural network (SLFN) model, since SLFNs with fixed weights do not have the capability of approximating multivariate functions.
翻訳日:2023-04-14 06:29:18 公開日:2021-01-22
# 量子メッセージのための量子プライベート情報検索

Quantum Private Information Retrieval for Quantum Messages ( http://arxiv.org/abs/2101.09041v1 )

ライセンス: Link先を確認
Seunghoan Song and Masahito Hayashi(参考訳) 量子プライベート情報検索(Quantum Private Information Search、QPIR)とは、ユーザが1つまたは複数のサーバから複数の量子状態の1つを検索するプロトコルである。 我々はQPIRを,サーバがメッセージ状態の1つのコピーを含むブラインド設定と,サーバがメッセージ状態の記述を含む可視設定の2つの異なる設定で検討する。 両設定の簡単な解決策は、サーバからすべての状態をダウンロードすることであり、本論文の主目的は、より効率的なQPIRプロトコルを見つけることである。 まず、簡単な解法がブラインド環境でのワンサーバQPIRに最適であることを示す。 1ラウンドプロトコルでは、可視設定でも同じ最適性が保たれる。 一方、ユーザとサーバが絡み合う場合、ブラインド設定に効率的なワンサーバQPIRプロトコルが存在することが証明される。 さらに、可視環境では、ユーザがターゲット外メッセージの情報を入手しない対称QPIRプロトコルを構築することが可能であることを示す。 純状態のための2サーバ対称QPIRプロトコルを3つ構築する。 対称古典的PIRは、ユーザが知らない共有ランダム性なしでは不可能である。

Quantum private information retrieval (QPIR) for quantum messages is the protocol in which a user retrieves one of the multiple quantum states from one or multiple servers without revealing which state is retrieved. We consider QPIR in two different settings: the blind setting, in which the servers contain one copy of the message states, and the visible setting, in which the servers contain the description of the message states. One trivial solution in both settings is downloading all states from the servers and the main goal of this paper is to find more efficient QPIR protocols. First, we prove that the trivial solution is optimal for one-server QPIR in the blind setting. In one-round protocols, the same optimality holds even in the visible setting. On the other hand, when the user and the server share entanglement, we prove that there exists an efficient one-server QPIR protocol in the blind setting. Furthermore, in the visible setting, we prove that it is possible to construct symmetric QPIR protocols in which the user obtains no information of the non-targeted messages. We construct three two-server symmetric QPIR protocols for pure states. Note that symmetric classical PIR is impossible without shared randomness unknown to the user.
翻訳日:2023-04-14 06:28:53 公開日:2021-01-22
# 強化学習による効率的な量子制御の実現

Experimentally Realizing Efficient Quantum Control with Reinforcement Learning ( http://arxiv.org/abs/2101.09020v1 )

ライセンス: Link先を確認
Ming-Zhong Ai, Yongcheng Ding, Yue Ban, Jos\'e D. Mart\'in-Guerrero, Jorge Casanova, Jin-Ming Cui, Yun-Feng Huang, Xi Chen, Chuan-Feng Li, Guang-Can Guo(参考訳) ロバストで高精度な量子制御は、スケーラブルな量子計算と量子情報処理には不可欠だが難しい。 従来の断熱制御は、量子系のコヒーレンス時間に制限があるため、環境騒音によるゲート性能が著しく制限される。 本研究は, トラップされた$^{171}\mathrm{Yb}^{+}$ ion上で, 深部強化学習(DRL)に基づく代替手法 {to quantum control} を実験的に実証する。 特に、drlは、adiabaticity} (sta)へのショートカットによって制限された実行時間を持つ高速で堅牢な{デジタル量子演算に繋がる。 さらに,Raviとdetuningエラーの両方に対してDRLの堅牢性をSTAからの入力なしで同時に実現できることを示す。 我々の実験は、デジタル量子制御の一般的な枠組みを明らかにし、量子情報処理の有望な向上につながった。

Robust and high-precision quantum control is crucial but challenging for scalable quantum computation and quantum information processing. Traditional adiabatic control suffers severe limitations on gate performance imposed by environmentally induced noise because of a quantum system's limited coherence time. In this work, we experimentally demonstrate an alternative approach {to quantum control} based on deep reinforcement learning (DRL) on a trapped $^{171}\mathrm{Yb}^{+}$ ion. In particular, we find that DRL leads to fast and robust {digital quantum operations with running time bounded by shortcuts to adiabaticity} (STA). Besides, we demonstrate that DRL's robustness against both Rabi and detuning errors can be achieved simultaneously without any input from STA. Our experiments reveal a general framework of digital quantum control, leading to a promising enhancement in quantum information processing.
翻訳日:2023-04-14 06:28:36 公開日:2021-01-22
# 連続可変量子鍵分布における情報漏洩の最小化

Minimization of information leakage in continuous-variable quantum key distribution ( http://arxiv.org/abs/2101.08965v1 )

ライセンス: Link先を確認
Matthew S. Winnel, Nedasadat Hosseinidehaj, Timothy C. Ralph(参考訳) 単一の四角形における絞込み状態のガウス変調に基づく通信プロトコルをホモダイン検出により測定することにより、純損失チャネルにおける盗聴者への情報漏洩を完全に排除することができる。 しかし、光の次数に関するプロトコルの非対称性はセキュリティの問題を示し、盗聴者の情報は必ずしも一般的な非対称攻撃に対して最小化されない。 ここでは,非対称集団攻撃に対する非対称プロトコルの漸近的セキュリティ解析を行い,ハイゼンベルクの不確実性原理を用いて盗聴者の情報を拘束する。 境界は厳密ではないので、我々はプロトコルを厳密な方法で対称化し、非対称性の問題を完全に捨てる。 提案プロトコルは,純粋損失チャネルにおける情報漏洩を漸近的に排除し,ノイズチャネルにおける情報漏洩を最小化する。

A communication protocol based on a Gaussian modulation of squeezed states in a single quadrature and measured via homodyne detection can completely eliminate information leakage to an eavesdropper in a pure-loss channel. However, the asymmetry of the protocol with respect to the quadratures of light presents security issues and the eavesdropper's information is not necessarily minimized for general asymmetric attacks. Here, we perform asymptotic security analysis of the asymmetric protocol against general asymmetric collective attacks and bound the eavesdropper's information via the Heisenberg uncertainty principle. The bound is not tight and therefore, we symmetrize the protocol in a heralding way, discarding the issues of asymmetry altogether. Our proposed heralding protocol asymptotically eliminates information leakage in a pure-loss channel and minimizes leakage in a noisy channel.
翻訳日:2023-04-14 06:27:33 公開日:2021-01-22
# ダイヤモンド窒素空孔による外空洞レーザーの緑色吸収を利用したレーザーしきい値磁力測定

Laser threshold magnetometry using green light absorption by diamond nitrogen vacancies in an external cavity laser ( http://arxiv.org/abs/2101.09277v1 )

ライセンス: Link先を確認
James L. Webb, Andreas F. L. Poulsen, Robert Staacke, Jan Meijer, Kirstine Berg-S{\o}rensen, Ulrik Lund Andersen, Alexander Huck(参考訳) ダイヤモンドの窒素空白(nv)中心は、最近の量子センシング利用の関心を惹きつけており、地球物理学からバイオメディシンまで幅広い応用の感度を高めている。 従来のセンシング方式では、グリーンレーザーとマイクロ波照明の下でNV中心からの赤色蛍光の変化を監視する。 nv三重項状態における発光からの強い蛍光背景と、出力変化に対する相対コントラストが低いため、高い光ショットノイズレベルによって感度が厳しく制限される。 そこで本研究では,発振しきい値に近い半導体外部キャビティレーザの一部としてダイヤモンドを通したグリーンポンプ吸収の変化を用いて,この問題を回避する手法を提案する。 最適密度のNV中心を持つダイヤモンドを用いて,pT/sqrt(Hz)レベルの磁場に対する理論的感度を示す。 本稿では,本手法の物理的要件と限界,特に閾値付近での増幅自然放出の役割について論じ,現在の技術を用いた現実的な実装を探求する。

Nitrogen vacancy (NV) centers in diamond have attracted considerable recent interest for use in quantum sensing, promising increased sensitivity for applications ranging from geophysics to biomedicine. Conventional sensing schemes involve monitoring the change in red fluorescence from the NV center under green laser and microwave illumination. Due to the strong fluorescence background from emission in the NV triplet state and low relative contrast of any change in output, sensitivity is severely restricted by a high optical shot noise level. Here, we propose a means to avoid this issue, by using the change in green pump absorption through the diamond as part of a semiconductor external cavity laser run close to lasing threshold. We show theoretical sensitivity to magnetic field on the pT/sqrt(Hz) level is possible using a diamond with an optimal density of NV centers. We discuss the physical requirements and limitations of the method, particularly the role of amplified spontaneous emission near threshold and explore realistic implementations using current technology.
翻訳日:2023-04-14 06:19:55 公開日:2021-01-22
# 衛星リンク上の圧縮・コヒーレント状態連続可変量子鍵分布の適用性

Applicability of Squeezed-and Coherent-State Continuous-Variable Quantum Key Distribution over Satellite Links ( http://arxiv.org/abs/2101.09270v1 )

ライセンス: Link先を確認
Ivan Derkach, Vladyslav C Usenko(参考訳) 我々は、低地球軌道を考慮し、強いチャネル減衰、大気乱流、有限データアンサンブルサイズ効果を考慮し、長距離衛星ベースリンク上で連続可変コヒーレントおよび圧縮状態による量子鍵分布の適用性について論じる。 チャネル出力の信頼できない余分なノイズに対する厳密なセキュリティバウンダリを得るには,ノイズの安定化と損失の低減を目的とした実質的な努力が必要であり,個別または受動的集団攻撃が想定された場合,プロトコルを衛星通信上で現実的に実装できることが示唆される。 さらに、衛星パスを離散セグメントに分割し、単一のパス全体からではなく各キーを抽出することにより、信頼できないチャネルノイズに対する堅牢性を効果的に改善し、アクティブな集団攻撃下で安全なキーを確立することができる。 そこで本研究では,システムクロックレートとアパーチャサイズを低減できるプロトコルの適用性を大幅に向上させ,コヒーレント状態プロトコルに比べてチャネル減衰やノイズに対するロバスト性が向上することを示す。

We address the applicability of quantum key distribution with continuous-variable coherent and squeezed states over long-distance satellite-based links, considering low Earth orbits and taking into account strong varying channel attenuation, atmospheric turbulence and finite data ensemble size effects. We obtain tight security bounds on the untrusted excess noise on the channel output, which suggest that substantial efforts aimed at setup stabilization and reduction of noise and loss are required, or the protocols can be realistically implemented over satellite links once either individual or passive collective attacks are assumed. Furthermore, splitting the satellite pass into discrete segments and extracting the key from each rather than from the overall single pass allows one to effectively improve robustness against the untrusted channel noise and establish a secure key under active collective attacks. We show that feasible amounts of optimized signal squeezing can substantially improve the applicability of the protocols allowing for lower system clock rates and aperture sizes and resulting in higher robustness against channel attenuation and noise compared to the coherent-state protocol
翻訳日:2023-04-14 06:19:37 公開日:2021-01-22
# インテリジェントシティモビリティシステムのための効率的なデータ管理

Efficient Data Management for Intelligent Urban Mobility Systems ( http://arxiv.org/abs/2101.09261v1 )

ライセンス: Link先を確認
Michael Wilbur, Philip Pugliese, Aron Laszka, Abhishek Dubey(参考訳) 現代のインテリジェントな都市モビリティアプリケーションは、大規模で多変量で時空間的なデータストリームによって支えられている。 このデータを扱うことは、データ管理、処理、プレゼンテーションの独特な課題を示し、研究者がしばしば見落としている。 そこで本稿では,パートナー交通機関が現在使用しているインテリジェントな都市移動システムのための統合データ管理・処理フレームワークを提案する。 利用可能なデータソースについて論じ、クラウド中心のデータ管理とストリーム処理アーキテクチャを、オープンソースのパブリッシュ・サブスクライブおよびnosqlデータストアに基づいて概説します。 次に,データ統合モニタリング手法について述べる。 次に、交通機関のパートナー向けに設計された視覚化ダッシュボードを提示します。 最後に、これらのツールが、これらのツールを使用するAI駆動の都市移動アプリケーションに現在どのように使われているかについて議論する。

Modern intelligent urban mobility applications are underpinned by large-scale, multivariate, spatiotemporal data streams. Working with this data presents unique challenges of data management, processing and presentation that is often overlooked by researchers. Therefore, in this work we present an integrated data management and processing framework for intelligent urban mobility systems currently in use by our partner transit agencies. We discuss the available data sources and outline our cloud-centric data management and stream processing architecture built upon open-source publish-subscribe and NoSQL data stores. We then describe our data-integrity monitoring methods. We then present a set of visualization dashboards designed for our transit agency partners. Lastly, we discuss how these tools are currently being used for AI-driven urban mobility applications that use these tools.
翻訳日:2023-04-14 06:19:17 公開日:2021-01-22
# ブラジルのファベラ女性:テクノロジーの標準的解決策は本当にひどい

Brazilian Favela Women: How Your Standard Solutions for Technology Abuse Might Actually Harm Them ( http://arxiv.org/abs/2101.09257v1 )

ライセンス: Link先を確認
Mirela Silva, Daniela Oliveira(参考訳) ブラジルの人口は2億人を超え、その大半はインターネットにアクセスしている。 1100万人以上のブラジル人がファベラに住んでおり、外部の政府規制のない非公式の集落で、しばしば麻薬や民兵によって支配されている。 これらのコミュニティにおける親密なパートナー暴力(ipv)の犠牲者は、リソースへのアクセスの欠如だけでなく、犯罪活動と警察の対立によって引き起こされる暴力の層によってさらに脆弱になっている。 本稿では,favela 女性の独特なオンラインプライバシーニーズを分析し,技術乱用研究者に検討を迫る研究課題を提示するために,意図しない harms フレームワークを用いた。

Brazil is home to over 200M people, the majority of which have access to the Internet. Over 11M Brazilians live in favelas, or informal settlements with no outside government regulation, often ruled by narcos or militias. Victims of intimate partner violence (IPV) in these communities are made extra vulnerable not only by lack of access to resources, but by the added layer of violence caused by criminal activity and police confrontations. In this paper, we use an unintended harms framework to analyze the unique online privacy needs of favela women and present research questions that we urge tech abuse researchers to consider.
翻訳日:2023-04-14 06:19:07 公開日:2021-01-22
# 新型コロナウイルス対策戦略の要件調査 第2部:要求の緩和

A Survey of Requirements for COVID-19 Mitigation Strategies. Part II: Elicitation of Requirements ( http://arxiv.org/abs/2101.09241v1 )

ライセンス: Link先を確認
Wojciech Jamroga(参考訳) 新型コロナウイルスのパンデミックは、私たちの生活のあらゆる側面に影響を与えています。 世界中の国々は、社会的、政治的、技術的手段に基づく様々な緩和戦略を適用してきた。 マルチエージェントシステムは、それらの本質を研究(およびバランス)するための共通のプラットフォームを提供することができると仮定する。 また, メディアスニペットから「蒸留」することで, 総合的な特性リストを得る方法を示す。 最後に,マルチエージェント論理のアイデアを用いて,形式仕様の予備的考察を行う。

The COVID-19 pandemic has influenced virtually all aspects of our lives. Across the world, countries have applied various mitigation strategies, based on social, political, and technological instruments. We postulate that multi-agent systems can provide a common platform to study (and balance) their essential properties. We also show how to obtain a comprehensive list of the properties by "distilling" them from media snippets. Finally, we present a preliminary take on their formal specification, using ideas from multi-agent logics.
翻訳日:2023-04-14 06:18:52 公開日:2021-01-22
# Pseudo-chirality:非エルミート系におけるネーターの定理の証明

Pseudo-chirality: a manifestation of Noether's theorem in non-Hermitian systems ( http://arxiv.org/abs/2101.09239v1 )

ライセンス: Link先を確認
Jose D. H. Rivero and Li Ge(参考訳) ネーターの定理は系の対称性に運動定数を関連付ける。 ここでは、内積が量子力学と異なる意味で定義される非エルミート系におけるネーターの定理の顕現を考察する。 この枠組みでは、擬キラリティと呼ばれる一般化対称性は、量子力学における可換関係によって定義される対称性の対として自然に現れる。 この観察を用いて、パリティ時間とキラル対称性を持つ非エルミート系において、以前に同定されなかった運動定数を明らかにする。 一般化された「粒子」と対応する「穴」の対の励起を信号するが、擬キラル作用素が反対称であるときに普遍的に消滅する。 この差は、ランダウゲージと非エルミート位相格子に現れるとき、格子の大きさが偶数か奇数かに依存する。 さらに, この非エルミート位相系の既定対称性についても検討し, 擬キラリティによる運動定数が, 純キラルエッジ状態が励起されるかどうかの指標としてどのように用いられるかを明らかにする。

Noether's theorem relates constants of motion to the symmetries of the system. Here we investigate a manifestation of Noether's theorem in non-Hermitian systems, where the inner product is defined differently from quantum mechanics. In this framework, a generalized symmetry which we term pseudo-chirality emerges naturally as the counterpart of symmetries defined by a commutation relation in quantum mechanics. Using this observation, we reveal previously unidentified constants of motion in non-Hermitian systems with parity-time and chiral symmetries. We further elaborate the disparate implications of pseudo-chirality induced constant of motion: It signals the pair excitation of a generalized "particle" and the corresponding "hole" but vanishes universally when the pseudo-chiral operator is anti-symmetric. This disparity, when manifested in a non-Hermitian topological lattice with the Landau gauge, depends on whether the lattice size is even or odd. We further discuss previously unidentified symmetries of this non-Hermitian topological system, and we reveal how its constant of motion due to pseudo-chirality can be used as an indicator of whether a pure chiral edge state is excited.
翻訳日:2023-04-14 06:18:45 公開日:2021-01-22
# 権威の認可:aiに対する公共の信頼を促進する

The Sanction of Authority: Promoting Public Trust in AI ( http://arxiv.org/abs/2102.04221v1 )

ライセンス: Link先を確認
Bran Knowles and John T. Richards(参考訳) これまで、信頼できるAI文献は、個別のAIと故意に対話するユーザの信頼のニーズに焦点を当ててきた。 文学から明らかな欠落は、AIに対する公的な信頼の厳格な扱いである。 我々は、AIの公的な不信は、社会に浸透するAIの信頼性を保証する規制エコシステムの過小開発に由来すると論じている。 構造理論と機関的信頼に関する文献から、信頼されたAI活動を推進するモデルとは大きく異なるAIに対する公的な信頼のモデルを提供する。 このモデルは信頼できるai研究のための理論的足場を提供し、包括的かつ視覚的に機能する規制エコシステムを開発することの必要性を強調する。 このモデルにおける外部監査可能なAIドキュメントの役割と、それが効果的であることを保証するための作業について詳しく説明し、AIに対する公的な信頼を促進するための多くのアクションを概説する。 我々は、aiコンポーネントの潜在的な採用者への通知とリスクと倫理審査委員会の審議を支援する組織内でaiドキュメンテーションを開発する既存の取り組みが、aiの信頼性の保証に不足していることについて議論する。 私たちは、AIのルールを策定し、これらのルールを執行するためのリソースを開発することによって、信頼を得る方法において、一般大衆に責任を負うことが、最終的にAIを社会の基盤に織り込むのに十分な信頼に値するものにするものである、と論じています。

Trusted AI literature to date has focused on the trust needs of users who knowingly interact with discrete AIs. Conspicuously absent from the literature is a rigorous treatment of public trust in AI. We argue that public distrust of AI originates from the under-development of a regulatory ecosystem that would guarantee the trustworthiness of the AIs that pervade society. Drawing from structuration theory and literature on institutional trust, we offer a model of public trust in AI that differs starkly from models driving Trusted AI efforts. This model provides a theoretical scaffolding for Trusted AI research which underscores the need to develop nothing less than a comprehensive and visibly functioning regulatory ecosystem. We elaborate the pivotal role of externally auditable AI documentation within this model and the work to be done to ensure it is effective, and outline a number of actions that would promote public trust in AI. We discuss how existing efforts to develop AI documentation within organizations -- both to inform potential adopters of AI components and support the deliberations of risk and ethics review boards -- is necessary but insufficient assurance of the trustworthiness of AI. We argue that being accountable to the public in ways that earn their trust, through elaborating rules for AI and developing resources for enforcing these rules, is what will ultimately make AI trustworthy enough to be woven into the fabric of our society.
翻訳日:2023-04-14 06:10:59 公開日:2021-01-22
# 量子コンピュータ上のレナード・ジョーンズポテンシャルのシミュレーション

Simulation of Lennard-Jones Potential on a Quantum Computer ( http://arxiv.org/abs/2101.10202v1 )

ライセンス: Link先を確認
Prabhat and Bikash K. Behera(参考訳) 時間的物理問題のシミュレーションは、時間的複雑さのために古典コンピュータにとって課題となっている。 この状態における古典的コンピュータに対する量子コンピュータの優位性を示すために,2つの中性粒子が1次元系のレナード・ジョーンズポテンシャルを介して相互作用する半経験的モデルをシミュレートする。 5量子ビットの実デバイスを用いて,ibm quantum experienceプラットフォーム上で上記のシナリオを実装した。 我々はハミルトニアンを構築し、ハミルトニアンから得られる時間発展ユニタリ行列を用いて量子ゲート上の量子作用素に効率的に写像する。 我々はQASMシミュレータから収集した結果を検証し、5ビット実チップ ibmqx2 と比較する。

Simulation of time dynamical physical problems has been a challenge for classical computers due to their time-complexity. To demonstrate the dominance of quantum computers over classical computers in this regime, here we simulate a semi-empirical model where two neutral particles interact through Lennard-Jones potential in a one-dimensional system. We implement the above scenario on the IBM quantum experience platform using a 5-qubit real device. We construct the Hamiltonian and then efficiently map it to quantum operators onto quantum gates using the time-evolutionary unitary matrix obtained from the Hamiltonian. We verify the results collected from the QASM-simulator and compare it with that of the 5-qubit real chip ibmqx2.
翻訳日:2023-04-14 06:10:35 公開日:2021-01-22
# 三国間自動移動

Trinational Automated Mobility ( http://arxiv.org/abs/2101.10187v1 )

ライセンス: Link先を確認
Jonas Vogt, Niclas Wolniak, Prof. Dr.-Ing. Horst Wieker(参考訳) 安全で環境に配慮したフレキシブルであり、これらは将来のモビリティの中心的な要件である。 ドイツ、フランス、ルクセンブルクのヨーロッパ国境地域では、労働と快楽の世界における機動性が決定的な要因である。 シンプルで安価で、誰でも利用できなければならない。 道路交通の自動化とインテリジェントな接続が重要な役割を担っている。 多くの小さな町や村といくつかの中央ホットスポットがある分散した集落構造のため、完全に利用可能な公共交通機関は非常に複雑で費用がかかり、バスや鉄道路線も数本しか存在しない。 この文脈において、三国研究プロジェクト端末は、定期的な交通量で国境を越えた自動ミニバスを確立し、通勤交通に対する利用者の受け入れを探求することを目的としている。 さらに、モビリティ・オン・デマンド・サービスはテストされ、どちらも既存の公共交通インフラに組み込まれる。

Safe, environmentally conscious and flexible, these are the central requirements for the future mobility. In the European border region between Germany, France and Luxembourg, mobility in the world of work and pleasure is a decisive factor. It must be simple, affordable and available to all. The automation and intelligent connection of road traffic plays an important role in this. Due to the distributed settlement structure with many small towns and village and a few central hot spots, a fully available public transport is very complex and expensive and only a few bus and train lines exist. In this context, the trinational research project TERMINAL aims to establish a cross-border automated minibus in regular traffic and to explore the user acceptance for commuter traffic. Additionally, mobility on demand services are tested, and both will be embedded within the existing public transport infrastructure.
翻訳日:2023-04-14 06:10:24 公開日:2021-01-22
# 神経認知と交通に基づくハンドオーバ戦略

Neurocognitive and traffic based handover strategies ( http://arxiv.org/abs/2101.10186v1 )

ライセンス: Link先を確認
Andreas Otte, Jonas Vogt, Jens Staub, Niclas Wolniak and Horst Wieker(参考訳) 自動車の自動化のレベルは、今後10年間で大幅に増加するだろう。 自動化がますます一般的になるにつれて、車両は長い間、交通関連の状況をすべてマスターすることはできない。 このような状況では、ドライバーが引き継ぎ、状況を通じて車両を操縦しなければならない。 重要な質問の1つは、いつ買収が行われるべきかである。 多くの決定的な要因を考慮する必要がある。 一方、道路、信号機、その他の道路利用者、特に脆弱な道路利用者を含む現在の交通状況と、運転者の状態を考慮する必要がある。 目標は、ドライバの状態と静的および動的トラフィック関連データのニューロ認知計測を組み合わせることで、現在の状況の解釈を開発することである。 この状況分析は、最善の乗っ取り点の決定の基礎となるべきである。

The level of automation in vehicles will significantly increase over the next decade. As automation will become more and more common, vehicles will not be able to master all traffic related situations for a long time by themselves. In such situations, the driver must take over and steer the vehicle through the situation. One of the important questions is when the takeover should be performed. Many decisive factors must be considered. On the one hand, the current traffic situation including roads, traffic light and other road users, especially vulnerable road users, and on the other hand, the state of the driver must be considered. The goal is to combine neurocognitive measurement of the drivers state and the static and dynamic traffic related data to develop an interpretation of the current situation. This situation analysis should be the basis for the determination of the best takeover point.
翻訳日:2023-04-14 06:10:11 公開日:2021-01-22
# Ants-Review:Ethereumのオープンピアレビューをインセンティブとしたプロトコル

Ants-Review: a Protocol for Incentivized Open Peer-Reviews on Ethereum ( http://arxiv.org/abs/2101.09378v1 )

ライセンス: Link先を確認
Bianca Trov\`o and Nazzareno Massari(参考訳) ピアレビューは科学出版物にとって必要不可欠な品質管理段階であるが、適切なインセンティブがない。 実際、時間と知的投資の面で非常にコストがかかるこのプロセスは、ジャーナルによって報酬されるだけでなく、研究者にとって関連する科学的成果として学術界によって公に認められていない。 したがって、科学的拡散は時間軸、品質、公平性に影響される。 本稿では,この問題を解決するために,科学者が他の科学者の業績を査読し,信頼と評判を高めるための,ブロックチェーンベースのインセンティブシステムを提案する。 私たちは、ethereumのオープン匿名ピアレビューに対して報奨金を発行できるants-reviewと呼ばれる、スマートコントラクトのプライバシ指向プロトコルを設計しました。 要件が満たされれば、ピアレビューは承認者が評価した品質に比例して受け取り、支払われる。 倫理的行動と包括性を促進するために、システムは、コミュニティ全体がピアレビューを評価し、ベストレビューに投票できるようにゲーミフィケーションされたメカニズムを実装している。

Peer-review is a necessary and essential quality control step for scientific publications but lacks proper incentives. Indeed, the process, which is very costly in terms of time and intellectual investment, not only is not remunerated by the journals but is also not openly recognized by the academic community as a relevant scientific output for a researcher. Therefore, scientific dissemination is affected in timeliness, quality, and fairness. Here, to solve this issue, we propose a blockchain-based incentive system that rewards scientists for peer-reviewing other scientists' work and that builds up trust and reputation. We designed a privacy-oriented protocol of smart contracts called Ants-Review that allows authors to issue a bounty for open anonymous peer-reviews on Ethereum. If requirements are met, peer-reviews will be accepted and paid by the approver proportionally to their assessed quality. To promote ethical behavior and inclusiveness the system implements a gamified mechanism that allows the whole community to evaluate the peer-reviews and vote for the best ones.
翻訳日:2023-04-14 06:09:59 公開日:2021-01-22
# 単表面プラズモンポラリトンと相互作用する2次元原子格子からのフォトニックチャーン絶縁体

Photonic Chern insulators from two-dimensional atomic lattices interacting with a single surface plasmon polariton ( http://arxiv.org/abs/2101.09370v1 )

ライセンス: Link先を確認
Rituraj, Meir Orenstein, Shanhui Fan(参考訳) 表面プラズモンポラリトンモードの単一励起と結合した2次元原子格子の分極帯構造について検討した。 角運動量が異なる励起状態への共振原子遷移によってチャーン数が異なる位相ギャップを実現する可能性を示す。 本研究では,最近提案されたdirichlet-to-neumann (dtn) マップ法に基づく計算手法を用いて,非マルコフ力学や高次電気・磁気多極遷移の相互作用を正確にモデル化する。 単一光子の一方向放射と非相互伝送を実現するために用いられる位相的に頑健なエッジ状態を設計する。 また,そのようなシステムにおいて,チャーン数の高いバンドを実現する際の課題を指摘する。

We study the polaritonic bandstructure of two-dimensional atomic lattices coupled to a single excitation of a surface plasmon polariton mode. We show the possibility of realizing topological gaps with different Chern numbers by having resonant atomic transitions to excited states with different angular momentum. We employ a computational method based on the recently proposed Dirichlet-to-Neumann (DtN) map technique which accurately models non-Markovian dynamics as well as interactions involving higher-order electric and magnetic multipole transitions. We design topologically robust edge states which are used to achieve unidirectional emission and non-reciprocal transmission of single photons. We also point out the challenges in realizing bands with higher Chern numbers in such systems.
翻訳日:2023-04-14 06:09:40 公開日:2021-01-22
# 化学応用のための非単位変分量子固有解法によるノイズ装置の精度向上

Improved accuracy on noisy devices by non-unitary Variational Quantum Eigensolver for chemistry applications ( http://arxiv.org/abs/2101.09316v1 )

ライセンス: Link先を確認
Francesco Benfenati, Guglielmo Mazzola, Chiara Capecci, Panagiotis Kl. Barkoutsos, Pauline J. Ollitrault, Ivano Tavernelli and Leonardo Guidoni(参考訳) 本稿では、量子コンピュータを用いた電子構造最適化のための変分量子固有解法(Non-unitary Variational Quantum Eigensolver, Nu-VQE)の修正を提案する。 本研究では,古典量子モンテカルロ法に触発された非ユニタリ作用素jastrow因子を用いて,強相関電子のシミュレーションを行う。 本手法は, 測定回数の増加を犠牲にして, 浅い回路で正確な基底状態エネルギーを得るプロトタイプ分子ハミルトニアンに適用する。 最後に,今日の雑音量子コンピュータにおけるVQE最適化結果の品質を大幅に向上させる重要な誤差軽減効果が得られたことも示す。 提案手法における計算エネルギーの絶対誤差は, 従来のVQE法と同等の回路深度で, 対応する結果よりも1桁小さい。

We propose a modification of the Variational Quantum Eigensolver algorithm for electronic structure optimization using quantum computers, named non-unitary Variational Quantum Eigensolver (nu-VQE), in which a non-unitary operator is combined with the original system Hamiltonian leading to a new variational problem with a simplified wavefunction Ansatz. In the present work, we use, as non-unitary operator, the Jastrow factor, inspired from classical Quantum Monte Carlo techniques for simulation of strongly correlated electrons. The method is applied to prototypical molecular Hamiltonians for which we obtain accurate ground state energies with shallower circuits, at the cost of an increased number of measurements. Finally, we also show that this method achieves an important error mitigation effect that drastically improves the quality of the results for VQE optimizations on today's noisy quantum computers. The absolute error in the calculated energy within our scheme is one order of magnitude smaller than the corresponding result using traditional VQE methods, with the same circuit depth.
翻訳日:2023-04-14 06:09:05 公開日:2021-01-22
# 核融合に基づく量子計算

Fusion-based quantum computation ( http://arxiv.org/abs/2101.09310v1 )

ライセンス: Link先を確認
Sara Bartolucci, Patrick Birchall, Hector Bombin, Hugo Cable, Chris Dawson, Mercedes Gimeno-Segovia, Eric Johnston, Konrad Kieling, Naomi Nickerson, Mihir Pant, Fernando Pastawski, Terry Rudolph and Chris Sparrow(参考訳) 核融合型量子コンピューティング (FBQC) は、核融合と呼ばれる核融合測定を、小さな定数サイズの核融合資源状態の量子ビット上で行う普遍量子計算のモデルである。 これらのスキームにおけるフォールトトレランスと計算を分析するために,スタビライザ形式を導入する。 このフレームワークは、フォトニクスのような量子コンピューティングの特定の物理システムで発生するエラー構造を自然に捉えている。 FBQCは、多くの同一モジュールからなるハードウェアを可能とし、各物理量子ビットの操作深度を極端に低くし、古典的な処理要求を低減できる。 本稿では,本フレームワークで構築した耐故障性スキームの2つの例を示し,そのしきい値を消去とパウリ誤差を含むハードウェア非依存核融合誤差モデルで数値的に評価する。 また,確率的融合と光子損失を伴う線形光量子計算の誤差モデルについても検討した。 fbqcでは、核融合の非決定性は量子誤差補正プロトコルと他の誤差によって直接処理される。 我々は、フォールトトレランスフレームワークを物理システムに合わせることで、スキームが文献で報告されたスキームよりも高いしきい値を持つことを見出した。 核融合における光子損失の10.4%の確率を許容できる弾道スキームを提案する。

We introduce fusion-based quantum computing (FBQC) - a model of universal quantum computation in which entangling measurements, called fusions, are performed on the qubits of small constant-sized entangled resource states. We introduce a stabilizer formalism for analyzing fault tolerance and computation in these schemes. This framework naturally captures the error structure that arises in certain physical systems for quantum computing, such as photonics. FBQC can offer significant architectural simplifications, enabling hardware made up of many identical modules, requiring an extremely low depth of operations on each physical qubit and reducing classical processing requirements. We present two pedagogical examples of fault-tolerant schemes constructed in this framework and numerically evaluate their threshold under a hardware agnostic fusion error model including both erasure and Pauli error. We also study an error model of linear optical quantum computing with probabilistic fusion and photon loss. In FBQC the non-determinism of fusion is directly dealt with by the quantum error correction protocol, along with other errors. We find that tailoring the fault-tolerance framework to the physical system allows the scheme to have a higher threshold than schemes reported in literature. We present a ballistic scheme which can tolerate a 10.4% probability of suffering photon loss in each fusion.
翻訳日:2023-04-14 06:08:32 公開日:2021-01-22
# AdaBERT: 可変ニューラルネットワークによるタスク適応BERT圧縮

AdaBERT: Task-Adaptive BERT Compression with Differentiable Neural Architecture Search ( http://arxiv.org/abs/2001.04246v2 )

ライセンス: Link先を確認
Daoyuan Chen, Yaliang Li, Minghui Qiu, Zhen Wang, Bofang Li, Bolin Ding, Hongbo Deng, Jun Huang, Wei Lin, Jingren Zhou(参考訳) BERTのような大規模な事前学習された言語モデルは、様々な自然言語処理タスクにおいてその有効性を示している。 しかし、パラメータの大きさが大きいため、リソースが限られたクイック推論を必要とするリアルタイムアプリケーションへのデプロイが難しくなる。 既存の方法では、BERTを小さなモデルに圧縮するが、そのような圧縮はタスクに依存しない。 本稿では,タスク指向BERT圧縮の必要性とメリットに感化されて,タスク適応型小型モデルにBERTを自動的に圧縮する,微分可能なニューラルアーキテクチャ探索を利用する新しい圧縮手法AdaBERTを提案する。 タスク指向の知識蒸留損失を検索の制約として探索ヒントと効率認識損失を提供し,タスク適応型bert圧縮の効率と有効性の間の良好なトレードオフを可能にする。 我々は,複数のNLPタスクに対してAdaBERTを評価し,これらのタスク適応型圧縮モデルが推定時間でBERTよりも12.7倍から29.3倍速く,パラメータサイズで11.5倍から17.0倍小さいことを示す。

Large pre-trained language models such as BERT have shown their effectiveness in various natural language processing tasks. However, the huge parameter size makes them difficult to be deployed in real-time applications that require quick inference with limited resources. Existing methods compress BERT into small models while such compression is task-independent, i.e., the same compressed BERT for all different downstream tasks. Motivated by the necessity and benefits of task-oriented BERT compression, we propose a novel compression method, AdaBERT, that leverages differentiable Neural Architecture Search to automatically compress BERT into task-adaptive small models for specific tasks. We incorporate a task-oriented knowledge distillation loss to provide search hints and an efficiency-aware loss as search constraints, which enables a good trade-off between efficiency and effectiveness for task-adaptive BERT compression. We evaluate AdaBERT on several NLP tasks, and the results demonstrate that those task-adaptive compressed models are 12.7x to 29.3x faster than BERT in inference time and 11.5x to 17.0x smaller in terms of parameter size, while comparable performance is maintained.
翻訳日:2023-01-11 22:31:38 公開日:2021-01-22
# ExEm: 深層学習による支配的集合論を用いたエキスパート埋め込み

ExEm: Expert Embedding using dominating set theory with deep learning approaches ( http://arxiv.org/abs/2001.08503v2 )

ライセンス: Link先を確認
N. Nikzad-Khasmakhi, M. A. Balafar, M.Reza Feizi-Derakhshi, Cina Motamed(参考訳) コラボレーションネットワークは、特別な目標を達成するために互いに協力する専門家で構成されるソーシャルネットワークである。 このネットワークを解析することで、これらの専門家の専門知識とその主題領域に関する有意義な情報が得られる。 この分析を行うために,グラフ埋め込み技術が有効かつ有望なツールとして登場した。 グラフ埋め込みはグラフノードを低次元ベクトルとして表現しようとする。 本稿では,支配セット理論とディープラーニングアプローチを用いてノード表現をキャプチャする,ExEmと呼ばれるグラフ埋め込み手法を提案する。 exemは協調ネットワークの支配ノードを見つけ、少なくとも2つの支配ノードからなるインテリジェントなランダムウォークを構築する。 1つの支配ノードは、各経路の先頭に現れ、局所的な近傍を特徴付ける。 さらに、第2支配ノードは、グローバル構造情報を反映する。 ノードの埋め込みを学ぶために、ExEmはWord2vec、fastText、これら2つの結合を含む3つの埋め込みメソッドを利用する。 最後の結果は、エキスパート埋め込みと呼ばれる専門家の低次元ベクトルである。 抽出したエキスパート埋め込みは多くのアプリケーションに適用できる。 これらを専門家推薦システムに拡張するために,専門家ベクターを用いて専門家のスコアを算出し,専門家を推薦する新しい戦略を提案する。 最後に,共有データセットにおける複数ラベルの分類,リンク予測,レコメンデーションタスク,および膨大な著者scopusプロファイルをクロールして収集したデータに対する性能評価を通じて,exemの有効性を検証するための広範な実験を行った。 実験の結果, ExEmは特に高密度ネットワークにおいて, ベースラインよりも優れていた。

A collaborative network is a social network that is comprised of experts who cooperate with each other to fulfill a special goal. Analyzing this network yields meaningful information about the expertise of these experts and their subject areas. To perform the analysis, graph embedding techniques have emerged as an effective and promising tool. Graph embedding attempts to represent graph nodes as low-dimensional vectors. In this paper, we propose a graph embedding method, called ExEm, that uses dominating-set theory and deep learning approaches to capture node representations. ExEm finds dominating nodes of the collaborative network and constructs intelligent random walks that comprise of at least two dominating nodes. One dominating node should appear at the beginning of each path sampled to characterize the local neighborhoods. Moreover, the second dominating node reflects the global structure information. To learn the node embeddings, ExEm exploits three embedding methods including Word2vec, fastText and the concatenation of these two. The final result is the low-dimensional vectors of experts, called expert embeddings. The extracted expert embeddings can be applied to many applications. In order to extend these embeddings into the expert recommendation system, we introduce a novel strategy that uses expert vectors to calculate experts' scores and recommend experts. At the end, we conduct extensive experiments to validate the effectiveness of ExEm through assessing its performance over the multi-label classification, link prediction, and recommendation tasks on common datasets and our collected data formed by crawling the vast author Scopus profiles. The experiments show that ExEm outperforms the baselines especially in dense networks.
翻訳日:2023-01-11 00:56:19 公開日:2021-01-22
# センサを用いた人間行動認識のための深層学習 : 概観・課題・機会

Deep Learning for Sensor-based Human Activity Recognition: Overview, Challenges and Opportunities ( http://arxiv.org/abs/2001.07416v2 )

ライセンス: Link先を確認
Kaixuan Chen, Dalin Zhang, Lina Yao, Bin Guo, Zhiwen Yu, Yunhao Liu(参考訳) センサデバイスやモノのインターネットの普及は、センサベースのアクティビティ認識の応用を可能にする。 しかし、実際のシナリオにおいて認識システムの性能に影響を与えるような大きな課題が存在する。 近年,深層学習の有効性が実証され,活動認識の課題に対処するための深層学習手法が数多く研究されている。 本研究では,センサを用いた人間行動認識のための最先端の深層学習手法について調査する。 まず、センサデータのマルチモーダル性を導入し、様々な課題における評価に使用できる公開データセットに関する情報を提供する。 次に,課題によって深い手法を構築するための新しい分類法を提案する。 課題と課題に関連した深い手法を要約して分析し、現在の研究の進捗の概要を形成する。 この作業の最後に、オープンイシューについて議論し、今後の方向性についていくつかの洞察を与えます。

The vast proliferation of sensor devices and Internet of Things enables the applications of sensor-based activity recognition. However, there exist substantial challenges that could influence the performance of the recognition system in practical scenarios. Recently, as deep learning has demonstrated its effectiveness in many areas, plenty of deep methods have been investigated to address the challenges in activity recognition. In this study, we present a survey of the state-of-the-art deep learning methods for sensor-based human activity recognition. We first introduce the multi-modality of the sensory data and provide information for public datasets that can be used for evaluation in different challenge tasks. We then propose a new taxonomy to structure the deep methods by challenges. Challenges and challenge-related deep methods are summarized and analyzed to form an overview of the current research progress. At the end of this work, we discuss the open issues and provide some insights for future directions.
翻訳日:2023-01-08 00:28:12 公開日:2021-01-22
# 機械倫理の実践に関する調査

Implementations in Machine Ethics: A Survey ( http://arxiv.org/abs/2001.07573v2 )

ライセンス: Link先を確認
Suzanne Tolmeijer, Markus Kneer, Cristina Sarasua, Markus Christen, Abraham Bernstein(参考訳) ますます複雑で自律的なシステムは、利益を最大化し、新しい技術から生じる社会へのリスクを最小化するために、機械倫理を必要とする。 どのような倫理理論を採用するか、どのように効果的に実践するかを決めるのは難しい。 この調査には3倍の貢献がある。 まず、その対象(倫理理論)と非技術的・技術的側面に関して機械倫理の実装を分析するために、三型分類法を導入する。 第2に、関連する作品の徹底的な選択と記述を示す。 第三に、選択された作品に新しい分類法を適用し、その分野の主流研究パターンと教訓を特定し、今後の研究の方向性を示唆する。

Increasingly complex and autonomous systems require machine ethics to maximize the benefits and minimize the risks to society arising from the new technology. It is challenging to decide which type of ethical theory to employ and how to implement it effectively. This survey provides a threefold contribution. First, it introduces a trimorphic taxonomy to analyze machine ethics implementations with respect to their object (ethical theories), as well as their nontechnical and technical aspects. Second, an exhaustive selection and description of relevant works is presented. Third, applying the new taxonomy to the selected works, dominant research patterns, and lessons for the field are identified, and future directions for research are suggested.
翻訳日:2023-01-08 00:11:41 公開日:2021-01-22
# プロアクティブICU転送のためのロバストポリシ

Robust Policies For Proactive ICU Transfers ( http://arxiv.org/abs/2002.06247v2 )

ライセンス: Link先を確認
Julien Grand-Clement, Carri W. Chan, Vineet Goyal, Gabriel Escobar(参考訳) 集中治療室(ICU)への移動が計画されていない患者は、ICUに直接入院した患者よりも死亡率が高い傾向にある。 患者劣化を予測する機械学習の最近の進歩は、病棟からICUへの「emph{proactive transfer}」の可能性をもたらした。 本研究では,総合的な患者ケアを改善するために最適化する場合に,データ制限による統計的推定の不確実性を考慮した<emph{robust>患者転送ポリシーを見いだすことの問題点について検討する。 そこで我々は,患者の健康の進化を捉えたマルコフ決定プロセスモデルを提案し,その状態が患者の重症度を示す。 比較的一般的な仮定では、最適な転送ポリシーはしきい値構造を持ち、すなわち、特定の重症度レベル以上のすべての患者をICUに転送する(利用可能な容量に対象)。 モデルパラメータは通常、実世界のデータからの統計的推定に基づいて決定されるため、本質的には誤特定と推定誤差の対象となる。 このパラメータの不確実性は、モデルパラメータのすべての可算値に対して最悪の報酬を最適化するロバストなポリシーを導出することで説明します。 強固なポリシーは、かなり一般的な仮定の下でもしきい値構造を持つことを示す。 さらに、パラメータの不確実性を考慮していない最適な名目方針よりも、患者を移すのに積極的である。 我々は,21KNPC病院における入院状況のデータセットを用いて計算実験を行い,各病院の指標(死亡率,入院期間,ICUの平均値)のパラメータの変化に対する感受性を実証した。 本研究は, パラメータの不確かさが, 高い経験的性能と理論的保証を有する積極的ICU転送の簡単なポリシーの導出に与える影響について, 有用な知見を提供する。

Patients whose transfer to the Intensive Care Unit (ICU) is unplanned are prone to higher mortality rates than those who were admitted directly to the ICU. Recent advances in machine learning to predict patient deterioration have introduced the possibility of \emph{proactive transfer} from the ward to the ICU. In this work, we study the problem of finding \emph{robust} patient transfer policies which account for uncertainty in statistical estimates due to data limitations when optimizing to improve overall patient care. We propose a Markov Decision Process model to capture the evolution of patient health, where the states represent a measure of patient severity. Under fairly general assumptions, we show that an optimal transfer policy has a threshold structure, i.e., that it transfers all patients above a certain severity level to the ICU (subject to available capacity). As model parameters are typically determined based on statistical estimations from real-world data, they are inherently subject to misspecification and estimation errors. We account for this parameter uncertainty by deriving a robust policy that optimizes the worst-case reward across all plausible values of the model parameters. We show that the robust policy also has a threshold structure under fairly general assumptions. Moreover, it is more aggressive in transferring patients than the optimal nominal policy, which does not take into account parameter uncertainty. We present computational experiments using a dataset of hospitalizations at 21 KNPC hospitals, and present empirical evidence of the sensitivity of various hospital metrics (mortality, length-of-stay, average ICU occupancy) to small changes in the parameters. Our work provides useful insights into the impact of parameter uncertainty on deriving simple policies for proactive ICU transfer that have strong empirical performance and theoretical guarantees.
翻訳日:2023-01-01 04:32:23 公開日:2021-01-22
# DeepSign: オンライン署名の深い検証

DeepSign: Deep On-Line Signature Verification ( http://arxiv.org/abs/2002.10119v3 )

ライセンス: Link先を確認
Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez and Javier Ortega-Garcia(参考訳) ディープラーニングはここ数年で、従来の手作りのアプローチを克服し、さまざまなタスクのために人間さえも、深層学習は息を吹き込む技術になりつつある。 しかし、手書き署名の検証など一部のタスクでは、公開されているデータ量が少なく、ディープラーニングの真の限界をテストすることが難しい。 公開データの欠如に加えて、異なるデータベースや実験プロトコルが通常考慮されているため、新しいアプローチの改善を評価することは容易ではない。 本研究の主な貢献は次のとおりである。 一 オンライン署名検証のための最先端深層学習手法の詳細な分析を行う。 二 新たなDeepSignDBのオンライン手書き署名生体情報データベースを提示し、記述すること。 三 技術の現状と新規アプローチの公正な比較を行うため、研究コミュニティが使用する標準の実験的プロトコル及びベンチマークを提案する。 iv) オンライン手書き署名検証の課題に対して, TA-RNN(Time-Aligned Recurrent Neural Networks)と呼ばれる最近のディープラーニングアプローチを適用し, 評価する。 このアプローチは、動的時間ウォーピングとリカレントニューラルネットワークの可能性を組み合わせて、より堅牢なシステムを偽造に対してトレーニングする。 提案するTA-RNNシステムは,熟練したフォージェリー・インポスタとユーザ1人1回のトレーニングシグネチャを考えると,EERの2.0%以下で結果が得られる。

Deep learning has become a breathtaking technology in the last years, overcoming traditional handcrafted approaches and even humans for many different tasks. However, in some tasks, such as the verification of handwritten signatures, the amount of publicly available data is scarce, what makes difficult to test the real limits of deep learning. In addition to the lack of public data, it is not easy to evaluate the improvements of novel proposed approaches as different databases and experimental protocols are usually considered. The main contributions of this study are: i) we provide an in-depth analysis of state-of-the-art deep learning approaches for on-line signature verification, ii) we present and describe the new DeepSignDB on-line handwritten signature biometric public database, iii) we propose a standard experimental protocol and benchmark to be used for the research community in order to perform a fair comparison of novel approaches with the state of the art, and iv) we adapt and evaluate our recent deep learning approach named Time-Aligned Recurrent Neural Networks (TA-RNNs) for the task of on-line handwritten signature verification. This approach combines the potential of Dynamic Time Warping and Recurrent Neural Networks to train more robust systems against forgeries. Our proposed TA-RNN system outperforms the state of the art, achieving results even below 2.0% EER when considering skilled forgery impostors and just one training signature per user.
翻訳日:2022-12-29 04:22:23 公開日:2021-01-22
# ネットワーク上の分散強化学習における完全非同期政策評価

Fully Asynchronous Policy Evaluation in Distributed Reinforcement Learning over Networks ( http://arxiv.org/abs/2003.00433v3 )

ライセンス: Link先を確認
Xingyu Sha, Jiaqi Zhang, Keyou You, Kaiqing Zhang and Tamer Ba\c{s}ar(参考訳) 本稿では,有向ピアツーピアネットワーク上での分散強化学習(disrl)のポリシー評価問題に対する \emph{fully asynchronous}スキームを提案する。 ネットワークの他のノードを待つことなく、各ノードは隣人からの(おそらく遅れた)情報を使用して、いつでもローカルに値関数を更新できる。 これは、一対のノードが同時に更新されるゴシップベースのスキームとは対照的である。 完全非同期設定は、マルチ時間スケールの意思決定が困難な問題であるが、新しい確率的平均勾配(SAG)ベースの分散アルゴリズムを設計し、その正確な収束を線形レート$\mathcal{O}(c^k)$, $c\in(0,1)$, $k$で証明するためのプッシュプル拡張グラフアプローチを開発する。 最後に,数値実験により,ノード数に対して線形に高速化し,ストラグラーノードに頑健であることを検証した。

This paper proposes a \emph{fully asynchronous} scheme for the policy evaluation problem of distributed reinforcement learning (DisRL) over directed peer-to-peer networks. Without waiting for any other node of the network, each node can locally update its value function at any time by using (possibly delayed) information from its neighbors. This is in sharp contrast to the gossip-based scheme where a pair of nodes concurrently update. Though the fully asynchronous setting involves a difficult multi-timescale decision problem, we design a novel stochastic average gradient (SAG) based distributed algorithm and develop a push-pull augmented graph approach to prove its exact convergence at a linear rate of $\mathcal{O}(c^k)$ where $c\in(0,1)$ and $k$ increases by one no matter on which node updates. Finally, numerical experiments validate that our method speeds up linearly with respect to the number of nodes, and is robust to straggler nodes.
翻訳日:2022-12-27 12:56:17 公開日:2021-01-22
# 株価リターン予測のための時間変動ニューラルネットワーク

Time-varying neural network for stock return prediction ( http://arxiv.org/abs/2003.02515v4 )

ライセンス: Link先を確認
Steven Y. K. Wong (1), Jennifer Chan (2), Lamiae Azizi (2), and Richard Y. D. Xu (1) ((1) University of Technology Sydney, (2) University of Sydney)(参考訳) ニューラルネットワークトレーニングの問題は、時間によって異なる状況において考慮する。 機械学習アルゴリズムは、時間とともに変化しない問題に優れている。 しかし、金融市場で発生する問題は、しばしば時を経る。 オンライン早期停止アルゴリズムを提案し、このアルゴリズムを用いてトレーニングされたニューラルネットワークが未知のダイナミクスで変化する関数を追跡できることを示す。 提案したアルゴリズムを、月次米国株のリターンを予測する現在のアプローチと比較し、その優位性を示す。 また,その要因(サイズや運動量の影響など)や業界指標が,株価回復予測の時間変化を示すことも示している。 市場が苦しむ中、業界指標は企業レベルの機能を犠牲にして重要性が増すことが分かっています。 これは、リスクが高まった期間に、業界が株価のリターンを説明する役割を担っていることを示している。

We consider the problem of neural network training in a time-varying context. Machine learning algorithms have excelled in problems that do not change over time. However, problems encountered in financial markets are often time-varying. We propose the online early stopping algorithm and show that a neural network trained using this algorithm can track a function changing with unknown dynamics. We compare the proposed algorithm to current approaches on predicting monthly U.S. stock returns and show its superiority. We also show that prominent factors (such as the size and momentum effects) and industry indicators, exhibit time varying stock return predictiveness. We find that during market distress, industry indicators experience an increase in importance at the expense of firm level features. This indicates that industries play a role in explaining stock returns during periods of heightened risk.
翻訳日:2022-12-26 07:49:49 公開日:2021-01-22
# 近傍近傍補間におけるラウンド機能の評価

Evaluation of Rounding Functions in Nearest-Neighbor Interpolation ( http://arxiv.org/abs/2003.06885v2 )

ライセンス: Link先を確認
Olivier Rukundo(参考訳) 近近傍(NN)画像補間における最も適切な円関数の新たな評価法を提案する。 評価された丸め関数は、IEEE 754-2008標準で定義された5つの丸め規則の中から選択される。 丸め関数がNN補間画像品質に与える影響を研究・評価するために、フルおよびノン参照画像品質評価(IQA)の指標が用いられる。 目的とする事象に対する達成率の概念は、使用したテスト画像の数に基づいて達成率を決定するために用いられる。 差分統計解析を適用して、少数の画像から導出し、より多数の画像に対して各丸み関数の挙動の結論を導出する。 正規分布と信頼度は95%に等しいが, 評価された各丸み関数による最大および最小達成可能な事象は, 推論解析に基づく実験に基づいて提供される。

A novel evaluation study of the most appropriate round function for nearest-neighbor (NN) image interpolation is presented. Evaluated rounding functions are selected among the five rounding rules defined by the Institute of Electrical and Electronics Engineers (IEEE) 754-2008 standard. Both full- and no-reference image quality assessment (IQA) metrics are used to study and evaluate the influence of rounding functions on NN interpolation image quality. The concept of achieved occurrences over targeted occurrences is used to determine the percentage of achieved occurrences based on the number of test images used. Inferential statistical analysis is applied to deduce from a small number of images and draw a conclusion of the behavior of each rounding function on a bigger number of images. Under the normal distribution and at the level of confidence equals to 95%, the maximum and minimum achievable occurrences by each evaluated rounding function are both provided based on the inferential analysis-based experiments.
翻訳日:2022-12-23 09:15:04 公開日:2021-01-22
# 深層学習による顕微鏡画像の単発オートフォーカス

Single-shot autofocusing of microscopy images using deep learning ( http://arxiv.org/abs/2003.09585v2 )

ライセンス: Link先を確認
Yilin Luo, Luzhe Huang, Yair Rivenson, Aydogan Ozcan(参考訳) 本研究では,任意の非焦点面で取得した標本の単発顕微鏡像を迅速かつ盲目的にオートフォーカスするように訓練した,deep-rと呼ばれる深層学習型オフラインオートフォーカス法を示す。 本研究では,蛍光顕微鏡およびブライトフィールド顕微鏡を用いて撮影した各種組織断面を用いたdeep-rの有用性を示し,一様軸離焦点や視野内のサンプル傾きなどの異なるシナリオ下でのスナップショット自動フォーカスを示す。 この結果から,Deep-Rは従来のオンラインアルゴリズムのオートフォーカス手法に比べてはるかに高速であることがわかった。 このディープラーニングベースのブラインドオートフォーカスフレームワークは、大きなサンプル領域を高速に顕微鏡で撮影する新たな機会を開き、サンプルの光子線量を減らす。

We demonstrate a deep learning-based offline autofocusing method, termed Deep-R, that is trained to rapidly and blindly autofocus a single-shot microscopy image of a specimen that is acquired at an arbitrary out-of-focus plane. We illustrate the efficacy of Deep-R using various tissue sections that were imaged using fluorescence and brightfield microscopy modalities and demonstrate snapshot autofocusing under different scenarios, such as a uniform axial defocus as well as a sample tilt within the field-of-view. Our results reveal that Deep-R is significantly faster when compared with standard online algorithmic autofocusing methods. This deep learning-based blind autofocusing framework opens up new opportunities for rapid microscopic imaging of large sample areas, also reducing the photon dose on the sample.
翻訳日:2022-12-21 12:48:24 公開日:2021-01-22
# ポーズ推定のための簡易マルチレゾリューション表現学習

Simple Multi-Resolution Representation Learning for Human Pose Estimation ( http://arxiv.org/abs/2004.06366v2 )

ライセンス: Link先を確認
Trung Q. Tran, Giang V. Nguyen, Daeyoung Kim(参考訳) 人間のポーズ推定 - 与えられた画像内の人間のキーポイントを認識するプロセス - は、コンピュータビジョンにおいて最も重要なタスクの1つであり、運動診断、監視、自動運転車など幅広い応用がある。 深層学習の発展により,人間のキーポイント予測の精度が向上している。 既存の方法では、ithヒートマップがithキーポイントの位置信頼度を示すヒートマップを生成することで、人間のポーズ推定を解いた。 本稿では,人間のキーポイント予測のためのマルチレゾリューション表現学習と呼ばれる新しいネットワーク構造を提案する。 学習プロセスの異なる解像度で、ネットワークは分岐し、余分なレイヤを使ってヒートマップ生成を学びます。 まず,低分解能特徴写像から多分解能熱マップを生成するアーキテクチャについて考察する。 第2のアプローチは,特徴抽出器の各解像度で熱マップを生成する特徴抽出過程における学習を可能にする。 第1と第2のアプローチは、それぞれマルチレゾリューションヒートマップ学習とマルチレゾリューション機能マップ学習と呼ばれる。 私たちのアーキテクチャはシンプルかつ効果的で、優れたパフォーマンスを実現しています。 MSCOCOとMPIIデータセットという,人間のポーズ推定のための2つの一般的なベンチマーク実験を行った。 コードはhttps://github.com/tqtrunghnvn/SimMRPoseで公開されている。

Human pose estimation - the process of recognizing human keypoints in a given image - is one of the most important tasks in computer vision and has a wide range of applications including movement diagnostics, surveillance, or self-driving vehicle. The accuracy of human keypoint prediction is increasingly improved thanks to the burgeoning development of deep learning. Most existing methods solved human pose estimation by generating heatmaps in which the ith heatmap indicates the location confidence of the ith keypoint. In this paper, we introduce novel network structures referred to as multi-resolution representation learning for human keypoint prediction. At different resolutions in the learning process, our networks branch off and use extra layers to learn heatmap generation. We firstly consider the architectures for generating the multi-resolution heatmaps after obtaining the lowest-resolution feature maps. Our second approach allows learning during the process of feature extraction in which the heatmaps are generated at each resolution of the feature extractor. The first and second approaches are referred to as multi-resolution heatmap learning and multi-resolution feature map learning respectively. Our architectures are simple yet effective, achieving good performance. We conducted experiments on two common benchmarks for human pose estimation: MSCOCO and MPII dataset. The code is made publicly available at https://github.com/tqtrunghnvn/SimMRPose.
翻訳日:2022-12-13 10:09:12 公開日:2021-01-22
# amp-net: 圧縮画像センシングのためのデノイジングベースのディープアンフォールディング

AMP-Net: Denoising based Deep Unfolding for Compressive Image Sensing ( http://arxiv.org/abs/2004.10078v2 )

ライセンス: Link先を確認
Zhonghao Zhang, Yipeng Liu, Jiani Liu, Fei Wen, Ce Zhu(参考訳) ほとんどの圧縮センシング(cs)再構成法は、モデルベース法と古典的なディープネットワーク法という2つのカテゴリに分けられる。 モデルベース手法の反復最適化アルゴリズムをネットワーク上に展開することで、ディープ展開手法はモデルベース手法と古典的ディープネットワーク手法の高速をうまく解釈することができる。 本稿では,画像CSの問題を解決するためにAMP-Netと呼ばれる深層展開モデルを提案する。 正規化項を学習する代わりに、よく知られた近似メッセージパッシングアルゴリズムの反復化過程を展開することによって確立される。 さらにAMP-Netはデブロッキングモジュールを統合して、通常視覚イメージのCSに現れるブロッキングアーティファクトを排除する。 さらに、サンプリング行列は、再構成性能を高めるために、他のネットワークパラメータと共同で訓練される。 実験結果から,AMP-Netは再構築速度とネットワークパラメータの少ない他の最先端手法よりも精度がよいことがわかった。

Most compressive sensing (CS) reconstruction methods can be divided into two categories, i.e. model-based methods and classical deep network methods. By unfolding the iterative optimization algorithm for model-based methods onto networks, deep unfolding methods have the good interpretation of model-based methods and the high speed of classical deep network methods. In this paper, to solve the visual image CS problem, we propose a deep unfolding model dubbed AMP-Net. Rather than learning regularization terms, it is established by unfolding the iterative denoising process of the well-known approximate message passing algorithm. Furthermore, AMP-Net integrates deblocking modules in order to eliminate the blocking artifacts that usually appear in CS of visual images. In addition, the sampling matrix is jointly trained with other network parameters to enhance the reconstruction performance. Experimental results show that the proposed AMP-Net has better reconstruction accuracy than other state-of-the-art methods with high reconstruction speed and a small number of network parameters.
翻訳日:2022-12-11 07:33:04 公開日:2021-01-22
# 単一対クロスモダリティ超解像

Single Pair Cross-Modality Super Resolution ( http://arxiv.org/abs/2004.09965v4 )

ライセンス: Link先を確認
Guy Shacht, Sharon Fogel, Dov Danon, Daniel Cohen-Or and Ilya Leizerson(参考訳) 非視覚イメージングセンサーは業界で様々な目的で広く使われている。 これらのセンサーは、ビジュアル(RGB)センサーよりも高価で、通常解像度の低い画像を生成する。 この目的のために、高分解能のrgb画像が低分解能モードの解像度を増加させるクロスモダリティスーパーレゾリューション法が導入された。 しかし、異なるモダリティからイメージを融合させることは自明な作業ではなく、出力はアーティファクトフリーでなければならず、ターゲットのモダリティの特性に忠実でなければならない。 さらに、入力画像が完全に整列されることはなく、融合プロセス中にさらにアーティファクトが生じる。 我々は,従来手法と異なり,弱アライメント画像を扱うために設計された,クロスモダリティ・スーパーレゾリューションのためのディープネットワークcmsrを提案する。 ネットワークは2つの入力画像のみに基づいてトレーニングされ、内部統計と相関を学習し、ターゲットのモダリティをアップサンプリングする。 cmsrは、明示的な監督なしに、オンザフライでトレーニングされる内部トランスフォーマーを含んでいる。 CMSRは入力画像の解像度を上げることに成功し、RGBの相手から貴重な情報を得るが、アーチファクトや無関係な詳細を導入することなく保守的な方法で得られることを示す。

Non-visual imaging sensors are widely used in the industry for different purposes. Those sensors are more expensive than visual (RGB) sensors, and usually produce images with lower resolution. To this end, Cross-Modality Super-Resolution methods were introduced, where an RGB image of a high-resolution assists in increasing the resolution of the low-resolution modality. However, fusing images from different modalities is not a trivial task; the output must be artifact-free and remain loyal to the characteristics of the target modality. Moreover, the input images are never perfectly aligned, which results in further artifacts during the fusion process. We present CMSR, a deep network for Cross-Modality Super-Resolution, which unlike previous methods, is designed to deal with weakly aligned images. The network is trained on the two input images only, learns their internal statistics and correlations, and applies them to up-sample the target modality. CMSR contains an internal transformer that is trained on-the-fly together with the up-sampling process itself, without explicit supervision. We show that CMSR succeeds to increase the resolution of the input image, gaining valuable information from its RGB counterpart, yet in a conservative way, without introducing artifacts or irrelevant details.
翻訳日:2022-12-11 06:38:40 公開日:2021-01-22
# Gutenbergの対話データセット

The Gutenberg Dialogue Dataset ( http://arxiv.org/abs/2004.12752v2 )

ライセンス: Link先を確認
Richard Csaky and Gabor Recski(参考訳) 大規模なデータセットは多くのNLPタスクのニューラルモデリングに不可欠である。 現在公開されているオープンドメイン対話データセットは、品質(例えば、デイリーダイアログ)とサイズ(例えば、opensubtitles)のトレードオフを提供する。 英語で148万発の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築して、このギャップを狭めました。 我々はproject gutenbergが公開したパブリックドメインの書籍から対話を抽出・処理する。 本稿では,対話抽出パイプラインについて述べるとともに,使用する各種ヒューリスティックの効果を分析し,抽出された対話の誤り解析を行う。 最後に、より大きくてノイズの多いOpensubtitlesデータセットよりも、データのトレーニングによって、ゼロショットおよび微調整設定で、より良い応答品質が達成できることを示す実験を行う。 私たちのオープンソースパイプライン(https://github.com/ricsinaruto/gutenberg-dialog)は、追加の労力で、さらなる言語に拡張できます。 研究者は、さまざまなトレードオフパラメータを調整することで、既存のデータセットのバージョンを構築することもできる。 https://ricsinaruto.github.io/chatbot.html というモデルと対話するための web デモも構築しました。

Large datasets are essential for neural modeling of many NLP tasks. Current publicly available open-domain dialogue datasets offer a trade-off between quality (e.g., DailyDialog) and size (e.g., Opensubtitles). We narrow this gap by building a high-quality dataset of 14.8M utterances in English, and smaller datasets in German, Dutch, Spanish, Portuguese, Italian, and Hungarian. We extract and process dialogues from public-domain books made available by Project Gutenberg. We describe our dialogue extraction pipeline, analyze the effects of the various heuristics used, and present an error analysis of extracted dialogues. Finally, we conduct experiments showing that better response quality can be achieved in zero-shot and finetuning settings by training on our data than on the larger but much noisier Opensubtitles dataset. Our open-source pipeline (https://github.com/ricsinaruto/gutenberg-dialog) can be extended to further languages with little additional effort. Researchers can also build their versions of existing datasets by adjusting various trade-off parameters. We also built a web demo for interacting with our models: https://ricsinaruto.github.io/chatbot.html.
翻訳日:2022-12-09 05:21:31 公開日:2021-01-22
# スケール不変3次元物体検出のための範囲条件付き拡張畳み込み

Range Conditioned Dilated Convolutions for Scale Invariant 3D Object Detection ( http://arxiv.org/abs/2005.09927v3 )

ライセンス: Link先を確認
Alex Bewley, Pei Sun, Thomas Mensink, Dragomir Anguelov, Cristian Sminchisescu(参考訳) 本稿では,LiDARデータをそのネイティブ表現(範囲画像)に直接処理する新しい3Dオブジェクト検出フレームワークを提案する。 2D畳み込みは、レンジ画像のコンパクト性から、シーンの高密度LiDARデータを効率的に処理することができる。 この視点では, スケール感度を克服するために, 連続拡張率を測定範囲の関数として動的に調整するために, 新たなレンジコンディション拡張(rcd)層を提案する。 さらに,3次元ソフトレンジゲーティングと3次元ボックスリファインメントステージを組み合わせることで,閉鎖領域のロバスト性を向上し,全体としてより正確なバウンディングボックス予測を実現する。 大規模なWaymo Open Datasetでは,長距離検出において非並列な性能を持つマルチビューおよびボクセルベースの手法より優れた3次元検出のための新しいベースラインを設定した。

This paper presents a novel 3D object detection framework that processes LiDAR data directly on its native representation: range images. Benefiting from the compactness of range images, 2D convolutions can efficiently process dense LiDAR data of a scene. To overcome scale sensitivity in this perspective view, a novel range-conditioned dilation (RCD) layer is proposed to dynamically adjust a continuous dilation rate as a function of the measured range. Furthermore, localized soft range gating combined with a 3D box-refinement stage improves robustness in occluded areas, and produces overall more accurate bounding box predictions. On the public large-scale Waymo Open Dataset, our method sets a new baseline for range-based 3D detection, outperforming multiview and voxel-based methods over all ranges with unparalleled performance at long range detection.
翻訳日:2022-12-01 05:23:10 公開日:2021-01-22
# 低線量ctデノージングのための確率的自己学習フレームワーク

Probabilistic self-learning framework for Low-dose CT Denoising ( http://arxiv.org/abs/2006.00327v2 )

ライセンス: Link先を確認
Ti Bai, Dan Nguyen, Biling Wang and Steve Jiang(参考訳) 診断医学分野におけるX線CT(CT)の役割は不可欠であるものの、関連する電離放射線は遺伝性・癌性疾患の原因となる可能性を考える上でも大きな関心事である。 被曝の減少は線量を減らすことができ、そのため放射線関連のリスクも減少するが、高い量子ノイズを引き起こす。 改良されたディープラーニングは、低用量CT(LDCT)をノイズ化するニューラルネットワークのトレーニングに使用することができる。 しかし、その成功には大量のピクセルワイドLDCTと正常線量CT(NDCT)画像が必要である。 この問題を軽減するため,本研究では,シフト不変特性に基づくニューラルネットワークを用いて,LDCT画像のみを用いて固有の画素相関と雑音分布を学習し,確率的自己学習フレームワークに形成する手法を考案した。 実験の結果,提案手法は競合相手よりも優れており,臨床現場で好適なNDCTに類似した画像スタイルのLDCT画像が得られた。

Despite the indispensable role of X-ray computed tomography (CT) in diagnostic medicine field, the associated ionizing radiation is still a major concern considering that it may cause genetic and cancerous diseases. Decreasing the exposure can reduce the dose and hence the radiation-related risk, but will also induce higher quantum noise. Supervised deep learning can be used to train a neural network to denoise the low-dose CT (LDCT). However, its success requires massive pixel-wise paired LDCT and normal-dose CT (NDCT) images, which are rarely available in real practice. To alleviate this problem, in this paper, a shift-invariant property based neural network was devised to learn the inherent pixel correlations and also the noise distribution by only using the LDCT images, shaping into our probabilistic self-learning framework. Experimental results demonstrated that the proposed method outperformed the competitors, producing an enhanced LDCT image that has similar image style as the routine NDCT which is highly-preferable in clinic practice.
翻訳日:2022-11-26 18:19:07 公開日:2021-01-22
# 収束保証付きスケーラブルなプラグイン・アンド・プレイADMM

Scalable Plug-and-Play ADMM with Convergence Guarantees ( http://arxiv.org/abs/2006.03224v2 )

ライセンス: Link先を確認
Yu Sun, Zihui Wu, Xiaojian Xu, Brendt Wohlberg, and Ulugbek S. Kamilov(参考訳) プラグ・アンド・プレイ・プリエント(pnp)は、デノイザーとして指定された統計的プリエントを活用し、逆問題を解くための広く適用可能な手法である。 最近の研究は、プリトレーニングされたディープニューラルネットワークをデノイザとして、多くのイメージングアプリケーションでpnpアルゴリズムの最先端のパフォーマンスを報告している。 しかし、現在のPnPアルゴリズムは計算とメモリの重い要求のため、大規模な設定では実用的ではない。 この研究は、広く使われているPnP-ADMMアルゴリズムの漸進的な変形を提案し、大規模データセットにスケーラブルにすることでこの問題に対処する。 本研究では,アルゴリズムの収束を明示的な仮定の下で理論的に解析し,その領域における最近の理論結果を拡張した。 さらに,本手法の有効性を示すために,データ忠実性に乏しい用語とディープニューラルネットワークの優先度,既存のpnpアルゴリズムと比較して高速収束性,速度とメモリのスケーラビリティについて述べる。

Plug-and-play priors (PnP) is a broadly applicable methodology for solving inverse problems by exploiting statistical priors specified as denoisers. Recent work has reported the state-of-the-art performance of PnP algorithms using pre-trained deep neural nets as denoisers in a number of imaging applications. However, current PnP algorithms are impractical in large-scale settings due to their heavy computational and memory requirements. This work addresses this issue by proposing an incremental variant of the widely used PnP-ADMM algorithm, making it scalable to large-scale datasets. We theoretically analyze the convergence of the algorithm under a set of explicit assumptions, extending recent theoretical results in the area. Additionally, we show the effectiveness of our algorithm with nonsmooth data-fidelity terms and deep neural net priors, its fast convergence compared to existing PnP algorithms, and its scalability in terms of speed and memory.
翻訳日:2022-11-25 03:27:05 公開日:2021-01-22
# 運動画像に基づく脳-コンピュータインタフェースのためのトランスファー学習:完全パイプライン

Transfer Learning for Motor Imagery Based Brain-Computer Interfaces: A Complete Pipeline ( http://arxiv.org/abs/2007.03746v3 )

ライセンス: Link先を確認
Dongrui Wu and Xue Jiang and Ruimin Peng and Wanzeng Kong and Jian Huang and Zhigang Zeng(参考訳) 移動学習(TL)は、運動画像(MI)ベースの脳-コンピュータインタフェース(BCI)において、新しい被験者の校正作業を減らすために広く使われ、有望な性能を示した。 閉ループMIベースのBCIシステムは、脳波信号の取得と時間的フィルタリングの後、外部デバイスに制御信号を送信する前に空間フィルタリング、特徴工学、分類ブロックを含むが、以前のアプローチではTLは1つか2つのコンポーネントでのみ考慮されていた。 本稿では,MIベースのBCIの3成分(空間フィルタリング,特徴工学,分類)すべてにおいてTLが考慮できることを示す。 さらに、空間的フィルタリングの前にデータアライメントコンポーネントを特に追加して、異なる対象からのデータをより一貫性を持たせることで、後続TLを容易にすることも重要である。 2つのmiデータセットにおけるオフラインキャリブレーション実験により本提案を検証した。 特にデータアライメントと高度なtlアプローチを統合することで、分類性能が大幅に向上し、校正作業が大幅に削減される。

Transfer learning (TL) has been widely used in motor imagery (MI) based brain-computer interfaces (BCIs) to reduce the calibration effort for a new subject, and demonstrated promising performance. While a closed-loop MI-based BCI system, after electroencephalogram (EEG) signal acquisition and temporal filtering, includes spatial filtering, feature engineering, and classification blocks before sending out the control signal to an external device, previous approaches only considered TL in one or two such components. This paper proposes that TL could be considered in all three components (spatial filtering, feature engineering, and classification) of MI-based BCIs. Furthermore, it is also very important to specifically add a data alignment component before spatial filtering to make the data from different subjects more consistent, and hence to facilitate subsequential TL. Offline calibration experiments on two MI datasets verified our proposal. Especially, integrating data alignment and sophisticated TL approaches can significantly improve the classification performance, and hence greatly reduces the calibration effort.
翻訳日:2022-11-14 05:11:08 公開日:2021-01-22
# トポロジカル情報の時間的シーケンスのトラクタブルフラグメント

Tractable Fragments of Temporal Sequences of Topological Information ( http://arxiv.org/abs/2007.07711v2 )

ライセンス: Link先を確認
Quentin Cohen-Solal(参考訳) 本稿では,位相情報の質的時間系列に着目した。 まず、連続点における領域の進化を記述する3以上の長さの位相的時間列の文脈について考察する。 代数的閉包が満足度を決定するすべての基本関係と普遍関係を含むカルテ部分クラスは存在しないことを示す。 しかし,非接的固有部分関係を含む関係を放棄し,接的固有部分関係を含まないことにより,いくつかの分類可能な部分クラスを同定する。 次に、時間系列の代替意味論を定式化する。 我々は、時間分割(即ち、瞬間と間隔の交代)における領域の進化を記述するトポロジカルな時間系列の文脈に自分自身を置く。 この文脈では、大きな牽引可能な断片を識別する。

In this paper, we focus on qualitative temporal sequences of topological information. We firstly consider the context of topological temporal sequences of length greater than 3 describing the evolution of regions at consecutive time points. We show that there is no Cartesian subclass containing all the basic relations and the universal relation for which the algebraic closure decides satisfiability. However, we identify some tractable subclasses, by giving up the relations containing the non-tangential proper part relation and not containing the tangential proper part relation. We then formalize an alternative semantics for temporal sequences. We place ourselves in the context of the topological temporal sequences describing the evolution of regions on a partition of time (i.e. an alternation of instants and intervals). In this context, we identify large tractable fragments.
翻訳日:2022-11-10 05:45:01 公開日:2021-01-22
# GP-NASを用いた不均一モデルを用いた実像超解像

Real Image Super Resolution Via Heterogeneous Model Ensemble using GP-NAS ( http://arxiv.org/abs/2009.01371v2 )

ライセンス: Link先を確認
Zhihong Pan, Baopu Li, Teng Xi, Yanwen Fan, Gang Zhang, Jingtuo Liu, Junyu Han, Errui Ding(参考訳) ディープニューラルネットワーク(DNN)の進歩により、最近のSOTA(State-of-the-art)画像超解像(SR)法は、濃密なスキップ接続を持つディープリザーブネットワークを用いて印象的な性能を達成した。 これらのモデルは、低解像度(LR)画像が既知のぼやけたカーネルを持つ高解像度(HR)参照から構築されるベンチマークデータセットでよく機能するが、LR-HRペア内の両方の画像が実際のカメラから収集される場合、実際の画像SRはより困難である。 既存の密集した残差ネットワークに基づいて,gaussian process based neural architecture search (gp-nas) スキームを用いて,密集した残差ブロック数,ブロックサイズ,特徴数を変化させ,大きな探索空間を用いた候補ネットワークアーキテクチャを探索する。 モデルアンサンブルには,多様なネットワーク構造とハイパーパラメータを持つ異種モデル群が選択され,実画像SRにおいて優れた性能を発揮する。 提案手法は、AIM 2020 Real Image Super-Resolution Challengeの3トラックで1位を獲得した。

With advancement in deep neural network (DNN), recent state-of-the-art (SOTA) image superresolution (SR) methods have achieved impressive performance using deep residual network with dense skip connections. While these models perform well on benchmark dataset where low-resolution (LR) images are constructed from high-resolution (HR) references with known blur kernel, real image SR is more challenging when both images in the LR-HR pair are collected from real cameras. Based on existing dense residual networks, a Gaussian process based neural architecture search (GP-NAS) scheme is utilized to find candidate network architectures using a large search space by varying the number of dense residual blocks, the block size and the number of features. A suite of heterogeneous models with diverse network structure and hyperparameter are selected for model-ensemble to achieve outstanding performance in real image SR. The proposed method won the first place in all three tracks of the AIM 2020 Real Image Super-Resolution Challenge.
翻訳日:2022-10-22 19:02:27 公開日:2021-01-22
# ベンチマークと不確実性定量化のためのメトリクス:化学における機械学習のベストプラクティスへの道

Metrics for Benchmarking and Uncertainty Quantification: Quality, Applicability, and a Path to Best Practices for Machine Learning in Chemistry ( http://arxiv.org/abs/2010.00110v2 )

ライセンス: Link先を確認
Gaurav Vishwakarma, Aditya Sonpal, Johannes Hachmann(参考訳) 本総説は, 化学・材料分野における機械学習の動作, すなわち, データ由来モデルの検証とベンチマークのための統計損失関数メトリクス, およびそれらによる予測の不確かさの定量化について, 2つの問題に注意を向けるものである。 化学者は統計学の限られた訓練しか受けていないため、しばしば見過ごされ、過小評価される。 与えられたモデルの品質、信頼性、適用性を評価するのに役立つだけでなく、これらの指標は異なるモデルのパフォーマンスを比較する上でも重要であり、したがって、化学に機械学習をうまく適用するためのガイドラインとベストプラクティスを開発する上でも重要である。

This review aims to draw attention to two issues of concern when we set out to make machine learning work in the chemical and materials domain, i.e., statistical loss function metrics for the validation and benchmarking of data-derived models, and the uncertainty quantification of predictions made by them. They are often overlooked or underappreciated topics as chemists typically only have limited training in statistics. Aside from helping to assess the quality, reliability, and applicability of a given model, these metrics are also key to comparing the performance of different models and thus for developing guidelines and best practices for the successful application of machine learning in chemistry.
翻訳日:2022-10-13 00:29:38 公開日:2021-01-22
# アライメント情報を活用した事前学習型多言語ニューラルマシン翻訳

Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information ( http://arxiv.org/abs/2010.03142v3 )

ライセンス: Link先を確認
Zehui Lin, Xiao Pan, Mingxuan Wang, Xipeng Qiu, Jiangtao Feng, Hao Zhou and Lei Li(参考訳) 機械翻訳(MT): 共通のシードとして機能し、任意の言語対上の微分と改良されたモデルを得るために、単一の普遍的MTモデルを開発することができるか? 我々は,汎用多言語ニューラルマシン翻訳モデルを事前学習する手法であるmraspを提案する。 mRASPのキーとなるアイデアは、複数の言語に類似した意味を持つ単語やフレーズを表現空間に近づけるランダムアライメント置換という、新しいテクニックです。 我々は、32言語ペアでmRASPモデルを公開データセットのみと共同で事前訓練する。 その後、下流言語ペアで微調整を行い、特殊なMTモデルを得る。 我々は、42の翻訳方向について、低、中、豊かなリソースを含む様々な設定で広範な実験を行い、また、エキゾチックな言語ペアへの変換も行います。 実験の結果,mraspは,対象ペアに対する直接トレーニングと比較して有意に性能が向上した。 複数の低リソース言語ペアが、リッチリソースMTを改善するために利用できることを検証するのは、これが初めてである。驚くべきことに、mRASPは、事前学習されたコーパスで発生しないエキゾチック言語における翻訳品質を改善できる。 コード、データ、事前トレーニングされたモデルはhttps://github.com/linzehui/mRASP.orgで入手できる。

We investigate the following question for machine translation (MT): can we develop a single universal MT model to serve as the common seed and obtain derivative and improved models on arbitrary language pairs? We propose mRASP, an approach to pre-train a universal multilingual neural machine translation model. Our key idea in mRASP is its novel technique of random aligned substitution, which brings words and phrases with similar meanings across multiple languages closer in the representation space. We pre-train a mRASP model on 32 language pairs jointly with only public datasets. The model is then fine-tuned on downstream language pairs to obtain specialized MT models. We carry out extensive experiments on 42 translation directions across a diverse settings, including low, medium, rich resource, and as well as transferring to exotic language pairs. Experimental results demonstrate that mRASP achieves significant performance improvement compared to directly training on those target pairs. It is the first time to verify that multiple low-resource language pairs can be utilized to improve rich resource MT. Surprisingly, mRASP is even able to improve the translation quality on exotic languages that never occur in the pre-training corpus. Code, data, and pre-trained models are available at https://github.com/linzehui/mRASP.
翻訳日:2022-10-09 23:13:30 公開日:2021-01-22
# 競合的マルチエージェント強化学習における情報非対称性:収束性と最適性

On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality ( http://arxiv.org/abs/2010.10901v2 )

ライセンス: Link先を確認
Ezra Tampubolon, Haris Ceribasic, Holger Boche(参考訳) 本研究では,非協力的な2つのq-ラーニングエージェントを相互作用させ,一方のエージェントが他方の行動を観察する特権を有するシステムについて検討する。 この情報非対称性は、一般の独立学習者の環境では一般的には起こらない、集団学習の安定した結果をもたらす可能性があることを示す。 結果として得られる学習後ポリシーは、ゲーム感覚、すなわちナッシュ均衡においてほぼ最適である。 さらに,本研究では,後続の2つの相手の行動の予測的観察を必要とするq学習アルゴリズムを提案し,後者が定常戦略を適用することを前提とした最適戦略を与え,基礎となる情報非対称ゲームにおけるナッシュ均衡の存在を議論する。

In this work, we study the system of interacting non-cooperative two Q-learning agents, where one agent has the privilege of observing the other's actions. We show that this information asymmetry can lead to a stable outcome of population learning, which generally does not occur in an environment of general independent learners. The resulting post-learning policies are almost optimal in the underlying game sense, i.e., they form a Nash equilibrium. Furthermore, we propose in this work a Q-learning algorithm, requiring predictive observation of two subsequent opponent's actions, yielding an optimal strategy given that the latter applies a stationary strategy, and discuss the existence of the Nash equilibrium in the underlying information asymmetrical game.
翻訳日:2022-10-05 01:17:55 公開日:2021-01-22
# セマンティックコード検索のためのディープグラフマッチングと検索

Deep Graph Matching and Searching for Semantic Code Retrieval ( http://arxiv.org/abs/2010.12908v2 )

ライセンス: Link先を確認
Xiang Ling, Lingfei Wu, Saizhuo Wang, Gaoning Pan, Tengfei Ma, Fangli Xu, Alex X. Liu, Chunming Wu, Shouling Ji(参考訳) コード検索は、自然言語記述のクエリに高度にマッチするソースコードリポジトリの大規模なコーパスから、コードスニペットを見つけることである。 最近の研究は、主に自然言語処理技術を用いて、クエリテキスト(人間の自然言語)とコードスニペット(機械プログラミング言語)の両方を処理しているが、どちらも豊富な意味情報を含むクエリテキストとソースコードの深い構造的特徴を無視している。 本稿では,セマンティックコード検索のためのグラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと検索(DGMS)モデルを提案する。 この目的のために、まず自然言語クエリテキストとプログラミング言語のコードスニペットを統一されたグラフ構造化データで表現し、次に提案したグラフマッチングと検索モデルを用いて最適なマッチングコードスニペットを検索する。 特に、dgmは個々のクエリテキストやコードスニペットのための構造情報をキャプチャするだけでなく、相互接続に基づくセマンティックマッチング操作によってそれら間の細かな類似性を学習する。 提案したDGMSモデルを,2つの代表的なプログラミング言語(JavaとPython)を用いた2つの公開コード検索データセット上で評価する。 実験の結果、DGMSは両方のデータセットで最先端のベースラインモデルよりも大幅に優れていた。 さらに, DGMSの各部位の影響を系統的に検討し, 検討した。

Code retrieval is to find the code snippet from a large corpus of source code repositories that highly matches the query of natural language description. Recent work mainly uses natural language processing techniques to process both query texts (i.e., human natural language) and code snippets (i.e., machine programming language), however neglecting the deep structured features of query texts and source codes, both of which contain rich semantic information. In this paper, we propose an end-to-end deep graph matching and searching (DGMS) model based on graph neural networks for the task of semantic code retrieval. To this end, we first represent both natural language query texts and programming language code snippets with the unified graph-structured data, and then use the proposed graph matching and searching model to retrieve the best matching code snippet. In particular, DGMS not only captures more structural information for individual query texts or code snippets but also learns the fine-grained similarity between them by cross-attention based semantic matching operations. We evaluate the proposed DGMS model on two public code retrieval datasets with two representative programming languages (i.e., Java and Python). Experiment results demonstrate that DGMS significantly outperforms state-of-the-art baseline models by a large margin on both datasets. Moreover, our extensive ablation studies systematically investigate and illustrate the impact of each part of DGMS.
翻訳日:2022-10-03 13:27:37 公開日:2021-01-22
# 分類とカウント」の定量化手法の再評価

Re-Assessing the "Classify and Count" Quantification Method ( http://arxiv.org/abs/2011.02552v2 )

ライセンス: Link先を確認
Alejandro Moreo and Fabrizio Sebastiani(参考訳) 定量化の学習(英: learning to quantify, a.k.a.\ quantification)は、教師付き学習を通じてクラスに偏りのない推定者を訓練することに関するタスクである。 この課題は、クラス有病率推定の自明な方法である"Classify and Count" (CC) が、しばしば偏りのある推定法であり、従って準最適定量化の精度をもたらすという観察から生まれたものであり、この観察の後、CCより優れていることを示すいくつかの定量化学習法が提案されている。 この作品では、以前の作品が適切に最適化されたバージョンのccを使用しなかったと論じている。 したがって、CCの真のメリット(およびその変種)を再評価し、最先端の手法に劣っているものの、ほぼ最先端の精度を一度に提供できると主張している。 (a)ハイパーパラメータの最適化を行い、 b) この最適化は、標準分類に基づく損失の代わりに真の定量化損失を用いて行われる。 公開されている3つのバイナリ感情分類データセットの実験は、これらの結論を支持している。

Learning to quantify (a.k.a.\ quantification) is a task concerned with training unbiased estimators of class prevalence via supervised learning. This task originated with the observation that "Classify and Count" (CC), the trivial method of obtaining class prevalence estimates, is often a biased estimator, and thus delivers suboptimal quantification accuracy; following this observation, several methods for learning to quantify have been proposed that have been shown to outperform CC. In this work we contend that previous works have failed to use properly optimised versions of CC. We thus reassess the real merits of CC (and its variants), and argue that, while still inferior to some cutting-edge methods, they deliver near-state-of-the-art accuracy once (a) hyperparameter optimisation is performed, and (b) this optimisation is performed by using a true quantification loss instead of a standard classification-based loss. Experiments on three publicly available binary sentiment classification datasets support these conclusions.
翻訳日:2022-09-29 21:46:59 公開日:2021-01-22
# リカレントニューラルネットワークを用いた予測プロセスモデルモニタリング

Predictive Process Model Monitoring using Recurrent Neural Networks ( http://arxiv.org/abs/2011.02819v2 )

ライセンス: Link先を確認
Johannes De Smedt, Jochen De Weerdt, Junichiro Mori and Masanao Ochi(参考訳) 予測プロセス監視の分野は、通常、特定の目的(例えば、完了(時間)、コスト)の結果を予測するか、次のシーケンス予測(例えば、実行すべき次のアクティビティ)によって、実行中のビジネスプロセスインスタンスの将来の特性をモデル化することに焦点を当てている。 本稿では,これらの予測モニタリングの中間的基盤を提供する手法であるprocesss-as-movies (pam)を提案する。 プロセス実行トレースのさまざまなウィンドウにおけるアクティビティ間の宣言的プロセス制約をキャプチャすることで、実行後の段階で宣言的プロセスモデルを表現する。 このプロセスモデルの高次元表現は、プロセスの実行中にそのような制約がどのように出現し消滅するかを予測モデルの適用を可能にします。 高次元入力に合わせた様々なリカレントニューラルネットワークトポロジは、エンコーダ-デコーダ長短期メモリネットワークや畳み込み長短期メモリネットワークなど、windowsによるプロセスモデルの進化を時間ステップとしてモデル化するために使用される。 結果として、これらのトポロジはプロセスモデルの将来の状態を予測するための精度と精度の点で非常に効果的であることが示され、これによりプロセス所有者は、予測されたプロセスウィンドウ(オブジェクトベース)に保持される線形時間論理ルールを同時に検証し、全ての制約(トレースベース)が持つ将来の実行トレースを検証できます。

The field of predictive process monitoring focuses on modelling future characteristics of running business process instances, typically by either predicting the outcome of particular objectives (e.g. completion (time), cost), or next-in-sequence prediction (e.g. what is the next activity to execute). This paper introduces Processes-As-Movies (PAM), a technique that provides a middle ground between these predictive monitoring. It does so by capturing declarative process constraints between activities in various windows of a process execution trace, which represent a declarative process model at subsequent stages of execution. This high-dimensional representation of a process model allows the application of predictive modelling on how such constraints appear and vanish throughout a process' execution. Various recurrent neural network topologies tailored to high-dimensional input are used to model the process model evolution with windows as time steps, including encoder-decoder long short-term memory networks, and convolutional long short-term memory networks. Results show that these topologies are very effective in terms of accuracy and precision to predict a process model's future state, which allows process owners to simultaneously verify what linear temporal logic rules hold in a predicted process window (objective-based), and verify what future execution traces are allowed by all the constraints together (trace-based).
翻訳日:2022-09-29 12:23:56 公開日:2021-01-22
# 効率的な注意ブリッジ融合による分極駆動意味セグメンテーション

Polarization-driven Semantic Segmentation via Efficient Attention-bridged Fusion ( http://arxiv.org/abs/2011.13313v2 )

ライセンス: Link先を確認
Kaite Xiang, Kailun Yang and Kaiwei Wang(参考訳) セマンティクスセグメンテーション(ss)は、自動運転車やナビゲーション支援など、安全クリティカルなアプリケーションにおいて屋外のシーン知覚に有望である。 しかし、従来のSSは主にRGB画像に基づいており、複雑な屋外シーンでは、RGB画像は制約のない環境を完全に知覚するために必要な情報次元を欠いている。 予備調査として,マルチモーダル核融合の必要性を示す予期せぬ障害物検出シナリオにおけるSSの検討を行った。 そこで本研究では,異なる光センサから得られる補完情報を活用するために,効率的な注意ブリッジ融合ネットワークであるEAFNetを提案する。 具体的には,多種多様な材料のロバスト表現のための光学特性を考慮した補足情報を得るために偏光センシングを組み込んだ。 単発偏光センサを用いて、394の注釈付き画素対応RGB-Polarization画像からなる最初のRGB-Pデータセットを構築する。 包括的な実験により、eafnetが偏光とrgb情報を融合する効果と、他のセンサーの組み合わせシナリオに適応するための柔軟性を示す。

Semantic Segmentation (SS) is promising for outdoor scene perception in safety-critical applications like autonomous vehicles, assisted navigation and so on. However, traditional SS is primarily based on RGB images, which limits the reliability of SS in complex outdoor scenes, where RGB images lack necessary information dimensions to fully perceive unconstrained environments. As preliminary investigation, we examine SS in an unexpected obstacle detection scenario, which demonstrates the necessity of multimodal fusion. Thereby, in this work, we present EAFNet, an Efficient Attention-bridged Fusion Network to exploit complementary information coming from different optical sensors. Specifically, we incorporate polarization sensing to obtain supplementary information, considering its optical characteristics for robust representation of diverse materials. By using a single-shot polarization sensor, we build the first RGB-P dataset which consists of 394 annotated pixel-aligned RGB-Polarization images. A comprehensive variety of experiments shows the effectiveness of EAFNet to fuse polarization and RGB information, as well as the flexibility to be adapted to other sensor combination scenarios.
翻訳日:2022-09-20 12:44:25 公開日:2021-01-22
# TinaFace:強いけどシンプルな顔検出ベースライン

TinaFace: Strong but Simple Baseline for Face Detection ( http://arxiv.org/abs/2011.13183v3 )

ライセンス: Link先を確認
Yanjia Zhu, Hongxiang Cai, Shuhan Zhang, Chenhao Wang, Yichao Xiong(参考訳) 近年,顔検出に注目が集まっている。 モデルアーキテクチャやデータ拡張,ラベル割り当てなど,さまざまな観点から顔検出のための特別な方法が数多く提案されているため,アルゴリズムやシステムはますます複雑になっています。 本稿では、顔検出と汎用オブジェクト検出の間にはギャップがないことを指摘する。 次に,tinafaceという顔検出を行うための,強力でシンプルなベースライン手法を提案する。 我々はResNet-50 \cite{he2016deep}をバックボーンとして使用し、TinaFaceのすべてのモジュールとテクニックは既存のモジュール上に構築され、容易に実装され、ジェネリックオブジェクト検出に基づいています。 最も人気があり挑戦的な顔検出ベンチマークであるWIDER FACE \cite{yang2016wider}のハードテストセットでは、単一のモデルと単一スケールで、我々のTinaFaceは92.1\%の平均精度(AP)を達成した。 そして、TTA(Test Time Augmentation)を使用した後、我々のTinaFaceは現在の最先端の手法より優れ、92.4\%APを達成した。 コードは \url{https://github.com/Media-Smart/vedadet} で入手できる。

Face detection has received intensive attention in recent years. Many works present lots of special methods for face detection from different perspectives like model architecture, data augmentation, label assignment and etc., which make the overall algorithm and system become more and more complex. In this paper, we point out that \textbf{there is no gap between face detection and generic object detection}. Then we provide a strong but simple baseline method to deal with face detection named TinaFace. We use ResNet-50 \cite{he2016deep} as backbone, and all modules and techniques in TinaFace are constructed on existing modules, easily implemented and based on generic object detection. On the hard test set of the most popular and challenging face detection benchmark WIDER FACE \cite{yang2016wider}, with single-model and single-scale, our TinaFace achieves 92.1\% average precision (AP), which exceeds most of the recent face detectors with larger backbone. And after using test time augmentation (TTA), our TinaFace outperforms the current state-of-the-art method and achieves 92.4\% AP. The code will be available at \url{https://github.com/Media-Smart/vedadet}.
翻訳日:2022-09-20 09:07:06 公開日:2021-01-22
# (参考訳) ダンクかノーか? --redditのミーム人気の分析と予測

Dank or Not? -- Analyzing and Predicting the Popularity of Memes on Reddit ( http://arxiv.org/abs/2011.14326v2 )

ライセンス: CC BY 4.0
Kate Barnes, Tiernon Riesenmy, Minh Duc Trinh, Eli Lleshi, N\'ora Balogh, Roland Molontay(参考訳) インターネットミームは、近年多くの研究の関心を惹きつける現代社会コミュニケーションの広まりつつある形態になりつつある。 本稿では、2020年3月中旬にRedditから収集された129,326ミームのデータを分析し、世界で最も深刻な新型コロナウイルスの規制が世界中で導入されている。 この記事は、新型コロナウイルス(COVID-19)パンデミックにおけるインターネットユーザの考えを垣間見るだけでなく、ミームがバイラルに広まる理由に関するコンテンツベースの予測分析も行います。 また,機械学習手法を用いて,ミーム人気に関するテキスト属性よりも,画像関連属性のインクリメンタル予測について検討した。 AUC=0.68では,その内容のみに基づいてミームの成功を予測することができ,最高の機械学習モデルによりバイラルミームを予測することができる。 また,画像関連属性とテキスト属性の両方が,相互に有意な漸進的な予測能力を持っていることもわかった。

Internet memes have become an increasingly pervasive form of contemporary social communication that attracted a lot of research interest recently. In this paper, we analyze the data of 129,326 memes collected from Reddit in the middle of March, 2020, when the most serious coronavirus restrictions were being introduced around the world. This article not only provides a looking glass into the thoughts of Internet users during the COVID-19 pandemic but we also perform a content-based predictive analysis of what makes a meme go viral. Using machine learning methods, we also study what incremental predictive power image related attributes have over textual attributes on meme popularity. We find that the success of a meme can be predicted based on its content alone moderately well, our best performing machine learning model predicts viral memes with AUC=0.68. We also find that both image related and textual attributes have significant incremental predictive power over each other.
翻訳日:2021-06-07 12:31:11 公開日:2021-01-22
# 確率的プログラミングを伴う複素座標に基づくメタ解析

Complex Coordinate-Based Meta-Analysis with Probabilistic Programming ( http://arxiv.org/abs/2012.01303v2 )

ライセンス: Link先を確認
Valentin Iovene (NEUROSPIN, PARIETAL), Gaston Zanitti (NEUROSPIN, PARIETAL), Demian Wassermann (NEUROSPIN, PARIETAL)(参考訳) 機能的磁気共鳴イメージング(fmri)の研究が増えているため、メタ分析データベースやモデルが脳のマッピング研究の不可欠な部分となっている。 自然言語処理(NLP)技術を用いて,報告されたピークアクティベーションの座標と用語関連を自動的に抽出することにより,コーディネートベースメタ分析(CBMA)データベースを構築する。 これらのデータベース上で項ベースのクエリを解くことで、特定の認知過程に関連する脳の統計地図を得ることができる。 しかし、neurosynthのようなツールでは、単項クエリだけが統計的に信頼できる結果をもたらす。 よりリッチなクエリを解決するには、データベースからの研究が多すぎることが統計的推定に寄与する。 我々は、Datalog上に立つ確率的ドメイン固有言語(DSL)と、リッチなロジックベースのクエリを表現および解決するための確率的拡張であるCP-Logicを設計する。 CBMAデータベースを確率的プログラムにエンコードする。 ベイジアンネットワーク翻訳の合同分布を用いて,このプログラムにおけるクエリの解が,voxelアクティベーションの正しい確率分布を計算することを示す。 そこでは,最先端のart knowledge compilation (kc)技術が実用的応用に十分な速さで問合せを解決できない状況において,問合せ処理アルゴリズムが大規模画像データのサイズにスケールできることを説明する。 最後に,論文を確率論的に関連づける手法を導入し,より小さなデータベース上での接続型クエリの解法を改良する。 メタ分析データベースと広く使用されているニューロシンスデータベースの両方において,2項の結合性問合せの結果を示す。

With the growing number of published functional magnetic resonance imaging (fMRI) studies, meta-analysis databases and models have become an integral part of brain mapping research. Coordinate-based meta-analysis (CBMA) databases are built by automatically extracting both coordinates of reported peak activations and term associations using natural language processing (NLP) techniques. Solving term-based queries on these databases make it possible to obtain statistical maps of the brain related to specific cognitive processes. However, with tools like Neurosynth, only singleterm queries lead to statistically reliable results. When solving richer queries, too few studies from the database contribute to the statistical estimations. We design a probabilistic domain-specific language (DSL) standing on Datalog and one of its probabilistic extensions, CP-Logic, for expressing and solving rich logic-based queries. We encode a CBMA database into a probabilistic program. Using the joint distribution of its Bayesian network translation, we show that solutions of queries on this program compute the right probability distributions of voxel activations. We explain how recent lifted query processing algorithms make it possible to scale to the size of large neuroimaging data, where state of the art knowledge compilation (KC) techniques fail to solve queries fast enough for practical applications. Finally, we introduce a method for relating studies to terms probabilistically, leading to better solutions for conjunctive queries on smaller databases. We demonstrate results for two-term conjunctive queries, both on simulated meta-analysis databases and on the widely-used Neurosynth database.
翻訳日:2021-05-25 03:48:57 公開日:2021-01-22
# (参考訳) 特徴グラフ保存によるクラスインクリメンタル学習

Class-incremental Learning with Rectified Feature-Graph Preservation ( http://arxiv.org/abs/2012.08129v2 )

ライセンス: CC BY 4.0
Cheng-Hsun Lei, Yi-Hsin Chen, Wen-Hsiao Peng, Wei-Chen Chiu(参考訳) 本稿では,1つの頭を用いた蒸留法に基づくクラス増分学習の問題に対処する。 このタスクの中心的なテーマは、シーケンシャルなフェーズで到着する新しいクラスを学習し、参照データサンプルを保存するためのメモリ制限のある参照クラスを認識できるモデルの能力を維持することである。 壊滅的な忘れる現象を緩和するために多くの規則化戦略が提案されている。 これらの正規化の本質をよりよく理解するために,特徴グラフ保存の観点から紹介する。 彼らのメリットと欠点に対する洞察は、古い知識保存のための重み付きユークリッド正規化を動機付ける。 さらに,正規化コサイン正規化を提案し,新しいクラスを効果的に学習するためのクラス分離を増加させるために,バイナリクロスエントロピーとどのように連携するかを示す。 CIFAR-100とImageNetの2つのデータセットによる実験結果から,本手法は分類誤差の低減,破滅的忘れの緩和,各クラスに対する等バランスの取れた精度の向上など,最先端の手法よりも優れていることが示された。 プロジェクトページはhttps://github.com/yhchen12101/fgp-icl。

In this paper, we address the problem of distillation-based class-incremental learning with a single head. A central theme of this task is to learn new classes that arrive in sequential phases over time while keeping the model's capability of recognizing seen classes with only limited memory for preserving seen data samples. Many regularization strategies have been proposed to mitigate the phenomenon of catastrophic forgetting. To understand better the essence of these regularizations, we introduce a feature-graph preservation perspective. Insights into their merits and faults motivate our weighted-Euclidean regularization for old knowledge preservation. We further propose rectified cosine normalization and show how it can work with binary cross-entropy to increase class separation for effective learning of new classes. Experimental results on both CIFAR-100 and ImageNet datasets demonstrate that our method outperforms the state-of-the-art approaches in reducing classification error, easing catastrophic forgetting, and encouraging evenly balanced accuracy over different classes. Our project page is at : https://github.com/yhchen12101/FGP-ICL.
翻訳日:2021-05-08 11:37:29 公開日:2021-01-22
# 正確なシミュレーションによる神経培養のパターン認識性能の評価

Assessing Pattern Recognition Performance of Neuronal Cultures through Accurate Simulation ( http://arxiv.org/abs/2012.10355v2 )

ライセンス: Link先を確認
Gabriele Lagani, Raffaele Mazziotti, Fabrizio Falchi, Claudio Gennaro, Guido Marco Cicchini, Tommaso Pizzorusso, Federico Cremisi, Giuseppe Amato(参考訳) これまでの研究では、MEA(Multi-Electrode Arrays)で神経培養を訓練し、非常に単純なパターンを認識できることが示されている。 しかし, この研究は主に, パターン認識性能の厳密な評価を行うのではなく, 文化の可塑性を誘導できることを実証することに焦点を当てた。 本稿では,学習課題における神経細胞培養のパフォーマンスを評価する手法の開発により,このギャップを解消する。 具体的には、実際の培養ニューロンネットワークのディジタルモデルを提案し、実文化の挙動を確実に再現できる生物学的に妥当なシミュレーションパラメータを特定し、シミュレートされた文化を用いて手書きの数字認識を行い、その性能を厳格に評価する。

Previous work has shown that it is possible to train neuronal cultures on Multi-Electrode Arrays (MEAs), to recognize very simple patterns. However, this work was mainly focused to demonstrate that it is possible to induce plasticity in cultures, rather than performing a rigorous assessment of their pattern recognition performance. In this paper, we address this gap by developing a methodology that allows us to assess the performance of neuronal cultures on a learning task. Specifically, we propose a digital model of the real cultured neuronal networks; we identify biologically plausible simulation parameters that allow us to reliably reproduce the behavior of real cultures; we use the simulated culture to perform handwritten digit recognition and rigorously evaluate its performance; we also show that it is possible to find improved simulation parameters for the specific task, which can guide the creation of real cultures.
翻訳日:2021-05-01 18:10:40 公開日:2021-01-22
# Barzilai-Borwein法のより高速な$R$-Linear収束率について

On a Faster $R$-Linear Convergence Rate of the Barzilai-Borwein Method ( http://arxiv.org/abs/2101.00205v2 )

ライセンス: Link先を確認
Dawei Li and Ruoyu Sun(参考訳) Barzilai-Borwein (BB) 法は非線形最適化において実験的な成功を収めた。 しかし,二次問題に対するbb法の既知の収束速度は,最急降下法 (sd) よりもかなり悪いため,bb法の収束速度はよく分かっていない。 そのため、理論と実践には大きな相違点がある。 このギャップを縮小するために、bb 法は 1-1/\kappa$ のレートで r$-線形収束し、ここで $\kappa$ は条件数であり、強凸二次問題に対して収束する。 さらに、理論的な収束率を持つ例が構成され、我々の束縛の厳密さを示している。

The Barzilai-Borwein (BB) method has demonstrated great empirical success in nonlinear optimization. However, the convergence speed of BB method is not well understood, as the known convergence rate of BB method for quadratic problems is much worse than the steepest descent (SD) method. Therefore, there is a large discrepancy between theory and practice. To shrink this gap, we prove that the BB method converges $R$-linearly at a rate of $1-1/\kappa$, where $\kappa$ is the condition number, for strongly convex quadratic problems. In addition, an example with the theoretical rate of convergence is constructed, indicating the tightness of our bound.
翻訳日:2021-04-16 11:06:58 公開日:2021-01-22
# ミリ波通信システムのためのDeep Learning Assisted Calibrated Beam Training

Deep Learning Assisted Calibrated Beam Training for Millimeter-Wave Communication Systems ( http://arxiv.org/abs/2101.05206v2 )

ライセンス: Link先を確認
Ke Ma, Dongxuan He, Hancun Sun, Zhaocheng Wang, Sheng Chen(参考訳) ビームトレーニングの膨大なオーバーヘッドはミリ波(mmWave)無線通信において大きな課題となる。 この問題に対処するため,本稿では,狭ビーム方向をチャネルパワーリークに応じて校正するための広ビームベーストレーニング手法を提案する。 チャネルパワーリークの複雑な非線形特性に対処するために、ディープラーニングを用いて最適な狭ビームを直接予測する。 具体的には,3つの深層学習支援ビーム訓練方式を提案する。 第1のスキームは畳み込みニューラルネットワークを採用し、広ビームトレーニングの瞬時受信信号に基づく予測を実装する。 また,さらなるビーム方向校正のための予測確率に基づく狭ビーム訓練も実施した。 第2のスキームは、騒音に対するロバスト性を高めるために、ユーザの動きを追跡し、事前ビームトレーニングの受信信号に従ってビーム方向を調整するための長期記憶(LSTM)ネットワークを採用する。 ワイドビームトレーニングのオーバーヘッドをさらに軽減するため、適応ビームトレーニング戦略である第3のスキームでは、先行受信信号に基づいてトレーニング対象とする部分ワイドビームを選択する。 最適隣接基準と最大確率基準の2つの基準が選択のために設計されている。 さらに、移動シナリオを扱うために、選択したワイドビームの方向をより正確に調整するために補助LSTMを導入する。 シミュレーションの結果,提案手法は従来の深層学習方式に比べてビームトレーニングのオーバーヘッドを小さくし,ビームフォーミングゲインを著しく向上することが示された。

Huge overhead of beam training imposes a significant challenge in millimeter-wave (mmWave) wireless communications. To address this issue, in this paper, we propose a wide beam based training approach to calibrate the narrow beam direction according to the channel power leakage. To handle the complex nonlinear properties of the channel power leakage, deep learning is utilized to predict the optimal narrow beam directly. Specifically, three deep learning assisted calibrated beam training schemes are proposed. The first scheme adopts convolution neural network to implement the prediction based on the instantaneous received signals of wide beam training. We also perform the additional narrow beam training based on the predicted probabilities for further beam direction calibrations. The second scheme adopts long-short term memory (LSTM) network for tracking the movement of users and calibrating the beam direction according to the received signals of prior beam training, in order to enhance the robustness to noise. To further reduce the overhead of wide beam training, our third scheme, an adaptive beam training strategy, selects partial wide beams to be trained based on the prior received signals. Two criteria, namely, optimal neighboring criterion and maximum probability criterion, are designed for the selection. Furthermore, to handle mobile scenarios, auxiliary LSTM is introduced to calibrate the directions of the selected wide beams more precisely. Simulation results demonstrate that our proposed schemes achieve significantly higher beamforming gain with smaller beam training overhead compared with the conventional and existing deep-learning based counterparts.
翻訳日:2021-04-10 05:00:02 公開日:2021-01-22
# 教室における顔映像からのマルチモーダルエンゲージメント分析

Multimodal Engagement Analysis from Facial Videos in the Classroom ( http://arxiv.org/abs/2101.04215v2 )

ライセンス: Link先を確認
\"Omer S\"umer, Patricia Goldberg, Sidney D'Mello, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci(参考訳) 学生のエンゲージメントは学習と教育の重要な構成要素である。 本稿は,学生参加分析をコンピュータ・ベース・セッティングで調べるものであるが,本論文は教室の授業に焦点を絞ったものである。 教室における学生の視覚的エンゲージメントを最もよく調査するために,小学校の授業の聴覚的記録を1ヶ月半にわたって活用し,繰り返しセッションで学生毎の連続的エンゲージメントラベル(N=15)を取得し,教室内の顔からエンゲージメントレベルを分類するためのコンピュータビジョン手法を検討した。 我々は,注意的および感情的特徴の深い埋め込みを訓練し,頭部ポーズ推定のためのアテンションネットと表情認識のためのインフルエントネットを訓練した。 また,Support Vector Machines,Random Forest,Multilayer Perceptron,Long Short-Term Memoryの2つの機能で,異なるエンゲージメント分類器を訓練した。 最も優れたエンゲージメント分類器は、それぞれグレード8と12の.620と.720のAUCを達成した。 さらに, 融合戦略について検討し, スコアレベル融合はエンゲージメント分類器を改善するか, 最高のモダリティに匹敵するかを見出した。 また、パーソナライズの効果についても検討し、基本分類器のマージン不確実性によって選択された60秒の個人データを使用することで平均AUC改善率は.084。 本研究の主な目的は,授業の質や教員養成の文脈において,授業ビデオの手動データ分析を容易にするための技術手段を提供することである。

Student engagement is a key construct for learning and teaching. While most of the literature explored the student engagement analysis on computer-based settings, this paper extends that focus to classroom instruction. To best examine student visual engagement in the classroom, we conducted a study utilizing the audiovisual recordings of classes at a secondary school over one and a half month's time, acquired continuous engagement labeling per student (N=15) in repeated sessions, and explored computer vision methods to classify engagement levels from faces in the classroom. We trained deep embeddings for attentional and emotional features, training Attention-Net for head pose estimation and Affect-Net for facial expression recognition. We additionally trained different engagement classifiers, consisting of Support Vector Machines, Random Forest, Multilayer Perceptron, and Long Short-Term Memory, for both features. The best performing engagement classifiers achieved AUCs of .620 and .720 in Grades 8 and 12, respectively. We further investigated fusion strategies and found score-level fusion either improves the engagement classifiers or is on par with the best performing modality. We also investigated the effect of personalization and found that using only 60-seconds of person-specific data selected by margin uncertainty of the base classifier yielded an average AUC improvement of .084. 4.Our main aim with this work is to provide the technical means to facilitate the manual data analysis of classroom videos in research on teaching quality and in the context of teacher training.
翻訳日:2021-04-04 14:31:45 公開日:2021-01-22
# Denoiser epistemic Uncertainty and Decoupled Dual-Attention Fusion

Deep Gaussian Denoiser Epistemic Uncertainty and Decoupled Dual-Attention Fusion ( http://arxiv.org/abs/2101.04631v2 )

ライセンス: Link先を確認
Xiaoqi Ma, Xiaoyu Lin, Majed El Helou, Sabine S\"usstrunk(参考訳) ネットワークのデノベーションのパフォーマンスのブレークスルーに続いて、改善は主に新しいアーキテクチャ設計と深度の向上によって行われた。 新たなデノイジングネットワークは、異なる分布からの実際の画像や特定の用途のために設計されたが、ガウスのデノイジングでは、比較的小さな改善が達成された。 デノナイジングソリューションは、さらなる進歩を制限することができるてんかんの不確実性に悩まされる。 この不確実性は伝統的に異なるアンサンブルアプローチによって緩和される。 しかし、そのようなアンサンブルは、既に大きなネットワークを持つディープネットワークでは、非常にコストがかかる。 我々の研究は、ガウス法における最先端法の性能限界を押し上げることに焦点を当てている。 本稿では,1つの事前学習ネットワークのみを用いながら,疫学的不確実性を低減するためのモデル非依存アプローチを提案する。 拡張・周波数制御画像による認識の不確かさを抽出し,誤りの異なる有意な画像を得る。 ピクセル領域上と異なる操作上の2つの分離したアテンションパスを用いたアンサンブル法を提案する。 その結果,最先端のベースラインや様々なノイズレベルに対して有意に改善した。

Following the performance breakthrough of denoising networks, improvements have come chiefly through novel architecture designs and increased depth. While novel denoising networks were designed for real images coming from different distributions, or for specific applications, comparatively small improvement was achieved on Gaussian denoising. The denoising solutions suffer from epistemic uncertainty that can limit further advancements. This uncertainty is traditionally mitigated through different ensemble approaches. However, such ensembles are prohibitively costly with deep networks, which are already large in size. Our work focuses on pushing the performance limits of state-of-the-art methods on Gaussian denoising. We propose a model-agnostic approach for reducing epistemic uncertainty while using only a single pretrained network. We achieve this by tapping into the epistemic uncertainty through augmented and frequency-manipulated images to obtain denoised images with varying error. We propose an ensemble method with two decoupled attention paths, over the pixel domain and over that of our different manipulations, to learn the final fusion. Our results significantly improve over the state-of-the-art baselines and across varying noise levels.
翻訳日:2021-04-04 01:36:49 公開日:2021-01-22
# (参考訳) Houseer Dice:ガウスおよびランダム直交アンサンブルのダイナミクスをマトリックスフリーでシミュレーションするアルゴリズム

Householder Dice: A Matrix-Free Algorithm for Simulating Dynamics on Gaussian and Random Orthogonal Ensembles ( http://arxiv.org/abs/2101.07464v2 )

ライセンス: CC BY 4.0
Yue M. Lu(参考訳) 本稿では,変換不変な性質を持つ密度乱数行列アンサンブルのダイナミクスをシミュレートする,houseer dice (hd) という新しいアルゴリズムを提案する。 例えば、ガウスアンサンブル、ハール分布のランダム直交アンサンブル、それらの複素値アンサンブルなどがある。 最初にアンサンブルから密な$n \times n$行列を生成するシミュレーションへの「直接」アプローチは、空間と時間において少なくとも$\mathcal{o}(n^2)$リソースを必要とする。 hdアルゴリズムは、遅延決定の原理を用いて、この$\mathcal{o}(n^2)$のボトルネックを克服する。 このマトリクスフリーアルゴリズムの中心は、(ランダムな)ハウスリフレクターの適応的かつ再帰的な構成である。 これらの直交変換は行列アンサンブルの群対称性を利用し、同時にダイナミクスによって引き起こされる統計相関を維持している。 HDアルゴリズムのメモリと計算コストはそれぞれ$\mathcal{O}(nT)$と$\mathcal{O}(nT^2)$であり、$T$は反復数である。 ほぼ常にそうである$T \ll n$の場合、新しいアルゴリズムは実行時とメモリフットプリントを大幅に削減する。 数値実験により,高次元ランダム系の研究における新しい計算ツールとしてのhdアルゴリズムの期待が示された。

This paper proposes a new algorithm, named Householder Dice (HD), for simulating dynamics on dense random matrix ensembles with translation-invariant properties. Examples include the Gaussian ensemble, the Haar-distributed random orthogonal ensemble, and their complex-valued counterparts. A "direct" approach to the simulation, where one first generates a dense $n \times n$ matrix from the ensemble, requires at least $\mathcal{O}(n^2)$ resource in space and time. The HD algorithm overcomes this $\mathcal{O}(n^2)$ bottleneck by using the principle of deferred decisions: rather than fixing the entire random matrix in advance, it lets the randomness unfold with the dynamics. At the heart of this matrix-free algorithm is an adaptive and recursive construction of (random) Householder reflectors. These orthogonal transformations exploit the group symmetry of the matrix ensembles, while simultaneously maintaining the statistical correlations induced by the dynamics. The memory and computation costs of the HD algorithm are $\mathcal{O}(nT)$ and $\mathcal{O}(nT^2)$, respectively, with $T$ being the number of iterations. When $T \ll n$, which is nearly always the case in practice, the new algorithm leads to significant reductions in runtime and memory footprint. Numerical results demonstrate the promise of the HD algorithm as a new computational tool in the study of high-dimensional random systems.
翻訳日:2021-03-26 07:55:13 公開日:2021-01-22
# 自然言語推論の仮説限定モデルにおける語彙不規則性の検討

Exploring Lexical Irregularities in Hypothesis-Only Models of Natural Language Inference ( http://arxiv.org/abs/2101.07397v3 )

ライセンス: Link先を確認
Qingyuan Hu, Yi Zhang, Kanishka Misra, Julia Rayz(参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、一対の文(前提と仮説)の間の関係を予測するタスクである。 このタスクは意味表現の開発に有用なテスト基盤として説明され、自然言語理解評価ベンチマークにおいて重要な要素である。 包含を理解するモデルは前提と仮説の両方をエンコードするべきである。 しかし、poliakらは実験を行った。 仮説でのみ観察されるパターンに対して、これらのモデルの強い嗜好を、データセット比較に基づいて明らかにした。 これらの結果は、モデルが芸術の状況と競争的に振る舞うように偏る仮説に存在する統計的不規則性の存在を示唆した。 リキャストデータセットは、人間の介入を最小限に抑えて大規模なNLIインスタンスを生成するが、それらを生成する論文は、NLIモデルに偏る可能性のある潜在的な統計パターンの詳細な分析を提供していない。 本研究では,Poliakらが提供するリキャストデータセットの1つでトレーニングされた仮説のみのモデルを解析する。 単語レベルのパターン。 その結果,モデル性能の増大に寄与する潜在的な語彙バイアスの存在が示唆された。

Natural Language Inference (NLI) or Recognizing Textual Entailment (RTE) is the task of predicting the entailment relation between a pair of sentences (premise and hypothesis). This task has been described as a valuable testing ground for the development of semantic representations, and is a key component in natural language understanding evaluation benchmarks. Models that understand entailment should encode both, the premise and the hypothesis. However, experiments by Poliak et al. revealed a strong preference of these models towards patterns observed only in the hypothesis, based on a 10 dataset comparison. Their results indicated the existence of statistical irregularities present in the hypothesis that bias the model into performing competitively with the state of the art. While recast datasets provide large scale generation of NLI instances due to minimal human intervention, the papers that generate them do not provide fine-grained analysis of the potential statistical patterns that can bias NLI models. In this work, we analyze hypothesis-only models trained on one of the recast datasets provided in Poliak et al. for word-level patterns. Our results indicate the existence of potential lexical biases that could contribute to inflating the model performance.
翻訳日:2021-03-22 11:23:05 公開日:2021-01-22
# DyLoc:予測リカレントニューラルネットワークを用いたMIMOの動的位置推定

DyLoc: Dynamic Localization for Massive MIMO Using Predictive Recurrent Neural Networks ( http://arxiv.org/abs/2101.07848v2 )

ライセンス: Link先を確認
Farzam Hejazi, Katarina Vuckovic, Nazanin Rahnavard(参考訳) 本稿では,GPSやモデルに基づくローカライゼーション技術が不足する都市部や屋内など,時間変化のある複雑なマルチパス環境において,高精度なデータ駆動型ローカライゼーションフレームワークを提案する。 大規模MIMOシステムにおけるチャネル状態情報(CSI)の線形変換であるアングル遅延プロファイル(ADP)について検討し,時間的に積み重ねられた場合,ADPがユーザの動きを保存することを示す。 映像フレーム予測アルゴリズムを用いて, 静的環境下では, adp時系列の将来フレームが予測可能であることを考察する。 背景静的散乱環境を学習するために,深層畳み込みニューラルネットワーク(dcnn)が利用できることを示す。 経路遮断や追加に対応する環境における前景変化を検出するために,訓練されたdcnnを利用したアルゴリズムを提案する。 さらに,前景変化による歪みADPを復元し,正確な位置推定を行うためのデータ駆動型フレームワークDyLocを提案する。 dylocの性能を,deepmimoデータセットを用いて屋内および屋外環境向けに地理タグ付きcsiデータセットを生成する動的シナリオで評価する。 我々は,DyLocが正確なローカライゼーションを追求するのに対して,従来のDCNNベースの手法は動的環境において望ましい精度で動作しないことを示す。 さらにシミュレーションにより、マルチパスの数で環境が豊かになるにつれて、DyLocは前景の変化に対してより堅牢になることが示された。

This paper presents a data-driven localization framework with high precision in time-varying complex multipath environments, such as dense urban areas and indoors, where GPS and model-based localization techniques come short. We consider the angle-delay profile (ADP), a linear transformation of channel state information (CSI), in massive MIMO systems and show that ADPs preserve users' motion when stacked temporally. We discuss that given a static environment, future frames of ADP time-series are predictable employing a video frame prediction algorithm. We express that a deep convolutional neural network (DCNN) can be employed to learn the background static scattering environment. To detect foreground changes in the environment, corresponding to path blockage or addition, we introduce an algorithm taking advantage of the trained DCNN. Furthermore, we present DyLoc, a data-driven framework to recover distorted ADPs due to foreground changes and to obtain precise location estimations. We evaluate the performance of DyLoc in several dynamic scenarios employing DeepMIMO dataset to generate geo-tagged CSI datasets for indoor and outdoor environments. We show that previous DCNN-based techniques fail to perform with desirable accuracy in dynamic environments, while DyLoc pursues localization precisely. Moreover, simulations show that as the environment gets richer in terms of the number of multipath, DyLoc gets more robust to foreground changes.
翻訳日:2021-03-22 11:12:57 公開日:2021-01-22
# 境界プレサイエンスでアタリゲームをシールドする

Shielding Atari Games with Bounded Prescience ( http://arxiv.org/abs/2101.08153v2 )

ライセンス: Link先を確認
Mirco Giacobbe, Mohammadhosein Hasanbeig, Daniel Kroening, Hjalmar Wijk(参考訳) 深層強化学習(drl)はロボット工学や自動運転といった安全クリティカルな分野に適用される。 これは多くのタスクで超人的な能力を達成するが、drlエージェントが安全に行動できるかどうかは未解決の問題である。 アタリゲームは、DRLエージェントの安全性を評価し、多種多様なゲームメカニックのポートフォリオを特徴とするシンプルだが挑戦的な例である。 神経エージェントの安全性は、システムダイナミクスのモデルや抽象化を必要とする手法を使う前に研究されてきたが、残念ながら、これらはアタリゲームには適さない。 そこで本研究では,アタリゲームにおけるDRLエージェントの安全性の確保と分析を行う。 本手法はエミュレータへのアクセスのみを必要とする。 まず、30ゲームに対して「安全な動作」を特徴付ける43のプロパティのセットを与える。 第2に,エージェントとゲームによって誘導されるすべてのトレースを探索する手法を開発し,ゲーム非決定性の諸源を検討する。 もっとも有効なDRLエージェントは、非常に少数の特性しか確実に満たさないことが観察された。 最後に,包括的明示状態探索と遮蔽を組み合わせた対策を提案する。 提案手法は,複数の特性にまたがる全てのエージェントの安全性を向上させる。

Deep reinforcement learning (DRL) is applied in safety-critical domains such as robotics and autonomous driving. It achieves superhuman abilities in many tasks, however whether DRL agents can be shown to act safely is an open problem. Atari games are a simple yet challenging exemplar for evaluating the safety of DRL agents and feature a diverse portfolio of game mechanics. The safety of neural agents has been studied before using methods that either require a model of the system dynamics or an abstraction; unfortunately, these are unsuitable to Atari games because their low-level dynamics are complex and hidden inside their emulator. We present the first exact method for analysing and ensuring the safety of DRL agents for Atari games. Our method only requires access to the emulator. First, we give a set of 43 properties that characterise "safe behaviour" for 30 games. Second, we develop a method for exploring all traces induced by an agent and a game and consider a variety of sources of game non-determinism. We observe that the best available DRL agents reliably satisfy only very few properties; several critical properties are violated by all agents. Finally, we propose a countermeasure that combines a bounded explicit-state exploration with shielding. We demonstrate that our method improves the safety of all agents over multiple properties.
翻訳日:2021-03-22 01:26:57 公開日:2021-01-22
# スケーラブルなDeep Compressive Sensing

Scalable Deep Compressive Sensing ( http://arxiv.org/abs/2101.08024v2 )

ライセンス: Link先を確認
Zhonghao Zhang and Yipeng Liu and Xingyu Cao and Fei Wen and Ce Zhu(参考訳) 深層学習は画像圧縮センシング(cs)に用いられており、再構成性能が向上している。 しかし、既存のディープラーニング手法の多くは、異なるサブサンプリング比率で異なるモデルをトレーニングしており、ハードウェアの負担が増している。 本稿では,拡張性深部圧縮センシング(SDCS)と呼ばれる,既存のエンドツーエンド学習モデルの拡張性サンプリング・再構成(SSR)のための汎用フレームワークを開発する。 提案手法では,画像の測定と初期化を線形に行う。 2つのサンプリングマスクを導入し、それぞれサンプリングと再構成に使用されるサブサンプリング比を柔軟に制御する。 再構成モデルを任意のサブサンプリング比率に適応させるため、スケーラブルトレーニングと呼ばれるトレーニング戦略を開発する。 スケーラブルなトレーニングでは、異なるサンプリング行列マスクを統合することで、サンプル行列と初期化行列を様々なサブサンプリング比でトレーニングする。 実験の結果,SDCSを用いたモデルでは,良好な性能を維持しながら構造を変更せずにSSRを達成でき,SDCSは他のSSR法よりも優れていた。

Deep learning has been used to image compressive sensing (CS) for enhanced reconstruction performance. However, most existing deep learning methods train different models for different subsampling ratios, which brings additional hardware burden. In this paper, we develop a general framework named scalable deep compressive sensing (SDCS) for the scalable sampling and reconstruction (SSR) of all existing end-to-end-trained models. In the proposed way, images are measured and initialized linearly. Two sampling masks are introduced to flexibly control the subsampling ratios used in sampling and reconstruction, respectively. To make the reconstruction model adapt to any subsampling ratio, a training strategy dubbed scalable training is developed. In scalable training, the model is trained with the sampling matrix and the initialization matrix at various subsampling ratios by integrating different sampling matrix masks. Experimental results show that models with SDCS can achieve SSR without changing their structure while maintaining good performance, and SDCS outperforms other SSR methods.
翻訳日:2021-03-22 01:19:00 公開日:2021-01-22
# OFDMから脂肪をトリミングする:エンドツーエンド学習によるパイロットとCPなしコミュニケーション

Trimming the Fat from OFDM: Pilot- and CP-less Communication with End-to-end Learning ( http://arxiv.org/abs/2101.08213v2 )

ライセンス: Link先を確認
Fay\c{c}al Ait Aoudia and Jakob Hoydis(参考訳) 直交周波数分割多重化(OFDM)は、無線通信システムにおいて、その効率的な実装により支配的な波形の1つである。 しかし、インターシンボリック干渉 (isi) を緩和するには循環プレフィックス (cp) が必要であり、パイロットはチャネルを推定する必要があるため、スペクトル効率が低下する。 そこで本研究では,ニューラルネットワーク(nn)ベースの受信機をコンステレーションジオメトリとビットラベリングと共同で学習し,ビット誤り率(ber)の大幅な低下を伴わずにofdm上でcpレス,パイロットレスの通信を実現することを提案する。 提案手法では,パイロットとCPベースのベースラインに対して,少なくとも18%のスループット向上が可能であり,パイロットによるニューラルレシーバを用いたシステムに比べて,少なくとも4%のスループット向上を実現している。

Orthogonal frequency division multiplexing (OFDM) is one of the dominant waveforms in wireless communication systems due to its efficient implementation. However, it suffers from a loss of spectral efficiency as it requires a cyclic prefix (CP) to mitigate inter-symbol interference (ISI) and pilots to estimate the channel. We propose in this work to address these drawbacks by learning a neural network (NN)-based receiver jointly with a constellation geometry and bit labeling at the transmitter, that allows CP-less and pilotless communication on top of OFDM without a significant loss in bit error rate (BER). Our approach enables at least 18% throughput gains compared to a pilot and CP-based baseline, and at least 4% gains compared to a system that uses a neural receiver with pilots but no CP.
翻訳日:2021-03-22 01:14:36 公開日:2021-01-22
# (参考訳) エンサンブルラーニングと反復学習(ELIT)機械学習:原子分解顕微鏡における不確実性定量化と自動実験への応用

Ensemble learning and iterative training (ELIT) machine learning: applications towards uncertainty quantification and automated experiment in atom-resolved microscopy ( http://arxiv.org/abs/2101.08449v2 )

ライセンス: CC BY 4.0
Ayana Ghosh, Bobby G. Sumpter, Ondrej Dyck, Sergei V. Kalinin, and Maxim Ziatdinov(参考訳) ディープラーニングは、画像分野をまたがる迅速な特徴抽出の手法として登場し、データストリームを空間的あるいは時空間的特徴の配列に迅速に変換することを可能にする。 しかし、実験領域におけるディープラーニングの応用は、実験間の分配外流によって制限されることが多く、そこでは、1組の撮像条件のために訓練されたネットワークが、異なる領域に対して準最適となる。 この制限は、人間の介入や関連するレイテンシの必要性により、再訓練や転校生の学習が非現実的になるような、自動的な実験環境の追求において特に厳しい。 本稿では,原子分解電子顕微鏡における特徴抽出のための深層学習の再現性について検討し,アンサンブル学習と反復学習に基づくワークフローを導入して特徴検出を大幅に改善する。 このアプローチは、ディープラーニング分析に不確実性定量化を取り入れることを可能にし、また、画像条件の微妙な変化による分散ドリフトを補償するためにネットワークの再トレーニングを人間の操作者やアンサンブルからのネットワークのプログラム的選択に置き換える、迅速な自動実験ワークフローを可能にする。 この方法論は、光学および化学イメージングを含む他のイメージング分野の機械学習ワークフローにさらに適用することができる。

Deep learning has emerged as a technique of choice for rapid feature extraction across imaging disciplines, allowing rapid conversion of the data streams to spatial or spatiotemporal arrays of features of interest. However, applications of deep learning in experimental domains are often limited by the out-of-distribution drift between the experiments, where the network trained for one set of imaging conditions becomes sub-optimal for different ones. This limitation is particularly stringent in the quest to have an automated experiment setting, where retraining or transfer learning becomes impractical due to the need for human intervention and associated latencies. Here we explore the reproducibility of deep learning for feature extraction in atom-resolved electron microscopy and introduce workflows based on ensemble learning and iterative training to greatly improve feature detection. This approach both allows incorporating uncertainty quantification into the deep learning analysis and also enables rapid automated experimental workflows where retraining of the network to compensate for out-of-distribution drift due to subtle change in imaging conditions is substituted for a human operator or programmatic selection of networks from the ensemble. This methodology can be further applied to machine learning workflows in other imaging areas including optical and chemical imaging.
翻訳日:2021-03-21 20:34:51 公開日:2021-01-22
# どうやって説明者を選べる? ポストホック説明の応用的評価

How can I choose an explainer? An Application-grounded Evaluation of Post-hoc Explanations ( http://arxiv.org/abs/2101.08758v2 )

ライセンス: Link先を確認
S\'ergio Jesus, Catarina Bel\'em, Vladimir Balayan, Jo\~ao Bento, Pedro Saleiro, Pedro Bizarro, Jo\~ao Gama(参考訳) 特定の特性を持つモデル説明を生成するために設計された新しい説明可能なAI(XAI)手法や、忠実性、堅牢性、人間解釈可能性などのデシダータを提案する研究がいくつかある。 しかし、意思決定タスクに対する実際の影響に基づいて説明が評価されることはめったにない。 この評価がなければ、mlモデル+エンドユーザの複合システム全体のパフォーマンスを損なうという説明が選択されるかも知れません。 本研究の目的は、エンドユーザーに対して異なるレベルの情報を提供する影響を分離するために、アプリケーションによる評価手法であるXAI Testを提案し、このギャップを埋めることである。 我々は,実データ,デプロイされたMLモデル,不正アナリストを用いて,実世界の不正検出タスクにおいて,LIME,SHAP,TreeInterpreterの3つの一般的なポストホック説明手法を評価する実験を行った。 データのみ、つまり、モデルスコアや説明へのアクセスのないトランザクションデータ、データ+MLモデルスコア、データ+MLモデルスコア+説明です。 強固な統計分析を用いて, 一般に, これらの一般的な説明者は, 所望よりも悪い影響を持つことを示した。 結論のハイライトは以下のとおりである。 i) データのみを最も高い決定精度と最も遅い決定時間で示し、i) すべての説明者はData + ML Model Scoreの変種よりも正確性を改善するが、それでもデータのみと比較して精度は低い;iii) LIMEはおそらく、ケースからケースへの説明の実質的な多様性のために、ユーザによって最も好まれていない。

There have been several research works proposing new Explainable AI (XAI) methods designed to generate model explanations having specific properties, or desiderata, such as fidelity, robustness, or human-interpretability. However, explanations are seldom evaluated based on their true practical impact on decision-making tasks. Without that assessment, explanations might be chosen that, in fact, hurt the overall performance of the combined system of ML model + end-users. This study aims to bridge this gap by proposing XAI Test, an application-grounded evaluation methodology tailored to isolate the impact of providing the end-user with different levels of information. We conducted an experiment following XAI Test to evaluate three popular post-hoc explanation methods -- LIME, SHAP, and TreeInterpreter -- on a real-world fraud detection task, with real data, a deployed ML model, and fraud analysts. During the experiment, we gradually increased the information provided to the fraud analysts in three stages: Data Only, i.e., just transaction data without access to model score nor explanations, Data + ML Model Score, and Data + ML Model Score + Explanations. Using strong statistical analysis, we show that, in general, these popular explainers have a worse impact than desired. Some of the conclusion highlights include: i) showing Data Only results in the highest decision accuracy and the slowest decision time among all variants tested, ii) all the explainers improve accuracy over the Data + ML Model Score variant but still result in lower accuracy when compared with Data Only; iii) LIME was the least preferred by users, probably due to its substantially lower variability of explanations from case to case.
翻訳日:2021-03-21 07:57:34 公開日:2021-01-22
# (参考訳) 重み付き高次特異値正規化に基づくスナップショットハイパースペクトルイメージング

Snapshot Hyperspectral Imaging Based on Weighted High-order Singular Value Regularization ( http://arxiv.org/abs/2101.08923v1 )

ライセンス: CC BY 4.0
Niankai Cheng, Hua Huang, Lei Zhang, and Lizhi Wang(参考訳) スナップショットハイパースペクトル画像は、単一の2次元計測で3次元ハイパースペクトル画像(HSI)を撮影でき、近年注目を集めている。 圧縮測定から基礎となるHSIを復元することは不適切な問題であり、この不適切な問題の解決には画像の事前利用が不可欠である。 しかし、既存の再構成手法は常に1次元ベクトルや2次元行列に先立って画像のモデリングから始まり、3次元HSIの構造的スペクトル空間特性を完全に活用できないため、忠実度は低い。 本稿では,高次テンソル最適化を効果的に行うことにより,スナップショットハイパースペクトルイメージングの再構成精度を向上させる手法を提案する。 まず,hsiの空間スペクトル相関を利用して高次テンソルを構築する。 そこで本研究では,HSI以前の構造を特徴付けるために,WHOSVRに基づく高次特異値正規化モデルを提案する。 WHOSVRに先行する構造をシステムイメージングプロセスと統合することにより,HSI再構成のための最適化フレームワークを開発し,そのアルゴリズムを交互に最小化することで最終的に解決する。 2つの代表的なシステムで実施した広範囲な実験により,本手法が最先端手法よりも優れていることが証明された。

Snapshot hyperspectral imaging can capture the 3D hyperspectral image (HSI) with a single 2D measurement and has attracted increasing attention recently. Recovering the underlying HSI from the compressive measurement is an ill-posed problem and exploiting the image prior is essential for solving this ill-posed problem. However, existing reconstruction methods always start from modeling image prior with the 1D vector or 2D matrix and cannot fully exploit the structurally spectral-spatial nature in 3D HSI, thus leading to a poor fidelity. In this paper, we propose an effective high-order tensor optimization based method to boost the reconstruction fidelity for snapshot hyperspectral imaging. We first build high-order tensors by exploiting the spatial-spectral correlation in HSI. Then, we propose a weight high-order singular value regularization (WHOSVR) based low-rank tensor recovery model to characterize the structure prior of HSI. By integrating the structure prior in WHOSVR with the system imaging process, we develop an optimization framework for HSI reconstruction, which is finally solved via the alternating minimization algorithm. Extensive experiments implemented on two representative systems demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2021-03-21 07:03:27 公開日:2021-01-22
# (参考訳) 非滑らかな損失を有する差分プライベートSGD

Differentially Private SGD with Non-Smooth Loss ( http://arxiv.org/abs/2101.08925v1 )

ライセンス: CC BY 4.0
Puyu Wang, Yunwen Lei, Yiming Ying, Hai Zhang(参考訳) 本稿では,確率凸最適化(sco)の設定において,微分プライベートなsgdアルゴリズムに関心を持つ。 既存の作業の多くはリプシッツ連続かつ強滑らかな損失を必要とし、モデルパラメータは一様有界である。 しかしながら、これらの仮定は、多くの一般的な損失が、SVMのヒンジ損失、ロバスト回帰の絶対損失、そして非有界領域の最小二乗損失など、これらの条件に反するので制限的である。 我々はこれらの制約的仮定を著しく緩和し、非滑らか凸損失に伴う出力と勾配の摂動を用いたプライベートSGDアルゴリズムのプライバシーと一般化(ユーティリティ)の保証を確立する。 具体的には、損失関数は $\alpha$-H\"{o}lder 連続勾配 ($\alpha$-H\"{o}lder smoothness) として緩和され、リプシッツ連続性(英語版)(\alpha=0$)と強滑らか性(英語版)(\alpha=1$)をインスタンス化する。 α$-h\"older のノイズの多い sgd の勾配摂動による滑らかな損失は、$(\epsilon,\delta)$-differential privacy (dp) を保証し、最適な余剰人口リスク $o\big(\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}+\frac{1}{\sqrt{n}}\big)$ を、対数項まで、勾配複雑性(例えば)を達成する。 繰り返しの総数)$T = O( n^{2-\alpha\over 1+\alpha}+ n)$ これは、損失のより古い滑らかさと統計的に最適な性能を持つプライベートSGDの計算複雑性$T$の間の重要なトレードオフを示す。 特に、我々の結果は、$\alpha$-H\'older smoothness with $\alpha\ge {1/2}$は、線形勾配複雑性$T = O(n)$で最適余剰リスクを達成しつつ、ノイズの多いSGDアルゴリズムの$(\epsilon,\delta)$-DPを保証するのに十分であることを示している。

In this paper, we are concerned with differentially private SGD algorithms in the setting of stochastic convex optimization (SCO). Most of existing work requires the loss to be Lipschitz continuous and strongly smooth, and the model parameter to be uniformly bounded. However, these assumptions are restrictive as many popular losses violate these conditions including the hinge loss for SVM, the absolute loss in robust regression, and even the least square loss in an unbounded domain. We significantly relax these restrictive assumptions and establish privacy and generalization (utility) guarantees for private SGD algorithms using output and gradient perturbations associated with non-smooth convex losses. Specifically, the loss function is relaxed to have $\alpha$-H\"{o}lder continuous gradient (referred to as $\alpha$-H\"{o}lder smoothness) which instantiates the Lipschitz continuity ($\alpha=0$) and strong smoothness ($\alpha=1$). We prove that noisy SGD with $\alpha$-H\"older smooth losses using gradient perturbation can guarantee $(\epsilon,\delta)$-differential privacy (DP) and attain optimal excess population risk $O\Big(\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}+\frac{1}{\sqrt{n}}\Big)$, up to logarithmic terms, with gradient complexity (i.e. the total number of iterations) $T =O( n^{2-\alpha\over 1+\alpha}+ n).$ This shows an important trade-off between $\alpha$-H\"older smoothness of the loss and the computational complexity $T$ for private SGD with statistically optimal performance. In particular, our results indicate that $\alpha$-H\"older smoothness with $\alpha\ge {1/2}$ is sufficient to guarantee $(\epsilon,\delta)$-DP of noisy SGD algorithms while achieving optimal excess risk with linear gradient complexity $T = O(n).$
翻訳日:2021-03-21 06:49:04 公開日:2021-01-22
# (参考訳) Pose-based Hand Gesture Recognitionのための2ストリームニューラルネットワーク

A Two-stream Neural Network for Pose-based Hand Gesture Recognition ( http://arxiv.org/abs/2101.08926v1 )

ライセンス: CC BY 4.0
Chuankun Li, Shuai Li, Yanbo Gao, Xiang Zhang, Wanqing Li(参考訳) 近年,ポーズに基づくジェスチャー認識が広く研究されている。 全身動作認識と比較すると、手の動きはより空間的に密に分布し、より強い協調を伴う関節を伴う。 この性質は、複雑な空間的特徴を捉えるための行動認識とは異なるアプローチを必要とする。 グラブ(grab)やピンチ(pinch)のような多くのジェスチャーカテゴリは、時間処理に挑戦する非常に類似した動きや時間パターンを持っている。 そこで本稿では,短期時間情報と階層的空間情報を抽出するsagcn(self-attention based graph convolutional network)と,長期時間情報を抽出するrbi-indrnn(extrest-connection enhanced bidirectional independent recurrent neural network)の2つのストリームニューラルネットワークを提案する。 自己アテンションに基づくグラフ畳み込みネットワークは、GCNの固定位相と局所特徴抽出に加えて、すべての手関節の関係を適応的に活用する動的自己アテンション機構を有する。 一方、残留接続強化Bi-IndRNNは、時間モデリングのための双方向処理機能を備えたIndRNNを拡張している。 2つのストリームは、認識のために融合されます。 Dynamic Hand Gesture データセットと First-Person Hand Action データセットを用いてその有効性を検証する。

Pose based hand gesture recognition has been widely studied in the recent years. Compared with full body action recognition, hand gesture involves joints that are more spatially closely distributed with stronger collaboration. This nature requires a different approach from action recognition to capturing the complex spatial features. Many gesture categories, such as "Grab" and "Pinch", have very similar motion or temporal patterns posing a challenge on temporal processing. To address these challenges, this paper proposes a two-stream neural network with one stream being a self-attention based graph convolutional network (SAGCN) extracting the short-term temporal information and hierarchical spatial information, and the other being a residual-connection enhanced bidirectional Independently Recurrent Neural Network (RBi-IndRNN) for extracting long-term temporal information. The self-attention based graph convolutional network has a dynamic self-attention mechanism to adaptively exploit the relationships of all hand joints in addition to the fixed topology and local feature extraction in the GCN. On the other hand, the residual-connection enhanced Bi-IndRNN extends an IndRNN with the capability of bidirectional processing for temporal modelling. The two streams are fused together for recognition. The Dynamic Hand Gesture dataset and First-Person Hand Action dataset are used to validate its effectiveness, and our method achieves state-of-the-art performance.
翻訳日:2021-03-21 05:10:34 公開日:2021-01-22
# (参考訳) テキスト支援正規化による知識グラフ補完

Knowledge Graph Completion with Text-aided Regularization ( http://arxiv.org/abs/2101.08962v1 )

ライセンス: CC BY-SA 4.0
Tong Chen, Sirou Zhu, Yiming Wen, Zhaomin Zheng(参考訳) 知識グラフコンプリート(英: Knowledge Graph Completion)とは、2つの物事の相互関係を記述する動詞や述語を用いて接続できる、可能なエンティティや固有名詞を推定することで知識グラフ/ベースを拡張するタスクである。 一般に、この問題を、頂点と辺の現在のネットワークに新しいエッジを追加していると記述する。 従来のアプローチでは、グラフに内在する既存のグラフィカルな情報を使用し、対応する埋め込みをトレーニングして情報を記述するのが主だが、エンティティに関連するコーパスには、より優れた予測のために埋め込みに影響を与える情報も含むべきである。 提案手法では,損失関数の正規化部に類似度関数を追加することにより,既存のkg組込みフレームワークがより良い予測結果に達するのを助けるために,抽出あるいは生のテキスト情報を利用する多くの方法を試みる。 その結果, ベースラインのKG埋め込み法よりも良好な改善が得られた。

Knowledge Graph Completion is a task of expanding the knowledge graph/base through estimating possible entities, or proper nouns, that can be connected using a set of predefined relations, or verb/predicates describing interconnections of two things. Generally, we describe this problem as adding new edges to a current network of vertices and edges. Traditional approaches mainly focus on using the existing graphical information that is intrinsic of the graph and train the corresponding embeddings to describe the information; however, we think that the corpus that are related to the entities should also contain information that can positively influence the embeddings to better make predictions. In our project, we try numerous ways of using extracted or raw textual information to help existing KG embedding frameworks reach better prediction results, in the means of adding a similarity function to the regularization part in the loss function. Results have shown that we have made decent improvements over baseline KG embedding methods.
翻訳日:2021-03-21 04:47:59 公開日:2021-01-22
# (参考訳) 非定常確率的多腕バンディット:ucb政策とミニマックス後悔

Nonstationary Stochastic Multiarmed Bandits: UCB Policies and Minimax Regret ( http://arxiv.org/abs/2101.08980v1 )

ライセンス: CC0 1.0
Lai Wei and Vaibhav Srivastava(参考訳) 本稿では,各アームに関連付けられた報酬の分布を時間的変化と仮定し,期待される報酬の総変動を変動予算に含める非定常確率的マルチアーメッドバンド(MAB)問題について検討する。 ポリシーの後悔は、ポリシーを使って得られた期待される累積報酬と、各時点の最大平均報酬を持つ腕を選択するオラクルとの差によって定義される。 提案手法は, 変動予算を満たした報酬分配系列の組に対する後悔の前提となる, 最悪の場合の後悔という観点から, 提案手法の性能を特徴付ける。 我々は, 周期的リセット, スライディング観察窓, ディスカウント係数という3つのアプローチにより, 上信頼境界(ucb)に基づく政策を拡張し, ミニマックスの後悔, すなわち, いかなる政策でも達成される最低の最悪の後悔について, 秩序最適であることを示す。 また,報奨分布に対する下位ゲージの仮定を緩和し,重み付き報奨分布を処理し,その性能保証を維持することのできる,提案された警察の堅牢なバージョンを開発する。

We study the nonstationary stochastic Multi-Armed Bandit (MAB) problem in which the distribution of rewards associated with each arm are assumed to be time-varying and the total variation in the expected rewards is subject to a variation budget. The regret of a policy is defined by the difference in the expected cumulative rewards obtained using the policy and using an oracle that selects the arm with the maximum mean reward at each time. We characterize the performance of the proposed policies in terms of the worst-case regret, which is the supremum of the regret over the set of reward distribution sequences satisfying the variation budget. We extend Upper-Confidence Bound (UCB)-based policies with three different approaches, namely, periodic resetting, sliding observation window and discount factor and show that they are order-optimal with respect to the minimax regret, i.e., the minimum worst-case regret achieved by any policy. We also relax the sub-Gaussian assumption on reward distributions and develop robust versions the proposed polices that can handle heavy-tailed reward distributions and maintain their performance guarantees.
翻訳日:2021-03-21 04:38:12 公開日:2021-01-22
# (参考訳) ソーシャルメディアを用いた株価の人工知能予測

Artificial intelligence prediction of stock prices using social media ( http://arxiv.org/abs/2101.08986v1 )

ライセンス: CC BY 4.0
Kavyashree Ranawat and Stefano Giani(参考訳) この研究の主な目的は、ツイートを用いて株式市場の動きを予測するLSTMに基づくニューラルネットワークを開発することである。 lstmネットワークで使用される単語埋め込みは、スタンフォードのグラブ埋め込みを使用して初期化され、特に20億ツイートに事前学習されている。 データセットの限られたサイズを克服するために、各入力シーケンスを150個のサブセットに分割する拡張戦略を提案する。 元の構成をさらに改善するために、ハイパーパラメータ最適化を行う。 落下速度,バッチサイズ,LSTM隠れ状態出力サイズなどのハイパーパラメータの変動の影響を個別に評価する。 さらに,パラメータの組み合わせを網羅的に検討し,最適なモデル構成を決定する。 検証データセット上で最高のパフォーマンスは、それぞれドロップアウト、バッチサイズ、隠蔽ユニットのハイパーパラメータの組み合わせ0.4,8,100によって達成される。 このモデルの最終的なテスト精度は76.14%である。

The primary objective of this work is to develop a Neural Network based on LSTM to predict stock market movements using tweets. Word embeddings, used in the LSTM network, are initialised using Stanford's GloVe embeddings, pretrained specifically on 2 billion tweets. To overcome the limited size of the dataset, an augmentation strategy is proposed to split each input sequence into 150 subsets. To achieve further improvements in the original configuration, hyperparameter optimisation is performed. The effects of variation in hyperparameters such as dropout rate, batch size, and LSTM hidden state output size are assessed individually. Furthermore, an exhaustive set of parameter combinations is examined to determine the optimal model configuration. The best performance on the validation dataset is achieved by hyperparameter combination 0.4,8,100 for the dropout, batch size, and hidden units respectively. The final testing accuracy of the model is 76.14%.
翻訳日:2021-03-21 02:44:46 公開日:2021-01-22
# (参考訳) cmsaone@dravidian-codemix-fire2020:ソーシャルメディアテキストにおけるコード混合感情分析のためのメタ埋め込みおよびトランスフォーマーモデル

CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer model for Code-Mixed Sentiment Analysis on Social Media Text ( http://arxiv.org/abs/2101.09004v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) コード混合(cm)は、発話または文において複数の言語を使用する頻繁に観察される現象である。 CMは主に様々なソーシャルメディアプラットフォームや非公式な会話で行われている。 感性分析(SA)はNLPの基本ステップであり、モノリンガルテキストでよく研究されている。 code-mixingは、その非標準表現のために感情分析に挑戦する。 本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。 提案手法では,リッチテキスト表現のキャプチャにメタ埋め込みを用いた。 提案手法は,「コード混合テキストにおけるドビダ語言語の強調分析」であり,与えられたドヴィダ語コード混合データセットに対して0.58$と0.66$のf1スコアを得た。 コードはGithub https://github.com/suman101112/fire-2020-Dravidian-CodeMixで公開されている。

Code-mixing(CM) is a frequently observed phenomenon that uses multiple languages in an utterance or sentence. CM is mostly practiced on various social media platforms and in informal conversations. Sentiment analysis (SA) is a fundamental step in NLP and is well studied in the monolingual text. Code-mixing adds a challenge to sentiment analysis due to its non-standard representations. This paper proposes a meta embedding with a transformer method for sentiment analysis on the Dravidian code-mixed dataset. In our method, we used meta embeddings to capture rich text representations. We used the proposed method for the Task: "Sentiment Analysis for Dravidian Languages in Code-Mixed Text", and it achieved an F1 score of $0.58$ and $0.66$ for the given Dravidian code mixed data sets. The code is provided in the Github https://github.com/suman101112/fire-2020-Dravidian-CodeMix.
翻訳日:2021-03-21 02:05:41 公開日:2021-01-22
# (参考訳) HASOCOne@FIRE-HASOC2020:Hate音声検出のためのBERTモデルと多言語BERTモデル

HASOCOne@FIRE-HASOC2020: Using BERT and Multilingual BERT models for Hate Speech Detection ( http://arxiv.org/abs/2101.09007v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) ソーシャルメディアの急激な増加により、現在の世界では、憎しみや有害なコンテンツが重要な関心事となっている。 ヘイトスピーチと有害コンテンツの増加は、研究者がヘイトフルなコンテンツ識別の困難な方向性に多大な努力を捧げるきっかけとなった。 本研究では,ヘイトスピーチと攻撃的コンテンツを自動的に分類する手法を提案する。 FIRE 2019と2020の共有タスクから得られたデータセットを使用しました。 我々は移動学習モデルを利用して実験を行う。 事前学習したBERTモデルと多言語BERTモデルが最良の結果となった。 コードはhttps://github.com/suman101112/hasoc-fire-2020で公開されている。

Hateful and Toxic content has become a significant concern in today's world due to an exponential rise in social media. The increase in hate speech and harmful content motivated researchers to dedicate substantial efforts to the challenging direction of hateful content identification. In this task, we propose an approach to automatically classify hate speech and offensive content. We have used the datasets obtained from FIRE 2019 and 2020 shared tasks. We perform experiments by taking advantage of transfer learning models. We observed that the pre-trained BERT model and the multilingual-BERT model gave the best results. The code is made publically available at https://github.com/suman101112/hasoc-fire-2020.
翻訳日:2021-03-21 01:53:55 公開日:2021-01-22
# (参考訳) ハイブリッドニューラルネットワークによる特徴選択モデルはテキスト分類を改善するか?

Does a Hybrid Neural Network based Feature Selection Model Improve Text Classification? ( http://arxiv.org/abs/2101.09009v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) テキスト分類は自然言語処理の分野における根本的な問題である。 テキスト分類は主に、テキストデータを分類するのに役立つすべての関連する特徴をより重要視することに焦点を当てている。 これらとは別に、テキストには冗長性や高い相関性がある。 これらの特徴は分類アルゴリズムの複雑さを高める。 そこで,従来の機械学習分類器を用いて次元削減手法を多数提案した。 機械学習分類器を用いた次元削減手法は良好な結果を得た。 本稿では,様々なフィルタベースの特徴選択手法と高速テキスト分類器を組み合わせることで,関連する特徴を抽出するハイブリッド特徴選択手法を提案する。 次に、特徴選択とニューラルネットワークパイプラインを実装する3つの方法を示す。 ニューラルネットワークと共に特徴選択法を用いる場合のトレーニング時間の短縮を観察した。 また,いくつかのデータセットの精度も若干向上した。

Text classification is a fundamental problem in the field of natural language processing. Text classification mainly focuses on giving more importance to all the relevant features that help classify the textual data. Apart from these, the text can have redundant or highly correlated features. These features increase the complexity of the classification algorithm. Thus, many dimensionality reduction methods were proposed with the traditional machine learning classifiers. The use of dimensionality reduction methods with machine learning classifiers has achieved good results. In this paper, we propose a hybrid feature selection method for obtaining relevant features by combining various filter-based feature selection methods and fastText classifier. We then present three ways of implementing a feature selection and neural network pipeline. We observed a reduction in training time when feature selection methods are used along with neural networks. We also observed a slight increase in accuracy on some datasets.
翻訳日:2021-03-21 01:47:16 公開日:2021-01-22
# (参考訳) 技術領域識別のための多言語事前学習トランスと畳み込みnn分類モデル

Multilingual Pre-Trained Transformers and Convolutional NN Classification Models for Technical Domain Identification ( http://arxiv.org/abs/2101.09012v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) 本稿では,多言語テキストデータに対して技術領域識別を行うトランスファー学習システムを提案する。 1つは変換器モデルBERTを使用し、もう1つはテキスト分類にXLM-ROBERTaとCNNモデルを用いる。 これらのモデルによって、アイコン2020の共有タスクであるtechdofication: technical domain identificationの与えられた文のドメインを識別することができます。 当社のシステムは,TechDOficationデータセットのサブタスク1d,1gで最良である。

In this paper, we present a transfer learning system to perform technical domain identification on multilingual text data. We have submitted two runs, one uses the transformer model BERT, and the other uses XLM-ROBERTa with the CNN model for text classification. These models allowed us to identify the domain of the given sentences for the ICON 2020 shared Task, TechDOfication: Technical Domain Identification. Our system ranked the best for the subtasks 1d, 1g for the given TechDOfication dataset.
翻訳日:2021-03-21 01:46:25 公開日:2021-01-22
# (参考訳) 個人固定型オブジェクトセグメンテーション : オブジェクトの局在と境界保存

Personal Fixations-Based Object Segmentation with Object Localization and Boundary Preservation ( http://arxiv.org/abs/2101.09014v1 )

ライセンス: CC BY 4.0
Gongyang Li and Zhi Liu and Ran Shi and Zheng Hu and Weijie Wei and Yong Wu and Mengke Huang and Haibin Ling(参考訳) 人-コンピュータインタラクションの自然な方法として、修正はインタラクティブなイメージセグメンテーションに有望なソリューションを提供する。 本稿では、PFOS(Personal Fixations-based Object Segmentation)に着目し、適切なデータセットの欠如や修正ベースのインタラクションの曖昧さなど、過去の研究における課題に対処する。 特に,既存の固定化予測データセット上でピクセルレベルのバイナリアノテーションデータを注意深く収集することにより,新しいpfosデータセットを構築する。 そこで, 個人固定の特徴を考慮し, 目視対象を分割する対象局所化と境界保存(OLBP)に基づく新しいネットワークを提案する。 特に、olbpネットワークは、個人固定を解析するためにオブジェクト・ローカライゼーション・モジュール(olm)を使用し、その解釈に基づいて注視されたオブジェクトを見つけ出す。 次に、境界保存モジュール(BPM)は、目視対象の完全性を保護するために追加の境界情報を導入するように設計されている。 さらに,OLBPはボトムアップとトップダウンの混在した方法で構成され,複数の種類の深い監視を行う。 構築されたPFOSデータセットに対する大規模な実験は、提案したOLBPネットワークが17以上の最先端の手法よりも優れていることを示し、提案したOLMおよびBPMコンポーネントの有効性を示す。 構築されたPFOSデータセットと提案されたOLBPネットワークはhttps://github.com/MathLee/OLBPNet4PFOSで利用可能である。

As a natural way for human-computer interaction, fixation provides a promising solution for interactive image segmentation. In this paper, we focus on Personal Fixations-based Object Segmentation (PFOS) to address issues in previous studies, such as the lack of appropriate dataset and the ambiguity in fixations-based interaction. In particular, we first construct a new PFOS dataset by carefully collecting pixel-level binary annotation data over an existing fixation prediction dataset, such dataset is expected to greatly facilitate the study along the line. Then, considering characteristics of personal fixations, we propose a novel network based on Object Localization and Boundary Preservation (OLBP) to segment the gazed objects. Specifically, the OLBP network utilizes an Object Localization Module (OLM) to analyze personal fixations and locates the gazed objects based on the interpretation. Then, a Boundary Preservation Module (BPM) is designed to introduce additional boundary information to guard the completeness of the gazed objects. Moreover, OLBP is organized in the mixed bottom-up and top-down manner with multiple types of deep supervision. Extensive experiments on the constructed PFOS dataset show the superiority of the proposed OLBP network over 17 state-of-the-art methods, and demonstrate the effectiveness of the proposed OLM and BPM components. The constructed PFOS dataset and the proposed OLBP network are available at https://github.com/MathLee/OLBPNet4PFOS.
翻訳日:2021-03-21 01:41:29 公開日:2021-01-22
# (参考訳) 用語エクストラクタを用いた教師なし技術領域用語抽出

Unsupervised Technical Domain Terms Extraction using Term Extractor ( http://arxiv.org/abs/2101.09015v1 )

ライセンス: CC BY 4.0
Suman Dowlagar, Radhika Mamidi(参考訳) 用語抽出は、用語抽出としても知られ、情報抽出のサブタスクである。 用語抽出の目標は、与えられたコーパスから関連する単語やフレーズを自動的に抽出することである。 本稿では,アイコン2020共有タスク2における相関関数と凝集関数を用いて,チャンキング,前処理,ランク付けを行う非教師なしのドメイン項抽出手法について述べる。

Terminology extraction, also known as term extraction, is a subtask of information extraction. The goal of terminology extraction is to extract relevant words or phrases from a given corpus automatically. This paper focuses on the unsupervised automated domain term extraction method that considers chunking, preprocessing, and ranking domain-specific terms using relevance and cohesion functions for ICON 2020 shared task 2: TermTraction.
翻訳日:2021-03-21 01:08:41 公開日:2021-01-22
# (参考訳) SkillNER:任意のテキストからのソフトスキルのマイニングとマッピング

SkillNER: Mining and Mapping Soft Skills from any Text ( http://arxiv.org/abs/2101.11431v1 )

ライセンス: CC BY 4.0
Silvia Fareri, Nicola Melluso, Filippo Chiarello, Gualtiero Fantoni(参考訳) 今日のデジタル世界ではソフトスキルに重点が置かれている。 理由は多々あるが、主な要因は労働市場のダイナミクスの複雑さの増加とデジタル化へのシフトにさかのぼることができる。 デジタル化は、人工知能システムズに買収されることがほとんどないため、ソフトスキルにも焦点を絞っている。 この関心が高まっているにもかかわらず、研究者はソフトスキルの概念を正確に定義し、ソフトスキルの完全な共有リストを作成するのに苦労している。 そこで本論文の目的は,非構造化テキストからソフトスキルを抽出する自動ツールの開発である。 ソフトスキルの最初のシードリストから始めると、ソフトスキルに関するテキスト表現のセットを自動的に収集し、ソフトスキルリストを作成します。 これは、新しいアプローチを開発する科学論文のコーパスに名前付きエンティティ認識(NER)を適用し、テキストからソフトスキルを自動的に抽出できるソフトウェアアプリケーションであるSkillNERを適用することで実現されている。 異なるトレーニングモデルを考慮したツールの性能を測定し,ソフトスキルのリストとesco(european skills/competence qualification and occupation)におけるtransversalとラベルづけされたスキルを比較した。 最後に、ソフトスキルの共有に基づくESCOジョブプロファイル間の関係と、ジョブプロファイルに基づくソフトスキル間の関係を共通して同定し、SkillNERをどのように利用できるかを示す。 ソフトスキルジャーブプロファイルの最終的なマップは、ソフトスキルとは何かを明確に定義し、そのトピックに関する将来の定量的研究を促進する上で、アッカデミアの助けになるかもしれない。

In today's digital world there is an increasing focus on soft skills. The reasons are many, however the main ones can be traced down to the increased complexity of labor market dynamics and the shift towards digitalisation. Digitalisation has also increased the focus on soft skills, since such competencies are hardly acquired by Artificial Intelligence Systems. Despite this growing interest, researchers struggle in accurately defining the soft skill concept and in creating a complete and shared list of soft skills. Therefore, the aim of the present paper is the development of an automated tool capable of extracting soft skills from unstructured texts. Starting from an initial seed list of soft skills, we automatically collect a set of possible textual expressions referring to soft skills, thus creating a Soft Skills list. This has been done by applying Named Entity Recognition (NER) on a corpus of scientific papers developing a novel approach and a software application able to perform the automatic extraction of soft skills from text: the SkillNER. We measured the performance of the tools considering different training models and validated our approach comparing our list of soft skills with the skills labelled as transversal in ESCO (European Skills/Competence Qualification and Occupation). Finally we give a first example of how the SkillNER can be used, identifying the relationships among ESCO job profiles based on soft skills shared, and the relationships among soft skills based on job profiles in common. The final map of soft skills-job profiles may help accademia in achieving and sharing a clearer definition of what soft skills are and fuel future quantitative research on the topic.
翻訳日:2021-03-21 00:48:34 公開日:2021-01-22
# (参考訳) 評価不一致発見 : 文圧縮事例研究

Evaluation Discrepancy Discovery: A Sentence Compression Case-study ( http://arxiv.org/abs/2101.09079v1 )

ライセンス: CC BY-SA 4.0
Yevgeniy Puzikov(参考訳) 信頼性評価プロトコルは再現可能なNLP研究において最も重要である。 本研究では,システム性能に関する結論を導き出すには,測定値も従来の評価値も不十分な場合があることを示す。 文圧縮を例題として, システムが確立したデータセットをゲームして最先端の結果を得る方法を示す。 人間の判断と測定値の相関関係を示す以前の研究結果とは対照的に、我々の手動による最先端のシステム出力の分析では、高い測定値がデータに適合するだけでなく、人間の認識した結果よりも良い結果を示すことが示されている。

Reliable evaluation protocols are of utmost importance for reproducible NLP research. In this work, we show that sometimes neither metric nor conventional human evaluation is sufficient to draw conclusions about system performance. Using sentence compression as an example task, we demonstrate how a system can game a well-established dataset to achieve state-of-the-art results. In contrast with the results reported in previous work that showed correlation between human judgements and metric scores, our manual analysis of state-of-the-art system outputs demonstrates that high metric scores may only indicate a better fit to the data, but not better outputs, as perceived by humans.
翻訳日:2021-03-21 00:23:41 公開日:2021-01-22
# (参考訳) ディープフェイクと2020年米大統領選:何が起こるのか

Deepfakes and the 2020 US elections: what (did not) happen ( http://arxiv.org/abs/2101.09092v1 )

ライセンス: CC BY 4.0
Jo\~ao Paulo Meneses(参考訳) 2016年の米大統領選で起きたと推定される偽情報量に悩まされ、学者、政治、ジャーナリストらは2018年に最初のディープフェイクが発覚した最悪の事態を予測した。 結局のところ、2020年のアメリカ大統領選挙は、アメリカ史上最も安全だと信じられていた。 この論文は、明らかな矛盾についての説明を求めている:我々は、悪意ある政治的ディープフェイクが2020年の米大統領選に影響を及ぼすのを阻止する条件を生み出した、さまざまな種類の警告と恐怖の多角化と共役であると考えている。 これらの警告から,ソーシャルネットワークの積極的な役割,新しい法律,人工知能へのアクセスの困難さ,社会意識の向上の4つの要因を特定した。 しかし、この公式は、米国、2020年の場合に有効であることが証明されているが、他の政治的文脈で繰り返すことができると仮定するのは正しくない。

Alarmed by the volume of disinformation that was assumed to have taken place during the 2016 US elections, scholars, politics and journalists predicted the worst when the first deepfakes began to emerge in 2018. After all, US Elections 2020 were believed to be the most secure in American history. This paper seeks explanations for an apparent contradiction: we believe that it was precisely the multiplication and conjugation of different types of warnings and fears that created the conditions that prevented malicious political deepfakes from affecting the 2020 US elections. From these warnings, we identified four factors (more active role of social networks, new laws, difficulties in accessing Artificial Intelligence and better awareness of society). But while this formula has proven to be effective in the case of the United States, 2020, it is not correct to assume that it can be repeated in other political contexts.
翻訳日:2021-03-21 00:07:46 公開日:2021-01-22
# (参考訳) 動的システムの最適化のためのサロゲートモデル

Surrogate Models for Optimization of Dynamical Systems ( http://arxiv.org/abs/2101.10189v1 )

ライセンス: CC BY 4.0
Kainat Khowaja, Mykhaylo Shcherbatyy, Wolfgang Karl H\"ardle(参考訳) 力学系の複雑性の増大により、最適化問題における数値シミュレーションによる微分方程式の解法は計算コストが高くなっている。 本稿では,低次元サロゲートモデルを構築するためのスマートデータ駆動機構を提供する。 これらのサロゲートモデルは、真の目的関数の評価から得られたトレーニングインスタンスを使用することで、複雑な最適化問題の解の計算時間を短縮する。 代理モデルは、正規直交分解と放射基底関数を組み合わせて構成され、単純な行列乗算によるシステム応答を提供する。 相対的な絶対誤差を近似の精度の尺度として用いて、ラテンハイパーキューブサンプリングとスプラインラジアル基底関数が精度を保ちながら、最適化の計算時間において変数順序法を支配していることを示す。 これらの代理モデルは、モデル非線型性の存在において堅牢性を示す。 したがって,これらの計算効率の高い予測サーロゲートモデルは様々な分野,特に逆問題や最適制御問題の解法に適用できる。

Driven by increased complexity of dynamical systems, the solution of system of differential equations through numerical simulation in optimization problems has become computationally expensive. This paper provides a smart data driven mechanism to construct low dimensional surrogate models. These surrogate models reduce the computational time for solution of the complex optimization problems by using training instances derived from the evaluations of the true objective functions. The surrogate models are constructed using combination of proper orthogonal decomposition and radial basis functions and provides system responses by simple matrix multiplication. Using relative maximum absolute error as the measure of accuracy of approximation, it is shown surrogate models with latin hypercube sampling and spline radial basis functions dominate variable order methods in computational time of optimization, while preserving the accuracy. These surrogate models also show robustness in presence of model non-linearities. Therefore, these computational efficient predictive surrogate models are applicable in various fields, specifically to solve inverse problems and optimal control problems, some examples of which are demonstrated in this paper.
翻訳日:2021-03-20 23:50:27 公開日:2021-01-22
# (参考訳) 人工知能は地球システムと気候モデルに取って代わるのか?

Will Artificial Intelligence supersede Earth System and Climate Models? ( http://arxiv.org/abs/2101.09126v1 )

ライセンス: CC BY 4.0
Christopher Irrgang (1), Niklas Boers (2 and 3 and 4), Maike Sonnewald (5 and 6 and 7), Elizabeth A. Barnes (8), Christopher Kadow (9), Joanna Staneva (10), Jan Saynisch-Wagner (1) ((1) Helmholtz Centre Potsdam, German Research Centre for Geosciences GFZ, Potsdam, Germany, (2) Department of Mathematics and Computer Science, Free University of Berlin, Germany, (3) Potsdam Institute for Climate Impact Research, Potsdam, Germany (4) Department of Mathematics and Global Systems Institute, University of Exeter, Exeter, UK (5) Program in Atmospheric and Oceanic Sciences, Princeton University, Princeton, USA (6) NOAA/OAR Geophysical Fluid Dynamics Laboratory, Ocean and Cryosphere Division, Princeton, USA (7) University of Washington, School of Oceanography, Seattle, USA (8) Colorado State University, Fort Collins, USA (9) German Climate Computing Center DKRZ, Hamburg, Germany (10) Helmholtz-Zentrum Geesthacht, Center for Material and Coastal Research HZG, Geesthacht, Germany)(参考訳) 我々は、深層ニューラルネットワークと地球系モデルが個別の方法論的アプローチとして分解され、学習、自己検証、解釈可能な地球系モデル-ネットワークハイブリッドとして再組み立てされる、地球と気候科学における全く新しい研究分野の視点を概説する。 この道を辿って、我々は"Neural Earth System Modelling"(NESYM)という用語を作り、地球と気候の科学者、ビッグデータアナリスト、AI専門家をまとめて、学際的な議論プラットフォームの必要性を強調します。 我々はニューラルアース・システム・モデリングの同時可能性と落とし穴について検討し、人工知能がアース・システム・モデリングを注入するだけでなく、最終的に時代遅れにするかどうかというオープンな疑問を議論する。

We outline a perspective of an entirely new research branch in Earth and climate sciences, where deep neural networks and Earth system models are dismantled as individual methodological approaches and reassembled as learning, self-validating, and interpretable Earth system model-network hybrids. Following this path, we coin the term "Neural Earth System Modelling" (NESYM) and highlight the necessity of a transdisciplinary discussion platform, bringing together Earth and climate scientists, big data analysts, and AI experts. We examine the concurrent potential and pitfalls of Neural Earth System Modelling and discuss the open question whether artificial intelligence will not only infuse Earth system modelling, but ultimately render them obsolete.
翻訳日:2021-03-20 23:27:53 公開日:2021-01-22
# (参考訳) LTEラジオ周波数カウンタと機械学習を用いた交通流推定

Traffic Flow Estimation using LTE Radio Frequency Counters and Machine Learning ( http://arxiv.org/abs/2101.09143v1 )

ライセンス: CC BY 4.0
Forough Yaghoubi (1), Armin Catovic (2), Arthur Gusmao (1), Jan Pieczkowski (1), Peter Boros (1) ((1) Ericsson AB, (2) Schibsted Media Group)(参考訳) 車両需要が新道路の建設を上回り続ける中、既存の交通インフラの活用を改善する戦略を実施することが不可欠となる。 交通センサーは多くの戦略の重要な部分を形成し、道路利用に関する貴重な洞察を与えてくれます。 しかし、交通センサの設置と整備に伴うコストとリード時間により、自治体や交通当局は安価でスケーラブルな代替手段を模索している。 ユビキタスな性質と広範なグローバル展開のため、セルラーネットワークはそのような代替手段を提供する。 本稿では,LTE/4G無線周波数性能測定カウンタを用いたトラフィックフロー推定手法を提案する。 この問題は古典的手法と深層学習法の両方を用いて教師付き回帰タスクとしてキャストされる。 さらに、多くのロケーションにトレーニングに使用できるトラフィックセンサデータがないことを補うために、転送学習を適用する。 われわれのアプローチは、時間だけでなく空間(すなわち都市の様々な部分)でも解を一般化するために移動学習を適用することの利点を示す。 結果は非常に有望であり、競合するソリューションとは異なり、当社のアプローチはLTEの電波カウンタデータを利用しており、これは本質的にプライバシーを保護し、容易に利用できる。

As the demand for vehicles continues to outpace construction of new roads, it becomes imperative we implement strategies that improve utilization of existing transport infrastructure. Traffic sensors form a crucial part of many such strategies, giving us valuable insights into road utilization. However, due to cost and lead time associated with installation and maintenance of traffic sensors, municipalities and traffic authorities look toward cheaper and more scalable alternatives. Due to their ubiquitous nature and wide global deployment, cellular networks offer one such alternative. In this paper we present a novel method for traffic flow estimation using standardized LTE/4G radio frequency performance measurement counters. The problem is cast as a supervised regression task using both classical and deep learning methods. We further apply transfer learning to compensate that many locations lack traffic sensor data that could be used for training. We show that our approach benefits from applying transfer learning to generalize the solution not only in time but also in space (i.e., various parts of the city). The results are very promising and, unlike competing solutions, our approach utilizes aggregate LTE radio frequency counter data that is inherently privacy-preserving, readily available, and scales globally without any additional network impact.
翻訳日:2021-03-20 23:08:23 公開日:2021-01-22
# (参考訳) 共同音声認識と翻訳のためのストリーミングモデル

Streaming Models for Joint Speech Recognition and Translation ( http://arxiv.org/abs/2101.09149v1 )

ライセンス: CC BY 4.0
Orion Weller and Matthias Sperber and Christian Gollan and Joris Kluivers(参考訳) 音声翻訳(ST)のエンドツーエンドモデルの使用がSTコミュニティの焦点となっている。 これらのモデルは、音波を直接翻訳テキストに変換することによって、以前にカスケードされたシステムを凝縮する。 しかし、カスケードモデルには自動音声認識出力を含める利点があり、翻訳と共にユーザに対してしばしば書き起こしを表示する様々な実用的なSTシステムに有用である。 このギャップを埋めるために、最近の研究は、両方の出力を生成するエンド・ツー・エンド・モデルの実現可能性に関する最初の進歩を示している。 しかしながら、以前のすべての作業は、この問題を連続的な観点からのみ検討しており、これらのアプローチがより困難なストリーミング環境において有効であるかどうかに不確実性を残している。 我々は,再翻訳方式に基づくエンドツーエンドストリーミングstモデルを開発し,標準カスケード方式と比較する。 また,本事例に対する新たな推論手法を提案するとともに,書き起こしと翻訳の両方を生成にインターリーブし,分離デコーダを使用する必要をなくす。 我々の評価は、精度、レイテンシ、一貫性を計測する様々な指標において、我々のエンドツーエンドモデルは統計的にカスケードモデルに似ており、パラメータの数が半分であることを示している。 また、両方のシステムが低レイテンシで強力な翻訳品質を提供し、連続品質の99%を1秒未満の遅延で保持していることも分かりました。

Using end-to-end models for speech translation (ST) has increasingly been the focus of the ST community. These models condense the previously cascaded systems by directly converting sound waves into translated text. However, cascaded models have the advantage of including automatic speech recognition output, useful for a variety of practical ST systems that often display transcripts to the user alongside the translations. To bridge this gap, recent work has shown initial progress into the feasibility for end-to-end models to produce both of these outputs. However, all previous work has only looked at this problem from the consecutive perspective, leaving uncertainty on whether these approaches are effective in the more challenging streaming setting. We develop an end-to-end streaming ST model based on a re-translation approach and compare against standard cascading approaches. We also introduce a novel inference method for the joint case, interleaving both transcript and translation in generation and removing the need to use separate decoders. Our evaluation across a range of metrics capturing accuracy, latency, and consistency shows that our end-to-end models are statistically similar to cascading models, while having half the number of parameters. We also find that both systems provide strong translation quality at low latency, keeping 99% of consecutive quality at a lag of just under a second.
翻訳日:2021-03-20 22:55:28 公開日:2021-01-22
# (参考訳) 高次元データからのコムーブメントネットワークのスパーシスタントフィルタリング

Sparsistent filtering of comovement networks from high-dimensional data ( http://arxiv.org/abs/2101.09174v1 )

ライセンス: CC BY 4.0
Arnab Chakrabarti and Anindya S. Chakrabarti(参考訳) ネットワークフィルタリングは、大規模かつ相互接続された複雑なシステムの中核成分を分離するための次元減少の重要な形態である。 本稿では,構成ノードの動的挙動から発生する大次元ネットワークをフィルタリングし,そのスペクトル特性を生かした新しい手法を提案する。 実現したネットワークの重要トポロジ特性の保存に依存するよく知られたネットワークフィルタとは対照的に,本手法ではスペクトルを基本対象として扱い,スペクトル特性の保存を行う。 フィルタの高次元データに対する漸近理論を適用し、線形収縮推定器から最小スペクトル距離を持ちながら、空間性と一貫性を誘導するゼロフィルタから最大フィルタへの補間を調整可能であることを示す。 提案するフィルタを金融データから構築した共分散ネットワークに適用し,全サンプルネットワークに埋め込まれた鍵サブネットワークを抽出する。

Network filtering is an important form of dimension reduction to isolate the core constituents of large and interconnected complex systems. We introduce a new technique to filter large dimensional networks arising out of dynamical behavior of the constituent nodes, exploiting their spectral properties. As opposed to the well known network filters that rely on preserving key topological properties of the realized network, our method treats the spectrum as the fundamental object and preserves spectral properties. Applying asymptotic theory for high dimensional data for the filter, we show that it can be tuned to interpolate between zero filtering to maximal filtering that induces sparsity and consistency while having the least spectral distance from a linear shrinkage estimator. We apply our proposed filter to covariance networks constructed from financial data, to extract the key subnetwork embedded in the full sample network.
翻訳日:2021-03-20 22:40:43 公開日:2021-01-22
# (参考訳) gravity optimizer: ディープラーニングにおける最適化に関するキネマティックなアプローチ

Gravity Optimizer: a Kinematic Approach on Optimization in Deep Learning ( http://arxiv.org/abs/2101.09192v1 )

ライセンス: CC BY 4.0
Dariush Bahrami, Sadegh Pouriyan Zadeh(参考訳) グラデーションに基づく最適化のための別のアルゴリズムであるgravityを紹介する。 本稿では,ディープラーニングモデルの損失を減らすために,新しいアイデアがパラメータをどう変えるかを説明する。 直感的な3つのハイパーパラメータを持ち、それらの最良の値が提案されます。 また,移動平均の代替案を提案する。 GravityオプティマイザのパフォーマンスをAdamとRMSPropの2つの一般的なオプティマイザと比較するために、5つの標準データセットを2つのVGGNetモデルでトレーニングした。 重力ハイパーパラメータは異なるモデルのために調整される必要はない。 本稿で説明するように、最適化器自体の損失低減効果を直接検討するためにオーバーフィッティング防止技術は使用されなかった。 その結果,GravityオプティマイザはAdamやRMSPropよりも安定した性能を示し,CIFAR-100(Fine)のような出力クラスを持つデータセットに対する検証精度が向上した。

We introduce Gravity, another algorithm for gradient-based optimization. In this paper, we explain how our novel idea change parameters to reduce the deep learning model's loss. It has three intuitive hyper-parameters that the best values for them are proposed. Also, we propose an alternative to moving average. To compare the performance of the Gravity optimizer with two common optimizers, Adam and RMSProp, five standard datasets were trained on two VGGNet models with a batch size of 128 for 100 epochs. Gravity hyper-parameters did not need to be tuned for different models. As will be explained more in the paper, to investigate the direct impact of the optimizer itself on loss reduction no overfitting prevention technique was used. The obtained results show that the Gravity optimizer has more stable performance than Adam and RMSProp and gives greater values of validation accuracy for datasets with more output classes like CIFAR-100 (Fine).
翻訳日:2021-03-20 22:39:46 公開日:2021-01-22
# (参考訳) 金融時系列とポートフォリオ選択のためのグラフィカルモデル

Graphical Models for Financial Time Series and Portfolio Selection ( http://arxiv.org/abs/2101.09214v1 )

ライセンス: CC BY 4.0
Ni Zhan, Yijia Sun, Aman Jakhar, He Liu(参考訳) 最適なポートフォリオを構築するために,様々なグラフィカルモデルを検討する。 PCA-KMeans、オートエンコーダ、動的クラスタリング、構造学習などのグラフィカルモデルは、共分散行列の時間変化パターンをキャプチャし、最適かつ堅牢なポートフォリオを作成することができる。 異なるモデルから得られたポートフォリオをベースラインメソッドと比較した。 多くの場合、我々のグラフィカル戦略はリスクの低いリターンを着実に増加させ、S&P 500指数を上回ります。 この研究は、グラフィックモデルが時系列データの時間依存性を効果的に学習でき、アセットマネジメントにおいて有用であることが証明されている。

We examine a variety of graphical models to construct optimal portfolios. Graphical models such as PCA-KMeans, autoencoders, dynamic clustering, and structural learning can capture the time varying patterns in the covariance matrix and allow the creation of an optimal and robust portfolio. We compared the resulting portfolios from the different models with baseline methods. In many cases our graphical strategies generated steadily increasing returns with low risk and outgrew the S&P 500 index. This work suggests that graphical models can effectively learn the temporal dependencies in time series data and are proved useful in asset management.
翻訳日:2021-03-20 22:38:42 公開日:2021-01-22
# (参考訳) 限られたデータによる生成モデルの連続学習--wasserstein-1 barycenterから適応的合体へ

Continual Learning of Generative Models with Limited Data: From Wasserstein-1 Barycenter to Adaptive Coalescence ( http://arxiv.org/abs/2101.09225v1 )

ライセンス: CC BY 4.0
Mehmet Dedeoglu, Sen Lin, Zhaofeng Zhang, Junshan Zhang(参考訳) データと計算能力に制限のあるネットワークエッジノードでは、生成モデルの学習が難しい。 類似した環境におけるタスクはモデル類似性を共有するため、クラウドや他のエッジノードから事前訓練された生成モデルを活用することは可能である。 本研究は,WGAN(Wasserstein-1 Generative Adversarial Network)に適合する最適輸送理論に特化して,事前学習した生成モデルの適応的合理化を生かしながら,エッジノードにおける局所データを用いた生成モデルの連続的学習を体系的に最適化するフレームワークを開発することを目的とする。 具体的には、事前学習されたモデルを中心に、他のノードからの知識伝達をwasserstein ballとして扱うことにより、生成モデルの継続的な学習を制約付き最適化問題としてキャストし、さらにwasserstein-1のバリセンタ問題に還元する。 1)事前学習したモデルのバリセンタをオフラインで計算し、そこで変位補間を「再帰的」なWGAN構成により適応的なバリセンタを見つけるための理論基盤として使用し、2)連続学習のためのメタモデル初期化として計算したバリセンタをオフラインとし、次に高速適応を行い、ターゲットエッジノードの局所サンプルを用いて生成モデルを求める。 最後に、重みの連成最適化と量子化しきい値に基づく重み三元化法を開発し、生成モデルをさらに圧縮する。

Learning generative models is challenging for a network edge node with limited data and computing power. Since tasks in similar environments share model similarity, it is plausible to leverage pre-trained generative models from the cloud or other edge nodes. Appealing to optimal transport theory tailored towards Wasserstein-1 generative adversarial networks (WGAN), this study aims to develop a framework which systematically optimizes continual learning of generative models using local data at the edge node while exploiting adaptive coalescence of pre-trained generative models. Specifically, by treating the knowledge transfer from other nodes as Wasserstein balls centered around their pre-trained models, continual learning of generative models is cast as a constrained optimization problem, which is further reduced to a Wasserstein-1 barycenter problem. A two-stage approach is devised accordingly: 1) The barycenters among the pre-trained models are computed offline, where displacement interpolation is used as the theoretic foundation for finding adaptive barycenters via a "recursive" WGAN configuration; 2) the barycenter computed offline is used as meta-model initialization for continual learning and then fast adaptation is carried out to find the generative model using the local samples at the target edge node. Finally, a weight ternarization method, based on joint optimization of weights and threshold for quantization, is developed to compress the generative model further.
翻訳日:2021-03-20 22:30:11 公開日:2021-01-22
# (参考訳) Stimulusはどこへ行くのか? 商業銀行預金の深部生成モデル

Where does the Stimulus go? Deep Generative Model for Commercial Banking Deposits ( http://arxiv.org/abs/2101.09230v1 )

ライセンス: CC BY 4.0
Ni Zhan(参考訳) 本稿では,米国の銀行業における個人(「リテール」)と大企業(「wholesale」)の預金状況と,量的緩和(qe)などのマクロ経済要因の影響について検討する。 ホルダーによる預金の実際のデータは利用できない。 我々は、銀行の財務情報と確率的生成モデルに基づくデータセットを用いて、2000年から2020年にかけての業界小売店預金の予測を行う。 我々のモデルは、実際の銀行のメトリクスとモデルの生成過程を用いたシミュレーションメトリクスの誤差を最小化することにより、小売店のログ正規分布と流通の適合パラメータから口座残高を推定する。 我々は、金融当局の融資、小売ローン、準備残高の関数として、リテール・wholesale depositsを予測するために時系列回帰を利用する。 備蓄量の増加(QEの表れ)は、売り場を増やすが小売地ではなく、売り場と小売地の両方を均等に増加させる。 その結果、2008年の金融危機後のqeは、平均的個人以上の大企業に利益をもたらし、経済的な意思決定に関連する発見となった。 さらに、この作業は、小売店預金の予測能力を提供することで、銀行経営戦略の恩恵を受ける。

This paper examines deposits of individuals ("retail") and large companies ("wholesale") in the U.S. banking industry, and how these deposit types are impacted by macroeconomic factors, such as quantitative easing (QE). Actual data for deposits by holder are unavailable. We use a dataset on banks' financial information and probabilistic generative model to predict industry retail-wholesale deposit split from 2000 to 2020. Our model assumes account balances arise from separate retail and wholesale lognormal distributions and fit parameters of distributions by minimizing error between actual bank metrics and simulated metrics using the model's generative process. We use time-series regression to forward predict retail-wholesale deposits as function of loans, retail loans, and reserve balances at Fed banks. We find increase in reserves (representing QE) increases wholesale but not retail deposits, and increase in loans increase both wholesale and retail deposits evenly. The result shows that QE following the 2008 financial crisis benefited large companies more than average individuals, a relevant finding for economic decision making. In addition, this work benefits bank management strategy by providing forecasting capability for retail-wholesale deposits.
翻訳日:2021-03-20 21:32:34 公開日:2021-01-22
# (参考訳) 深層学習を用いたTOF-MRAにおける脳血管の自動抽出

Automatic Cerebral Vessel Extraction in TOF-MRA Using Deep Learning ( http://arxiv.org/abs/2101.09253v1 )

ライセンス: CC BY 4.0
V. de Vos, K.M. Timmins, I.C. van der Schaaf, Y. Ruigrok, B.K. Velthuis, H.J. Kuijf(参考訳) 深層学習アプローチは、脳血管疾患の早期診断とタイムリーな治療に役立つ可能性がある。 Time-of-light Magnetic Resonance Angiographs (TOF-MRAs) の正確な脳血管分割は、この過程において重要なステップである。 本研究では,TOF-MRAの自動,高速,高精度な脳血管セグメンテーションのためのディープラーニングアプローチについて検討した。 a) 血管分割のための2dおよび3d u-net訓練のためのデータ拡張および選択手法の性能を, a) 拡張なし, b) ガウス的ボケ, c) 回転とフリップ, d) ガウス的ボケ, 回転とフリップ, e) 異なる入力パッチサイズで検討した。 全ての実験は2Dと3DのU-Netのパッチトレーニングによって行われ、MRAのテストセットで予測された。 ground truthはインタラクティブなしきい値と領域成長法を用いて手動で定義した。 Dice similarity Coefficient (DSC), Modified Hausdorff Distance and Volumetric similarity を用いて, 予測画像と対話的に定義された接地真実を比較検討した。 テストセット上のすべてのトレーニングされたネットワークのセグメンテーション性能は良好であり、dscスコアは 0.72 から 0.83 である。 2Dと3DのU-Netはどちらも、強化されていない他の実験と比べ、ガウスのぼかし、回転、反転で最高のセグメンテーション性能を持っていた。 さらに、より大きなパッチやスライスをトレーニングすることで、最適なセグメンテーション結果が得られる。 以上の結果から,TOF-MRAでは,ガウスのぼかし,回転,旋回などのデータ拡張を行う3次元U-Netを用いて血管分割を最適に行うことができた。

Deep learning approaches may help radiologists in the early diagnosis and timely treatment of cerebrovascular diseases. Accurate cerebral vessel segmentation of Time-of-Flight Magnetic Resonance Angiographs (TOF-MRAs) is an essential step in this process. This study investigates deep learning approaches for automatic, fast and accurate cerebrovascular segmentation for TOF-MRAs. The performance of several data augmentation and selection methods for training a 2D and 3D U-Net for vessel segmentation was investigated in five experiments: a) without augmentation, b) Gaussian blur, c) rotation and flipping, d) Gaussian blur, rotation and flipping and e) different input patch sizes. All experiments were performed by patch-training both a 2D and 3D U-Net and predicted on a test set of MRAs. Ground truth was manually defined using an interactive threshold and region growing method. The performance was evaluated using the Dice Similarity Coefficient (DSC), Modified Hausdorff Distance and Volumetric Similarity, between the predicted images and the interactively defined ground truth. The segmentation performance of all trained networks on the test set was found to be good, with DSC scores ranging from 0.72 to 0.83. Both the 2D and 3D U-Net had the best segmentation performance with Gaussian blur, rotation and flipping compared to other experiments without augmentation or only one of those augmentation techniques. Additionally, training on larger patches or slices gave optimal segmentation results. In conclusion, vessel segmentation can be optimally performed on TOF-MRAs using a trained 3D U-Net on larger patches, where data augmentation including Gaussian blur, rotation and flipping was performed on the training data.
翻訳日:2021-03-20 21:09:51 公開日:2021-01-22
# (参考訳) 観測・干渉データを用いた文脈特化因数モデルの表現と学習

Representation and Learning of Context-Specific Causal Models with Observational and Interventional Data ( http://arxiv.org/abs/2101.09271v1 )

ライセンス: CC BY 4.0
Eliana Duarte, Liam Solus(参考訳) 本稿では,文脈固有の情報を離散データにエンコードする因果モデルの表現と学習の問題を考える。 そのようなモデルを表現するために、CStreesのクラスを定義します。 このクラスはステージドツリーモデルのサブクラスであり、DAGモデルのコンテキスト固有の情報をステージドツリーまたは同等にDAGのコレクションによって取得する。 我々は、DAGのグローバルマルコフ特性を一般化するCStreeで符号化された非対称な条件独立関係の完全集合を特徴づける。 その結果,DAGモデルに対してVermaとPearlを一般化したCSツリーのモデル等価性のグラフィカルな特徴付けが得られる。 また, cstree の最大確率推定器に対する閉形式式を提供し, ベイズ情報量基準がこのモデルクラスに対して局所的に一貫したスコア関数であることを示す。 次に、段階木モデルにおける一般介入の理論を用いて、大域マルコフ特性と cstree における一般介入に対するモデル同値のキャラクタリゼーションを提供する。 例えば、これらの結果を2つの実際のデータセットに適用し、それぞれのbic-optimal cstreeを学習し、コンテキスト固有の因果構造を分析する。

We consider the problem of representation and learning of causal models that encode context-specific information for discrete data. To represent such models we define the class of CStrees. This class is a subclass of staged tree models that captures context-specific information in a DAG model by the use of a staged tree, or equivalently, by a collection of DAGs. We provide a characterization of the complete set of asymmetric conditional independence relations encoded by a CStree that generalizes the global Markov property for DAGs. As a consequence, we obtain a graphical characterization of model equivalence for CStrees generalizing that of Verma and Pearl for DAG models. We also provide a closed-form formula for the maximum likelihood estimator of a CStree and use it to show that the Bayesian Information Criterion is a locally consistent score function for this model class. We then use the theory for general interventions in staged tree models to provide a global Markov property and a characterization of model equivalence for general interventions in CStrees. As examples, we apply these results to two real data sets, learning BIC-optimal CStrees for each and analyzing their context-specific causal structure.
翻訳日:2021-03-20 21:01:56 公開日:2021-01-22
# (参考訳) オンライン百科事典の検閲:NLPモデルへの示唆

Censorship of Online Encyclopedias: Implications for NLP Models ( http://arxiv.org/abs/2101.09294v1 )

ライセンス: CC BY 4.0
Eddie Yang, Margaret E. Roberts(参考訳) 人工知能は、世界中の人々が使っている多くのツールのバックボーンを提供するが、最近の研究は、AIを動かすアルゴリズムには政治、ステレオタイプ、バイアスがないことに注意を向けている。 この分野のほとんどの研究は、AIが既存の不平等と差別を悪化させる方法に焦点を当ててきたが、政府がトレーニングデータを積極的に形成する方法を研究する研究はほとんどない。 検閲がウィキペディアコーパス(NLPアルゴリズムへの事前学習入力に定期的に使用されるテキストデータ)の開発にどのように影響したかを述べる。 百度百科事典(百度百科事典)でトレーニングされた単語埋め込みは、通常ブロックされているが検閲されていない中国語ウィキペディアとは大きく異なる形容詞と、民主主義、自由、集団行動、平等、そして中国の歴史的出来事に関する様々な概念の関連があることを示している。 本稿では、下流AIアプリケーションにおけるそれらの利用について研究することによって、これらの不一致の影響について検討する。 本稿は、政府による抑圧、検閲、および自己検閲が、トレーニングデータおよびそれらから引き出すアプリケーションにどのように影響するかを示す。

While artificial intelligence provides the backbone for many tools people use around the world, recent work has brought to attention that the algorithms powering AI are not free of politics, stereotypes, and bias. While most work in this area has focused on the ways in which AI can exacerbate existing inequalities and discrimination, very little work has studied how governments actively shape training data. We describe how censorship has affected the development of Wikipedia corpuses, text data which are regularly used for pre-trained inputs into NLP algorithms. We show that word embeddings trained on Baidu Baike, an online Chinese encyclopedia, have very different associations between adjectives and a range of concepts about democracy, freedom, collective action, equality, and people and historical events in China than its regularly blocked but uncensored counterpart - Chinese language Wikipedia. We examine the implications of these discrepancies by studying their use in downstream AI applications. Our paper shows how government repression, censorship, and self-censorship may impact training data and the applications that draw from them.
翻訳日:2021-03-20 20:54:48 公開日:2021-01-22
# (参考訳) 児童文学のフィリピン可読性向上に向けた語彙的特徴の適用

Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature ( http://arxiv.org/abs/2101.10537v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial, Ethel Ong(参考訳) 児童の読書教材の適度な識別は,効果的な学習に向けた重要なステップである。 英語領域における可読性評価の最近の研究は、機械学習(ML)技術などの自然言語処理(NLP)に現代的なアプローチを適用してプロセスを自動化する。 また、可読性の公式をモデル化するときに正しい言語的特徴を抽出する必要もある。 フィリピン語の文脈では、特に語彙の複雑さを主な特徴として考慮して、限られた作業が [1, 2] 行われている。 本稿では,フィリピン語で書かれた児童書の可読性識別性向上のための語彙特徴の利用について検討する。 その結果, 文長, 平均音節長, 多音節語, 単語, 文数, 句数など, 従来からある特徴量 (TRAD) を用いた語彙的特徴量 (LEX) は, 可読性モデルの性能をほぼ5%(42%から47.2%)向上させた。 最も重要な機能のさらなる分析とランキングが示され、どの機能が読みの複雑さの点で最も寄与するかが特定された。

Proper identification of grade levels of children's reading materials is an important step towards effective learning. Recent studies in readability assessment for the English domain applied modern approaches in natural language processing (NLP) such as machine learning (ML) techniques to automate the process. There is also a need to extract the correct linguistic features when modeling readability formulas. In the context of the Filipino language, limited work has been done [1, 2], especially in considering the language's lexical complexity as main features. In this paper, we explore the use of lexical features towards improving the development of readability identification of children's books written in Filipino. Results show that combining lexical features (LEX) consisting of type-token ratio, lexical density, lexical variation, foreign word count with traditional features (TRAD) used by previous works such as sentence length, average syllable length, polysyllabic words, word, sentence, and phrase counts increased the performance of readability models by almost a 5% margin (from 42% to 47.2%). Further analysis and ranking of the most important features were shown to identify which features contribute the most in terms of reading complexity.
翻訳日:2021-03-20 20:10:02 公開日:2021-01-22
# (参考訳) シーケンス予測のためのk$-neighborに基づくカリキュラムサンプリング

$k$-Neighbor Based Curriculum Sampling for Sequence Prediction ( http://arxiv.org/abs/2101.09313v1 )

ライセンス: CC BY 4.0
James O' Neill and Danushka Bollegala(参考訳) 言語モデルにおける多段階の事前予測は、トレーニングとテスト時間プロセスの相違により困難である。 テスト時には、トレーニング中に提供される過去のターゲットではなく、過去の予測を入力として予測するためにシーケンス予測器が必要とされる。 この違いは、露光バイアスとして知られるが、テスト時に生成されたシーケンスに沿ってエラーが複合される可能性がある。 ニューラルネットワークモデルの一般化と複合化エラーに対処するために,まずは決定論的教師方針を徐々に確率的方針に変更するカリキュラム学習に基づく手法である \textit{nearest-neighbor replacement sampling} を提案する。 与えられた時間ステップのトークンは、元の単語と最上位の$k$の類似語との間のコサイン類似度に比例する断続確率を持つ過去のターゲットの最も近い近傍のサンプルに置き換えられる。 これにより、教師が提供した現在の方針が最適でない場合や学習が難しい場合、学習者は代替案を探索することができる。 提案手法は簡単で、オンラインであり、追加のメモリ要求はほとんど不要である。 本稿では,2つの言語モデルベンチマークについて報告し,提案手法がスケジュールされたサンプリングと併用することで,さらなる性能向上が期待できることを示す。

Multi-step ahead prediction in language models is challenging due to the discrepancy between training and test time processes. At test time, a sequence predictor is required to make predictions given past predictions as the input, instead of the past targets that are provided during training. This difference, known as exposure bias, can lead to the compounding of errors along a generated sequence at test time. To improve generalization in neural language models and address compounding errors, we propose \textit{Nearest-Neighbor Replacement Sampling} -- a curriculum learning-based method that gradually changes an initially deterministic teacher policy to a stochastic policy. A token at a given time-step is replaced with a sampled nearest neighbor of the past target with a truncated probability proportional to the cosine similarity between the original word and its top $k$ most similar words. This allows the learner to explore alternatives when the current policy provided by the teacher is sub-optimal or difficult to learn from. The proposed method is straightforward, online and requires little additional memory requirements. We report our findings on two language modelling benchmarks and find that the proposed method further improves performance when used in conjunction with scheduled sampling.
翻訳日:2021-03-20 20:00:01 公開日:2021-01-22
# (参考訳) ワッサーシュタイン距離によるタイター予測一般化誤差境界

Tighter expected generalization error bounds via Wasserstein distance ( http://arxiv.org/abs/2101.09315v1 )

ライセンス: CC BY 4.0
Borja Rodr\'iguez-G\'alvez, Germ\'an Bassi, Ragnar Thobaben, and Mikael Skoglund(参考訳) 本研究では,wasserstein距離に基づくいくつかの一般化誤差境界を導入する。 より正確には、steinke と zakynthinou [2020] の標準設定とランダム化サブサンプル設定の両方において、フルデータセット、シングルレター、ランダムサブセット境界を示す。 さらに、損失関数が有界であれば、相対エントロピーに基づいて下方(したがってより)の電流境界からこれらの境界が回復し、標準設定では、相対エントロピーにもとづいて、新しい空でない境界を生成することを示した。 そこで,提案手法を用いて,逆流路を特徴とする類似境界を導出できることを示す。 最後に、異なる情報測度(例えば、ラウタム情報またはいくつかの$f$-divergences)に基づく様々な新しい境界が、提示された境界から導出できることを示す。

In this work, we introduce several expected generalization error bounds based on the Wasserstein distance. More precisely, we present full-dataset, single-letter, and random-subset bounds on both the standard setting and the randomized-subsample setting from Steinke and Zakynthinou [2020]. Moreover, we show that, when the loss function is bounded, these bounds recover from below (and thus are tighter than) current bounds based on the relative entropy and, for the standard setting, generate new, non-vacuous bounds also based on the relative entropy. Then, we show how similar bounds featuring the backward channel can be derived with the proposed proof techniques. Finally, we show how various new bounds based on different information measures (e.g., the lautum information or several $f$-divergences) can be derived from the presented bounds.
翻訳日:2021-03-20 19:58:23 公開日:2021-01-22
# (参考訳) LiDARの3Dポイントクラウドにおける機械学習

Machine Learning in LiDAR 3D point clouds ( http://arxiv.org/abs/2101.09318v1 )

ライセンス: CC BY 4.0
F. Patricia Medina, Randy Paffenroth(参考訳) LiDAR点雲には複雑な自然景観の測定が含まれており、デジタル標高モデル、氷河モニタリング、断層の検出、隆起検出、森林在庫、海岸線と海浜の体積変化の検出、地すべりリスク分析、生息地マッピング、都市開発などの更新に利用できる。 非常に重要な応用は、3dクラウドを初等クラスに分類することです。 例えば、植生、人工構造物、水との区別に使用できる。 我々の目標は,複数種類の特徴工学を含む3DポイントクラウドLiDARデータの分類に関する予備的な比較研究を行うことである。 特に,LiDAR点クラウドの各点に隣接する点に関する情報を付加することで,下流学習アルゴリズムの性能を向上させることができることを示す。 また、主成分分析(PCA)からニューラルネットワークベースのオートエンコーダまで、いくつかの次元削減戦略を実験し、LiDAR点雲の分類性能にどのように影響するかを実証した。 例えば、機能工学とPCAのような手法の次元削減を組み合わせることで、生データとの直接的な分類を行う上で、分類の精度が向上することが観察できる。

LiDAR point clouds contain measurements of complicated natural scenes and can be used to update digital elevation models, glacial monitoring, detecting faults and measuring uplift detecting, forest inventory, detect shoreline and beach volume changes, landslide risk analysis, habitat mapping, and urban development, among others. A very important application is the classification of the 3D cloud into elementary classes. For example, it can be used to differentiate between vegetation, man-made structures, and water. Our goal is to present a preliminary comparison study for the classification of 3D point cloud LiDAR data that includes several types of feature engineering. In particular, we demonstrate that providing context by augmenting each point in the LiDAR point cloud with information about its neighboring points can improve the performance of downstream learning algorithms. We also experiment with several dimension reduction strategies, ranging from Principal Component Analysis (PCA) to neural network-based auto-encoders, and demonstrate how they affect classification performance in LiDAR point clouds. For instance, we observe that combining feature engineering with a dimension reduction a method such as PCA, there is an improvement in the accuracy of the classification with respect to doing a straightforward classification with the raw data.
翻訳日:2021-03-20 19:03:43 公開日:2021-01-22
# (参考訳) ハナビにおける深層強化学習の心の理論

Theory of Mind for Deep Reinforcement Learning in Hanabi ( http://arxiv.org/abs/2101.09328v1 )

ライセンス: CC BY 4.0
Andrew Fuchs, Michael Walton, Theresa Chadwick, Doug Lange(参考訳) 部分的に観察可能なカードゲームであるハナビは、暗黙のコミュニケーション慣行への依存と、効果的なプレーのためのマインド推論の理論の必要性から、新しいAI課題として最近提案されている。 本研究では,強化学習エージェントに心の理論を付与し,効率的な協調戦略を見出すためのメカニズムを提案する。 この研究の主な貢献は次の3つである: 第一に、ハナビにおけるハンド確率の計算可能機構の正式な定義。 第二に、従来の深層強化学習の拡張であり、有限ネストされた心的信念階層の理論を推論する。 最後に、エージェントに戦略的に関連するプライベート知識をチームメイトと共有させるインセンティブを与える心の理論によって実現される本質的な報酬メカニズム。 我々は,最新の強化学習エージェントであるレインボーに対するアルゴリズムの有用性を実証する。

The partially observable card game Hanabi has recently been proposed as a new AI challenge problem due to its dependence on implicit communication conventions and apparent necessity of theory of mind reasoning for efficient play. In this work, we propose a mechanism for imbuing Reinforcement Learning agents with a theory of mind to discover efficient cooperative strategies in Hanabi. The primary contributions of this work are threefold: First, a formal definition of a computationally tractable mechanism for computing hand probabilities in Hanabi. Second, an extension to conventional Deep Reinforcement Learning that introduces reasoning over finitely nested theory of mind belief hierarchies. Finally, an intrinsic reward mechanism enabled by theory of mind that incentivizes agents to share strategically relevant private knowledge with their teammates. We demonstrate the utility of our algorithm against Rainbow, a state-of-the-art Reinforcement Learning agent.
翻訳日:2021-03-20 18:42:38 公開日:2021-01-22
# (参考訳) BERT変換を用いたアラビア語GPT2自動生成ツイートの検出

BERT Transformer model for Detecting Arabic GPT2 Auto-Generated Tweets ( http://arxiv.org/abs/2101.09345v1 )

ライセンス: CC BY 4.0
Fouzi Harrag, Maria Debbah, Kareem Darwish, Ahmed Abdelali(参考訳) 過去20年間、私たちは徐々にインターネットやソーシャルメディアに目を向け、ニュースを見つけ、会話を楽しませ、意見を共有してきた。 最近,OpenAI は GPT-2 for Generative Pre-trained Transformer-2 というマシーン学習システムを開発した。 簡単な文章のプロンプトに基づいてテキストのブロックを生成し、人間が書いたように見え、偽造や自動生成のテキストの拡散を容易にする。 この進歩と潜在的な危険に対処するために、これらの言語モデルによって書かれたテキストを検出するいくつかの方法が提案されている。 本稿では,アラビア語文が人間によって書かれたり,ボットによって自動生成されたりするかどうかを検知できる移動学習モデルを提案する。 データセットは、Twitter APIを使ってクロールして拡張した以前の作業からのつぶやきに基づいています。 gpt2-small-arabicを用いて偽アラビア語文を作成した。 評価のために、異なるリカレントニューラルネットワーク(RNN)ワード埋め込みベースのベースラインモデル、すなわちLSTM、BI-LSTM、GRU、BI-GRUを比較した。 新しいトランスファーラーニングモデルは、最大98%の精度を得ました。 我々の知る限り、この研究は、アラビア語の自動生成テキストを検出し分類するためにARABERTとGPT2を組み合わせた最初の研究である。

During the last two decades, we have progressively turned to the Internet and social media to find news, entertain conversations and share opinion. Recently, OpenAI has developed a ma-chine learning system called GPT-2 for Generative Pre-trained Transformer-2, which can pro-duce deepfake texts. It can generate blocks of text based on brief writing prompts that look like they were written by humans, facilitating the spread false or auto-generated text. In line with this progress, and in order to counteract potential dangers, several methods have been pro-posed for detecting text written by these language models. In this paper, we propose a transfer learning based model that will be able to detect if an Arabic sentence is written by humans or automatically generated by bots. Our dataset is based on tweets from a previous work, which we have crawled and extended using the Twitter API. We used GPT2-Small-Arabic to generate fake Arabic Sentences. For evaluation, we compared different recurrent neural network (RNN) word embeddings based baseline models, namely: LSTM, BI-LSTM, GRU and BI-GRU, with a transformer-based model. Our new transfer-learning model has obtained an accuracy up to 98%. To the best of our knowledge, this work is the first study where ARABERT and GPT2 were combined to detect and classify the Arabic auto-generated texts.
翻訳日:2021-03-20 18:26:00 公開日:2021-01-22
# (参考訳) スティフェル多様体上のコンセンサスの局所直線速度について

On the Local Linear Rate of Consensus on the Stiefel Manifold ( http://arxiv.org/abs/2101.09346v1 )

ライセンス: CC BY 4.0
Shixiang Chen, Alfredo Garcia, Mingyi Hong, Shahin Shahrampour(参考訳) リーマン勾配法の収束特性を調べ、スティフェル多様体上のコンセンサス問題(非有向連結グラフ)を解く。 スティーフェル多様体は非凸集合であり、ユークリッド空間における平均化の標準概念はこの問題には効かない。 stiefel manifold (drcs) 上の分散リーマン的コンセンサスを提案し,大域的コンセンサスに対して局所線形収束率を享受することを示す。 さらに重要なことに、この局所速度は、ユークリッド空間のよく知られた速度と同等の、通信行列の第二の最大の特異値と漸近的にスケールする。 私たちの知る限りでは、これは2つのレートの平等を示す最初の作品です。 主な技術的課題は、(i)収束解析のためのリーマン制限された離散不等式の開発、(ii)アルゴリズムが常に局所領域に留まっている条件(例えば、適切なステップサイズと初期化)を特定することである。

We study the convergence properties of Riemannian gradient method for solving the consensus problem (for an undirected connected graph) over the Stiefel manifold. The Stiefel manifold is a non-convex set and the standard notion of averaging in the Euclidean space does not work for this problem. We propose Distributed Riemannian Consensus on Stiefel Manifold (DRCS) and prove that it enjoys a local linear convergence rate to global consensus. More importantly, this local rate asymptotically scales with the second largest singular value of the communication matrix, which is on par with the well-known rate in the Euclidean space. To the best of our knowledge, this is the first work showing the equality of the two rates. The main technical challenges include (i) developing a Riemannian restricted secant inequality for convergence analysis, and (ii) to identify the conditions (e.g., suitable step-size and initialization) under which the algorithm always stays in the local region.
翻訳日:2021-03-20 18:19:30 公開日:2021-01-22
# 神経機械翻訳のための構文および意味構造を用いた非自己回帰トランスフォーマーの強化

Enriching Non-Autoregressive Transformer with Syntactic and SemanticStructures for Neural Machine Translation ( http://arxiv.org/abs/2101.08942v1 )

ライセンス: Link先を確認
Ye Liu, Yao Wan, Jian-Guo Zhang, Wenting Zhao, Philip S. Yu(参考訳) 非自己回帰モデルにより、自己回帰モデルと比較した場合の有効性を犠牲にして、並列復号による神経機械翻訳の効率が向上した。 本稿では,自然言語間の構文構造と意味構造が非自己回帰機械翻訳に不可欠であり,さらに性能を向上させることができると主張する。 しかし、これらの構造は既存の非自己回帰モデルではめったに考慮されない。 この直観に触発されて、神経機械翻訳のタスクのために、言語の明示的な構文と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。 さらに,長期トークンの依存関係をよりよく学習するために,対象文内の中間潜時アライメントも検討する。 実世界の2つのデータセット(WMT14 En-DeとWMT16 En-Ro)の実験結果から、我々のモデルは、最先端の非自己回帰モデルと比較すると、翻訳品質が著しく向上することが示された。

The non-autoregressive models have boosted the efficiency of neural machine translation through parallelized decoding at the cost of effectiveness when comparing with the autoregressive counterparts. In this paper, we claim that the syntactic and semantic structures among natural language are critical for non-autoregressive machine translation and can further improve the performance. However, these structures are rarely considered in the existing non-autoregressive models. Inspired by this intuition, we propose to incorporate the explicit syntactic and semantic structures of languages into a non-autoregressive Transformer, for the task of neural machine translation. Moreover, we also consider the intermediate latent alignment within target sentences to better learn the long-term token dependencies. Experimental results on two real-world datasets (i.e., WMT14 En-De and WMT16 En-Ro) show that our model achieves a significantly faster speed, as well as keeps the translation quality when compared with several state-of-the-art non-autoregressive models.
翻訳日:2021-03-20 17:32:34 公開日:2021-01-22
# 頭部仮説:BERTにおける多面的注意理解への統一統計的アプローチ

The heads hypothesis: A unifying statistical approach towards understanding multi-headed attention in BERT ( http://arxiv.org/abs/2101.09115v1 )

ライセンス: Link先を確認
Madhura Pande, Aakriti Budhraja, Preksha Nema, Pratyush Kumar and Mitesh M. Khapra(参考訳) マルチヘッドアテンションヘッドは、トランスフォーマーベースモデルのメインステイである。 対方向の注意度が高いトークン間の関係に基づいて各注意ヘッドの役割を分類するために異なる方法が提案されている。 これらの役割には、構文(いくつかの構文的関係を持つトークン)、局所(近傍トークン)、ブロック(同じ文のトークン)、デリミタ(特別な[CLS]、[SEP]トークン)が含まれる。 既存の分類法には2つの大きな課題がある: (a) 研究や機能的役割に標準スコアがない; (b) 統計学的意義を捉えずに、文全体で測定された平均スコアであることが多い。 本研究では,注意ヘッドのすべての役割を一般化する単純かつ効果的なスコアを定式化し,このスコアに仮説テストを適用してロバストな推論を行う。 これにより、注意ヘッドを体系的に分析し、BERTモデルの解析に関する多くの一般的な疑問に自信を持ってコメントできる適切なレンズが提供されます。 特に,同一のアテンションヘッドにおける複数の機能的役割の同時配置,レイヤ間のアテンションヘッドの分布,特定のNLPタスクの微調整が機能的役割に与える影響について述べる。

Multi-headed attention heads are a mainstay in transformer-based models. Different methods have been proposed to classify the role of each attention head based on the relations between tokens which have high pair-wise attention. These roles include syntactic (tokens with some syntactic relation), local (nearby tokens), block (tokens in the same sentence) and delimiter (the special [CLS], [SEP] tokens). There are two main challenges with existing methods for classification: (a) there are no standard scores across studies or across functional roles, and (b) these scores are often average quantities measured across sentences without capturing statistical significance. In this work, we formalize a simple yet effective score that generalizes to all the roles of attention heads and employs hypothesis testing on this score for robust inference. This provides us the right lens to systematically analyze attention heads and confidently comment on many commonly posed questions on analyzing the BERT model. In particular, we comment on the co-location of multiple functional roles in the same attention head, the distribution of attention heads across layers, and effect of fine-tuning for specific NLP tasks on these functional roles.
翻訳日:2021-03-20 17:32:16 公開日:2021-01-22
# Slot Self-Attentive Dialogue State Tracking

Slot Self-Attentive Dialogue State Tracking ( http://arxiv.org/abs/2101.09374v1 )

ライセンス: Link先を確認
Fanghua Ye, Jarana Manotumruksa, Qiang Zhang, Shenghui Li, Emine Yilmaz(参考訳) タスク指向の対話システムで不可欠なコンポーネントは、会話の過程でユーザの意図を追跡する対話状態トラッカである。 この目標への典型的なアプローチは、タスクの完了に不可欠な複数の事前定義されたスロットを埋めることである。 近年,様々な対話状態追跡手法が提案されているが,そのほとんどは個別にスロットの値を予測するものであり,スロット間の相関を考慮できない。 本稿では,スロット相関を自動的に学習するスロット自己認識機構を提案する。 具体的には、まずスロットに注意を払って対話コンテキストからスロット固有の特徴を得る。 そして、これらの特徴に積み重ねられたスロット自己注意を適用し、スロット間の相関関係を学習する。 multiwoz 2.0 と multiwoz 2.1 を含む2つのマルチドメインタスク指向対話データセットについて包括的な実験を行う。 実験の結果,本手法は両データセットにおける最先端性能を実現し,スロット相関を考慮に入れる必要性と有効性を検証した。

An indispensable component in task-oriented dialogue systems is the dialogue state tracker, which keeps track of users' intentions in the course of conversation. The typical approach towards this goal is to fill in multiple pre-defined slots that are essential to complete the task. Although various dialogue state tracking methods have been proposed in recent years, most of them predict the value of each slot separately and fail to consider the correlations among slots. In this paper, we propose a slot self-attention mechanism that can learn the slot correlations automatically. Specifically, a slot-token attention is first utilized to obtain slot-specific features from the dialogue context. Then a stacked slot self-attention is applied on these features to learn the correlations among slots. We conduct comprehensive experiments on two multi-domain task-oriented dialogue datasets, including MultiWOZ 2.0 and MultiWOZ 2.1. The experimental results demonstrate that our approach achieves state-of-the-art performance on both datasets, verifying the necessity and effectiveness of taking slot correlations into consideration.
翻訳日:2021-03-20 17:31:54 公開日:2021-01-22
# 古代ギリシアのヘキサメーターの自動スキャンに有限状態機械を使う

Using Finite-State Machines to Automatically Scan Classical Greek Hexameter ( http://arxiv.org/abs/2101.11437v1 )

ライセンス: Link先を確認
Anne-Kathrin Schumann, Christoph Beierle, Norbert Bl\"o{\ss}ner(参考訳) 本稿では,古典ギリシア語ヘキサメートル詩のスキャニングに対する完全自動的アプローチを提案する。 特に, 決定論的有限状態オートマトンと局所言語規則を用いて有効なスポンデウスパターンの探索を行い, 重み付き有限状態トランスデューサを用いて部分解析を正し, 不正な候補を拒絶するアルゴリズムについて述べる。 本論文は,手書きデータに対するこのアプローチによるアノテーション品質の実証的評価結果についても詳述する。 有限状態アプローチは、ヘキサメーターの詩を迅速かつ言語的に解析し、言語知識の効率的な形式化を提供する。 プロジェクトコードは、https://github.com/anetschka/greek_scansionを参照)。

This paper presents a fully automatic approach to the scansion of Classical Greek hexameter verse. In particular, the paper describes an algorithm that uses deterministic finite-state automata and local linguistic rules to implement a targeted search for valid spondeus patterns and, in addition, a weighted finite-state transducer to correct and complete partial analyses and to reject invalid candidates. The paper also details the results of an empirical evaluation of the annotation quality resulting from this approach on hand-annotated data. It is shown that a finite-state approach provides quick and linguistically sound analyses of hexameter verses as well as an efficient formalisation of linguistic knowledge. The project code is available (see https://github.com/anetschka/greek_scansion).
翻訳日:2021-03-20 17:31:37 公開日:2021-01-22
# 語彙連鎖による多意味表現を用いた単語埋め込み

Enhanced word embeddings using multi-semantic representation through lexical chains ( http://arxiv.org/abs/2101.09023v1 )

ライセンス: Link先を確認
Terry Ruas, Charles Henrique Porto Ferreira, William Grosky, Fabr\'icio Olivetti de Fran\c{c}a, D\'ebora Maria Rossi Medeiros(参考訳) 文中の単語間の関係は、個々の単語よりも文書の根底にある意味的内容についてより深く語られることが多い。 本研究では,フレキシブルレキシカルチェインIIと固定レキシカルチェインIIという2つの新しいアルゴリズムを提案する。 これらのアルゴリズムは、語彙連鎖から派生した意味関係、語彙データベースからの事前知識、単語埋め込みにおける分布仮説の頑健さを単一のシステムを構成するブロックとして組み合わせている。 要するに、我々のアプローチには3つの大きな貢献がある: (i) 単語埋め込みと語彙連鎖を完全に統合する一連の技術、 (ii) 文書中の単語間の潜在関係を考えるより堅牢な意味表現、そして (iii) 任意の自然言語タスクに拡張可能な軽量な単語埋め込みモデル。 文書分類タスクにおけるロバスト性を評価するために,事前学習したモデルの知識を評価する。 提案手法は,文書分類タスクにおいて,5つの異なる機械学習分類器を用いた7つの単語埋め込みアルゴリズムに対してテストを行う。 以上の結果から,語彙連鎖と単語埋め込み表現の統合は,より複雑なシステムに対してさえ,最先端の結果を維持できることが示された。

The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
翻訳日:2021-03-20 17:31:26 公開日:2021-01-22
# 古代ギリシア語とラテン語の語彙意味変化

Lexical semantic change for Ancient Greek and Latin ( http://arxiv.org/abs/2101.09069v1 )

ライセンス: Link先を確認
Valerio Perrone and Simon Hengchen and Marco Palma and Alessandro Vatri and Jim Q. Smith and Barbara McGillivray(参考訳) 変化とその前提条件である変動は言語に固有のものだ。 時間が経つにつれて、新しい単語が語彙に入り、他の単語は時代遅れになり、既存の単語は新しい感覚を得る。 歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。 古代ギリシア語やラテン語のような古典言語の歴史的コーパスは、典型的にはリッチなメタデータを持ち、既存のモデルは、文書のタイムスタンプを超えて文脈情報を活用できないため、制限されている。 埋め込みベースのメソッドは、現在のアートシステムの中で特徴付けられるが、解釈能力に欠ける。 対照的に、ベイズモデルは意味変化現象の明示的かつ解釈可能な表現を提供する。 この章では、動的ベイズ混合モデルに基づく意味変化に対する最近の計算手法であるGASCに基づいて構築する。 このモデルでは、単語感覚の時間的進化は、語彙の性質の分布情報だけでなく、テキストジャンルにも基づいている。 本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。 意味変化の完全な説明を提供する上で,ベイズ混合モデルは古代ギリシア語とラテン語の両方において,二項意味変化を検出するための非常に競争力のあるアプローチであることを示す。

Change and its precondition, variation, are inherent in languages. Over time, new words enter the lexicon, others become obsolete, and existing words acquire new senses. Associating a word's correct meaning in its historical context is a central challenge in diachronic research. Historical corpora of classical languages, such as Ancient Greek and Latin, typically come with rich metadata, and existing models are limited by their inability to exploit contextual information beyond the document timestamp. While embedding-based methods feature among the current state of the art systems, they are lacking in the interpretative power. In contrast, Bayesian models provide explicit and interpretable representations of semantic change phenomena. In this chapter we build on GASC, a recent computational approach to semantic change based on a dynamic Bayesian mixture model. In this model, the evolution of word senses over time is based not only on distributional information of lexical nature, but also on text genres. We provide a systematic comparison of dynamic Bayesian mixture models for semantic change with state-of-the-art embedding-based models. On top of providing a full description of meaning change over time, we show that Bayesian mixture models are highly competitive approaches to detect binary semantic change in both Ancient Greek and Latin.
翻訳日:2021-03-20 17:31:07 公開日:2021-01-22
# 関係予測のための浅層神経モデル

A shallow neural model for relation prediction ( http://arxiv.org/abs/2101.09090v1 )

ライセンス: Link先を確認
Caglar Demir and Diego Moussallem and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフ補完は、欠落した三重項を予測することを指す。 ほとんどのアプローチは、与えられたエンティティと関係を予測することによって、この目標を達成する。 我々は関係予測を通じて三重項の欠落を予測する。 そこで本研究では, 関係予測問題を多ラベル分類問題とみなし, 実体間の関係を正確に推定する浅部ニューラルネットワーク(SHALLOM)を提案する。 SHALLOM は C-BOW と類似しており、両方のアプローチは、周囲のトークン (s,o) が与えられた中心トークン (p) を予測する。 実験の結果,SHALLOM は FB15K-237 と WN18RR の最先端のアプローチをそれぞれ 3 %$ と 8 %$ (絶対) のマージンで上回り,これらのデータセットでは最大 8 分間のトレーニング時間を必要とすることがわかった。 我々は、トレーニングと評価スクリプトを含むオープンソース実装を {\url{https://github.com/dice-group/Shallom} で提供することにより、結果の再現性を確保する。

Knowledge graph completion refers to predicting missing triples. Most approaches achieve this goal by predicting entities, given an entity and a relation. We predict missing triples via the relation prediction. To this end, we frame the relation prediction problem as a multi-label classification problem and propose a shallow neural model (SHALLOM) that accurately infers missing relations from entities. SHALLOM is analogous to C-BOW as both approaches predict a central token (p) given surrounding tokens ((s,o)). Our experiments indicate that SHALLOM outperforms state-of-the-art approaches on the FB15K-237 and WN18RR with margins of up to $3\%$ and $8\%$ (absolute), respectively, while requiring a maximum training time of 8 minutes on these datasets. We ensure the reproducibility of our results by providing an open-source implementation including training and evaluation scripts at {\url{https://github.com/dice-group/Shallom}.}
翻訳日:2021-03-20 17:30:46 公開日:2021-01-22
# 中国の手続き用語正規化のための多視点的リコールとランクフレームワーク

A multi-perspective combined recall and rank framework for Chinese procedure terminology normalization ( http://arxiv.org/abs/2101.09101v1 )

ライセンス: Link先を確認
Ming Liang and Kui Xue and Tong Ruan(参考訳) 医学用語の正規化は、電子健康記録(EHR)と多くの下流タスクの分析において重要な役割を果たす知識ベースから得られた用語の臨床的言及をマッピングすることを目的としている。 本稿では,中国の手続き用語の正規化に焦点をあてる。 用語の表現は様々であり、医学的言及は複数の用語に関連付けられることがある。 文献や意味情報から用語を分類する手法として,複数クラス分類やランク付け学習(LTR)について検討した。 しかし、これらの情報は、特にマルチインプリケーションの場合、適切な用語を見つけるには不十分である。 そこで本研究では,上記の問題を解決するためのリコールとランクの組み合わせフレームワークを提案する。 このフレームワークは、マルチタスク候補生成器(mtcg)、キーワードの注意ランク付け器(kar)、および融合ブロック(fb)で構成されている。 MTCGは、参照含意数を予測し、セマンティックな類似性を持つ候補をリコールするために使用される。 KARはBertをベースにしており、プロシージャサイトやプロシージャタイプなどのキーワードに焦点を当てたキーワード注意機構を備えている。 FB は MTCG と KAR の類似性を融合させ、異なる視点から用語を分類する。 詳細な実験分析の結果,提案するフレームワークは性能と効率の両方において顕著に改善されている。

Medical terminology normalization aims to map the clinical mention to terminologies come from a knowledge base, which plays an important role in analyzing Electronic Health Record(EHR) and many downstream tasks. In this paper, we focus on Chinese procedure terminology normalization. The expression of terminologies are various and one medical mention may be linked to multiple terminologies. Previous study explores some methods such as multi-class classification or learning to rank(LTR) to sort the terminologies by literature and semantic information. However, these information is inadequate to find the right terminologies, particularly in multi-implication cases. In this work, we propose a combined recall and rank framework to solve the above problems. This framework is composed of a multi-task candidate generator(MTCG), a keywords attentive ranker(KAR) and a fusion block(FB). MTCG is utilized to predict the mention implication number and recall candidates with semantic similarity. KAR is based on Bert with a keywords attentive mechanism which focuses on keywords such as procedure sites and procedure types. FB merges the similarity come from MTCG and KAR to sort the terminologies from different perspectives. Detailed experimental analysis shows our proposed framework has a remarkable improvement on both performance and efficiency.
翻訳日:2021-03-20 17:30:28 公開日:2021-01-22
# 良い対物:解釈可能・可塑性・多元的対物説明の生成

A Few Good Counterfactuals: Generating Interpretable, Plausible and Diverse Counterfactual Explanations ( http://arxiv.org/abs/2101.09056v1 )

ライセンス: Link先を確認
Barry Smyth and Mark T Keane(参考訳) 対物的説明は、説明可能なAI(XAI)問題に対する潜在的に重要な解決策を提供するが、良い、ネイティブな対物的説明がほとんどのデータセットで稀に発生することが示されている。 したがって、最も一般的な方法はブラインド摂動を用いて合成偽物を生成する。 しかし、このような手法にはいくつかの欠点がある: 結果の反事実 (i) が有効なデータポイントではない場合(自然に発生しない特徴を使う場合が多い)、 (ii) 優れた反事実の空間が欠如している場合(もし多くの特徴を変更すれば)、 (iii) は多様性がない場合(生成した反事実が互いに最小の変種である場合)。 本稿では,これらの問題を克服するための手法について述べる。本手法は,自然に発生する特徴から,スパースで多様な合成反事実を生成するために,原データセットにネイティブな反事実を適応させるものである。 最適性能の条件を確立するために、この新しい手法を共通データセット上で系統的にパラメトリックなバリエーションを探索する一連の実験が報告されている。

Counterfactual explanations provide a potentially significant solution to the Explainable AI (XAI) problem, but good, native counterfactuals have been shown to rarely occur in most datasets. Hence, the most popular methods generate synthetic counterfactuals using blind perturbation. However, such methods have several shortcomings: the resulting counterfactuals (i) may not be valid data-points (they often use features that do not naturally occur), (ii) may lack the sparsity of good counterfactuals (if they modify too many features), and (iii) may lack diversity (if the generated counterfactuals are minimal variants of one another). We describe a method designed to overcome these problems, one that adapts native counterfactuals in the original dataset, to generate sparse, diverse synthetic counterfactuals from naturally occurring features. A series of experiments are reported that systematically explore parametric variations of this novel method on common datasets to establish the conditions for optimal performance.
翻訳日:2021-03-20 17:29:40 公開日:2021-01-22
# スコアベース生成モデルの最大確率トレーニングについて

On Maximum Likelihood Training of Score-Based Generative Models ( http://arxiv.org/abs/2101.09258v1 )

ライセンス: Link先を確認
Conor Durkan and Yang Song(参考訳) スコアベース生成モデリングは、最近、従来の可能性ベースや暗黙のアプローチに代わる有望な代替手段として登場した。 スコアベースモデルでの学習は、まず連続時間確率過程でデータを摂動させ、次にスコアマッチング損失の連続混合を用いて、ノイズデータ密度の対数(スコア関数)の時間依存勾配をマッチングする。 本稿では,このような目的が混合重み付けの特定の選択に対する最大確率と同値であることを示す。 この接続は目的関数の重み付けの原則的な方法を提供し、異なるスコアベースの生成モデルを比較するのにその使用を正当化する。 これまでの研究と合わせて, 最大確率トレーニングとテスト時間ログ類似度評価は, 濃度関数を明示的にパラメータ化することなく, スコア関数のみのパラメータ化によって達成できることを明らかにした。

Score-based generative modeling has recently emerged as a promising alternative to traditional likelihood-based or implicit approaches. Learning in score-based models involves first perturbing data with a continuous-time stochastic process, and then matching the time-dependent gradient of the logarithm of the noisy data density - or score function - using a continuous mixture of score matching losses. In this note, we show that such an objective is equivalent to maximum likelihood for certain choices of mixture weighting. This connection provides a principled way to weight the objective function, and justifies its use for comparing different score-based generative models. Taken together with previous work, our result reveals that both maximum likelihood training and test-time log-likelihood evaluation can be achieved through parameterization of the score function alone, without the need to explicitly parameterize a density function.
翻訳日:2021-03-20 17:29:16 公開日:2021-01-22
# 再生型連続ゼロショット学習

Generative Replay-based Continual Zero-Shot Learning ( http://arxiv.org/abs/2101.08894v1 )

ライセンス: Link先を確認
Chandan Gautam, Sethupathy Parameswaran, Ashish Mishra, Suresh Sundaram(参考訳) ゼロショット学習は、トレーニング時に使用できないクラスからオブジェクトを分類する新しいパラダイムである。 ゼロショットラーニング (ZSL) 手法は, 目に見えないクラスやノーベルクラスを分類できるため, 近年注目されている。 ZSLの既存のアプローチのほとんどは、見たクラスのすべてのサンプルがモデルをトレーニングするために利用可能で、実際の生活に合わない場合に有効です。 本稿では,再生型連続ZSL(GRCZSL)の開発により,この障害に対処する。 提案手法は,ストリーミングデータから学習するために従来のzslをエンドウズし,それまでの経験を忘れることなく新たな知識を得る。 本研究は, GRCZSLにおける破滅的な忘れを, 初期の課題に現れた授業の合成サンプルを再生することで処理する。 これらの合成サンプルは、直近のタスクで訓練された条件変動オートエンコーダ(vae)を用いて合成される。 さらに、トレーニングとテストのためには、いつでも、現在および直近のvaeのみが必要です。 GRZSL法は,実世界の問題設定をシミュレートした連続学習の単一ヘッド設定のために開発された。 この設定では、タスクのアイデンティティはトレーニング中に与えられるが、テスト中は利用できない。 GRCZSLの性能は、連続学習の固定および漸進的なクラス設定によるZSLの一般化セットアップのための5つのベンチマークデータセットで評価される。 実験の結果,提案手法はベースライン法を著しく上回り,実世界の応用に適していることがわかった。

Zero-shot learning is a new paradigm to classify objects from classes that are not available at training time. Zero-shot learning (ZSL) methods have attracted considerable attention in recent years because of their ability to classify unseen/novel class examples. Most of the existing approaches on ZSL works when all the samples from seen classes are available to train the model, which does not suit real life. In this paper, we tackle this hindrance by developing a generative replay-based continual ZSL (GRCZSL). The proposed method endows traditional ZSL to learn from streaming data and acquire new knowledge without forgetting the previous tasks' gained experience. We handle catastrophic forgetting in GRCZSL by replaying the synthetic samples of seen classes, which have appeared in the earlier tasks. These synthetic samples are synthesized using the trained conditional variational autoencoder (VAE) over the immediate past task. Moreover, we only require the current and immediate previous VAE at any time for training and testing. The proposed GRZSL method is developed for a single-head setting of continual learning, simulating a real-world problem setting. In this setting, task identity is given during training but unavailable during testing. GRCZSL performance is evaluated on five benchmark datasets for the generalized setup of ZSL with fixed and incremental class settings of continual learning. Experimental results show that the proposed method significantly outperforms the baseline method and makes it more suitable for real-world applications.
翻訳日:2021-03-20 17:29:01 公開日:2021-01-22
# DSAL: バイオメディカルイメージセグメンテーションのための強いラベルと弱いラベルからの深い監視されたアクティブラーニング

DSAL: Deeply Supervised Active Learning from Strong and Weak Labelers for Biomedical Image Segmentation ( http://arxiv.org/abs/2101.09057v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Zeng Zeng, Kaixin Xu, Cen Chen, Cuntai Guan(参考訳) 画像分割は、internet-of-medical-things(iomt)ドメインの顕微鏡やx線を含む、異なる画像モードに対する最も不可欠なバイオメディカル画像処理問題の1つである。 しかし、バイオメディカル画像の注釈付けは知識駆動、時間消費、労働集約であり、限られたコストで豊富なラベルを得るのが困難である。 アクティブな学習戦略は、アノテーションのためのトレーニングデータのサブセットのみをクエリするヒューマンアノテーションの負担を軽減します。 注意を引いたにもかかわらず、アクティブな学習手法の多くは、通常、膨大な計算コストを必要とし、ラベルのないデータを非効率に利用する。 また、ネットワーク内の中間知識を無視する傾向がある。 本研究では,能動学習と半教師付き学習戦略を組み合わせた深層能動型半教師付き学習フレームワークDSALを提案する。 DSALでは, 強いラベルと弱いラベルのそれぞれに対して, 高い不確実性と低い不確実性を有する情報的サンプルを選択するために, 深層監視機構に基づく新しい基準を提案する。 内部基準は、アクティブなサンプル選択のためにディープラーニングネットワーク内の中間機能の不一致を利用して、計算コストを削減している。 提案した基準を用いて,IoMTプラットフォームで検証可能な,活発な学習イテレーション毎に,強ラベルと弱ラベルのサンプルを選択して,オラクルラベルと擬似ラベルを同時に生成する。 複数の医用画像データセットに関する広範囲な実験により,提案手法が最先端アクティブラーニング法よりも優れていることが示された。

Image segmentation is one of the most essential biomedical image processing problems for different imaging modalities, including microscopy and X-ray in the Internet-of-Medical-Things (IoMT) domain. However, annotating biomedical images is knowledge-driven, time-consuming, and labor-intensive, making it difficult to obtain abundant labels with limited costs. Active learning strategies come into ease the burden of human annotation, which queries only a subset of training data for annotation. Despite receiving attention, most of active learning methods generally still require huge computational costs and utilize unlabeled data inefficiently. They also tend to ignore the intermediate knowledge within networks. In this work, we propose a deep active semi-supervised learning framework, DSAL, combining active learning and semi-supervised learning strategies. In DSAL, a new criterion based on deep supervision mechanism is proposed to select informative samples with high uncertainties and low uncertainties for strong labelers and weak labelers respectively. The internal criterion leverages the disagreement of intermediate features within the deep learning network for active sample selection, which subsequently reduces the computational costs. We use the proposed criteria to select samples for strong and weak labelers to produce oracle labels and pseudo labels simultaneously at each active learning iteration in an ensemble learning manner, which can be examined with IoMT Platform. Extensive experiments on multiple medical image datasets demonstrate the superiority of the proposed method over state-of-the-art active learning methods.
翻訳日:2021-03-20 17:28:22 公開日:2021-01-22
# AI/MLシステムの脆弱性管理について

On managing vulnerabilities in AI/ML systems ( http://arxiv.org/abs/2101.10865v1 )

ライセンス: Link先を確認
Jonathan M. Spring and April Galyardt and Allen D. Householder and Nathan VanHoudnos(参考訳) 機械学習(ML)の欠陥が共通脆弱性・露出(CVE)識別子(CVE-ID)に割り当てられた場合はどうか。 MLアルゴリズムとモデルオブジェクトの両方を考慮する。 仮説上のシナリオは、発見、報告、分析、調整、開示、応答という6つの脆弱性管理領域の変更を検討することを中心に構成されている。 アルゴリズムの欠陥は学術研究コミュニティでよく知られていますが、この研究コミュニティとMLを使用するシステムのデプロイと管理を行う運用コミュニティとの間には明確なコミュニケーション線はありません。 思考実験により,CVE-IDがこれらの2つのコミュニティ間のコミュニケーションに有用な線を確立する方法が明らかになった。 特に、既存の取り組みで残されたギャップのように見える運用上のセキュリティ概念に研究コミュニティを導入し始める。

This paper explores how the current paradigm of vulnerability management might adapt to include machine learning systems through a thought experiment: what if flaws in machine learning (ML) were assigned Common Vulnerabilities and Exposures (CVE) identifiers (CVE-IDs)? We consider both ML algorithms and model objects. The hypothetical scenario is structured around exploring the changes to the six areas of vulnerability management: discovery, report intake, analysis, coordination, disclosure, and response. While algorithm flaws are well-known in the academic research community, there is no apparent clear line of communication between this research community and the operational communities that deploy and manage systems that use ML. The thought experiments identify some ways in which CVE-IDs may establish some useful lines of communication between these two communities. In particular, it would start to introduce the research community to operational security concepts, which appears to be a gap left by existing efforts.
翻訳日:2021-03-20 17:27:47 公開日:2021-01-22
# SGA:雑音サンプルを用いた木構造図形モデルの部分復元のためのロバストアルゴリズム

SGA: A Robust Algorithm for Partial Recovery of Tree-Structured Graphical Models with Noisy Samples ( http://arxiv.org/abs/2101.08917v1 )

ライセンス: Link先を確認
Anshoo Tandon, Aldric H. J. Yuan, Vincent Y. F. Tan(参考訳) 我々は,ノードからの観測結果が,未知の統計値を持つ独立に分布しないノイズによって損なわれる場合,Isingツリーモデルを学習することを検討する。 Katiyarら。 (2020) は, 正確な木構造は復元できないが, 部分木構造, すなわち, 真木を含む同値類に属する構造を復元できることを示した。 本稿では,Katiyar et alの体系的改善について述べる。 (2020). まず, 部分回収に必要なサンプル数に制約を課すことにより, 新たな不確実性を示す。 第二に、サンプルの複雑さが大幅に改善され、最小相関値$\rho_{\min}$が$\rho_{\min}^{-24}$ではなく$\rho_{\min}^{-8}$となる。 最後に,より統計的にロバストな部分木回復アルゴリズムである対称性幾何平均化(sga)を提案する。 我々は,SGAのサンプル複雑性がKatiyarらのアルゴリズムよりもはるかに優れていることを示すために,様々な木に対する誤差指数解析と広範な数値結果を提供する。 (2020). SGAはガウスモデルに容易に拡張でき、数値実験によっても同様に優れていることを示す。

We consider learning Ising tree models when the observations from the nodes are corrupted by independent but non-identically distributed noise with unknown statistics. Katiyar et al. (2020) showed that although the exact tree structure cannot be recovered, one can recover a partial tree structure; that is, a structure belonging to the equivalence class containing the true tree. This paper presents a systematic improvement of Katiyar et al. (2020). First, we present a novel impossibility result by deriving a bound on the necessary number of samples for partial recovery. Second, we derive a significantly improved sample complexity result in which the dependence on the minimum correlation $\rho_{\min}$ is $\rho_{\min}^{-8}$ instead of $\rho_{\min}^{-24}$. Finally, we propose Symmetrized Geometric Averaging (SGA), a more statistically robust algorithm for partial tree recovery. We provide error exponent analyses and extensive numerical results on a variety of trees to show that the sample complexity of SGA is significantly better than the algorithm of Katiyar et al. (2020). SGA can be readily extended to Gaussian models and is shown via numerical experiments to be similarly superior.
翻訳日:2021-03-20 17:27:34 公開日:2021-01-22
# ベイズ階層的積み重ね

Bayesian hierarchical stacking ( http://arxiv.org/abs/2101.08954v1 )

ライセンス: Link先を確認
Yuling Yao, Gregor Pir\v{s}, Aki Vehtari, Andrew Gelman(参考訳) 積み重ねは、すべての線形平均に対して漸近的に最適な予測をもたらす、広く使われているモデル平均化手法である。 モデル予測性能が不均一な場合の積み重ねは最も効果的であることを示し、階層モデルによる積み重ね混合をさらに改善できることを示す。 入力変動が部分的にプールされたモデル重み付けにより、階層的積み重ねは平均および条件付き予測を改善する。 ベイズ的定式化は、特別の場合として定重(完全プール)積み重ねを含む。 離散的および連続的な入力、他の構造化事前データ、時系列および縦断データを取り込むことを一般化する。 いくつかの応用問題を実証する。

Stacking is a widely used model averaging technique that yields asymptotically optimal prediction among all linear averages. We show that stacking is most effective when the model predictive performance is heterogeneous in inputs, so that we can further improve the stacked mixture with a hierarchical model. With the input-varying yet partially-pooled model weights, hierarchical stacking improves average and conditional predictions. Our Bayesian formulation includes constant-weight (complete-pooling) stacking as a special case. We generalize to incorporate discrete and continuous inputs, other structured priors, and time-series and longitudinal data. We demonstrate on several applied problems.
翻訳日:2021-03-20 17:27:13 公開日:2021-01-22
# 分散学習による線形回帰:一般化エラーの視点から

Linear Regression with Distributed Learning: A Generalization Error Perspective ( http://arxiv.org/abs/2101.09001v1 )

ライセンス: Link先を確認
Martin Hellkvist and Ay\c{c}a \"Oz\c{c}elikkale and Anders Ahl\'en(参考訳) 分散学習は、ネットワーク内の複数のノードで計算負荷を共有することによって学習タスクをスケールするための魅力的なフレームワークを提供する。 本稿では,モデルパラメータ,すなわち未知数をネットワーク上に分散させた大規模線形回帰における分散学習の性能について検討する。 私たちは統計的学習アプローチを採用しています。 トレーニングデータの性能に焦点を当てた作業とは対照的に、一般化誤差、すなわち目に見えないデータのパフォーマンスに焦点を当てる。 等方性および相関性ガウスデータとサブガウスデータの両方について一般化誤差の高確率境界を与える。 これらの結果は,ネットワーク上のモデルの分割に対する一般化性能の依存性を明らかにする。 特に,本研究の結果から,集中型および分散型両方の手法において,トレーニングデータの誤差が同一レベルである場合でも,分散型ソリューションの一般化誤差は集中型ソリューションよりも著しく高い値を示す。 その結果,実世界の画像データと合成データの両方での性能が示される。

Distributed learning provides an attractive framework for scaling the learning task by sharing the computational load over multiple nodes in a network. Here, we investigate the performance of distributed learning for large-scale linear regression where the model parameters, i.e., the unknowns, are distributed over the network. We adopt a statistical learning approach. In contrast to works that focus on the performance on the training data, we focus on the generalization error, i.e., the performance on unseen data. We provide high-probability bounds on the generalization error for both isotropic and correlated Gaussian data as well as sub-gaussian data. These results reveal the dependence of the generalization performance on the partitioning of the model over the network. In particular, our results show that the generalization error of the distributed solution can be substantially higher than that of the centralized solution even when the error on the training data is at the same level for both the centralized and distributed approaches. Our numerical results illustrate the performance with both real-world image data as well as synthetic data.
翻訳日:2021-03-20 17:27:06 公開日:2021-01-22
# 野生における表現認識解析

Expression Recognition Analysis in the Wild ( http://arxiv.org/abs/2101.09231v1 )

ライセンス: Link先を確認
Donato Cafarelli, Fabio Valerio Massoli, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) 表情認識(FER)はヒューマン・コンピュータ・インタラクション(HCI)において最も重要なトピックの一つである。 本稿では,最先端手法に基づく表情認識法の詳細と実験結果について報告する。 我々は、有名なvggface2データセット、afwild2顔認識データセットで事前トレーニングされたsenetディープラーニングアーキテクチャを微調整した。 この研究の主な目標は、近い将来に提案する新しいメソッドのベースラインを定義することです。 また,本手法の有効性を評価するためには,ABAW(Affective Behavior Analysis in-the-wild)コンペティションも必要である。 本研究の結果は, 検証セット上で, コンペティションの表現課題部(基本的な7つの感情認識)に関連している。 テストセットの実際の結果がリーダボードに公開されたら、すぐに更新します。

Facial Expression Recognition(FER) is one of the most important topic in Human-Computer interactions(HCI). In this work we report details and experimental results about a facial expression recognition method based on state-of-the-art methods. We fine-tuned a SeNet deep learning architecture pre-trained on the well-known VGGFace2 dataset, on the AffWild2 facial expression recognition dataset. The main goal of this work is to define a baseline for a novel method we are going to propose in the near future. This paper is also required by the Affective Behavior Analysis in-the-wild (ABAW) competition in order to evaluate on the test set this approach. The results reported here are on the validation set and are related on the Expression Challenge part (seven basic emotion recognition) of the competition. We will update them as soon as the actual results on the test set will be published on the leaderboard.
翻訳日:2021-03-20 17:26:50 公開日:2021-01-22
# オンライン分類における大数の逆法則と最適後悔

Adversarial Laws of Large Numbers and Optimal Regret in Online Classification ( http://arxiv.org/abs/2101.09054v1 )

ライセンス: Link先を確認
Noga Alon, Omri Ben-Eliezer, Yuval Dagan, Shay Moran, Moni Naor, Eylon Yogev(参考訳) 大きな数の法則により、ある集団から十分な量のサンプルが与えられた場合、固定されたサブ集団の測度は標本の頻度によってよく推定される。 サンプリングプロセスにおける多数の法則について検討し,それらが作用し,相互作用する環境に影響を及ぼす可能性について検討した。 具体的には、ben-eliezer と yogev (2020) によって提案された逐次サンプリングモデルを検討し、このモデルで大数の一様法則を許すクラスを特徴づける: これらはちょうど \emph{online learnable} である。 我々の特徴は,統計的学習における学習可能性と一様収束の等価性のオンラインアナログとして解釈できる。 サンプル-複素性境界は、多くのパラメーターレジームに対して厳密であり、応用として、オンライン学習において最適の後悔境界を決定する。これは、'emph{Littlestone's dimension} の項で述べられており、Ben-David, P\'al, and Shalev-Shwartz (2009) から主要な開質問を解き、Rahlin, Sridharan, Tewari (2015) によっても提起された。

Laws of large numbers guarantee that given a large enough sample from some population, the measure of any fixed sub-population is well-estimated by its frequency in the sample. We study laws of large numbers in sampling processes that can affect the environment they are acting upon and interact with it. Specifically, we consider the sequential sampling model proposed by Ben-Eliezer and Yogev (2020), and characterize the classes which admit a uniform law of large numbers in this model: these are exactly the classes that are \emph{online learnable}. Our characterization may be interpreted as an online analogue to the equivalence between learnability and uniform convergence in statistical (PAC) learning. The sample-complexity bounds we obtain are tight for many parameter regimes, and as an application, we determine the optimal regret bounds in online learning, stated in terms of \emph{Littlestone's dimension}, thus resolving the main open question from Ben-David, P\'al, and Shalev-Shwartz (2009), which was also posed by Rakhlin, Sridharan, and Tewari (2015).
翻訳日:2021-03-20 17:26:38 公開日:2021-01-22
# ポースリファインメントのための革新CNNによる反復最適化

Iterative Optimisation with an Innovation CNN for Pose Refinement ( http://arxiv.org/abs/2101.08895v1 )

ライセンス: Link先を確認
Gerard Kennedy, Zheyu Zhuang, Xin Yu, Robert Mahony(参考訳) 単一のRGB画像からのオブジェクトポーズ推定は、可変照明条件と視点変化のために難しい問題である。 最も正確なポーズ推定ネットワークは、既知のテクスチャ化された3Dモデルの再投影によるポーズ改善を実装しているが、観察対象の高品質な3Dモデルなしでは適用できない。 本研究では,テクスチャ化された3Dモデルの再計画の要件を克服するオブジェクトポーズ推定の改良手法であるInnovation CNNを提案する。 提案手法は,確率勾配降下(SGD)フレームワークにおいて,Innovation CNNを反復的に適用することにより,初期ポーズ推定を段階的に改善する。 本手法は,人気のLINEMODおよびOcclusion LINEMODデータセット上で評価し,両データセットの最先端性能を得る。

Object pose estimation from a single RGB image is a challenging problem due to variable lighting conditions and viewpoint changes. The most accurate pose estimation networks implement pose refinement via reprojection of a known, textured 3D model, however, such methods cannot be applied without high quality 3D models of the observed objects. In this work we propose an approach, namely an Innovation CNN, to object pose estimation refinement that overcomes the requirement for reprojecting a textured 3D model. Our approach improves initial pose estimation progressively by applying the Innovation CNN iteratively in a stochastic gradient descent (SGD) framework. We evaluate our method on the popular LINEMOD and Occlusion LINEMOD datasets and obtain state-of-the-art performance on both datasets.
翻訳日:2021-03-20 17:26:03 公開日:2021-01-22
# 相互作用する身体部分の注意に基づくヒューマンインタラクション認識フレームワーク

Human Interaction Recognition Framework based on Interacting Body Part Attention ( http://arxiv.org/abs/2101.08967v1 )

ライセンス: Link先を確認
Dong-Gyu Lee, Seong-Whan Lee(参考訳) ビデオにおける人間の行動認識は、広く研究され、近年、深層学習のアプローチによって大きな進歩を遂げてきたが、依然として困難な課題である。 本稿では,対話が活発な局所画像の情報,個人の身体部位の姿勢による原始的な動き,全体的な外観変化の共起といった情報を融合させることにより,人的インタラクションの暗黙的表現と明示的表現を同時に考える新しい枠組みを提案する。 人間の相互作用は、人間の身体部分同士の相互作用の仕方によって変化する。 提案手法は, 相互作用する身体部分の注意力を用いて, 異なる相互作用間の微妙な差を捉える。 他のオブジェクトと相互作用するセマンティックに重要なボディパーツは、特徴表現中により重みが与えられる。 対話体部分の注目に基づく個人表現と、フルボディの外観変化の共起記述器との組み合わせ特徴を長期記憶に入力し、時間経過に伴う時間的ダイナミクスを1つのフレームワークでモデル化する。 提案手法の有効性を検証するために,提案手法の有効性を4つの公開データセットを用いて検証した。

Human activity recognition in videos has been widely studied and has recently gained significant advances with deep learning approaches; however, it remains a challenging task. In this paper, we propose a novel framework that simultaneously considers both implicit and explicit representations of human interactions by fusing information of local image where the interaction actively occurred, primitive motion with the posture of individual subject's body parts, and the co-occurrence of overall appearance change. Human interactions change, depending on how the body parts of each human interact with the other. The proposed method captures the subtle difference between different interactions using interacting body part attention. Semantically important body parts that interact with other objects are given more weight during feature representation. The combined feature of interacting body part attention-based individual representation and the co-occurrence descriptor of the full-body appearance change is fed into long short-term memory to model the temporal dynamics over time in a single framework. We validate the effectiveness of the proposed method using four widely used public datasets by outperforming the competing state-of-the-art method.
翻訳日:2021-03-20 17:25:26 公開日:2021-01-22
# 局所シーン認識参照表現生成に基づく視覚的質問応答

Visual Question Answering based on Local-Scene-Aware Referring Expression Generation ( http://arxiv.org/abs/2101.08978v1 )

ライセンス: Link先を確認
Jung-Jun Kim, Dong-Gyu Lee, Jialin Wu, Hong-Gyu Jung, Seong-Whan Lee(参考訳) 視覚的な質問応答には、画像と自然言語の両方を深く理解する必要がある。 しかし、ほとんどのメソッドは視覚的な概念(例えば様々なオブジェクト間の関係など)に焦点を当てている。 オブジェクトカテゴリとそれらの関係や単純な質問埋め込みの組み合わせは、複雑なシーンを表現し、決定を説明するのに不十分である。 この制限に対処するため,画像に生成するテキスト表現は構造的制約が少なく,よりリッチな画像記述を提供することができるため,その利用を提案する。 生成した式には視覚的特徴と質問埋め込みが組み込まれ、質問関連回答が得られる。 また、3つの異なる情報モダリティをコアテンションでモデル化するマルチヘッドアテンションネットワークを提案する。 提案手法をVQA v2データセット上で定量的に定性的に評価し,回答予測の観点から最先端の手法と比較した。 生成された式の品質は、RefCOCO、RefCOCO+、RefCOCOgデータセットでも評価された。 実験により,提案手法の有効性を実証し,定量的および定性的な結果の両面で競合する手法のすべてを上回る性能を示した。

Visual question answering requires a deep understanding of both images and natural language. However, most methods mainly focus on visual concept; such as the relationships between various objects. The limited use of object categories combined with their relationships or simple question embedding is insufficient for representing complex scenes and explaining decisions. To address this limitation, we propose the use of text expressions generated for images, because such expressions have few structural constraints and can provide richer descriptions of images. The generated expressions can be incorporated with visual features and question embedding to obtain the question-relevant answer. A joint-embedding multi-head attention network is also proposed to model three different information modalities with co-attention. We quantitatively and qualitatively evaluated the proposed method on the VQA v2 dataset and compared it with state-of-the-art methods in terms of answer prediction. The quality of the generated expressions was also evaluated on the RefCOCO, RefCOCO+, and RefCOCOg datasets. Experimental results demonstrate the effectiveness of the proposed method and reveal that it outperformed all of the competing methods in terms of both quantitative and qualitative results.
翻訳日:2021-03-20 17:25:06 公開日:2021-01-22
# 画像マット加工の細粒度向上に向けて

Towards Enhancing Fine-grained Details for Image Matting ( http://arxiv.org/abs/2101.09095v1 )

ライセンス: Link先を確認
Chang Liu, Henghui Ding, Xudong Jiang(参考訳) 近年,高レベルな文脈特徴をモデルに抽出することで,深層自然画像のマット化が急速に進展している。 しかし、現在の方法の多くは、毛髪や毛皮のような細部を扱うのに依然として難しい。 本稿では,これらの微視的詳細の復元は,低レベルだが高精細なテクスチャ特徴に依存すると論じる。 しかしながら、これらの特徴は現在のエンコーダデコーダベースのモデルにおいて非常に初期の段階でダウンサンプリングされ、顕微鏡的詳細が失われる。 この問題に対処するため,細部まで細部を拡大する深部画像マッチングモデルを設計する。 本モデルは,従来のエンコーダデコーダセマンティックパスと,独立したダウンサンプリングフリーなテクスチュラル補償パス(TCP)の2つの並列パスからなる。 TCPは、元の画像サイズにおける線やエッジなどの細かな詳細を抽出し、予測の微妙さを大幅に向上させる。 一方、高レベルのコンテキストの利点を活用するために、意味経路からマルチスケール機能を融合してTCPに注入する機能融合ユニット(FFU)を提案する。 さらに,アノテーションの少ないトリマップがモデルの性能に深刻な影響を与えていることも確認した。 そこで本研究では,新たな損失関数とトリマップ生成手法を提案し,モデルのトリマップに対するロバスト性を改善する。 実験の結果,本手法はコンポジション1kデータセットの先行手法よりも優れていた。

In recent years, deep natural image matting has been rapidly evolved by extracting high-level contextual features into the model. However, most current methods still have difficulties with handling tiny details, like hairs or furs. In this paper, we argue that recovering these microscopic details relies on low-level but high-definition texture features. However, {these features are downsampled in a very early stage in current encoder-decoder-based models, resulting in the loss of microscopic details}. To address this issue, we design a deep image matting model {to enhance fine-grained details. Our model consists of} two parallel paths: a conventional encoder-decoder Semantic Path and an independent downsampling-free Textural Compensate Path (TCP). The TCP is proposed to extract fine-grained details such as lines and edges in the original image size, which greatly enhances the fineness of prediction. Meanwhile, to leverage the benefits of high-level context, we propose a feature fusion unit(FFU) to fuse multi-scale features from the semantic path and inject them into the TCP. In addition, we have observed that poorly annotated trimaps severely affect the performance of the model. Thus we further propose a novel term in loss function and a trimap generation method to improve our model's robustness to the trimaps. The experiments show that our method outperforms previous start-of-the-art methods on the Composition-1k dataset.
翻訳日:2021-03-20 17:24:50 公開日:2021-01-22
# 畳み込みニューラルネットワークによる同一課題の解法

Solving the Same-Different Task with Convolutional Neural Networks ( http://arxiv.org/abs/2101.09129v1 )

ライセンス: Link先を確認
Nicola Messina, Giuseppe Amato, Fabio Carrara, Claudio Gennaro, Fabrizio Falchi(参考訳) 深層学習はコンピュータビジョン文学における様々な現実世界の問題を解く上で大きな能力を示した。 しかし、それらは人間が容易に解決できると考える単純な推論タスクに悩まされている。 本研究では,現在最先端の畳み込みニューラルネットワークを,同種差分問題として知られる困難なタスクの集合上で探索する。 すべての問題は、同じ画像内の2つのランダムな形状が同じかどうかを理解するという、同じ前提条件を正しく解く必要がある。 本研究で実施した実験により, 残差接続, より一般的にはスキップ接続は, 提案した問題の学習に限られた影響しか与えないことを示した。 特に,我々はDenseNetsを実験し,すでにテスト済みアーキテクチャであるResNet-18,CorNet-Sにおける残差および繰り返し接続の寄与について検討した。 実験の結果,古いフィードフォワードネットワークであるAlexNetとVGGは,特定のシナリオを除いて,提案した問題をほとんど学習できないことがわかった。 最近導入されたアーキテクチャは、アーキテクチャの重要な部分が取り除かれても収束できることを示す。 最終的にゼロショットの一般化テストを実施し、これらのシナリオでは、残差と繰り返し接続が全体のテスト精度に強い影響を与えることが判明した。 SVRTデータセットから得られた4つの難解な問題に対して、従来のアプローチに関して最先端の結果に到達し、4つの問題のうち3つについて超人的な性能を得る。

Deep learning demonstrated major abilities in solving many kinds of different real-world problems in computer vision literature. However, they are still strained by simple reasoning tasks that humans consider easy to solve. In this work, we probe current state-of-the-art convolutional neural networks on a difficult set of tasks known as the same-different problems. All the problems require the same prerequisite to be solved correctly: understanding if two random shapes inside the same image are the same or not. With the experiments carried out in this work, we demonstrate that residual connections, and more generally the skip connections, seem to have only a marginal impact on the learning of the proposed problems. In particular, we experiment with DenseNets, and we examine the contribution of residual and recurrent connections in already tested architectures, ResNet-18, and CorNet-S respectively. Our experiments show that older feed-forward networks, AlexNet and VGG, are almost unable to learn the proposed problems, except in some specific scenarios. We show that recently introduced architectures can converge even in the cases where the important parts of their architecture are removed. We finally carry out some zero-shot generalization tests, and we discover that in these scenarios residual and recurrent connections can have a stronger impact on the overall test accuracy. On four difficult problems from the SVRT dataset, we can reach state-of-the-art results with respect to the previous approaches, obtaining super-human performances on three of the four problems.
翻訳日:2021-03-20 17:24:11 公開日:2021-01-22
# 雑音負画像を用いた訓練に基づく高密度外乱検出と開集合認識

Dense outlier detection and open-set recognition based on training with noisy negative images ( http://arxiv.org/abs/2101.09193v1 )

ライセンス: Link先を確認
Petra Bevandi\'c, Ivan Kre\v{s}o, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c(参考訳) 深層畳み込みモデルはしばしば、トレーニング分布と異なる入力に対する不適切な予測を生成する。 その結果,最近,外乱画像の検出に多くの注目が集まっている。 これまでのほとんどの仕事とは異なり、我々は分布の背景の前で異常な物体を見つけるために、密集した予測コンテキストでこの問題に対処した。 我々のアプローチは2つの合理的な仮定に基づいている。 まず、inlierデータセットは、いくつかの狭いアプリケーションフィールド(例えば、-road driving)に関連していると仮定する。 次に、インリエデータセット(例えば~ImageNet-1k)よりもはるかに多様な汎用データセットが存在すると仮定する。 汎用データセットのピクセルは、ほとんど(すべてではない)が異常値であるため、ノイズの多い負のトレーニングサンプルだと考えています。 我々は,不整合トレーニング画像に散らばった負のパッチを貼り付けることで,未知と未知の境界を認識することを奨励する。 実験では,WildDash 1 と Fishyscapes の2つの密集した開集合認識ベンチマークと,密集した開集合認識データセット (StreetHazard) を対象とした。 性能評価は,提案手法の競争力を示す。

Deep convolutional models often produce inadequate predictions for inputs foreign to the training distribution. Consequently, the problem of detecting outlier images has recently been receiving a lot of attention. Unlike most previous work, we address this problem in the dense prediction context in order to be able to locate outlier objects in front of in-distribution background. Our approach is based on two reasonable assumptions. First, we assume that the inlier dataset is related to some narrow application field (e.g.~road driving). Second, we assume that there exists a general-purpose dataset which is much more diverse than the inlier dataset (e.g.~ImageNet-1k). We consider pixels from the general-purpose dataset as noisy negative training samples since most (but not all) of them are outliers. We encourage the model to recognize borders between known and unknown by pasting jittered negative patches over inlier training images. Our experiments target two dense open-set recognition benchmarks (WildDash 1 and Fishyscapes) and one dense open-set recognition dataset (StreetHazard). Extensive performance evaluation indicates competitive potential of the proposed approach.
翻訳日:2021-03-20 17:23:48 公開日:2021-01-22
# 英語母国語・非母国語作家のメール入力と構成行動に及ぼす複数パラレル句提案の影響

The Impact of Multiple Parallel Phrase Suggestions on Email Input and Composition Behaviour of Native and Non-Native English Writers ( http://arxiv.org/abs/2101.09157v1 )

ライセンス: Link先を確認
Daniel Buschek, Martin Z\"urn, Malin Eiband(参考訳) 本稿では,eメールライティングにおける入力とテキスト合成に関するユーザの行動に対するニューラルネットワークモデルからの多語提案の影響について詳細に分析する。 本研究は,近年の文献から生まれた「効率対観念」のトレードオフを探るため,異なる数の並行提案と,ネイティブおよび非ネイティブな英語作家による使用を比較した。 ニューラルネットワークモデル(GPT-2)を用いたテキストエディタのプロトタイプを構築した。 オンライン研究(n=156)では、4つの条件(0/1/3/6並列提案)で電子メールを作成した。 その結果,(1)複数のフレーズを提案する場合のアイデアのメリット,および効率のコスト,(2)非ネイティブ話者がより多くの提案から恩恵を受けること,(3)行動パターンに関するさらなる洞察が得られた。 本稿では,研究の意味,インタラクティブな提案システムの設計,AIによる著者支援のビジョンについて論じる。

We present an in-depth analysis of the impact of multi-word suggestion choices from a neural language model on user behaviour regarding input and text composition in email writing. Our study for the first time compares different numbers of parallel suggestions, and use by native and non-native English writers, to explore a trade-off of "efficiency vs ideation", emerging from recent literature. We built a text editor prototype with a neural language model (GPT-2), refined in a prestudy with 30 people. In an online study (N=156), people composed emails in four conditions (0/1/3/6 parallel suggestions). Our results reveal (1) benefits for ideation, and costs for efficiency, when suggesting multiple phrases; (2) that non-native speakers benefit more from more suggestions; and (3) further insights into behaviour patterns. We discuss implications for research, the design of interactive suggestion systems, and the vision of supporting writers with AI instead of replacing them.
翻訳日:2021-03-20 17:22:39 公開日:2021-01-22
# 生体組織表現トランスフォーマを用いた薬物・疾患解釈学習

Drug and Disease Interpretation Learning with Biomedical Entity Representation Transformer ( http://arxiv.org/abs/2101.09311v1 )

ライセンス: Link先を確認
Zulfat Miftahutdinov, Artur Kadurin, Roman Kudrin, and Elena Tutubalina(参考訳) 自由形式のテキストにおける概念正規化は、すべてのテキストマイニングパイプラインにおいて重要なステップである。 変換器(BERT)からの双方向エンコーダ表現に基づくニューラルアーキテクチャは、バイオメディカル領域において最先端の結果を得た。 創薬・開発の分野では、医薬品の有効性と安全性を確立するために臨床試験が必要である。 ラベル付きデータがないゼロショット設定において,一般バイオメディカル領域から臨床試験領域への概念正規化の移行の有効性を検討した。 本稿では,微調整bertアーキテクチャに基づく,単純かつ効果的な2段階ニューラルアプローチを提案する。 最初の段階では、三重項損失による言及や概念の相対的類似性を最適化する計量学習モデルを訓練する。 このモデルは、概念名のベクトル埋め込みとテキストからの実体参照を得るために、利用可能なラベル付き科学抽象のコーパスに基づいて訓練される。 第2段階では, 埋め込み空間において, 特定の臨床文献に最も近い概念名表現を見いだす。 我々は,抽象のデータセットや,薬物や疾患の用語にマッピングされた介入や条件を伴う実世界の治験記録データセット上で,最先端のアーキテクチャを含むいくつかのモデルを評価した。 科学的文献から臨床試験への知識伝達における我々のアプローチの有効性を検証する。

Concept normalization in free-form texts is a crucial step in every text-mining pipeline. Neural architectures based on Bidirectional Encoder Representations from Transformers (BERT) have achieved state-of-the-art results in the biomedical domain. In the context of drug discovery and development, clinical trials are necessary to establish the efficacy and safety of drugs. We investigate the effectiveness of transferring concept normalization from the general biomedical domain to the clinical trials domain in a zero-shot setting with an absence of labeled data. We propose a simple and effective two-stage neural approach based on fine-tuned BERT architectures. In the first stage, we train a metric learning model that optimizes relative similarity of mentions and concepts via triplet loss. The model is trained on available labeled corpora of scientific abstracts to obtain vector embeddings of concept names and entity mentions from texts. In the second stage, we find the closest concept name representation in an embedding space to a given clinical mention. We evaluated several models, including state-of-the-art architectures, on a dataset of abstracts and a real-world dataset of trial records with interventions and conditions mapped to drug and disease terminologies. Extensive experiments validate the effectiveness of our approach in knowledge transfer from the scientific literature to clinical trials.
翻訳日:2021-03-20 17:22:20 公開日:2021-01-22
# フリンジニュースネットワーク:2020年の大統領選挙後の米国のニュース視聴のダイナミクス

Fringe News Networks: Dynamics of US News Viewership following the 2020 Presidential Election ( http://arxiv.org/abs/2101.10112v1 )

ライセンス: Link先を確認
Ashiqur R. KhudaBukhsh, Rupak Sarkar, Mark S. Kamlet, Tom M. Mitchell(参考訳) 過去数十年間、アメリカの選挙人による政治的偏見は、広く研究され、記録されている。 ドナルド・トランプ米大統領の政権下で、「フェイクニュース」の告発は、ソーシャルメディアやニュースメディアを手段だけでなく、前例のないほど政治的コミュニケーションの話題にした。 2020年11月3日の米大統領選挙以前のデータを用いて、最近の研究は、YouTubeのソーシャルメディアエコシステムを使用して、米国の政治的分極の程度と、この分極と、異なる米国のニュースネットワークによって提供されるコンテンツとコメントの関係に関する洞察を得る可能性を示している。 この動きを背景として、1月6日に米国議会議事堂で起こった米国大統領選挙と暴力の間の64日間における、ニュース消費者と現在の「違法」ニュースメディアチャンネルとの関係の急激な変容を考察する。 本稿は2つの異なるタイプの貢献について述べる。 1つ目は、ソーシャルメディアデータを分析し、社会的政治ニュースネットワークとその視聴者のダイナミクスを研究する新しい手法を導入することである。 2つめは、この不安定な64日間に、米国の政治ソーシャルメディアチャンネルとその視聴者について、実際に何が起こったのかを知ることだ。

The growing political polarization of the American electorate over the last several decades has been widely studied and documented. During the administration of President Donald Trump, charges of "fake news" made social and news media not only the means but, to an unprecedented extent, the topic of political communication. Using data from before the November 3rd, 2020 US Presidential election, recent work has demonstrated the viability of using YouTube's social media ecosystem to obtain insights into the extent of US political polarization as well as the relationship between this polarization and the nature of the content and commentary provided by different US news networks. With that work as background, this paper looks at the sharp transformation of the relationship between news consumers and here-to-fore "fringe" news media channels in the 64 days between the US presidential election and the violence that took place at US Capitol on January 6th. This paper makes two distinct types of contributions. The first is to introduce a novel methodology to analyze large social media data to study the dynamics of social political news networks and their viewers. The second is to provide insights into what actually happened regarding US political social media channels and their viewerships during this volatile 64 day period.
翻訳日:2021-03-20 17:22:04 公開日:2021-01-22
# 対向例発見のための適応型近隣地域

Adaptive Neighbourhoods for the Discovery of Adversarial Examples ( http://arxiv.org/abs/2101.09108v1 )

ライセンス: Link先を確認
Jay Morgan, Adeline Paiement, Arno Pauly, Monika Seisenberger(参考訳) ディープニューラルネットワーク(DNN)は、しばしばパターン認識タスクにおいて最先端の結果を提供する。 しかし、その進歩にもかかわらず、敵対的な例の存在はコミュニティの注目を集めている。 既存の多くの研究は、訓練点付近の固定サイズの領域における敵例を探索する手法を提案している。 我々の研究は、これらの領域のサイズを問題複雑性とデータサンプリング密度に基づいて調整し、既存のアプローチを補完し改善する。 これにより、そのようなアプローチは他の種類のデータに対してより適切になり、誤ったラベルを作成することなく、領域のサイズを拡大して敵の訓練方法を改善することができる。

Deep Neural Networks (DNNs) have often supplied state-of-the-art results in pattern recognition tasks. Despite their advances, however, the existence of adversarial examples have caught the attention of the community. Many existing works have proposed methods for searching for adversarial examples within fixed-sized regions around training points. Our work complements and improves these existing approaches by adapting the size of these regions based on the problem complexity and data sampling density. This makes such approaches more appropriate for other types of data and may further improve adversarial training methods by increasing the region sizes without creating incorrect labels.
翻訳日:2021-03-20 17:21:28 公開日:2021-01-22
# Pareto GAN:GANの表現力を重層分布に拡張する

Pareto GAN: Extending the Representational Power of GANs to Heavy-Tailed Distributions ( http://arxiv.org/abs/2101.09113v1 )

ライセンス: Link先を確認
Todd Huster, Jeremy E.J. Cohen, Zinan Lin, Kevin Chan, Charles Kamhoua, Nandi Leslie, Cho-Yu Jason Chiang, Vyas Sekar(参考訳) generative adversarial network (gans) はしばしば "universal distribution learner" と称されるが、正確には彼らが表現し学習できる分布は、まだ未解決の問題である。 重み付き分布は、金融リスク評価、物理学、疫学など、多くの異なる領域で広く見られる。 我々は,既存のGANアーキテクチャが重み付き分布の漸近的挙動と整合性に乏しいことを観察する。 さらに、無限のモーメントと重尾分布の特徴である外接点の間の大きな距離に直面した場合、共通損失関数は不安定あるいは近ゼロ勾配を生成する。 これらの問題をPareto GANで解決する。 パレートganは、極端な値理論とニューラルネットワークの機能的性質を利用して、特徴の限界分布の漸近的挙動に一致する分布を学習する。 標準損失関数の問題を特定し,安定かつ効率的な学習を可能にする代替距離空間を提案する。 最後に,様々な重み付きデータセットに対する提案手法の評価を行った。

Generative adversarial networks (GANs) are often billed as "universal distribution learners", but precisely what distributions they can represent and learn is still an open question. Heavy-tailed distributions are prevalent in many different domains such as financial risk-assessment, physics, and epidemiology. We observe that existing GAN architectures do a poor job of matching the asymptotic behavior of heavy-tailed distributions, a problem that we show stems from their construction. Additionally, when faced with the infinite moments and large distances between outlier points that are characteristic of heavy-tailed distributions, common loss functions produce unstable or near-zero gradients. We address these problems with the Pareto GAN. A Pareto GAN leverages extreme value theory and the functional properties of neural networks to learn a distribution that matches the asymptotic behavior of the marginal distributions of the features. We identify issues with standard loss functions and propose the use of alternative metric spaces that enable stable and efficient learning. Finally, we evaluate our proposed approach on a variety of heavy-tailed datasets.
翻訳日:2021-03-20 17:21:19 公開日:2021-01-22
# 定理証明のための連続ベクトル表現に関する研究

A Study of Continuous Vector Representationsfor Theorem Proving ( http://arxiv.org/abs/2101.09142v1 )

ライセンス: Link先を確認
Stanis{\l}aw Purga{\l}, Julian Parsert, Cezary Kaliszyk(参考訳) 機械学習を数学的用語や公式に適用するには、AI手法に適した公式の表現が必要である。 本稿では,論理特性を保存し,さらに可逆性を持たせるエンコーディングを開発する。 つまり、すべての記号を含む公式の木の形状は、濃密なベクトル表現から再構成できる。 これは2つのデコーダをトレーニングすることで実現します。1つは木の一番上のシンボルを抽出し、もう1つは部分木の埋め込みベクトルを抽出します。 私たちが予約しようとしている構文的および意味的論理特性には、構造的公式性、自然推論ステップの適用性、さらにユニフィラビリティのようなより複雑な操作が含まれる。 これらの構文的および意味的特性のトレーニングに使用できるデータセットを提案する。 提案したデータセット間での符号化の実現可能性と,Mizar corpusにおける前提選択の実践的定理証明問題について検討した。

Applying machine learning to mathematical terms and formulas requires a suitable representation of formulas that is adequate for AI methods. In this paper, we develop an encoding that allows for logical properties to be preserved and is additionally reversible. This means that the tree shape of a formula including all symbols can be reconstructed from the dense vector representation. We do that by training two decoders: one that extracts the top symbol of the tree and one that extracts embedding vectors of subtrees. The syntactic and semantic logical properties that we aim to reserve include both structural formula properties, applicability of natural deduction steps, and even more complex operations like unifiability. We propose datasets that can be used to train these syntactic and semantic properties. We evaluate the viability of the developed encoding across the proposed datasets as well as for the practical theorem proving problem of premise selection in the Mizar corpus.
翻訳日:2021-03-20 17:21:02 公開日:2021-01-22
# 多次元データの予測モデル学習のためのテンソルトレインネットワーク

Tensor-Train Networks for Learning Predictive Modeling of Multidimensional Data ( http://arxiv.org/abs/2101.09184v1 )

ライセンス: Link先を確認
M. Nazareth da Costa, R. Attux, A. Cichocki, J. M. T. Romano(参考訳) 深層ニューラルネットワークは、その魅力的なデータ駆動フレームワークと、いくつかのパターン認識タスクにおけるそのパフォーマンスのために、機械学習コミュニティの注目を集めている。 一方、ネットワークの内部動作、特定の層の必要性、ハイパーパラメータ選択など、多くのオープンな理論的問題が存在する。 有望な戦略は、物理的および化学的応用において非常に成功したテンソルネットワークに基づいている。 一般に、高階テンソルは疎結合な下階テンソルに分解される。 これは次元の呪いを避け、データテンソルの高度に圧縮された表現を提供する数値的に信頼性の高い方法であり、近似の所望の精度を制御できる優れた数値特性を提供する。 テンソルとニューラルネットワークを比較するために,まずテンソルトレインを用いた古典的多層パーセプトロンの同定を検討する。 また、マッキーグラスの騒がしいカオス時系列とnasdaq指数の予測の文脈で比較分析を行った。 ニューラルネットワークの精度を維持する強力なコンパクト表現を実現するために, テンソルネットワークを用いて多次元回帰モデルの重みを学習できることが示されている。 さらに,tt-形式の重みを計算量の減少とともに近似するために,交互最小二乗法に基づくアルゴリズムが提案されている。 直接表現を用いて, 一般回帰モデルの従来の解としてコア推定を近似し, テンソル構造の適用性を異なるアルゴリズムに適用可能とした。

Deep neural networks have attracted the attention of the machine learning community because of their appealing data-driven framework and of their performance in several pattern recognition tasks. On the other hand, there are many open theoretical problems regarding the internal operation of the network, the necessity of certain layers, hyperparameter selection etc. A promising strategy is based on tensor networks, which have been very successful in physical and chemical applications. In general, higher-order tensors are decomposed into sparsely interconnected lower-order tensors. This is a numerically reliable way to avoid the curse of dimensionality and to provide highly compressed representation of a data tensor, besides the good numerical properties that allow to control the desired accuracy of approximation. In order to compare tensor and neural networks, we first consider the identification of the classical Multilayer Perceptron using Tensor-Train. A comparative analysis is also carried out in the context of prediction of the Mackey-Glass noisy chaotic time series and NASDAQ index. We have shown that the weights of a multidimensional regression model can be learned by means of tensor networks with the aim of performing a powerful compact representation retaining the accuracy of neural networks. Furthermore, an algorithm based on alternating least squares has been proposed for approximating the weights in TT-format with a reduction of computational calculus. By means of a direct expression, we have approximated the core estimation as the conventional solution for a general regression model, which allows to extend the applicability of tensor structures to different algorithms.
翻訳日:2021-03-20 17:20:50 公開日:2021-01-22
# Chemistry42:デノボ分子設計のためのAIベースのプラットフォーム

Chemistry42: An AI-based platform for de novo molecular design ( http://arxiv.org/abs/2101.09050v1 )

ライセンス: Link先を確認
Yan A. Ivanenkov, Alex Zhebrak, Dmitry Bezrukov, Bogdan Zagribelnyy, Vladimir Aladinskiy, Daniil Polykovskiy, Evgeny Putin, Petrina Kamya, Alexander Aliper, Alex Zhavoronkov(参考訳) Chemistry42は、人工知能(AI)技術と計算および医学的な化学手法を統合する、デノボ小分子設計のためのソフトウェアプラットフォームである。 ケミカル42は、in vitroおよびin vivo研究によって事前に定義された性質を持つ新規な分子構造を生成する能力に特有である。 化学42は、Insilico Medicine Pharma.aiドラッグ発見スイートの中核的なコンポーネントであり、ターゲット発見とマルチオミクスデータ分析(PandaOmics)、臨床試験結果予測(InClinico)も含む。

Chemistry42 is a software platform for de novo small molecule design that integrates Artificial Intelligence (AI) techniques with computational and medicinal chemistry methods. Chemistry42 is unique in its ability to generate novel molecular structures with predefined properties validated through in vitro and in vivo studies. Chemistry42 is a core component of Insilico Medicine Pharma.ai drug discovery suite that also includes target discovery and multi-omics data analysis (PandaOmics) and clinical trial outcomes predictions (InClinico).
翻訳日:2021-03-20 17:20:15 公開日:2021-01-22
# ネットワークレジリエンスのためのコスト損失効率ソリューションとしてのaiによるvnfマイグレーション

AI-Empowered VNF Migration as a Cost-Loss-Effective Solution for Network Resilience ( http://arxiv.org/abs/2101.09343v1 )

ライセンス: Link先を確認
Amina Lejla Ibrahimpasic, Bin Han, and Hans D. Schotten(参考訳) 第5世代(5G)モバイルネットワークにおけるMulti-Access Edge Computing(MEC)の広範な展開により、仮想ネットワーク機能(VNF)は、異なるロケーション間で柔軟に移行することが可能となり、ネットワーク機能停止によるサービス品質(QoS)の低下に対処するネットワークレジリエンスが大幅に向上する。 VNFマイグレーションによる損失と、それによって発生する運用コストとの間には、バランスを慎重に取らなければならない。 これを現実的なユーザ動作で現実的なシナリオで実現するために、コストとユーザモビリティの両方のモデルが必要です。 本稿では,機能停止に伴う運用コストと潜在的な損失の総和を最小化し,複雑な現実的なユーザモビリティパターンを扱うことのできる,ステートフルなVNFの合理的マイグレーションのための,新しいコストモデルとAIを活用したアプローチを提案する。

With a wide deployment of Multi-Access Edge Computing (MEC) in the Fifth Generation (5G) mobile networks, virtual network functions (VNF) can be flexibly migrated between difference locations, and therewith significantly enhances the network resilience to counter the degradation in quality of service (QoS) due to network function outages. A balance has to be taken carefully, between the loss reduced by VNF migration and the operations cost generated thereby. To achieve this in practical scenarios with realistic user behavior, it calls for models of both cost and user mobility. This paper proposes a novel cost model and a AI-empowered approach for a rational migration of stateful VNFs, which minimizes the sum of operations cost and potential loss caused by outages, and is capable to deal with the complex realistic user mobility patterns.
翻訳日:2021-03-20 17:19:35 公開日:2021-01-22
# 電子健康記録を用いた人工知能時代の健康の社会的決定要因:体系的レビュー

Social determinants of health in the era of artificial intelligence with electronic health records: A systematic review ( http://arxiv.org/abs/2102.04216v1 )

ライセンス: Link先を確認
Anusha Bompelli, Yanshan Wang, Ruyuan Wan, Esha Singh, Yuqi Zhou, Lin Xu, David Oniani, Bhavani Singh Agnikula Kshatriya, Joyce (Joy) E. Balls-Berry, and Rui Zhang(参考訳) 健康の社会的決定因子(SDOH)が様々な健康結果に重要な役割を果たすことを示す証拠が増えている。 人工知能(AI)の時代には、電子健康記録(EHR)が観察研究に広く用いられてきた。 しかし、EHRからSDOH情報を最大限に活用する方法はまだ研究されていない。 本稿では、最近発表された論文を体系的にレビューし、EHRデータにおけるSDOH情報を用いたAI手法の方法論的レビューを行った。 2010年から2020年にかけて、文献から合計1250の論文が抽出され、74の論文が要約と全文スクリーニングの後にこのレビューに含まれた。 我々は,これらの論文を,出版年,会場,国など,一般的な特徴の観点から要約した。 ) SDOHタイプ, 疾患領域, 研究成果, EHRからSDOHを抽出するAIメソッド, 医療結果にSDOHを用いたAIメソッド。 最後に,EHRからSDOHを使用する際の現在の傾向,課題,今後の方向性について論じる。

There is growing evidence showing the significant role of social determinant of health (SDOH) on a wide variety of health outcomes. In the era of artificial intelligence (AI), electronic health records (EHRs) have been widely used to conduct observational studies. However, how to make the best of SDOH information from EHRs is yet to be studied. In this paper, we systematically reviewed recently published papers and provided a methodology review of AI methods using the SDOH information in EHR data. A total of 1250 articles were retrieved from the literature between 2010 and 2020, and 74 papers were included in this review after abstract and full-text screening. We summarized these papers in terms of general characteristics (including publication years, venues, countries etc.), SDOH types, disease areas, study outcomes, AI methods to extract SDOH from EHRs and AI methods using SDOH for healthcare outcomes. Finally, we conclude this paper with discussion on the current trends, challenges, and future directions on using SDOH from EHRs.
翻訳日:2021-03-20 17:19:18 公開日:2021-01-22
# エネルギー効率の良い音声認識のための爆発的ビーム探索信頼度

Exploiting Beam Search Confidence for Energy-Efficient Speech Recognition ( http://arxiv.org/abs/2101.09083v1 )

ライセンス: Link先を確認
Dennis Pinto, Jose-Mar\'ia Arnau, Antonio Gonz\'alez(参考訳) コンピュータが日々の生活にますます強力で統合されていくにつれて、焦点はますます人間フレンドリーなインターフェースへとシフトし、自動音声認識(ASR)が機械との対話の理想的な手段となる。 その結果、ここ数年で音声技術への関心が高まり、より多くのシステムが提案され、より高い精度が達成され、さらには \textit{human accuracy} を超えている。 ASRシステムはますます強力になるが、計算の複雑さも増大し、ハードウェアサポートはペースを維持する必要がある。 本稿では,エッジデバイス用低消費電力ハードウェアに着目し,ASRシステムのエネルギー効率と性能を向上させる手法を提案する。 我々は,dnnに基づく音響モデル評価の最適化に重点を置いており,ビームサーチからの実行時間情報を活用することで,最先端asrシステムにおける主要なボトルネックであると考えられる。 これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%削減し、25.9%削減する。

With computers getting more and more powerful and integrated in our daily lives, the focus is increasingly shifting towards more human-friendly interfaces, making Automatic Speech Recognition (ASR) a central player as the ideal means of interaction with machines. Consequently, interest in speech technology has grown in the last few years, with more systems being proposed and higher accuracy levels being achieved, even surpassing \textit{Human Accuracy}. While ASR systems become increasingly powerful, the computational complexity also increases, and the hardware support have to keep pace. In this paper, we propose a technique to improve the energy-efficiency and performance of ASR systems, focusing on low-power hardware for edge devices. We focus on optimizing the DNN-based Acoustic Model evaluation, as we have observed it to be the main bottleneck in state-of-the-art ASR systems, by leveraging run-time information from the Beam Search. By doing so, we reduce energy and execution time of the acoustic model evaluation by 25.6% and 25.9%, respectively, with negligible accuracy loss.
翻訳日:2021-03-20 17:19:05 公開日:2021-01-22
# ワッサーシュタイン計量を用いた実数直線上の分布データの投影統計法

Projected Statistical Methods for Distributional Data on the Real Line with the Wasserstein Metric ( http://arxiv.org/abs/2101.09039v1 )

ライセンス: Link先を確認
Matteo Pegoraro and Mario Beraha(参考訳) 実数直線上の確率分布のデータセットを2-ワッサーシュタイン計量を用いて統計的に解析する新しい手法のクラスを提案する。 特に、主成分分析(PCA)と回帰に注目します。 これらのモデルを定義するために、ワッサーシュタイン空間の弱リーマン構造と密接に関連する表現を利用して、データを適当な線型空間にマッピングし、計量射影作用素を用いてワッサーシュタイン空間の結果を制約する。 接点を慎重に選択することで、制約付きB-スプライン近似を利用して高速な経験的手法を導出することができる。 提案手法の副産物として,配電用PCAにおける以前の作業よりも高速なルーチンを導出することができる。 シミュレーション研究により,提案手法との比較を行い,予測PCAは計算コストのごく一部で類似した性能を示し,予測回帰は不特定条件下でも極めて柔軟であることを示した。 モデルのいくつかの理論的特性が研究され、漸近的一貫性が証明された。 米国におけるCovid-19死亡率と風速予測の2つの現実的応用について論じる。

We present a novel class of projected methods, to perform statistical analysis on a data set of probability distributions on the real line, with the 2-Wasserstein metric. We focus in particular on Principal Component Analysis (PCA) and regression. To define these models, we exploit a representation of the Wasserstein space closely related to its weak Riemannian structure, by mapping the data to a suitable linear space and using a metric projection operator to constrain the results in the Wasserstein space. By carefully choosing the tangent point, we are able to derive fast empirical methods, exploiting a constrained B-spline approximation. As a byproduct of our approach, we are also able to derive faster routines for previous work on PCA for distributions. By means of simulation studies, we compare our approaches to previously proposed methods, showing that our projected PCA has similar performance for a fraction of the computational cost and that the projected regression is extremely flexible even under misspecification. Several theoretical properties of the models are investigated and asymptotic consistency is proven. Two real world applications to Covid-19 mortality in the US and wind speed forecasting are discussed.
翻訳日:2021-03-20 17:18:47 公開日:2021-01-22
# 3次元光学顕微鏡画像からの補助骨格損失を用いたグラフベースグローバル推論を用いた単一ニューロン分割

Single Neuron Segmentation using Graph-based Global Reasoning with Auxiliary Skeleton Loss from 3D Optical Microscope Images ( http://arxiv.org/abs/2101.08910v1 )

ライセンス: Link先を確認
Heng Wang, Yang Song, Chaoyi Zhang, Jianhui Yu, Siqi Liu, Hanchuan Peng, Weidong Cai(参考訳) 3次元(3D)光学顕微鏡画像から正確な単一ニューロン再構成を改善する重要なステップの1つは、神経構造セグメンテーションである。 しかし、品質の欠如のため、セグメント化が常に難しい。 畳み込みニューラルネットワーク(convolutional neural networks, cnns)をこのタスクに適用しようという試みは相変わらず行われたが、ノイズと断線ギャップは、グラフのような管状神経構造の非局所的な特徴を無視することの軽減に依然として困難である。 そこで我々は,局所的な外観とグローバルな幾何学的特徴をグラフ推論と骨格に基づく補助的損失を通じて共同で考慮し,エンドツーエンドのセグメンテーションネットワークを提案する。 The evaluation results on the Janelia dataset from the BigNeuron project showed that our proposed method is over the other algorithm in performance。

One of the critical steps in improving accurate single neuron reconstruction from three-dimensional (3D) optical microscope images is the neuronal structure segmentation. However, they are always hard to segment due to the lack in quality. Despite a series of attempts to apply convolutional neural networks (CNNs) on this task, noise and disconnected gaps are still challenging to alleviate with the neglect of the non-local features of graph-like tubular neural structures. Hence, we present an end-to-end segmentation network by jointly considering the local appearance and the global geometry traits through graph reasoning and a skeleton-based auxiliary loss. The evaluation results on the Janelia dataset from the BigNeuron project demonstrate that our proposed method exceeds the counterpart algorithms in performance.
翻訳日:2021-03-20 17:18:29 公開日:2021-01-22
# AS-Net:スパースデータからの多機能融合による高速光音響再構成

AS-Net: Fast Photoacoustic Reconstruction with Multi-feature Fusion from Sparse Data ( http://arxiv.org/abs/2101.08934v1 )

ライセンス: Link先を確認
Mengjie Guo, Hengrong Lan, Changchun Yang, and Fei Gao(参考訳) 光音響イメージング(英語: photoacoustic imaging)は、従来の光学イメージング技術よりもはるかに大きな深さで光吸収の高コントラスト画像を取得することができる生体医用イメージングモードである。 しかし、実用的な計測と幾何学は、撮像対象を取り囲む利用可能な音響センサの数を制限し、センサデータのスパース性が低下する。 従来のpa画像再構成手法は、これらのスパースデータに直接適用した場合に深刻なアーティファクトを与える。 本稿では,まず,スパースPA生データをニューラルネットワークに適合させ,画像再構成を同時に高速化する新しい信号処理手法を提案する。 次に,多機能融合を用いたpa再構成のための注意ステアリングネットワーク(as-net)を提案する。 AS-Netは、基底血管ファントムからの光音響データや、生体内魚とマウスのイメージング実験の実際のデータなど、さまざまなデータセットで検証されている。 特に、この方法は、生体データのために地中に存在するいくつかのアーティファクトを除去できる。 その結果,提案手法はより高速に再現できることを示した。

Photoacoustic (PA) imaging is a biomedical imaging modality capable of acquiring high contrast images of optical absorption at depths much greater than traditional optical imaging techniques. However, practical instrumentation and geometry limit the number of available acoustic sensors surrounding the imaging target, which results in sparsity of sensor data. Conventional PA image reconstruction methods give severe artifacts when they are applied directly to these sparse data. In this paper, we first employ a novel signal processing method to make sparse PA raw data more suitable for the neural network, and concurrently speeding up image reconstruction. Then we propose Attention Steered Network (AS-Net) for PA reconstruction with multi-feature fusion. AS-Net is validated on different datasets, including simulated photoacoustic data from fundus vasculature phantoms and real data from in vivo fish and mice imaging experiments. Notably, the method is also able to eliminate some artifacts present in the ground-truth for in vivo data. Results demonstrated that our method provides superior reconstructions at a faster speed.
翻訳日:2021-03-20 17:18:14 公開日:2021-01-22
# 3次元u-netによる添加物製造欠陥の自動分割

Automatic Volumetric Segmentation of Additive Manufacturing Defects with 3D U-Net ( http://arxiv.org/abs/2101.08993v1 )

ライセンス: Link先を確認
Vivian Wen Hui Wong, Max Ferguson, Kincho H. Law, Yung-Tsun Tina Lee, Paul Witherell(参考訳) X-ray Computed Tomography (XCT) 画像における添加性製造 (AM) 欠陥の分離は, コントラストの低さ, 小型化, 外観の変動により困難である。 しかし、自動セグメンテーションは添加物製造のための品質管理を提供することができる。 近年,3次元畳み込みニューラルネットワーク(3d cnn)が医療画像のボリュームセグメンテーションにおいて良好に機能している。 本研究では,医用画像領域の技法を活用し,AMサンプルのXCT画像の欠陥を自動的に識別する3次元U-Netモデルを提案する。 この研究は、AM欠陥検出のための機械学習の使用に寄与するだけでなく、AMにおける3次元ボリュームセグメンテーションを初めて示す。 AMデータセット上で、3D U-Netの3つの変種をトレーニングし、テストし、平均的結合(IOU)値88.4%を達成する。

Segmentation of additive manufacturing (AM) defects in X-ray Computed Tomography (XCT) images is challenging, due to the poor contrast, small sizes and variation in appearance of defects. Automatic segmentation can, however, provide quality control for additive manufacturing. Over recent years, three-dimensional convolutional neural networks (3D CNNs) have performed well in the volumetric segmentation of medical images. In this work, we leverage techniques from the medical imaging domain and propose training a 3D U-Net model to automatically segment defects in XCT images of AM samples. This work not only contributes to the use of machine learning for AM defect detection but also demonstrates for the first time 3D volumetric segmentation in AM. We train and test with three variants of the 3D U-Net on an AM dataset, achieving a mean intersection of union (IOU) value of 88.4%.
翻訳日:2021-03-20 17:17:58 公開日:2021-01-22
# 超音波画像のリアルタイムDenoisingのためのユニバーサルディープラーニングフレームワーク

A Universal Deep Learning Framework for Real-Time Denoising of Ultrasound Images ( http://arxiv.org/abs/2101.09122v1 )

ライセンス: Link先を確認
Simone Cammarasana, Paolo Nicolardi, Giuseppe Patan\`e(参考訳) 超音波画像は, 筋骨格疾患, 心臓疾患, 産科疾患の診断において, 取得法の有効性と非侵襲性から広く用いられている。 しかし、超音波の取得は信号のスペックルノイズを導入し、その結果の画像が劣化し、さらなる処理操作に影響を及ぼし、医療専門家が患者の病気を推定するために行う視覚的分析が引き起こされる。 我々の主な目的は、超音波画像のリアルタイムdenoisingのための普遍的なディープラーニングフレームワークを定義することである。 超音波画像の平滑化(スペクトル,低ランク,深層学習など)に関する最先端の手法を解析・比較し,精度,解剖学的特徴の保存,計算コストの観点から最適な手法を選択する。 そこで,本研究では,画像の品質向上と超音波画像への適用性向上のために,選択した最先端デノナイズ手法(WNNMなど)のチューニング版を提案する。 超音波画像の大規模データセットをアプリケーションや産業的要求に対して処理するために,ディープラーニングとHPCツールを活用するデノナイジングフレームワークを導入し,リアルタイムに最先端のデノナイジング手法の結果を再現する。

Ultrasound images are widespread in medical diagnosis for muscle-skeletal, cardiac, and obstetrical diseases, due to the efficiency and non-invasiveness of the acquisition methodology. However, ultrasound acquisition introduces a speckle noise in the signal, that corrupts the resulting image and affects further processing operations, and the visual analysis that medical experts conduct to estimate patient diseases. Our main goal is to define a universal deep learning framework for real-time denoising of ultrasound images. We analyse and compare state-of-the-art methods for the smoothing of ultrasound images (e.g., spectral, low-rank, and deep learning denoising algorithms), in order to select the best one in terms of accuracy, preservation of anatomical features, and computational cost. Then, we propose a tuned version of the selected state-of-the-art denoising methods (e.g., WNNM), to improve the quality of the denoised images, and extend its applicability to ultrasound images. To handle large data sets of ultrasound images with respect to applications and industrial requirements, we introduce a denoising framework that exploits deep learning and HPC tools, and allows us to replicate the results of state-of-the-art denoising methods in a real-time execution.
翻訳日:2021-03-20 17:17:43 公開日:2021-01-22
# モバイルユーザインタフェースにおけるビジュアル・サリエンシの理解

Understanding Visual Saliency in Mobile User Interfaces ( http://arxiv.org/abs/2101.09176v1 )

ライセンス: Link先を確認
Luis A. Leiva, Yunfei Xue, Avya Bansal, Hamed R. Tavakoli, Tu\u{g}\c{c}e K\"oro\u{g}lu, Niraj R. Dayama, Antti Oulasvirta(参考訳) グラフィカルユーザインタフェース(ui)設計では、視覚的な注意を引き付けるものを理解することが重要である。 saliencyはこれまでデスクトップとwebベースのuiにフォーカスしてきたが、モバイルアプリのuiはいくつかの点で異なる。 被験者30名,モバイルUI193名を対象に対照研究を行った。 結果は、ユーザが見る方向を導く上で、期待する役割を物語っている。 ディスプレイの左上隅、テキスト、画像への強い偏りは明らかであったが、色やサイズといったボトムアップ機能は塩分濃度に影響を及ぼさなかった。 古典的でパラメータフリーのサリエンシモデルはデータに適合せず、データ駆動モデルはデータセットに特化してトレーニングすると大幅に改善された(例えば、NASは0.66から0.84に増加した)。 また、モバイルUIの視覚的正当性を調べるための最初の注釈付きデータセットもリリースしました。

For graphical user interface (UI) design, it is important to understand what attracts visual attention. While previous work on saliency has focused on desktop and web-based UIs, mobile app UIs differ from these in several respects. We present findings from a controlled study with 30 participants and 193 mobile UIs. The results speak to a role of expectations in guiding where users look at. Strong bias toward the top-left corner of the display, text, and images was evident, while bottom-up features such as color or size affected saliency less. Classic, parameter-free saliency models showed a weak fit with the data, and data-driven models improved significantly when trained specifically on this dataset (e.g., NSS rose from 0.66 to 0.84). We also release the first annotated dataset for investigating visual saliency in mobile UIs.
翻訳日:2021-03-20 17:17:23 公開日:2021-01-22
# 線引き知覚におけるエッジの役割

The Role of Edges in Line Drawing Perception ( http://arxiv.org/abs/2101.09376v1 )

ライセンス: Link先を確認
Aaron Hertzmann(参考訳) 線描の有効性は、エッジ画像と線描との類似性によって説明できるとしばしば推測されている。 本稿では,辺の観点で線引き知覚を説明する際のいくつかの問題と,ヘルツマン(2020)の最近提唱されたリアリズム仮説が,これらの問題をいかに解決するかを示す。 それにもかかわらず、エッジはしばしば人々が線を描く場所を予測するのに最適な特徴である、という証拠は存在する。

It has often been conjectured that the effectiveness of line drawings can be explained by the similarity of edge images to line drawings. This paper presents several problems with explaining line drawing perception in terms of edges, and how the recently-proposed Realism Hypothesis of Hertzmann (2020) resolves these problems. There is nonetheless existing evidence that edges are often the best features for predicting where people draw lines; this paper describes how the Realism Hypothesis can explain this evidence.
翻訳日:2021-03-20 17:17:09 公開日:2021-01-22
# HANA: オフライン手書き文字認識のためのHand written NAme Database

HANA: A HAndwritten NAme Database for Offline Handwritten Text Recognition ( http://arxiv.org/abs/2101.10862v1 )

ライセンス: Link先を確認
Christian M. Dahl, Torben Johansen, Emil N. S{\o}rensen, Simon Wittrock(参考訳) 個人を歴史的データセットにリンクする方法は、典型的にはAIベースの転写モデルと組み合わせて、急速に発展している。 おそらくリンクする上で最も重要な識別子は、個人名である。 しかし、個人名は列挙や書き起こしの誤りが多いため、現代のリンク手法はそのような問題に対処するために設計されているが、これらのエラー源は重要であり、最小化されるべきである。 この目的のために、改良された転写法と大規模データベースが重要なコンポーネントである。 本論文は,手書きの単語群の111万以上の画像からなる,新たに構築された大規模データベースhanaについて記述し,その資料を提供する。 データベースは1万5千以上の個人名と合計330万以上のサンプルを含む個人名を集めたデータベースである。 さらに,スキャンされた文書から個人名を自動的に書き起こせるディープラーニングモデルのベンチマーク結果も提示する。 主に個人名に焦点をあてることで、より高度で正確で堅牢な手書き文字認識モデルを育成し、より挑戦的な大規模データベースを公開したいと思っています。 本稿では,手書きの個人名や手書きのテキストを形式から抽出するためのデータソース,収集プロセス,画像処理手順および手法について述べる。

Methods for linking individuals across historical data sets, typically in combination with AI based transcription models, are developing rapidly. Probably the single most important identifier for linking is personal names. However, personal names are prone to enumeration and transcription errors and although modern linking methods are designed to handle such challenges these sources of errors are critical and should be minimized. For this purpose, improved transcription methods and large-scale databases are crucial components. This paper describes and provides documentation for HANA, a newly constructed large-scale database which consists of more than 1.1 million images of handwritten word-groups. The database is a collection of personal names, containing more than 105 thousand unique names with a total of more than 3.3 million examples. In addition, we present benchmark results for deep learning models that automatically can transcribe the personal names from the scanned documents. Focusing mainly on personal names, due to its vital role in linking, we hope to foster more sophisticated, accurate, and robust models for handwritten text recognition through making more challenging large-scale databases publicly available. This paper describes the data source, the collection process, and the image-processing procedures and methods that are involved in extracting the handwritten personal names and handwritten text in general from the forms.
翻訳日:2021-03-20 17:17:01 公開日:2021-01-22
# 情報ゲインの最大化による$\alpha$-Rankの推定

Estimating $\alpha$-Rank by Maximizing Information Gain ( http://arxiv.org/abs/2101.09178v1 )

ライセンス: Link先を確認
Tabish Rashid, Cheng Zhang, Kamil Ciosek(参考訳) ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。 例えば、マルチエージェント評価で生じるメタゲームは、複数のエージェントの同時デプロイを含む高価な実験を連続して実行することでのみアクセスすることができる。 本稿では,このようなシナリオでよく動作するように設計されたゲーム理論のコンセプトである$\alpha$-rankに着目した。 できるだけ少数のサンプルを用いて,ゲームの$\alpha$-rankを推定することを目指している。 本アルゴリズムは,$\alpha$-ranks に対する認識論的信念と観察されたペイオフとの間の情報ゲインを最大化する。 このアプローチには2つの大きなメリットがあります。 まず、$\alpha$-rankを識別する上で最も重要なエントリにサンプリングを集中させることができます。 第二に、ベイズの定式化は、事前のゲームペイオフを使用して、モデリングの仮定を構築するための施設を提供する。 本稿では,ResponseGraphUCB (Rowland et al) の信頼区間基準と比較し,情報ゲインの利点を示す。 提案手法を正当化する理論的結果を提供する。

Game theory has been increasingly applied in settings where the game is not known outright, but has to be estimated by sampling. For example, meta-games that arise in multi-agent evaluation can only be accessed by running a succession of expensive experiments that may involve simultaneous deployment of several agents. In this paper, we focus on $\alpha$-rank, a popular game-theoretic solution concept designed to perform well in such scenarios. We aim to estimate the $\alpha$-rank of the game using as few samples as possible. Our algorithm maximizes information gain between an epistemic belief over the $\alpha$-ranks and the observed payoff. This approach has two main benefits. First, it allows us to focus our sampling on the entries that matter the most for identifying the $\alpha$-rank. Second, the Bayesian formulation provides a facility to build in modeling assumptions by using a prior over game payoffs. We show the benefits of using information gain as compared to the confidence interval criterion of ResponseGraphUCB (Rowland et al. 2019), and provide theoretical results justifying our method.
翻訳日:2021-03-20 17:16:23 公開日:2021-01-22
# i-Algebra: ディープニューラルネットワークの対話的解釈可能性を目指して

i-Algebra: Towards Interactive Interpretability of Deep Neural Networks ( http://arxiv.org/abs/2101.09301v1 )

ライセンス: Link先を確認
Xinyang Zhang, Ren Pang, Shouling Ji, Fenglong Ma, Ting Wang(参考訳) 深層ニューラルネットワーク(DNN)の説明を提供することは、決定の解釈可能性が重要な前提条件であるドメインでの使用に不可欠である。 DNNの解釈に関する多くの取り組みにもかかわらず、既存のソリューションの多くは、エンドユーザーの認識、理解、応答を考慮せずに、アドホック、ワンショット、静的な方法での解釈可能性を提供しており、実際のユーザビリティは低下している。 本稿では,ユーザとモデル間のインタラクションとして,DNNの解釈可能性を実装するべきである。 DNNを解釈するための対話型フレームワークi-Algebraを提案する。 中心となるのは原子的で構成可能な作用素のライブラリであり、様々な入力粒度、異なる推論段階、異なる解釈の観点からモデル挙動を説明する。 宣言型クエリ言語を利用することで、ユーザーは様々な分析ツール(例えば、"drill-down", "comparative", "what-if" analysis)を柔軟に構成することで構築することができる。 我々はi-algebraのプロトタイプを作成し,そのユーザビリティを実証するために,敵の入力の検査,モデル不整合の解消,汚染データのクリーン化など,一連の代表的分析タスクにおいてユーザ研究を行う。

Providing explanations for deep neural networks (DNNs) is essential for their use in domains wherein the interpretability of decisions is a critical prerequisite. Despite the plethora of work on interpreting DNNs, most existing solutions offer interpretability in an ad hoc, one-shot, and static manner, without accounting for the perception, understanding, or response of end-users, resulting in their poor usability in practice. In this paper, we argue that DNN interpretability should be implemented as the interactions between users and models. We present i-Algebra, a first-of-its-kind interactive framework for interpreting DNNs. At its core is a library of atomic, composable operators, which explain model behaviors at varying input granularity, during different inference stages, and from distinct interpretation perspectives. Leveraging a declarative query language, users are enabled to build various analysis tools (e.g., "drill-down", "comparative", "what-if" analysis) via flexibly composing such operators. We prototype i-Algebra and conduct user studies in a set of representative analysis tasks, including inspecting adversarial inputs, resolving model inconsistency, and cleansing contaminated data, all demonstrating its promising usability.
翻訳日:2021-03-20 17:16:07 公開日:2021-01-22
# ReLUニューラルネットワークのロバスト性証明のための分割型凸緩和法

Partition-Based Convex Relaxations for Certifying the Robustness of ReLU Neural Networks ( http://arxiv.org/abs/2101.09306v1 )

ライセンス: Link先を確認
Brendon G. Anderson, Ziye Ma, Jingqi Li, Somayeh Sojoudi(参考訳) 本稿では,ReLUニューラルネットワークの逆入力摂動に対する堅牢性を検証する。 一般の線形プログラミング (LP) と半定値プログラミング (SDP) の認証手法が抱える緩和誤差を低減させるため,入力の不確実性セットの分割と各部分での緩和の解法を提案する。 この手法はリラクゼーションエラーを低減し、lpリラクゼーションをインテリジェントに設計されたパーティションで実行するとエラーが完全に排除されることを示す。 このアプローチを大規模ネットワークに拡張するために、このモチベーション・パーティションと同じ形態のスケジューラパーティションを考える。 LP緩和誤差を直接最小化する分割計算がNPハードであることを証明する。 最悪ケースのLP緩和誤差を最小化する代わりに、閉形式最適2部分割を用いた計算可能スキームを開発する。 解析をSDPに拡張し、実現可能な集合形状を利用して、最悪のSDP緩和誤差を最小限に抑える2部分割を設計する。 IRIS分類器の実験では緩和誤差が大幅に減少し、パーティショニングなしで無効な証明書が提供される。 入力サイズと層数を独立に増加させることで、分割されたLPとSDPがどの状態に最も適しているかを実証的に示す。

In this paper, we study certifying the robustness of ReLU neural networks against adversarial input perturbations. To diminish the relaxation error suffered by the popular linear programming (LP) and semidefinite programming (SDP) certification methods, we propose partitioning the input uncertainty set and solving the relaxations on each part separately. We show that this approach reduces relaxation error, and that the error is eliminated entirely upon performing an LP relaxation with an intelligently designed partition. To scale this approach to large networks, we consider courser partitions that take the same form as this motivating partition. We prove that computing such a partition that directly minimizes the LP relaxation error is NP-hard. By instead minimizing the worst-case LP relaxation error, we develop a computationally tractable scheme with a closed-form optimal two-part partition. We extend the analysis to the SDP, where the feasible set geometry is exploited to design a two-part partition that minimizes the worst-case SDP relaxation error. Experiments on IRIS classifiers demonstrate significant reduction in relaxation error, offering certificates that are otherwise void without partitioning. By independently increasing the input size and the number of layers, we empirically illustrate under which regimes the partitioned LP and SDP are best applied.
翻訳日:2021-03-20 17:15:45 公開日:2021-01-22
# スパースドメインにおけるブラックボックス対応例の生成

Generating Black-Box Adversarial Examples in Sparse Domain ( http://arxiv.org/abs/2101.09324v1 )

ライセンス: Link先を確認
Hadi Zanddizari and J. Morris Chang(参考訳) 機械学習(ML)モデルと畳み込みニューラルネットワーク(CNN)の応用は急速に増加している。 MLモデルは、多くのアプリケーションにおいて高い精度を提供するが、最近の調査では、このようなネットワークは敵の攻撃に対して非常に脆弱であることが示されている。 ブラックボックスの敵攻撃は、攻撃者がモデルやトレーニングデータセットについて何も知らない攻撃の一種である。 本稿では,画像の最も重要な情報を観察できる一方,スパース領域におけるブラックボックス攻撃を発生させる新しい手法を提案する。 本研究では,画像分類器の性能において大きなスパース成分が重要な役割を担っていることを示す。 この仮定の下で、逆の例を生成するために、イメージをスパースドメインに転送し、しきい値を設定して最大成分kだけを選択する。 ランダムに摂動する k 個の低周波成分(LoF)とは対照的に、我々は k 個の最大のスパース成分(LaS)をランダムに(クエリベース)または異なるクラスの最も相関したスパース信号の方向に摂動する。 LaS コンポーネントには中あるいは高頻度のコンポーネント情報が含まれており、少ないクエリ数で分類器を騙すのに役立ちます。 また,Google Cloud VisionプラットフォームのTensorFlow Lite(TFLite)モデルを騙して,このアプローチの有効性を示す。 品質指標として平均二乗誤差(MSE)とピーク信号対雑音比(PSNR)を用いる。 本稿では,これらの指標をスパース領域の摂動レベルに接続する理論的証明を提案する。 カラーおよびグレースケールの画像データセット上で、最先端のCNNとサポートベクターマシン(SVM)分類器の逆例を検証した。 その結果,提案手法は分類器の誤分類率を高く評価できることがわかった。

Applications of machine learning (ML) models and convolutional neural networks (CNNs) have been rapidly increased. Although ML models provide high accuracy in many applications, recent investigations show that such networks are highly vulnerable to adversarial attacks. The black-box adversarial attack is one type of attack that the attacker does not have any knowledge about the model or the training dataset. In this paper, we propose a novel approach to generate a black-box attack in sparse domain whereas the most important information of an image can be observed. Our investigation shows that large sparse components play a critical role in the performance of the image classifiers. Under this presumption, to generate adversarial example, we transfer an image into a sparse domain and put a threshold to choose only k largest components. In contrast to the very recent works that randomly perturb k low frequency (LoF) components, we perturb k largest sparse (LaS)components either randomly (query-based) or in the direction of the most correlated sparse signal from a different class. We show that LaS components contain some middle or higher frequency components information which can help us fool the classifiers with a fewer number of queries. We also demonstrate the effectiveness of this approach by fooling the TensorFlow Lite (TFLite) model of Google Cloud Vision platform. Mean squared error (MSE) and peak signal to noise ratio (PSNR) are used as quality metrics. We present a theoretical proof to connect these metrics to the level of perturbation in the sparse domain. We tested our adversarial examples to the state-of-the-art CNNs and support vector machine (SVM) classifiers on color and grayscale image datasets. The results show the proposed method can highly increase the misclassification rate of the classifiers.
翻訳日:2021-03-20 17:15:23 公開日:2021-01-22
# ハードウェアアウェアニューラルアーキテクチャ探索に関する包括的調査

A Comprehensive Survey on Hardware-Aware Neural Architecture Search ( http://arxiv.org/abs/2101.09336v1 )

ライセンス: Link先を確認
Hadjer Benmeziane, Kaoutar El Maghraoui, Hamza Ouarnoughi, Smail Niar, Martin Wistuba, Naigang Wang(参考訳) neural architecture search (nas) メソッドの人気が高まっている。 これらの技術は、新しいディープラーニング(DL)アーキテクチャを合成する時間とエラーが発生しやすいプロセスの自動化と高速化に基礎を置いている。 NASは近年広く研究されている。 彼らの最も大きな影響は、画像の分類と、アート結果が得られたオブジェクト検出タスクである。 これまでに達成された大きな成功にもかかわらず、NASを現実世界の問題に適用することは依然として重大な課題であり、広く実用的ではない。 一般的に、合成畳み込みニューラルネットワーク(CNN)アーキテクチャは複雑すぎて、IoTやモバイル、組み込みシステムといったリソース制限のプラットフォームにデプロイできない。 人気が高まっている1つのソリューションは、実行遅延、エネルギー消費、メモリフットプリントなどを考慮して、NAS検索戦略で多目的最適化アルゴリズムを使用することである。 ハードウェア対応NAS(HW-NAS)と呼ばれるこの種のNASは、最も効率的なアーキテクチャの探索をより複雑にし、いくつかの疑問を提起する。 本調査では,既存のHW-NAS研究を詳細にレビューし,検索空間,探索戦略,高速化手法,ハードウェアコスト推定戦略の4つの重要な側面に分類する。 さらに,既存アプローチの課題と限界,今後の方向性についても論じる。 これはハードウェア対応NASに焦点を当てた最初の調査論文である。 ハードウェアを意識したNASに向けた今後の研究への道のりを、様々な技術やアルゴリズムの参考にしたい。

Neural Architecture Search (NAS) methods have been growing in popularity. These techniques have been fundamental to automate and speed up the time consuming and error-prone process of synthesizing novel Deep Learning (DL) architectures. NAS has been extensively studied in the past few years. Arguably their most significant impact has been in image classification and object detection tasks where the state of the art results have been obtained. Despite the significant success achieved to date, applying NAS to real-world problems still poses significant challenges and is not widely practical. In general, the synthesized Convolution Neural Network (CNN) architectures are too complex to be deployed in resource-limited platforms, such as IoT, mobile, and embedded systems. One solution growing in popularity is to use multi-objective optimization algorithms in the NAS search strategy by taking into account execution latency, energy consumption, memory footprint, etc. This kind of NAS, called hardware-aware NAS (HW-NAS), makes searching the most efficient architecture more complicated and opens several questions. In this survey, we provide a detailed review of existing HW-NAS research and categorize them according to four key dimensions: the search space, the search strategy, the acceleration technique, and the hardware cost estimation strategies. We further discuss the challenges and limitations of existing approaches and potential future directions. This is the first survey paper focusing on hardware-aware NAS. We hope it serves as a valuable reference for the various techniques and algorithms discussed and paves the road for future research towards hardware-aware NAS.
翻訳日:2021-03-20 17:14:54 公開日:2021-01-22
# SGD-Net:理論的保証を伴う効率的なモデルベースディープラーニング

SGD-Net: Efficient Model-Based Deep Learning with Theoretical Guarantees ( http://arxiv.org/abs/2101.09379v1 )

ライセンス: Link先を確認
Jiaming Liu, Yu Sun, Weijie Gan, Xiaojian Xu, Brendt Wohlberg, and Ulugbek S. Kamilov(参考訳) 近年、画像逆問題解決の文脈で、ディープ展開ネットワークが人気を集めている。 しかし、従来の深層展開ネットワークにおけるデータ一貫性層の計算とメモリの複雑さは、測定数とともにスケールし、大規模なイメージング逆問題に適用可能である。 本稿では,データ一貫性層の確率的近似による深部展開効率の向上手法としてSGD-Netを提案する。 理論的解析により,SGD-Netはバッチの深部展開ネットワークを任意の精度で近似できることがわかった。 回折トモグラフィーとスパースビュー計算トモグラフィーの数値計算結果から,SGD-Netはバッチネットワークの性能を少数の訓練とテストの複雑さで一致させることができることがわかった。

Deep unfolding networks have recently gained popularity in the context of solving imaging inverse problems. However, the computational and memory complexity of data-consistency layers within traditional deep unfolding networks scales with the number of measurements, limiting their applicability to large-scale imaging inverse problems. We propose SGD-Net as a new methodology for improving the efficiency of deep unfolding through stochastic approximations of the data-consistency layers. Our theoretical analysis shows that SGD-Net can be trained to approximate batch deep unfolding networks to an arbitrary precision. Our numerical results on intensity diffraction tomography and sparse-view computed tomography show that SGD-Net can match the performance of the batch network at a fraction of training and testing complexity.
翻訳日:2021-03-20 17:14:31 公開日:2021-01-22
# 解剖学的治療化学(ATC)のためのニューラルネットワーク

Neural networks for Anatomical Therapeutic Chemical (ATC) ( http://arxiv.org/abs/2101.11713v1 )

ライセンス: Link先を確認
Loris Nanni, Alessandra Lumini and Sheryl Brahnam(参考訳) 動機:atc(automatic anatomical therapeutic chemical)分類は、薬物開発と研究の迅速化の可能性から、バイオインフォマティクスの研究において重要かつ競争性の高い分野である。 これらの特徴が複数の臓器やシステムにどのように影響するかによって、未知の化合物の治療的および化学的特性を予測することにより、自動ATC分類が課題となる。 結果:本稿では,双方向長短期記憶ネットワーク(bilstm)から抽出したセットを含む,特徴の異なるセットで学習された複数のマルチラベル分類器を組み合わせることを提案する。 実験はこのアプローチの力を示し、Fast.ai研究グループによって開発された最先端技術を含む、文献で報告された最良の手法を上回ります。 可用性: この研究のために開発されたすべてのソースコードはhttps://github.com/LorisNanni.comで入手できる。 連絡先:loris.nanni@unipd.it

Motivation: Automatic Anatomical Therapeutic Chemical (ATC) classification is a critical and highly competitive area of research in bioinformatics because of its potential for expediting drug develop-ment and research. Predicting an unknown compound's therapeutic and chemical characteristics ac-cording to how these characteristics affect multiple organs/systems makes automatic ATC classifica-tion a challenging multi-label problem. Results: In this work, we propose combining multiple multi-label classifiers trained on distinct sets of features, including sets extracted from a Bidirectional Long Short-Term Memory Network (BiLSTM). Experiments demonstrate the power of this approach, which is shown to outperform the best methods reported in the literature, including the state-of-the-art developed by the fast.ai research group. Availability: All source code developed for this study is available at https://github.com/LorisNanni. Contact: loris.nanni@unipd.it
翻訳日:2021-03-20 17:14:19 公開日:2021-01-22
# ATLAS小惑星探査のための2段階深層学習検出器

A Two-Stage Deep Learning Detection Classifier for the ATLAS Asteroid Survey ( http://arxiv.org/abs/2101.08912v1 )

ライセンス: Link先を確認
Amandin Chyba Rabeendran and Larry Denneau(参考訳) 本稿では,地球近傍の小惑星スカイサーベイシステム (arXiv:1802.00879) である "Asteroid Terrestrial-impact Last Alert System" (ATLAS) で得られたデータから,太陽系天体を光学的および電子的に検出する2段階のニューラルネットワークモデルを提案する。 畳み込みニューラルネットワーク(arxiv:1807.10912)は、天文学的源の候補検出の小さな「postage-stamp」画像を8つのクラスに分類し、次に4つの候補検出の時間系列が実際の天文学的源を表す確率を与える多層パーセプトロンを用いる。 この研究の目的は、地球近傍天体(NEO)の検出と小さな惑星センターへの提出の間の時間遅延を減らすことである。 NEOs (Harris and D'Abramo, 2015) の稀で有害な性質のため, 低偽陰性率はモデルにとって最優先事項である。 このモデルは、ATLASデータ中の実際の小惑星において、0.4\%の偽陰率で99.6\%の精度に達する。 ATLASにこのモデルを展開することで、天文学者が90%の精度で観測しなければならないNEO候補の数を削減した。

In this paper we present a two-step neural network model to separate detections of solar system objects from optical and electronic artifacts in data obtained with the "Asteroid Terrestrial-impact Last Alert System" (ATLAS), a near-Earth asteroid sky survey system [arXiv:1802.00879]. A convolutional neural network [arXiv:1807.10912] is used to classify small "postage-stamp" images of candidate detections of astronomical sources into eight classes, followed by a multi-layered perceptron that provides a probability that a temporal sequence of four candidate detections represents a real astronomical source. The goal of this work is to reduce the time delay between Near-Earth Object (NEO) detections and submission to the Minor Planet Center. Due to the rare and hazardous nature of NEOs [Harris and D'Abramo, 2015], a low false negative rate is a priority for the model. We show that the model reaches 99.6\% accuracy on real asteroids in ATLAS data with a 0.4\% false negative rate. Deployment of this model on ATLAS has reduced the amount of NEO candidates that astronomers must screen by 90%, thereby bringing ATLAS one step closer to full autonomy.
翻訳日:2021-03-20 17:13:49 公開日:2021-01-22
# マウスカーソル運動の繰り返しニューラルモデルを用いた問合せ解除予測

Query Abandonment Prediction with Recurrent Neural Models of Mouse Cursor Movements ( http://arxiv.org/abs/2101.09066v1 )

ライセンス: Link先を確認
Lukas Br\"uckner and Ioannis Arapakis and Luis A. Leiva(参考訳) 最も成功した検索クエリは、ユーザーが直接serpで必要な情報を満たせるような場合、クリックしない。 クリックスルーデータがない場合のクエリ放棄のモデル化は、検索エンジンが基礎となる検索意図を理解するために他の行動信号に依存する必要があるため、難しい。 マウスのカーソル運動は, 良質かつ悪質な放棄を識別できる, 安価な行動信号であることを示す。 我々は、繰り返しニューラルネットワークを用いてSERP上でのマウスの動きをモデル化し、高価な手作り機能に依存しず、特定のSERP構造に依存しない複数のデータ表現を探索する。 また、シーケンシャルデータに採用するデータ再サンプリングおよび拡張技術についても実験を行った。 検索結果は、クリックせずにクエリに対するユーザの満足度を判断し、最終的に検索エンジンのパフォーマンスをよりよく理解するのに役立ちます。

Most successful search queries do not result in a click if the user can satisfy their information needs directly on the SERP. Modeling query abandonment in the absence of click-through data is challenging because search engines must rely on other behavioral signals to understand the underlying search intent. We show that mouse cursor movements make a valuable, low-cost behavioral signal that can discriminate good and bad abandonment. We model mouse movements on SERPs using recurrent neural nets and explore several data representations that do not rely on expensive hand-crafted features and do not depend on a particular SERP structure. We also experiment with data resampling and augmentation techniques that we adopt for sequential data. Our results can help search providers to gauge user satisfaction for queries without clicks and ultimately contribute to a better understanding of search engine performance.
翻訳日:2021-03-20 17:13:24 公開日:2021-01-22
# マルチホップris-empowered terahertz communications: drlに基づくハイブリッドビームフォーミング設計

Multi-hop RIS-Empowered Terahertz Communications: A DRL-based Hybrid Beamforming Design ( http://arxiv.org/abs/2101.09137v1 )

ライセンス: Link先を確認
Chongwen Huang, Zhaohui Yang, George C. Alexandropoulos, Kai Xiong, Li Wei, Chau Yuen, Zhaoyang Zhang, and Merouane Debbah(参考訳) テラヘルツ帯における無線通信 (0.1-10thz) は、大規模複数入力多重出力 (massive-mimo) 技術を超えて、将来の第6世代 (6g) 無線通信システムの主要な実現可能な技術の一つとして考えられている。 しかし、非常に高い伝搬減衰とTHz周波数の分子吸収は、しばしば信号伝達距離と範囲を制限する。 スマート無線伝搬環境を実現するための再構成可能なインテリジェントサーフェス(RIS)の最近の進歩を活かした,マルチホップRIS支援通信ネットワークのための新しいハイブリッドビームフォーミング方式を提案する。 特に、基地局(BS)と複数のシングルアンテナユーザ間の送信を支援するために、複数の受動的および制御可能なRISが配置される。 本稿では,BSにおけるディジタルビームフォーミング行列とRISにおけるアナログビームフォーミング行列の接合設計について,近年の深部強化学習(DRL)の進歩を活用して検討した。 DRLアルゴリズムの収束性を改善するため、2つのアルゴリズムを設計し、交代最適化手法を用いてデジタルビームフォーミングとアナログビームフォーミング行列を初期化する。 シミュレーションの結果,提案手法はTHz通信の網羅範囲を50倍に向上させることができることがわかった。 さらに,提案手法はNPハードビームフォーミング問題を解決するための最先端手法であり,特にRIS支援THz通信ネットワークの信号が複数のホップを経験する場合に有効であることを示す。

Wireless communication in the TeraHertz band (0.1--10 THz) is envisioned as one of the key enabling technologies for the future sixth generation (6G) wireless communication systems scaled up beyond massive multiple input multiple output (Massive-MIMO) technology. However, very high propagation attenuations and molecular absorptions of THz frequencies often limit the signal transmission distance and coverage range. Benefited from the recent breakthrough on the reconfigurable intelligent surfaces (RIS) for realizing smart radio propagation environment, we propose a novel hybrid beamforming scheme for the multi-hop RIS-assisted communication networks to improve the coverage range at THz-band frequencies. Particularly, multiple passive and controllable RISs are deployed to assist the transmissions between the base station (BS) and multiple single-antenna users. We investigate the joint design of digital beamforming matrix at the BS and analog beamforming matrices at the RISs, by leveraging the recent advances in deep reinforcement learning (DRL) to combat the propagation loss. To improve the convergence of the proposed DRL-based algorithm, two algorithms are then designed to initialize the digital beamforming and the analog beamforming matrices utilizing the alternating optimization technique. Simulation results show that our proposed scheme is able to improve 50\% more coverage range of THz communications compared with the benchmarks. Furthermore, it is also shown that our proposed DRL-based method is a state-of-the-art method to solve the NP-hard beamforming problem, especially when the signals at RIS-assisted THz communication networks experience multiple hops.
翻訳日:2021-03-20 17:13:11 公開日:2021-01-22
# 燃料トラックの転がり回避を目的とした拘束システムの安全学習基準管理

Safe Learning Reference Governor for Constrained Systems with Application to Fuel Truck Rollover Avoidance ( http://arxiv.org/abs/2101.09298v1 )

ライセンス: Link先を確認
Kaiwen Liu, Nan Li, Ilya Kolmanovsky, Denise Rizzo, and Anouck Girard(参考訳) 本稿では、正確なモデルが利用できないシステムにおいて、状態と制御の制約を強制するための学習基準ガバナ(lrg)アプローチを提案し、学習中と学習終了後の制約を強制しながら、学習を通じて徐々にコマンド追跡性能を向上させる手法を提案する。 学習はシステムのブラックボックス型モデルまたはハードウェア上で直接行うことができる。 本稿では,LRGアルゴリズムを導入し,その理論的特性を概説した後,燃料トラックのロールオーバー回避へのLRGの適用について検討する。 液体燃料スロッシング効果を考慮した燃料トラックモデルに基づくシミュレーションにより,提案するlrgは,様々な運転条件下での燃料トラックのロールオーバー事故から効果的に保護できることを示す。

This paper proposes a learning reference governor (LRG) approach to enforce state and control constraints in systems for which an accurate model is unavailable; and this approach enables the reference governor to gradually improve command tracking performance through learning while enforcing the constraints during learning and after learning is completed. The learning can be performed either on a black-box type model of the system or directly on the hardware. After introducing the LRG algorithm and outlining its theoretical properties, this paper investigates LRG application to fuel truck rollover avoidance. Through simulations based on a fuel truck model that accounts for liquid fuel sloshing effects, we show that the proposed LRG can effectively protect fuel trucks from rollover accidents under various operating conditions.
翻訳日:2021-03-20 17:12:07 公開日:2021-01-22