このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201014となっている論文です。

PDF登録状況(公開日: 20201014)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子化・量子化へ:短期的量子最適化におけるアルゴリズム選択に向けて

To quantum or not to quantum: towards algorithm selection in near-term quantum optimization ( http://arxiv.org/abs/2001.08271v2 )

ライセンス: Link先を確認
Charles Moussa, Henri Calandra, Vedran Dunjko(参考訳) 量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) は、短期量子コンピューティングの時代において量子アップを期待される候補の1つである。 実際、量子最適化は、数十年に及ぶ経験的ドメイン固有の拡張の利点を持つ安価な古典的ヒューリスティック手法と競合する必要がある。 したがって、最適性能を達成するために、実用的な計算でよく研究されているアルゴリズム選択の問題に直面する。 ここではこの問題を量子最適化領域に導入する。 具体的には、QAOAが従来のアルゴリズムよりも有利になる確率の高い問題を検知する問題について検討する。 ケーススタディとして,最大カット問題に対するgoemans と williamson (gw) のよく知られた近似アルゴリズムとqaoaを比較した。 アルゴリズムの性能を正確に予測することは難解であり、機械学習を使っていつ量子アルゴリズムに頼るべきかを特定する。 96 %以上の精度でクロスバリデーションを達成でき、実用的な優位性が得られる。 このプロセスでは、QAOAに適したインスタンスをレンダリングする多くの機能を強調します。 シミュレーションされた理想化されたアルゴリズムで作業する一方で、私達が採用したMLメソッドの柔軟性は、我々のメソッドが古典的ヒューリスティックスのより広範なクラス、および実世界のノイズの多いデバイスで動作するQAOAに等しく適用可能であることを確信します。

The Quantum Approximate Optimization Algorithm (QAOA) constitutes one of the often mentioned candidates expected to yield a quantum boost in the era of near-term quantum computing. In practice, quantum optimization will have to compete with cheaper classical heuristic methods, which have the advantage of decades of empirical domain-specific enhancements. Consequently, to achieve optimal performance we will face the issue of algorithm selection, well-studied in practical computing. Here we introduce this problem to the quantum optimization domain. Specifically, we study the problem of detecting those problem instances of where QAOA is most likely to yield an advantage over a conventional algorithm. As our case study, we compare QAOA against the well-understood approximation algorithm of Goemans and Williamson (GW) on the Max-Cut problem. As exactly predicting the performance of algorithms can be intractable, we utilize machine learning to identify when to resort to the quantum algorithm. We achieve cross-validated accuracy well over 96\%, which would yield a substantial practical advantage. In the process, we highlight a number of features of instances rendering them better suited for QAOA. While we work with simulated idealised algorithms, the flexibility of ML methods we employed provides confidence that our methods will be equally applicable to broader classes of classical heuristics, and to QAOA running on real-world noisy devices.
翻訳日:2023-06-06 06:59:29 公開日:2020-10-14
# 教師なし機械学習による位相量子相転移

Topological quantum phase transitions retrieved through unsupervised machine learning ( http://arxiv.org/abs/2002.02363v3 )

ライセンス: Link先を確認
Yanming Che, Clemens Gneiting, Tao Liu, Franco Nori(参考訳) 量子状態の位相的特徴の発見は、現代の凝縮物質物理学や様々な人工システムにおいて重要な役割を果たす。 局所的な順序パラメータがないため、位相量子相転移の検出は依然として困難である。 機械学習は、トポロジカルな特徴を識別するための効果的な方法を提供する。 本研究では,教師なし多様体学習が運動量と実空間の位相的量子相転移をうまく取り出せることを示す。 以上の結果から, 2つのデータポイント間のチェビシェフ距離は運動量空間における位相量子相転移の特徴を強くし, ユークリッド距離は一般に準最適であることがわかった。 すると拡散写像や等尺写像を応用して次元還元を実装し、教師なしの方法で位相量子相転移について学ぶことができる。 本研究では,この手法を,実空間における確率空間における原型Su-Schrieffer-Heeger(SSH)モデル,Qi-Wu-Zhang(QWZ)モデル,quenched SSHモデルに示すとともに,位相不変量が未知あるいは計算困難である実空間における学習における意味と実演を与える。 提案手法の解釈可能な優れた性能は, 位相量子相転移の探索において, 適切な距離距離の測度を持つ場合, 多様体学習の能力を示す。

The discovery of topological features of quantum states plays an important role in modern condensed matter physics and various artificial systems. Due to the absence of local order parameters, the detection of topological quantum phase transitions remains a challenge. Machine learning may provide effective methods for identifying topological features. In this work, we show that the unsupervised manifold learning can successfully retrieve topological quantum phase transitions in momentum and real space. Our results show that the Chebyshev distance between two data points sharpens the characteristic features of topological quantum phase transitions in momentum space, while the widely used Euclidean distance is in general suboptimal. Then a diffusion map or isometric map can be applied to implement the dimensionality reduction, and to learn about topological quantum phase transitions in an unsupervised manner. We demonstrate this method on the prototypical Su-Schrieffer-Heeger (SSH) model, the Qi-Wu-Zhang (QWZ) model, and the quenched SSH model in momentum space, and further provide implications and demonstrations for learning in real space, where the topological invariants could be unknown or hard to compute. The interpretable good performance of our approach shows the capability of manifold learning, when equipped with a suitable distance metric, in exploring topological quantum phase transitions.
翻訳日:2023-06-04 14:06:06 公開日:2020-10-14
# 局所性と保存法:対称性の存在下では、局所性は実現可能なユニタリをいかに制限するか

Locality and Conservation Laws: How, in the presence of symmetry, locality restricts realizable unitaries ( http://arxiv.org/abs/2003.05524v2 )

ライセンス: Link先を確認
Iman Marvian(参考訳) 量子コンピューティングの基本的な結果によれば、複合系上の任意のユニタリ変換は2つの局所ユニタリ(つまり2つのサブシステムでのみ動作するもの)を使って生成できる。 局所性は短期の力学に様々な制約を与えるが、一般の局所ハミルトン系を持つ複合系が十分に長い時間後に経験できるユニタリ進化を制限しない。 このような普遍性は、保護法や国際対称性の存在下でも有効かどうかを問う。 特に、複合系上のk局所対称ユニタリは、その系上のすべての対称ユニタリを生成することができるか? 興味深いことに、答えは U(1) や SU(2) のような連続対称性の場合には負であることが分かる: 一般対称ユニタリは、局所対称ユニタリを用いても、概して実装できない。 実際、すべての対称ユニタリの多様体の次元と k-局所対称ユニタリによって生成されるユニタリの部分多様体との差は、システムサイズとともに常に増加する。 一方、このno-go定理は、漸進量子ビットを用いて回避可能であることが判明した。 例えば、z を取り巻く回転の下での任意のユニタリ不変量は、アシラリー qubit 上の局所 Z ハミルトニアンと共にハミルトニアン XX+YY を用いて実装することができる。 さらに、複合システム上の任意のグローバルなエネルギー保存ユニタリは、2つの局所的なエネルギー保存ユニタリのシーケンスを用いて実装することができ、単一のアシラリー量子ビット(触媒)を使用できる。

According to an elementary result in quantum computing, any unitary transformation on a composite system can be generated using 2-local unitaries, i.e., those that act only on two subsystems. Beside its fundamental importance in quantum computing, this result can also be regarded as a statement about the dynamics of systems with local Hamiltonians: although locality puts various constraints on the short-term dynamics, it does not restrict the possible unitary evolutions that a composite system with a general local Hamiltonian can experience after a sufficiently long time. We ask if such universality remains valid in the presence of conservation laws and global symmetries. In particular, can k-local symmetric unitaries on a composite system generate all symmetric unitaries on that system? Interestingly, it turns out that the answer is negative in the case of continuous symmetries, such as U(1) and SU(2): generic symmetric unitaries cannot be implemented, even approximately, using local symmetric unitaries. In fact, the difference between the dimensions of the manifold of all symmetric unitaries and the submanifold of unitaries generated by k-local symmetric unitaries, constantly increases with the system size. On the other hand, we find that this no-go theorem can be circumvented using ancillary qubits. For instance, any unitary invariant under rotations around z can be implemented using Hamiltonian XX+YY together with local Z Hamiltonian on the ancillary qubit. Moreover, any globally energy-conserving unitary on a composite system can be implemented using a sequence of 2-local energy-conserving unitaries, provided that one can use a single ancillary qubit (catalyst).
翻訳日:2023-05-29 11:01:14 公開日:2020-10-14
# 貯蔵光の制御輸送

Controlled transport of stored light ( http://arxiv.org/abs/2003.08713v2 )

ライセンス: Link先を確認
Wei Li, Parvez Islam and Patrick Windpassinger(参考訳) 量子情報の制御、記憶、検索は、量子通信と計算に不可欠である。 光に対する量子記憶は、低温原子サンプルを記憶媒体として実現され、高い記憶効率と寿命で顕著である。 このような貯蔵系における1:2mm以上の貯蔵光の制御輸送を実証し,輸送過程とその力学が貯蔵のコヒーレンスにわずかに影響を及ぼすことを示した。 提案された概念をより長い移動距離に拡張し、記憶部数を増やすことで、光学式レーストラックメモリや光学量子レジスタなどの新しい量子デバイスの開発が可能になる。

Controlled manipulation, storage and retrieval of quantum information is essential for quantum communication and computing. Quantum memories for light, realized with cold atomic samples as the storage medium, are prominent for their high storage efficiencies and lifetime. We demonstrate the controlled transport of stored light over 1:2 mm in such a storage system and show that the transport process and its dynamics only have a minor effect on the coherence of the storage. Extending the presented concept to longer transport distances and augmenting the number of storage sections will allow for the development of novel quantum devices such as optical race track memories or optical quantum registers.
翻訳日:2023-05-28 17:48:42 公開日:2020-10-14
# 連続可変絡み合い分布のための量子リピータ

Quantum repeater for continuous variable entanglement distribution ( http://arxiv.org/abs/2004.06345v2 )

ライセンス: Link先を確認
Josephine Dias, Matthew S. Winnel, Nedasadat Hosseinidehaj, Timothy C. Ralph(参考訳) 量子通信の範囲を広げる手段として、量子リピータが提案されている。 第一世代のアプローチでは、遠距離チャネルに沿って絡み合ったリンクを接続するために絡み合い交換を用いる。 近年,連続変数に対する第1世代量子リピータの提案がなされている。 本稿では,最適ガウスエンタングルメントスワップを用いた改良された連続変数リピータ方式を提案する。 本方式では, エンタングルメント蒸留にノイズレス線形増幅器を用いる。 ノイズレス線形増幅器の最も簡単な構成と、優れた量子メモリと完璧なソースと検出器の仮定により、提案方式は短距離での直接伝送上限を上回っており、従来のcvリピータ方式よりも有利であることを示す。

Quantum repeaters have been proposed as a way of extending the reach of quantum communication. First generation approaches use entanglement swapping to connect entangled links along a long distance channel. Recently, there have been proposals for first generation quantum repeaters for continuous variables. In this paper, we present an improved continuous variable repeater scheme using optimal Gaussian entanglement swapping. Our scheme uses the noiseless linear amplifier for entanglement distillation. We show that with the simplest configuration of the noiseless linear amplifier and under the assumption of good quantum memories and perfect sources and detectors, our scheme beats the direct transmission upper limit for shorter distances and can offer advantages over previous CV repeater schemes.
翻訳日:2023-05-24 09:00:02 公開日:2020-10-14
# 制御された2ビット動作のための切換え可能な次アレスト近傍結合

Switchable next-nearest-neighbor coupling for controlled two-qubit operations ( http://arxiv.org/abs/2004.08639v2 )

ライセンス: Link先を確認
Peng Zhao, Peng Xu, Dong Lan, Xinsheng Tan, Haifeng Yu, and Yang Yu(参考訳) 近接結合が最寄りの超伝導量子プロセッサでは、隣接する量子ビット間の分散相互作用は、中間量子ビットの状態に依存する強力な次ネアレスト-ネアボーカップリングをもたらす。 ここでは, 中間キュービットが隣のキュービット対の操作を制御する制御された2量子ビット演算を実装するために, この次アレスト近傍結合の工学的可能性について理論的に検討する。 特に、隣り合う量子ビット間の不要な静的ZZ結合を強く抑制できる−A−B−A−パターンで配置された反対符号の非調和性を有する2種類の超伝導量子ビットからなるシステムにおいて、この結合のオン/オフスイッチとして機能する中間量子ビットを介して隣り合う量子ビット間の切替可能な結合を実現することができる。 したがって、採用されている活性化スキームに応じて、制御されたiswapゲートなどの様々な制御された2量子ビット演算を実現することができ、汎用量子アルゴリズムを実装するための標準分解アプローチとして回路深度の削減が可能になる。

In a superconducting quantum processor with nearest neighbor coupling, the dispersive interaction between adjacent qubits can result in an effective next-nearest-neighbor coupling whose strength depends on the state of the intermediary qubit. Here, we theoretically explore the possibility of engineering this next-nearest-neighbor coupling to implement controlled two-qubit operations where the intermediary qubit controls the operation on the next-nearest neighbor pair of qubits. In particular, in a system comprising two types of superconducting qubits with anharmonicities of opposite-sign arranged in an -A-B-A- pattern, where the unwanted static ZZ coupling between adjacent qubits could be heavily suppressed, a switchable coupling between the next-nearest-neighbor qubits can be achieved via the intermediary qubit, the qubit state of which functions as an on/off switch for this coupling. Therefore, depending on the adopted activating scheme, various controlled two-qubit operations such as controlled-iSWAP gate can be realized, potentially enabling circuit depth reductions as to a standard decomposition approach for implementing generic quantum algorithms.
翻訳日:2023-05-23 02:36:47 公開日:2020-10-14
# 希薄キメラグラフ上のグリフィス-McCoy特異点:モンテカルロシミュレーションと量子ハードウェアの実験

Griffiths-McCoy singularity on the diluted Chimera graph: Monte Carlo simulations and experiments on the quantum hardware ( http://arxiv.org/abs/2006.16219v2 )

ライセンス: Link先を確認
Kohji Nishimura, Hidetoshi Nishimori, Helmut G. Katzgraber(参考訳) グリフィス-mccoy特異性(英: griffiths-mccoy singularity)は、低次元乱れ量子スピン系の現象であり、磁化率が常磁性相においても外部磁場の関数として特異な振る舞いを示す。 この現象が準2次元希薄キメラグラフ上の不規則強磁性相互作用を持つ横磁場イジングモデルにおいて量子モンテカルロシミュレーションと量子シミュレータとして用いられるd波量子アニールの広範囲な実験によって観測されるかどうかについて検討した。 量子モンテカルロシミュレーションから、常磁性相におけるグリフィス-McCoy特異点の存在の証拠が発見された。 量子ハードウェアに対する実験的なアプローチは、アナログ量子デバイスにおける固有のノイズや誤差により、より明確でない結果を生成するが、モンテカルロの場合のようにグリフィス-McCoy特異点の存在と一致すると解釈することができる。 これは、不規則量子スピン系におけるグリフィス-mccoy特異点の微妙な現象を研究するアナログ量子シミュレータに基づく最初の実験アプローチであり、量子シミュレータとしてのd波量子アニーラの能力と限界を明らかにした。

The Griffiths-McCoy singularity is a phenomenon characteristic of low-dimensional disordered quantum spin systems, in which the magnetic susceptibility shows singular behavior as a function of the external field even within the paramagnetic phase. We study whether this phenomenon is observed in the transverse-field Ising model with disordered ferromagnetic interactions on the quasi-two-dimensional diluted Chimera graph both by quantum Monte Carlo simulations and by extensive experiments on the D-Wave quantum annealer used as a quantum simulator. From quantum Monte Carlo simulations, evidence is found for the existence of the Griffiths-McCoy singularity in the paramagnetic phase. The experimental approach on the quantum hardware produces results that are less clear-cut due to the intrinsic noise and errors in the analog quantum device but can nonetheless be interpreted to be consistent with the existence of the Griffiths-McCoy singularity as in the Monte Carlo case. This is the first experimental approach based on an analog quantum simulator to study the subtle phenomenon of Griffiths-McCoy singularities in a disordered quantum spin system, through which we have clarified the capabilities and limitations of the D-Wave quantum annealer as a quantum simulator.
翻訳日:2023-05-12 03:27:50 公開日:2020-10-14
# 多体量子力学は低密度で減速する

Many-body quantum dynamics slows down at low density ( http://arxiv.org/abs/2007.10352v3 )

ライセンス: Link先を確認
Xiao Chen, Yingfei Gu, Andrew Lucas(参考訳) 量子多体系を大域的u(1)保存則で研究し、電荷保存を伴うn$相互作用フェルミオンの理論や、全スピンの保存された1つの成分を持つn$相互作用スピンに焦点をあてた。 我々は, 時間外順序相関関数を適切に正規化することにより, 有限化学ポテンシャルでの有効演算子サイズを定義する。 この密度に依存した作用素サイズの成長速度は、電荷密度とともに代数的に消滅するので、任意の密度での荷電系におけるリャプノフ指数と蝶速度の新たな境界を得る。 リアプノフ指数に対する我々の結合の密度依存性は荷電サハデフ-イェ=キタエフ模型において飽和していると主張する。 また,ランダム・オートマトン量子回路とブラウン・サハデフ・イェ・キタエフモデルについても検討し,それぞれがリアプノフ指数に対して異なる密度依存性を示し,その差を説明する。 本研究は,有限温度におけるプランク制限エネルギー保存ダイナミクスを理解するための漫画である。

We study quantum many-body systems with a global U(1) conservation law, focusing on a theory of $N$ interacting fermions with charge conservation, or $N$ interacting spins with one conserved component of total spin. We define an effective operator size at finite chemical potential through suitably regularized out-of-time-ordered correlation functions. The growth rate of this density-dependent operator size vanishes algebraically with charge density; hence we obtain new bounds on Lyapunov exponents and butterfly velocities in charged systems at a given density, which are parametrically stronger than any Lieb-Robinson bound. We argue that the density dependence of our bound on the Lyapunov exponent is saturated in the charged Sachdev-Ye-Kitaev model. We also study random automaton quantum circuits and Brownian Sachdev-Ye-Kitaev models, each of which exhibit a different density dependence for the Lyapunov exponent, and explain the discrepancy. We propose that our results are a cartoon for understanding Planckian-limited energy-conserving dynamics at finite temperature.
翻訳日:2023-05-08 23:08:33 公開日:2020-10-14
# 散逸結合型レーザー冷却 : 限界と展望

Dissipative-coupling-assisted laser cooling: limitations and perspectives ( http://arxiv.org/abs/2007.13650v2 )

ライセンス: Link先を確認
Alexander K. Tagantsev(参考訳) 近年,赤色サイドバンド励起下での分散性および分散性光メカニカルカップリング(phys. rev. a 88, 023850 (2013))の組み合わせによる非解決サイドバンド制御における機械振動子の基底状態冷却の可能性が注目されている。 本プロトコルの包括的解析により,追加の散逸,最適化された実験条件の不正確性,採用される理論的枠組みの不正確性など,小さな不完全性に対する高い感度を明らかにする。 これらの欠陥が冷却限界に与える影響を定量的に評価する。 冷却限界に対する強い影響は内部キャビティ崩壊率から見出され、検出速度に比べて小さい場合でもその限界を劇的に押し上げ、基底状態の冷却の可能性に疑問を呈する可能性がある。 具体的には、内部減衰率と検出率との比が、共通分散結合補助側バンド冷却限界に対するプロトコルによって予測される冷却限界の比よりもはるかに小さい場合にのみ内部損失を無視することができる。 さらに、そのプロトコルの理論の適用可能性の条件は、後者の比率が1よりもはるかに小さいという要件であることを示す。 問題となっている冷却プロトコルと、赤色のサイドバンド励振やフィードバックを用いた分散結合支援プロトコルの詳細な比較を行った。

The recently identified possibility of ground-state cooling of a mechanical oscillator in the unresolved sideband regime by combination of the dissipative and dispersive optomechanical coupling under the red sideband excitation [Phys. Rev. A 88, 023850 (2013)], is currently viewed as a remarkable finding. We present a comprehensive analysis of this protocol, which reveals its very high sensitivity to small imperfections such as an additional dissipation, the inaccuracy of the optimized experimental settings, and the inaccuracy of the theoretical framework adopted. The impact of these imperfections on the cooling limit is quantitatively assessed. A very strong effect on the cooling limit is found from the internal cavity decay rate which even being small compared with the detection rate may drastically push that limit up, questioning the possibility of the ground state cooling. Specifically, the internal loss can only be neglected if the ratio of the internal decay rate to the detection rate is much smaller than the ratio of the cooling limit predicted by the protocol to the common dispersive-coupling assisted sideband cooling limit. More over, we establish that the condition of applicability of theory of that protocol is the requirement that the latter ratio is much smaller than one. A detailed comparison of the cooling protocol in question with the dispersive-coupling-assisted protocols which use the red sideband excitation or feedback is presented.
翻訳日:2023-05-08 02:39:40 公開日:2020-10-14
# 位相絶縁体表面におけるディラック量子井戸工学

Dirac quantum well engineering on the surface of topological insulator ( http://arxiv.org/abs/2007.13978v2 )

ライセンス: Link先を確認
Xin Lu and Mark-Oliver Goerbig(参考訳) 2つの自明な絶縁体の間に挟まれた薄いトポロジカル絶縁体からなる量子井戸について検討する。 より具体的には、これらの異なる種類の物質間の滑らかな界面を考えると、界面はキラルな界面状態だけでなく、バルクエッジ対応によって存在が決定されるだけでなく、巨大なヴォルコフ・パンクラトフ状態も持つ。 トポロジカル素材の幅と特性界面サイズの関数として,これらの界面状態間のハイブリダイゼーションの可能性を検討する。 最も注目すべきは、キラルな界面状態に対する非常に弱い効果と、ここで紹介する(dirac)量子井戸のモデルにおける量子トンネルの観点で容易に理解できる巨大なヴォルコフ・パンクラトフ状態のより一般的なハイブリダイゼーションとの間には、強い定性的な違いがあるということである。

We investigate a quantum well that consists of a thin topological insulator sandwiched between two trivial insulators. More specifically, we consider smooth interfaces between these different types of materials such that the interfaces host not only the chiral interface states, whose existence is dictated by the bulk-edge correspondence, but also massive Volkov-Pankratov states. We investigate possible hybridization between these interface states as a function of the width of the topological material and of the characteristic interface size. Most saliently, we find a strong qualitative difference between an extremely weak effect on the chiral interface states and a more common hybridization of the massive Volkov-Pankratov states that can be easily understood in terms of quantum tunneling in the framework of the model of a (Dirac) quantum well we introduce here.
翻訳日:2023-05-07 23:25:57 公開日:2020-10-14
# 多段非線形干渉計による光子対のスペクトルプロファイルの工学

Engineering the spectral profile of photon pairs by using multi-stage nonlinear interferometers ( http://arxiv.org/abs/2008.03963v2 )

ライセンス: Link先を確認
Mingyi Ma, Liang Cui and Xiaoying Li(参考訳) n-stage nonlinear interferometers (nli) における光子対の量子干渉を用いて、結合スペクトル関数の輪郭を島パターンに変えることができる。 私たちは2つの実験を行います。 一つはパルス励起NLI中のすべての非線形ファイバーが同一であり、もう一つはN個の非線形ファイバーの長さが異なることである。 我々は、スペクトル関数のパターンがステージ番号 n でどのように変化するかを示すだけでなく、アイランドピークの相対強度が n に対してどのように変化するかを示す。 [1], nピースの非線形繊維を二項分布に従わせたnliは, より優れたアクティブフィルタリング機能を提供できることが明らかとなった。 本研究は,多段階nliのアクティブフィルタリング効果が,量子情報処理の望ましい資源である因子可能な2光子状態の効率的な設計に有用であることを示す。

Using the quantum interference of photon pairs in N-stage nonlinear interferometers (NLI), the contour of joint spectral function can be modified into islands pattern. We perform two series of experiments. One is that all the nonlinear fibers in pulse pumped NLI are identical; the other is that the lengths of N pieces nonlinear fibers are different. We not only demonstrate how the pattern of spectral function changes with the stage number N, but also characterize how the relative intensity of island peaks varies with N. The results, well agree with theoretical predictions in Ref. [1], reveal that the NLI with N pieces nonlinear fibers following binomial distribution can provide a better active filtering function. Our investigation shows that the active filtering effect of multi-stage NLI is a useful tool for efficiently engineering the factorable two-photon state - a desirable resource for quantum information processing.
翻訳日:2023-05-06 16:09:36 公開日:2020-10-14
# ソーシャルメディアのレンズを通しての若者の失業 : イタリアを事例として

Young Adult Unemployment Through the Lens of Social Media: Italy as a case study ( http://arxiv.org/abs/2010.04496v2 )

ライセンス: Link先を確認
Alessandra Urbinati, Kyriaki Kalimeri, Andrea Bonanomi, Alessandro Rosina, Ciro Cattuto, Daniela Paolotti(参考訳) 青少年失業率は、イタリアを含む多くの国で依然として警戒レベルにある。 直接の結果には貧困、社会的排除、犯罪行為が含まれるが、将来の雇用力や賃金に対する悪影響は隠蔽できない。 本研究では, 調査データとソーシャルメディアデータ, 特にfacebookページなどを用いて, イタリアにおける若年失業者の個性, 道徳的価値, 文化的要素の分析を行った。 以上の結果から,失業した男性は満足感が低く,女性は新たな経験によりオープンであることから,人格と道徳的価値には小さな違いがあることがわかった。 同時に、失業者はより集合主義的な視点を持ち、より集団内の忠誠心、権威、純粋基盤を評価する。 興味深いことに、トピックモデリング分析は失業者の興味や文化的要素に大きな違いを示さなかった。 雇用者は、facebookを使って地元の活動とつながり、失業者は、主に娯楽目的やニュースのソースとして利用し、誤情報や誤報の影響を受けやすいようにしている。 これらの発見は、政策立案者がこの人口のより深い理解と、この脆弱な人口のハードスキルとソフトスキルの両方を改善するイニシアチブを得るのに役立つと信じています。

Youth unemployment rates are still in alerting levels for many countries, among which Italy. Direct consequences include poverty, social exclusion, and criminal behaviours, while negative impact on the future employability and wage cannot be obscured. In this study, we employ survey data together with social media data, and in particular likes on Facebook Pages, to analyse personality, moral values, but also cultural elements of the young unemployed population in Italy. Our findings show that there are small but significant differences in personality and moral values, with the unemployed males to be less agreeable while females more open to new experiences. At the same time, unemployed have a more collectivist point of view, valuing more in-group loyalty, authority, and purity foundations. Interestingly, topic modelling analysis did not reveal major differences in interests and cultural elements of the unemployed. Utilisation patterns emerged though; the employed seem to use Facebook to connect with local activities, while the unemployed use it mostly as for entertainment purposes and as a source of news, making them susceptible to mis/disinformation. We believe these findings can help policymakers get a deeper understanding of this population and initiatives that improve both the hard and the soft skills of this fragile population.
翻訳日:2023-04-29 13:29:18 公開日:2020-10-14
# 確率論的社会学習は誤情報の検出を改善する

Probabilistic Social Learning Improves the Public's Detection of Misinformation ( http://arxiv.org/abs/2010.06019v2 )

ライセンス: Link先を確認
Douglas Guilbeault, Samuel Woolley and Joshua Becker(参考訳) 誤情報のデジタル拡散は、民主主義、公衆衛生、世界経済に対する主要な脅威の一つである。 偽情報を緩和するための一般的な戦略には、クラウドソーシング、機械学習、ソーシャルメディアユーザーがニュースを真または偽の2項で分類する必要があるメディアリテラシープログラムがある。 しかしながら、ピア・インフルエンスの研究は、二項項におけるフレーミング決定が判断の誤りを増幅し、社会的学習を制限する一方で、確率的用語におけるフレーミング決定は判断を確実に改善できることを示している。 この事前登録実験では、二分的または確率的判断を伝達することにより、ニュースの妥当性を協調的に評価するオンラインピアネットワークを比較した。 ニュース評価における偏光除去効果により,ニュースの妥当性の変動が個人と集団の判断を著しく改善した。 対照的に、二分分類を交換することで、社会学習と偏りが減った。 確率的社会学習の利点は、参加者の教育、性別、人種、収入、宗教、パルチザン主義に堅牢である。

The digital spread of misinformation is one of the leading threats to democracy, public health, and the global economy. Popular strategies for mitigating misinformation include crowdsourcing, machine learning, and media literacy programs that require social media users to classify news in binary terms as either true or false. However, research on peer influence suggests that framing decisions in binary terms can amplify judgment errors and limit social learning, whereas framing decisions in probabilistic terms can reliably improve judgments. In this preregistered experiment, we compare online peer networks that collaboratively evaluate the veracity of news by communicating either binary or probabilistic judgments. Exchanging probabilistic estimates of news veracity substantially improved individual and group judgments, with the effect of eliminating polarization in news evaluation. By contrast, exchanging binary classifications reduced social learning and entrenched polarization. The benefits of probabilistic social learning are robust to participants' education, gender, race, income, religion, and partisanship.
翻訳日:2023-04-29 06:58:56 公開日:2020-10-14
# EmoG-はGmailの会話をエモジュアライズする

EmoG- Towards Emojifying Gmail Conversations ( http://arxiv.org/abs/2010.06403v2 )

ライセンス: Link先を確認
Akhila Sri Manasa Venigalla and Sridhar Chimalakonda(参考訳) 電子メールは、業界や教育機関を含む複数のドメインで現在最も頻繁に使われているコミュニケーション媒体の1つである。 メールで表現される感情を理解することは、受信者の行動やメールに対する反応に大きな影響を与える可能性がある。 しかし、感情が明示的に存在しない純粋なテキストから送信者の感情を解釈することは困難である。 研究者は、顧客企業環境と感情を統合することで、顧客の誘惑を予測することを試みた。 しかし、既存の作業の多くは電子メールの感情を静的に評価する。 メールの感情を読者に動的に提示することは、送信者の感情を理解するのに役立ち、読者の行動にも影響を与える。 そこで本稿では,学生支援を目的としたgoogle chromeエクステンションとしてemogを提案する。 メールで伝達される感情に基づいて、絵文字付きメールを補強し、メールの感情の要約を高速に提供し、メールの自動ソートや処理に役立つタグとして機能する。 emogは現在、google chromeブラウザ上でgmail inboxをサポートするために開発されており、他のインボックスやブラウザにも簡単に拡張できる。 我々は15人の大学生を対象に,EmoGの有用性を理解し,肯定的なフィードバックを得た。

Emails are one of the most frequently used medium of communication in the present day across multiple domains including industry and educational institutions. Understanding sentiments being expressed in an email could have a considerable impact on the recipients' action or response to the email. However, it is difficult to interpret emotions of the sender from pure text in which emotions are not explicitly present. Researchers have tried to predict customer attrition by integrating emails in client-company environment with emotions. However, most of the existing works deal with static assessment of email emotions. Presenting sentiments of emails dynamically to the reader could help in understanding senders' emotion and as well have an impact on readers' action. Hence, in this paper, we present EmoG as a Google Chrome Extension which is intended to support university students. It augments emails with emojis based on the sentiment being conveyed in the email, which might also offer faster overview of email sentiments and act as tags that could help in automatic sorting and processing of emails. Currently, EmoG has been developed to support Gmail inbox on a Google Chrome browser, and could be extended to other inboxes and browsers with ease. We have conducted a user survey with 15 university students to understand the usefulness of EmoG and received positive feedback.
翻訳日:2023-04-29 05:05:03 公開日:2020-10-14
# 約ミリ秒内蔵メモリを用いた室温単一光子源

Room-temperature single-photon source with near-millisecond built-in memory ( http://arxiv.org/abs/2010.06875v1 )

ライセンス: Link先を確認
Karsten B. Dideriksen, Rebecca Schmieg, Michael Zugenmaier, and Eugene S. Polzik(参考訳) 非古典的光子源は分散量子ネットワークにとって重要な資源である。 メモリ能力を持つ物質系から生成される光子は特に有望であり、各ソースをオンデマンドで使用するネットワークに統合することができる。 あらゆる種類の固体と原子量子記憶の中で、室温の原子蒸気はその堅牢性と潜在的なスケーラビリティのために特に魅力的である。 これまでの室温光子源は、記憶時間またはフォトニック状態の純度に制限されている。 ここでは、室温記憶に基づく単一光子源を示す。 メモリをヘラルドロードした後、可変記憶時間後に1つの光子を取り出す。 検索されたフィールドの単一光子特性は、$g^{(2)}_{\text{rr|w=1}} = 0.20 \pm 0.07$ で2光子成分の強い抑制によって検証される。 ヘラルディングと取得した光子の非古典的相関は、他の室温システムで以前に実証されたよりも2桁長くなる$\tau_{\text{NC}}^{\mathcal R} = (0.68\pm 0.08)$ msまで維持される。 ベルの不等式に違反するのに十分な相関は、$\tau_{\text{BI}} = (0.15 \pm 0.03)$ ms まで存在する。

Non-classical photon sources are a crucial resource for distributed quantum networks. Photons generated from matter systems with memory capability are particularly promising, as they can be integrated into a network where each source is used on-demand. Among all kinds of solid state and atomic quantum memories, room-temperature atomic vapours are especially attractive due to their robustness and potential scalability. To-date room-temperature photon sources have been limited either in their memory time or the purity of the photonic state. Here we demonstrate a single-photon source based on room-temperature memory. Following heralded loading of the memory, a single photon is retrieved from it after a variable storage time. The single-photon character of the retrieved field is validated by the strong suppression of the two-photon component with antibunching as low as $g^{(2)}_{\text{RR|W=1}} = 0.20 \pm 0.07$. Non-classical correlations between the heralding and the retrieved photons are maintained for up to $\tau_{\text{NC}}^{\mathcal R} = (0.68\pm 0.08)$ ms, more than two orders of magnitude longer than previously demonstrated with other room-temperature systems. Correlations sufficient for violating Bell inequalities exist for up to $\tau_{\text{BI}} = (0.15 \pm 0.03)$ ms.
翻訳日:2023-04-29 02:55:33 公開日:2020-10-14
# 多体量子ロックイン増幅器

Many-body quantum lock-in amplifier ( http://arxiv.org/abs/2010.06849v1 )

ライセンス: Link先を確認
Min Zhuang, Jiahao Huang, Chaohong Lee(参考訳) 雑音環境下での時間依存信号の高精度検出は物理学におけるユビキタスな問題であり、気象学における重要な課題である。 ロックイン増幅器は、非常にノイズの多い環境から既知のキャリア周波数で交互に信号を抽出できる検出器である。 本稿では,多体量子干渉法と周期的多重パルスをエンポイリングすることで,エンタングルメントエンハンスドロックイン増幅器を実現するプロトコルを提案する。 一般に、量子干渉法は初期化、尋問、読み出しの3段階を含む。 多体量子ロックイン増幅器は、尋問中に適切な周期的多重-$\pi$-pulseシーケンスを追加することで実現できる。 分析の結果, 適切な入力状態と読み出し操作を選択することで, 未知の交互場の周波数と振幅を集団計測によって同時に抽出できることがわかった。 特に、スピン猫状態を入力すると、相互作用に基づく読み出し操作を適用すると、周波数と振幅の測定精度がハイゼンベルク極限に近づく。 さらに、多体量子増幅器は極端確率雑音に対して頑健である。 本研究は,多体量子システムを用いて時間依存信号を測定するための新しい方向を指摘し,ハイゼンベルク限界検出を実現するための実現可能な方法を提案する。

Achieving high-precision detection of time-dependent signals in noisy environment is a ubiquitous issue in physics and a critical task in metrology. Lock-in amplifiers are detectors that can extract alternating signals with a known carrier frequency from an extremely noisy environment. Here, we present a protocol for achieving an entanglement-enhanced lock-in amplifier via empoying many-body quantum interferometry and periodic multiple pulses. Generally, quantum interferometry includes three stages: initialization, interrogation, and readout. The many-body quantum lock-in amplifier can be achieved via adding suitable periodic multiple-$\pi$-pulse sequence during the interrogation. Our analytical results show that, by selecting suitable input states and readout operations, the frequency and amplitude of an unknown alternating field can be simultaneously extracted via population measurements. In particular, if we input spin cat states and apply interaction-based readout operations, the measurement precisions for frequency and amplitude can both approach the Heisenberg limit. Moreover, our many-body quantum amplifier is robust against extreme stochastic noises. Our study may point out a new direction for measuring time-dependent signals with many-body quantum systems, and provides a feasible way for achieving Heisenberg-limited detection of alternating signals.
翻訳日:2023-04-29 02:54:53 公開日:2020-10-14
# エンタングルコヒーレント状態とキャビティ中の2レベル原子を用いた高成功標準量子テレポーテーション

High success standard quantum teleportation using entangled coherent state and two-level atoms in cavities ( http://arxiv.org/abs/2010.06829v1 )

ライセンス: Link先を確認
Ravi Kamal Pandey, Ranjana Prakash, and Hari Prakash(参考訳) ここでは,重ね合わせコヒーレント状態の量子テレポーテーションについて,原理上ほぼ完全であるだけでなく,実験的にも実現可能な新しいアイデアを提案する。 通常の$\sim |\alpha,\alpha\rangle-|-\alpha,-\frac{\alpha}{\sqrt{2}}\rangle-|-\alpha,-\frac{\alpha}{\sqrt{2}}\rangle$ とは対照的に、絡み合ったリソース$\sim |\alpha,\alpha\rangle-|-\alpha,-\alpha \rangle$ を用いる。 Bob は状態 $|\pm \frac{\alpha}{\sqrt{2}}\rangle$ の重畳状態を受け取る。 bobはこれらを偶数または奇数のコヒーレント状態と混合し、$|\pm \frac{\alpha}{\sqrt{2}}\rangle$ を重ね合わせ、$\sim |i,0\rangle \pm |0,i\rangle$,$|i\rangle$ を情報状態とする2モード状態を得る。 ボブは、これらのモードの1つを共振2レベル原子と2つのキャビティで相互作用させることで、テレポートされた情報を得る。 このスキームは、$|\alpha|^2 \simeq 10$に対して$\simeq 0.95$ の平均忠実度を$|\alpha|^2$ とすると、1-\frac{\pi^2}{16|\alpha|^2}+\frac{\pi^2(\pi^2+8)}{256|\alpha|^4}$ となる。

We propose here a new idea for quantum teleportation of superposed coherent state which is not only almost perfect, in principle, but also feasible experimentally. We use entangled resource $\sim |\alpha,\frac{\alpha}{\sqrt{2}}\rangle-|-\alpha,-\frac{\alpha}{\sqrt{2}}\rangle$ in contrast with the usual $\sim |\alpha,\alpha\rangle-|-\alpha,-\alpha \rangle$ (both states unnormalized). Bob receives state which is then superposition of the states $|\pm \frac{\alpha}{\sqrt{2}}\rangle$ . Bob mixes these with even or odd coherent states involving superposition of states $|\pm \frac{\alpha}{\sqrt{2}}\rangle$ to obtain a two-mode state which is one of $\sim |I,0\rangle \pm |0,I\rangle$, $|I\rangle$ being the information state. Bob then obtains the teleported information by using interaction of one of these modes in two cavities with resonant two-level atoms. This scheme results in average fidelity of $\simeq 0.95$ for $|\alpha|^2 \simeq 10$, which increases with $|\alpha|^2$ and tends to 1 asymptotically, varying as $1-\frac{\pi^2}{16|\alpha|^2}+\frac{\pi^2(\pi^2+8)}{256|\alpha|^4}$ for large values of $|\alpha|^2$.
翻訳日:2023-04-29 02:54:35 公開日:2020-10-14
# creutz超放射格子における平坦帯局在

Flat-band localization in Creutz superradiance lattices ( http://arxiv.org/abs/2010.06782v1 )

ライセンス: Link先を確認
Yanyan He, Ruosong Mao, Han Cai, Jun-Xiang Zhang, Yongqiang Li, Luqi Yuan, Shi-Yao Zhu, Da-Wei Wang(参考訳) フラットバンドは回折のないフォトニクスにおいて重要な役割を担い、多体物理学に基本的な関心を惹きつける。 ここでは、可変合成ゲージ場を有するクロイツ超放射格子における原子の集合励起状態のフラットバンド局在化の工学を報告する。 格子ホッピング係数の等級と位相は独立に調整でき、フラットバンドとアハルノフ-ボーム相の状態成分を制御することができる。 フラットバンドを選択的に励起し、合成ゲージ場を用いてフラットバンドの局在を制御する。 本研究は、平らな原子バンドのための室温プラットフォームを提供し、相関したトポロジ資料の探索に有望な応用をもたらす。

Flat bands play an important role in diffraction-free photonics and attract fundamental interest in many-body physics. Here we report the engineering of flat-band localization of collective excited states of atoms in Creutz superradiance lattices with tunable synthetic gauge fields. Magnitudes and phases of the lattice hopping coefficients can be independently tuned to control the state components of the flat band and the Aharonov-Bohm phases. We can selectively excite the flat band and control the flat-band localization with the synthetic gauge field. Our study provides a room-temperature platform for flat bands of atoms and holds promising applications in exploring correlated topological materials.
翻訳日:2023-04-29 02:53:49 公開日:2020-10-14
# 量子化の出現における確率性の関係

Relevance of stochasticity for the emergence of quantization ( http://arxiv.org/abs/2010.06780v1 )

ライセンス: Link先を確認
A. M. Cetto, L. de la Pe\~na, A. Vald\'es-Hern\'andez(参考訳) 確率的量子力学と確率的電磁力学の理論は、標準形式論に隠された量子力学の軽い重要な側面をもたらす。 ここでは、2つの理論の関連性に関するより以前の研究を行い、元々の古典+zpf状態から量子状態へ導く過程における確率性と拡散の役割を示す。 機械系が確率性をもたらす適切な振動背景に従属する他の場合における量子様現象は、そのような状況下でより一般的な量子化の出現を示す可能性がある。

The theories of stochastic quantum mechanics and stochastic electrodynamics bring to light important aspects of the quantum dynamics that are concealed in the standard formalism. Here we take further previous work regarding the connection between the two theories, to exhibit the role of stochasticity and diffusion in the process leading from the originally classical+zpf regime to the quantum regime. Quantumlike phenomena present in other instances in which a mechanical system is subject to an appropriate oscillating background that introduces stochasticity, may point to a more general appearance of quantization under such circumstances.
翻訳日:2023-04-29 02:53:38 公開日:2020-10-14
# 良質な状態転移と最小ポリノミアル

Pretty Good State Transfer and Minimal Polynomials ( http://arxiv.org/abs/2010.06779v1 )

ライセンス: Link先を確認
Christopher M. van Bommel(参考訳) 一対の強スペクトル頂点が最小多項式の点でかなり良い量子状態転移を持つことの条件を調べ、非常によい状態転移を排除できるケースを提供する。 また、非常によい状態遷移を示す単純で非重み付きグラフの新しい例も提示する。 最後に,対称重み付けエッジを追加することで経路の修正を検討し,この場合に適用する。

We examine conditions for a pair of strongly cospectral vertices to have pretty good quantum state transfer in terms of minimal polynomials, and provide cases where pretty good state transfer can be ruled out. We also provide new examples of simple, unweighted graphs exhibiting pretty good state transfer. Finally, we consider modifying paths by adding symmetric weighted edges, and apply these results to this case.
翻訳日:2023-04-29 02:53:29 公開日:2020-10-14
# 光カーゲートを用いたGHz帯超高速単一光子検出

Ultrafast single-photon detection based on optical Kerr gates at GHz rates ( http://arxiv.org/abs/2010.06749v1 )

ライセンス: Link先を確認
Abdul-Hamid Fattah, Assegid Mengistu Flatae, Amr Farrag, and Mario Agio(参考訳) 単一光子の超高速検出は現在、利用可能な単一光子の検出器の時間分解能(数ピコ秒)によって制限されている。 光ゲートはより高速な時間分解能を提供するが、これまでは主にエミッタのアンサンブルに応用されてきた。 そこで本研究では,光ケラシャッター(OKS)を用いた超高速時間分解型単一量子エミッタ検出を,集光下でのGHz速度で実現可能であることを示す。 この技術はピコ秒以下の時間分解能を提供し、ゲート効率は85 \%である。 これらの発見は、単一量子エミッタの超高速ダイナミクスに関する将来の実験的研究の基礎となり、量子ナノフォトニクスや分子物理学に影響を及ぼす。

The ultrafast detection of single photons is currently restricted by the limited time resolution (a few picoseconds) of the available single-photon detectors. Optical gates offer a faster time resolution, but so far they have been mostly applied to ensembles of emitters. Here, we demonstrate through a semi-analytical model that the ultrafast time-resolved detection of single quantum emitters can be possible using an optical-Kerr-shutter (OKS) at GHz rates under focused illumination. This technique provides sub-picosecond time resolution, while keeping a gate efficiency at around 85 \%. These findings lay the ground for future experimental investigations on the ultrafast dynamics of single quantum emitters, with implications for quantum nanophotonics and molecular physics
翻訳日:2023-04-29 02:53:21 公開日:2020-10-14
# マルウェア鑑定ツールによる専門家の信頼向上に向けて

Towards Increasing Trust In Expert Evidence Derived From Malware Forensic Tools ( http://arxiv.org/abs/2010.07188v1 )

ライセンス: Link先を確認
Ian Kennedy, Arosha Bandara, Blaine Price(参考訳) 英国における司法の過失が専門家の疑わしい証拠と関連づけられたことを受け、2008年に法科学監督官の職が創設された。 この役割の主な目的は、実務能力と法医学的手続きの標準を改善することである。 これを達成するために展開された重要な戦略の1つは、法医学の様々な分野により大きなレベルの科学的行為を組み込むことである。 現在、イングランドとウェールズの刑事司法制度を継続するために、実践者が認定される法的な要件は存在しない。 しかし、法医学の規制当局は英国政府にこれを義務付けるよう働きかけている。 本稿では,悪意のあるソフトウェア(マルウェア)が特定されたデジタル法医学調査に科学的手法を組み込むという課題に焦点をあてる。 このような手法の1つの側面は、調査中に動的マルウェア分析を行うためのツールの選択と評価を行うアプローチである。 文献、法律、規制、実践的なニーズに基づいて、この問題に対処するための一連の要件を導き出します。 本稿では,マルウェアを含む調査において,動的マルウェア解析を行うためのソフトウェアツールの評価手法の欠如に対処するために,この手法の欠如に対処するためのフレームワークである"malware analysis tool evaluation framework"(matef)を提案する。

Following a series of high profile miscarriages of justice in the UK linked to questionable expert evidence, the post of the Forensic Science Regulator was created in 2008. The main objective of this role is to improve the standard of practitioner competences and forensic procedures. One of the key strategies deployed to achieve this is the push to incorporate a greater level of scientific conduct in the various fields of forensic practice. Currently there is no statutory requirement for practitioners to become accredited to continue working with the Criminal Justice System of England and Wales. However, the Forensic Science Regulator is lobbying the UK Government to make this mandatory. This paper focuses upon the challenge of incorporating a scientific methodology to digital forensic investigations where malicious software ('malware') has been identified. One aspect of such a methodology is the approach followed to both select and evaluate the tools used to perform dynamic malware analysis during an investigation. Based on the literature, legal, regulatory and practical needs we derive a set of requirements to address this challenge. We present a framework, called the 'Malware Analysis Tool Evaluation Framework' (MATEF), to address this lack of methodology to evaluate software tools used to perform dynamic malware analysis during investigations involving malware and discuss how it meets the derived requirements.
翻訳日:2023-04-29 02:46:53 公開日:2020-10-14
# 量子ウォークに基づく量子ビット量子力学による絡み合い移動・蓄積・検索

Entanglement transfer, accumulation and retrieval via quantum-walk-based qubit-qudit dynamics ( http://arxiv.org/abs/2010.07127v1 )

ライセンス: Link先を確認
Taira Giordani and Luca Innocenti and Alessia Suprano and Emanuele Polino and Mauro Paternostro and Nicol\`o Spagnolo and Fabio Sciarrino and Alessandro Ferraro(参考訳) 高次元システムにおける量子相関の生成と制御は、現在の量子技術の展望において大きな課題である。 このような非古典的な高次元リソースを達成することで、量子暗号、通信、計算の能力が強化される可能性がある。 本研究では,コインとウォーカー自由度を含む量子ウォークに基づく「蓄積」機構を用いて,d$次元系の絡み合った状態を実現するプロトコルを提案する。 量子ウォークの研究の選択は、その一般性と汎用性によって動機付けられ、いくつかの物理系での成功によって補完される。 したがって、量子情報の横断的な役割を考えると、このプロトコルは様々な実験プラットフォームにおける高次元の絡み合い生成を制御するための汎用的なツールである可能性がある。 特に、情報は軌道角運動量と単一光子の偏光度でエンコードされるフォトニック実装の可能性を示す。

The generation and control of quantum correlations in high-dimensional systems is a major challenge in the present landscape of quantum technologies. Achieving such non-classical high-dimensional resources will potentially unlock enhanced capabilities for quantum cryptography, communication and computation. We propose a protocol that is able to attain entangled states of $d$-dimensional systems through a quantum-walk-based {\it transfer \& accumulate} mechanism involving coin and walker degrees of freedom. The choice of investigating quantum walks is motivated by their generality and versatility, complemented by their successful implementation in several physical systems. Hence, given the cross-cutting role of quantum walks across quantum information, our protocol potentially represents a versatile general tool to control high-dimensional entanglement generation in various experimental platforms. In particular, we illustrate a possible photonic implementation where the information is encoded in the orbital angular momentum and polarization degrees of freedom of single photons.
翻訳日:2023-04-29 02:45:51 公開日:2020-10-14
# 光ファイバーループにおけるトポロジカルフロケ界面状態

Topological Floquet interface states in optical fibre loops ( http://arxiv.org/abs/2010.06966v1 )

ライセンス: Link先を確認
Arstan Bisianov and Andre Muniz and Ulf Peschel and Oleg Egorov(参考訳) 1+1)次元離散光子ウォークにおける位相異常フロッケ界面状態の共存を実験的に観察した。 系のカイラル対称性に関する局所的静的摂動に対するこれらの状態の堅牢性および非定常摂動に対する脆弱性を明確に検証する。 ウォークは、動的に可変な相互結合を持つ異なる長さの結合ファイバーループの対に伝播するパルスに基づいて実装される。 位相的インタフェースはループの1つで位相変調によって生成され、界面で異常なフロッケ位相遷移を可能にする。

We experimentally observe a coexisting pair of topological anomalous Floquet interface states in a (1+1)-dimensional Discrete Photon Walk. We explicitly verify the robustness of these states against local static perturbations respecting chiral symmetry of the system, as well as their vulnerability against non-stationary perturbations. The walk is implemented based on pulses propagating in a pair of coupled fibre loops of dissimilar lengths with dynamically variable mutual coupling. The topological interface is created via phase modulation in one of the loops, which allows for an anomalous Floquet topological transition at the interface.
翻訳日:2023-04-29 02:45:02 公開日:2020-10-14
# ウェーブレット基底における量子力学

Quantum Mechanics in Wavelet Basis ( http://arxiv.org/abs/2010.06945v1 )

ライセンス: Link先を確認
Pavan Chawhan and Raghunath Ratabole(参考訳) Daubechiesウェーブレットに基づく量子力学の問題を解析するためのマルチスケールの解法について述べる。 この基底における量子系の波動関数の拡張は、特定の位置における特定の解像度の量子ゆらぎとして各基底関数の自然な解釈を可能にする。 この基底で構築されたハミルトン行列は、異なる長さスケール間のカップリングを記述し、直感的な体積と分解の切り離しを可能にする。 自然長スケールの量子力学的問題では、単純な行列対角化によって問題の近似解が得られる。 本手法は,標準量子機械式単純調和振動子の例を用いて述べる。

We describe a multi-scale resolution approach to analyzing problems in Quantum Mechanics using Daubechies wavelet basis. The expansion of the wavefunction of the quantum system in this basis allows a natural interpretation of each basis function as a quantum fluctuation of a specific resolution at a particular location. The Hamiltonian matrix constructed in this basis describes couplings between different length scales and thus allows for intuitive volume and resolution truncation. In quantum mechanical problems with a natural length scale, one can get approximate solution of the problem through simple matrix diagonalization. We illustrate this approach using the example of the standard quantum mechanical simple harmonic oscillator.
翻訳日:2023-04-29 02:44:52 公開日:2020-10-14
# 量子波インピーダンス法のゼロレンジ特異ポテンシャルへの応用

Application of a quantum wave impedance method for zero-range singular potentials ( http://arxiv.org/abs/2010.06930v1 )

ライセンス: Link先を確認
O. I. Hryhorchak(参考訳) 量子波インピーダンス法の量子力学系への応用として, Con\-tain zero-range potential が検討されている。 本研究は, 量子波インピーダンスの観点から, 上記システムの調査の問題点を再検討する方法を示した。 その結果、散乱と境界状態の問題は、1つの$\delta$, double $\delta$, single $\delta-\delta'$ の系で解決される。 量子波インピーダンスアプローチの助けを借りて、円周定数ポテンシャルと$\delta$-potentialsの任意の組み合わせによる解系の定式化について述べる。

An application of a quantum wave impedance method for a study of quantum-mechanical systems which con\-tain singular zero-range potentials is considered. It was shown how to reformulate the problem of an investigation of mentioned systems in terms of a quantum wave impedance. As a result both the scattering and bound states problems are solved for systems of single $\delta$, double $\delta$ and single $\delta-\delta'$ potentials. The formalization of solving systems with an arbitrary combination of a piesewise constant potential and a $\delta$-potentials with the help of a quantum wave impedance approach is described.
翻訳日:2023-04-29 02:44:44 公開日:2020-10-14
# 二次検出器による2部光学場の非古典性と絡み合い基準II:確率に基づく基準

Non-classicality and entanglement criteria for bipartite optical fields characterized by quadratic detectors II: Criteria based on probabilities ( http://arxiv.org/abs/2010.06927v1 )

ライセンス: Link先を確認
Jan Perina Jr, Vaclav Michalek, Ondrej Haderka(参考訳) 実験光数分布や理論光数分布の確率に基づく多くの非古典性基準を,いくつかの手法を用いて導出した。 導出基準との関係を明らかにし、基本基準を同定する。 これらは、異なる観点からの非古典性の分析を可能にするパラメトリックシステム(「局所的」非古典性、光子相関のペアワイズ特性など)に分類される。 それらの構造を考えると、基準は非古典性を解決する力が異なるグループに分けられる。 リー非古典性深さと非古典性カウントパラメータを用いた非古典性の定量化について述べる。 使用するフィールドモードの数は、予期しない結果を引き起こす重要なパラメータとして識別される。 非古典的深さの決定に必要となる光数(光数)分布のs次形式への適切な線形変換を導出する。 比較のために、ツインビームの実験的な光数ヒストグラムと、ノイズのレベルが異なる再構成された光子数分布の両方に適用した。

Numerous non-classicality criteria based on the probabilities of experimental photocount or theoretical photon-number distributions are derived using several approaches. Relations among the derived criteria are revealed and the fundamental criteria are identified. They are grouped into parametric systems that allow the analysis of the non-classicality from different points of view ('local' non-classicality, pairwise character of photon correlations, etc.). Considering their structure, the criteria may be divided into groups that differ in the power to resolve the non-classicality. Quantification of the non-classicality using the Lee non-classicality depth and the non-classicality counting parameter is discussed. The used number of field's modes is identified as an important parameter that may cause unexpected results. An appropriate linear transformation of a photocount (photon-number) distribution into its s-ordered form, needed for the determination of the non-classicality depth, is derived. For comparison, the derived criteria are applied both to an experimental photocount histogram of a twin beam and the reconstructed photon-number distributions with different levels of the noise.
翻訳日:2023-04-29 02:44:32 公開日:2020-10-14
# 変分量子分類器を用いた粒子物理学の量子機械学習

Quantum Machine Learning for Particle Physics using a Variational Quantum Classifier ( http://arxiv.org/abs/2010.07335v1 )

ライセンス: Link先を確認
Andrew Blance and Michael Spannowsky(参考訳) 量子機械学習は、機械学習の方法を改善するために量子コンピューティングの能力をリリースすることを目的としている。 量子コンピューティング手法と古典的ニューラルネットワーク技術を組み合わせることにより,分類問題の解法における性能向上を目指す。 我々のアルゴリズムは、既存および短期量子デバイス向けに設計されている。 本稿では,ネットワークのパラメータを最適化するために,量子勾配降下法と急勾配降下法を組み合わせた新しいハイブリッド変分量子分類器を提案する。 このアルゴリズムをdi-top final状態の共振探索に適用することにより,従来のニューラルネットワークや非量子最適化法で学習した量子機械学習法よりも優れた学習結果が得られることを見出した。 少量のデータでトレーニングできる分類器は、データ駆動型分類問題の利点を示している。

Quantum machine learning aims to release the prowess of quantum computing to improve machine learning methods. By combining quantum computing methods with classical neural network techniques we aim to foster an increase of performance in solving classification problems. Our algorithm is designed for existing and near-term quantum devices. We propose a novel hybrid variational quantum classifier that combines the quantum gradient descent method with steepest gradient descent to optimise the parameters of the network. By applying this algorithm to a resonance search in di-top final states, we find that this method has a better learning outcome than a classical neural network or a quantum machine learning method trained with a non-quantum optimisation method. The classifiers ability to be trained on small amounts of data indicates its benefits in data-driven classification problems.
翻訳日:2023-04-29 02:37:00 公開日:2020-10-14
# 欧米におけるc-its展開プロジェクトの概要

Overview of C-ITS Deployment Projects in Europe and USA ( http://arxiv.org/abs/2010.07299v1 )

ライセンス: Link先を確認
Areti Kotsi, Evangelos Mitsakis, Dimitris Tzanis(参考訳) 協調インテリジェントトランスポーテーションシステム(c-its)は、車両同士が道路インフラと通信することを可能にする技術である。 これらの革新的な技術により、道路利用者や交通管理者は有用な情報を共有でき、行動の調整を支援する。 ここ数年、C-ITSの展開のためのポリシールールを提供する様々な取り組みや、C-ITSの実装を実証する多数のプロジェクトがヨーロッパとアメリカで行われている。 しかし、C-ITSの配備状況は、二国間レベルではあいまいである。 本研究の目的は,これまでc-itsの分野に到達してきた欧州と米国のマイルストーンの概要を,政策枠組みの特定と報告,および欧州と米国におけるc-itsの展開に関するプロジェクトを通じて提供することである。

Cooperative Intelligent Transportation Systems (C-ITS) are technologies that enable vehicles to communicate with each other and with the road infrastructure. These innovative technologies enable road users and traffic managers to share useful information, assisting the coordination of their actions. During the last years various initiatives providing policy rules for C-ITS deployment and a large number of projects demonstrating C-ITS implementation have taken place in Europe and USA. However, the identification of the status of C-ITS deployment remains ambiguous at binational level. The purpose of this paper is to provide an overview of the European and US milestones, that have been reached so far in the field of C-ITS, by identifying and reporting the policy framework, as well as the projects concerning C-ITS deployment in Europe and USA.
翻訳日:2023-04-29 02:36:19 公開日:2020-10-14
# 高齢者を安全に移動させる。 ACTIVAGE アプローチ

Enabling older citizens safe mobility. The ACTIVAGE approach ( http://arxiv.org/abs/2010.07298v1 )

ライセンス: Link先を確認
Charis Chalkiadakis, Dimitris Tzanis, Evangelos Mitsakis(参考訳) 私たちは永遠の高齢の世界に住んでいる。 高齢者の割合は現代社会で増加しており、高齢者は一般人口の19.20%を占める。 ギリシャでは、過去20年間に高齢者の約7%の増加が見られた。 高齢者が一人になることは決してないため、安全輸送条件の提供に年齢関連障害を考慮すべきである。 交通サービスは高齢者の特別な要求やニーズを満たさなければならないことは重要である。 欧州連合(EU)はACTIVAGEプロジェクトを通じて、IoT(Internet of Things)ソリューションを高齢者のために活用することを目指している。 このプロジェクトのフレームワークでは、ACTIVAGE Safe Mobility Platform (ASMP)が設計されている。 そのため、高齢者とその親戚は旅行に関する情報にアクセスすることができる。 本研究の文脈では,ASMPとそのサービスに関する広範な記述が提供される。

We live in an ever-aging world. The percentage of older citizens increases in modern societies as older citizens represent the 19.20% of the general population. In Greece, an increase of almost 7% of older citizens has been observed in the last twenty years. As old age never comes alone, age-related impairments should be considered in the effort to provide safe transport conditions for them. It is of importance that transportation services have to meet the special requirements and needs of older citizens. European Union, through the ACTIVAGE project, aims at using the Internet of Things (IoT) solutions in favor of older citizens. In the framework of this project, the ACTIVAGE Safe Mobility Platform (ASMP) has been designed. Therefore, older citizens and their relatives have access to information regarding their travels. In the context of this study, an extensive description of the ASMP and the services offered through it is provided.
翻訳日:2023-04-29 02:36:05 公開日:2020-10-14
# 自律走行車技術におけるギリシャの即応性の評価

Assessing the Readiness of Greece for Autonomous Vehicle Technologies ( http://arxiv.org/abs/2010.07297v1 )

ライセンス: Link先を確認
Chrysostomos Mylonas, Charis Chalkiadakis, Alexandros Dolianitis, Dimitris Tzanis, Evangelos Mitsakis(参考訳) 自動運転車のタイムフレームと浸透率に関する議論にもかかわらず、その潜在的な利点と影響は広く認識されている。 したがって、これらの技術を採用し、導入に適応する各国の即応性を評価することは特に重要である。 本稿では,ギリシャの事例を評価することにより,自動運転車技術の導入に関するEUの対応性に関する理解を深めることを目的とする。 そこで、文献レビューを通じて、そのような評価を基準にすべき基準を確立し、分析する。 その後、ギリシャの事例をこれらの基準に基づいて評価し、いかなる評価も支持し正当化する関連資料を見つける。 ギリシャの即応性に関する結果にかかわらず、このような評価は、これらの技術へのスムーズな移行を確実にするために、焦点を絞るべき領域を特定するのに役立つ。 この貢献はギリシャの政策立案者を支援することが期待されている。

Despite the debate regarding the timeframe and rate of penetration of Autonomous Vehicles, their potential benefits and implications have been widely recognized. Therefore, assessing the readiness of individual countries to adopt such technologies and adapt to their introduction is of particular importance. This paper aims to enrich our understanding of EU readiness regarding the introduction of autonomous vehicle technologies by assessing the case of Greece. Thus, through a literature review, the criteria upon which such an assessment should be based are established and analyzed. Subsequently, the case of Greece is assessed based on those criteria by finding relevant sources that support and justify any assessment. Regardless of the outcome concerning the readiness of Greece, such an assessment should help identify areas in which focus should be given in order to ensure a smoother transition to such technologies. This contribution is expected to assist policy makers in Greece.
翻訳日:2023-04-29 02:35:54 公開日:2020-10-14
# C^*$-fermiシステムと詳細バランス

$C^*$-fermi systems and detailed balance ( http://arxiv.org/abs/2010.07296v1 )

ライセンス: Link先を確認
Vitonofrio Crismale, Rocco Duvenhage and Francesco Fidaleo(参考訳) 積と対角状態の体系的理論は、{\mathbb z_2$-graded $*$-algebras と$\mathbb z_2$-graded $c^*$-algebras のテンソル積に対して開発されている。 この目標を達成するための予備ステップとして、$\mathbb Z_2$-graded $C^*$-algebras の {\displaystyle {\it fermionic $C^*$-tensor product} の構成を提供する。 フォン・ノイマン代数間の正線型写像の双対双対が研究され、無限フェルミ格子上の正の問題を解くために応用される。 最後に、これらの結果はフェルミオン的詳細バランス(特定の場合として通常のテンソル積の定義を含む)を、それらの系を複合系の一部として見て対角状態を利用することによって、$\mathbb z_2$ の格付けを持つ一般的な $c^*$-systems で定義するために用いられる。

A systematic theory of product and diagonal states is developed for tensor products of $\mathbb Z_2$-graded $*$-algebras, as well as $\mathbb Z_2$-graded $C^*$-algebras. As a preliminary step to achieve this goal, we provide the construction of a {\it fermionic $C^*$-tensor product} of $\mathbb Z_2$-graded $C^*$-algebras. Twisted duals of positive linear maps between von Neumann algebras are then studied, and applied to solve a positivity problem on the infinite Fermi lattice. Lastly, these results are used to define fermionic detailed balance (which includes the definition for the usual tensor product as a particular case) in general $C^*$-systems with gradation of type $\mathbb Z_2$, by viewing such a system as part of a compound system and making use of a diagonal state.
翻訳日:2023-04-29 02:35:42 公開日:2020-10-14
# kids today: 新型コロナウイルス(covid-19)時代の遠隔教育

Kids Today: Remote Education in the time of COVID-19 ( http://arxiv.org/abs/2010.07295v1 )

ライセンス: Link先を確認
Adriana Mejia Casta\~no, Javier E Hernandez, Angie Mendez Llanos(参考訳) 新型コロナウイルスの感染拡大に伴い、学校や大学が健康や生活を守るために遠隔授業を実施する必要がある。 しかし、多くの学生(教師や親も)は、技術に制限があるため、授業へのアクセスと滞在が困難になり、教育に影響を及ぼす。 コロンビアでは, 全国的に代表される複数のデータセットを用いて, 最終学年における学生の学業成績が, 自治体が集計した技術による影響について報告する。 インターネットアクセスはこれらの結果に強く影響し,インターネット/コンピュータアクセスの改善は学術的性能の向上を反映すると結論付けている。 これらの状況下では、民族または高地(非地理的中央集権自治体)に属することは否定的な影響を与える。 政策について論じる。

With the recent COVID-19 breakup, it became necessary to implement remote classes in schools and universities to safeguard health and life. However, many students (teachers and parents, also) face great difficulties accessing and staying in class due to technology limitations, affecting their education. Using several nationally representative datasets in Colombia, this article documents how the academic performance of students in their final high school year is affected due to technologies, aggregated by municipalities. We conclude that internet access strongly affects these results, and little improvement on the internet/computer access will reflect better academic performance. Under these conditions, belonging to an ethnic group or high rurality (non-geographic centralized municipalities) has a negative impact. Policy implications are discussed.
翻訳日:2023-04-29 02:35:22 公開日:2020-10-14
# 単一捕捉原子とささやき-ガレリーモードマイクロ共鳴器の結合

Coupling a single trapped atom to a whispering-gallery-mode microresonator ( http://arxiv.org/abs/2010.07267v1 )

ライセンス: Link先を確認
Elisa Will, Luke Masters, Arno Rauschenbeutel, Michael Scheucher, J\"urgen Volz(参考訳) 発泡ガレーモードボトルマイクロ共振器の表面から200nmの距離の85Rb原子のトラップを実演した。 原子は、共振器表面から赤色に調整された集束レーザービームを逆反射させることで、光学ポテンシャルに閉じ込められる。 我々は、好適に選択されたパワーで第2レーザービームを重畳して、原子遷移周波数のトラップ誘起光シフトに対処する。 これにより、結合原子共鳴系の励起スペクトルにおける真空ラビ分裂を観測できる。 強い結合状態における単一の原子とささやく-ガリーモードの安定かつ制御された相互作用の最初のデモンストレーションは、量子プロトコルの実装への道を開き、このタイプの共振器に存在するキラル原子-光結合を回収する。

We demonstrate trapping of a single 85Rb atom at a distance of 200 nm from the surface of a whispering-gallery-mode bottle microresonator. The atom is trapped in an optical potential, which is created by retroreflecting a red-detuned focused laser beam from the resonator surface. We counteract the trap-induced light shift of the atomic transition frequency by superposing a second laser beam with suitably chosen power and detuning. This allows us to observe a vacuum Rabi-splitting in the excitation spectrum of the coupled atom-resonator system. This first demonstration of stable and controlled interaction of a single atom with a whispering-gallery-mode in the strong coupling regime opens up the route towards the implementation of quantum protocols and applications that harvest the chiral atom-light coupling present in this class of resonators.
翻訳日:2023-04-29 02:35:09 公開日:2020-10-14
# Strict Quantizationによる非有界量子の古典的限界

Classical Limits of Unbounded Quantities by Strict Quantization ( http://arxiv.org/abs/2010.07264v1 )

ライセンス: Link先を確認
Thomas L. Browning, Benjamin H. Feintzeig, Robin Gates-Redburg, Jonah Librande, and Rory Soiffer(参考訳) 本稿では、c*-代数的厳密量子化の道具を拡張し、量子論における非有界量の古典的限界を分析する。 まず,このアプローチを有限系の単純な場合に導入する。 次に、このアプローチを、数演算子とハミルトニアンに特に注意を向けて、ボソニック量子場理論における非有界量の古典的極限を分析することに応用する。 これらの方法は、表現独立な方法で古典的極限を取るので、同値なフォック空間表現に現れる量を比較することができる。

This paper extends the tools of C*-algebraic strict quantization toward analyzing the classical limits of unbounded quantities in quantum theories. We introduce the approach first in the simple case of finite systems. Then we apply this approach to analyze the classical limits of unbounded quantities in bosonic quantum field theories with particular attention to number operators and Hamiltonians. The methods take classical limits in a representation-independent manner and so allow one to compare quantities appearing in inequivalent Fock space representations.
翻訳日:2023-04-29 02:34:33 公開日:2020-10-14
# インテリジェントトランスポートシステムと協調インテリジェントトランスポートシステムのためのトレーニング機会

Training Opportunities for Intelligent Transport Systems and Cooperative Intelligent Transport Systems ( http://arxiv.org/abs/2010.12037v1 )

ライセンス: Link先を確認
Charis Chalkiadakis, Panagiotis Iordanopoulos, Evangelos Mitsakis(参考訳) インテリジェントトランスポートシステム (ITS) と協調インテリジェントトランスポートシステム (C-ITS) は、主に輸送ネットワークの運用における利益のために、非常に重要である。 輸送ネットワークの運営においてITSとC-ITSが重要であるにもかかわらず、その開発、運用方法、国際的重要性、特にその展開公務員の責任には大きな知識ギャップがある。 このような断片化に取り組むために、ITSとC-ITSの運用と影響に関するオンライントレーニングプラットフォームが、欧州連合(EU)のHorizon 2020基金によるCAPITALプロジェクトのフレームワークとして設計されている。 CAPITAL Online Training Platformの適切な設計のために、容量構築と大規模なオープンオンラインコースの2つの主要なアプローチが研究されている。 本研究は,capital online training platformの設計と文脈に関する洞察を提供する。

Intelligent Transport Systems (ITS) and Cooperative Intelligent Transport Systems (C-ITS) are of high significance, mainly due to the benefits they have in terms of operation of the transport network. Despite ITS and C-ITS importance in the operation of the transport network, there is a major knowledge gap regarding their development, way of operation and significance worldwide and especially among the responsible for their deployment public authorities. In order for such fragmentations to be tackled, an online training platform concerning the operation and impacts of ITS and C-ITS has been designed in the framework of the European Union Horizon 2020 funded CAPITAL project. In order for the proper design of the CAPITAL Online Training Platform, two main approaches have been studied: capacity building and massive open online courses. The present study provides insight regarding the design and the context of the CAPITAL Online Training Platform.
翻訳日:2023-04-29 02:28:34 公開日:2020-10-14
# 知的輸送システムデータのための国家アクセスポイント--概念化からメリット認識・活用へ

National Access Points for Intelligent Transport Systems Data: From Conceptualization to Benefits Recognition and Exploitation ( http://arxiv.org/abs/2010.12036v1 )

ライセンス: Link先を確認
Georgia Aifantopoulou, Chrysostomos Mylonas, Alexandros Dolianitis, Afroditi Stamelou, Vasileios Psonis, Evangelos Mitsakis(参考訳) インテリジェントトランスポートシステム(its)は、トランスポート部門におけるパラダイムシフトの中心的な代表である。 輸送部門がこのデジタル時代に適応した範囲は、適切な信頼性のあるデータの入手に大きく依存している。 現在、利用可能なデータセットの不足など、データ関連のいくつかの制限は、ITSサービスのデプロイを妨げる。 このような制限は、データ収集、処理、共有のシームレスなライフサイクルを可能にする適切に設計されたデータ交換プラットフォームの導入によって克服される可能性がある。 このようなプラットフォームの潜在的利益を認識している欧州連合は、関連する委任規制を通じて、個々の加盟国による国家アクセスポイント(nap)の開発を提案した。 本稿では,ITS エコシステムにおける NAP の役割を確認し,そのようなプラットフォームの設計手法を検討することを目的としており,拡張されたユースケースの起草を通じて NAP の運用プロセスを紹介し,そのメリットを特定のステップに関連付けることを目的とする。

Intelligent Transport Systems (ITS) constitute a core representative of a paradigm shift in the transport sector. The extent to which the transport sector has adapted itself to this digital era relies considerably on the availability of suitable and reliable data. Currently, several data-related limitations, such as the scarcity of available datasets, hinder the deployment of ITS services. Such limitations may be overcome with the deployment of properly designed data exchange platforms that enable a seamless life-cycle of data harvesting, processing, and sharing. The European Union recognizing the potential benefits of such platforms has, through the relevant Delegated Regulations, proposed the development of a National Access Point (NAP) by each individual Member State. This paper aims to ascertain the role of a NAP within the ITS ecosystem, to investigate methodologies used in designing such platforms, and, through the drafting of an extended use case, showcase a NAP operational process and associate possible benefits with specific steps of it.
翻訳日:2023-04-29 02:28:18 公開日:2020-10-14
# アフリカ3:アフリカ第四次産業革命を可能にするコンチネンタルネットワークモデル

Africa 3: A Continental Network Model to Enable the African Fourth Industrial Revolution ( http://arxiv.org/abs/2010.12020v1 )

ライセンス: Link先を確認
Olasupo O. Ajayi, Antoine B. Bagula, Hloniphani M. Maluleke(参考訳) 協力はアフリカ諸国の発展を早めるのに役立つと広く認識されている。 第4次産業革命に乗じて、アフリカは医療サービス、教育システム、社会経済基盤の急速な発展を達成できる。 アフリカ大陸では、多くの概念的なフレームワークが提案されているが、データストレージや処理に使用されるクラウドインフラストラクチャや、そのようなフレームワークが構築される基盤となるネットワークインフラストラクチャを、多くは引き離している。 この研究は、そのデータセンターを通じてアフリカ諸国を相互接続するための大陸ネットワークモデルを示す。 提案されたモデルは多層ネットワークエンジニアリングアプローチに基づいており、まずアフリカ諸国をクラスタリング技術のハイブリッドな組み合わせを用いてデータセンタのクラスタに分類し、次に、変数蒸発率をサポートするために修正されたstench pheromoneによるantコロニー最適化を利用して、クラスタ全体と大陸全体の理想的なネットワークパスを見つける。 このモデルは、クラスタリングやルーティングを行う際に、各アフリカ諸国の地理空間的位置、人口規模、データセンター数、大陸間ケーブルの着地を考慮に入れている。 ベンチマークの目的で、パス選択アルゴリズムは、得られたクラスタとアフリカ連合の地域クラスタの両方でテストされた。

It is widely recognised that collaboration can help fast-track the development of countries in Africa. Leveraging on the fourth industrial revolution, Africa can achieve accelerated development in health care services, educational systems and socio-economic infrastructures. While a number of conceptual frameworks have been proposed for the African continent, many have discounted the Cloud infrastructure used for data storage and processing, as well as the underlying network infrastructure upon which such frameworks would be built. This work therefore presents a continental network model for interconnecting nations in Africa through its data centres. The proposed model is based on a multilayer network engineering approach, which first groups African countries into clusters of data centres using a hybrid combination of clustering techniques; then utilizes Ant Colony Optimization with Stench Pheromone, that is modified to support variable evaporation rates, to find the ideal network path(s) across the clusters and the continent as a whole. The propsoed model takes into consideration the geo-spatial location, population sizes, data centre counts and intercontinental submarine cable landings of each African country, when clustering and routing. For bench-marking purposes, the path selection algorithm was tested on both the obtained clusters and African Union's regional clusters.
翻訳日:2023-04-29 02:27:51 公開日:2020-10-14
# コメント:「点のような欠陥のある環境での高調波発振器」。 Phys Scr \textbf{94} (2019) 125301

Comment on: "Harmonic oscillator in an environment with a pointlike defect". Phys. Scr. \textbf{94} ( 2019) 125301 ( http://arxiv.org/abs/2010.07701v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 点状欠陥のある環境における高調波発振器の最近の結果を分析する。 著者らが予測した発振器周波数は条件付き可解固有値方程式の厳密解の誤解釈によるものである。 また、これらの著者によって導かれる正確な固有値は、異なる量子力学モデルに属するため意味がない。

We analyze recent results for a harmonic oscillator in an environment with a pointlike defect. We show that the allowed oscillator frequencies predicted by the authors stem from a misinterpretation of the exact solutions of a conditionally solvable eigenvalue equation. Also the exact eigenvalues derived by those authors are meaningless because they belong to different quantum-mechanical models.
翻訳日:2023-04-29 02:27:27 公開日:2020-10-14
# チャーミングクォーコニウムのスペクトル研究のための2つの数値スキームの比較

Comparison Between Two Numerical Schemes to Study the Spectra of Charmed Quarkonium ( http://arxiv.org/abs/2010.07436v1 )

ライセンス: Link先を確認
A. M. Yasser, G. S. Hassan, Samah K. Elshamndy, M. S. Ali(参考訳) 重クォーク-反クォーク相互作用に対する放射型シュリンガー方程式の解を、三角行列の無限系に対する固有値問題の解に還元する2つの数値計算法を開発した。 我々の見解は、非相対論的クォークモデルと量子色力学(QCD)理論の両方の要素を埋め込むことで、スペクトル、半径、等重クォーコニアメーソンの静的特性を調べるための適切な数値法を見つけることに依存する。 これらのスキームの応用によりチャーモニウム (charmonium) マルチレットの質量スペクトルが得られ、これはParticle Data Group (PDG) の実験的なプロファイルと比較された。 さらに、チャーモニウムの様々な境界状態の正規化された放射波関数が表される。 本研究により、各数値レシピと繰り返し数Nと半径距離の収束性について検討する。 得られた数値処理は, チャームドクォーコニウム境界状態プロファイルの研究に信頼性があることがわかったが, これらの手法の1つは, 実験と収束解析の高精度比較において, 他方よりも有利であることがわかった。

Two numerical methods are developed to reduce the solution of the radial Schr\"odinger equation for proposed heavy quark-antiquark interactions, into the solution of the eigenvalue problem for the infinite system of tridiagonal matrices. Our perspective is a numerical approach relies on finding the proper numerical method to investigate the static properties of heavy quarkonia-mesons, such as spectrum, radius ... etc., with implantation of both the nonrelativistic quark model and the ingredients of the quantum chromodynamics (QCD) theory. The application of these proposed schemes resulted in mass spectra of charmed-quarkonium (charmonium) multiplets, which are compared with the experimental published profiles of Particle Data Group (PDG). Besides, the normalized radial wave-functions of the charmonium various bound states are represented. The convergence of each numerical recipe versus the iteration number N and the radial distance is investigated through this work. Although it was observed that our numerical treatments are reliable to study charmed Quarkonium bound states profile, we found that one of these proposed techniques is favored over the other in terms of high precision comparisons with experiments and convergence analysis.
翻訳日:2023-04-29 02:27:18 公開日:2020-10-14
# 統計力学モデルのための完全可解アンサッツ

An exactly solvable ansatz for statistical mechanics models ( http://arxiv.org/abs/2010.07423v1 )

ライセンス: Link先を確認
Isaac H. Kim(参考訳) 本稿では,2次元統計力学モデルの分割関数を近似する「正確に解ける」確率分布の族を提案する。 これらの分布は平均場フレームワークの外側に厳密に存在するが、その自由エネルギーはシステムサイズに線形にスケールする時間で計算できる。 この構成は、限界問題に対する単純だが非自明な解に基づいている。 局所一貫した境界確率の集合に同時に2つの非線形制約を定式化する。 (i)一貫した大域的確率分布の存在を保証し、 (ii) 最大大域エントロピーの正確な表現が導かれる。

We propose a family of "exactly solvable" probability distributions to approximate partition functions of two-dimensional statistical mechanics models. While these distributions lie strictly outside the mean-field framework, their free energies can be computed in a time that scales linearly with the system size. This construction is based on a simple but nontrivial solution to the marginal problem. We formulate two non-linear constraints on the set of locally consistent marginal probabilities that simultaneously (i) ensure the existence of a consistent global probability distribution and (ii) lead to an exact expression for the maximum global entropy.
翻訳日:2023-04-29 02:26:37 公開日:2020-10-14
# 格子ゲージ理論におけるゲージ対称性違反量子相転移

Gauge-Symmetry Violation Quantum Phase Transition in Lattice Gauge Theories ( http://arxiv.org/abs/2010.07338v1 )

ライセンス: Link先を確認
Maarten Van Damme, Jad C. Halimeh, Philipp Hauke(参考訳) ゲージ対称性はサブアトミック物質の記述において重要な役割を果たす。 消滅する光子質量、長距離クーロン法則、漸近自由度はすべてゲージ不変性によるものである。 近年,量子シミュレータを用いたゲージ理論の微視的再構成が進展している。 ゲージ対称性が量子デバイスで近似している場合、実際にゲージ理論を量子シミュレーションするのか? ここでは、量子電磁力学に似たパラダイムゲージ理論を肯定する形で、この疑問に答える。 解析的には、少なくとも指数関数的に正確である正規化ゲージ対称性を導出する。 さらに, 熱力学的極限における位相図の数値計算により, ゲージ理論の長距離挙動は, 鋭い量子相転移に達するとのみ損なわれることがわかった。 この挙動は、コヒーレントゲージがカップルを壊すヒッグス粒子に質量を与えるエネルギーペナルティ項によって実現される。 この結果はゲージ理論の量子シミュレーションに有効性を与えるだけでなく、ゲージ対称性が自然界でどのように現れるかという根本的な問題にも寄与する。

Gauge symmetry plays a key role in our description of subatomic matter. The vanishing photon mass, the long-ranged Coulomb law, and asymptotic freedom are all due to gauge invariance. Recent years have seen tantalizing progress in the microscopic reconstruction of gauge theories in engineered quantum simulators. Yet, many of these are plagued by a fundamental question: When gauge symmetry is only approximate in the quantum device, do we actually quantum-simulate a gauge theory? Here, we answer this question in the affirmative for a paradigm gauge theory akin to quantum electrodynamics. Analytically, we derive a renormalized gauge symmetry that is at least exponentially accurate. Further, numerically computing the phase diagram in the thermodynamic limit, we find that the long-distance behavior of the gauge theory is only compromised upon reaching a sharp quantum phase transition. This behavior is enabled by an energy penalty term, which lends a mass to the Higgs boson to which the coherent gauge breaking couples. Our results not only lend validity to ongoing gauge-theory quantum simulations, they also probe the fundamental question of how gauge symmetry could emerge in nature.
翻訳日:2023-04-29 02:25:55 公開日:2020-10-14
# 2次元ポーズと3次元動作の相乗的再構成による野生多人数ビデオ撮影

Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space Multi-Person Video Motion Capture in the Wild ( http://arxiv.org/abs/2001.05613v2 )

ライセンス: Link先を確認
Takuya Ohashi, Yosuke Ikegami, Yoshihiko Nakamura(参考訳) 多くの研究がマーカーレスモーションキャプチャを調査しているが、この技術は実際のスポーツやコンサートには適用されていない。 本稿では,広空間・多人数環境における複数カメラの時空間精度とスムース性を備えたマーカーレスモーションキャプチャ手法を提案する。 提案手法は,各人の3次元ポーズを予測し,マルチカメラ画像のバウンディングボックスを十分に小さく決定する。 この予測と、ヒト骨格モデルに基づく時空間フィルタリングは、人物の3次元再構成を可能にし、高い精度を示す。 次に、正確な3D再構成を用いて、次のフレーム内の各カメラ画像のバウンディングボックスを予測する。 これは3Dモーションから2Dポーズへのフィードバックであり、ビデオモーションキャプチャ全体のパフォーマンスに相乗効果を与える。 提案手法を各種データセットと実スポーツフィールドを用いて評価した。 実験の結果,平均関節位置誤差 (mpjpe) は31.5mmであり, 運動範囲 (rom) を満たしながら動的に移動する5人に対して, 正部品 (pcp) の割合は99.5%であった。 ビデオデモ、データセット、および追加の資料がプロジェクトのページに掲載されています。

Although many studies have investigated markerless motion capture, the technology has not been applied to real sports or concerts. In this paper, we propose a markerless motion capture method with spatiotemporal accuracy and smoothness from multiple cameras in wide-space and multi-person environments. The proposed method predicts each person's 3D pose and determines the bounding box of multi-camera images small enough. This prediction and spatiotemporal filtering based on human skeletal model enables 3D reconstruction of the person and demonstrates high-accuracy. The accurate 3D reconstruction is then used to predict the bounding box of each camera image in the next frame. This is feedback from the 3D motion to 2D pose, and provides a synergetic effect on the overall performance of video motion capture. We evaluated the proposed method using various datasets and a real sports field. The experimental results demonstrate that the mean per joint position error (MPJPE) is 31.5 mm and the percentage of correct parts (PCP) is 99.5% for five people dynamically moving while satisfying the range of motion (RoM). Video demonstration, datasets, and additional materials are posted on our project page.
翻訳日:2023-01-11 00:49:29 公開日:2020-10-14
# 決定・反現実的説明・戦略行動

Decisions, Counterfactual Explanations and Strategic Behavior ( http://arxiv.org/abs/2002.04333v3 )

ライセンス: Link先を確認
Stratis Tsirtsis and Manuel Gomez-Rodriguez(参考訳) データ駆動予測モデルは、意思決定を知らせるためにますます使われるようになっているため、意思決定者は、これらの決定に何が変わるかを理解するのに役立つ説明を提供するべきだ、と論じられている。 しかし、個人が戦略的に投資し、有益な決定を受ける機会を最大化するために上記の反事実的説明を使う可能性についてはほとんど議論されていない。 本稿では,このような戦略的状況下での実用性の観点から最適である政策と反実的説明を見つけることを目的とする。 まず、事前に定義されたポリシーを考えると、最適対実的説明の集合を見つける問題はNPハードであることが示される。 そして, 対応する目的が非減少であり, 準モジュラリティを満たすことを示し, これにより, 標準グリーディアルゴリズムが近似保証を楽しむことができることを示す。 さらに、最適ポリシーと対実的説明のセットの両方を共同で見つけるという問題は、非単調部分モジュラ函数の最大化に還元されることも示している。 その結果,最近のランダム化アルゴリズムを用いて問題を解くことが可能となり,近似保証も提供される。 最後に,問題定式化にマトロイド制約を組み込むことにより,反事実的説明の最適セットの多様性を増大させ,集団のスペクトル全体にわたって個人にインセンティブを与え,自己改善を可能にすることを実証する。 合成・実貸・クレジットカードデータを用いた実験により,提案手法が提案する非事実的説明や意思決定方針が,複数の競合ベースラインよりも高い有用性が得られることを示す。

As data-driven predictive models are increasingly used to inform decisions, it has been argued that decision makers should provide explanations that help individuals understand what would have to change for these decisions to be beneficial ones. However, there has been little discussion on the possibility that individuals may use the above counterfactual explanations to invest effort strategically and maximize their chances of receiving a beneficial decision. In this paper, our goal is to find policies and counterfactual explanations that are optimal in terms of utility in such a strategic setting. We first show that, given a pre-defined policy, the problem of finding the optimal set of counterfactual explanations is NP-hard. Then, we show that the corresponding objective is nondecreasing and satisfies submodularity and this allows a standard greedy algorithm to enjoy approximation guarantees. In addition, we further show that the problem of jointly finding both the optimal policy and set of counterfactual explanations reduces to maximizing a non-monotone submodular function. As a result, we can use a recent randomized algorithm to solve the problem, which also offers approximation guarantees. Finally, we demonstrate that, by incorporating a matroid constraint into the problem formulation, we can increase the diversity of the optimal set of counterfactual explanations and incentivize individuals across the whole spectrum of the population to self improve. Experiments on synthetic and real lending and credit card data illustrate our theoretical findings and show that the counterfactual explanations and decision policies found by our algorithms achieve higher utility than several competitive baselines.
翻訳日:2023-01-02 02:13:19 公開日:2020-10-14
# deep s$^3$pr: deep generative modelを用いた同時音源分離と位相検索

Deep S$^3$PR: Simultaneous Source Separation and Phase Retrieval Using Deep Generative Models ( http://arxiv.org/abs/2002.05856v2 )

ライセンス: Link先を確認
Christopher A. Metzler and Gordon Wetzstein(参考訳) 本稿では,同時音源分離と位相検索(s$^3$pr)の問題を紹介し,解決する。 s$^3$prは、顕微鏡、無線通信、散乱媒体によるイメージングなど、多くの応用領域において重要だがほとんど解決されていない問題である。 一般に、S$^3$PRは極めて過小評価され、非凸であり、解決が難しい。 本研究では, 深部生成モデルの範囲内にある解を制限することにより, S$3$PRを解くのに十分な探索空間を制限できることを実証する。

This paper introduces and solves the simultaneous source separation and phase retrieval (S$^3$PR) problem. S$^3$PR is an important but largely unsolved problem in a number application domains, including microscopy, wireless communication, and imaging through scattering media, where one has multiple independent coherent sources whose phase is difficult to measure. In general, S$^3$PR is highly under-determined, non-convex, and difficult to solve. In this work, we demonstrate that by restricting the solutions to lie in the range of a deep generative model, we can constrain the search space sufficiently to solve S$^3$PR.
翻訳日:2023-01-01 04:21:27 公開日:2020-10-14
# オーディションと触覚を用いたロバストなロボット注ぐ

Robust Robotic Pouring using Audition and Haptics ( http://arxiv.org/abs/2003.00342v2 )

ライセンス: Link先を確認
Hongzhuo Liang and Chuangchuang Zhou and Shuang Li and Xiaojian Ma and Norman Hendrich and Timo Gerkmann and Fuchun Sun and Marcus Stoffel and Jianwei Zhang(参考訳) 液体高さのロバストで正確な推定は、サービスロボットの注水作業の重要な部分である。 しかし、視覚に基づく方法はオクルードされた環境では失敗することが多いが、音声ベースの方法はノイズの多い環境ではうまく機能しない。 そこで我々は, オーディションと触覚の両方の入力を条件に, 液体の高さを頑健に予測できるマルチモーダル注水ネットワーク (MP-Net) を提案する。 MP-Netは自己コンパイル型マルチモーダルインダストデータセットでトレーニングされている。 このデータセットには、3種類のターゲットコンテナのオーディオとフォース/トーク測定による記録を流す300のロボットが含まれている。 ロボットノイズを挿入することで音声データも強化する。 収集したデータセットと多種多様なロボット実験でmp-netを評価した。 ネットワークトレーニングの結果とロボット実験の両方で、MP-Netはノイズやタスクや環境の変化に対して堅牢であることを示した。 さらに、予測された高さと力のデータを組み合わせて、対象容器の形状を推定する。

Robust and accurate estimation of liquid height lies as an essential part of pouring tasks for service robots. However, vision-based methods often fail in occluded conditions while audio-based methods cannot work well in a noisy environment. We instead propose a multimodal pouring network (MP-Net) that is able to robustly predict liquid height by conditioning on both audition and haptics input. MP-Net is trained on a self-collected multimodal pouring dataset. This dataset contains 300 robot pouring recordings with audio and force/torque measurements for three types of target containers. We also augment the audio data by inserting robot noise. We evaluated MP-Net on our collected dataset and a wide variety of robot experiments. Both network training results and robot experiments demonstrate that MP-Net is robust against noise and changes to the task and environment. Moreover, we further combine the predicted height and force data to estimate the shape of the target container.
翻訳日:2022-12-27 20:44:25 公開日:2020-10-14
# 畳み込みニューラルネットワークに基づく画像分類器の収束率について

On the rate of convergence of image classifiers based on convolutional neural networks ( http://arxiv.org/abs/2003.01526v3 )

ライセンス: Link先を確認
M. Kohler, A. Krzyzak and B. Walter(参考訳) 畳み込みニューラルネットワークに基づく画像分類器を定義し、最適な誤分類リスクに対する推定の誤分類リスクの収束率を分析する。 アポステリオ確率の滑らかさと構造に関する適切な仮定の下では、画像の次元に依存しない収束率が示される。 これは、画像分類において畳み込みニューラルネットワークによる次元の呪いを回避可能であることを証明している。

Image classifiers based on convolutional neural networks are defined, and the rate of convergence of the misclassification risk of the estimates towards the optimal misclassification risk is analyzed. Under suitable assumptions on the smoothness and structure of the aposteriori probability a rate of convergence is shown which is independent of the dimension of the image. This proves that in image classification it is possible to circumvent the curse of dimensionality by convolutional neural networks.
翻訳日:2022-12-26 21:58:06 公開日:2020-10-14
# 有害と考えられる選択性:DNNにおけるクラス選択性の因果的影響の評価

Selectivity considered harmful: evaluating the causal impact of class selectivity in DNNs ( http://arxiv.org/abs/2003.01262v3 )

ライセンス: Link先を確認
Matthew L. Leavitt and Ari Morcos(参考訳) 個々のニューロンの性質は、組み込まれた生物学的および人工的なニューラルネットワークを理解するためにしばしば分析される。 クラス選択性(class selectivity) - ニューロンの反応が刺激やデータサンプルの異なるクラスにまたがってどのように異なるかを定義することで、この目的のために一般的に用いられる。 しかし、ディープニューラルネットワーク(dnn)が個々のユニットでクラス選択性を学ぶのに必要か、あるいは十分かという疑問は残っていない。 ネットワーク機能に対するクラス選択性の因果的影響を,クラス選択性に対して直接的あるいは正則化することにより検討した。 この正規化器を使用して畳み込みニューラルネットワークのユニット間のクラス選択率を削減することで、Tiny ImageNetでトレーニングされたResNet18では、テスト精度が2%以上向上した。 CIFAR10でトレーニングされたResNet20では、テスト精度に影響を与えずに2.5の係数でクラス選択率を減らし、テスト精度をわずか($\sim$2%)下げるだけで、ほぼゼロに削減できる。 対照的に、クラス選択性を高めるための正規化は、すべてのモデルとデータセットでテスト精度を著しく低下させた。 これらの結果から,個々の単位のクラス選択性は十分でなく,厳密には必要ではなく,DNNのパフォーマンスを損なうことさえあることが示された。 また、DNNが機能するメカニズムの表現として、単一ユニットの特性に焦点を当てる際にも注意を喚起する。

The properties of individual neurons are often analyzed in order to understand the biological and artificial neural networks in which they're embedded. Class selectivity-typically defined as how different a neuron's responses are across different classes of stimuli or data samples-is commonly used for this purpose. However, it remains an open question whether it is necessary and/or sufficient for deep neural networks (DNNs) to learn class selectivity in individual units. We investigated the causal impact of class selectivity on network function by directly regularizing for or against class selectivity. Using this regularizer to reduce class selectivity across units in convolutional neural networks increased test accuracy by over 2% for ResNet18 trained on Tiny ImageNet. For ResNet20 trained on CIFAR10 we could reduce class selectivity by a factor of 2.5 with no impact on test accuracy, and reduce it nearly to zero with only a small ($\sim$2%) drop in test accuracy. In contrast, regularizing to increase class selectivity significantly decreased test accuracy across all models and datasets. These results indicate that class selectivity in individual units is neither sufficient nor strictly necessary, and can even impair DNN performance. They also encourage caution when focusing on the properties of single units as representative of the mechanisms by which DNNs function.
翻訳日:2022-12-26 21:41:48 公開日:2020-10-14
# 分散学習と民主学習: 哲学と研究課題

Distributed and Democratized Learning: Philosophy and Research Challenges ( http://arxiv.org/abs/2003.09301v2 )

ライセンス: Link先を確認
Minh N. H. Nguyen, Shashi Raj Pandey, Kyi Thar, Nguyen H. Tran, Mingzhe Chen, Walid Saad, and Choong Seon Hong(参考訳) 大量のデータと処理能力が利用できるため、現在の人工知能(AI)システムは複雑なタスクを解くのに効果的である。 しかし、さまざまな分野でAIが成功したにもかかわらず、人工知能のような人間の認知能力を真に模倣できるAIシステムを設計する問題は、ほとんど未解決のままである。 その結果、多くのデバイス横断AIアプリケーションは、従来の集中型学習システムから、複数の複雑な学習タスクを協調的に実行できる大規模分散AIシステムに移行する必要がある。 本稿では,学習能力に制限がある分散学習エージェントの自己組織化に依存する大規模分散学習システムの構築を目標とする,民主化学習(dem-ai)と呼ばれる新しいデザイン哲学を提案する。 これに対応して、提案するDem-AIシステムにおける学習エージェントの特殊グループは、階層構造で自己組織化され、より効率的に学習タスクを遂行する。 このように、Dem-AI学習システムは、我々が専門的、一般化されたプロセスと呼ぶ2つのプロセスの基盤となる双対性に基づいて進化し、制御することができる。 本稿では,様々な学際分野に触発された未来のDem-AIシステムを実現するためのガイドラインとして,参照設計を提案する。 そこで, 塑性-安定性遷移機構, 自己組織化階層構造, 特殊学習, 一般化など, 設計の基盤となる4つのメカニズムを紹介する。 最後に、既存の学習アプローチに可能な拡張と新たな課題を確立し、dem-aiの新しい設定により、よりスケーラブルで柔軟な、より強力な学習システムを提供する。

Due to the availability of huge amounts of data and processing abilities, current artificial intelligence (AI) systems are effective in solving complex tasks. However, despite the success of AI in different areas, the problem of designing AI systems that can truly mimic human cognitive capabilities such as artificial general intelligence, remains largely open. Consequently, many emerging cross-device AI applications will require a transition from traditional centralized learning systems towards large-scale distributed AI systems that can collaboratively perform multiple complex learning tasks. In this paper, we propose a novel design philosophy called democratized learning (Dem-AI) whose goal is to build large-scale distributed learning systems that rely on the self-organization of distributed learning agents that are well-connected, but limited in learning capabilities. Correspondingly, inspired by the societal groups of humans, the specialized groups of learning agents in the proposed Dem-AI system are self-organized in a hierarchical structure to collectively perform learning tasks more efficiently. As such, the Dem-AI learning system can evolve and regulate itself based on the underlying duality of two processes which we call specialized and generalized processes. In this regard, we present a reference design as a guideline to realize future Dem-AI systems, inspired by various interdisciplinary fields. Accordingly, we introduce four underlying mechanisms in the design such as plasticity-stability transition mechanism, self-organizing hierarchical structuring, specialized learning, and generalization. Finally, we establish possible extensions and new challenges for the existing learning approaches to provide better scalable, flexible, and more powerful learning systems with the new setting of Dem-AI.
翻訳日:2022-12-22 09:23:30 公開日:2020-10-14
# 時間に一貫性のない予知剤の迅速な変化検出。 ヒューマンセンサーとサイバー物理システム

Quickest Change Detection of Time Inconsistent Anticipatory Agents. Human-Sensor and Cyber-Physical Systems ( http://arxiv.org/abs/2003.10910v3 )

ライセンス: Link先を確認
Vikram Krishnamurthy(参考訳) 行動経済学では、人間の意思決定者は将来の決定(計画)の確率を考慮して決定を行う予測エージェントとしてモデル化される。 予測エージェントと統計的検出の相互作用を含むサイバー物理システムについて考察する。 センシング装置は、予測剤の判定を記録する。 これらの決定を前提に、センシング装置は予測系の変化を迅速に検出できるのか? 決定論的観点から考えると、予測モデルはベルマンの最適性原理が成立しない時間的矛盾の意味である。 適切な形式主義は、サブゲームナッシュ均衡である。 予測エージェントと逐次的迅速検出結果の相互作用は、最も迅速な変化検出方針の異常な(非凸な)構造であることを示す。 本手法は,状況認識システムと予測的意思決定者が逐次的検出器と対話する上で有用な枠組みを提供する。

In behavioral economics, human decision makers are modeled as anticipatory agents that make decisions by taking into account the probability of future decisions (plans). We consider cyber-physical systems involving the interaction between anticipatory agents and statistical detection. A sensing device records the decisions of an anticipatory agent. Given these decisions, how can the sensing device achieve quickest detection of a change in the anticipatory system? From a decision theoretic point of view, anticipatory models are time inconsistent meaning that Bellman's principle of optimality does not hold. The appropriate formalism is the subgame Nash equilibrium. We show that the interaction between anticipatory agents and sequential quickest detection results in unusual (nonconvex) structure of the quickest change detection policy. Our methodology yields a useful framework for situation awareness systems and anticipatory human decision makers interacting with sequential detectors.
翻訳日:2022-12-21 00:41:55 公開日:2020-10-14
# 画像から3Dのシーンを再現するAtlas

Atlas: End-to-End 3D Scene Reconstruction from Posed Images ( http://arxiv.org/abs/2003.10432v3 )

ライセンス: Link先を確認
Zak Murez, Tarrence van As, James Bartolozzi, Ayan Sinha, Vijay Badrinarayanan, and Andrew Rabinovich(参考訳) RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。 従来の3次元再構成手法は、シーンの完全な3次元モデルを推定する前に、深度マップの中間表現に依存する。 3dへの直接回帰がより効果的であると仮定する。 2D CNNは、各画像から特徴を独立して抽出し、カメラ内在性および外在性を用いて後方投影し、ボクセル体積に蓄積する。 蓄積後、3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。 さらに、3次元モデルのセマンティックセグメンテーションは、重要な計算をせずに得られる。 このアプローチはScannetデータセットで評価され,最先端のベースライン(ディープ・マルチビューステレオと従来のTSDF融合)を定量的・定性的に大きく上回る。 rgbのみの入力でこの問題を未解決なため,深度センサを用いた従来の手法と3d意味セグメンテーションを比較した。

We present an end-to-end 3D reconstruction method for a scene by directly regressing a truncated signed distance function (TSDF) from a set of posed RGB images. Traditional approaches to 3D reconstruction rely on an intermediate representation of depth maps prior to estimating a full 3D model of a scene. We hypothesize that a direct regression to 3D is more effective. A 2D CNN extracts features from each image independently which are then back-projected and accumulated into a voxel volume using the camera intrinsics and extrinsics. After accumulation, a 3D CNN refines the accumulated features and predicts the TSDF values. Additionally, semantic segmentation of the 3D model is obtained without significant computation. This approach is evaluated on the Scannet dataset where we significantly outperform state-of-the-art baselines (deep multiview stereo followed by traditional TSDF fusion) both quantitatively and qualitatively. We compare our 3D semantic segmentation to prior methods that use a depth sensor since no previous work attempts the problem with only RGB input.
翻訳日:2022-12-21 00:25:10 公開日:2020-10-14
# TraDE: 密度推定用変換器

TraDE: Transformers for Density Estimation ( http://arxiv.org/abs/2004.02441v2 )

ライセンス: Link先を確認
Rasool Fakoor, Pratik Chaudhari, Jonas Mueller, Alexander J. Smola(参考訳) 連続および離散値データを用いた自己回帰密度推定のための自己注意型アーキテクチャであるTraDEを提案する。 本モデルでは, ペナライズド最大度目標を用いて, 推定値からのサンプルがトレーニングデータ分布に類似していることを保証する。 自己注意の使用は、モデルが各共変量に必要なものを超える自己回帰過程の間、十分な条件付き統計を保持する必要はないことを意味する。 標準的な表式および画像データベンチマークでは、TraDEはフロー推定器の正規化や再帰的自己回帰モデルのような既存の手法よりもはるかに優れた密度推定を生成する。 しかし、ホールドアウトデータにおけるログの類似性は、これらの推定が現実世界のアプリケーションでどれだけ有用であるかを部分的に反映しているだけである。 密度推定器を系統的に評価するために, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおけるノイズに対する堅牢性などのタスクスイートを提示し, それらのシナリオでTraDEがうまく機能することを実証する。

We present TraDE, a self-attention-based architecture for auto-regressive density estimation with continuous and discrete valued data. Our model is trained using a penalized maximum likelihood objective, which ensures that samples from the density estimate resemble the training data distribution. The use of self-attention means that the model need not retain conditional sufficient statistics during the auto-regressive process beyond what is needed for each covariate. On standard tabular and image data benchmarks, TraDE produces significantly better density estimates than existing approaches such as normalizing flow estimators and recurrent auto-regressive models. However log-likelihood on held-out data only partially reflects how useful these estimates are in real-world applications. In order to systematically evaluate density estimators, we present a suite of tasks such as regression using generated samples, out-of-distribution detection, and robustness to noise in the training data and demonstrate that TraDE works well in these scenarios.
翻訳日:2022-12-16 05:43:52 公開日:2020-10-14
# 確率Ising Block Modelの厳密な回復とシャープしきい値

Exact recovery and sharp thresholds of Stochastic Ising Block Model ( http://arxiv.org/abs/2004.05944v3 )

ライセンス: Link先を確認
Min Ye(参考訳) 確率ブロックモデル(SBM)は、頂点上の下層のクラスタ構造に従ってエッジが生成されるランダムグラフモデルである。 一方、(強磁性)イジングモデルでは、2つの頂点がグラフに連結されている場合、同じラベルが割り当てられる可能性が高いように、基礎となるグラフ構造に従って頂点に$\pm 1$のラベルを割り当てる。 SBMでは、Isingモデルにおいて、基礎となるクラスタをグラフ構造から復元することを目的としており、その基盤となるグラフ構造をi.d.サンプル(頂点のラベル)に基づいて復元することが広く研究されている。 本稿では,SBMとIsingモデルの自然な構成を提案し,これをSIBM(Stochastic Ising Block Model)と呼ぶ。 SIBMでは、SBMを最も単純な形式で、$n$頂点を2つの等サイズのクラスタに分割し、エッジをクラスタ内の確率$p$とクラスタ間の$q$と独立に接続する。 次に、SBM が生成したグラフ $G$ をイジングモデルの基盤となるグラフとし、そこから $m$ i.i.d. サンプルを引き出す。 目的は、グラフを$G$で観測することなく、Isingモデルによって生成されたサンプルからSBM内の2つのクラスタを正確に回収することである。 本論文の主旨として, sibm のパラメータから $m^\ast$ を計算可能な, 適切に選択された条件において, この厳密な回復問題のサンプル複雑性に基づいて, 鋭い閾値 $m^\ast$ を定式化する。 すると、$m\ge m^\ast$のとき、$m$のサンプルから$o(n)$の時間でクラスタを復元できる。 m<m^\ast$の場合、SIBMのパラメータのほとんどすべての選択に対して、リカバリアルゴリズムの成功確率は、$0$ as $n\to\infty$に近づく。

The stochastic block model (SBM) is a random graph model in which the edges are generated according to the underlying cluster structure on the vertices. The (ferromagnetic) Ising model, on the other hand, assigns $\pm 1$ labels to vertices according to an underlying graph structure in a way that if two vertices are connected in the graph then they are more likely to be assigned the same label. In SBM, one aims to recover the underlying clusters from the graph structure while in Ising model, an extensively-studied problem is to recover the underlying graph structure based on i.i.d. samples (labelings of the vertices). In this paper, we propose a natural composition of SBM and the Ising model, which we call the Stochastic Ising Block Model (SIBM). In SIBM, we take SBM in its simplest form, where $n$ vertices are divided into two equal-sized clusters and the edges are connected independently with probability $p$ within clusters and $q$ across clusters. Then we use the graph $G$ generated by the SBM as the underlying graph of the Ising model and draw $m$ i.i.d. samples from it. The objective is to exactly recover the two clusters in SBM from the samples generated by the Ising model, without observing the graph $G$. As the main result of this paper, we establish a sharp threshold $m^\ast$ on the sample complexity of this exact recovery problem in a properly chosen regime, where $m^\ast$ can be calculated from the parameters of SIBM. We show that when $m\ge m^\ast$, one can recover the clusters from $m$ samples in $O(n)$ time as the number of vertices $n$ goes to infinity. When $m<m^\ast$, we further show that for almost all choices of parameters of SIBM, the success probability of any recovery algorithms approaches $0$ as $n\to\infty$.
翻訳日:2022-12-14 00:28:46 公開日:2020-10-14
# 深層機械で計算した関数の空間

Space of Functions Computed by Deep-Layered Machines ( http://arxiv.org/abs/2004.08930v3 )

ライセンス: Link先を確認
Alexander Mozeika and Bo Li and David Saad(参考訳) 深層ニューラルネットワークやブール回路を含むランダム層マシンによって計算される関数の空間について検討する。 繰り返しおよび層依存アーキテクチャ上で計算されたブール関数の分布を調べた結果、両方のモデルで同じであることが判明した。 使用する初期条件や計算要素によって,大深度限界で計算される関数の空間を特徴付けるとともに,ブール関数のマクロエントロピーが単調に増大するか,あるいは増大とともに減少しているかを示す。

We study the space of functions computed by random-layered machines, including deep neural networks and Boolean circuits. Investigating the distribution of Boolean functions computed on the recurrent and layer-dependent architectures, we find that it is the same in both models. Depending on the initial conditions and computing elements used, we characterize the space of functions computed at the large depth limit and show that the macroscopic entropy of Boolean functions is either monotonically increasing or decreasing with the growing depth.
翻訳日:2022-12-12 00:06:05 公開日:2020-10-14
# hubモデルと変種を用いたネットワーク推論の識別性と一貫性

Identifiability and consistency of network inference using the hub model and variants ( http://arxiv.org/abs/2004.09709v3 )

ライセンス: Link先を確認
Yunpeng Zhao, Peter Bickel and Charles Weko(参考訳) 統計的ネットワーク分析は主に、観測されたネットワークのパラメータを推測することに焦点を当てる。 多くの応用、特に社会科学において、観測されたデータは個々の被験者によって形成されたグループである。 これらのアプリケーションでは、ネットワーク自体が統計モデルのパラメータである。 Zhao and Weko (2019) は、グループ化行動から暗黙のネットワークを推論するハブモデルと呼ばれるモデルベースのアプローチを提案する。 ハブモデルは、グループの各メンバーがハブと呼ばれるグループのメンバーによってまとめられると仮定する。 ハブモデルはベルヌーイ混合モデルの族に属する。 パラメータの識別性はベルヌーイ混合モデルにとって非常に難しい問題である。 本稿では,ハブモデルパラメータの同定可能性と軽度条件下での推定一貫性を示す。 さらに、各ノードが他の個人とは独立に自発的に現れるハブレス群を可能にするモデルコンポーネントを導入することにより、ハブモデルを一般化する。 この追加コンポーネントをnullコンポーネントと呼んでいます。 この新しいモデルは、ハブモデルと混合モデルの縮退した場合、ベルヌーイ積の間のギャップを橋渡しする。 新しいモデルでは、識別可能性と一貫性も証明されている。 理論的結果を示すための数値的研究が提供されている。

Statistical network analysis primarily focuses on inferring the parameters of an observed network. In many applications, especially in the social sciences, the observed data is the groups formed by individual subjects. In these applications, the network is itself a parameter of a statistical model. Zhao and Weko (2019) propose a model-based approach, called the hub model, to infer implicit networks from grouping behavior. The hub model assumes that each member of the group is brought together by a member of the group called the hub. The hub model belongs to the family of Bernoulli mixture models. Identifiability of parameters is a notoriously difficult problem for Bernoulli mixture models. This paper proves identifiability of the hub model parameters and estimation consistency under mild conditions. Furthermore, this paper generalizes the hub model by introducing a model component that allows hubless groups in which individual nodes spontaneously appear independent of any other individual. We refer to this additional component as the null component. The new model bridges the gap between the hub model and the degenerate case of the mixture model -- the Bernoulli product. Identifiability and consistency are also proved for the new model. Numerical studies are provided to demonstrate the theoretical results.
翻訳日:2022-12-11 07:41:16 公開日:2020-10-14
# 摂動を用いた機械翻訳におけるジェンダー問題の自動同定

Automatically Identifying Gender Issues in Machine Translation using Perturbations ( http://arxiv.org/abs/2004.14065v2 )

ライセンス: Link先を確認
Hila Gonen and Kellie Webster(参考訳) 機械翻訳へのニューラルメソッドの適用の成功は、コミュニティにとって大きな品質向上をもたらした。 これらの改善により、ジェンダー付き言語のモデリングや治療など、多くの課題が指摘されている。 従来の研究では, 実世界のデータからサンプルを抽出し, デプロイシステムの課題を探るための新しい手法が開発されている。 提案手法は,3言語ファミリーの4言語を対象とした評価ベンチマークをコンパイルし,研究を促進するために公開している。 私たちのベンチマークの例では、モデル表現がジェンダー化されている場所と、これらの性別化表現が下流アプリケーションで生じる意図しない結果を公開しています。

The successful application of neural methods to machine translation has realized huge quality advances for the community. With these improvements, many have noted outstanding challenges, including the modeling and treatment of gendered language. While previous studies have identified issues using synthetic examples, we develop a novel technique to mine examples from real world data to explore challenges for deployed systems. We use our method to compile an evaluation benchmark spanning examples for four languages from three language families, which we publicly release to facilitate research. The examples in our benchmark expose where model representations are gendered, and the unintended consequences these gendered representations can have in downstream application.
翻訳日:2022-12-08 13:43:27 公開日:2020-10-14
# 認知行動療法セッションの終末評価のための特徴融合戦略

Feature Fusion Strategies for End-to-End Evaluation of Cognitive Behavior Therapy Sessions ( http://arxiv.org/abs/2005.07809v2 )

ライセンス: Link先を確認
Zhuohao Chen, Nikolaos Flemotomos, Victor Ardulov, Torrey A. Creed, Zac E. Imel, David C. Atkins, Shrikanth Narayanan(参考訳) 認知行動療法 (Cognitive Behavioral Therapy, CBT) は、様々な問題や顧客集団にまたがって、その効果を広く実証的に支援する対話的環境で実施される、精神保健に関する目標指向精神療法である。 cbtセッションの品質は通常、予め定義されたセッションレベルの動作コードを手動で割り当てる訓練された人間レートによって評価される。 本稿では,音声音声をダイアリゼーション・書き起こしテキストに変換し,言語的特徴を抽出してCBTセッションを自動的にコードするエンドツーエンドパイプラインを開発する。 単語レベルと発話レベルの両方の機能を調査し,それらを統合するための機能融合戦略を提案する。 発話レベルには、ダイアログアクトタグと、Motivational Interviewing (MI)と呼ばれる別の有名なトーク精神療法から引き出された行動コードが含まれる。 CBT符号推定のための発話レベルタグを用いて単語ベースの特徴量を増やす新しい手法を提案する。 実験により、我々の新しい融合戦略は、個別に使用する場合と直接結合することにより融合した場合の両方で、研究対象の全ての特徴を上回ります。 また,CBTセッションにおける多言語対話の先導性を考えると,文分割モジュールを組み込むことで,システム全体の改善が期待できることがわかった。

Cognitive Behavioral Therapy (CBT) is a goal-oriented psychotherapy for mental health concerns implemented in a conversational setting with broad empirical support for its effectiveness across a range of presenting problems and client populations. The quality of a CBT session is typically assessed by trained human raters who manually assign pre-defined session-level behavioral codes. In this paper, we develop an end-to-end pipeline that converts speech audio to diarized and transcribed text and extracts linguistic features to code the CBT sessions automatically. We investigate both word-level and utterance-level features and propose feature fusion strategies to combine them. The utterance level features include dialog act tags as well as behavioral codes drawn from another well-known talk psychotherapy called Motivational Interviewing (MI). We propose a novel method to augment the word-based features with the utterance level tags for subsequent CBT code estimation. Experiments show that our new fusion strategy outperforms all the studied features, both when used individually and when fused by direct concatenation. We also find that incorporating a sentence segmentation module can further improve the overall system given the preponderance of multi-utterance conversational turns in CBT sessions.
翻訳日:2022-12-02 23:27:48 公開日:2020-10-14
# 自動プルクエント選択によるキャッチ注意

Catching Attention with Automatic Pull Quote Selection ( http://arxiv.org/abs/2005.13263v2 )

ライセンス: Link先を確認
Tanner Bohn, Charles X. Ling(参考訳) 読者のエンゲージメントに関する理解を深めるために,自動引用選択という新たな課題を提唱する。 プル引用(pull quotes)は、記事から選択されたテキストのスパンを持つ読者の注意を引くために特別に設計された記事の構成要素である。 このタスクは、いくつかの側面による要約やクリックベイト識別といった関連するタスクとは異なる。 我々は,手作り特徴からニューラル・ミックス・オブ・エキスパート,クロスタスクモデルに至るまで,タスクに対するベースラインアプローチのスペクトルを確立する。 これらのモデルから個々の特徴や埋め込み次元のコントリビューションを調べることで、プル引用の予期せぬ特性を発見し、読者の関心事に対する重要な疑問に答える。 人間の評価は、このタスクの独特さと選択モデルの適合性もサポートする。 プル引用は楽しみと読みやすさを高め、読者の認識を形作り、学習を促進する。 この作業を再現するコードはhttps://github.com/tannerbohn/automaticpullquoteselectionで入手できる。

To advance understanding on how to engage readers, we advocate the novel task of automatic pull quote selection. Pull quotes are a component of articles specifically designed to catch the attention of readers with spans of text selected from the article and given more salient presentation. This task differs from related tasks such as summarization and clickbait identification by several aspects. We establish a spectrum of baseline approaches to the task, ranging from handcrafted features to a neural mixture-of-experts to cross-task models. By examining the contributions of individual features and embedding dimensions from these models, we uncover unexpected properties of pull quotes to help answer the important question of what engages readers. Human evaluation also supports the uniqueness of this task and the suitability of our selection models. The benefits of exploring this problem further are clear: pull quotes increase enjoyment and readability, shape reader perceptions, and facilitate learning. Code to reproduce this work is available at https://github.com/tannerbohn/AutomaticPullQuoteSelection.
翻訳日:2022-11-28 08:13:05 公開日:2020-10-14
# 主観的質問応答:主観的視点における変圧器の内部動作の解読

Subjective Question Answering: Deciphering the inner workings of Transformers in the realm of subjectivity ( http://arxiv.org/abs/2006.08342v2 )

ライセンス: Link先を確認
Lukas Muttenthaler(参考訳) 主観性を理解するには、共通知識の領域を超えた推論スキルが必要である。 感情を処理し、意見マイニングを行うには、機械学習モデルが必要です。 この作業では、最近リリースされたSpat-selection Question Answering、すなわちSubjQAのデータセットを利用しています。 SubjQAは、6つの異なるドメインのレビュー項に対応する主観的な意見を求める質問を含む最初のQAデータセットである。 したがって、これらの主観的な問いに答えるためには、学習者は様々なドメインの意見やプロセス感情を抽出し、さらに、段落から抽出した知識を対応する質問の自然言語発話と整合させ、同時にqaタスクの難易度を高める必要がある。 この論文の第一の目的はトランスフォーマーベースのアーキテクチャの内部構造(すなわち潜在表現)を調査し、まだよく理解されていない「ブラックボックス」モデルの理解を深めることであった。 真の答えスパンに関するトランスフォーマーの隠された表現は、誤った予測に対応する表現よりもベクトル空間内でより密集している。 この観察は、客観的および主観的な質問の上位3つのトランスフォーマー層にまたがって行われ、一般的には層次元の関数として増加する。 また、真の回答スパントークンに関する潜在空間における隠れ表現間の高いコサイン類似性を達成する確率は、不正確な回答スパン予測よりも正確である。 これらの結果はダウンストリームアプリケーションに決定的な意味を持ち、なぜニューラルネットワークがミスを犯したのか、どの点において、そのミスが起きたのかを知ることが不可欠である(例えば、ラベル付きデータを必要としない解答の正確性を自動的に予測するなど)。

Understanding subjectivity demands reasoning skills beyond the realm of common knowledge. It requires a machine learning model to process sentiment and to perform opinion mining. In this work, I've exploited a recently released dataset for span-selection Question Answering, namely SubjQA. SubjQA is the first QA dataset that contains questions that ask for subjective opinions corresponding to review paragraphs from six different domains. Hence, to answer these subjective questions, a learner must extract opinions and process sentiment for various domains, and additionally, align the knowledge extracted from a paragraph with the natural language utterances in the corresponding question, which together enhance the difficulty of a QA task. The primary goal of this thesis was to investigate the inner workings (i.e., latent representations) of a Transformer-based architecture to contribute to a better understanding of these not yet well understood "black-box" models. Transformer's hidden representations, concerning the true answer span, are clustered more closely in vector space than those representations corresponding to erroneous predictions. This observation holds across the top three Transformer layers for both objective and subjective questions and generally increases as a function of layer dimensions. Moreover, the probability to achieve a high cosine similarity among hidden representations in latent space concerning the true answer span tokens is significantly higher for correct compared to incorrect answer span predictions. These results have decisive implications for down-stream applications, where it is crucial to know about why a neural network made mistakes, and in which point, in space and time the mistake has happened (e.g., to automatically predict correctness of an answer span prediction without the necessity of labeled data).
翻訳日:2022-11-26 00:29:11 公開日:2020-10-14
# 資源制約エッジ推論における通信計算のトレードオフ

Communication-Computation Trade-Off in Resource-Constrained Edge Inference ( http://arxiv.org/abs/2006.02166v2 )

ライセンス: Link先を確認
Jiawei Shao, Jun Zhang(参考訳) 人工知能(AI)の最近のブレークスルー、特にディープニューラルネットワーク(DNN)は、科学と技術のあらゆる分野に影響を与えている。 特に、エッジデバイスでDNNベースのサービスを提供するための主要なアプリケーションシナリオとして、エッジAIが想定されている。 本稿では,資源制約のあるデバイスにおけるエッジ推論の効果的な手法を提案する。 エッジコンピューティングサーバが支援するデバイスエッジコカンファレンスに注目し、オンデバイスモデルの計算コストと中間機能をエッジサーバに転送する通信コストの間の重要なトレードオフを調査します。 1) オンデバイスモデルを決定するためのモデル分割点選択, (2) オンデバイス計算と結果として生じる通信オーバーヘッドを同時に削減するための通信認識モデル圧縮, (3) 中間機能のタスク指向エンコーディングにより通信オーバーヘッドがさらに低減される3段階のフレームワークを提案する。 実験により,提案フレームワークがより良いトレードオフを達成し,ベースラインメソッドよりも推論遅延を大幅に低減できることが実証された。

The recent breakthrough in artificial intelligence (AI), especially deep neural networks (DNNs), has affected every branch of science and technology. Particularly, edge AI has been envisioned as a major application scenario to provide DNN-based services at edge devices. This article presents effective methods for edge inference at resource-constrained devices. It focuses on device-edge co-inference, assisted by an edge computing server, and investigates a critical trade-off among the computation cost of the on-device model and the communication cost of forwarding the intermediate feature to the edge server. A three-step framework is proposed for the effective inference: (1) model split point selection to determine the on-device model, (2) communication-aware model compression to reduce the on-device computation and the resulting communication overhead simultaneously, and (3) task-oriented encoding of the intermediate feature to further reduce the communication overhead. Experiments demonstrate that our proposed framework achieves a better trade-off and significantly reduces the inference latency than baseline methods.
翻訳日:2022-11-25 17:34:53 公開日:2020-10-14
# MFPP:ブラックボックスモデル記述のための形態的フラクタル摂動ピラミッド

MFPP: Morphological Fragmental Perturbation Pyramid for Black-Box Model Explanations ( http://arxiv.org/abs/2006.02659v3 )

ライセンス: Link先を確認
Qing Yang, Xia Zhu, Jong-Kae Fwu, Yun Ye, Ganmei You and Yuan Zhu(参考訳) ディープニューラルネットワーク(dnn)は最近、医療診断や自動運転など、多くの先進的で多様なタスクに応用され、使用されている。 深層モデルの透明性が欠如しているため、DNNは人間によって説明できない予測についてしばしば批判される。 本稿では,説明可能なai問題を解くための新しい形態素断片摂動ピラミッド(mfpp)法を提案する。 特に,DNNの内部構造を理解することなく,DNNの出力に責任を持つ入力領域を識別するブラックボックス方式に着目した。 MFPP法では,入力画像をマルチスケールのフラグメントに分割し,フラグメントを摂動としてランダムにマスクしてサリエンシマップを生成し,ブラックボックスモデルの予測結果に対する各ピクセルの意義を示す。 既存の入力サンプリング摂動法と比較して,ピラミッド構造の破片の方が有効であることが判明した。 入力画像の形態情報をその意味情報と一致するようによりよく探索でき、DNN内部では何の価値も必要としない。 我々は,MFPPが複数のDNNモデルおよびデータセット上で,最先端(SOTA)ブラックボックス解釈法の性能に適合し,その性能を超えることを質的に定量的に証明する。

Deep neural networks (DNNs) have recently been applied and used in many advanced and diverse tasks, such as medical diagnosis, automatic driving, etc. Due to the lack of transparency of the deep models, DNNs are often criticized for their prediction that cannot be explainable by human. In this paper, we propose a novel Morphological Fragmental Perturbation Pyramid (MFPP) method to solve the Explainable AI problem. In particular, we focus on the black-box scheme, which can identify the input area that is responsible for the output of the DNN without having to understand the internal architecture of the DNN. In the MFPP method, we divide the input image into multi-scale fragments and randomly mask out fragments as perturbation to generate a saliency map, which indicates the significance of each pixel for the prediction result of the black box model. Compared with the existing input sampling perturbation method, the pyramid structure fragment has proved to be more effective. It can better explore the morphological information of the input image to match its semantic information, and does not need any value inside the DNN. We qualitatively and quantitatively prove that MFPP meets and exceeds the performance of state-of-the-art (SOTA) black-box interpretation method on multiple DNN models and datasets.
翻訳日:2022-11-25 10:11:19 公開日:2020-10-14
# 選挙人大学に触発されたグラフ生成のためのヒューリスティック半教師付き学習

Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College ( http://arxiv.org/abs/2006.06469v2 )

ライセンス: Link先を確認
Chen Li, Xutan Peng, Hao Peng, Jianxin Li, Lihong Wang, Philip S. Yu, Lifang He(参考訳) 近年、半教師付きセットアップで顕著な成功を収めたため、グラフベースのアルゴリズムが注目されている。 モデルの性能を改善するために、以前の研究は入力グラフのトポロジーを変換することを学ぶ。 しかし、これらは元のノードとエッジの最適化にのみ焦点が当てられ、既存のデータを拡張する方向は未検討のままである。 本稿では,グラフ信号の生成過程をシミュレーションすることにより,新しいノードとエッジを自動的に拡張し,高密度サブグラフ内のラベル類似性を洗練する,新しいヒューリスティックな前処理手法である選挙大学(elco)を提案する。 高品質なラベル付きデータでトレーニングセットを安定的に拡大することで、我々のフレームワークは下流モデルに効果的に恩恵をもたらすことができる。 ELCOの汎用性と実用性を正当化するため、人気のあるGraph Convolution NetworkとGraph Attention Networkと組み合わせて、3つの標準データセットで広範な評価を行う。 テストされたすべてのセットアップにおいて、本手法はベースモデルの平均スコアを4.7ポイントという大きなマージンで向上させ、最先端を一貫して上回っている。 再現性を保証するため、コードとデータをhttps://github.com/RingBDStack/ELCOでリリースしています。

Recently, graph-based algorithms have drawn much attention because of their impressive success in semi-supervised setups. For better model performance, previous studies learn to transform the topology of the input graph. However, these works only focus on optimizing the original nodes and edges, leaving the direction of augmenting existing data unexplored. In this paper, by simulating the generation process of graph signals, we propose a novel heuristic pre-processing technique, namely ELectoral COllege (ELCO), which automatically expands new nodes and edges to refine the label similarity within a dense subgraph. Substantially enlarging the original training set with high-quality generated labeled data, our framework can effectively benefit downstream models. To justify the generality and practicality of ELCO, we couple it with the popular Graph Convolution Network and Graph Attention Network to perform extensive evaluations on three standard datasets. In all setups tested, our method boosts the average score of base models by a large margin of 4.7 points, as well as consistently outperforms the state-of-the-art. We release our code and data on https://github.com/RingBDStack/ELCO to guarantee reproducibility.
翻訳日:2022-11-23 05:14:01 公開日:2020-10-14
# 深層学習によるホルスタイン・フリース牛の視覚的識別

Visual Identification of Individual Holstein-Friesian Cattle via Deep Metric Learning ( http://arxiv.org/abs/2006.09205v3 )

ライセンス: Link先を確認
William Andrew, Jing Gao, Siobhan Mullan, Neill Campbell, Andrew W Dowsey, Tilo Burghardt(参考訳) ホルシュタイン・フリーズ産の牛は、チューリングの反応拡散系から生じたものと類似した、個々の特性の白黒のコートパターンを示す。 この研究は、畳み込みニューラルネットワークとディープメトリック学習技術を介して個々のホルスタイン・フライシャンの視覚検出と生体認証を自動化するために、これらの自然なマーキングを利用する。 既存のアプローチは,様々なメンテナンス要件を持つマーキング,タグ,ウェアラブルに頼っているのに対して,オープン・ハード・セッティングにおける頭上画像からの個々の動物の自動検出,局所化,識別のための完全ハンズオフ手法を提案する。 そこで本研究では,ソフトマックスに基づく相反三重項損失法を用いて同定問題に対処し,固定群れパラダイムに対する手法を詳細に評価する。 ディープメトリック学習システムは、システムトレーニング中の多くの牛を識別し再同定する場合でも、強力なパフォーマンスを示すことが分かり、人口のわずか半分でトレーニングした場合、93.8%の精度が得られる。 本研究は, 牛の非侵入的モニタリングを, 精密農業や自動生産性, 健康, 福祉のモニタリングに応用し, 行動分析, 疫病発生追跡などの獣医学的な研究に役立てることを目的としている。 ソースコード、ネットワークウェイト、データセットの主要部分は公開されています。

Holstein-Friesian cattle exhibit individually-characteristic black and white coat patterns visually akin to those arising from Turing's reaction-diffusion systems. This work takes advantage of these natural markings in order to automate visual detection and biometric identification of individual Holstein-Friesians via convolutional neural networks and deep metric learning techniques. Existing approaches rely on markings, tags or wearables with a variety of maintenance requirements, whereas we present a totally hands-off method for the automated detection, localisation, and identification of individual animals from overhead imaging in an open herd setting, i.e. where new additions to the herd are identified without re-training. We propose the use of SoftMax-based reciprocal triplet loss to address the identification problem and evaluate the techniques in detail against fixed herd paradigms. We find that deep metric learning systems show strong performance even when many cattle unseen during system training are to be identified and re-identified -- achieving 93.8% accuracy when trained on just half of the population. This work paves the way for facilitating the non-intrusive monitoring of cattle applicable to precision farming and surveillance for automated productivity, health and welfare monitoring, and to veterinary research such as behavioural analysis, disease outbreak tracing, and more. Key parts of the source code, network weights and datasets are available publicly.
翻訳日:2022-11-20 21:05:14 公開日:2020-10-14
# 組合せ最適化と整数分解のための論理的合成・ハードウェア高速化・制限ボルツマンマシン

Logically Synthesized, Hardware-Accelerated, Restricted Boltzmann Machines for Combinatorial Optimization and Integer Factorization ( http://arxiv.org/abs/2007.13489v2 )

ライセンス: Link先を確認
Saavan Patel, Philip Canoza, Sayeef Salahuddin(参考訳) 制限ボルツマンマシン(Restricted Boltzmann Machine, RBM)は、NP-Hard組合せ最適化問題や整数分解など、様々な困難なタスクを解くことのできる確率的ニューラルネットワークである。 RBMアーキテクチャも非常にコンパクトで、重みやバイアスは極めて少ない。 これにより、そのような問題の基底状態を見つけるための単純で並列化可能なサンプリングアルゴリズムとともに、RBMはハードウェアアクセラレーションに対応できる。 しかしながら、これらの問題に対するRBMのトレーニングは、トレーニングアルゴリズムが大きな問題サイズで失敗する傾向にあり、効率的なマッピングを見つけるのが難しいため、大きな課題となる。 本稿では, RBMを組み合わさって, 大容量の問題をフルフォームで学習する必要性を回避する手法を提案する。 また, RBM のハードウェア化を図り, FPGA ベースのアクセラレータにアルゴリズムを効率的にマッピングできるようにする手法を提案する。 この加速器を用いることで、ハードウェアアクセラレーションによる16ビット数のファクタライゼーションを10000倍の速度向上と32倍の電力改善で高精度に行うことができる。

The Restricted Boltzmann Machine (RBM) is a stochastic neural network capable of solving a variety of difficult tasks such as NP-Hard combinatorial optimization problems and integer factorization. The RBM architecture is also very compact; requiring very few weights and biases. This, along with its simple, parallelizable sampling algorithm for finding the ground state of such problems, makes the RBM amenable to hardware acceleration. However, training of the RBM on these problems can pose a significant challenge, as the training algorithm tends to fail for large problem sizes and efficient mappings can be hard to find. Here, we propose a method of combining RBMs together that avoids the need to train large problems in their full form. We also propose methods for making the RBM more hardware amenable, allowing the algorithm to be efficiently mapped to an FPGA-based accelerator. Using this accelerator, we are able to show hardware accelerated factorization of 16 bit numbers with high accuracy with a speed improvement of 10000x and a power improvement of 32x.
翻訳日:2022-11-20 18:34:30 公開日:2020-10-14
# 新聞犯罪物語におけるギルトの主観評価のモデル化

Modeling Subjective Assessments of Guilt in Newspaper Crime Narratives ( http://arxiv.org/abs/2006.09589v2 )

ライセンス: Link先を確認
Elisa Kreiss, Zijian Wang, Christopher Potts(参考訳) 犯罪報告は、公的な認識と社会政策を形成する力を持つジャーナリズムの一般的な形態である。 これらのレポートの言語は読者にどのように作用するのか? 我々は、米国の英語新聞の注釈付き犯罪記事のSuspectGuilt Corpusでこの問題に対処しようとしている。 SuspectGuiltでは、アノテーターは短い犯罪記事を読み、主要な容疑者の罪悪感に関するテキストレベルの評価と、その記事のどの部分が彼らの評価に最も影響を与えたかを示すスパンレベルの注釈を提供した。 したがって、SuspectGuiltは、言語的選択が主観的罪悪感の判断にどのように影響するかをリッチな図示を提供する。 さらに,SuspectGuiltを用いて予測モデルの学習と評価を行い,テキストレベルの評価とスパンレベルのアノテーションからジャンル事前学習と共同指導の恩恵を受けることを示す。 このようなモデルは、犯罪報告の社会効果を理解するためのツールとして使われるかもしれない。

Crime reporting is a prevalent form of journalism with the power to shape public perceptions and social policies. How does the language of these reports act on readers? We seek to address this question with the SuspectGuilt Corpus of annotated crime stories from English-language newspapers in the U.S. For SuspectGuilt, annotators read short crime articles and provided text-level ratings concerning the guilt of the main suspect as well as span-level annotations indicating which parts of the story they felt most influenced their ratings. SuspectGuilt thus provides a rich picture of how linguistic choices affect subjective guilt judgments. In addition, we use SuspectGuilt to train and assess predictive models, and show that these models benefit from genre pretraining and joint supervision from the text-level ratings and span-level annotations. Such models might be used as tools for understanding the societal effects of crime reporting.
翻訳日:2022-11-19 20:44:04 公開日:2020-10-14
# 神経異方性方向

Neural Anisotropy Directions ( http://arxiv.org/abs/2006.09717v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) 本研究では,深層分類器の帰納的バイアス形成におけるネットワークアーキテクチャの役割を分析する。 この目的のために我々は,線形分離可能な分布のクラスを分類する,非常に単純な問題に注目し,分布の判別的特徴の方向に応じて,この単純な課題を解決するのに多くの最先端の深層畳み込みニューラルネットワーク(cnns)が驚くほど困難であることを示す。 次に、アーキテクチャの方向性誘導バイアスをカプセル化するベクトルを神経異方性方向(NAD)と定義する。 これらのベクトルは各アーキテクチャに特有であり、それゆえシグネチャとして振る舞うが、特定の特徴に基づいて入力データを分離するネットワークの好みを符号化する。 いくつかのCNNアーキテクチャにおいてNADを効率よく同定し,その方向誘導バイアスを明らかにする方法を提案する。 さらに、CIFAR-10データセットでは、NADはCNNが異なるクラス間で識別するために使用する特徴を特徴付ける。

In this work, we analyze the role of the network architecture in shaping the inductive bias of deep classifiers. To that end, we start by focusing on a very simple problem, i.e., classifying a class of linearly separable distributions, and show that, depending on the direction of the discriminative feature of the distribution, many state-of-the-art deep convolutional neural networks (CNNs) have a surprisingly hard time solving this simple task. We then define as neural anisotropy directions (NADs) the vectors that encapsulate the directional inductive bias of an architecture. These vectors, which are specific for each architecture and hence act as a signature, encode the preference of a network to separate the input data based on some particular features. We provide an efficient method to identify NADs for several CNN architectures and thus reveal their directional inductive biases. Furthermore, we show that, for the CIFAR-10 dataset, NADs characterize the features used by CNNs to discriminate between different classes.
翻訳日:2022-11-19 19:07:06 公開日:2020-10-14
# 脳MRIデータ分類のための3次元CNNの解釈

Interpretation of 3D CNNs for Brain MRI Data Classification ( http://arxiv.org/abs/2006.15969v2 )

ライセンス: Link先を確認
Maxim Kan, Ruslan Aliev, Anna Rudenko, Nikita Drobyshev, Nikita Petrashen, Ekaterina Kondrateva, Maxim Sharaev, Alexander Bernstein, Evgeny Burnaev(参考訳) 深層学習は多くの医療画像解析タスクに高い可能性を示している。 ニューラルネットワークは、大規模な事前処理や特徴生成なしに、フルサイズのデータを扱うことができる。 近年の研究では、MRIでは畳み込みニューラルネットワーク(CNN)を用いて特定の脳領域における形態的差異が発見されている。 しかし、既存のモデルの解釈は興味のある領域に基づいており、画像全体のvoxel-wise画像解釈に拡張することはできない。 現在の研究では、若者の健康な被験者の大規模なオープンソースデータセットの分類タスクについて検討している。 本稿では,T1脳MRIにおける拡散テンソル画像の性別差に関する過去の知見を拡張した。 本稿では,3つの解釈手法(Meaningful Perturbations, Grad CAM, Guided Backpropagation)の結果を比較し,オープンソースライブラリにコントリビュートする。

Deep learning shows high potential for many medical image analysis tasks. Neural networks can work with full-size data without extensive preprocessing and feature generation and, thus, information loss. Recent work has shown that the morphological difference in specific brain regions can be found on MRI with the means of Convolution Neural Networks (CNN). However, interpretation of the existing models is based on a region of interest and can not be extended to voxel-wise image interpretation on a whole image. In the current work, we consider the classification task on a large-scale open-source dataset of young healthy subjects -- an exploration of brain differences between men and women. In this paper, we extend the previous findings in gender differences from diffusion-tensor imaging on T1 brain MRI scans. We provide the voxel-wise 3D CNN interpretation comparing the results of three interpretation methods: Meaningful Perturbations, Grad CAM and Guided Backpropagation, and contribute with the open-source library.
翻訳日:2022-11-18 22:02:49 公開日:2020-10-14
# スロット注意による物体中心学習

Object-Centric Learning with Slot Attention ( http://arxiv.org/abs/2006.15055v2 )

ライセンス: Link先を確認
Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy, Thomas Kipf(参考訳) 複雑なシーンのオブジェクト中心の表現を学習することは、低レベルの知覚的特徴から効率的な抽象的推論を実現するための有望なステップである。 しかし、ほとんどのディープラーニングアプローチは、自然シーンの構成特性を捉えない分散表現を学習する。 本稿では、畳み込みニューラルネットワークの出力などの知覚表現と相互作用し、スロットと呼ぶタスク依存抽象表現の集合を生成するアーキテクチャコンポーネントであるSlot Attentionモジュールを提案する。 これらのスロットは交換可能であり、複数の注意を払って競争手順を専門にすることで、入力中の任意のオブジェクトにバインドすることができる。 我々は,教師なしのオブジェクト発見と教師なしプロパティ予測タスクで訓練された場合,スロットアテンションがオブジェクト中心の表現を抽出できることを実証的に証明する。

Learning object-centric representations of complex scenes is a promising step towards enabling efficient abstract reasoning from low-level perceptual features. Yet, most deep learning approaches learn distributed representations that do not capture the compositional properties of natural scenes. In this paper, we present the Slot Attention module, an architectural component that interfaces with perceptual representations such as the output of a convolutional neural network and produces a set of task-dependent abstract representations which we call slots. These slots are exchangeable and can bind to any object in the input by specializing through a competitive procedure over multiple rounds of attention. We empirically demonstrate that Slot Attention can extract object-centric representations that enable generalization to unseen compositions when trained on unsupervised object discovery and supervised property prediction tasks.
翻訳日:2022-11-16 20:45:50 公開日:2020-10-14
# 脳波に基づく暗黙的人間フィードバックによる強化学習エージェントの高速化

Accelerating Reinforcement Learning Agent with EEG-based Implicit Human Feedback ( http://arxiv.org/abs/2006.16498v3 )

ライセンス: Link先を確認
Duo Xu, Mohit Agarwal, Ekansh Gupta, Faramarz Fekri, Raghupathy Sivakumar(参考訳) 人間のフィードバックによる強化学習(RL)エージェントの提供は、学習のさまざまな側面を劇的に改善することができる。 しかし、従来の手法では、人間の観察者が入力を明示的に(例えば、ボタンや音声インタフェースなど)与え、RLエージェントの学習プロセスのループで人間を負担する必要があった。 さらに、例えば、自動運転や障害リハビリテーションなど、明示的な人間のアドバイス(フィードバック)を得ることは、しばしば困難または不可能である。 本研究では,人間の内因性反応を脳波による暗黙の(そして自然な)フィードバックとして,エラー関連電位(ErrP)の形で捉え,RLエージェント学習を改善する自然的かつ直接的な方法を提供する。 そのため、人間の知能はRLアルゴリズムに暗黙のフィードバックを通して統合することができ、RLエージェントの学習を加速することができる。 提案する作業全体の性能を実験的に評価するために,3つの合理的に複雑な2次元離散ナビゲーションゲームを開発した。 私たちの仕事の主な貢献は次のとおりです。 (i)ErrPのゼロショット学習を提案し,実験により検証し,ErrPを1つのゲームで学習し,他のゲームに転送する。 (II)ErrPsを介して暗黙のフィードバックをRLエージェントと統合し、ラベルの効率と人的ミスに対する堅牢性を向上する新しいRLフレームワークを提案する。 (iii) 従来の研究と比較して,ErrPの応用を合理的に複雑な環境に拡張し,実際のユーザ実験を通じて学習を加速するアプローチの重要性を実証する。

Providing Reinforcement Learning (RL) agents with human feedback can dramatically improve various aspects of learning. However, previous methods require human observer to give inputs explicitly (e.g., press buttons, voice interface), burdening the human in the loop of RL agent's learning process. Further, it is sometimes difficult or impossible to obtain the explicit human advise (feedback), e.g., autonomous driving, disabled rehabilitation, etc. In this work, we investigate capturing human's intrinsic reactions as implicit (and natural) feedback through EEG in the form of error-related potentials (ErrP), providing a natural and direct way for humans to improve the RL agent learning. As such, the human intelligence can be integrated via implicit feedback with RL algorithms to accelerate the learning of RL agent. We develop three reasonably complex 2D discrete navigational games to experimentally evaluate the overall performance of the proposed work. Major contributions of our work are as follows, (i) we propose and experimentally validate the zero-shot learning of ErrPs, where the ErrPs can be learned for one game, and transferred to other unseen games, (ii) we propose a novel RL framework for integrating implicit human feedbacks via ErrPs with RL agent, improving the label efficiency and robustness to human mistakes, and (iii) compared to prior works, we scale the application of ErrPs to reasonably complex environments, and demonstrate the significance of our approach for accelerated learning through real user experiments.
翻訳日:2022-11-15 04:36:21 公開日:2020-10-14
# JUMPS:Pose Sequencesのジョイントアップサンプリング法

JUMPS: Joints Upsampling Method for Pose Sequences ( http://arxiv.org/abs/2007.01151v4 )

ライセンス: Link先を確認
Lucas Mourot, Fran\c{c}ois Le Clerc, C\'edric Th\'ebault and Pierre Hellier(参考訳) 人間の姿勢推定は、監視、人間の行動認識、シーン理解に有用な低レベルなタスクである。 また、合成文字のアニメーションに有望な視点を提供する。 これらすべてのアプリケーション、特に後者のアプリケーションにとって、多くのジョイントの位置の推定は、パフォーマンスとリアリズムを改善するのに望ましい。 本研究の目的は,2次元における関節数を増加させるJUMPSと呼ばれる新しい手法を提案することである。 これはこの問題に対処する最初の試みだと考えています。 我々は,GAN(Generative Adversarial Network)とエンコーダを組み合わせた深層生成モデルを構築した。 TheGANは高分解能人間のポーズ配列の分布を学習し、エンコーダは入力された低分解能配列を潜在空間にマッピングする。 GANジェネレータによるデコーディングが入力時の関節位置を最適に整合した潜在表現を演算することにより、塗装を得る。 本手法を用いた2dpose系列の処理後処理は、文字の動きをより豊かに表現する。 実験により, 付加関節の局所化精度は, 原位置推定値と平均的に一致していることがわかった。

Human Pose Estimation is a low-level task useful forsurveillance, human action recognition, and scene understandingat large. It also offers promising perspectives for the animationof synthetic characters. For all these applications, and especiallythe latter, estimating the positions of many joints is desirablefor improved performance and realism. To this purpose, wepropose a novel method called JUMPS for increasing the numberof joints in 2D pose estimates and recovering occluded ormissing joints. We believe this is the first attempt to addressthe issue. We build on a deep generative model that combines aGenerative Adversarial Network (GAN) and an encoder. TheGAN learns the distribution of high-resolution human posesequences, the encoder maps the input low-resolution sequencesto its latent space. Inpainting is obtained by computing the latentrepresentation whose decoding by the GAN generator optimallymatches the joints locations at the input. Post-processing a 2Dpose sequence using our method provides a richer representationof the character motion. We show experimentally that thelocalization accuracy of the additional joints is on average onpar with the original pose estimates.
翻訳日:2022-11-14 14:28:09 公開日:2020-10-14
# 移動マニピュレータのアクティブビジョンを用いた目標グラスピングの分散強化学習

Distributed Reinforcement Learning of Targeted Grasping with Active Vision for Mobile Manipulators ( http://arxiv.org/abs/2007.08082v2 )

ライセンス: Link先を確認
Yasuhiro Fujita, Kota Uenishi, Avinash Ummadisingu, Prabhat Nagarajan, Shimpei Masuda, and Mario Ynocente Castro(参考訳) 非構造環境で多様な操作タスクを実行できるパーソナルロボットの開発は、ロボットの把握システムにおけるいくつかの課題を解決する必要がある。 私たちは、私たちの知識に最初のrlベースのシステムを提示することで、この広範な目標に向かって一歩踏み出します。 (a)見当たらない対象物に一般化した目標把握を実現する。 (b)ごちゃごちゃした場面の複雑な把持方略を学習し、 (c)可動式手首カメラでアクティブビジョンを行い、物体の発見を良くする。 このシステムは、所望のターゲットオブジェクトに対して、そのオブジェクトの任意のrgbイメージの形で通知され、システムが再トレーニングすることなく、未認識のオブジェクトに一般化することができる。 このようなシステムを実現するために、深層強化学習のいくつかの進歩を組み合わせることで、高速プロトタイピングを容易にするために、マルチノードマルチgpuインフラストラクチャにシームレスに拡張可能な同期sgdを用いた大規模分散トレーニングシステムを提案する。 シミュレーション環境でシステムをトレーニングし,評価し,性能向上のための重要なコンポーネントを特定し,その動作を分析し,実環境へ移行する。

Developing personal robots that can perform a diverse range of manipulation tasks in unstructured environments necessitates solving several challenges for robotic grasping systems. We take a step towards this broader goal by presenting the first RL-based system, to our knowledge, for a mobile manipulator that can (a) achieve targeted grasping generalizing to unseen target objects, (b) learn complex grasping strategies for cluttered scenes with occluded objects, and (c) perform active vision through its movable wrist camera to better locate objects. The system is informed of the desired target object in the form of a single, arbitrary-pose RGB image of that object, enabling the system to generalize to unseen objects without retraining. To achieve such a system, we combine several advances in deep reinforcement learning and present a large-scale distributed training system using synchronous SGD that seamlessly scales to multi-node, multi-GPU infrastructure to make rapid prototyping easier. We train and evaluate our system in a simulated environment, identify key components for improving performance, analyze its behaviors, and transfer to a real-world setup.
翻訳日:2022-11-09 21:55:08 公開日:2020-10-14
# 最適なクライアントサンプリングによるコミュニケーション効率のよいフェデレーション学習

Communication-Efficient Federated Learning via Optimal Client Sampling ( http://arxiv.org/abs/2007.15197v2 )

ライセンス: Link先を確認
Monica Ribero, Haris Vikalo(参考訳) フェデレートラーニング(FL)は、中央サーバが多くのクライアントに分散したデータから学習をコーディネートする設定におけるプライバシー上の懸念を改善する。 クライアントはローカルにトレーニングし、学習したモデルをサーバに通信する。ローカルモデルの集約は、クライアントと中央サーバの間の大量の情報の頻繁な通信を必要とする。 本稿では,クライアントからのモデル収集と,通信されていないローカル更新を推定して,コミュニケーション制約付き設定における中心モデルを更新する,新しい,シンプルで効率的な方法を提案する。 特に、ornstein-uhlenbeckプロセスによるモデルの重み付けのモデリングにより、かなりの重み付け更新を伴うクライアントのサブセットを選択するための最適なサンプリング戦略を導出できる。 中央サーバは、選択したクライアントのみから更新されたローカルモデルを収集し、通信のために選択されなかったクライアントの予測モデル更新と組み合わせる。 このポリシーをロジスティック回帰のための合成データセットと2つのflベンチマーク、すなわちシェイクスピアデータセットを用いたemnistの分類タスクと現実的な言語モデリングタスクでテストする。 その結果,提案フレームワークは,競争力を維持しつつ,また,ベースラインよりも優れた性能を達成しつつ,コミュニケーションの大幅な削減を図っている。 提案手法は, 通信効率の高いflのための新しい手法であり, 量子化やスパース化といった既存のユーザローカル手法と直交する手法であり, 既存の手法を置き換えようとするのではなく補完するものである。

Federated learning (FL) ameliorates privacy concerns in settings where a central server coordinates learning from data distributed across many clients. The clients train locally and communicate the models they learn to the server; aggregation of local models requires frequent communication of large amounts of information between the clients and the central server. We propose a novel, simple and efficient way of updating the central model in communication-constrained settings based on collecting models from clients with informative updates and estimating local updates that were not communicated. In particular, modeling the progression of model's weights by an Ornstein-Uhlenbeck process allows us to derive an optimal sampling strategy for selecting a subset of clients with significant weight updates. The central server collects updated local models from only the selected clients and combines them with estimated model updates of the clients that were not selected for communication. We test this policy on a synthetic dataset for logistic regression and two FL benchmarks, namely, a classification task on EMNIST and a realistic language modeling task using the Shakespeare dataset. The results demonstrate that the proposed framework provides significant reduction in communication while maintaining competitive or achieving superior performance compared to a baseline. Our method represents a new line of strategies for communication-efficient FL that is orthogonal to the existing user-local methods such as quantization or sparsification, thus complementing rather than aiming to replace those existing methods.
翻訳日:2022-11-05 13:24:10 公開日:2020-10-14
# 自然言語処理とディープラーニングを用いた感情分析に基づく多人数マルチクリトリア意思決定手法による意思決定支援 TripAdvisor レビューを用いたレストラン選択事例の検討

Sentiment Analysis based Multi-person Multi-criteria Decision Making Methodology using Natural Language Processing and Deep Learning for Smarter Decision Aid. Case study of restaurant choice using TripAdvisor reviews ( http://arxiv.org/abs/2008.00032v2 )

ライセンス: Link先を確認
Cristina Zuheros, Eugenio Mart\'inez-C\'amara, Enrique Herrera-Viedma, and Francisco Herrera(参考訳) 意思決定モデルは、予め定義された数値または言語用語で専門家の評価をとることで制約される。 感情分析を用いることで、意思決定モデルが自然言語における専門家の評価を考慮できると主張している。 そこで,本研究では,自然言語評価から専門家評価を構築できる知的意思決定支援のための感情分析に基づく多人数多人数意思決定(sa-mpmcdm)手法を提案する。 SA-MpMcDM法は、アスペクトベースの感情分析のためのエンドツーエンドのマルチタスクディープラーニングモデル、DOC-ABSADeepLモデルを導入し、専門家レビューで言及されているアスペクトカテゴリを特定し、意見や基準を抽出する。 個々の評価は、専門家の注意による重み付けと呼ばれる手順によって集約される。 tripadvisor reviewsを用いたレストラン選択のケーススタディでこの手法を評価し,レストランレビューのtripr-2020データセットを構築し,手作業で注釈付けし,公開する。 自然言語と数値評価を用いて,SA-MpMcDM法を異なるシナリオで解析する。 分析の結果,両情報源の組み合わせにより,高品質な選好ベクトルが得られることがわかった。

Decision making models are constrained by taking the expert evaluations with pre-defined numerical or linguistic terms. We claim that the use of sentiment analysis will allow decision making models to consider expert evaluations in natural language. Accordingly, we propose the Sentiment Analysis based Multi-person Multi-criteria Decision Making (SA-MpMcDM) methodology for smarter decision aid, which builds the expert evaluations from their natural language reviews, and even from their numerical ratings if they are available. The SA-MpMcDM methodology incorporates an end-to-end multi-task deep learning model for aspect based sentiment analysis, named DOC-ABSADeepL model, able to identify the aspect categories mentioned in an expert review, and to distill their opinions and criteria. The individual evaluations are aggregated via the procedure named criteria weighting through the attention of the experts. We evaluate the methodology in a case study of restaurant choice using TripAdvisor reviews, hence we build, manually annotate, and release the TripR-2020 dataset of restaurant reviews. We analyze the SA-MpMcDM methodology in different scenarios using and not using natural language and numerical evaluations. The analysis shows that the combination of both sources of information results in a higher quality preference vector.
翻訳日:2022-11-04 05:36:28 公開日:2020-10-14
# ニューロモルフィックプロセッサを用いたオンラインジェスチャー学習

Online Few-shot Gesture Learning on a Neuromorphic Processor ( http://arxiv.org/abs/2008.01151v2 )

ライセンス: Link先を確認
Kenneth Stewart, Garrick Orchard, Sumit Bam Shrestha, Emre Neftci(参考訳) ニューロモルフィックプロセッサ上でのオンライン少ショット学習のためのSurrogate-gradient Online Error-Triggered Learning (SOEL)システムを提案する。 SOEL学習システムは、伝達学習と計算神経科学と深層学習の原理を組み合わせたものである。 ニューロモルフィックハードウェア上に実装された部分訓練されたディープスパイキングニューラルネットワーク(SNN)は、ドメイン内の新しいクラスのデータに迅速にオンラインに適応できることを示す。 soelはエラーが発生したときにトリガーを更新し、少ない更新で高速な学習を可能にする。 ジェスチャー認識をケーススタディとして、SOELは、事前に記録されたジェスチャーデータの新しいクラスのオンライン数ショット学習や、Dynamic Active-Pixel Vision SensorからIntel Loihiニューロモルフィック研究プロセッサへライブストリーミングされたデータから新しいジェスチャーの高速オンライン学習に使用できることを示す。

We present the Surrogate-gradient Online Error-triggered Learning (SOEL) system for online few-shot learning on neuromorphic processors. The SOEL learning system uses a combination of transfer learning and principles of computational neuroscience and deep learning. We show that partially trained deep Spiking Neural Networks (SNNs) implemented on neuromorphic hardware can rapidly adapt online to new classes of data within a domain. SOEL updates trigger when an error occurs, enabling faster learning with fewer updates. Using gesture recognition as a case study, we show SOEL can be used for online few-shot learning of new classes of pre-recorded gesture data and rapid online learning of new gestures from data streamed live from a Dynamic Active-pixel Vision Sensor to an Intel Loihi neuromorphic research processor.
翻訳日:2022-11-03 06:06:11 公開日:2020-10-14
# 深層学習系列を用いた意図付きシーケンスモデルによる太陽光発電の予測

Forecasting Photovoltaic Power Production using a Deep Learning Sequence to Sequence Model with Attention ( http://arxiv.org/abs/2008.02775v2 )

ライセンス: Link先を確認
Elizaveta Kharlova, Daniel May, Petr Musilek (University of Alberta)(参考訳) 分散型エネルギー資源としての(家庭用)太陽光発電(PV)電力の浸透レベルの増加は、電力インフラに多くの課題をもたらす。 電力生産の正確な予測を提供するための高品質で汎用的なツールが緊急に必要である。 本稿では,PV発電のエンドツーエンド予測のための教師付きディープラーニングモデルを提案する。 提案されたモデルは、他のシーケンス関連分野におけるディープラーニングアプローチのパフォーマンス向上に繋がる2つの独創的な概念に基づいているが、時系列予測の分野ではまだ改善されていない。 提案モデルでは,予測変数の予測値ではなく,数値天気予報と高分解能歴史的測定を用いて,予測時間間隔上の双対確率分布を推定する。 この設計は、完全に接続されたニューラルネットワークや1ブロックの短期的メモリアーキテクチャなど、一般的なベースラインアプローチと比較して大幅にパフォーマンスが向上する。 正規化ルート平均二乗誤差に基づく予測スキルスコアを性能指標として,提案手法を他のモデルと比較した。 その結果、新しい設計は、PV電力予測技術の現在の状態以上で実行可能であることがわかった。

Rising penetration levels of (residential) photovoltaic (PV) power as distributed energy resource pose a number of challenges to the electricity infrastructure. High quality, general tools to provide accurate forecasts of power production are urgently needed. In this article, we propose a supervised deep learning model for end-to-end forecasting of PV power production. The proposed model is based on two seminal concepts that led to significant performance improvements of deep learning approaches in other sequence-related fields, but not yet in the area of time series prediction: the sequence to sequence architecture and attention mechanism as a context generator. The proposed model leverages numerical weather predictions and high-resolution historical measurements to forecast a binned probability distribution over the prognostic time intervals, rather than the expected values of the prognostic variable. This design offers significant performance improvements compared to common baseline approaches, such as fully connected neural networks and one-block long short-term memory architectures. Using normalized root mean square error based forecast skill score as a performance indicator, the proposed approach is compared to other models. The results show that the new design performs at or above the current state of the art of PV power forecasting.
翻訳日:2022-11-02 07:03:41 公開日:2020-10-14
# 神経機械翻訳のための超深層トランスフォーマー

Very Deep Transformers for Neural Machine Translation ( http://arxiv.org/abs/2008.07772v2 )

ライセンス: Link先を確認
Xiaodong Liu, Kevin Duh, Liyuan Liu and Jianfeng Gao(参考訳) ニューラルマシン翻訳(nmt)における超深層トランスフォーマーモデルの応用について検討する。 トレーニングを安定させるシンプルで効果的な初期化手法を用いて,最大60のエンコーダ層と12のデコーダ層を持つ標準トランスフォーマーモデルを構築することが可能であることを示す。 これらの深層モデルは、ベースラインの6層を2.5 bleuで上回り、wmt14 英語-フランス語 (43.8 bleu と 46.4 bleu with back-translation) と wmt14 英語-ドイツ語 (30.1 bleu) で最新のベンチマーク結果を達成した。 コードとトレーニングされたモデルは、https://github.com/namisan/exdeep-nmt.comで公開される。

We explore the application of very deep Transformer models for Neural Machine Translation (NMT). Using a simple yet effective initialization technique that stabilizes training, we show that it is feasible to build standard Transformer-based models with up to 60 encoder layers and 12 decoder layers. These deep models outperform their baseline 6-layer counterparts by as much as 2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14 English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14 English-German (30.1 BLEU).The code and trained models will be publicly available at: https://github.com/namisan/exdeep-nmt.
翻訳日:2022-10-27 21:31:45 公開日:2020-10-14
# 拡張特徴を用いた構造物のドリフトの低減

Reducing Drift in Structure From Motion Using Extended Features ( http://arxiv.org/abs/2008.12295v3 )

ライセンス: Link先を確認
Aleksander Holynski, David Geraghty, Jan-Michael Frahm, Chris Sweeney, Richard Szeliski(参考訳) 低周波長範囲誤差(drift)は3次元構造における運動からの固有問題であり、しばしばシーンの合理的な再構成を妨げる。 本稿では,平面や消失点などの拡張構造的特徴を用いて,スケールと位置ドリフトを劇的に低減する手法を提案する。 従来の特徴マッチングとは異なり、拡張された特徴は重複しない入力画像にまたがることができ、したがって復元の規模と形状に長い範囲の制約を与えることができる。 これらの特徴を,運動アルゴリズムによる最先端のグローバル構造に対する付加的な制約として追加し,その付加制約により,慣性的な計測を伴わずに,長視野の低視野映像などのドリフトプロン系列を再構築できることを実証する。 さらに, 合成データセット上での評価により, これらの制約のドリフト低減能力の解析を行う。 我々の構造的特徴は、窓の列や平面的な建物ファサードなど、長々とした人造構造を含むシーンのドリフトを著しく低減することができる。

Low-frequency long-range errors (drift) are an endemic problem in 3D structure from motion, and can often hamper reasonable reconstructions of the scene. In this paper, we present a method to dramatically reduce scale and positional drift by using extended structural features such as planes and vanishing points. Unlike traditional feature matches, our extended features are able to span non-overlapping input images, and hence provide long-range constraints on the scale and shape of the reconstruction. We add these features as additional constraints to a state-of-the-art global structure from motion algorithm and demonstrate that the added constraints enable the reconstruction of particularly drift-prone sequences such as long, low field-of-view videos without inertial measurements. Additionally, we provide an analysis of the drift-reducing capabilities of these constraints by evaluating on a synthetic dataset. Our structural features are able to significantly reduce drift for scenes that contain long-spanning man-made structures, such as aligned rows of windows or planar building facades.
翻訳日:2022-10-24 08:12:56 公開日:2020-10-14
# ニューラルネットワークを用いた伝達学習メタモデルによる自然対流の囲い込み流れへの応用

A transfer learning metamodel using artificial neural networks applied to natural convection flows in enclosures ( http://arxiv.org/abs/2008.12483v2 )

ライセンス: Link先を確認
Majid Ashouri and Alireza Hashemi(参考訳) 本稿では,自然対流の包絡内におけるヌッセルト数を予測するために,伝達学習手法を用いた。 具体的には,水平壁と垂直壁を一定温度で分離した2次元正方形囲いのベンチマーク問題を検討した。 レイリー数とプレンドル数はこの問題を数値的にシミュレートするのに十分なパラメータである。 まず、コスト効率の高い方法でニューラルネットワークをトレーニングするために、マルチグリッドデータセットを使用しました。 このデータセットのトレーニング損失を監視することで、グリッドサイズ不足に起因する重要な異常を検出し、グリッドサイズを変更したり、より多くのデータを追加することでさらに修正しました。 第2に,深層ニューラルネットワークを用いた伝達学習を行うことで,入力機能の追加を考慮したメタモデルの実現を試みた。 我々は、単一入力機能(Rayleigh)でニューラルネットワークをトレーニングし、第2特徴(Prandtl)の効果を取り入れるように拡張した。 また,ホロウ囲いの場合も考慮し,計算コストやトレーニングコストを下げつつ,高い物理複雑性を持つシステムに学習フレームワークを適用することが可能であることを実証した。

In this paper, we employed a transfer learning technique to predict the Nusselt number for natural convection flows in enclosures. Specifically, we considered the benchmark problem of a two-dimensional square enclosure with isolated horizontal walls and vertical walls at constant temperatures. The Rayleigh and Prandtl numbers are sufficient parameters to simulate this problem numerically. We adopted two approaches to this problem: Firstly, we made use of a multi-grid dataset in order to train our artificial neural network in a cost-effective manner. By monitoring the training losses for this dataset, we detected any significant anomalies that stemmed from an insufficient grid size, which we further corrected by altering the grid size or adding more data. Secondly, we sought to endow our metamodel with the ability to account for additional input features by performing transfer learning using deep neural networks. We trained a neural network with a single input feature (Rayleigh) and extended it to incorporate the effects of a second feature (Prandtl). We also considered the case of hollow enclosures, demonstrating that our learning framework can be applied to systems with higher physical complexity, while bringing the computational and training costs down.
翻訳日:2022-10-24 02:42:33 公開日:2020-10-14
# 地すべり言語学習の迅速・低速化

Grounded Language Learning Fast and Slow ( http://arxiv.org/abs/2009.01719v4 )

ライセンス: Link先を確認
Felix Hill, Olivier Tieleman, Tamara von Glehn, Nathaniel Wong, Hamza Merzic, Stephen Clark(参考訳) 最近の研究は、従来の教師付き学習目標で訓練された大きなテキストベースのニューラル言語モデルが、数対1の学習において驚くべき確率を得ることを示した。 そこで本研究では,シミュレーションされた3次元世界に位置する具体化エージェントが,従来の強化学習アルゴリズムで学習すると,類似したワンショットワード学習を示すことができることを示す。 連続的な視覚知覚と言語プロンプト("this is a dax")による新しい物体への単一の導入の後、エージェントはオブジェクトを再識別し、指示通りに操作することができる("put the dax on the bed")。 その際、"dax"という単語の適切な参照者の短期的・内部的知識と、エピソード(つまり「ベッド」と「パッティング」)間で得られる長期的な語彙的・運動的知識とをシームレスに統合する。 特定の訓練条件と特定のメモリ書き込み機構により、エージェントのワンショットワードオブジェクトバインディングは、同一のShapeNetカテゴリ内の新しい例に一般化され、不慣れなオブジェクト数の設定に有効であることがわかった。 さらに,デュアルコーディングメモリを本質的モチベーションのシグナルとして活用し,エージェントに後から実行される命令に有用なオブジェクトの名前を求めるように促す方法を示した。 その結果,深層ニューラルネットワークは,メタラーニング,エピソディクスメモリ,明示的なマルチモーダル環境を利用して,人間の認知発達の基本柱である「高速マッピング」や,人間のユーザと相互作用するエージェントの潜在的変換能力を考慮することができることが示された。

Recent work has shown that large text-based neural language models, trained with conventional supervised learning objectives, acquire a surprising propensity for few- and one-shot learning. Here, we show that an embodied agent situated in a simulated 3D world, and endowed with a novel dual-coding external memory, can exhibit similar one-shot word learning when trained with conventional reinforcement learning algorithms. After a single introduction to a novel object via continuous visual perception and a language prompt ("This is a dax"), the agent can re-identify the object and manipulate it as instructed ("Put the dax on the bed"). In doing so, it seamlessly integrates short-term, within-episode knowledge of the appropriate referent for the word "dax" with long-term lexical and motor knowledge acquired across episodes (i.e. "bed" and "putting"). We find that, under certain training conditions and with a particular memory writing mechanism, the agent's one-shot word-object binding generalizes to novel exemplars within the same ShapeNet category, and is effective in settings with unfamiliar numbers of objects. We further show how dual-coding memory can be exploited as a signal for intrinsic motivation, stimulating the agent to seek names for objects that may be useful for later executing instructions. Together, the results demonstrate that deep neural networks can exploit meta-learning, episodic memory and an explicitly multi-modal environment to account for 'fast-mapping', a fundamental pillar of human cognitive development and a potentially transformative capacity for agents that interact with human users.
翻訳日:2022-10-22 06:48:58 公開日:2020-10-14
# 4Seasons: 自律運転におけるマルチウェザーSLAMのためのクロスシーソンデータセット

4Seasons: A Cross-Season Dataset for Multi-Weather SLAM in Autonomous Driving ( http://arxiv.org/abs/2009.06364v2 )

ライセンス: Link先を確認
Patrick Wenzel, Rui Wang, Nan Yang, Qing Cheng, Qadeer Khan, Lukas von Stumberg, Niclas Zeller, Daniel Cremers(参考訳) 本稿では,自律走行のための季節的および難解な知覚条件をカバーする新しいデータセットを提案する。 ビジュアルオドメトリ、グローバル位置認識、マップベースの再ローカライズトラッキングなどの研究が可能だ。 データは異なるシナリオで収集され、昼と夜を含む様々な気象条件と照明の下で収集された。 この結果、都市部(トンネルを含む)の多層駐車場から田舎や高速道路まで、9つの環境において350km以上の録音が行われた。 RTK-GNSSと直接立体視-慣性眼圧計の融合から得られる最大センチメートルの精度で一貫した参照ポーズを提供する。 完全なデータセットはhttps://www.4seasons-dataset.comで入手できる。

We present a novel dataset covering seasonal and challenging perceptual conditions for autonomous driving. Among others, it enables research on visual odometry, global place recognition, and map-based re-localization tracking. The data was collected in different scenarios and under a wide variety of weather conditions and illuminations, including day and night. This resulted in more than 350 km of recordings in nine different environments ranging from multi-level parking garage over urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up-to centimeter accuracy obtained from the fusion of direct stereo visual-inertial odometry with RTK-GNSS. The full dataset is available at https://www.4seasons-dataset.com.
翻訳日:2022-10-18 12:34:57 公開日:2020-10-14
# 暗黙的ランク最小オートエンコーダ

Implicit Rank-Minimizing Autoencoder ( http://arxiv.org/abs/2010.00679v2 )

ライセンス: Link先を確認
Li Jing, Jure Zbontar, Yann LeCun(参考訳) オートエンコーダの重要な構成要素は、潜在表現の情報容量を最小化または制限する手法である。 この研究において、符号の共分散行列のランクは、多層線形ネットワークにおける勾配降下学習が最小階解をもたらすという事実に依存して暗黙的に最小化される。 エンコーダとデコーダの間に多くの余分な線形層を挿入することで、システムは、低有効次元の表現を自然に学習する。 Implicit Rank-Minimizing Autoencoder (IRMAE) と呼ばれるこのモデルは単純で決定論的であり、コンパクトな潜在空間を学習する。 いくつかの画像生成および表現学習タスクにおいて,本手法の有効性を示す。

An important component of autoencoders is the method by which the information capacity of the latent representation is minimized or limited. In this work, the rank of the covariance matrix of the codes is implicitly minimized by relying on the fact that gradient descent learning in multi-layer linear networks leads to minimum-rank solutions. By inserting a number of extra linear layers between the encoder and the decoder, the system spontaneously learns representations with a low effective dimension. The model, dubbed Implicit Rank-Minimizing Autoencoder (IRMAE), is simple, deterministic, and learns compact latent spaces. We demonstrate the validity of the method on several image generation and representation learning tasks.
翻訳日:2022-10-12 07:08:21 公開日:2020-10-14
# FlowMOを用いたガウスプロセス分子特性予測

Gaussian Process Molecule Property Prediction with FlowMO ( http://arxiv.org/abs/2010.01118v2 )

ライセンス: Link先を確認
Henry B. Moss, Ryan-Rhys Griffiths(参考訳) ガウス過程を伴う分子特性予測のためのオープンソースのpythonライブラリであるflowmoを提案する。 gpflowとrdkit上に構築されたflowmoは、アクティブラーニングと分子設計アプリケーションの中心となるアウトプットである、不確実性推定を適切に調整した予測を可能にする。 ガウス過程は、高品質の実験データが不足している多くの現実世界の仮想スクリーニングキャンペーンの特徴である、小さな分子データセットのモデリングにおいて特に魅力的である。 3つの小さなデータセットにわたる計算実験は、ディープラーニング手法に匹敵する予測性能を示すが、不確実性のキャリブレーションが優れている。

We present FlowMO: an open-source Python library for molecular property prediction with Gaussian Processes. Built upon GPflow and RDKit, FlowMO enables the user to make predictions with well-calibrated uncertainty estimates, an output central to active learning and molecular design applications. Gaussian Processes are particularly attractive for modelling small molecular datasets, a characteristic of many real-world virtual screening campaigns where high-quality experimental data is scarce. Computational experiments across three small datasets demonstrate comparable predictive performance to deep learning methods but with superior uncertainty calibration.
翻訳日:2022-10-12 00:48:15 公開日:2020-10-14
# ニューラルUDパーサ用ユニバーサルPOSタグの欠陥について

On the Frailty of Universal POS Tags for Neural UD Parsers ( http://arxiv.org/abs/2010.01830v3 )

ライセンス: Link先を確認
Mark Anderson and Carlos G\'omez-Rodr\'iguez(参考訳) UPOSの精度が解析性能に与える影響について分析する。 その結果, UPOSタグをニューラルパーザの機能として活用するには, 極めて高いタグ付け精度が必要であり, ゴールドタグの使用は非直線的な性能向上をもたらすことが示唆された。 また,予測された UPOS タグのどの側面が精度にどのような影響を及ぼすかについても検討し,問題の潜在的な言語的側面を浮き彫りにしている。

We present an analysis on the effect UPOS accuracy has on parsing performance. Results suggest that leveraging UPOS tags as features for neural parsers requires a prohibitively high tagging accuracy and that the use of gold tags offers a non-linear increase in performance, suggesting some sort of exceptionality. We also investigate what aspects of predicted UPOS tags impact parsing accuracy the most, highlighting some potentially meaningful linguistic facets of the problem.
翻訳日:2022-10-10 21:21:37 公開日:2020-10-14
# クラウドソースデータセットを用いたテキストの事前条件のモデル化

Modeling Preconditions in Text with a Crowd-sourced Dataset ( http://arxiv.org/abs/2010.02429v3 )

ライセンス: Link先を確認
Heeyoung Kwon, Mahnaz Koupaee, Pratyush Singh, Gargi Sawhney, Anmol Shukla, Keerthi Kumar Kallur, Nathanael Chambers and Niranjan Balasubramanian(参考訳) 前提条件は、ある出来事が一緒に起こる理由と、因果関係、時間的順序付け、含意関係、会話関係など、より広く研究されている関係に相補する情報とを論理的に結びつける。 テキストのプリコンディションのモデリングは、テキストによる大規模なラベル付きデータの欠如によって、一部が妨げられている。 本稿では,newswireにおけるイベントペア間の前提条件に関するクラウドソースアノテーションであるpekoを紹介する。 この新たなコーパスを補完するために,前提条件のモデル化を目的とした2つの課題も紹介する。 i)事前条件識別 -- イベント参照のペア上で定義された標準分類タスク、 (ii)事前条件生成 -- あるイベントについてより一般的な推論能力をテストすることを目的とした生成タスク。 両タスクの評価は,今日の大規模言語モデル(LM)においても,事前条件のモデル化が難しいことを示している。 このことは、前提条件知識がlm由来の表現だけでは容易にアクセスできないことを示唆する。 生成結果から,PEKo 上の LM の微調整は,原文や時間順コーパスで訓練した場合よりも条件関係が良好であることが示唆された。

Preconditions provide a form of logical connection between events that explains why some events occur together and information that is complementary to the more widely studied relations such as causation, temporal ordering, entailment, and discourse relations. Modeling preconditions in text has been hampered in part due to the lack of large scale labeled data grounded in text. This paper introduces PeKo, a crowd-sourced annotation of preconditions between event pairs in newswire, an order of magnitude larger than prior text annotations. To complement this new corpus, we also introduce two challenge tasks aimed at modeling preconditions: (i) Precondition Identification -- a standard classification task defined over pairs of event mentions, and (ii) Precondition Generation -- a generative task aimed at testing a more general ability to reason about a given event. Evaluation on both tasks shows that modeling preconditions is challenging even for today's large language models (LM). This suggests that precondition knowledge is not easily accessible in LM-derived representations alone. Our generation results show that fine-tuning an LM on PeKo yields better conditional relations than when trained on raw text or temporally-ordered corpora.
翻訳日:2022-10-10 06:39:49 公開日:2020-10-14
# 画像認識のためのグローバルセルフアテンションネットワーク

Global Self-Attention Networks for Image Recognition ( http://arxiv.org/abs/2010.03019v2 )

ライセンス: Link先を確認
Zhuoran Shen, Irwan Bello, Raviteja Vemulapalli, Xuhui Jia, Ching-Hui Chen(参考訳) 近年,コンピュータビジョンにおける一連の研究が,自己注意を用いた様々な画像・映像理解タスクにおける有望な成果を示している。 しかしながら、自己注意の2次計算とメモリの複雑さのため、これらの研究はディープネットワークの後半の低解像度特徴写像にのみ注意を向けるか、各層における注意の場を小さな局所領域に制限する。 これらの制限を克服するため、この研究はGSAモジュールと呼ばれる新しいグローバルな自己保持モジュールを導入し、ディープネットワークのバックボーンコンポーネントとして機能するのに十分な効率である。 このモジュールは2つの平行なレイヤで構成されており、コンテンツに基づいてピクセルに付随するコンテンツアテンション層と、空間的位置に基づいてピクセルに付随する位置アテンション層である。 このモジュールの出力は、2つのレイヤの出力の総和である。 提案するgsaモジュールに基づいて,ピクセルインタラクションのモデル化に畳み込みではなく,gsaモジュールを使用するグローバルアテンションベース深層ネットワークを新たに導入する。 提案したGSAモジュールのグローバル範囲のため、GSAネットワークはネットワーク全体の長距離ピクセル間相互作用をモデル化することができる。 実験の結果,GSA ネットワークは CIFAR-100 と ImageNet のデータセットにおいて,より少ないパラメータと計算量を用いて,対応する畳み込みネットワークよりも優れていた。 提案したGSAネットワークは、ImageNetデータセット上で、既存の注目ベースのネットワークよりも優れている。

Recently, a series of works in computer vision have shown promising results on various image and video understanding tasks using self-attention. However, due to the quadratic computational and memory complexities of self-attention, these works either apply attention only to low-resolution feature maps in later stages of a deep network or restrict the receptive field of attention in each layer to a small local region. To overcome these limitations, this work introduces a new global self-attention module, referred to as the GSA module, which is efficient enough to serve as the backbone component of a deep network. This module consists of two parallel layers: a content attention layer that attends to pixels based only on their content and a positional attention layer that attends to pixels based on their spatial locations. The output of this module is the sum of the outputs of the two layers. Based on the proposed GSA module, we introduce new standalone global attention-based deep networks that use GSA modules instead of convolutions to model pixel interactions. Due to the global extent of the proposed GSA module, a GSA network has the ability to model long-range pixel interactions throughout the network. Our experimental results show that GSA networks outperform the corresponding convolution-based networks significantly on the CIFAR-100 and ImageNet datasets while using less parameters and computations. The proposed GSA networks also outperform various existing attention-based networks on the ImageNet dataset.
翻訳日:2022-10-10 06:04:14 公開日:2020-10-14
# ゼロショット認識のためのクラスタブル視覚特徴の学習

Learning Clusterable Visual Features for Zero-Shot Recognition ( http://arxiv.org/abs/2010.03245v2 )

ライセンス: Link先を確認
Jingyi Xu and Zhixin Shu and Dimitris Samaras(参考訳) ゼロショット学習(ZSL)では、条件付きジェネレータが追加のトレーニング機能を生成するために広く使用されている。 これらの機能は、データをテストするための分類器のトレーニングに使用できる。 しかしながら、いくつかのテストデータは、決定境界に近く、誤分類される傾向があり、ZSLのパフォーマンス低下につながるため、"ハード"と見なされる。 本稿では,ZSL問題に対するクラスタリング可能な特徴を学習することを提案する。 条件付き変分オートエンコーダ (cvae) を特徴生成器として使用し, 特徴を補助的分類損失によって管理される新しい特徴空間に投影する。 クラスタ性をさらに高めるため、ガウス類似性損失を用いて機能を微調整する。 クラスタブルな視覚特徴はCVAE再構成に適合するだけでなく、分類精度を向上させるために分離性も高い。 さらに,生成した特徴のクラス内分散を増大させるためにガウス雑音を導入することにより,分類器のロバスト性を向上させる。 SUN,CUB,AWA2のデータセットに対する実験により,従来のZSL結果よりも一貫した改善が得られた。 ゼロショット分類の有効性に加えて,特徴クラスタビリティを向上させる手法が,少数ショット学習アルゴリズムにも有効であることを示す。

In zero-shot learning (ZSL), conditional generators have been widely used to generate additional training features. These features can then be used to train the classifiers for testing data. However, some testing data are considered "hard" as they lie close to the decision boundaries and are prone to misclassification, leading to performance degradation for ZSL. In this paper, we propose to learn clusterable features for ZSL problems. Using a Conditional Variational Autoencoder (CVAE) as the feature generator, we project the original features to a new feature space supervised by an auxiliary classification loss. To further increase clusterability, we fine-tune the features using Gaussian similarity loss. The clusterable visual features are not only more suitable for CVAE reconstruction but are also more separable which improves classification accuracy. Moreover, we introduce Gaussian noise to enlarge the intra-class variance of the generated features, which helps to improve the classifier's robustness. Our experiments on SUN,CUB, and AWA2 datasets show consistent improvement over previous state-of-the-art ZSL results by a large margin. In addition to its effectiveness on zero-shot classification, experiments show that our method to increase feature clusterability benefits few-shot learning algorithms as well.
翻訳日:2022-10-09 23:39:42 公開日:2020-10-14
# FairMixRep : 不均一データに対する自己教師付きロバスト表現学習

FairMixRep : Self-supervised Robust Representation Learning for Heterogeneous Data with Fairness constraints ( http://arxiv.org/abs/2010.03228v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Ekansh Verma, Saswata Sahoo, Jyotishka Datta(参考訳) 数値型とカテゴリ型の混合変数を持つ不均質空間における表現学習は、その複素特徴多様体のために興味深い課題がある。 さらに、クラスラベルや適切な学習損失関数のない教師なし設定での機能学習は、問題複雑性を増加させる。 さらに、学習された表現とその後の予測は、特定のセンシティブなグループや属性に対する差別行為を反映してはならない。 提案した特徴マップは、データに存在する最大変動を保ち、敏感な変数に対して公平である必要がある。 本研究の第一段階として,混合ドメイン情報を取得するための効率的なエンコーダデコーダフレームワークを提案する。 我々の研究の第2フェーズは、関連する公平性制約を加えることによって、混合空間表現の非バイアスに焦点をあてている。 これにより、フェアネス保存プロジェクションの前後における表現間の最小情報損失が保証される。 学習した情報内容と最終表現の公平性の両方が、優れたパフォーマンスを示すいくつかの指標を通じて検証されている。 我々の研究(FairMixRep)は、教師なしの観点から学習した混合空間フェア表現の問題に対処し、タイムリーでユニークで新しい研究貢献のユニバーサル表現を学ぶ。

Representation Learning in a heterogeneous space with mixed variables of numerical and categorical types has interesting challenges due to its complex feature manifold. Moreover, feature learning in an unsupervised setup, without class labels and a suitable learning loss function, adds to the problem complexity. Further, the learned representation and subsequent predictions should not reflect discriminatory behavior towards certain sensitive groups or attributes. The proposed feature map should preserve maximum variations present in the data and needs to be fair with respect to the sensitive variables. We propose, in the first phase of our work, an efficient encoder-decoder framework to capture the mixed-domain information. The second phase of our work focuses on de-biasing the mixed space representations by adding relevant fairness constraints. This ensures minimal information loss between the representations before and after the fairness-preserving projections. Both the information content and the fairness aspect of the final representation learned has been validated through several metrics where it shows excellent performance. Our work (FairMixRep) addresses the problem of Mixed Space Fair Representation learning from an unsupervised perspective and learns a Universal representation that is timely, unique, and a novel research contribution.
翻訳日:2022-10-09 21:53:06 公開日:2020-10-14
# 変圧器の表情表現と構成の評価

Assessing Phrasal Representation and Composition in Transformers ( http://arxiv.org/abs/2010.03763v2 )

ライセンス: Link先を確認
Lang Yu and Allyson Ettinger(参考訳) ディープトランスモデルはNLPタスクのパフォーマンスを新たな限界に押し上げ、フレーズのような複雑な言語入力の洗練された処理を推奨している。 しかし、これらのモデルが句の表現をどう扱うか、そしてそれが人間が行うような句の意味の洗練された構成を反映しているかどうかについての理解は限られている。 本稿では,最先端予習変圧器におけるフラシアル表現の系統的解析について述べる。 語句類似性と意味変化の人的判断を活用し,単語重複制御前後の結果を比較し,語彙効果と構成効果を区別する。 これらのモデルにおける句表現は単語の内容に大きく依存しており、ニュアンスな構成の証拠はほとんどない。 また, モデル, 層, 表現型にまたがる表現品質の変動を同定し, これらのモデルから表現の使用を推奨する。

Deep transformer models have pushed performance on NLP tasks to new limits, suggesting sophisticated treatment of complex linguistic inputs, such as phrases. However, we have limited understanding of how these models handle representation of phrases, and whether this reflects sophisticated composition of phrase meaning like that done by humans. In this paper, we present systematic analysis of phrasal representations in state-of-the-art pre-trained transformers. We use tests leveraging human judgments of phrase similarity and meaning shift, and compare results before and after control of word overlap, to tease apart lexical effects versus composition effects. We find that phrase representation in these models relies heavily on word content, with little evidence of nuanced composition. We also identify variations in phrase representation quality across models, layers, and representation types, and make corresponding recommendations for usage of representations from these models.
翻訳日:2022-10-09 12:07:47 公開日:2020-10-14
# 校正確率モデルを用いた短期太陽照度予測

Short-Term Solar Irradiance Forecasting Using Calibrated Probabilistic Models ( http://arxiv.org/abs/2010.04715v2 )

ライセンス: Link先を確認
Eric Zelikman, Sharon Zhou, Jeremy Irvin, Cooper Raterink, Hao Sheng, Anand Avati, Jack Kelly, Ram Rajagopal, Andrew Y. Ng, David Gagne(参考訳) 太陽エネルギーの電力網への統合を支援するためには,確率的太陽予測法が不可欠である。 本研究では,太陽放射の予測のための様々な最先端確率モデルを開発する。 ポストホック校正手法による確率予測の精度向上について検討した。 我々は,surfradネットワーク内の7局の公開データを用いてモデルを訓練し,評価し,最良モデルであるngboostが全駅で最高の日射量予測モデルよりも時間内分解能で高い性能を達成できることを実証した。 さらに, 時間分解能予測における数値天気予報モデルと比較して, CRUDE後キャリブレーションによるNGBoostの性能が向上することを示した。

Advancing probabilistic solar forecasting methods is essential to supporting the integration of solar energy into the electricity grid. In this work, we develop a variety of state-of-the-art probabilistic models for forecasting solar irradiance. We investigate the use of post-hoc calibration techniques for ensuring well-calibrated probabilistic predictions. We train and evaluate the models using public data from seven stations in the SURFRAD network, and demonstrate that the best model, NGBoost, achieves higher performance at an intra-hourly resolution than the best benchmark solar irradiance forecasting model across all stations. Further, we show that NGBoost with CRUDE post-hoc calibration achieves comparable performance to a numerical weather prediction model on hourly-resolution forecasting.
翻訳日:2022-10-09 05:15:43 公開日:2020-10-14
# BioMegatron: より大きなバイオメディカルドメイン言語モデル

BioMegatron: Larger Biomedical Domain Language Model ( http://arxiv.org/abs/2010.06060v2 )

ライセンス: Link先を確認
Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, Raghav Mani(参考訳) バイオメディカルテキストで事前トレーニングされた言語モデルは、wikipediaやbooksのような一般的なドメインテキストコーパスでトレーニングされた言語よりもバイオメディカルドメインベンチマークでパフォーマンスが良いことを示す、バイオメディカルドメイン固有言語モデルが流入している。 しかし、ほとんどの作品は各ドメイン言語アプリケーションに影響を与える要因を深く研究していません。 さらに、ドメイン固有モデルにおけるモデルサイズの研究はほとんど欠落している。 サブワード語彙集合、モデルサイズ、事前学習コーパス、ドメイン転送など、ドメイン言語アプリケーションの性能に影響を与えるいくつかの要因を経験的に研究し、評価する。 我々は、より大きなドメインコーパスでトレーニングされたより大きなBioMegatronモデルとベンチマークで一貫した改善を示し、ドメイン言語モデルアプリケーションの理解に寄与する。 本研究は,生物医学的NLPベンチマーク(名前付きエンティティ認識,関係抽出,質問応答)における従来のSOTA(State-of-the-art)に対する顕著な改善を示す。 モデルチェックポイントとコードは [https://ngc.nvidia.com] と [https://github.com/NVIDIA/NeMo] で利用可能だ。

There has been an influx of biomedical domain-specific language models, showing language models pre-trained on biomedical text perform better on biomedical domain benchmarks than those trained on general domain text corpora such as Wikipedia and Books. Yet, most works do not study the factors affecting each domain language application deeply. Additionally, the study of model size on domain-specific models has been mostly missing. We empirically study and evaluate several factors that can affect performance on domain language applications, such as the sub-word vocabulary set, model size, pre-training corpus, and domain transfer. We show consistent improvements on benchmarks with our larger BioMegatron model trained on a larger domain corpus, contributing to our understanding of domain language model applications. We demonstrate noticeable improvements over the previous state-of-the-art (SOTA) on standard biomedical NLP benchmarks of named entity recognition, relation extraction, and question answering. Model checkpoints and code are available at [https://ngc.nvidia.com] and [https://github.com/NVIDIA/NeMo].
翻訳日:2022-10-08 07:08:34 公開日:2020-10-14
# いくつかの単語は他よりも価値があるか?

Are Some Words Worth More than Others? ( http://arxiv.org/abs/2010.06069v2 )

ライセンス: Link先を確認
Shiran Dudy and Steven Bedrick(参考訳) 言語モデリングと生成の現在の評価基準は、予測された(あるいは生成された)単語の正確さと基準基底真理に大きく依存している。 重要なことではあるが、トークンレベルの精度は言語モデルの振舞いの1つの側面のみを捉え、誤予測されたトークンが実際に有用である可能性のある単語の言語的性質を無視している。 さらに、予測精度(パープレキシティを含む)に直接関連付けられた統計は、しばしば発生する型で予測試みの大多数が発生するため、書字言語のZipfianの性質によって構築される可能性がある。 モデルの性能は、高頻度と低周波の単語間で大きく異なり、実際には、言語モデルの下流のコンシューマが生成する繰り返しや鈍化といった失敗モードにつながる可能性がある。 そこで本研究では,言語モデルの性能をより包括的に表現するための,単純な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。 我々は,提案するメトリクスを用いて,広く使用されている複数の大規模英語モデルを評価し,従来のメトリクスで曖昧なモデル間の機能的性能差を明らかにする。

Current evaluation metrics for language modeling and generation rely heavily on the accuracy of predicted (or generated) words as compared to a reference ground truth. While important, token-level accuracy only captures one aspect of a language model's behavior, and ignores linguistic properties of words that may allow some mis-predicted tokens to be useful in practice. Furthermore, statistics directly tied to prediction accuracy (including perplexity) may be confounded by the Zipfian nature of written language, as the majority of the prediction attempts will occur with frequently-occurring types. A model's performance may vary greatly between high- and low-frequency words, which in practice could lead to failure modes such as repetitive and dull generated text being produced by a downstream consumer of a language model. To address this, we propose two new intrinsic evaluation measures within the framework of a simple word prediction task that are designed to give a more holistic picture of a language model's performance. We evaluate several commonly-used large English language models using our proposed metrics, and demonstrate that our approach reveals functional differences in performance between the models that are obscured by more traditional metrics.
翻訳日:2022-10-08 07:08:14 公開日:2020-10-14
# 宇宙からの戦争破壊のモニタリング: 機械学習アプローチ

Monitoring War Destruction from Space: A Machine Learning Approach ( http://arxiv.org/abs/2010.05970v2 )

ライセンス: Link先を確認
Hannes Mueller, Andre Groger, Jonathan Hersh, Andrea Matranga and Joan Serrat(参考訳) 紛争地帯の破壊に関する既存のデータは目撃者の報告や手動による検出に依存しており、一般的には不足し、不完全であり、潜在的に偏りがある。 この信頼できるデータの欠如は、メディア報道、人道支援活動、人権監視、復興活動、暴力的紛争に関する学術研究に厳しい制限を課している。 本稿では、深層学習技術とデータ拡張を組み合わせた高解像度衛星画像の自動破壊計測手法を提案する。 我々はこの方法をシリア内戦に適用し、国内の主要都市における被害の進展を再構築する。 このアプローチにより、前例のない範囲、解像度、周波数(利用可能な衛星画像によってのみ制限される)で破壊データを生成することができ、データ制限を決定的に緩和することができる。

Existing data on building destruction in conflict zones rely on eyewitness reports or manual detection, which makes it generally scarce, incomplete and potentially biased. This lack of reliable data imposes severe limitations for media reporting, humanitarian relief efforts, human rights monitoring, reconstruction initiatives, and academic studies of violent conflict. This article introduces an automated method of measuring destruction in high-resolution satellite images using deep learning techniques combined with data augmentation to expand training samples. We apply this method to the Syrian civil war and reconstruct the evolution of damage in major cities across the country. The approach allows generating destruction data with unprecedented scope, resolution, and frequency - only limited by the available satellite imagery - which can alleviate data limitations decisively.
翻訳日:2022-10-08 06:24:36 公開日:2020-10-14
# MS$2$L:スケルトンに基づく行動認識のためのマルチタスク自己監視学習

MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action Recognition ( http://arxiv.org/abs/2010.05599v2 )

ライセンス: Link先を確認
Lilang Lin, Sijie Song, Wenhan Yan and Jiaying Liu(参考訳) 本稿では,行動認識のための人体骨格からの自己指導型表現学習について述べる。 通常、1つの再構成タスクから特徴提示を学習する従来の手法は、過度に適合する問題に遭遇し、その特徴は行動認識には一般化できない。 代わりに、より一般的な表現を自己管理的に学習するために複数のタスクを統合することを提案する。 この目標を実現するために,モーション予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面からスケルトン特徴を学習する。 スケルトンダイナミクスは、将来のシーケンスを予測することによって、運動予測を通じてモデル化することができる。 そして、行動認識に不可欠な時間パターンは、ジグソーパズルを解くことによって学習される。 コントラスト学習により特徴空間をさらに規則化する。 また,行動認識のための自己監督タスクの知識を活用するための学習戦略も検討した。 我々は,マルチタスクの自己教師付き学習手法を,教師なし,半教師なし,完全教師なしの設定を含む,異なる構成で訓練された行動分類器を用いて評価する。 nw-ucla, ntu rgb+d, pkummdデータセットを用いた実験は, 行動認識に優れた性能を示し, より識別的, 汎用的な特徴を学習する手法の優位性を示した。 プロジェクトのwebサイトはhttps://langlandslin.github.io/projects/msl/で閲覧できます。

In this paper, we address self-supervised representation learning from human skeletons for action recognition. Previous methods, which usually learn feature presentations from a single reconstruction task, may come across the overfitting problem, and the features are not generalizable for action recognition. Instead, we propose to integrate multiple tasks to learn more general representations in a self-supervised manner. To realize this goal, we integrate motion prediction, jigsaw puzzle recognition, and contrastive learning to learn skeleton features from different aspects. Skeleton dynamics can be modeled through motion prediction by predicting the future sequence. And temporal patterns, which are critical for action recognition, are learned through solving jigsaw puzzles. We further regularize the feature space by contrastive learning. Besides, we explore different training strategies to utilize the knowledge from self-supervised tasks for action recognition. We evaluate our multi-task self-supervised learning approach with action classifiers trained under different configurations, including unsupervised, semi-supervised and fully-supervised settings. Our experiments on the NW-UCLA, NTU RGB+D, and PKUMMD datasets show remarkable performance for action recognition, demonstrating the superiority of our method in learning more discriminative and general features. Our project website is available at https://langlandslin.github.io/projects/MSL/.
翻訳日:2022-10-08 05:57:29 公開日:2020-10-14
# 完全探索型マスキング言語モデルによる自己教師あり事前学習の改善

Improving Self-supervised Pre-training via a Fully-Explored Masked Language Model ( http://arxiv.org/abs/2010.06040v2 )

ライセンス: Link先を確認
Mingzhi Zheng, Dinghan Shen, Yelong Shen, Weizhu Chen, Lin Xiao(参考訳) Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。 本稿では,mlmにおけるランダムにサンプリングされたマスクは,好ましくないほど大きな勾配分散をもたらすと論じる。 したがって、勾配の共分散と2つの異なるマスク間のハミング距離(あるテキストシーケンス)を関連付けて勾配の分散を理論的に定量化する。 マスクのサンプリングによるばらつきを低減すべく,テキストシーケンスを一定数の重複しないセグメントに分割するための,十分に検討されたマスキング戦略を提案する。 その後、訓練用に1セグメント内のトークンをマスクする。 理論的な見地からすると、この新しいマスキングスキーマに由来する勾配はばらつきが小さく、より効率的な自己教師付きトレーニングにつながることを証明します。 我々は,スクラッチから連続事前訓練と一般事前訓練の両方について広範な実験を行った。 実験の結果、この新しいマスキング戦略は標準のランダムマスキングよりも一貫して優れていることが確認された。 詳細な効率解析とアブレーション研究により、MLMフレームワーク下での完全探索マスキング戦略の利点がさらに検証された。

Masked Language Model (MLM) framework has been widely adopted for self-supervised language pre-training. In this paper, we argue that randomly sampled masks in MLM would lead to undesirably large gradient variance. Thus, we theoretically quantify the gradient variance via correlating the gradient covariance with the Hamming distance between two different masks (given a certain text sequence). To reduce the variance due to the sampling of masks, we propose a fully-explored masking strategy, where a text sequence is divided into a certain number of non-overlapping segments. Thereafter, the tokens within one segment are masked for training. We prove, from a theoretical perspective, that the gradients derived from this new masking schema have a smaller variance and can lead to more efficient self-supervised training. We conduct extensive experiments on both continual pre-training and general pre-training from scratch. Empirical results confirm that this new masking strategy can consistently outperform standard random masking. Detailed efficiency analysis and ablation studies further validate the advantages of our fully-explored masking strategy under the MLM framework.
翻訳日:2022-10-08 05:48:44 公開日:2020-10-14
# 最適貯留層計算のためのグリーン関数による再帰の展開

Unfolding recurrence by Green's functions for optimized reservoir computing ( http://arxiv.org/abs/2010.06247v2 )

ライセンス: Link先を確認
Sandra Nestler, Christian Keup, David Dahmen, Matthieu Gilson, Holger Rauhut and Moritz Helias(参考訳) 皮質ネットワークは強く再発し、ニューロンは内在的な時間的ダイナミクスを持つ。 これにより、ディープフィードフォワードネットワークとは切り離される。 フィードフォワードネットワークの適用の著しい進歩と理論的理解にもかかわらず、反復性皮質ネットワークにおける再発の相互作用と非線形性がそれらの機能にどのように寄与するかは、まだ不明である。 本研究の目的は、フォワードネットワークにリンクする解決可能なリカレントネットワークモデルを提供することである。 摂動的手法により、時間連続的反復力学を線形および非線形時間核の効果的なフィードフォワード構造に変換する。 解析式により、ランダムな貯水池ネットワークから最適な時系列分類器を構築することができる。 まず,読み出しベクトルだけでなく入力投影も最適化し,高い性能向上を示す。 次に、第2次刺激統計がダイナミクスの非線形性と相互作用し、パフォーマンスを向上させる重要な要素であることを示す。

Cortical networks are strongly recurrent, and neurons have intrinsic temporal dynamics. This sets them apart from deep feed-forward networks. Despite the tremendous progress in the application of feed-forward networks and their theoretical understanding, it remains unclear how the interplay of recurrence and non-linearities in recurrent cortical networks contributes to their function. The purpose of this work is to present a solvable recurrent network model that links to feed forward networks. By perturbative methods we transform the time-continuous, recurrent dynamics into an effective feed-forward structure of linear and non-linear temporal kernels. The resulting analytical expressions allow us to build optimal time-series classifiers from random reservoir networks. Firstly, this allows us to optimize not only the readout vectors, but also the input projection, demonstrating a strong potential performance gain. Secondly, the analysis exposes how the second order stimulus statistics is a crucial element that interacts with the non-linearity of the dynamics and boosts performance.
翻訳日:2022-10-08 00:22:18 公開日:2020-10-14
# 異種情報ネットワークを用いたクロス教師付き共同イベント抽出

Cross-Supervised Joint-Event-Extraction with Heterogeneous Information Networks ( http://arxiv.org/abs/2010.06310v2 )

ライセンス: Link先を確認
Yue Wang, Zhuo Xu, Lu Bai, Yao Wan, Lixin Cui, Qian Zhao, Edwin R. Hancock, Philip S. Yu(参考訳) 非構造化実世界のコーパスから構造情報(すなわち、イベントの実体やトリガー)を抽出するジョイントイベント抽出は、自然言語処理における研究の注目を集めている。 既存の作品の多くは、エンティティとトリガーの間のスパース共起関係を完全に扱っていないため、この重要な情報が失われ、抽出性能が低下する。 この問題を軽減するため、まずジョイントイベント抽出をトリガーとエンティティのタグからなるタグセットでシーケンスからシーケンスへのラベリングタスクとして定義する。 そして、上記の共起関係に欠落した情報を組み込むために、相互の型分布に基づいてトリガまたはエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。 さらに,接続されたエンティティとトリガが自然にヘテロジニアス情報ネットワーク(HIN)を形成するため,提案手法の性能向上のために,与えられたコーパスのメタパスに沿って潜時パターンを利用する。 提案手法の有効性を検証するため,本手法を最先端の手法と比較すると共に,実世界の4つのデータセットに対する広範な実験を行った。 実験結果と分析結果から,本手法は実体抽出とトリガ抽出の両方において最先端の手法より優れていることが示された。

Joint-event-extraction, which extracts structural information (i.e., entities or triggers of events) from unstructured real-world corpora, has attracted more and more research attention in natural language processing. Most existing works do not fully address the sparse co-occurrence relationships between entities and triggers, which loses this important information and thus deteriorates the extraction performance. To mitigate this issue, we first define the joint-event-extraction as a sequence-to-sequence labeling task with a tag set composed of tags of triggers and entities. Then, to incorporate the missing information in the aforementioned co-occurrence relationships, we propose a Cross-Supervised Mechanism (CSM) to alternately supervise the extraction of either triggers or entities based on the type distribution of each other. Moreover, since the connected entities and triggers naturally form a heterogeneous information network (HIN), we leverage the latent pattern along meta-paths for a given corpus to further improve the performance of our proposed method. To verify the effectiveness of our proposed method, we conduct extensive experiments on four real-world datasets as well as compare our method with state-of-the-art methods. Empirical results and analysis show that our approach outperforms the state-of-the-art methods in both entity and trigger extraction.
翻訳日:2022-10-07 23:39:55 公開日:2020-10-14
# 最先端機械翻訳のためのきめ細かな言語評価

Fine-grained linguistic evaluation for state-of-the-art Machine Translation ( http://arxiv.org/abs/2010.06359v2 )

ライセンス: Link先を確認
Eleftherios Avramidis, Vivien Macketanz, Ursula Strohriegel, Aljoscha Burchardt and Sebastian M\"oller(参考訳) 本稿では,第5回機械翻訳会議(WMT20)の現在最先端のドイツ語系システムに対して,言語性能の詳細な統計情報を提供するテストスイートについて述べる。 分析は,手動注記作業45時間を含む約5500個の試験項目に基づいて,14のカテゴリに分類された107の現象を対象とする。 2つのシステム(TohokuとHuoshan)は、他のシステムよりもテストスイートの精度が大幅に向上しているように見えるが、WMT20の最良のシステムは、マクロ平均でWMT19のシステムよりもはるかに優れているわけではない。 さらに、全てのシステムが苦しむ言語現象(イディオム、結果述語、pluperfectなど)を特定できるが、個々のシステム(引用符号、語彙曖昧性、スライシングなど)の弱点を特定することもできる。 WMT19のシステムの多くは、今年新しいバージョンを提出した。

This paper describes a test suite submission providing detailed statistics of linguistic performance for the state-of-the-art German-English systems of the Fifth Conference of Machine Translation (WMT20). The analysis covers 107 phenomena organized in 14 categories based on about 5,500 test items, including a manual annotation effort of 45 person hours. Two systems (Tohoku and Huoshan) appear to have significantly better test suite accuracy than the others, although the best system of WMT20 is not significantly better than the one from WMT19 in a macro-average. Additionally, we identify some linguistic phenomena where all systems suffer (such as idioms, resultative predicates and pluperfect), but we are also able to identify particular weaknesses for individual systems (such as quotation marks, lexical ambiguity and sluicing). Most of the systems of WMT19 which submitted new versions this year show improvements.
翻訳日:2022-10-07 23:38:51 公開日:2020-10-14
# Pagsusuri ng RNN-based Transfer Learning Techniquesa Low-Resource Language

Pagsusuri ng RNN-based Transfer Learning Technique sa Low-Resource Language ( http://arxiv.org/abs/2010.06447v2 )

ライセンス: Link先を確認
Dan John Velasco(参考訳) フィリピン語のような低リソース言語はデータの不足に悩まされており、フィリピン語のためのNLPアプリケーションを開発するのは難しい。 転送学習(tl)技術の使用は、低リソース環境でこの問題を緩和する。 近年、トランスフォーマーベースのモデルは低リソースタスクに有効であることが証明されているが、高い計算とメモリ要求のためにアクセシビリティの課題に直面している。 そのため、より安価で効果的な代替手段が必要となる。 この論文には3つの貢献がある。 まず、フィリピン語のための事前訓練されたAWD-LSTM言語モデルをリリースする。 第2に、Hate Speech分類タスクにおけるAWD-LSTMのベンチマークを行い、トランスフォーマーベースモデルと同等の性能を示す。 第3に、劣化試験を用いて低リソース環境でのAWD-LSTMの性能を分析し、トランスモデルと比較する。 Ang mga low-resource languages tulad ng Filipino ay gipit sa access na datos kaya't mahirap gumawa ng mga applications sa wikang ito Ang mga Transfer Learning (TL) technique ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos。 Sa mga nagdaang taon, nanaig ang mga transformer-based TL technique pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements Kaya nangangailangan ng mas mura pero epektibong alternatibo。 Ang papel na ito ay may tatlong kontribusyon. Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP application sa wikang Filipino。 Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer based model。 Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource set gamit ang degradation test at kumpara ito sa mga transformer based model。

Low-resource languages such as Filipino suffer from data scarcity which makes it challenging to develop NLP applications for Filipino language. The use of Transfer Learning (TL) techniques alleviates this problem in low-resource setting. In recent years, transformer-based models are proven to be effective in low-resource tasks but faces challenges in accessibility due to its high compute and memory requirements. For this reason, there's a need for a cheaper but effective alternative. This paper has three contributions. First, release a pre-trained AWD-LSTM language model for Filipino language. Second, benchmark AWD-LSTM in the Hate Speech classification task and show that it performs on par with transformer-based models. Third, analyze the the performance of AWD-LSTM in low-resource setting using degradation test and compare it with transformer-based models. ----- Ang mga low-resource languages tulad ng Filipino ay gipit sa accessible na datos kaya't mahirap gumawa ng mga applications sa wikang ito. Ang mga Transfer Learning (TL) techniques ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos. Sa mga nagdaang taon, nanaig ang mga transformer-based TL techniques pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements kaya nangangailangan ng mas mura pero epektibong alternatibo. Ang papel na ito ay may tatlong kontribusyon. Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP applications sa wikang Filipino. Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer-based models. Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource setting gamit ang degradation test at ikumpara ito sa mga transformer-based models.
翻訳日:2022-10-07 23:38:05 公開日:2020-10-14
# Annotationsaurus: アノテーションツールの検索可能なディレクトリ

Annotationsaurus: A Searchable Directory of Annotation Tools ( http://arxiv.org/abs/2010.06251v2 )

ライセンス: Link先を確認
Mariana Neves and Jurica Seva(参考訳) テキスト文書の手動アノテーションは、機械学習アルゴリズムのトレーニングと評価のためのベンチマークコーパスを構築するのに必要なタスクである。 現在93のツールを含むアノテーションツールの包括的なディレクトリを作成しました。 我々はツールを31種類の機能で分析し、選択された基準に基づいてツールをフィルタリングするシンプルなスクリプトとWebアプリケーションを実装した。 このディレクトリを使って2つのユースケースを提示し、その保守のためのアイデアを提案する。 ディレクトリ、スクリプトのソースコード、Webアプリケーションへのリンクは、https://github.com/mariananeves/annotation-tools.comで入手できる。

Manual annotation of textual documents is a necessary task when constructing benchmark corpora for training and evaluating machine learning algorithms. We created a comprehensive directory of annotation tools that currently includes 93 tools. We analyzed the tools over a set of 31 features and implemented simple scripts and a Web application that filters the tools based on chosen criteria. We present two use cases using the directory and propose ideas for its maintenance. The directory, source codes for scripts, and link to the Web application are available at: https://github.com/mariananeves/annotation-tools
翻訳日:2022-10-07 23:28:10 公開日:2020-10-14
# Attn-HybridNet:注意融合によるハイブリッド特徴の識別性の向上

Attn-HybridNet: Improving Discriminability of Hybrid Features with Attention Fusion ( http://arxiv.org/abs/2010.06096v2 )

ライセンス: Link先を確認
Sunny Verma, Chen Wang, Liming Zhu, and Wei Liu(参考訳) 主成分分析ネットワーク(PCANet)は、主成分を畳み込み層内のフィルタとして利用する、教師なしの擬似深層ネットワークである。 強力だが、PCANetは主成分や空間プールのような基本的な操作で構成されており、2つの根本的な問題に悩まされている。 まず、主成分はコラムベクトル(アマルガメートビューと呼ばれる)に変換して情報を取得し、データ内の空間情報の損失を引き起こす。 第2に、PCANetで利用される一般化空間プーリングは特徴冗長性を誘導し、また自然画像の空間統計に適合しない。 本研究ではまず,テンソル因子化ネットワーク(TFNet)と呼ばれるテンソル因子化に基づくディープネットワークを提案する。 tfnetはデータの空間構造(minutiae viewと呼ぶ)から特徴を抽出する。 そこで, PCANet と TFNet が取得した情報は, 独特で非自明であるが, 個々に不十分であることを示す。 この現象は、情報発見とデータの2つのビューを統合するハイブリッドネットの開発を必要とする。 ハイブリッド機能の識別性を高めるために,注意に基づく特徴融合を行い,特徴冗長性を緩和するattn-hybridnetを提案する。 提案するAttn-HybridNetの意義は,Attn-HybridNetで得られた特徴が他の一般的なベースライン手法よりも優れた分類性能を達成し,提案手法の有効性を示す複数の実世界のデータセット上で実証されている。

The principal component analysis network (PCANet) is an unsupervised parsimonious deep network, utilizing principal components as filters in its convolution layers. Albeit powerful, the PCANet consists of basic operations such as principal components and spatial pooling, which suffers from two fundamental problems. First, the principal components obtain information by transforming it to column vectors (which we call the amalgamated view), which incurs the loss of the spatial information in the data. Second, the generalized spatial pooling utilized in the PCANet induces feature redundancy and also fails to accommodate spatial statistics of natural images. In this research, we first propose a tensor-factorization based deep network called the Tensor Factorization Network (TFNet). The TFNet extracts features from the spatial structure of the data (which we call the minutiae view). We then show that the information obtained by the PCANet and the TFNet are distinctive and non-trivial but individually insufficient. This phenomenon necessitates the development of proposed HybridNet, which integrates the information discovery with the two views of the data. To enhance the discriminability of hybrid features, we propose Attn-HybridNet, which alleviates the feature redundancy by performing attention-based feature fusion. The significance of our proposed Attn-HybridNet is demonstrated on multiple real-world datasets where the features obtained with Attn-HybridNet achieves better classification performance over other popular baseline methods, demonstrating the effectiveness of the proposed technique.
翻訳日:2022-10-07 23:03:09 公開日:2020-10-14
# 重み付けを用いた半スーパービジョン変分オートエンコーダの生成と推論の相互作用制御

Controlling the Interaction Between Generation and Inference in Semi-Supervised Variational Autoencoders Using Importance Weighting ( http://arxiv.org/abs/2010.06549v2 )

ライセンス: Link先を確認
Ghazi Felhi, Joseph Leroux, Djam\'e Seddah(参考訳) 変分オートエンコーダ (VAE) は半教師付き学習に広く用いられているが、その動作理由は不明である。 実際、教師なし目的の追加は、しばしばあいまいに正規化として記述される。 この正規化の強度は、トレーニングセットの未ラベル部分の目標を低くすることで制御される。 半教師付きvaesの目的の分析を通して,学習した生成モデルの後方を用いて,部分的に観測された潜在変数の学習における推論モデルを導出する。 この観察結果から,教師なし目標が訓練手順に及ぼす影響について,より細かく制御できることが示されている。 重要度重み付けを用いて, 部分的に観測された潜在変数の1つか, 観測されていない潜在変数のどちらかを優先する2つの新しい目的を導出する。 IMDBの英語感情分析データセットとAG Newsのトピック分類データセットの実験では、優先順位付けメカニズムによる改善が示され、セミスーパービジョンのVAEの内部動作の説明とインラインな振る舞いを示している。

Even though Variational Autoencoders (VAEs) are widely used for semi-supervised learning, the reason why they work remains unclear. In fact, the addition of the unsupervised objective is most often vaguely described as a regularization. The strength of this regularization is controlled by down-weighting the objective on the unlabeled part of the training set. Through an analysis of the objective of semi-supervised VAEs, we observe that they use the posterior of the learned generative model to guide the inference model in learning the partially observed latent variable. We show that given this observation, it is possible to gain finer control on the effect of the unsupervised objective on the training procedure. Using importance weighting, we derive two novel objectives that prioritize either one of the partially observed latent variable, or the unobserved latent variable. Experiments on the IMDB english sentiment analysis dataset and on the AG News topic classification dataset show the improvements brought by our prioritization mechanism and exhibit a behavior that is inline with our description of the inner working of Semi-Supervised VAEs.
翻訳日:2022-10-07 22:44:09 公開日:2020-10-14
# 粗粒度及び細粒度自動クロッピング深層畳み込みニューラルネットワーク

Coarse and fine-grained automatic cropping deep convolutional neural network ( http://arxiv.org/abs/2010.06379v2 )

ライセンス: Link先を確認
Jingfei Chang(参考訳) 既存の畳み込みニューラルネットワークプルーニングアルゴリズムは、粗粒クリッピングと細粒クリッピングの2つのカテゴリに分類できる。 本稿では,畳み込みニューラルネットワークのより効率的かつ高精度な圧縮高速化を実現する,粗くきめ細かな自動刈取アルゴリズムを提案する。 まず、畳み込みニューラルネットワークの中間特徴マップをクラスタ化して、粗い切り込み後にネットワーク構造を取得し、次に、粒子群最適化アルゴリズムを用いて構造を反復的に探索し、最適化する。 最後に、最適なネットワーク調整サブ構造を得る。

The existing convolutional neural network pruning algorithms can be divided into two categories: coarse-grained clipping and fine-grained clipping. This paper proposes a coarse and fine-grained automatic pruning algorithm, which can achieve more efficient and accurate compression acceleration for convolutional neural networks. First, cluster the intermediate feature maps of the convolutional neural network to obtain the network structure after coarse-grained clipping, and then use the particle swarm optimization algorithm to iteratively search and optimize the structure. Finally, the optimal network tailoring substructure is obtained.
翻訳日:2022-10-07 22:36:17 公開日:2020-10-14
# 畳み込みニューラルネットワークを用いた透過電子顕微鏡像におけるアモルファス絶縁体と4H-SiCの界面の定量

Determination of the Interface between Amorphous Insulator and Crystalline 4H-SiC in Transmission Electron Microscope Image by using Convolutional Neural Network ( http://arxiv.org/abs/2010.09485v1 )

ライセンス: Link先を確認
Hironori Yoshioka and Tomonori Honda(参考訳) 粗いインターフェースはsicmosfetの低チャネル移動性(導電性)の原因の1つであると考えられる。 本研究では,畳み込みニューラルネットワーク(cnn)の深層学習アプローチを用いて,透過型電子顕微鏡(tem)により得られた断面画像中のアモルファス絶縁体と結晶性4h-sicの境界線を描画した。 インターフェースが手動で境界線を描画するには粗すぎる場合でも,CNNモデルはインターフェースを非常によく認識することを示す。 界面粗さのパワースペクトル密度を算出した。

A rough interface seems to be one of the possible reasons for low channel mobility (conductivity) in SiC MOSFETs. To evaluate the mobility by interface roughness, we drew a boundary line between amorphous insulator and crystalline 4H-SiC in a cross-sectional image obtained by a transmission electron microscope (TEM), by using the deep learning approach of convolutional neural network (CNN). We show that the CNN model recognizes the interface very well, even when the interface is too rough to draw the boundary line manually. Power spectral density of interface roughness was calculated.
翻訳日:2022-10-07 14:51:11 公開日:2020-10-14
# 粗粒非線形システム同定

Coarse-Grained Nonlinear System Identification ( http://arxiv.org/abs/2010.06830v1 )

ライセンス: Link先を確認
Span Spanbauer, Ian Hunter(参考訳) 本稿では,ボルテラ級数展開に基づく非線形系力学の効率良く普遍的なパラメータ化である粗粒状非線形力学を紹介する。 これらのモデルは、ボルテラ展開が切断される順序に関わらず、システムのメモリ内でのみ準線形なパラメータを必要とする。 この効率的なパラメータ化は、時間的に離れた入力サンプルの積に依存するシステムダイナミクスの粗粒化部分によって達成される;これは概念的には、高速多重極法が n-体ダイナミクスの$\mathcal{o}(n)$ のシミュレーションに使用する粗粒化と似ている。 我々の非線形力学の効率的なパラメータ化は正則化に利用することができ、正確な非線形力学モデルを特定するために非常に実験的なデータを必要とする粗粒非線形系同定に繋がる。 我々は,このアプローチの特性を単純な合成問題で示す。 また, この手法を実験的に検証した結果, タングステンフィラメントの光度ダイナミクスに対する非線形電圧の正確なモデルが実験データの1秒未満で同定された。

We introduce Coarse-Grained Nonlinear Dynamics, an efficient and universal parameterization of nonlinear system dynamics based on the Volterra series expansion. These models require a number of parameters only quasilinear in the system's memory regardless of the order at which the Volterra expansion is truncated; this is a superpolynomial reduction in the number of parameters as the order becomes large. This efficient parameterization is achieved by coarse-graining parts of the system dynamics that depend on the product of temporally distant input samples; this is conceptually similar to the coarse-graining that the fast multipole method uses to achieve $\mathcal{O}(n)$ simulation of n-body dynamics. Our efficient parameterization of nonlinear dynamics can be used for regularization, leading to Coarse-Grained Nonlinear System Identification, a technique which requires very little experimental data to identify accurate nonlinear dynamic models. We demonstrate the properties of this approach on a simple synthetic problem. We also demonstrate this approach experimentally, showing that it identifies an accurate model of the nonlinear voltage to luminosity dynamics of a tungsten filament with less than a second of experimental data.
翻訳日:2022-10-07 14:41:43 公開日:2020-10-14
# レジスト・オーディオ・アドバイザリの事例に向けて

Towards Resistant Audio Adversarial Examples ( http://arxiv.org/abs/2010.07190v1 )

ライセンス: Link先を確認
Tom D\"orr, Karla Markert, Nicolas M. M\"uller, Konstantin B\"ottinger(参考訳) 敵対的な例は、機械学習ベースのシステムの可用性と整合性を非常に脅かす。 このような攻撃の可能性は画像処理の分野ではまず観察されているが、近年の研究では、音声認識もまた敵対的攻撃の影響を受けやすいことが示されている。 しかし、空隙を確実につなぐ(例えば、逆の例をマイクで録音すると機能させる)ことは、研究者を遠ざけている。 生成プロセスの欠陥により、ターゲット音声認識システム(例えば、Mozilla Deepspeech)のバイナリ操作により、最先端の対向的なサンプル生成手法が過度に適合していることが判明した。 我々は,この欠陥を緩和するアプローチを考案し,異なるオフセットを持つ逆例の生成を改善する方法を見出した。 実環境下での編集距離の実証的比較により,本手法の大幅な改善を確認した。 われわれのアプローチは空襲に対する大きな一歩だ。 私たちはこのアプローチのコードと適用可能な実装を公開します。

Adversarial examples tremendously threaten the availability and integrity of machine learning-based systems. While the feasibility of such attacks has been observed first in the domain of image processing, recent research shows that speech recognition is also susceptible to adversarial attacks. However, reliably bridging the air gap (i.e., making the adversarial examples work when recorded via a microphone) has so far eluded researchers. We find that due to flaws in the generation process, state-of-the-art adversarial example generation methods cause overfitting because of the binning operation in the target speech recognition system (e.g., Mozilla Deepspeech). We devise an approach to mitigate this flaw and find that our method improves generation of adversarial examples with varying offsets. We confirm the significant improvement with our approach by empirical comparison of the edit distance in a realistic over-the-air setting. Our approach states a significant step towards over-the-air attacks. We publish the code and an applicable implementation of our approach.
翻訳日:2022-10-07 14:41:25 公開日:2020-10-14
# ベクターコストによるオンライン学習とKnapsackによるバンド

Online Learning with Vector Costs and Bandits with Knapsacks ( http://arxiv.org/abs/2010.07346v1 )

ライセンス: Link先を確認
Thomas Kesselheim and Sahil Singla(参考訳) ベクトルコストによるオンライン学習(\olvcp)を導入する。ステップ$t \in \{1,\ldots,t\}$では、未知ベクトルコストが$[0,1]^{d}$となるようなアクション$i \in \{1,\ldots,n\}$をプレイする必要がある。 オンラインアルゴリズムの目標は、コストベクトルの総和の$\ell_p$ノルムを最小化することである。 これは従来のオンライン学習設定を$d=1$でキャプチャし、さまざまなマシン(次元)間の負荷のバランスを取るオンラインスケジューリングのようなアプリケーションのために、一般的な$d$として興味深い。 確率的および敵対的な到着設定の両方で \olvcp を研究し、問題を$d$次元から1次元に減らすための一般的な手順を与える。 これにより、従来のオンライン学習アルゴリズムをフルフィードバックモデルとバンディットフィードバックモデルの両方で使用して、(ほぼ)最適な結果を得ることができます。 特に、確率的到着に対するサブ線形後悔を与える1つのアルゴリズム(学習速度の選択まで)と、敵対的到着に対する競合比の厳密な$O(\min\{p, \log d\})を得る。 OLVCp問題は、Knapsacks (\BwK) 問題で人気のBanditsを解く際にも自然のサブプロブレムとして発生する。 この接続により、我々のOLVCp技術を用いて、確率的および対角的両方の設定において、BwKの(ほぼ)最適結果を得ることができる。 特に、逆数 \BwK に対する厳密な$O(\log d \cdot \log T)$競争比アルゴリズムを求め、Immorlica et al の$O(d \cdot \log T)$競争比アルゴリズムを改良する。 [focs'19]

We introduce online learning with vector costs (\OLVCp) where in each time step $t \in \{1,\ldots, T\}$, we need to play an action $i \in \{1,\ldots,n\}$ that incurs an unknown vector cost in $[0,1]^{d}$. The goal of the online algorithm is to minimize the $\ell_p$ norm of the sum of its cost vectors. This captures the classical online learning setting for $d=1$, and is interesting for general $d$ because of applications like online scheduling where we want to balance the load between different machines (dimensions). We study \OLVCp in both stochastic and adversarial arrival settings, and give a general procedure to reduce the problem from $d$ dimensions to a single dimension. This allows us to use classical online learning algorithms in both full and bandit feedback models to obtain (near) optimal results. In particular, we obtain a single algorithm (up to the choice of learning rate) that gives sublinear regret for stochastic arrivals and a tight $O(\min\{p, \log d\})$ competitive ratio for adversarial arrivals. The \OLVCp problem also occurs as a natural subproblem when trying to solve the popular Bandits with Knapsacks (\BwK) problem. This connection allows us to use our \OLVCp techniques to obtain (near) optimal results for \BwK in both stochastic and adversarial settings. In particular, we obtain a tight $O(\log d \cdot \log T)$ competitive ratio algorithm for adversarial \BwK, which improves over the $O(d \cdot \log T)$ competitive ratio algorithm of Immorlica et al. [FOCS'19].
翻訳日:2022-10-07 14:40:59 公開日:2020-10-14
# BlockFLA: ハイブリッドブロックチェーンアーキテクチャによる説明可能なフェデレーション学習

BlockFLA: Accountable Federated Learning via Hybrid Blockchain Architecture ( http://arxiv.org/abs/2010.07427v1 )

ライセンス: Link先を確認
Harsh Bimal Desai, Mustafa Safa Ozdayi, Murat Kantarcioglu(参考訳) Federated Learning (FL) は、分散された分散化された機械学習プロトコルである。 flを実行することにより、エージェントのセットは、データセットを互いに共有することなく、あるいはサードパーティと共同でモデルを訓練することができる。 これにより、FLは特にデータのプライバシが求められる設定に適している。 同時に、トレーニングデータの隠蔽は、攻撃者がトレーニングされたモデルにバックドアを注入する機会を与える。 FL中、攻撃者は訓練されたモデルにバックドアを注入でき、その後、バックドアを利用してモデルを後で誤分類できる。 この脅威を和らげるために、ロバストなアグリゲーション関数を設計した作品がいくつかある。 しかし、より高度な攻撃が時間をかけて開発され、既存の防御をバイパスすることで、本研究の補完的な角度からこの問題にアプローチする。 特に、訓練期間終了後に攻撃者を検知し、罰し、バックドア攻撃を防止することを目的としている。 この目的のために、スマートコントラクトを使用して攻撃者を自動的に検出し、金銭的罰則によって罰する、ハイブリッドブロックチェーンベースのFLフレームワークを開発した。 私たちのフレームワークは、アグリゲーション関数や攻撃者検出アルゴリズムをプラグインできるという意味では一般的なものです。 我々は,このフレームワークがFLの通信効率のよい性質を保っていることを示す実験を行い,新たな攻撃者検出アルゴリズムを活用して攻撃者を罰則化できることを示す。

Federated Learning (FL) is a distributed, and decentralized machine learning protocol. By executing FL, a set of agents can jointly train a model without sharing their datasets with each other, or a third-party. This makes FL particularly suitable for settings where data privacy is desired. At the same time, concealing training data gives attackers an opportunity to inject backdoors into the trained model. It has been shown that an attacker can inject backdoors to the trained model during FL, and then can leverage the backdoor to make the model misclassify later. Several works tried to alleviate this threat by designing robust aggregation functions. However, given more sophisticated attacks are developed over time, which by-pass the existing defenses, we approach this problem from a complementary angle in this work. Particularly, we aim to discourage backdoor attacks by detecting, and punishing the attackers, possibly after the end of training phase. To this end, we develop a hybrid blockchain-based FL framework that uses smart contracts to automatically detect, and punish the attackers via monetary penalties. Our framework is general in the sense that, any aggregation function, and any attacker detection algorithm can be plugged into it. We conduct experiments to demonstrate that our framework preserves the communication-efficient nature of FL, and provide empirical results to illustrate that it can successfully penalize attackers by leveraging our novel attacker detection algorithm.
翻訳日:2022-10-07 14:40:05 公開日:2020-10-14
# 放射線学における人工知能(tru-ai)の追跡結果と活用--covid-19流行の早期観察

Tracking Results and Utilization of Artificial Intelligence (tru-AI) in Radiology: Early-Stage COVID-19 Pandemic Observations ( http://arxiv.org/abs/2010.07437v1 )

ライセンス: Link先を確認
Axel Wism\"uller and Larry Stockmaster(参考訳) 目的: 放射線学における人工知能(tru-AI)の結果の追跡と活用方法を提案する。 tru-aiアプローチは、大規模利用とai結果のデータの両方を追跡することで、新型コロナウイルス(covid-19)の流行による頭蓋内出血の発生など、経時的に重要な疾患関連観察量を測定するためのサーロゲートを計算することを目的としている。 方法: tru-AIアプローチの臨床応用性を定量的に検討するため, 商用AIソリューションを用いて頭蓋内出血(ICH)を自動的に同定するためのサービス要求を分析した。 我々は,2019年11月1日から2020年6月2日までに取得した大手医療システムにおいて,N=9,421名の緊急設定型非コントラスト頭部CT研究のデータを分析し,2回の観察期間を比較検討した。 (i)2019年11月1日から2020年2月29日までのパンデミック前期 (ii)2020年4月1~30日の新型コロナウイルス(covid-19)パンデミックの期間。 結果: 40.1+/-7.9) において, 日当たりのCTスキャン数は, 前(44.4+/7.6) に比べて有意に低かったが, 日当たりのICC+症例は, 統計学的に予想されるよりも1日あたりのICC+症例の方がAIにより観察される可能性が高かった。 結論: 放射線学における大規模利用とai結果データの両方を追跡することにより, tru-aiアプローチは, 医療に対するパンデミック関連効果の理解を深めるため, 広汎な探索ツールとして臨床価値を寄与できることが示唆された。

Objective: To introduce a method for tracking results and utilization of Artificial Intelligence (tru-AI) in radiology. By tracking both large-scale utilization and AI results data, the tru-AI approach is designed to calculate surrogates for measuring important disease-related observational quantities over time, such as the prevalence of intracranial hemorrhage during the COVID-19 pandemic outbreak. Methods: To quantitatively investigate the clinical applicability of the tru-AI approach, we analyzed service requests for automatically identifying intracranial hemorrhage (ICH) on head CT using a commercial AI solution. This software is typically used for AI-based prioritization of radiologists' reading lists for reducing turnaround times in patients with emergent clinical findings, such as ICH or pulmonary embolism.We analyzed data of N=9,421 emergency-setting non-contrast head CT studies at a major US healthcare system acquired from November 1, 2019 through June 2, 2020, and compared two observation periods, namely (i) a pre-pandemic epoch from November 1, 2019 through February 29, 2020, and (ii) a period during the COVID-19 pandemic outbreak, April 1-30, 2020. Results: Although daily CT scan counts were significantly lower during (40.1 +/- 7.9) than before (44.4 +/- 7.6) the COVID-19 outbreak, we found that ICH was more likely to be observed by AI during than before the COVID-19 outbreak (p<0.05), with approximately one daily ICH+ case more than statistically expected. Conclusion: Our results suggest that, by tracking both large-scale utilization and AI results data in radiology, the tru-AI approach can contribute clinical value as a versatile exploratory tool, aiming at a better understanding of pandemic-related effects on healthcare.
翻訳日:2022-10-07 14:39:42 公開日:2020-10-14
# EPEC市場におけるハイブリッドモデルによるエネルギースポット価格予測

Hybrid Modelling Approaches for Forecasting Energy Spot Prices in EPEC market ( http://arxiv.org/abs/2010.08400v1 )

ライセンス: Link先を確認
Tahir Miriyev, Alessandro Contu, Kevin Schafers, Ion Gabriel Ion(参考訳) 本研究では,epec市場におけるエネルギースポット価格予測のためのハイブリッドモデリング手法を検討した。 ハイブリダイゼーションは、ナイーブモデル、フーリエ解析、armaおよびgarchモデル、平均反転およびジャンプ拡散モデル、およびリカレントニューラルネットワーク(rnn)を組み合わせることによって行われる。 訓練データには2013-2014年の電力価格と2015年の試験データが含まれている。

In this work we considered several hybrid modelling approaches for forecasting energy spot prices in EPEC market. Hybridization is performed through combining a Naive model, Fourier analysis, ARMA and GARCH models, a mean-reversion and jump-diffusion model, and Recurrent Neural Networks (RNN). Training data was given in terms of electricity prices for 2013-2014 years, and test data as a year of 2015.
翻訳日:2022-10-07 14:39:06 公開日:2020-10-14
# 再生可能エネルギー貯蔵のための機械学習を用いた電気触媒設計入門

An Introduction to Electrocatalyst Design using Machine Learning for Renewable Energy Storage ( http://arxiv.org/abs/2010.09435v1 )

ライセンス: Link先を確認
C. Lawrence Zitnick, Lowik Chanussot, Abhishek Das, Siddharth Goyal, Javier Heras-Domingo, Caleb Ho, Weihua Hu, Thibaut Lavril, Aini Palizhati, Morgane Riviere, Muhammed Shuaibi, Anuroop Sriram, Kevin Tran, Brandon Wood, Junwoong Yoon, Devi Parikh, Zachary Ulissi(参考訳) 再生可能エネルギー貯蔵のためのスケーラブルで費用対効果の高いソリューションは、気候変動を抑えながら世界のエネルギー需要の増大に対処するために不可欠である。 断続的な電力を発生させる風力や太陽などの再生可能エネルギー源への依存が高まるにつれ、ピーク時からピーク時への電力の移動には蓄電が必要である。 これは何時間も何日も何ヶ月も電力を蓄える必要がある。 再生可能エネルギーを水素やメタンなどの他の燃料に転換するという、全国規模のグリッドにスケールする可能性を提供するソリューションのひとつだ。 広く採用するには、このプロセスは電気化学反応の実行に対してコスト効率のよい解を必要とする。 オープンな課題は、これらの反応を高速に駆動する低コストの電気触媒を見つけることである。 量子力学シミュレーション(密度汎関数理論)を用いることで、新しい触媒構造を試験し評価することができる。 残念ながら、これらのシミュレーションの計算コストはテスト可能な構造物の数を制限している。 機械学習の使用は、これらの計算を効率的に近似する方法を提供し、効果的な電気触媒を見つけるための新しいアプローチをもたらすかもしれない。 本稿では,適切な触媒を見つける上での課題,その問題への機械学習の適用方法,およびモデルトレーニングにおけるOpen Catalyst Project OC20データセットの利用について紹介する。

Scalable and cost-effective solutions to renewable energy storage are essential to addressing the world's rising energy needs while reducing climate change. As we increase our reliance on renewable energy sources such as wind and solar, which produce intermittent power, storage is needed to transfer power from times of peak generation to peak demand. This may require the storage of power for hours, days, or months. One solution that offers the potential of scaling to nation-sized grids is the conversion of renewable energy to other fuels, such as hydrogen or methane. To be widely adopted, this process requires cost-effective solutions to running electrochemical reactions. An open challenge is finding low-cost electrocatalysts to drive these reactions at high rates. Through the use of quantum mechanical simulations (density functional theory), new catalyst structures can be tested and evaluated. Unfortunately, the high computational cost of these simulations limits the number of structures that may be tested. The use of machine learning may provide a method to efficiently approximate these calculations, leading to new approaches in finding effective electrocatalysts. In this paper, we provide an introduction to the challenges in finding suitable electrocatalysts, how machine learning may be applied to the problem, and the use of the Open Catalyst Project OC20 dataset for model training.
翻訳日:2022-10-07 14:38:57 公開日:2020-10-14
# Mycorrhiza: 遺伝的ネットワークを用いた遺伝子型割り当て

Mycorrhiza: Genotype Assignment usingPhylogenetic Networks ( http://arxiv.org/abs/2010.09483v1 )

ライセンス: Link先を確認
Jeremy Georges-Filteau, Richard C. Hamelin and Mathieu Blanchette(参考訳) モチベーション 遺伝子型割り当て問題は、個体の遺伝子型から発生した既知の集団のどれかを予測することから成り立っている。 この問題は、野生動物鑑定、侵入種検出、生物多様性監視など、さまざまな文脈で発生する。 既存のアプローチは理想的な条件下ではうまく機能するが、依存する仮定の様々な共通違反に敏感である。 本稿では,遺伝子型割当問題に対する機械学習アプローチであるmycorrhizaについて述べる。 提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。 これらの機能はランダムフォレスト分類器への入力として使用される。 分類精度は,複数のsnp,マイクロサテライト,コンセンサスシーケンスデータセットにおいて,サイズ,地理的分布,人口構造,シミュレーションデータセットを用いて評価した。 広く使われている評価試験や、構造や混和などの混合分析法、および主成分分析を用いた他の機械学習による次元低減法と比較した。 Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。 さらに,系統ネットワークアプローチは混合比率を精度良く推定する。

Motivation The genotype assignment problem consists of predicting, from the genotype of an individual, which of a known set of populations it originated from. The problem arises in a variety of contexts, including wildlife forensics, invasive species detection and biodiversity monitoring. Existing approaches perform well under ideal conditions but are sensitive to a variety of common violations of the assumptions they rely on. Results In this article, we introduce Mycorrhiza, a machine learning approach for the genotype assignment problem. Our algorithm makes use of phylogenetic networks to engineer features that encode the evolutionary relationships among samples. Those features are then used as input to a Random Forests classifier. The classification accuracy was assessed on multiple published empirical SNP, microsatellite or consensus sequence datasets with wide ranges of size, geographical distribution and population structure and on simulated datasets. It compared favorably against widely used assessment tests or mixture analysis methods such as STRUCTURE and Admixture, and against another machine-learning based approach using principal component analysis for dimensionality reduction. Mycorrhiza yields particularly significant gains on datasets with a large average fixation index (FST) or deviation from the Hardy-Weinberg equilibrium. Moreover, the phylogenetic network approach estimates mixture proportions with good accuracy.
翻訳日:2022-10-07 14:38:39 公開日:2020-10-14
# 運動画像脳-コンピュータインタフェース分類のためのバイナリ化法

Binarization Methods for Motor-Imagery Brain-Computer Interface Classification ( http://arxiv.org/abs/2010.07004v1 )

ライセンス: Link先を確認
Michael Hersche, Luca Benini, Abbas Rahimi(参考訳) 成功した運動画像脳コンピュータインタフェース(MI-BCI)アルゴリズムは、多数の手作り特徴を抽出し、分類器を訓練するか、深層畳み込みニューラルネットワーク(CNN)内で特徴抽出と分類を組み合わせる。 どちらのアプローチも一般的には、リソースに制約のあるデバイス上でリアルタイム実行をターゲットとする場合に問題となる、一連の実価値重みを生じさせる。 そこで本研究では,実数値重みをバイナリ数に変換する手法を提案する。 最初の方法はスパース双極性確率射影に基づいて、線形SVM分類器を二乗重みで学習できるような、実数値リーマン共分散の多数の特徴を二乗空間に投影する。 2次埋め込みの次元を調整することで、float16重みを持つモデルに比べて4クラスMI(\leq$1.27%低い)でほぼ同じ精度を達成できるが、より単純な操作でよりコンパクトなモデルを提供する。 次に、MI-BCIにメモリ拡張ニューラルネットワーク(MANN)を用い、メモリを二項化することを提案する。 提案手法は,CNNの完全連結層をバイポーラランダムプロジェクションまたは学習プロジェクションを用いてバイナリ拡張メモリに置き換える。 既にコンパクトなMI-BCICNNであるEEGNetの実験結果から、ランダムプロジェクションを用いて1.28倍の精度で圧縮できることが示されている。 一方、学習された投影を用いると3.89%高い精度が得られるが、メモリサイズは28.10倍増加する。

Successful motor-imagery brain-computer interface (MI-BCI) algorithms either extract a large number of handcrafted features and train a classifier, or combine feature extraction and classification within deep convolutional neural networks (CNNs). Both approaches typically result in a set of real-valued weights, that pose challenges when targeting real-time execution on tightly resource-constrained devices. We propose methods for each of these approaches that allow transforming real-valued weights to binary numbers for efficient inference. Our first method, based on sparse bipolar random projection, projects a large number of real-valued Riemannian covariance features to a binary space, where a linear SVM classifier can be learned with binary weights too. By tuning the dimension of the binary embedding, we achieve almost the same accuracy in 4-class MI ($\leq$1.27% lower) compared to models with float16 weights, yet delivering a more compact model with simpler operations to execute. Second, we propose to use memory-augmented neural networks (MANNs) for MI-BCI such that the augmented memory is binarized. Our method replaces the fully connected layer of CNNs with a binary augmented memory using bipolar random projection, or learned projection. Our experimental results on EEGNet, an already compact CNN for MI-BCI, show that it can be compressed by 1.28x at iso-accuracy using the random projection. On the other hand, using the learned projection provides 3.89% higher accuracy but increases the memory size by 28.10x.
翻訳日:2022-10-07 14:33:01 公開日:2020-10-14
# 脳ネットワークにおける因果推論のためのグラフニューラルネットワークフレームワーク

A Graph Neural Network Framework for Causal Inference in Brain Networks ( http://arxiv.org/abs/2010.07143v1 )

ライセンス: Link先を確認
Simon Wein, Wilhelm Malloni, Ana Maria Tom\'e, Sebastian M. Frank, Gina-Isabelle Henze, Stefan W\"ust, Mark W. Greenlee, Elmar W. Lang(参考訳) 神経科学における中心的な問題は、脳内の自律的動的相互作用が比較的静的な構造的バックボーンにどのように現れるかである。 異なる脳領域間の空間的および時間的依存関係の複雑さのため、構造と機能の間の相互作用を完全に理解することは依然として困難であり、激しい研究の領域である。 本稿では,構造解剖学的レイアウトに基づく機能的相互作用を記述するためのグラフニューラルネットワーク(GNN)フレームワークを提案する。 gnnは,拡散テンソルイメージング(dti)から得られた構造情報を,機能的磁気共鳴画像(fmri)で観察されるような時間的神経活動プロファイルと組み合わせることが可能なグラフ構造時空間信号の処理を可能にする。 さらに、このデータ駆動アプローチによって学習された異なる脳領域間の動的相互作用は、因果接続強度のマルチモーダル尺度を提供することができる。 実験により得られたニューラルアクティベーションプロファイルを再現する能力を評価することにより,提案モデルの精度を評価するとともに,グランガー因果関係で一般的に用いられるベクトルオートレグレッション(VAR)の性能と比較する。 我々は,GNNがデータの長期的依存関係をキャプチャし,大規模ネットワークの解析まで計算的にスケールアップ可能であることを示す。 最後に、gnnが学習した機能は、mriスキャナタイプと取得プロトコルをまたいで一般化可能であることを確認し、小規模データセットでのgnnのパフォーマンスは、以前の研究と異なる研究からのデータに事前トレーニングすることで改善できることを示した。 提案したマルチモーダルGNNフレームワークは,脳の構造-機能関係の新たな視点を提供することができる。 このアプローチは、脳ネットワークにおける情報フローのキャラクタリゼーションに有望である。

A central question in neuroscience is how self-organizing dynamic interactions in the brain emerge on their relatively static structural backbone. Due to the complexity of spatial and temporal dependencies between different brain areas, fully comprehending the interplay between structure and function is still challenging and an area of intense research. In this paper we present a graph neural network (GNN) framework, to describe functional interactions based on the structural anatomical layout. A GNN allows us to process graph-structured spatio-temporal signals, providing a possibility to combine structural information derived from diffusion tensor imaging (DTI) with temporal neural activity profiles, like observed in functional magnetic resonance imaging (fMRI). Moreover, dynamic interactions between different brain regions learned by this data-driven approach can provide a multi-modal measure of causal connectivity strength. We assess the proposed model's accuracy by evaluating its capabilities to replicate empirically observed neural activation profiles, and compare the performance to those of a vector auto regression (VAR), like typically used in Granger causality. We show that GNNs are able to capture long-term dependencies in data and also computationally scale up to the analysis of large-scale networks. Finally we confirm that features learned by a GNN can generalize across MRI scanner types and acquisition protocols, by demonstrating that the performance on small datasets can be improved by pre-training the GNN on data from an earlier and different study. We conclude that the proposed multi-modal GNN framework can provide a novel perspective on the structure-function relationship in the brain. Therewith this approach can be promising for the characterization of the information flow in brain networks.
翻訳日:2022-10-07 14:32:31 公開日:2020-10-14
# トラクションの利点:逆アテンションを用いたリモートバイタル計測

The Benefit of Distraction: Denoising Remote Vitals Measurements using Inverse Attention ( http://arxiv.org/abs/2010.07770v1 )

ライセンス: Link先を確認
Ewa Nowara, Daniel McDuff, Ashok Veeraraghavan(参考訳) 注意はコンピュータビジョンにおける強力な概念である。 画像やビデオの領域に選択的にフォーカスすることを学ぶエンドツーエンドネットワークは、しばしば強く機能する。 しかし、他の画像領域は、必ずしも関心のシグナルを含まないが、有用なコンテキストを含むかもしれない。 本稿では,関心のある信号を含む領域とそうでない領域の間で,ノイズの統計情報を共有できるという考え方を生かしたアプローチを提案する。 本手法は, 注意マスクの逆数を用いて, 時間的観測をノイズ推定する手法である。 これをカメラによる生理的計測の課題に適用する。 コンボリューショナルアテンションネットワークを用いて、ビデオのどの領域が生理的信号を含んでいるかを学び、予備推定を生成する。 学習した注目マスクの逆領域の画素強度を用いて雑音推定を行い、これを生理信号の推定を洗練させる。 2つの大きなベンチマークデータセットで実験を行い、この手法が最先端の結果を生成し、信号対雑音比を最大5.8dB、心拍数と呼吸速度推定誤差を最大30%削減し、微妙なパルス波形のダイナミクスを回復し、リトレーニングなしでRGBからNIRビデオに一般化することを示した。

Attention is a powerful concept in computer vision. End-to-end networks that learn to focus selectively on regions of an image or video often perform strongly. However, other image regions, while not necessarily containing the signal of interest, may contain useful context. We present an approach that exploits the idea that statistics of noise may be shared between the regions that contain the signal of interest and those that do not. Our technique uses the inverse of an attention mask to generate a noise estimate that is then used to denoise temporal observations. We apply this to the task of camera-based physiological measurement. A convolutional attention network is used to learn which regions of a video contain the physiological signal and generate a preliminary estimate. A noise estimate is obtained by using the pixel intensities in the inverse regions of the learned attention mask, this in turn is used to refine the estimate of the physiological signal. We perform experiments on two large benchmark datasets and show that this approach produces state-of-the-art results, increasing the signal-to-noise ratio by up to 5.8 dB, reducing heart rate and breathing rate estimation error by as much as 30%, recovering subtle pulse waveform dynamics, and generalizing from RGB to NIR videos without retraining.
翻訳日:2022-10-07 14:30:19 公開日:2020-10-14
# 深層学習における複雑な畳み込みを用いた変調パターン検出

Modulation Pattern Detection Using Complex Convolutions in Deep Learning ( http://arxiv.org/abs/2010.15556v1 )

ライセンス: Link先を確認
Jakob Krzyston, Rajib Bhattacharjea, Andrew Stark(参考訳) 電気通信に用いられるトランシーバーは、複素数の列として表される特定の変調パターンを伝達し受信する。 変調パターンの分類は、受信信号が送信信号とほとんど似ていないような複雑な方法でノイズやチャネル障害が信号に影響するため困難である。 ディープラーニングのアプローチは、この問題空間における統計的手法よりも大きな期待を示してきたが、ディープラーニングのフレームワークは、複雑な値データのサポートに遅れを取っている。 このギャップに対処するために,畳み込みニューラルネットワークアーキテクチャにおける複雑な畳み込みの実装と利用について検討する。 アーキテクチャにおける複雑な一般化によるデータ構造と畳み込み操作の置換は、低SNR信号で訓練した後、高いSNRを持つ複素数値信号の変調パターンを認識する際に、統計的に有意な性能を向上させる。 これは、複雑な値の畳み込みによってネットワークがより意味のある表現を学習できることを示している。 本仮説は,各実験で得られた特徴を比較し,各ネットワークの1-hot変調パターン分類結果の入力を可視化することで検証する。

Transceivers used for telecommunications transmit and receive specific modulation patterns that are represented as sequences of complex numbers. Classifying modulation patterns is challenging because noise and channel impairments affect the signals in complicated ways such that the received signal bears little resemblance to the transmitted signal. Although deep learning approaches have shown great promise over statistical methods in this problem space, deep learning frameworks continue to lag in support for complex-valued data. To address this gap, we study the implementation and use of complex convolutions in a series of convolutional neural network architectures. Replacement of data structure and convolution operations by their complex generalization in an architecture improves performance, with statistical significance, at recognizing modulation patterns in complex-valued signals with high SNR after being trained on low SNR signals. This suggests complex-valued convolutions enables networks to learn more meaningful representations. We investigate this hypothesis by comparing the features learned in each experiment by visualizing the inputs that results in one-hot modulation pattern classification for each network.
翻訳日:2022-10-07 14:29:55 公開日:2020-10-14
# trine:三部構成異種ネットワークのためのネットワーク表現学習

TriNE: Network Representation Learning for Tripartite Heterogeneous Networks ( http://arxiv.org/abs/2010.06816v1 )

ライセンス: Link先を確認
Zhabiz Gharibshah, Xingquan Zhu(参考訳) 本稿では,3種類のノードを持つネットワークのノード表現特徴を学習する三部ネットワークのネットワーク表現学習について検討する。 実世界のアプリケーションでは三部ネットワークが一般的であり、表現学習の重要な課題は、ネットワーク内の様々なノードタイプとリンクの間の不均一な関係である。 この課題に対処するために、TriNEと呼ばれる三部構成の異種ネットワークを組込みます。 この方法は、ノード間の明示的な関係(オブザーバブルリンク)をモデル化する客観的関数を構築し、三部ノード(オブザーバブルノードセット間の非オブザーバブルリンク)間の暗黙的な関係をキャプチャする。 メタパス誘導ランダムウォークを編成し、ネットワーク内の全てのノードタイプのための異種近傍を生成する。 この情報は、統合最適化に基づいて不均一なスキップグラムモデルを訓練するために利用される。 実世界の三部ネットワーク実験は、埋め込みノード機能を用いたオンラインユーザ応答予測におけるTriNEの性能を検証する。

In this paper, we study network representation learning for tripartite heterogeneous networks which learns node representation features for networks with three types of node entities. We argue that tripartite networks are common in real world applications, and the essential challenge of the representation learning is the heterogeneous relations between various node types and links in the network. To tackle the challenge, we develop a tripartite heterogeneous network embedding called TriNE. The method considers unique user-item-tag tripartite relationships, to build an objective function to model explicit relationships between nodes (observed links), and also capture implicit relationships between tripartite nodes (unobserved links across tripartite node sets). The method organizes metapath guided random walks to create heterogeneous neighborhood for all node types in the network. This information is then utilized to train a heterogeneous skip-gram model based on a joint optimization. Experiments on real-world tripartite networks validate the performance of TriNE for the online user response prediction using embedding node features.
翻訳日:2022-10-07 14:22:38 公開日:2020-10-14
# 小売における消費者行動:ディープニューラルネットワークによる次の論理購入

Consumer Behaviour in Retail: Next Logical Purchase using Deep Neural Network ( http://arxiv.org/abs/2010.06952v1 )

ライセンス: Link先を確認
Ankur Verma(参考訳) 将来の消費者行動を予測することは、大規模小売企業にとって最も難しい問題の一つだ。 消費者購買パターンの正確な予測は、在庫計画と効率的なパーソナライズされたマーケティング戦略を可能にする。 最適な在庫計画は在庫不足や過剰在庫のインスタンスを最小化し、スマートパーソナライズされたマーケティング戦略は、スムーズで楽しいショッピング体験を保証します。 消費者の購入予測問題は、リコメンデータシステムまたは従来のMLアプローチを通じて、従来の方法でML研究者によって対処されてきた。 このようなモデリングアプローチは、消費者購買パターンの予測をうまく一般化しない。 本稿では、消費者の購買行動に関する調査を行い、Eコマース小売データを用いて、消費者が一定時間内に商品を購入するかどうかを予測するためのデータ駆動型フレームワークを構築した。 この関係をモデル化するために、関連するすべてのコンシューマーとイテムの組み合わせに対して時系列データを作成します。 次に,消費者,アイテム,時間の交点に特徴を生成することにより,一般化された非線形モデルを構築する。 異なるニューラルネットワークアーキテクチャ、MLモデル、それらの組み合わせを実験することで、堅牢なパフォーマンスを示す。 重み付け一般化アンサンブルとF1-Maximizationフレームワークとともに,様々なハイパーパラメータを用いた60のモデリング実験の結果を示す。 次に、XgboostやRandomForestといったMLモデルよりも、Multi Layer Perceptron、Long Short Term Memory(LSTM)、Temporal Convolutional Networks(TCN)、TN-LSTMといったニューラルネットワークアーキテクチャのメリットを紹介します。

Predicting future consumer behaviour is one of the most challenging problems for large scale retail firms. Accurate prediction of consumer purchase pattern enables better inventory planning and efficient personalized marketing strategies. Optimal inventory planning helps minimise instances of Out-of-stock/ Excess Inventory and, smart Personalized marketing strategy ensures smooth and delightful shopping experience. Consumer purchase prediction problem has generally been addressed by ML researchers in conventional manners, either through recommender systems or traditional ML approaches. Such modelling approaches do not generalise well in predicting consumer purchase pattern. In this paper, we present our study of consumer purchase behaviour, wherein, we establish a data-driven framework to predict whether a consumer is going to purchase an item within a certain time frame using e-commerce retail data. To model this relationship, we create a sequential time-series data for all relevant consumer-item combinations. We then build generalized non-linear models by generating features at the intersection of consumer, item, and time. We demonstrate robust performance by experimenting with different neural network architectures, ML models, and their combinations. We present the results of 60 modelling experiments with varying Hyperparameters along with Stacked Generalization ensemble and F1-Maximization framework. We then present the benefits that neural network architectures like Multi Layer Perceptron, Long Short Term Memory (LSTM), Temporal Convolutional Networks (TCN) and TCN-LSTM bring over ML models like Xgboost and RandomForest.
翻訳日:2022-10-07 14:21:33 公開日:2020-10-14
# コード切り換え音声言語識別におけるスペクトル拡張の活用

Exploiting Spectral Augmentation for Code-Switched Spoken Language Identification ( http://arxiv.org/abs/2010.07130v1 )

ライセンス: Link先を確認
Pradeep Rangan, Sundeep Teki, and Hemant Misra(参考訳) 音声言語識別(lid)システムは、与えられた音声サンプルに存在する言語を識別するために必要であり、通常、自動音声認識(asr)のような多くの音声処理に関連するタスクの最初のステップとなる。 音声信号に含まれる言語の自動識別は科学的に興味深いだけでなく、インドのような多言語国において実践的に重要である。 多くのインドの都市では、人々が互いに対話するとき、3つの言語が混在することがある。 これらの言語には、ヒンディー語、英語の公用語が含まれる(時には近隣の諸州の言語も混在することもある)。 これにより、インドの文脈ではLIDタスクは極めて困難である。 インド語の文脈ではかなり多くのLIDシステムが実装されているが、ほとんどのシステムは組織内部で収集された小規模の音声データを用いている。 現在の研究では、3つのインド語(Gujarati、Telugu、Tamil)で音声LIDをコード化して実行しています。 このタスクはmicrosoft researchチームによって、lidチャレンジとして組織された。 本研究では,従来のスペクトル拡張手法を改良し,言語IDペアを識別する言語マスクを提案する。 提案手法は,microsoftが提案する2つの共通タスクに対する3つの言語ペアについて提案するベースラインシステムに対して,約3~5%のlid精度を相対的に向上させる。

Spoken language Identification (LID) systems are needed to identify the language(s) present in a given audio sample, and typically could be the first step in many speech processing related tasks such as automatic speech recognition (ASR). Automatic identification of the languages present in a speech signal is not only scientifically interesting, but also of practical importance in a multilingual country such as India. In many of the Indian cities, when people interact with each other, as many as three languages may get mixed. These may include the official language of that province, Hindi and English (at times the languages of the neighboring provinces may also get mixed during these interactions). This makes the spoken LID task extremely challenging in Indian context. While quite a few LID systems in the context of Indian languages have been implemented, most such systems have used small scale speech data collected internally within an organization. In the current work, we perform spoken LID on three Indian languages (Gujarati, Telugu, and Tamil) code-mixed with English. This task was organized by the Microsoft research team as a spoken LID challenge. In our work, we modify the usual spectral augmentation approach and propose a language mask that discriminates the language ID pairs, which leads to a noise robust spoken LID system. The proposed method gives a relative improvement of approximately 3-5% in the LID accuracy over a baseline system proposed by Microsoft on the three language pairs for two shared tasks suggested in the challenge.
翻訳日:2022-10-07 14:14:07 公開日:2020-10-14
# 赤外線診断システムのための低ランク凸・スパース熱行列近似

Low-rank Convex/Sparse Thermal Matrix Approximation for Infrared-based Diagnostic System ( http://arxiv.org/abs/2010.06784v1 )

ライセンス: Link先を確認
Bardia Yousefi, Clemente Ibarra Castanedo, Xavier P.V. Maldague(参考訳) アクティブサーモグラフィとパッシブサーモグラフィは、診断のための地下欠陥につながる異種熱パターンを測定するために広く使用される2つの効率的な技術である。 本研究は, サーモグラフィにおける低ランク行列近似法の比較解析を行い, 準, 凸, スパース非負行列分解 (nmf) 法を用いて地下熱パターンの検出を行った。 これらの手法は主成分サーモグラフィ(PCT)とスパースPCTの利点を継承するが、スパースPCTでは非負の制約で負の基底に取り組み、処理データにクラスタリング特性を示す。 乳がんスクリーニングデータセット(74.1%, 75.8%, 77.8%)の乳房異常を識別するための熱的不均一性を保持する3つの試料(深さと大きさの異なる欠陥)における表面欠陥検出の実験結果により, これらの方法の実用性と効率が示された。

Active and passive thermography are two efficient techniques extensively used to measure heterogeneous thermal patterns leading to subsurface defects for diagnostic evaluations. This study conducts a comparative analysis on low-rank matrix approximation methods in thermography with applications of semi-, convex-, and sparse- non-negative matrix factorization (NMF) methods for detecting subsurface thermal patterns. These methods inherit the advantages of principal component thermography (PCT) and sparse PCT, whereas tackle negative bases in sparse PCT with non-negative constraints, and exhibit clustering property in processing data. The practicality and efficiency of these methods are demonstrated by the experimental results for subsurface defect detection in three specimens (for different depth and size defects) and preserving thermal heterogeneity for distinguishing breast abnormality in breast cancer screening dataset (accuracy of 74.1%, 75.8%, and 77.8%).
翻訳日:2022-10-07 14:13:43 公開日:2020-10-14
# 病理診断における3D OCTの高能率・高精度運動補正

Efficient and high accuracy 3-D OCT angiography motion correction in pathology ( http://arxiv.org/abs/2010.06931v1 )

ライセンス: Link先を確認
Stefan B. Ploner, Martin F. Kraus, Eric M. Moult, Lennart Husvogt, Julia Schottenhamml, A. Yasin Alibhai, Nadia K. Waheed, Jay S. Duker, James G. Fujimoto, Andreas K. Maier(参考訳) 直交ラスタ走査光コヒーレンスCTによる血管造影ボリュームの非剛性3次元運動補正法を提案する。 これは、網膜層や横行血管造影などの軸方向の構造的特徴を共同最適化で整列させる最初のアプローチである。 直交走査の使用と運動学的によりプラウザブルな変位の優遇と組み合わせることで、このアプローチは3次元全てでサブピクセルアライメントとマイクロメータースケールの歪み補正を可能にする。 特定の構造や層がセグメント化されていないため、アプローチは病理学的変化に対して堅牢に設計されている。 さらに、高度に並列な実装と短いランタイムのために設計されており、高密度スキャンや広視野スキャンでも臨床ルーチンに統合できる。 本アルゴリズムは, 広範囲の病態と健康管理を含む17名の被験者204名を対象に, 大規模定量評価において臨床的に関連性のある指標を用いて評価した。 本手法を用いて, 横方向のコアライメントと歪み補正の両面で, 特に病的部分群において有意な進歩を示した。

We propose a novel method for non-rigid 3-D motion correction of orthogonally raster-scanned optical coherence tomography angiography volumes. This is the first approach that aligns predominantly axial structural features like retinal layers and transverse angiographic vascular features in a joint optimization. Combined with the use of orthogonal scans and favorization of kinematically more plausible displacements, the approach allows subpixel alignment and micrometer-scale distortion correction in all 3 dimensions. As no specific structures or layers are segmented, the approach is by design robust to pathologic changes. It is furthermore designed for highly parallel implementation and brief runtime, allowing its integration in clinical routine even for high density or wide-field scans. We evaluated the algorithm with metrics related to clinically relevant features in a large-scale quantitative evaluation based on 204 volumetric scans of 17 subjects including both a wide range of pathologies and healthy controls. Using this method, we achieve state-of-the-art axial performance and show significant advances in both transverse co-alignment and distortion correction, especially in the pathologic subgroup.
翻訳日:2022-10-07 14:12:49 公開日:2020-10-14
# モバイルデバイス上でのDeep Rawイメージの実用化

Practical Deep Raw Image Denoising on Mobile Devices ( http://arxiv.org/abs/2010.06935v1 )

ライセンス: Link先を確認
Yuzhi Wang, Haibin Huang, Qin Xu, Jiaming Liu, Yiqun Liu, Jue Wang(参考訳) 近年,多くの公開ベンチマークデータセットにおいて,ディープラーニングに基づく画像認識アプローチが広く研究されている。 しかし、最先端のネットワークは計算コストがかかりすぎてモバイルデバイスに直接適用できない。 本研究では,メインストリームのモバイルデバイス上でスムーズに動作し,高品質なデノイジング結果を生成する,軽量で効率的なニューラルネットワークベースの生画像デノイザーを提案する。 1) センサノイズレベルの測定と推定により, センサ固有データに基づいてトレーニングした小型ネットワークは, 一般データでトレーニングした大規模ネットワークよりも優れ, 2) 異なるISO設定下での大きなノイズレベル変動は, k-Sigma 変換によって除去され, より広い範囲のノイズレベルを効率的に処理できる。 我々は、我々のアプローチの効率と正確性を実証するための広範な実験を行う。 qualcomm(クアルコム)のsnapdragon 855チップセットで1メガピクセルあたり約70ミリ秒で動作し、2019年に発売されたいくつかのフラッグシップスマートフォンの夜間撮影機能の基礎となっています。

Deep learning-based image denoising approaches have been extensively studied in recent years, prevailing in many public benchmark datasets. However, the stat-of-the-art networks are computationally too expensive to be directly applied on mobile devices. In this work, we propose a light-weight, efficient neural network-based raw image denoiser that runs smoothly on mainstream mobile devices, and produces high quality denoising results. Our key insights are twofold: (1) by measuring and estimating sensor noise level, a smaller network trained on synthetic sensor-specific data can out-perform larger ones trained on general data; (2) the large noise level variation under different ISO settings can be removed by a novel k-Sigma Transform, allowing a small network to efficiently handle a wide range of noise levels. We conduct extensive experiments to demonstrate the efficiency and accuracy of our approach. Our proposed mobile-friendly denoising model runs at ~70 milliseconds per megapixel on Qualcomm Snapdragon 855 chipset, and it is the basis of the night shot feature of several flagship smartphones released in 2019.
翻訳日:2022-10-07 14:12:31 公開日:2020-10-14
# mriデータ解析のためのコンピュータビジョンモデルにおける領域シフト:概要

Domain Shift in Computer Vision models for MRI data analysis: An Overview ( http://arxiv.org/abs/2010.07222v1 )

ライセンス: Link先を確認
Ekaterina Kondrateva, Marina Pominova, Elena Popova, Maxim Sharaev, Alexander Bernstein, Evgeny Burnaev(参考訳) 機械学習とコンピュータビジョン手法は、医用画像解析において優れた性能を示している。 しかし、現在臨床で使われているアプリケーションはごくわずかであり、その理由の1つは、異なるソースや取得ドメインのデータへのモデルの転送性が低かったことである。 マルチモーダル医用画像データにおける領域の伝達と適応のための新しい手法とアルゴリズムの開発は、正確なモデルの開発と臨床におけるそれらの使用に不可欠である。 本稿では,機械学習とコンピュータビジョンにおける領域シフト問題に取り組む手法について概説する。 この調査で議論されたアルゴリズムには、高度データ処理、モデルのアーキテクチャ強化、トレーニング、およびドメイン不変な潜在空間での予測が含まれる。 自動エンコーディングニューラルネットワークとそのドメイン不変変動の応用は,調査でよく議論されている。 磁気共鳴イメージング(MRI)データ解析に応用された最新の手法を観察し、その性能を結論し、さらなる研究の方向性を提案する。

Machine learning and computer vision methods are showing good performance in medical imagery analysis. Yetonly a few applications are now in clinical use and one of the reasons for that is poor transferability of themodels to data from different sources or acquisition domains. Development of new methods and algorithms forthe transfer of training and adaptation of the domain in multi-modal medical imaging data is crucial for thedevelopment of accurate models and their use in clinics. In present work, we overview methods used to tackle thedomain shift problem in machine learning and computer vision. The algorithms discussed in this survey includeadvanced data processing, model architecture enhancing and featured training, as well as predicting in domaininvariant latent space. The application of the autoencoding neural networks and their domain-invariant variationsare heavily discussed in a survey. We observe the latest methods applied to the magnetic resonance imaging(MRI) data analysis and conclude on their performance as well as propose directions for further research.
翻訳日:2022-10-07 14:12:11 公開日:2020-10-14
# fMRI領域適応のためのファダーネットワーク:ABIDE-II研究

Fader Networks for domain adaptation on fMRI: ABIDE-II study ( http://arxiv.org/abs/2010.07233v1 )

ライセンス: Link先を確認
Marina Pominova, Ekaterina Kondrateva, Maxim Sharaev, Alexander Bernstein, Evgeny Burnaev(参考訳) ABIDEは、fMRIデータと完全な表現型記述の両方を持つ、オープンソースの自閉症スペクトラム障害データベースである。 これらのデータは、機能的接続解析と生データによるディープラーニングに基づいて広範囲に研究され、トップモデルの精度は、別々の走査サイトに対して75\%近くであった。 しかし、ABIDE内の様々なスキャンサイト間でのモデル転送性には問題がある。 本稿では,脳神経画像データに基づく脳病理分類問題に対して,初めてドメイン適応を行う。 3次元畳み込みオートエンコーダを用いて非関係な潜在空間画像表現を構築し,既存のabideデータに対するアプローチに勝ることを示す。

ABIDE is the largest open-source autism spectrum disorder database with both fMRI data and full phenotype description. These data were extensively studied based on functional connectivity analysis as well as with deep learning on raw data, with top models accuracy close to 75\% for separate scanning sites. Yet there is still a problem of models transferability between different scanning sites within ABIDE. In the current paper, we for the first time perform domain adaptation for brain pathology classification problem on raw neuroimaging data. We use 3D convolutional autoencoders to build the domain irrelevant latent space image representation and demonstrate this method to outperform existing approaches on ABIDE data.
翻訳日:2022-10-07 14:11:56 公開日:2020-10-14
# GPUにおける空間モデルチェッカー(拡張版)

A spatial model checker in GPU (extended version) ( http://arxiv.org/abs/2010.07284v1 )

ライセンス: Link先を確認
Laura Bussi, Vincenzo Ciancia, Fabio Gadducci(参考訳) このツールのvoxlogicaは、計算画像アルゴリズムITKの最先端ライブラリを宣言仕様と空間論理モデルチェックによる最適化実行の組み合わせでマージする。 単純な論理仕様による脳腫瘍のセグメンテーションのための既存のベンチマークの分析は、最先端の精度に到達した。 本稿では,新しいgpuベースのvoxlogicaについて述べるとともに,その実装,スケーラビリティ,アプリケーションについて述べる。

The tool voxlogica merges the state-of-the-art library of computational imaging algorithms ITK with the combination of declarative specification and optimised execution provided by spatial logic model checking. The analysis of an existing benchmark for segmentation of brain tumours via a simple logical specification reached state-of-the-art accuracy. We present a new, GPU-based version of voxlogica and discuss its implementation, scalability, and applications.
翻訳日:2022-10-07 14:11:46 公開日:2020-10-14
# 時間的畳み込みネットワークによるパーソナライズと最適化

Offer Personalization using Temporal Convolution Network and Optimization ( http://arxiv.org/abs/2010.08130v1 )

ライセンス: Link先を確認
Ankur Verma(参考訳) 近年、オンラインショッピングや市場競争の激化により、小売・eリテール企業にとってパーソナライズドマーケティングが重要になっている。 オンラインショッピングやハイマーケット競争の増加は、オンライン小売業者のプロモーション支出の増加につながったため、取引数と利益のバランスを維持するために最適なオファーの展開が不可欠になっている。 本稿では,小売業における消費者,商品,時間の交点におけるオファー最適化問題を解決する手法を提案する。 提案を最適化するために,まず,時間的畳み込みネットワークを用いた一般化非線形モデルを構築し,消費者レベルでの商品購入確率を一定期間予測する。 次に,消費者商品の粒度における購入確率のオファー弾性を推定するために,過去のオファー値とモデルから得られた購入確率の関数関係を確立する。 最後に, 推定弾性率を用いて, 制約に基づく最適化手法を用いて提供価値を最適化する。 本稿では,本手法の詳細と,カテゴリ間のモデリングと最適化の結果について述べる。

Lately, personalized marketing has become important for retail/e-retail firms due to significant rise in online shopping and market competition. Increase in online shopping and high market competition has led to an increase in promotional expenditure for online retailers, and hence, rolling out optimal offers has become imperative to maintain balance between number of transactions and profit. In this paper, we propose our approach to solve the offer optimization problem at the intersection of consumer, item and time in retail setting. To optimize offer, we first build a generalized non-linear model using Temporal Convolutional Network to predict the item purchase probability at consumer level for the given time period. Secondly, we establish the functional relationship between historical offer values and purchase probabilities obtained from the model, which is then used to estimate offer-elasticity of purchase probability at consumer item granularity. Finally, using estimated elasticities, we optimize offer values using constraint based optimization technique. This paper describes our detailed methodology and presents the results of modelling and optimization across categories.
翻訳日:2022-10-07 14:05:28 公開日:2020-10-14
# クラスター帰属ネットワークへの類似度行列の精度向上

Refining Similarity Matrices to Cluster Attributed Networks Accurately ( http://arxiv.org/abs/2010.06854v1 )

ライセンス: Link先を確認
Yuta Yajima and Akihiro Inokuchi(参考訳) 近年のソーシャルネットワークの普及と、すべての分野にまたがる研究論文の増加により、人や論文などの属性を持つ対象間の関係からなる属性ネットワークがますます大きくなってきている。 そのため,ネットワークをサブネットワークにクラスタ化するための様々な研究が活発に行われている。 スペクトルクラスタリングを用いて属性ネットワークをクラスタリングする場合、クラスタリング精度は、スペクトルクラスタリングに入力され、オブジェクトのペア間の類似度を表す類似度行列の品質に強く影響を受ける。 本稿では,スペクトルクラスタリングを施す前に,行列を精製することで精度を高めることを目的とする。 本研究では, スペクトルクラスタリングの精度を類似度行列と比較することにより, 提案手法の実用性を検証する。

As a result of the recent popularity of social networks and the increase in the number of research papers published across all fields, attributed networks consisting of relationships between objects, such as humans and the papers, that have attributes are becoming increasingly large. Therefore, various studies for clustering attributed networks into sub-networks are being actively conducted. When clustering attributed networks using spectral clustering, the clustering accuracy is strongly affected by the quality of the similarity matrices, which are input into spectral clustering and represent the similarities between pairs of objects. In this paper, we aim to increase the accuracy by refining the matrices before applying spectral clustering to them. We verify the practicability of our proposed method by comparing the accuracy of spectral clustering with similarity matrices before and after refining them.
翻訳日:2022-10-07 14:05:13 公開日:2020-10-14
# 液体民主主義の力

Power in Liquid Democracy ( http://arxiv.org/abs/2010.07070v1 )

ライセンス: Link先を確認
Yuzhe Zhang and Davide Grossi(参考訳) 本稿では,代用投票システムのための権限理論を考案する。 我々は、有権者と議員の両方の影響を測定することができるパワーインデックスを定義する。 この指標を用いて,エージェントによるパワーサーキング動作を取り入れることで,従来のゲーム理論モデルを拡張した。 このようなモデルにおける純粋な戦略ナッシュ均衡の存在を解析的に研究する。 最後に,シミュレーションを用いて,モデル内のパワー不等式の発生に対する関連するパラメータの影響について検討する。

The paper develops a theory of power for delegable proxy voting systems. We define a power index able to measure the influence of both voters and delegators. Using this index, which we characterize axiomatically, we extend an earlier game-theoretic model by incorporating power-seeking behavior by agents. We analytically study the existence of pure strategy Nash equilibria in such a model. Finally, by means of simulations, we study the effect of relevant parameters on the emergence of power inequalities in the model.
翻訳日:2022-10-07 14:05:01 公開日:2020-10-14
# 拡張現実における物体配置タスクの最適支援

Optimal Assistance for Object-Rearrangement Tasks in Augmented Reality ( http://arxiv.org/abs/2010.07358v1 )

ライセンス: Link先を確認
Benjamin Newman, Kevin Carlberg and Ruta Desai(参考訳) オンボードセンサーへのアクセスと関連する情報をユーザに提示する機能を備えた拡張現実(ar)メガネは、クオーティディアンタスクでユーザ支援を提供する機会を提供する。 このようなタスクの多くは、オブジェクト再配置タスクとして特徴づけられる。 本稿では,(1)最適なアクションシーケンスと実施エージェントのポリシーを関連付けること,(2)このシーケンスをユーザに対してARシステムのヘッドアップディスプレイに提案することからなる,ARアシストの計算と表示のための新しいフレームワークを提案する。 実施エージェントは、ARシステムとユーザとの間の「ハイブリッド」と、ARシステムの観察空間(センサ)とユーザの行動空間(タスク実行行動)とを含み、そのポリシーは、タスク補完時間を最小化して学習される。 この初期研究では,ARシステムの観測には,環境マップとオブジェクトとユーザの局所化が含まれると仮定した。 これらの選択により、特にキャパシタブル・ルーティング問題として、任意のオブジェクト再配置タスクに対するarアシスタントの計算問題を計画問題として定式化することができる。 さらに,ebodied artificial intelligence のための habitat simulator を通じて,ar ライクアシスタンスと関連する大規模データ収集の web ベース評価を可能にする新たな ar シミュレータを提案する。 最後に,提案手法であるメカニカル・タークのarシミュレータを用いて,特定の商観的オブジェクト再配置タスクであるハウスクリーニングにおいて,提案するarアシスタンスに対するユーザ応答を評価する。 特に,提案したAR支援が,タスクの難易度に対するユーザのタスクパフォーマンスとエージェンシー感覚に与える影響について検討した。 以上より,このような支援を利用者に提供することで総合的なパフォーマンスが向上し,利用者が機関に対して負の影響を報告する一方で,支援を全く受けない支援を希望する可能性が示唆された。

Augmented-reality (AR) glasses that will have access to onboard sensors and an ability to display relevant information to the user present an opportunity to provide user assistance in quotidian tasks. Many such tasks can be characterized as object-rearrangement tasks. We introduce a novel framework for computing and displaying AR assistance that consists of (1) associating an optimal action sequence with the policy of an embodied agent and (2) presenting this sequence to the user as suggestions in the AR system's heads-up display. The embodied agent comprises a "hybrid" between the AR system and the user, with the AR system's observation space (i.e., sensors) and the user's action space (i.e., task-execution actions); its policy is learned by minimizing the task-completion time. In this initial study, we assume that the AR system's observations include the environment's map and localization of the objects and the user. These choices allow us to formalize the problem of computing AR assistance for any object-rearrangement task as a planning problem, specifically as a capacitated vehicle-routing problem. Further, we introduce a novel AR simulator that can enable web-based evaluation of AR-like assistance and associated at-scale data collection via the Habitat simulator for embodied artificial intelligence. Finally, we perform a study that evaluates user response to the proposed form of AR assistance on a specific quotidian object-rearrangement task, house cleaning, using our proposed AR simulator on mechanical turk. In particular, we study the effect of the proposed AR assistance on users' task performance and sense of agency over a range of task difficulties. Our results indicate that providing users with such assistance improves their overall performance and while users report a negative impact to their agency, they may still prefer the proposed assistance to having no assistance at all.
翻訳日:2022-10-07 14:04:13 公開日:2020-10-14
# 骨格橋のポイントコンプリート:グローバル推論から局所調整へ

Skeleton-bridged Point Completion: From Global Inference to Local Adjustment ( http://arxiv.org/abs/2010.07428v1 )

ライセンス: Link先を確認
Yinyu Nie, Yiqun Lin, Xiaoguang Han, Shihui Guo, Jian Chang, Shuguang Cui, Jian Jun Zhang(参考訳) 点完備化とは、部分点雲から失った物体の幾何学を完備することを指す。 既存の作業は通常、入力ポイントから符号化された潜在特徴を復号することで、欠落した形状を推定する。 しかし、現実世界のオブジェクトは通常、様々なトポロジーと表面の詳細を持ち、潜在機能はクリーンで完全な表面を復元するために表現できないかもしれない。 そこで本研究では,スケルトンブリッジ点完成ネットワーク (sk-pcn) を提案する。 部分スキャンを行い,まずその3次元骨格を予測して大域構造を求め,骨格点からの変位を学習して表面を仕上げる。 形状の完成を構造推定と表面再構成に分離し, 学習の難易度を低減し, 実地詳細を得るための便益を得る。 また,SK-PCNは入力点を符号化する際の特徴の欠如を考慮し,入力点雲を表面改質予測にマージする局所的な調整戦略を採用する。 従来の方法と比較して,スケルトンをブリッジした方法では,点雲を越える全表面メッシュを得るための点正規推定がより良好である。 ポイントクラウドとメッシュコンプリートの両方における質的かつ定量的な実験は、我々のアプローチが、様々なオブジェクトカテゴリの既存のメソッドよりも優れていることを示している。

Point completion refers to complete the missing geometries of objects from partial point clouds. Existing works usually estimate the missing shape by decoding a latent feature encoded from the input points. However, real-world objects are usually with diverse topologies and surface details, which a latent feature may fail to represent to recover a clean and complete surface. To this end, we propose a skeleton-bridged point completion network (SK-PCN) for shape completion. Given a partial scan, our method first predicts its 3D skeleton to obtain the global structure, and completes the surface by learning displacements from skeletal points. We decouple the shape completion into structure estimation and surface reconstruction, which eases the learning difficulty and benefits our method to obtain on-surface details. Besides, considering the missing features during encoding input points, SK-PCN adopts a local adjustment strategy that merges the input point cloud to our predictions for surface refinement. Comparing with previous methods, our skeleton-bridged manner better supports point normal estimation to obtain the full surface mesh beyond point clouds. The qualitative and quantitative experiments on both point cloud and mesh completion show that our approach outperforms the existing methods on various object categories.
翻訳日:2022-10-07 13:57:22 公開日:2020-10-14
# AutoADR:広告関連のための自動モデル設計

AutoADR: Automatic Model Design for Ad Relevance ( http://arxiv.org/abs/2010.07075v1 )

ライセンス: Link先を確認
Yiren Chen, Yaming Yang, Hong Sun, Yujing Wang, Yu Xu, Wei Shen, Rong Zhou, Yunhai Tong, Jing Bai, Ruofei Zhang(参考訳) 大規模事前学習モデルが研究コミュニティで広く注目を集め、自然言語処理の様々なタスクにおいて有望な結果を示している。 しかし、これらの事前訓練されたモデルはメモリと計算集約であり、Ad Relevanceのような産業用オンラインシステムへの展開を妨げる。 一方、効果的なモデルアーキテクチャを設計する方法は、オンライン広告レバレンスにおける別の難しい問題である。 最近、AutoMLはアーキテクチャ設計に新たな光を当てたが、それを事前訓練された言語モデルとどのように統合するかは未定のままである。 本稿では,この課題に対処する新しいエンドツーエンドフレームワークであるAutoADR (Automatic model design for AD Relevance)を提案する。 具体的には、AutoADRはワンショットのニューラルアーキテクチャ検索アルゴリズムを利用して、Ad Relevanceに適したネットワークアーキテクチャを見つける。 検索プロセスは、オンラインサービス制約(メモリやレイテンシなど)を考慮しながら、大きな事前学習された教師モデル(bertなど)からの知識蒸留によって同時に導かれる。 我々は、AutoADRがサブモデルとして設計したモデルを製品Ad Relevanceモデルに追加します。 この追加のサブモデルは、元のAd Relevanceモデルの上のPrecision-Recall AUC(PR AUC)を通常の出荷バーの2.65倍改善する。 さらに重要なことに、この自動設計のサブモデルを追加すると、オンラインa/bテストで統計的に4.6%の悪いad比が低下する。 このモデルはMicrosoft Bing Ad Relevance Productionモデルに出荷されている。

Large-scale pre-trained models have attracted extensive attention in the research community and shown promising results on various tasks of natural language processing. However, these pre-trained models are memory and computation intensive, hindering their deployment into industrial online systems like Ad Relevance. Meanwhile, how to design an effective yet efficient model architecture is another challenging problem in online Ad Relevance. Recently, AutoML shed new lights on architecture design, but how to integrate it with pre-trained language models remains unsettled. In this paper, we propose AutoADR (Automatic model design for AD Relevance) -- a novel end-to-end framework to address this challenge, and share our experience to ship these cutting-edge techniques into online Ad Relevance system at Microsoft Bing. Specifically, AutoADR leverages a one-shot neural architecture search algorithm to find a tailored network architecture for Ad Relevance. The search process is simultaneously guided by knowledge distillation from a large pre-trained teacher model (e.g. BERT), while taking the online serving constraints (e.g. memory and latency) into consideration. We add the model designed by AutoADR as a sub-model into the production Ad Relevance model. This additional sub-model improves the Precision-Recall AUC (PR AUC) on top of the original Ad Relevance model by 2.65X of the normalized shipping bar. More importantly, adding this automatically designed sub-model leads to a statistically significant 4.6% Bad-Ad ratio reduction in online A/B testing. This model has been shipped into Microsoft Bing Ad Relevance Production model.
翻訳日:2022-10-07 13:56:37 公開日:2020-10-14
# 不健康会話の6つの属性

Six Attributes of Unhealthy Conversation ( http://arxiv.org/abs/2010.07410v1 )

ライセンス: Link先を確認
Ilan Price, Jordan Gifford-Moore, Jory Fleming, Saul Musker, Maayan Roichman, Guillaume Sylvain, Nithum Thain, Lucas Dixon, Jeffrey Sorensen(参考訳) クラウドワーカーによってラベル付けされた約44000のコメントのデータセットを新たに提示する。 それぞれのコメントは、(1)敵対的、侮辱的、挑発的、またはトロール的、(3)否定的、(4)屈辱的、またはパトロン的、(5)皮肉的、または(6)不公平な一般化という、6つの「不健康」なサブ属性が存在するためのバイナリラベルに加えて、「健康的」または「不健康」とラベル付けされる。 各レーベルは、関連する信頼スコアも持っている。 我々は、「不健全なオンライン会話」という広い概念に基づく研究を可能にするデータセットの必要性を論じる。 このタイプは、不健康なオンライン会話に寄与する個々のコメントのかなりの割合を包含する。 これらの属性のいくつかについては、このスケールで公開された最初のデータセットである。 データセットの品質を調査し、データの有用性を説明するためにいくつかの要約統計と初期モデルを示し、さらなる研究のための限界と方向を強調する。

We present a new dataset of approximately 44000 comments labeled by crowdworkers. Each comment is labelled as either 'healthy' or 'unhealthy', in addition to binary labels for the presence of six potentially 'unhealthy' sub-attributes: (1) hostile; (2) antagonistic, insulting, provocative or trolling; (3) dismissive; (4) condescending or patronising; (5) sarcastic; and/or (6) an unfair generalisation. Each label also has an associated confidence score. We argue that there is a need for datasets which enable research based on a broad notion of 'unhealthy online conversation'. We build this typology to encompass a substantial proportion of the individual comments which contribute to unhealthy online conversation. For some of these attributes, this is the first publicly available dataset of this scale. We explore the quality of the dataset, present some summary statistics and initial models to illustrate the utility of this data, and highlight limitations and directions for further research.
翻訳日:2022-10-07 13:55:46 公開日:2020-10-14
# ドリフトデータストリームからのオンライン学習のための適応的深い森

Adaptive Deep Forest for Online Learning from Drifting Data Streams ( http://arxiv.org/abs/2010.07340v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki, Bartosz Krawczyk(参考訳) データストリームから学ぶことは、現代のデータマイニングにおいて最も重要な分野である。 潜在的に非バウンドなデータソースから得られる情報をオンライン分析することで、データの継続的なフローに調整可能なリアクティブの最新モデルの設計が可能になる。 単純な低次元ストリーミング問題に対して、多くの浅い方法が提案されているが、画像やテキストといった複雑な文脈データから学ぶ問題には、ほとんど対処されていない。 前者は,ストリーミングシナリオにおいて非常に効率的であることが証明された適応決定木によって代表される。 後者は、主にオフラインのディープラーニングによって対処されている。 本研究では,これら2つの世界間のギャップを橋渡しし,適応型ディープフォレスト(adf)を提案する。これは,木ベースのストリーミング分類器とディープフォレストを自然に組み合わせたもので,文脈データから学ぶための興味深い代替案である。 実験により,ディープフォレストアプローチをオンラインアルゴリズムに効果的に変換できることが示され,特に高次元複雑ストリームに対して,最先端の浅層適応型分類器を上回るモデルを形成する。

Learning from data streams is among the most vital fields of contemporary data mining. The online analysis of information coming from those potentially unbounded data sources allows for designing reactive up-to-date models capable of adjusting themselves to continuous flows of data. While a plethora of shallow methods have been proposed for simpler low-dimensional streaming problems, almost none of them addressed the issue of learning from complex contextual data, such as images or texts. The former is represented mainly by adaptive decision trees that have been proven to be very efficient in streaming scenarios. The latter has been predominantly addressed by offline deep learning. In this work, we attempt to bridge the gap between these two worlds and propose Adaptive Deep Forest (ADF) - a natural combination of the successful tree-based streaming classifiers with deep forest, which represents an interesting alternative idea for learning from contextual data. The conducted experiments show that the deep forest approach can be effectively transformed into an online algorithm, forming a model that outperforms all state-of-the-art shallow adaptive classifiers, especially for high-dimensional complex streams.
翻訳日:2022-10-07 13:55:24 公開日:2020-10-14
# 予測のためのグラフ深度因子

Graph Deep Factors for Forecasting ( http://arxiv.org/abs/2010.07373v1 )

ライセンス: Link先を確認
Hongjie Chen, Ryan A. Rossi, Kanak Mahadik, Sungchul Kim, Hoda Eldardiry(参考訳) 近年,時系列の集合をモデル化するための予測手法が提案されている。 しかしながら、これらの手法は、コレクション内の時系列間の完全独立(ローカルモデル)または完全依存(グローバルモデル)のいずれかを明確に仮定する。 これは、すべての時系列がコレクション内の他の時系列から切り離された場合、または同様に、すべての時系列が他の時系列と関係しており、完全に連結されたグラフとなる2つの極端なケースに対応する。 本稿では,グラフ・ディープ・ファクター(graph deep factors, graphdf)と呼ばれる,ノードとその時系列を任意の方法で他のノードと接続させることで,これら2つの極端を超越した,ハイブリッドなグラフベース予測フレームワークを提案する。 GraphDFは、リレーショナルグローバルおよびリレーショナルローカルモデルで構成されるハイブリッド予測フレームワークである。 特に,グラフの構造を用いて複雑な非線形時系列パターンをグローバルに学習し,予測精度と計算効率の両方を改善するリレーショナルグローバルモデルを提案する。 同様に、すべての時系列を独立にモデル化する代わりに、個々の時系列だけでなく、グラフに接続されたノードの時系列を考える関係ローカルモデルを学ぶ。 実験は, 予測精度, 実行時間, スケーラビリティの観点から, 最先端手法と比較して, 深層ハイブリッドグラフに基づく予測モデルの有効性を示す。 ケーススタディでは,GraphDFがクラウド利用予測の生成に成功し,ワークロードを同時にスケジュールすることで,平均47.5%のクラウドクラスタ利用率向上を実現している。

Deep probabilistic forecasting techniques have recently been proposed for modeling large collections of time-series. However, these techniques explicitly assume either complete independence (local model) or complete dependence (global model) between time-series in the collection. This corresponds to the two extreme cases where every time-series is disconnected from every other time-series in the collection or likewise, that every time-series is related to every other time-series resulting in a completely connected graph. In this work, we propose a deep hybrid probabilistic graph-based forecasting framework called Graph Deep Factors (GraphDF) that goes beyond these two extremes by allowing nodes and their time-series to be connected to others in an arbitrary fashion. GraphDF is a hybrid forecasting framework that consists of a relational global and relational local model. In particular, we propose a relational global model that learns complex non-linear time-series patterns globally using the structure of the graph to improve both forecasting accuracy and computational efficiency. Similarly, instead of modeling every time-series independently, we learn a relational local model that not only considers its individual time-series but also the time-series of nodes that are connected in the graph. The experiments demonstrate the effectiveness of the proposed deep hybrid graph-based forecasting model compared to the state-of-the-art methods in terms of its forecasting accuracy, runtime, and scalability. Our case study reveals that GraphDF can successfully generate cloud usage forecasts and opportunistically schedule workloads to increase cloud cluster utilization by 47.5% on average.
翻訳日:2022-10-07 13:55:03 公開日:2020-10-14
# 分割機械としての決定木とその一般化特性

Decision trees as partitioning machines to characterize their generalization properties ( http://arxiv.org/abs/2010.07374v1 )

ライセンス: Link先を確認
Jean-Samuel Leboeuf, Fr\'ed\'eric LeBlanc and Mario Marchand(参考訳) 決定木は、構築が簡単で解釈が容易な一般的な機械学習モデルである。 決定木を学ぶアルゴリズムは50年近く遡るが、その一般化エラーに影響する重要な特性は依然として弱い境界である。 したがって、データの分割の観点から、実数値特徴のバイナリ決定木を再検討する。 分割関数の概念を導入し,成長関数やvc次元と関連づける。 この新しい概念を用いることで、決定切り株のVC次元を正確に見つけることができ、これは最大整数$d$で与えられるもので、$\ell \ge \binom{d}{\left\lfloor\frac{d}{2}\right\rfloor}$である。 分割関数のバウンドに対する再帰的表現を提供し,任意の決定木構造の成長関数の上界を導出する。 これにより、$N$内部ノードを持つ二分木構造のVC次元が$N \log(N\ell)$であることを示すことができる。 最後に,これらの結果に基づくプルーニングアルゴリズムを詳述し,クロスバリデーションを必要とせず,多数のデータセット上でカートアルゴリズムよりも優れた性能を示す。

Decision trees are popular machine learning models that are simple to build and easy to interpret. Even though algorithms to learn decision trees date back to almost 50 years, key properties affecting their generalization error are still weakly bounded. Hence, we revisit binary decision trees on real-valued features from the perspective of partitions of the data. We introduce the notion of partitioning function, and we relate it to the growth function and to the VC dimension. Using this new concept, we are able to find the exact VC dimension of decision stumps, which is given by the largest integer $d$ such that $2\ell \ge \binom{d}{\left\lfloor\frac{d}{2}\right\rfloor}$, where $\ell$ is the number of real-valued features. We provide a recursive expression to bound the partitioning functions, resulting in a upper bound on the growth function of any decision tree structure. This allows us to show that the VC dimension of a binary tree structure with $N$ internal nodes is of order $N \log(N\ell)$. Finally, we elaborate a pruning algorithm based on these results that performs better than the CART algorithm on a number of datasets, with the advantage that no cross-validation is required.
翻訳日:2022-10-07 13:54:37 公開日:2020-10-14
# weightalign: 重量アライメントによる活性化の正規化

WeightAlign: Normalizing Activations by Weight Alignment ( http://arxiv.org/abs/2010.07160v1 )

ライセンス: Link先を確認
Xiangwei Shi, Yunqiang Li, Xin Liu, Jan van Gemert(参考訳) バッチ正規化(BN)は、小さなバッチサイズでBNを不安定にするミニバッチサンプル統計により、アクティベーションを正規化することで、非常に深いネットワークのトレーニングを可能にする。 インスタンスノルム、レイヤノルム、グループノルムといった現在の小さなバッチソリューションでは、単一のサンプルでも計算可能なチャネル統計が使用されている。 このような方法はBNよりも安定ではないが、これは単一の入力サンプルの統計に依存するためである。 この問題に対処するため,サンプル統計を使わずにアクティベーションの正規化を提案する。 WeightAlign: フィルタ内で計算された平均およびスケールされた標準導出によって重みを正規化する手法で、サンプル統計を計算せずに活性化を正規化する。 提案手法はバッチサイズに依存しず,幅広いバッチサイズに対して安定である。 重み統計は標本統計に直交するので、WeightAlignと任意の活性化正規化法を直接組み合わせることができる。 CIFAR-10, CIFAR-100, ImageNet, PASCAL VOC 2012のセマンティックセグメンテーション, Office-31のドメイン適応に対するこれらの利点を実験的に実証した。

Batch normalization (BN) allows training very deep networks by normalizing activations by mini-batch sample statistics which renders BN unstable for small batch sizes. Current small-batch solutions such as Instance Norm, Layer Norm, and Group Norm use channel statistics which can be computed even for a single sample. Such methods are less stable than BN as they critically depend on the statistics of a single input sample. To address this problem, we propose a normalization of activation without sample statistics. We present WeightAlign: a method that normalizes the weights by the mean and scaled standard derivation computed within a filter, which normalizes activations without computing any sample statistics. Our proposed method is independent of batch size and stable over a wide range of batch sizes. Because weight statistics are orthogonal to sample statistics, we can directly combine WeightAlign with any method for activation normalization. We experimentally demonstrate these benefits for classification on CIFAR-10, CIFAR-100, ImageNet, for semantic segmentation on PASCAL VOC 2012 and for domain adaptation on Office-31.
翻訳日:2022-10-07 13:47:39 公開日:2020-10-14
# クロスドメイン一般化のためのマッチング空間ステレオネットワーク

Matching-space Stereo Networks for Cross-domain Generalization ( http://arxiv.org/abs/2010.07347v1 )

ライセンス: Link先を確認
Changjiang Cai, Matteo Poggi, Stefano Mattoccia, Philippos Mordohai(参考訳) エンドツーエンドのディープネットワークはステレオマッチング技術の現状を表している。 トレーニングセットに類似したイメージフレーミング環境に優れる一方で、見えない領域(例えば合成から実際のシーンに移行する場合)では、精度が大幅に低下する。 本稿では,Matching-Space Networks (MS-Nets) と呼ばれる新しいアーキテクチャ群を紹介する。 画像RGB値からの学習に基づく特徴抽出を、従来の知恵と一致した関数に置き換えることで、学習プロセスを色空間からマッチング空間に移動させ、過剰特殊化を回避し、ドメイン固有の特徴へ移行する。 4つの実際のデータセットに対する大規模な実験結果から,提案手法が従来の深層アーキテクチャよりも見つからない環境に優れた一般化をもたらすことが示唆された。 私たちのコードはhttps://github.com/ccj5351/MS-Netsで利用可能です。

End-to-end deep networks represent the state of the art for stereo matching. While excelling on images framing environments similar to the training set, major drops in accuracy occur in unseen domains (e.g., when moving from synthetic to real scenes). In this paper we introduce a novel family of architectures, namely Matching-Space Networks (MS-Nets), with improved generalization properties. By replacing learning-based feature extraction from image RGB values with matching functions and confidence measures from conventional wisdom, we move the learning process from the color space to the Matching Space, avoiding over-specialization to domain specific features. Extensive experimental results on four real datasets highlight that our proposal leads to superior generalization to unseen environments over conventional deep architectures, keeping accuracy on the source domain almost unaltered. Our code is available at https://github.com/ccj5351/MS-Nets.
翻訳日:2022-10-07 13:45:46 公開日:2020-10-14
# エンド・ツー・エンドのステレオアルゴリズムは情報を活用するか?

Do End-to-end Stereo Algorithms Under-utilize Information? ( http://arxiv.org/abs/2010.07350v1 )

ライセンス: Link先を確認
Changjiang Cai, Philippos Mordohai(参考訳) ステレオマッチングのためのディープネットワークは、通常2Dまたは3D畳み込みエンコーダデコーダアーキテクチャを利用してコストを集約し、コストボリュームを正当に調整する。 コンテンツに敏感な畳み込みとダウンサンプリングとアップサンプリング操作のため、これらのコスト集約メカニズムは画像で利用可能な情報を十分に活用することができない。 偏差写像は、咬合境界付近での過剰な運動と、薄い構造における誤った予測に苦しむ。 本稿では, 従来の2次元および3次元畳み込みネットワークにおいて, 深層適応フィルタと差別化可能な半グローバルアグリゲーションがどのように統合され, 精度が向上するかを示す。 この改良は、画像からRGB情報を信号として利用して、マッチングプロセスを動的にガイドするだけでなく、画像間でマッチングしようとする信号も利用している。 4つのステレオネットワーク(DispNetC, GCNet, PSMNet, GANet)を比較したKITTI 2015およびVirtual KITTI 2データセットについて, 動的フィルタリングネットワーク, ピクセル適応畳み込み, 半グローバルアグリゲーション)をアーキテクチャに組み込んだ実験結果を示した。 私たちのコードはhttps://github.com/ccj5351/DAFStereoNetsで利用可能です。

Deep networks for stereo matching typically leverage 2D or 3D convolutional encoder-decoder architectures to aggregate cost and regularize the cost volume for accurate disparity estimation. Due to content-insensitive convolutions and down-sampling and up-sampling operations, these cost aggregation mechanisms do not take full advantage of the information available in the images. Disparity maps suffer from over-smoothing near occlusion boundaries, and erroneous predictions in thin structures. In this paper, we show how deep adaptive filtering and differentiable semi-global aggregation can be integrated in existing 2D and 3D convolutional networks for end-to-end stereo matching, leading to improved accuracy. The improvements are due to utilizing RGB information from the images as a signal to dynamically guide the matching process, in addition to being the signal we attempt to match across the images. We show extensive experimental results on the KITTI 2015 and Virtual KITTI 2 datasets comparing four stereo networks (DispNetC, GCNet, PSMNet and GANet) after integrating four adaptive filters (segmentation-aware bilateral filtering, dynamic filtering networks, pixel adaptive convolution and semi-global aggregation) into their architectures. Our code is available at https://github.com/ccj5351/DAFStereoNets.
翻訳日:2022-10-07 13:45:30 公開日:2020-10-14
# 熱画像からの太陽電池モジュールセグメンテーションと熱分析ツール

Photovoltaic module segmentation and thermal analysis tool from thermal images ( http://arxiv.org/abs/2010.07356v1 )

ライセンス: Link先を確認
L. E. Monta\~nez, L. M. Valent\'in-Coronado, D. Moctezuma, G. Flores(参考訳) クリーンエネルギーの使用に対する関心が高まり、より大規模な太陽光発電システムの構築につながった。 そこで,本論文では,太陽光発電モジュールの自動検出と解析について述べる。 この解析を行うために、まず、デジタル画像処理アルゴリズムに基づくモジュール識別ステップを実行する。 このアルゴリズムは、画像強調(コントラスト強調、ノイズ低減など)と光電力モジュールのセグメンテーションからなる。 続いて、セグメンテーションモジュールの温度値に基づく統計解析を行うとともに、太陽電池モジュールの関連情報を提供する潜在的なツールとしてグラフィカルユーザインタフェースが設計されている。

The growing interest in the use of clean energy has led to the construction of increasingly large photovoltaic systems. Consequently, monitoring the proper functioning of these systems has become a highly relevant issue.In this paper, automatic detection, and analysis of photovoltaic modules are proposed. To perform the analysis, a module identification step, based on a digital image processing algorithm, is first carried out. This algorithm consists of image enhancement (contrast enhancement, noise reduction, etc.), followed by segmentation of the photovoltaic module. Subsequently, a statistical analysis based on the temperature values of the segmented module is performed.Besides, a graphical user interface has been designed as a potential tool that provides relevant information of the photovoltaic modules.
翻訳日:2022-10-07 13:44:59 公開日:2020-10-14
# バランス性能とプルーニング速度を考慮した最適フィルタプルーニングに向けて

Towards Optimal Filter Pruning with Balanced Performance and Pruning Speed ( http://arxiv.org/abs/2010.06821v1 )

ライセンス: Link先を確認
Dong Li, Sitong Chen, Xudong Liu, Yunda Sun and Li Zhang(参考訳) リソース制約のあるプラットフォームはよりコンパクトな配置モデルを必要とするため、フィルタプルーニングが注目されている。 しかし、現在の刈り取り法は、単発法の劣悪な性能や反復訓練法の高価な時間コストに悩まされている。 本稿では,性能とプルーニング速度の両立のためのバランス付きフィルタプルーニング法を提案する。 本手法は, フィルタ重要度基準に基づき, プリセット損失変動時に, 層別最適プルーニング速度を近似した層をプルーピングすることができる。 ネットワークはプルー・リトラクションのイテレーションに時間を費やすことなく階層的に切断される。 ネットワーク全体に対する事前定義されたプルーニングレートが与えられると、高速な収束速度で対応する損失変動閾値を求める方法も導入する。 さらに,短接続ネットワークにおけるチャネルアライメントのための層群プルーニングとチャネル選択機構を提案する。 提案手法は一般的なアーキテクチャに広く適用でき,最終的な微調整以外は追加訓練を行わない。 総合実験により,本手法が多くの最先端手法より優れていることが示された。

Filter pruning has drawn more attention since resource constrained platform requires more compact model for deployment. However, current pruning methods suffer either from the inferior performance of one-shot methods, or the expensive time cost of iterative training methods. In this paper, we propose a balanced filter pruning method for both performance and pruning speed. Based on the filter importance criteria, our method is able to prune a layer with approximate layer-wise optimal pruning rate at preset loss variation. The network is pruned in the layer-wise way without the time consuming prune-retrain iteration. If a pre-defined pruning rate for the entire network is given, we also introduce a method to find the corresponding loss variation threshold with fast converging speed. Moreover, we propose the layer group pruning and channel selection mechanism for channel alignment in network with short connections. The proposed pruning method is widely applicable to common architectures and does not involve any additional training except the final fine-tuning. Comprehensive experiments show that our method outperforms many state-of-the-art approaches.
翻訳日:2022-10-07 13:38:26 公開日:2020-10-14
# ロバストマッピングのための意味フロー誘導運動除去法

Semantic Flow-guided Motion Removal Method for Robust Mapping ( http://arxiv.org/abs/2010.06876v1 )

ライセンス: Link先を確認
Xudong Lv, Boya Wang, Dong Ye, and Shuo Wang(参考訳) SLAMシステムにとって、シーン内のオブジェクトの移動は深刻な課題である。 動く物体を検出することで、画像中の動き領域を取り除こうとする多くの努力がなされている。 このように、動き領域に属するキーポイントは、後の計算では無視される。 本稿では,意味情報と光流を利用して運動領域を抽出する新しい運動除去法を提案する。 以前の研究と異なり、動いた物体や動き領域を直接画像シーケンスから予測することはできない。 深さとポーズで合成した剛性光流を計算し,推定した光流と比較して初期運動領域を得る。 次に,K-meansを用いて運動領域マスクを例分割マスクで微調整した。 提案手法と統合したorb-slam2は,室内および屋外の動的環境において最高の性能を得た。

Moving objects in scenes are still a severe challenge for the SLAM system. Many efforts have tried to remove the motion regions in the images by detecting moving objects. In this way, the keypoints belonging to motion regions will be ignored in the later calculations. In this paper, we proposed a novel motion removal method, leveraging semantic information and optical flow to extract motion regions. Different from previous works, we don't predict moving objects or motion regions directly from image sequences. We computed rigid optical flow, synthesized by the depth and pose, and compared it against the estimated optical flow to obtain initial motion regions. Then, we utilized K-means to finetune the motion region masks with instance segmentation masks. The ORB-SLAM2 integrated with the proposed motion removal method achieved the best performance in both indoor and outdoor dynamic environments.
翻訳日:2022-10-07 13:38:10 公開日:2020-10-14
# 深層学習に基づく部分集積型アップルツリーのセマンティックセグメンテーション

Semantic Segmentation for Partially Occluded Apple Trees Based on Deep Learning ( http://arxiv.org/abs/2010.06879v1 )

ライセンス: Link先を確認
Zijue Chen, David Ting, Rhys Newbury, Chao Chen(参考訳) 果樹の刈り取りと果実の薄切りには、果実の木とその枝の高分解能なセグメンテーションを提供する強力な視覚システムが必要である。 しかし、近年の研究は休眠期のみを考慮し、枝に最小限の閉塞があるか、多項式曲線に適合して枝の形を再構築し、枝の厚さに関する情報を失う。 本研究では,2つの最先端教師付き学習モデル U-Net と DeepLabv3 と条件付き生成逆数ネットワーク Pix2Pix を用いて,部分閉塞な2D-オープン-V リンゴを分割する。 モデルの性能評価には,バイナリ精度,平均IoU,境界F1スコア,Occludedブランチリコールが用いられた。 DeepLabv3は、Binaryの精度で他のモデル、Mean IoUとBundary F1よりも優れているが、OccludedブランチリコールではPix2PixとU-Netに勝っている。 課題の難易度を定量化するための難易度指標として,(1)閉塞困難度指標と(2)深さ困難度指標を定式化した。 本稿では,分岐リコールとOccludedブランチリコールを用いて,両難易度指標の最悪の10画像を解析する。 u-netは、現在のメトリクスで他の2つのモデルを上回る。 一方、Pix2Pix(差別化なしで)は、メトリクスに反映されないブランチパスに関するより多くの情報を提供する。 これは、隠された情報を回復する上で、より具体的なメトリクスの必要性を強調します。 さらに,オクルージョンの背後の幻覚に対する画像伝達ネットワークの有用性を示す。 この技術が商業環境における農業作業の自動化に応用可能であるように、隠蔽からより多くの情報を回収するためのモデルをさらに強化する必要がある。

Fruit tree pruning and fruit thinning require a powerful vision system that can provide high resolution segmentation of the fruit trees and their branches. However, recent works only consider the dormant season, where there are minimal occlusions on the branches or fit a polynomial curve to reconstruct branch shape and hence, losing information about branch thickness. In this work, we apply two state-of-the-art supervised learning models U-Net and DeepLabv3, and a conditional Generative Adversarial Network Pix2Pix (with and without the discriminator) to segment partially occluded 2D-open-V apple trees. Binary accuracy, Mean IoU, Boundary F1 score and Occluded branch recall were used to evaluate the performances of the models. DeepLabv3 outperforms the other models at Binary accuracy, Mean IoU and Boundary F1 score, but is surpassed by Pix2Pix (without discriminator) and U-Net in Occluded branch recall. We define two difficulty indices to quantify the difficulty of the task: (1) Occlusion Difficulty Index and (2) Depth Difficulty Index. We analyze the worst 10 images in both difficulty indices by means of Branch Recall and Occluded Branch Recall. U-Net outperforms the other two models in the current metrics. On the other hand, Pix2Pix (without discriminator) provides more information on branch paths, which are not reflected by the metrics. This highlights the need for more specific metrics on recovering occluded information. Furthermore, this shows the usefulness of image-transfer networks for hallucination behind occlusions. Future work is required to further enhance the models to recover more information from occlusions such that this technology can be applied to automating agricultural tasks in a commercial environment.
翻訳日:2022-10-07 13:37:59 公開日:2020-10-14
# 自律運転に影響を及ぼすオープンインフォーマルデータセットの開発

Development of Open Informal Dataset Affecting Autonomous Driving ( http://arxiv.org/abs/2010.06900v1 )

ライセンス: Link先を確認
Yong-Gu Lee, Seong-Jae Lee, Sang-Jin Lee, Tae-Seung Baek, Dong-Whan Lee, Kyeong-Chan Jang, Ho-Jin Sohn, Jin-Soo Kim(参考訳) 本文書は、自動運転車用物体認識技術開発のための道路上の物体と非構造化動的データを収集するための手順と手法を記載した文書であり、データ収集方法、アノテーションデータ、オブジェクト分類基準、データ処理方法の概要を示す。 気象・時間・交通状況などの様々な環境において,道路上の物体・非構造的動的データを収集し,警察・安全要員に対する追加の受付を行った。 最終的に、歩行者や道路に存在するさまざまな物10万枚、警察・交通安全要員20万枚、警察・交通安全要員5000枚、画像データ5,000枚からなるデータセットが収集され、構築された。

This document is a document that has written procedures and methods for collecting objects and unstructured dynamic data on the road for the development of object recognition technology for self-driving cars, and outlines the methods of collecting data, annotation data, object classifier criteria, and data processing methods. On-road object and unstructured dynamic data were collected in various environments, such as weather, time and traffic conditions, and additional reception calls for police and safety personnel were collected. Finally, 100,000 images of various objects existing on pedestrians and roads, 200,000 images of police and traffic safety personnel, 5,000 images of police and traffic safety personnel, and data sets consisting of 5,000 image data were collected and built.
翻訳日:2022-10-07 13:37:12 公開日:2020-10-14
# ランキング問題としての相対的深さ推定

Relative Depth Estimation as a Ranking Problem ( http://arxiv.org/abs/2010.06944v1 )

ライセンス: Link先を確認
Alican Mertan, Damien Jade Duff, Gozde Unal(参考訳) 本稿では,1つの画像問題からの相対深度推定をランキング問題として定式化する。 この方法で問題を再構成することで、ランキング問題に文献を活用し、既存の知識を適用してより良い結果を得ることができた。 そこで我々は,相対的な深度推定問題に対して,ランキング文献である重み付きListMLEから借用したリストワイズランキングの損失を導入した。 また,提案手法の精度を高めるために,画素深度のランク付け精度を考慮した新しい測定基準も導入した。

We present a formulation of the relative depth estimation from a single image problem, as a ranking problem. By reformulating the problem this way, we were able to utilize literature on the ranking problem, and apply the existing knowledge to achieve better results. To this end, we have introduced a listwise ranking loss borrowed from ranking literature, weighted ListMLE, to the relative depth estimation problem. We have also brought a new metric which considers pixel depth ranking accuracy, on which our method is stronger.
翻訳日:2022-10-07 13:36:48 公開日:2020-10-14
# FC-DCNN: ステレオ推定のための密結合ニューラルネットワーク

FC-DCNN: A densely connected neural network for stereo estimation ( http://arxiv.org/abs/2010.06950v1 )

ライセンス: Link先を確認
Dominik Hirner, Friedrich Fraundorfer(参考訳) ステレオ推定のための新しい軽量ネットワークを提案する。 本ネットワークは,完全畳み込み高密度結合ニューラルネットワーク(fc-dcnn)で構成され,画像対のマッチングコストを計算する。 FC-DCNN法は,表現的特徴を学習し,単純だが効果的な後処理を行う。 密結合された層構造は、各層の出力とその後の層の入力とを接続する。 このネットワーク構造と、完全に接続されたレイヤや3D畳み込みを使用しないという事実は、非常に軽量なネットワークにつながります。 このネットワークの出力は、マッチングコストを計算し、コストボリュームを作成するために使用される。 半球マッチングや条件付きランダムフィールドなどの時間的・メモリ非効率なコスト集約手法を用いて結果を改善する代わりに,中央値フィルタやガイドフィルタといったフィルタリング技術に頼る。 左の一貫性チェックを計算することで、一貫性のない値を取り除きます。 その後,不一致を除去した不一致画像に対して,流域前景後景セグメンテーションを用いる。 このマスクは最終予測を洗練するために使われる。 提案手法は, ミドルベリー, KITTI, ETH3Dベンチマークでそれぞれ評価することで, 屋内と屋外の両方の課題に対して有効であることを示す。 私たちのフレームワークはhttps://github.com/thedodo/FC-DCNNで利用可能です。

We propose a novel lightweight network for stereo estimation. Our network consists of a fully-convolutional densely connected neural network (FC-DCNN) that computes matching costs between rectified image pairs. Our FC-DCNN method learns expressive features and performs some simple but effective post-processing steps. The densely connected layer structure connects the output of each layer to the input of each subsequent layer. This network structure and the fact that we do not use any fully-connected layers or 3D convolutions leads to a very lightweight network. The output of this network is used in order to calculate matching costs and create a cost-volume. Instead of using time and memory-inefficient cost-aggregation methods such as semi-global matching or conditional random fields in order to improve the result, we rely on filtering techniques, namely median filter and guided filter. By computing a left-right consistency check we get rid of inconsistent values. Afterwards we use a watershed foreground-background segmentation on the disparity image with removed inconsistencies. This mask is then used to refine the final prediction. We show that our method works well for both challenging indoor and outdoor scenes by evaluating it on the Middlebury, KITTI and ETH3D benchmarks respectively. Our full framework is available at https://github.com/thedodo/FC-DCNN
翻訳日:2022-10-07 13:36:39 公開日:2020-10-14
# パラメトリック表面再構成のためのパッチステッチングの改善

Better Patch Stitching for Parametric Surface Reconstruction ( http://arxiv.org/abs/2010.07021v1 )

ライセンス: Link先を確認
Zhantao Deng, Jan Bedna\v{r}\'ik, Mathieu Salzmann, Pascal Fua(参考訳) 近年、パラメトリックマッピングは、高い有効表面表現として現れ、低い再構成誤差を生じる。 特に、最新の作品は対象の形状を複数のマッピングのアトラスとして表現しており、オブジェクト部品を密にエンコードすることができる。 しかし、アトラス表現には1つの大きな欠点がある。個々のマッピングは一貫性が保証されていないため、再構成された形状やジャグリングされた表面領域に穴が開くことになる。 ローカルマッピングのグローバル一貫性を明示的に奨励するアプローチを導入する。 この目的のために2つの新しい損失項を導入する。 第一項では、表面の正規性を利用し、個々のマッピング内外における推定時に局所的に一貫性を保つことを要求する。 第二項はさらに、新しい縫合誤差を最小限にしてマッピングの空間的構成を改善する。 標準ベンチマークでは, 通常の整合性要件を用いることで, 基準線を定量的に上回り, 縫合性も向上し, 再建された物体の視覚的品質は, 最先端のものと比べ, はるかに向上することを示した。

Recently, parametric mappings have emerged as highly effective surface representations, yielding low reconstruction error. In particular, the latest works represent the target shape as an atlas of multiple mappings, which can closely encode object parts. Atlas representations, however, suffer from one major drawback: The individual mappings are not guaranteed to be consistent, which results in holes in the reconstructed shape or in jagged surface areas. We introduce an approach that explicitly encourages global consistency of the local mappings. To this end, we introduce two novel loss terms. The first term exploits the surface normals and requires that they remain locally consistent when estimated within and across the individual mappings. The second term further encourages better spatial configuration of the mappings by minimizing novel stitching error. We show on standard benchmarks that the use of normal consistency requirement outperforms the baselines quantitatively while enforcing better stitching leads to much better visual quality of the reconstructed objects as compared to the state-of-the-art.
翻訳日:2022-10-07 13:36:20 公開日:2020-10-14
# 不確実性のある新しい分布ランク付け損失:相対的深さ推定の例

A New Distributional Ranking Loss With Uncertainty: Illustrated in Relative Depth Estimation ( http://arxiv.org/abs/2010.07091v1 )

ライセンス: Link先を確認
Alican Mertan, Yusuf Huseyin Sahin, Damien Jade Duff, Gozde Unal(参考訳) 単一画像からの相対深度推定問題に対する新しいアプローチを提案する。 奥行きスコアを直接回帰する代わりに、この問題を深さを超える確率分布の推定として定式化し、与えられたデータの確率を最大化する分布のパラメータを学習することを目的とする。 そこで本研究では,より深い画素の深さがより近い画素の深さよりも大きい確率を増加させようとする新しいランキング損失,分布損失を提案する。 提案手法により,分布の標準偏差という形で,推定に対する信頼度を出力できる。 評価の信頼性を確保しつつ,多くのベースラインに対して技術結果の状態を達成している。 分析の結果,推定信頼度は精度の良い指標であることがわかった。 距離深度推定の下流課題における信頼度情報の利用について検討し,その性能向上を図る。

We propose a new approach for the problem of relative depth estimation from a single image. Instead of directly regressing over depth scores, we formulate the problem as estimation of a probability distribution over depth and aim to learn the parameters of the distributions which maximize the likelihood of the given data. To train our model, we propose a new ranking loss, Distributional Loss, which tries to increase the probability of farther pixel's depth being greater than the closer pixel's depth. Our proposed approach allows our model to output confidence in its estimation in the form of standard deviation of the distribution. We achieve state of the art results against a number of baselines while providing confidence in our estimations. Our analysis show that estimated confidence is actually a good indicator of accuracy. We investigate the usage of confidence information in a downstream task of metric depth estimation, to increase its performance.
翻訳日:2022-10-07 13:36:02 公開日:2020-10-14
# 双方向相互作用を用いた半監督バイリンガル語彙誘導

Semi-Supervised Bilingual Lexicon Induction with Two-way Interaction ( http://arxiv.org/abs/2010.07101v1 )

ライセンス: Link先を確認
Xu Zhao, Zihao Wang, Hao Wu, Yong Zhang(参考訳) セミスーパービジョンは、限定アノテーションを持つバイリンガル語彙誘導(BLI)のための有望なパラダイムである。 しかし、従来の半教師付き手法では、注釈データや非注釈データに隠された知識を十分に活用していないため、さらなる性能向上を妨げている。 本稿では,教師付き信号と教師なしアライメントとのインタラクションを促進するための,新しい半教師付きbliフレームワークを提案する。 注釈付きデータと非注釈付きデータの間で知識を伝達する2つのメッセージパッシング機構を,それぞれprior optimal transport と bi-directional lexicon update と命名した。 そして,周期的あるいはパラレルなパラメータ供給ルーチンに基づいて半教師付き学習を行い,モデルを更新する。 我々のフレームワークは、最適輸送に基づく教師付きおよび教師なしのBLIメソッドを組み込むことができる一般的なフレームワークである。 MUSEおよびVecMapデータセットの実験結果から,我々のモデルに大きな改善が得られた。 アブレーション研究はまた、教師付き信号と教師なしアライメントとの双方向相互作用が全体的な性能の利得を左右することを示した。 遠方の言語ペアの結果は,提案手法の長所と頑健さをさらに示している。

Semi-supervision is a promising paradigm for Bilingual Lexicon Induction (BLI) with limited annotations. However, previous semisupervised methods do not fully utilize the knowledge hidden in annotated and nonannotated data, which hinders further improvement of their performance. In this paper, we propose a new semi-supervised BLI framework to encourage the interaction between the supervised signal and unsupervised alignment. We design two message-passing mechanisms to transfer knowledge between annotated and non-annotated data, named prior optimal transport and bi-directional lexicon update respectively. Then, we perform semi-supervised learning based on a cyclic or a parallel parameter feeding routine to update our models. Our framework is a general framework that can incorporate any supervised and unsupervised BLI methods based on optimal transport. Experimental results on MUSE and VecMap datasets show significant improvement of our models. Ablation study also proves that the two-way interaction between the supervised signal and unsupervised alignment accounts for the gain of the overall performance. Results on distant language pairs further illustrate the advantage and robustness of our proposed method.
翻訳日:2022-10-07 13:29:26 公開日:2020-10-14
# 事前学習型言語モデルにおける下位量子化方式の検討

An Investigation on Different Underlying Quantization Schemes for Pre-trained Language Models ( http://arxiv.org/abs/2010.07109v1 )

ライセンス: Link先を確認
Zihan Zhao, Yuncong Liu, Lu Chen, Qi Liu, Rao Ma and Kai Yu(参考訳) 最近、BERTのような事前訓練された言語モデルは、複数の自然言語処理タスクで有望なパフォーマンスを示している。 しかし、これらのモデルの適用は、その巨大なサイズのために制限されている。 サイズを減らすために、人気があり効率的な方法は量子化である。 それでも、bert量子化に焦点をあてたほとんどの作品は、一次線形クラスタリングを量子化スキームとして採用しており、アップグレードしようとする作品はほとんどない。 これは量子化の性能を著しく制限する。 本稿では, k-平均量子化を実装し, bert の固定精度量子化と線形量子化の比較を行った。 比較を通じて,基礎となる量子化スキームのアップグレード効果が過小評価され,k-平均量子化の巨大な発展可能性が存在することを検証した。 さらに、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。

Recently, pre-trained language models like BERT have shown promising performance on multiple natural language processing tasks. However, the application of these models has been limited due to their huge size. To reduce its size, a popular and efficient way is quantization. Nevertheless, most of the works focusing on BERT quantization adapted primary linear clustering as the quantization scheme, and few works try to upgrade it. That limits the performance of quantization significantly. In this paper, we implement k-means quantization and compare its performance on the fix-precision quantization of BERT with linear quantization. Through the comparison, we verify that the effect of the underlying quantization scheme upgrading is underestimated and there is a huge development potential of k-means quantization. Besides, we also compare the two quantization schemes on ALBERT models to explore the robustness differences between different pre-trained models.
翻訳日:2022-10-07 13:29:07 公開日:2020-10-14
# EOS決定と長さ外挿

The EOS Decision and Length Extrapolation ( http://arxiv.org/abs/2010.07174v1 )

ライセンス: Link先を確認
Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning(参考訳) 未知の配列長への外挿は、言語のニューラル生成モデルの課題である。 本稿では,モデル決定の長大な外挿に対する影響を特徴付け,特殊語句(EOS)を用いて生成過程の終端を予測する。 本研究では,EOS(+EOS)予測のために訓練されたネットワークと,訓練されていないネットワーク(-EOS)の時間外動作を比較するために,テスト時に正しいシーケンス長にモデルを強制するオラクル設定について検討する。 例えば、ブラケットクローズタスクのトレーニング時間で見られるものよりも10倍長大で、複雑なSCANデータセット長一般化タスクでは+EOSよりも40%改善されています。 EOS モデルと +EOS モデルの隠れ状態と力学を比較することで、(1) 線形位置による隠蔽状態の非必要成層化は列(長さ多様体と呼ぶ構造)か、(2) EOS トークンが最大確率予測であるときにクラスター(長さ誘引子と呼ばれる)で立ち往生しているため、+EOS モデルが一般化できないことを観察する。

Extrapolation to unseen sequence lengths is a challenge for neural generative models of language. In this work, we characterize the effect on length extrapolation of a modeling decision often overlooked: predicting the end of the generative process through the use of a special end-of-sequence (EOS) vocabulary item. We study an oracle setting - forcing models to generate to the correct sequence length at test time - to compare the length-extrapolative behavior of networks trained to predict EOS (+EOS) with networks not trained to (-EOS). We find that -EOS substantially outperforms +EOS, for example extrapolating well to lengths 10 times longer than those seen at training time in a bracket closing task, as well as achieving a 40% improvement over +EOS in the difficult SCAN dataset length generalization task. By comparing the hidden states and dynamics of -EOS and +EOS models, we observe that +EOS models fail to generalize because they (1) unnecessarily stratify their hidden states by their linear position is a sequence (structures we call length manifolds) or (2) get stuck in clusters (which we refer to as length attractors) once the EOS token is the highest-probability prediction.
翻訳日:2022-10-07 13:28:55 公開日:2020-10-14
# 言語的セマンティック・プログレクション理論に基づくテキストの概念的スキーマ抽出のための新しいアプローチ

A new approach for extracting the conceptual schema of texts based on the linguistic Thematic Progression theory ( http://arxiv.org/abs/2010.07440v1 )

ライセンス: Link先を確認
Elena del Olmo Su\'arez and Ana Mar\'ia Fern\'andez-Pampill\'on Cesteros(参考訳) 本論の目的は,主題進行理論の適用を通じて,テキストの暗黙的概念スキーマの発見とラベル付けのための新しいアプローチを提案することである。 基礎となる概念スキーマは、テキストのセマンティクスと真に一貫性のある要約を生成するためのコアコンポーネントである。

The purpose of this article is to present a new approach for the discovery and labelling of the implicit conceptual schema of texts through the application of the Thematic Progression theory. The underlying conceptual schema is the core component for the generation of summaries that are genuinely consistent with the semantics of the text.
翻訳日:2022-10-07 13:27:55 公開日:2020-10-14
# 創造的アーティファクトの解説

Explaining Creative Artifacts ( http://arxiv.org/abs/2010.07126v1 )

ライセンス: Link先を確認
Lav R. Varshney, Nazneen Fatema Rajani, and Richard Socher(参考訳) 人間の創造性は、しばしば連想要素を新しい形に結合する精神的プロセスとして表現されるが、新しい計算的創造性アルゴリズムはこの方法では機能しない。 ここでは,人間の創造プロセスと一致するポストホック解釈の一形態として,合成的および構成的創造性の産物を連想連鎖に分解する逆問題定式化を開発する。 特に,我々の定式化は,関連要素のナレッジグラフを通じて,旅行セールスマン問題の解法として構成されている。 本稿では,明示的な意味構造が存在する料理の創造性を説明するための例と,知識グラフにマップする明示的な概念を抽出したり,単語埋め込み空間内で距離を考慮したりする言語生成における2つの例を用いて,我々のアプローチを実証する。 我々はクリエイティビティのノベルティの尺度として最適なトラベルセールスマンパスの長さを割り当てて閉じる。

Human creativity is often described as the mental process of combining associative elements into a new form, but emerging computational creativity algorithms may not operate in this manner. Here we develop an inverse problem formulation to deconstruct the products of combinatorial and compositional creativity into associative chains as a form of post-hoc interpretation that matches the human creative process. In particular, our formulation is structured as solving a traveling salesman problem through a knowledge graph of associative elements. We demonstrate our approach using an example in explaining culinary computational creativity where there is an explicit semantic structure, and two examples in language generation where we either extract explicit concepts that map to a knowledge graph or we consider distances in a word embedding space. We close by casting the length of an optimal traveling salesman path as a measure of novelty in creativity.
翻訳日:2022-10-07 13:27:49 公開日:2020-10-14
# 注意グラフニューラルネットワークを用いた回転平均化

Rotation Averaging with Attention Graph Neural Networks ( http://arxiv.org/abs/2010.06773v1 )

ライセンス: Link先を確認
Joshua Thorpe, Ruwan Tennakoon, Alireza Bab-Hadiashar(参考訳) 本稿では,大規模多重回転平均化に対するリアルタイムかつロバストな解法を提案する。 最近まで、従来の反復最適化アルゴリズムを用いて多重回転平均問題は解決されていた。 このような方法は、センサノイズと異常分布に関する仮定に基づいて選択されたロバストなコスト関数を用いた。 実際には、これらの仮定は必ずしも実際のデータセットに適合しない。 最近の研究では、グラフニューラルネットワークを用いてノイズ分布を学習できることが示されている。 この解法では、平均化ネットワークが貧弱な初期化に敏感であるため、異常検出と除去のための第2のネットワークが必要であった。 本稿では,雑音や異常値の存在下でロバストに回転平均化を行うことのできる単段グラフニューラルネットワークを提案する。 本手法では,ネットワーク設計における重み付け平均化とアテンション機構を用いて,すべての観測結果を用いて,外乱効果を抑制する。 その結果、より高速で堅牢で、従来のニューラルネットワークよりも少ないサンプルでトレーニングすることが可能なネットワークが、従来の反復アルゴリズムを精度と推論時間で上回っている。

In this paper we propose a real-time and robust solution to large-scale multiple rotation averaging. Until recently, Multiple rotation averaging problem had been solved using conventional iterative optimization algorithms. Such methods employed robust cost functions that were chosen based on assumptions made about the sensor noise and outlier distribution. In practice, these assumptions do not always fit real datasets very well. A recent work showed that the noise distribution could be learnt using a graph neural network. This solution required a second network for outlier detection and removal as the averaging network was sensitive to a poor initialization. In this paper we propose a single-stage graph neural network that can robustly perform rotation averaging in the presence of noise and outliers. Our method uses all observations, suppressing outliers effects through the use of weighted averaging and an attention mechanism within the network design. The result is a network that is faster, more robust and can be trained with less samples than the previous neural approach, ultimately outperforming conventional iterative algorithms in accuracy and in inference times.
翻訳日:2022-10-07 13:27:35 公開日:2020-10-14
# フェログラフ画像分類

Ferrograph image classification ( http://arxiv.org/abs/2010.06777v1 )

ライセンス: Link先を確認
Peng Peng, Jiugen Wang(参考訳) フェログラフ画像を小さなデータセットと様々な種類の摩耗粒子で識別することは困難である。 本研究では,これらの課題に対処するための新しいモデルを提案する。 サンプル不足問題に対して,まず画像パッチの置換に基づくデータ拡張アルゴリズムを提案する。 そして,データ拡張アルゴリズムにより生成された画像を特定するために,画像パッチ置換認識の補助的損失関数を提案した。 さらに,提案モデルに対して,より豊富な特徴の抽出と冗長表現の削減を強制する特徴抽出損失関数を設計した。 摩耗粒子径の大きな変化範囲の課題として,摩耗粒子の多元的表現を得るために,多元的特徴抽出ブロックを提案した。 フェログラフ画像データセットとミニCIFAR-10データセットの実験を行った。 実験の結果,提案モデルでは,ベースラインと比較して,2つのデータセットの精度を9%,20%向上できることがわかった。

It has been challenging to identify ferrograph images with a small dataset and various scales of wear particle. A novel model is proposed in this study to cope with these challenging problems. For the problem of insufficient samples, we first proposed a data augmentation algorithm based on the permutation of image patches. Then, an auxiliary loss function of image patch permutation recognition was proposed to identify the image generated by the data augmentation algorithm. Moreover, we designed a feature extraction loss function to force the proposed model to extract more abundant features and to reduce redundant representations. As for the challenge of large change range of wear particle size, we proposed a multi-scale feature extraction block to obtain the multi-scale representations of wear particles. We carried out experiments on a ferrograph image dataset and a mini-CIFAR-10 dataset. Experimental results show that the proposed model can improve the accuracy of the two datasets by 9% and 20% respectively compared with the baseline.
翻訳日:2022-10-07 13:27:18 公開日:2020-10-14
# Googleが低オープンソースの言語と方言のための音声コーパスと関連オープンソースリソースをクラウドソーシング

Google Crowdsourced Speech Corpora and Related Open-Source Resources for Low-Resource Languages and Dialects: An Overview ( http://arxiv.org/abs/2010.06778v1 )

ライセンス: Link先を確認
Alena Butryna and Shan-Hui Cathy Chu and Isin Demirsahin and Alexander Gutkin and Linne Ha and Fei He and Martin Jansche and Cibu Johny and Anna Katanova and Oddur Kjartansson and Chenfang Li and Tatiana Merkulova and Yin May Oo and Knot Pipatsrisawat and Clara Rivera and Supheakmungkol Sarin and Pasindu de Silva and Keshan Sodimana and Richard Sproat and Theeraphol Wattanavekin and Jaka Aris Eko Wibawa(参考訳) 本稿では,表現不足言語に対する自由な音声リソース開発の必要性の高まりに対処するプログラムの概要を述べる。 現在、南アジア、アフリカ、ヨーロッパ、南米の言語や方言に対して、テキスト音声および自動音声認識アプリケーションを構築するための38のデータセットをリリースしています。 本稿は,コーパスの開発に使用する方法論について述べるとともに,表現不足の言語コミュニティに利益をもたらす可能性のある知見をいくつか提示する。

This paper presents an overview of a program designed to address the growing need for developing freely available speech resources for under-represented languages. At present we have released 38 datasets for building text-to-speech and automatic speech recognition applications for languages and dialects of South and Southeast Asia, Africa, Europe and South America. The paper describes the methodology used for developing such corpora and presents some of our findings that could benefit under-represented language communities.
翻訳日:2022-10-07 13:20:30 公開日:2020-10-14
# 制約付きクローゼ補完を用いた言語モデルからの教師なし関係抽出

Unsupervised Relation Extraction from Language Models using Constrained Cloze Completion ( http://arxiv.org/abs/2010.06804v1 )

ライセンス: Link先を確認
Ankur Goswami, Akshata Bhat, Hadar Ohana, Theodoros Rekatsinas(参考訳) 本報告では,最先端の自己教師付き言語モデルを用いて,微調整された抽出ヘッドを訓練することなくコーパスから関係を抽出できることを示す。 本稿では,教師なし関係抽出を行うために,事前学習された言語モデルに対して制約付きクローゼ補完を行うシンプルなフレームワークであるre-flexを紹介する。 RE-Flexはコンテキストマッチングを使用して、言語モデル予測がターゲット関係に関連する入力コーパスからのエビデンスと一致することを保証する。 本研究では,複数の関係抽出ベンチマークを対象とし,事前学習した言語モデルに基づく非教師付き関係抽出法を27.8$f_1$点まで上回るre-flexの有効性を実証する。 その結果、言語モデルに対する制約付き推論クエリにより、正確な教師なし関係抽出が可能となった。

We show that state-of-the-art self-supervised language models can be readily used to extract relations from a corpus without the need to train a fine-tuned extractive head. We introduce RE-Flex, a simple framework that performs constrained cloze completion over pretrained language models to perform unsupervised relation extraction. RE-Flex uses contextual matching to ensure that language model predictions matches supporting evidence from the input corpus that is relevant to a target relation. We perform an extensive experimental study over multiple relation extraction benchmarks and demonstrate that RE-Flex outperforms competing unsupervised relation extraction methods based on pretrained language models by up to 27.8 $F_1$ points compared to the next-best method. Our results show that constrained inference queries against a language model can enable accurate unsupervised relation extraction.
翻訳日:2022-10-07 13:20:02 公開日:2020-10-14
# 数学語問題に対する意味論的適応型普遍木構造解法

Semantically-Aligned Universal Tree-Structured Solver for Math Word Problems ( http://arxiv.org/abs/2010.06823v1 )

ライセンス: Link先を確認
Jinghui Qin, Lihui Lin, Xiaodan Liang, Rumin Zhang, Liang Lin(参考訳) 実用的自動テキスト代数学語問題(MWP)は、多くのテキスト代数学MWPを解くことができるが、既存の作業の多くは1つの未知の線形MWPのみに焦点を当てている。 本稿では,様々なmwpの方程式を一様表現する最初の試みとして,汎用表現木 (uet) と呼ばれる単純かつ効率的な手法を提案する。 次に,エンコーダ・デコーダ・フレームワークに基づく意味的に整合した普遍木構造解法 (SAU-Solver) を提案する。 我々のSAU-Solverは、人間の解法MWPなどのシンボルの意味に基づいて、どのシンボルを生成すべきかを明示的に決定することで、普遍的な表現木を生成する。 我々のSAU-Solverには、文脈情報と整合して生成した表現木の意味的制約と合理性をさらに強化する、新しいサブツリーレベルの意味的整合正規化も含まれている。 最後に,解法の普遍性を検証し,MWPの研究境界を拡張するために,3種類のMWPからなるHybrid Math Word Problemsデータセット(HMWP)を導入する。 いくつかのMWPデータセットの実験結果から,我々のモデルはMWPの普遍型を解くことができ,最先端モデルよりも優れることが示された。

A practical automatic textual math word problems (MWPs) solver should be able to solve various textual MWPs while most existing works only focused on one-unknown linear MWPs. Herein, we propose a simple but efficient method called Universal Expression Tree (UET) to make the first attempt to represent the equations of various MWPs uniformly. Then a semantically-aligned universal tree-structured solver (SAU-Solver) based on an encoder-decoder framework is proposed to resolve multiple types of MWPs in a unified model, benefiting from our UET representation. Our SAU-Solver generates a universal expression tree explicitly by deciding which symbol to generate according to the generated symbols' semantic meanings like human solving MWPs. Besides, our SAU-Solver also includes a novel subtree-level semanticallyaligned regularization to further enforce the semantic constraints and rationality of the generated expression tree by aligning with the contextual information. Finally, to validate the universality of our solver and extend the research boundary of MWPs, we introduce a new challenging Hybrid Math Word Problems dataset (HMWP), consisting of three types of MWPs. Experimental results on several MWPs datasets show that our model can solve universal types of MWPs and outperforms several state-of-the-art models.
翻訳日:2022-10-07 13:19:45 公開日:2020-10-14
# チュニジア感覚分析のための単語表現の学習

Learning Word Representations for Tunisian Sentiment Analysis ( http://arxiv.org/abs/2010.06857v1 )

ライセンス: Link先を確認
Abir Messaoudi and Hatem Haddad and Moez Ben HajHmida and Chayma Fourati and Abderrazak Ben Hamida(参考訳) ソーシャルメディア上のチュニジア人は、ラテン文字(TUNIZI)を使って地元の方言で表現する傾向がある。 これにより、オンラインの意見を探求し認識するプロセスに新たな課題が生まれます。 これまで、自動システムのトレーニングに必要なリソースが少ないため、TUNIZIの感情分析に対処する作業はほとんど行われていない。 本稿では,ソーシャルメディア上で使用されるチュニジア方言の感情分析に注目した。 以前の作業のほとんどは、機械学習技術と手作りの機能を組み合わせたものだった。 最近では、ディープニューラルネットワークがこのタスク、特に英語で広く使われている。 本稿では,様々な教師なし単語表現(word2vec, BERT)の重要性について検討し,畳み込みニューラルネットワークと双方向長短期記憶の利用について検討する。 手作りの機能を使わずに、2つの公開データセットにおける実験結果は、他の言語と同等のパフォーマンスを示しました。

Tunisians on social media tend to express themselves in their local dialect using Latin script (TUNIZI). This raises an additional challenge to the process of exploring and recognizing online opinions. To date, very little work has addressed TUNIZI sentiment analysis due to scarce resources for training an automated system. In this paper, we focus on the Tunisian dialect sentiment analysis used on social media. Most of the previous work used machine learning techniques combined with handcrafted features. More recently, Deep Neural Networks were widely used for this task, especially for the English language. In this paper, we explore the importance of various unsupervised word representations (word2vec, BERT) and we investigate the use of Convolutional Neural Networks and Bidirectional Long Short-Term Memory. Without using any kind of handcrafted features, our experimental results on two publicly available datasets showed comparable performances to other languages.
翻訳日:2022-10-07 13:19:19 公開日:2020-10-14
# pythonで日本語をトークン化するツールfugashi

fugashi, a Tool for Tokenizing Japanese in Python ( http://arxiv.org/abs/2010.06858v1 )

ライセンス: Link先を確認
Paul McCann(参考訳) 近年、大規模多言語nlpプロジェクトの数が増加している。 しかし、そのようなプロジェクトでも、特別な処理要件を持つ言語は除外されることが多い。 そのような言語は日本語である。 日本語はスペースなしで書かれており、トークン化は自明ではない。高品質なオープンソーストークンは存在するが、使用が難しく、英語のドキュメントが欠如している。 本稿では,Python用MeCabラッパーであるフガシを紹介し,日本語のトークン化について紹介する。

Recent years have seen an increase in the number of large-scale multilingual NLP projects. However, even in such projects, languages with special processing requirements are often excluded. One such language is Japanese. Japanese is written without spaces, tokenization is non-trivial, and while high quality open source tokenizers exist they can be hard to use and lack English documentation. This paper introduces fugashi, a MeCab wrapper for Python, and gives an introduction to tokenizing Japanese.
翻訳日:2022-10-07 13:19:07 公開日:2020-10-14
# 中国の語彙の単純化

Chinese Lexical Simplification ( http://arxiv.org/abs/2010.07048v1 )

ライセンス: Link先を確認
Jipeng Qiang and Xinyu Lu and Yun Li and Yunhao Yuan and Yang Shi and Xindong Wu(参考訳) 語彙の単純化は多くの言語で注目を集めており、これはある文中の複雑な単語を等価な意味の単純な代替語に置き換える過程である。 中国語の語彙の豊かさは、子供や非母語話者にとって非常に読みにくいが、中国語の語彙単純化(CLS)に関する研究は行われていない。 アノテーション取得の難しさを回避するため,私たちは,語彙単純化システムの自動評価に使用できるCLSの最初のベンチマークデータセットを手作業で作成する。 より詳細な比較を行うために,シノニムベースアプローチ,単語埋め込みベースアプローチ,事前学習型言語モデルベースアプローチ,セメムベースアプローチ,ハイブリッドアプローチなど,複雑な単語の代替候補を生成するためのベースラインとして,5つの異なる手法を提案する。 最後に,これらのベースラインの実験的評価を設計し,その利点と欠点について議論する。 私たちの知る限りでは、これがCLSタスクの最初の研究です。

Lexical simplification has attracted much attention in many languages, which is the process of replacing complex words in a given sentence with simpler alternatives of equivalent meaning. Although the richness of vocabulary in Chinese makes the text very difficult to read for children and non-native speakers, there is no research work for Chinese lexical simplification (CLS) task. To circumvent difficulties in acquiring annotations, we manually create the first benchmark dataset for CLS, which can be used for evaluating the lexical simplification systems automatically. In order to acquire more thorough comparison, we present five different types of methods as baselines to generate substitute candidates for the complex word that include synonym-based approach, word embedding-based approach, pretrained language model-based approach, sememe-based approach, and a hybrid approach. Finally, we design the experimental evaluation of these baselines and discuss their advantages and disadvantages. To our best knowledge, this is the first study for CLS task.
翻訳日:2022-10-07 13:18:18 公開日:2020-10-14
# PP-LinkNet:多段訓練による高解像度衛星画像のセマンティックセグメンテーションの改善

PP-LinkNet: Improving Semantic Segmentation of High Resolution Satellite Imagery with Multi-stage Training ( http://arxiv.org/abs/2010.06932v1 )

ライセンス: Link先を確認
An Tran, Ali Zonoozi, Jagannadan Varadarajan, Hannes Kruppa(参考訳) 道路網と建物の足跡抽出は、地図の更新、交通規制、都市計画、配車、災害対応 \textit{etc} など、多くのアプリケーションで不可欠である。 道路網のマッピングは、現在高価かつ労働集約的である。 近年,深層ニューラルネットワークの適用による画像分割の改善により,大規模高解像度衛星画像からの道路セグメント抽出に有望な結果が得られた。 しかし、業界グレードアプリケーションのモデル構築に必要な十分なラベル付きトレーニングデータが不足しているため、大きな課題が残っている。 本稿では,クラウドソースのOpenStreetMap(OSM)データから得られるノイズの多い擬似地中真実マスク(人的負担なしで)を活用する衛星画像のセマンティックセマンティックセマンティックセマンティクスの堅牢性を向上させるための2段階のトランスファー学習手法を提案する。 さらに、焦点損失、ポリラーニングレート、コンテキストモジュールを用いたセグメンテーションのための改良されたディープニューラルネットワークであるPraamid Pooling-LinkNet(PP-LinkNet)を提案する。 提案手法の強みは,2つの課題,すなわち道路抽出と足跡検出による3つの人気データセットの評価を通じて実証する。 具体的には、SpaceNet構築フットプリントデータセットで78.19\%の平均IoU、SpaceNetとDeepGlobe道路抽出データセットで67.03\%、77.11\%を得る。

Road network and building footprint extraction is essential for many applications such as updating maps, traffic regulations, city planning, ride-hailing, disaster response \textit{etc}. Mapping road networks is currently both expensive and labor-intensive. Recently, improvements in image segmentation through the application of deep neural networks has shown promising results in extracting road segments from large scale, high resolution satellite imagery. However, significant challenges remain due to lack of enough labeled training data needed to build models for industry grade applications. In this paper, we propose a two-stage transfer learning technique to improve robustness of semantic segmentation for satellite images that leverages noisy pseudo ground truth masks obtained automatically (without human labor) from crowd-sourced OpenStreetMap (OSM) data. We further propose Pyramid Pooling-LinkNet (PP-LinkNet), an improved deep neural network for segmentation that uses focal loss, poly learning rate, and context module. We demonstrate the strengths of our approach through evaluations done on three popular datasets over two tasks, namely, road extraction and building foot-print detection. Specifically, we obtain 78.19\% meanIoU on SpaceNet building footprint dataset, 67.03\% and 77.11\% on the road topology metric on SpaceNet and DeepGlobe road extraction dataset, respectively.
翻訳日:2022-10-07 13:12:16 公開日:2020-10-14
# 軽量3次元ディープラーニングアーキテクチャを用いたT1強調MRIボリュームの高速髄膜腫セグメンテーション

Fast meningioma segmentation in T1-weighted MRI volumes using a lightweight 3D deep learning architecture ( http://arxiv.org/abs/2010.07002v1 )

ライセンス: Link先を確認
David Bouget, Andr\'e Pedersen, Sayied Abdol Mohieb Hosainey, Johanna Vanel, Ole Solheim, Ingerid Reinertsen(参考訳) 診断, 治療計画, 腫瘍増殖評価には, t1強調mriで自動的かつ一貫した髄膜腫の分画と対応する容積評価が有用である。 本稿では,外科的治療を施した髄膜腫と外来での無治療髄膜腫の両方を用いて,セグメンテーションと処理速度を最適化した。 2つの異なる3dニューラルネットワークアーキテクチャを研究しました。 (i)3次元U-Netに似た単純なエンコーダデコーダ (ii)軽量マルチスケールアーキテクチャ(PLS-Net)。 さらに、異なるトレーニングスキームの影響について検討した。 本研究はノルウェーのトロンドハイムにあるセント・オラヴ大学病院で698 T1-weighted MR volume を用いた。 モデルは,検出精度,セグメンテーション精度,トレーニング/推論速度の観点から評価した。 どちらのアーキテクチャも平均70%のdiceスコアに達したが、pls-netはf1-scoreが88%まで正確であった。 最大の髄膜腫に対して最も高い精度が得られた。 速度的にはPSS-Netアーキテクチャは約50時間で収束する傾向にあり、U-Netには130時間が必要であった。 PLS-Netによる推論はGPUで1秒未満、CPUで約15秒かかる。 全体として、混合精度トレーニングを用いることで、軽量なPLS-Netアーキテクチャを用いて比較的短時間で競合セグメンテーションモデルを訓練することが可能となった。 将来的には, 臨床診断と早期診断, 成長予測の速さを改善するため, 小さな髄膜腫(2ml未満)の分節化に焦点をあてるべきである。

Automatic and consistent meningioma segmentation in T1-weighted MRI volumes and corresponding volumetric assessment is of use for diagnosis, treatment planning, and tumor growth evaluation. In this paper, we optimized the segmentation and processing speed performances using a large number of both surgically treated meningiomas and untreated meningiomas followed at the outpatient clinic. We studied two different 3D neural network architectures: (i) a simple encoder-decoder similar to a 3D U-Net, and (ii) a lightweight multi-scale architecture (PLS-Net). In addition, we studied the impact of different training schemes. For the validation studies, we used 698 T1-weighted MR volumes from St. Olav University Hospital, Trondheim, Norway. The models were evaluated in terms of detection accuracy, segmentation accuracy and training/inference speed. While both architectures reached a similar Dice score of 70% on average, the PLS-Net was more accurate with an F1-score of up to 88%. The highest accuracy was achieved for the largest meningiomas. Speed-wise, the PLS-Net architecture tended to converge in about 50 hours while 130 hours were necessary for U-Net. Inference with PLS-Net takes less than a second on GPU and about 15 seconds on CPU. Overall, with the use of mixed precision training, it was possible to train competitive segmentation models in a relatively short amount of time using the lightweight PLS-Net architecture. In the future, the focus should be brought toward the segmentation of small meningiomas (less than 2ml) to improve clinical relevance for automatic and early diagnosis as well as speed of growth estimates.
翻訳日:2022-10-07 13:11:50 公開日:2020-10-14
# 過剰なクラス数のための3次元分割ネットワーク:上半身の特定骨分割

3D Segmentation Networks for Excessive Numbers of Classes: Distinct Bone Segmentation in Upper Bodies ( http://arxiv.org/abs/2010.07045v1 )

ライセンス: Link先を確認
Eva Schnider, Antal Horv\'ath, Georg Rauter, Azhar Zam, Magdalena M\"uller-Gerbl, Philippe C. Cattin(参考訳) 骨の分離は、診断、計画、ナビゲーション、骨転移の評価において重要な役割を担っている。 外科的介入の計画と医療専門家の教育のための可視化ツールに意味知識を提供する。 ディープラーニングを用いた3次元データの完全教師付きセグメンテーションは、多くのタスクで広く研究されてきたが、通常は少数のクラスしか区別できない。 125個の骨があり、典型的な3Dセグメンテーションタスクよりも多くのラベルが含まれている。 このため、ほとんどの確立された方法の直接的適応は不可能である。 本稿では,多ラベル環境での3次元セグメンテーションネットワークのトレーニングの複雑さについて論じ,ネットワークアーキテクチャ,損失関数,データ拡張に必要となる変更点を示す。 その結果,本手法のロバスト性は,ct-scanを用いたエンド・ツー・エンドの学習方法で,100以上の異なる骨を同時に分割することで示される。

Segmentation of distinct bones plays a crucial role in diagnosis, planning, navigation, and the assessment of bone metastasis. It supplies semantic knowledge to visualisation tools for the planning of surgical interventions and the education of health professionals. Fully supervised segmentation of 3D data using Deep Learning methods has been extensively studied for many tasks but is usually restricted to distinguishing only a handful of classes. With 125 distinct bones, our case includes many more labels than typical 3D segmentation tasks. For this reason, the direct adaptation of most established methods is not possible. This paper discusses the intricacies of training a 3D segmentation network in a many-label setting and shows necessary modifications in network architecture, loss function, and data augmentation. As a result, we demonstrate the robustness of our method by automatically segmenting over one hundred distinct bones simultaneously in an end-to-end learnt fashion from a CT-scan.
翻訳日:2022-10-07 13:11:25 公開日:2020-10-14
# 分散機械学習を用いたプライバシ保護対象検出と位置決め:乳幼児のアイブリンク条件の検討

Privacy-Preserving Object Detection & Localization Using Distributed Machine Learning: A Case Study of Infant Eyeblink Conditioning ( http://arxiv.org/abs/2010.07259v1 )

ライセンス: Link先を確認
Stefan Zwaard, Henk-Jan Boele, Hani Alers, Christos Strydis, Casey Lew-Williams, and Zaid Al-Ars(参考訳) 分散機械学習は、プライバシ、計算スケーラビリティ、帯域幅の容量のため、一般的なモデルトレーニング手法になりつつある。 本研究では,オブジェクト検出によく使用される2つのアルゴリズムのスケーラブルな分散学習バージョンについて検討する。 向き付き勾配(hog)のヒストグラムに基づく線形支持ベクトル機械(l-svm)物体検出に対して,平均重み行列集約(mwma)を用いた新しい分散学習アルゴリズムを提案する。 さらに,ERT(Ensemble of Regression Trees)ランドマークローカライゼーションの分散トレーニングのために,新しいWeighted Bin Aggregation (WBA)アルゴリズムを提案する。 どちらのアルゴリズムもモデルアグリゲーションの位置を制限せず、モデル分散のためのカスタムアーキテクチャを可能にする。 本研究では,両アルゴリズムのプールベースのローカルトレーニング・アグリゲーション(pblta)アーキテクチャについて検討した。 医療分野における両方のアルゴリズムの応用について、幼児の心理と神経科学のアイブリンク条件づけのパラダイムを用いて検討した。 分散学習を使用すると、他のノードに画像データを送信せずにモデルをトレーニングすることができる。 カスタムソフトウェアはGitHubで公開されている。 https://github.com/SLWZwaard/DMT。 その結果,mwmaを用いたhogアルゴリズムのモデルの集約により,モデルの精度が保たれるだけでなく,従来の学習に比べて0.9%の精度で分散学習が可能となった。 さらに、wbaはシングルノードモデルと比較して精度8%の精度でertモデルの集約を可能にする。

Distributed machine learning is becoming a popular model-training method due to privacy, computational scalability, and bandwidth capacities. In this work, we explore scalable distributed-training versions of two algorithms commonly used in object detection. A novel distributed training algorithm using Mean Weight Matrix Aggregation (MWMA) is proposed for Linear Support Vector Machine (L-SVM) object detection based in Histogram of Orientated Gradients (HOG). In addition, a novel Weighted Bin Aggregation (WBA) algorithm is proposed for distributed training of Ensemble of Regression Trees (ERT) landmark localization. Both algorithms do not restrict the location of model aggregation and allow custom architectures for model distribution. For this work, a Pool-Based Local Training and Aggregation (PBLTA) architecture for both algorithms is explored. The application of both algorithms in the medical field is examined using a paradigm from the fields of psychology and neuroscience - eyeblink conditioning with infants - where models need to be trained on facial images while protecting participant privacy. Using distributed learning, models can be trained without sending image data to other nodes. The custom software has been made available for public use on GitHub: https://github.com/SLWZwaard/DMT. Results show that the aggregation of models for the HOG algorithm using MWMA not only preserves the accuracy of the model but also allows for distributed learning with an accuracy increase of 0.9% compared with traditional learning. Furthermore, WBA allows for ERT model aggregation with an accuracy increase of 8% when compared to single-node models.
翻訳日:2022-10-07 13:11:07 公開日:2020-10-14
# ミツバチコロニーの集団防御 : 実験結果と理論的モデリング

Collective defense of honeybee colonies: experimental results and theoretical modeling ( http://arxiv.org/abs/2010.07326v1 )

ライセンス: Link先を確認
Andrea L\'opez-Incera, Morgane Nouvian, Katja Ried, Thomas M\"uller and Hans J. Briegel(参考訳) 社会性の昆虫群は、通常、大きな脊椎動物捕食者に直面しており、集団的な防御を行う必要がある。 そのため、ミツバチはアラームフェロモンを使い、近くのミツバチを誘引して、認識された脅威を大量殺傷する。 このアラームフェロモンはスティンガーに直接運ばれるため、攻撃中にその濃度が上昇する。 ここでは, 個々のハチが異なるアラームフェロモン濃度にどのように反応するか, そして, この進化した反応パターンが群レベルでどのように協調するかを検討する。 まず,アラームフェロモンに個々の線量応答曲線を提示し,実験を行った。 次に,各ミツバチをフェロモン濃度に依存した人工学習エージェントとしてモデル化するために,投射シミュレーションを適用する。 創発的な集団的パフォーマンスがコロニーに利益をもたらす場合、それをもたらす個々の反応は強化学習によって強化され、自然選択をエミュレートする。 捕食者は、抵抗性、殺傷率、攻撃頻度などの要因の影響を研究するために、現実的な方法でモデル化される。 実験によって測定されたミツバチの反応パターンを再現し、それを形成する主選択圧を同定することができる。 最後に、このモデルを事例研究に適用し、ヨーロッパまたはアフリカミツバチの環境条件を表すパラメータを調整することにより、これらの2亜種間で観察される攻撃性の違いを予測できる。

Social insect colonies routinely face large vertebrate predators, against which they need to mount a collective defense. To do so, honeybees use an alarm pheromone that recruits nearby bees into mass stinging of the perceived threat. This alarm pheromone is carried directly on the stinger, hence its concentration builds up during the course of the attack. Here, we investigate how individual bees react to different alarm pheromone concentrations, and how this evolved response-pattern leads to better coordination at the group level. We first present an individual dose-response curve to the alarm pheromone, obtained experimentally. Second, we apply Projective Simulation to model each bee as an artificial learning agent that relies on the pheromone concentration to decide whether to sting or not. If the emergent collective performance benefits the colony, the individual reactions that led to it are enhanced via reinforcement learning, thus emulating natural selection. Predators are modeled in a realistic way so that the effect of factors such as their resistance, their killing rate or their frequency of attacks can be studied. We are able to reproduce the experimentally measured response-pattern of real bees, and to identify the main selection pressures that shaped it. Finally, we apply the model to a case study: by tuning the parameters to represent the environmental conditions of European or African bees, we can predict the difference in aggressiveness observed between these two subspecies.
翻訳日:2022-10-07 13:03:25 公開日:2020-10-14
# 非IID環境におけるフェデレート学習の精度向上

Improving Accuracy of Federated Learning in Non-IID Settings ( http://arxiv.org/abs/2010.15582v1 )

ライセンス: Link先を確認
Mustafa Safa Ozdayi, Murat Kantarcioglu, Rishabh Iyer(参考訳) Federated Learning(FL)は、データを共有することなく、参加するエージェントのセットが協力してモデルをトレーニングできる、分散機械学習プロトコルである。 これにより、FLは特にデータのプライバシが求められる設定に適している。 しかし、flの性能はエージェントのローカルデータ分布と密接に関連していることが観察されている。 特に、ローカルなデータ分布がエージェント間で大きく異なる環境では、FLは集中的なトレーニングに関してかなりパフォーマンスが悪い。 この問題に対処するため,性能劣化の原因を仮説化し,それに応じていくつかの手法を開発する。 本研究では,flに対する通信オーバーヘッドを発生させることなく,クライアント側,サーバ側いずれにおいても軽量な計算オーバーヘッドを発生させることなく,トレーニングモデルの性能を向上させるための4つの簡単な手法を特定する。 実験分析では,本手法の組み合わせにより,flでトレーニングしたモデルの検証精度がベースラインに対して12%以上向上した。 これは集中型データでトレーニングされたモデルの精度よりも約5%低い。

Federated Learning (FL) is a decentralized machine learning protocol that allows a set of participating agents to collaboratively train a model without sharing their data. This makes FL particularly suitable for settings where data privacy is desired. However, it has been observed that the performance of FL is closely tied with the local data distributions of agents. Particularly, in settings where local data distributions vastly differ among agents, FL performs rather poorly with respect to the centralized training. To address this problem, we hypothesize the reasons behind the performance degradation, and develop some techniques to address these reasons accordingly. In this work, we identify four simple techniques that can improve the performance of trained models without incurring any additional communication overhead to FL, but rather, some light computation overhead either on the client, or the server-side. In our experimental analysis, combination of our techniques improved the validation accuracy of a model trained via FL by more than 12% with respect to our baseline. This is about 5% less than the accuracy of the model trained on centralized data.
翻訳日:2022-10-07 13:03:01 公開日:2020-10-14
# 非重複指数列の混合を用いたフレキシブル平均場変動推定

Flexible mean field variational inference using mixtures of non-overlapping exponential families ( http://arxiv.org/abs/2010.06768v1 )

ライセンス: Link先を確認
Jeffrey P. Spence(参考訳) スパースモデルは、自動変数選択、支援解釈可能性、正規化を行うことができるため、様々なドメインにわたる多くのアプリケーションで望ましい。 しかし、ベイズフレームワークにスパースモデルを適用する場合、最も単純な場合を除いて、興味のあるパラメータの後方分布を解析的に得ることは不可能である。 結果として、実践者はマルコフ連鎖モンテカルロのようなサンプリングアルゴリズムや、近似的な後方を求める変分法に頼らなければならない。 平均場変動推論は特に単純で一般的なフレームワークであり、しばしばクローズドフォームパラメータの更新を解析的に導き出すことができる。 モデル内のすべての分布が指数族のメンバーであり、条件付き共役であるとき、最適化スキームはしばしば手で導かれる。 しかし, スパイク・アンド・スラブなどの疎性誘導前モデルに対して, 標準平均場変動推論を用いることで, 妥当な結果が得られないことを示す。 幸いなことに、指数的家族分布と非重複的なサポートの混合が指数的家族を形成することを示すように、そのような病理学的挙動を修復することができる。 特に、散在する指数関数族とゼロの点質量の混合により、スパーシティのモデル化は指数関数族を形成する。 さらに、これらの分布の特定の選択は条件付き共役性を維持する。 ひとつは回帰係数に先立ってスパイク・アンド・スラブで一般化された最小二乗に接続する統計遺伝学、もうひとつは確率的主成分分析である。 ここで示した理論的結果は、これら2つの例を越えて広く適用できる。

Sparse models are desirable for many applications across diverse domains as they can perform automatic variable selection, aid interpretability, and provide regularization. When fitting sparse models in a Bayesian framework, however, analytically obtaining a posterior distribution over the parameters of interest is intractable for all but the simplest cases. As a result practitioners must rely on either sampling algorithms such as Markov chain Monte Carlo or variational methods to obtain an approximate posterior. Mean field variational inference is a particularly simple and popular framework that is often amenable to analytically deriving closed-form parameter updates. When all distributions in the model are members of exponential families and are conditionally conjugate, optimization schemes can often be derived by hand. Yet, I show that using standard mean field variational inference can fail to produce sensible results for models with sparsity-inducing priors, such as the spike-and-slab. Fortunately, such pathological behavior can be remedied as I show that mixtures of exponential family distributions with non-overlapping support form an exponential family. In particular, any mixture of a diffuse exponential family and a point mass at zero to model sparsity forms an exponential family. Furthermore, specific choices of these distributions maintain conditional conjugacy. I use two applications to motivate these results: one from statistical genetics that has connections to generalized least squares with a spike-and-slab prior on the regression coefficients; and sparse probabilistic principal component analysis. The theoretical results presented here are broadly applicable beyond these two examples.
翻訳日:2022-10-07 13:02:45 公開日:2020-10-14
# 神経混合分布回帰

Neural Mixture Distributional Regression ( http://arxiv.org/abs/2010.06889v1 )

ライセンス: Link先を確認
David R\"ugamer, Florian Pfisterer and Bernd Bischl(参考訳) フレキシブルな加法予測器によって定義される分布回帰の複雑な有限混合を推定する包括的枠組みであるニューラルミックス分布回帰(NMDR)を提案する。 我々のフレームワークは、高次元設定で潜在的に異なる分布の多くの混合を処理でき、効率的でスケーラブルな最適化を可能にし、構造化回帰モデルとディープニューラルネットワークを組み合わせた最近の概念に適用することができる。 混合モデルに対する既存の多くのアプローチは、そのような最適化の課題に対処し、特定のモデル仮定の下で収束する結果を提供するが、我々のアプローチは仮定レスであり、代わりにディープラーニングにおいて十分に確立された最適化器を利用する。 広範な数値実験と高次元深層学習アプリケーションを通じて,提案手法が既存のアプローチと競合し,より複雑なシナリオでうまく機能することを示す。

We present neural mixture distributional regression (NMDR), a holistic framework to estimate complex finite mixtures of distributional regressions defined by flexible additive predictors. Our framework is able to handle a large number of mixtures of potentially different distributions in high-dimensional settings, allows for efficient and scalable optimization and can be applied to recent concepts that combine structured regression models with deep neural networks. While many existing approaches for mixture models address challenges in optimization of such and provide results for convergence under specific model assumptions, our approach is assumption-free and instead makes use of optimizers well-established in deep learning. Through extensive numerical experiments and a high-dimensional deep learning application we provide evidence that the proposed approach is competitive to existing approaches and works well in more complex scenarios.
翻訳日:2022-10-07 13:02:18 公開日:2020-10-14
# メタ学習における推定誤差の理論的境界

Theoretical bounds on estimation error for meta-learning ( http://arxiv.org/abs/2010.07140v1 )

ライセンス: Link先を確認
James Lucas, Mengye Ren, Irene Kameni, Toniann Pitassi, Richard Zemel(参考訳) 機械学習モデルは、トレーニングとテストの分布が正確に一致するという前提の下で伝統的に開発されてきた。 しかし、最近の数ショット学習や関連する問題の成功は、これらのモデルが、列車とテストの分布が異なるより現実的な設定に適応できることを示す兆候である。 残念ながら、これらのアルゴリズムの理論的サポートは極めて限られており、これらの問題の難しさについてはほとんど分かっていない。 本研究では,複数の情報源からのデータを学習し,新しいデータで検証したアルゴリズムに対して,最小収束率に関する新しい情報理論の下限を提供する。 我々の境界は、データソース間で共有される情報に直感的に依存し、任意のアルゴリズムのこの設定における学習の難しさを特徴付ける。 メタラーニングの階層的ベイズモデル上でこれらの境界を実証し,パラメータ推定における上限値と下限値の計算を行う。

Machine learning models have traditionally been developed under the assumption that the training and test distributions match exactly. However, recent success in few-shot learning and related problems are encouraging signs that these models can be adapted to more realistic settings where train and test distributions differ. Unfortunately, there is severely limited theoretical support for these algorithms and little is known about the difficulty of these problems. In this work, we provide novel information-theoretic lower-bounds on minimax rates of convergence for algorithms that are trained on data from multiple sources and tested on novel data. Our bounds depend intuitively on the information shared between sources of data, and characterize the difficulty of learning in this setting for arbitrary algorithms. We demonstrate these bounds on a hierarchical Bayesian model of meta-learning, computing both upper and lower bounds on parameter estimation via maximum-a-posteriori inference.
翻訳日:2022-10-07 13:01:04 公開日:2020-10-14
# 株式市場のリターンを説明するためにニューストピックを選択する

Choosing News Topics to Explain Stock Market Returns ( http://arxiv.org/abs/2010.07289v1 )

ライセンス: Link先を確認
Paul Glasserman, Kriste Krstovski, Paul Laliberte, Harry Mamaysky(参考訳) ニュース記事の話題選択手法を分析し,株価のリターンを説明する。 確率的emアルゴリズムでgibbsサンプリングによって実装された潜在ディリクレ割当 (slda) は、経験的および理論的結果を通じて、しばしばトピックモデルの有害性への回帰に過剰に適合する。 通常のLDAモデルのランダム探索により,サンプル外性能が向上する。 効果的なトピック割り当てを強化する分岐手順は、しばしば最もよく機能する。 我々は、s&p 500企業に関する9万以上のニュース記事のアーカイブでメソッドをテストする。

We analyze methods for selecting topics in news articles to explain stock returns. We find, through empirical and theoretical results, that supervised Latent Dirichlet Allocation (sLDA) implemented through Gibbs sampling in a stochastic EM algorithm will often overfit returns to the detriment of the topic model. We obtain better out-of-sample performance through a random search of plain LDA models. A branching procedure that reinforces effective topic assignments often performs best. We test methods on an archive of over 90,000 news articles about S&P 500 firms.
翻訳日:2022-10-07 13:00:47 公開日:2020-10-14
# 無限幅極限におけるニューラルネットワークの暗黙前兆の不確実性の検討

Exploring the Uncertainty Properties of Neural Networks' Implicit Priors in the Infinite-Width Limit ( http://arxiv.org/abs/2010.07355v1 )

ライセンス: Link先を確認
Ben Adlam, Jaehoon Lee, Lechao Xiao, Jeffrey Pennington, and Jasper Snoek(参考訳) 現代のディープラーニングモデルは、多くのデータモダリティの予測精度において大きな成功を収めている。 しかし、彼らの多くの現実世界のタスクへの応用は、分散外データ(ood)に対する過信や、分散シフト下での不穏な失敗など、不確かさの少ない推定によって制限されている。 以前のベンチマークでは、ニューラルネットワーク(NN)のアンサンブルがOODデータ上で最高の校正モデルであることが分かっていた。 これに触発された我々は、無限大のNNのアンサンブルの前の関数空間をガウス過程として特徴付ける最近の理論的進歩を活用し、ニューラルネットワークガウス過程(NNGP)と呼ぶ。 NNGPとソフトマックスリンク関数を用いて,多クラス分類のための確率モデルを構築し,潜在ガウス出力を後方からのサンプルにマーザライズする。 これにより、関数空間上の暗黙的な前のNNの配置をよりよく理解することができ、NNGPとその有限幅アナログの校正を直接比較することができる。 また,分類問題を1ホットラベルの回帰として扱うnngpによる分類手法のキャリブレーションについても検討した。 この場合、ベイズ後部は正確であり、クラス上のカテゴリー分布を生成するためにいくつかのヒューリスティックスを比較する。 これらの手法は分布シフトの下でよく校正されている。 最後に、トレーニング済みの埋め込みと合わせて無限幅の最終層を考える。 これにより、転送学習の重要な実用的なユースケースが再現され、さらに大きなデータセットへのスケーリングが可能になる。 競合予測精度を達成するだけでなく、このアプローチは有限幅のアナログよりもキャリブレーションが良い。

Modern deep learning models have achieved great success in predictive accuracy for many data modalities. However, their application to many real-world tasks is restricted by poor uncertainty estimates, such as overconfidence on out-of-distribution (OOD) data and ungraceful failing under distributional shift. Previous benchmarks have found that ensembles of neural networks (NNs) are typically the best calibrated models on OOD data. Inspired by this, we leverage recent theoretical advances that characterize the function-space prior of an ensemble of infinitely-wide NNs as a Gaussian process, termed the neural network Gaussian process (NNGP). We use the NNGP with a softmax link function to build a probabilistic model for multi-class classification and marginalize over the latent Gaussian outputs to sample from the posterior. This gives us a better understanding of the implicit prior NNs place on function space and allows a direct comparison of the calibration of the NNGP and its finite-width analogue. We also examine the calibration of previous approaches to classification with the NNGP, which treat classification problems as regression to the one-hot labels. In this case the Bayesian posterior is exact, and we compare several heuristics to generate a categorical distribution over classes. We find these methods are well calibrated under distributional shift. Finally, we consider an infinite-width final layer in conjunction with a pre-trained embedding. This replicates the important practical use case of transfer learning and allows scaling to significantly larger datasets. As well as achieving competitive predictive accuracy, this approach is better calibrated than its finite width analogue.
翻訳日:2022-10-07 12:54:31 公開日:2020-10-14
# グラディエントブースティングマシンの組合わせによる解釈可能な機械学習

Interpretable Machine Learning with an Ensemble of Gradient Boosting Machines ( http://arxiv.org/abs/2010.07388v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) 良く知られた一般化加法モデルに基づくブラックボックスモデルの局所的および大域的解釈法を提案する。 これは、ニューラル加算モデルを用いてアルゴリズムの拡張または修正と見なすことができる。 本手法は,1つの特徴に基づいて各GBMを学習し,その特徴の形状関数を生成するように,勾配昇降機(GBM)のアンサンブルを用いて構成する。 アンサンブルは、一般化加法モデルを形成する形状関数の重み付け和となる別々のGBMの重み付け和として構成される。 GBMは、非常に単純なアーキテクチャを提供する深さ1のランダム化決定木を用いて並列に構築される。 GBMの重量と特徴は、ラッソ法を用いて各反復で計算され、特定の平滑化手順によって更新される。 神経添加モデルとは対照的に、この方法は明示的な形式の特徴の重みを与え、単に訓練される。 合成および実データセットに提案手法を実装したアルゴリズムを用いた数値実験は、局所的および大域的解釈の効率性と特性を実証する。

A method for the local and global interpretation of a black-box model on the basis of the well-known generalized additive models is proposed. It can be viewed as an extension or a modification of the algorithm using the neural additive model. The method is based on using an ensemble of gradient boosting machines (GBMs) such that each GBM is learned on a single feature and produces a shape function of the feature. The ensemble is composed as a weighted sum of separate GBMs resulting a weighted sum of shape functions which form the generalized additive model. GBMs are built in parallel using randomized decision trees of depth 1, which provide a very simple architecture. Weights of GBMs as well as features are computed in each iteration of boosting by using the Lasso method and then updated by means of a specific smoothing procedure. In contrast to the neural additive model, the method provides weights of features in the explicit form, and it is simply trained. A lot of numerical experiments with an algorithm implementing the proposed method on synthetic and real datasets demonstrate its efficiency and properties for local and global interpretation.
翻訳日:2022-10-07 12:54:05 公開日:2020-10-14
# サインを選ぶ: グラディエントサインドロップアウトによるディープマルチタスクモデルの最適化

Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout ( http://arxiv.org/abs/2010.06808v1 )

ライセンス: Link先を確認
Zhao Chen, Jiquan Ngiam, Yanping Huang, Thang Luong, Henrik Kretzschmar, Yuning Chai, Dragomir Anguelov(参考訳) 深層モデルの大部分は、訓練可能な重みの共有セットを更新するために、通常、複数の損失項の合計に対応する複数の勾配信号を使用する。 しかし、これらの複数の更新は、矛盾する方向にモデルを引っ張ることで最適なトレーニングを妨げる可能性がある。 本稿では,その一貫性レベルに基づいて,アクティベーション層で勾配をサンプリングする確率的マスキング法であるGradDropについて述べる。 GradDropは、どんなディープネットでも使えるシンプルなディープ層として実装され、他の勾配バランスのアプローチと相乗効果がある。 本研究では,GradDropが従来のマルチタスクと移動学習設定において最先端のマルチロス手法よりも優れており,GradDropが最適マルチロストレーニングと勾配確率の関係を明らかにする方法について論じる。

The vast majority of deep models use multiple gradient signals, typically corresponding to a sum of multiple loss terms, to update a shared set of trainable weights. However, these multiple updates can impede optimal training by pulling the model in conflicting directions. We present Gradient Sign Dropout (GradDrop), a probabilistic masking procedure which samples gradients at an activation layer based on their level of consistency. GradDrop is implemented as a simple deep layer that can be used in any deep net and synergizes with other gradient balancing approaches. We show that GradDrop outperforms the state-of-the-art multiloss methods within traditional multitask and transfer learning settings, and we discuss how GradDrop reveals links between optimal multiloss training and gradient stochasticity.
翻訳日:2022-10-07 12:53:48 公開日:2020-10-14
# 帰属マップ生成のための学習伝播規則

Learning Propagation Rules for Attribution Map Generation ( http://arxiv.org/abs/2010.07210v1 )

ライセンス: Link先を確認
Yiding Yang, Jiayan Qiu, Mingli Song, Dacheng Tao, Xinchao Wang(参考訳) 先行勾配に基づく帰属マップ法では、非線形・活性化層を逆行する過程における手作りの伝播規則に依拠し、入力の勾配を生成し、帰属写像を生成する。 有望な結果にもかかわらず、これらの手法は非形式的高周波成分に敏感であり、様々なモデルやサンプルへの適応性に欠ける。 本稿では,手工芸品の欠点を克服し,自動で伝播規則を学習する属性マップを生成するための専用手法を提案する。 具体的には,マスク生成の後方通過中に,各画素に対して適応的な伝搬規則を適用可能な学習可能なプラグインモジュールを提案する。 その後、マスクされた入力画像が再びモデルに入力され、元の画像と組み合わせてガイダンスとして使用できる新しい出力が得られる。 導入された学習可能なモジュールは、高階差分サポートを備えた任意のオートグレードフレームワークでトレーニングすることができる。 5つのデータセットと6つのネットワークアーキテクチャで示されているように、提案手法は最先端の結果をもたらし、よりクリーンでより視覚的な帰属マップを提供する。

Prior gradient-based attribution-map methods rely on handcrafted propagation rules for the non-linear/activation layers during the backward pass, so as to produce gradients of the input and then the attribution map. Despite the promising results achieved, such methods are sensitive to the non-informative high-frequency components and lack adaptability for various models and samples. In this paper, we propose a dedicated method to generate attribution maps that allow us to learn the propagation rules automatically, overcoming the flaws of the handcrafted ones. Specifically, we introduce a learnable plugin module, which enables adaptive propagation rules for each pixel, to the non-linear layers during the backward pass for mask generating. The masked input image is then fed into the model again to obtain new output that can be used as a guidance when combined with the original one. The introduced learnable module can be trained under any auto-grad framework with higher-order differential support. As demonstrated on five datasets and six network architectures, the proposed method yields state-of-the-art results and gives cleaner and more visually plausible attribution maps.
翻訳日:2022-10-07 12:53:20 公開日:2020-10-14
# データフリーな知識伝達による高精度量子化と刈り取り

Towards Accurate Quantization and Pruning via Data-free Knowledge Transfer ( http://arxiv.org/abs/2010.07334v1 )

ライセンス: Link先を確認
Chen Zhu, Zheng Xu, Ali Shafahi, Manli Shu, Amin Ghiasi, Tom Goldstein(参考訳) 大規模トレーニングデータが利用可能であれば、量子化とプルーニングによってリソース制約のある環境で効果的に展開できるコンパクトで正確なネットワークを得ることができる。 しかし、トレーニングデータはプライバシー上の懸念から保護されることが多く、データ無しでコンパクトネットワークを得ることは困難である。 訓練された大規模ネットワークからコンパクトネットワークへ知識を移すことで,データフリーな量子化とプルーニングについて検討する。 補助発電機は、対象のコンパクトネットワークで同時に対角的に訓練され、与えられた大きなネットワークとその量子化または切断されたバージョンとの差を最大化する合成入力を生成する。 基本となるミニマックス問題に対する交互最適化は、プルーニングと量子化の穏やかな条件下で収束することを示す。 データフリーのコンパクトネットワークは、トレーニングデータで微調整されたネットワークに対して、競争力のある精度を実現します。 量子化およびprunedネットワークは、よりコンパクトで軽量で優れた性能を実現しています。 さらに,宝くじ仮説によるコンパクトな構造と対応する初期化が,データフリートレーニングにも有効であることを示す。

When large scale training data is available, one can obtain compact and accurate networks to be deployed in resource-constrained environments effectively through quantization and pruning. However, training data are often protected due to privacy concerns and it is challenging to obtain compact networks without data. We study data-free quantization and pruning by transferring knowledge from trained large networks to compact networks. Auxiliary generators are simultaneously and adversarially trained with the targeted compact networks to generate synthetic inputs that maximize the discrepancy between the given large network and its quantized or pruned version. We show theoretically that the alternating optimization for the underlying minimax problem converges under mild conditions for pruning and quantization. Our data-free compact networks achieve competitive accuracy to networks trained and fine-tuned with training data. Our quantized and pruned networks achieve good performance while being more compact and lightweight. Further, we demonstrate that the compact structure and corresponding initialization from the Lottery Ticket Hypothesis can also help in data-free training.
翻訳日:2022-10-07 12:53:01 公開日:2020-10-14
# 噂を聞かないで! インフルエンザ・フェイク・ツイート検出のための多言語的アプローチ

No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet Detection ( http://arxiv.org/abs/2010.06906v1 )

ライセンス: Link先を確認
Debanjana Kar, Mohit Bhardwaj, Suranjana Samanta, Amar Prakash Azad(参考訳) 新型コロナウイルス(COVID-19)による突然のパンデミックは、私たちの生活に前例のない影響を与えた。 人類はかつてない屈辱的な恐怖とソーシャルメディアへの依存を乗り越えている。 恐怖は必然的にパニック、憶測、誤情報の拡散につながる。 多くの政府は、このような誤報の拡散を抑制する措置を講じている。 グローバルな尺度に加えて、効果的なアウトリーチを行うためには、人口動態的な地域言語のためのシステムが、この取り組みにおいて重要な役割を果たす。 そこで本研究では,twitterなどのソーシャルメディアから早期にcovid-19に関する偽ニュースを英語以外の複数の言語で検出する手法を提案する。 さらに、偽ニュース検出のためのHindiとBengaliのツイートの注釈付きデータセットも作成します。 我々は、偽ツイートを識別するために、Twitterから抽出した関連機能を付加したBERTベースのモデルを提案する。 複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。 また,このような低リソース言語に対するデータ不足問題を解決するためのゼロショット学習手法を提案する。 厳密な実験により,我々は偽ツイート検出において約89%のf-scoreに到達し,最新(sota)結果に取って代わることを示した。 さらに,ヒンディー語とベンガル語という2つの言語に対する最初のベンチマークを確立する。 注釈付きデータを用い,ヒンディー語ではf-scoreが約79%,ベンガル語ではf-scoreが81%であった。 我々のゼロショットモデルは、ヒンズー語ではf-scoreが約81%、ベンガル語ではf-scoreが78%と、注釈付きデータなしで達成されている。

The sudden widespread menace created by the present global pandemic COVID-19 has had an unprecedented effect on our lives. Man-kind is going through humongous fear and dependence on social media like never before. Fear inevitably leads to panic, speculations, and the spread of misinformation. Many governments have taken measures to curb the spread of such misinformation for public well being. Besides global measures, to have effective outreach, systems for demographically local languages have an important role to play in this effort. Towards this, we propose an approach to detect fake news about COVID-19 early on from social media, such as tweets, for multiple Indic-Languages besides English. In addition, we also create an annotated dataset of Hindi and Bengali tweet for fake news detection. We propose a BERT based model augmented with additional relevant features extracted from Twitter to identify fake tweets. To expand our approach to multiple Indic languages, we resort to mBERT based model which is fine-tuned over created dataset in Hindi and Bengali. We also propose a zero-shot learning approach to alleviate the data scarcity issue for such low resource languages. Through rigorous experiments, we show that our approach reaches around 89% F-Score in fake tweet detection which supercedes the state-of-the-art (SOTA) results. Moreover, we establish the first benchmark for two Indic-Languages, Hindi and Bengali. Using our annotated data, our model achieves about 79% F-Score in Hindi and 81% F-Score for Bengali Tweets. Our zero-shot model achieves about 81% F-Score in Hindi and 78% F-Score for Bengali Tweets without any annotated data, which clearly indicates the efficacy of our approach.
翻訳日:2022-10-07 12:52:43 公開日:2020-10-14
# ニューラルデータベース

Neural Databases ( http://arxiv.org/abs/2010.06973v1 )

ライセンス: Link先を確認
James Thorne, Majid Yazdani, Marzieh Saeidi, Fabrizio Silvestri, Sebastian Riedel, Alon Halevy(参考訳) 近年、ニューラルネットワークは、長年にわたるAI問題、特に自然言語テキストからのクエリに対する応答において、顕著なパフォーマンス向上を見せている。 これらの進歩は、データベース管理の基本的な前提、すなわち、データが事前に定義されたスキーマのフィールドとして表現されていることを緩和できる点まで拡張できるかどうかという疑問を提起する。 本稿ではその質問に答える第一歩を示す。 我々はneuraldbについて述べる。neuraldbは事前に定義されたスキーマを持たないデータベースシステムで、更新とクエリは自然言語で与えられる。 我々は,最先端の自然言語処理手法によって提供されるプリミティブに基づいてクエリ処理技術を開発する。 まず,学習済み言語モデルを用いた最近のNLPトランスフォーマーが,関連する事実の正確なセットが与えられた場合,選択プロジェクト-ジョインクエリに応答可能であることを示す。 しかし、非自明なデータベースにはスケールできず、集約クエリの実行もできない。 これらの結果に基づき,複数のニューラルSPJ演算子を並列に動作させるNeuralDBアーキテクチャについて述べる。 これらの演算子の結果は必要に応じてアグリゲーション演算子に供給される。 本稿では,それぞれのニューラルSPJ演算子に入力される事象の適切な集合を生成する方法を学習するアルゴリズムについて述べる。 重要なことに、このアルゴリズムはNeural SPJ演算子自身で訓練することができる。 我々はNeuralDBとそのコンポーネントの精度を実験的に検証し、非常に高い精度で何千もの文に対する問い合わせに答えられることを示す。

In recent years, neural networks have shown impressive performance gains on long-standing AI problems, and in particular, answering queries from natural language text. These advances raise the question of whether they can be extended to a point where we can relax the fundamental assumption of database management, namely, that our data is represented as fields of a pre-defined schema. This paper presents a first step in answering that question. We describe NeuralDB, a database system with no pre-defined schema, in which updates and queries are given in natural language. We develop query processing techniques that build on the primitives offered by the state of the art Natural Language Processing methods. We begin by demonstrating that at the core, recent NLP transformers, powered by pre-trained language models, can answer select-project-join queries if they are given the exact set of relevant facts. However, they cannot scale to non-trivial databases and cannot perform aggregation queries. Based on these findings, we describe a NeuralDB architecture that runs multiple Neural SPJ operators in parallel, each with a set of database sentences that can produce one of the answers to the query. The result of these operators is fed to an aggregation operator if needed. We describe an algorithm that learns how to create the appropriate sets of facts to be fed into each of the Neural SPJ operators. Importantly, this algorithm can be trained by the Neural SPJ operator itself. We experimentally validate the accuracy of NeuralDB and its components, showing that we can answer queries over thousands of sentences with very high accuracy.
翻訳日:2022-10-07 12:52:16 公開日:2020-10-14
# テキスト要約における再評価

Re-evaluating Evaluation in Text Summarization ( http://arxiv.org/abs/2010.07100v1 )

ライセンス: Link先を確認
Manik Bhandari, Pranav Gour, Atabak Ashfaq, Pengfei Liu and Graham Neubig(参考訳) 手動評価のためのスタンドインとしての自動評価指標は、テキスト要約などのテキスト生成タスクの開発において不可欠な部分である。 しかしながら、この分野は進展していますが、私たちの標準メトリクスは、ほとんど20年近くの間、要約論文の標準評価でした。 本稿では,テキスト要約の評価手法を再評価する試みとして,システムレベルの評価設定と要約レベルの評価設定の両方で最近普及しているデータセットに対して,トップスコアシステム出力と抽出の両方を用いて,自動メトリクスの信頼性を評価する。 古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。

Automated evaluation metrics as a stand-in for manual evaluation are an essential part of the development of text-generation tasks such as text summarization. However, while the field has progressed, our standard metrics have not -- for nearly 20 years ROUGE has been the standard evaluation in most summarization papers. In this paper, we make an attempt to re-evaluate the evaluation method for text summarization: assessing the reliability of automatic metrics using top-scoring system outputs, both abstractive and extractive, on recently popular datasets for both system-level and summary-level evaluation settings. We find that conclusions about evaluation metrics on older datasets do not necessarily hold on modern datasets and systems.
翻訳日:2022-10-07 12:51:51 公開日:2020-10-14
# 公平なcoxモデルによる医療資源の公平配分

Equitable Allocation of Healthcare Resources with Fair Cox Models ( http://arxiv.org/abs/2010.06820v1 )

ライセンス: Link先を確認
Kamrun Naher Keya, Rashidul Islam, Shimei Pan, Ian Stockwell, James R. Foulds(参考訳) medicaidのような医療プログラムは、脆弱な人々に重要なサービスを提供するが、限られた資源のために、これらのサービスを必要とする多くの個人は、待ち行列に最もこだわる。 生存モデル(例えば、コックス比例ハザードモデル)は、個人のニーズレベルを予測することによってこの状況を改善し、待機リストの優先順位付けに使用できる。 必要な人にケアを提供することは、それらの個人の制度化を防ぎ、生活の質を改善し、全体的なコストを削減できる。 このようなアプローチの利点は明確であるが、優先順位付けのプロセスが人口統計学的情報に基づく有害なステレオタイプから公平か独立かを保証するために注意が必要である。 本研究では,医療資源の公平な配分を確保するために,サバイバルモデルと対応するcox比例ハザードモデルに対する複数のフェアネス定義を開発する。 本稿では,2つのサバイバルデータセットの公平性と予測精度の観点から,本手法の有用性を実証する。

Healthcare programs such as Medicaid provide crucial services to vulnerable populations, but due to limited resources, many of the individuals who need these services the most languish on waiting lists. Survival models, e.g. the Cox proportional hazards model, can potentially improve this situation by predicting individuals' levels of need, which can then be used to prioritize the waiting lists. Providing care to those in need can prevent institutionalization for those individuals, which both improves quality of life and reduces overall costs. While the benefits of such an approach are clear, care must be taken to ensure that the prioritization process is fair or independent of demographic information-based harmful stereotypes. In this work, we develop multiple fairness definitions for survival models and corresponding fair Cox proportional hazards models to ensure equitable allocation of healthcare resources. We demonstrate the utility of our methods in terms of fairness and predictive accuracy on two publicly available survival datasets.
翻訳日:2022-10-07 12:51:41 公開日:2020-10-14
# 温度チェック:ソフトマックス-クロスエントロピー損失のあるトレーニングモデルの理論と実践

Temperature check: theory and practice for training models with softmax-cross-entropy losses ( http://arxiv.org/abs/2010.07344v1 )

ライセンス: Link先を確認
Atish Agarwala, Jeffrey Pennington, Yann Dauphin, Sam Schoenholz(参考訳) ソフトマックス関数とクロスエントロピー損失の組み合わせは、ディープラーニングにおいてユビキタスになった確率分布をモデル化するための原則的アプローチである。 ソフトマックス関数は、訓練後のモデルの信頼性を調整する方法として一般的に1つに設定される唯一のハイパーパラメータ(温度)によって定義されるが、温度がトレーニング力学や一般化性能にどのように影響するかは分かっていない。 本研究では,ソフトマックスクロスエントロピー損失をトレーニングしたモデルの早期学習の理論を考案し,学習のダイナミクスが,初期化時のロジットの大きさである |||\beta{\bf z}||_{2}$ と逆温度$\beta$ に依存することを示した。 CIFAR10, ImageNet, IMDBの感情分析に基づいて学習した各種モデルアーキテクチャについて, 大規模な実証的研究を行った。 一般化性能は温度に大きく依存するが,初期ロジットの大きさは弱い。 我々は、$\beta$への一般化の依存はモデル信頼性の変化によるものではなく、動的現象であることを示す。 チューニング可能なハイパーパラメータとして$\beta$を追加することが、モデルパフォーマンスを最大化するための鍵である。 アーキテクチャに敏感な最適な$\beta$が見つかるが、我々の結果は、研究対象のアーキテクチャすべてに対して、$\beta$が10^{-2}$から10^1$にチューニングされることを示唆している。 より小さな$\beta$は、学習安定性を犠牲にしてパフォーマンスを向上させる可能性がある。

The softmax function combined with a cross-entropy loss is a principled approach to modeling probability distributions that has become ubiquitous in deep learning. The softmax function is defined by a lone hyperparameter, the temperature, that is commonly set to one or regarded as a way to tune model confidence after training; however, less is known about how the temperature impacts training dynamics or generalization performance. In this work we develop a theory of early learning for models trained with softmax-cross-entropy loss and show that the learning dynamics depend crucially on the inverse-temperature $\beta$ as well as the magnitude of the logits at initialization, $||\beta{\bf z}||_{2}$. We follow up these analytic results with a large-scale empirical study of a variety of model architectures trained on CIFAR10, ImageNet, and IMDB sentiment analysis. We find that generalization performance depends strongly on the temperature, but only weakly on the initial logit magnitude. We provide evidence that the dependence of generalization on $\beta$ is not due to changes in model confidence, but is a dynamical phenomenon. It follows that the addition of $\beta$ as a tunable hyperparameter is key to maximizing model performance. Although we find the optimal $\beta$ to be sensitive to the architecture, our results suggest that tuning $\beta$ over the range $10^{-2}$ to $10^1$ improves performance over all architectures studied. We find that smaller $\beta$ may lead to better peak performance at the cost of learning stability.
翻訳日:2022-10-07 12:46:06 公開日:2020-10-14
# 深層学習モデルの性能に及ぼす活性化関数の非線形性の影響

Effects of the Nonlinearity in Activation Functions on the Performance of Deep Learning Models ( http://arxiv.org/abs/2010.07359v1 )

ライセンス: Link先を確認
Nalinda Kulathunga, Nishath Rajiv Ranasinghe, Daniel Vrinceanu, Zackary Kinsman, Lei Huang, Yunjiao Wang(参考訳) ディープラーニングモデルにおける活性化関数の非線形性は予測モデルの成功に不可欠である。 Rectified Linear Unit (ReLU) や Leaky-ReLU (L-ReLU) など、一般的な非線形関数はいくつかある。 実際、これらの機能はモデルの精度を著しく向上させる。 しかし、あるモデルが他のモデルよりも優れた性能を持つ理由に関して、これらの非線形活性化関数の機能についての洞察は限られている。 本稿では、ReLUやL-ReLUを異なるモデルアーキテクチャやデータドメインのアクティベーション機能として使用する際のモデル性能について検討する。 興味深いことに、モデル内のトレーニング可能なパラメータの数が比較的少ない場合、L-ReLUの適用はほとんど効果的であることがわかった。 さらに,VGG-16などの事前学習モデルを用いた場合,画像分類モデルはL-ReLUと完全連結層で良好に機能することがわかった。

The nonlinearity of activation functions used in deep learning models are crucial for the success of predictive models. There are several commonly used simple nonlinear functions, including Rectified Linear Unit (ReLU) and Leaky-ReLU (L-ReLU). In practice, these functions remarkably enhance the model accuracy. However, there is limited insight into the functionality of these nonlinear activation functions in terms of why certain models perform better than others. Here, we investigate the model performance when using ReLU or L-ReLU as activation functions in different model architectures and data domains. Interestingly, we found that the application of L-ReLU is mostly effective when the number of trainable parameters in a model is relatively small. Furthermore, we found that the image classification models seem to perform well with L-ReLU in fully connected layers, especially when pre-trained models such as the VGG-16 are used for the transfer learning.
翻訳日:2022-10-07 12:45:38 公開日:2020-10-14
# 対称分割を持つベイズニューラルネットワークに対するハミルトンモンテカルロのスケーリング

Scaling Hamiltonian Monte Carlo Inference for Bayesian Neural Networks with Symmetric Splitting ( http://arxiv.org/abs/2010.06772v1 )

ライセンス: Link先を確認
Adam D. Cobb, Brian Jalaian(参考訳) ハミルトニアンのモンテカルロ (HMC) はマルコフ連鎖モンテカルロ (MCMC) のアプローチであり、ニューラルネットワークのような高次元モデルにおいて好ましい探索特性を示す。 残念なことに、HMCは大規模なデータ体制でしか使われておらず、ハミルトニアン全体を維持するための適切なアプローチを模索する研究はほとんどない。 本研究では,確率勾配に依存しない分割HMCに対する新しい対称積分法を提案する。 我々は、新しい定式化が従来のアプローチよりも効率的であることを示し、単一のGPUで簡単に実装できることを示します。 その結果、データセット全体を使用して、一般的なディープラーニングアーキテクチャよりも完全なHMCを実現できる。 また, 確率勾配MCMCとの比較では, 精度と不確かさの両面において, 高い性能が得られることを示す。 提案手法は,大規模機械学習問題に対する推論スキームを考慮した場合,HMCを実現可能な選択肢として示す。

Hamiltonian Monte Carlo (HMC) is a Markov chain Monte Carlo (MCMC) approach that exhibits favourable exploration properties in high-dimensional models such as neural networks. Unfortunately, HMC has limited use in large-data regimes and little work has explored suitable approaches that aim to preserve the entire Hamiltonian. In our work, we introduce a new symmetric integration scheme for split HMC that does not rely on stochastic gradients. We show that our new formulation is more efficient than previous approaches and is easy to implement with a single GPU. As a result, we are able to perform full HMC over common deep learning architectures using entire data sets. In addition, when we compare with stochastic gradient MCMC, we show that our method achieves better performance in both accuracy and uncertainty quantification. Our approach demonstrates HMC as a feasible option when considering inference schemes for large-scale machine learning problems.
翻訳日:2022-10-07 12:45:23 公開日:2020-10-14
# 正常化への再構成:時系列異常検出のための逆進学習および遅延ベクトル制約オートエンコーダ

Reconstruct Anomaly to Normal: Adversarial Learned and Latent Vector-constrained Autoencoder for Time-series Anomaly Detection ( http://arxiv.org/abs/2010.06846v1 )

ライセンス: Link先を確認
Chunkai Zhang, Wei Zuo, Xuan Wang(参考訳) 時系列における異常検出は広く研究され、重要な実用的応用がなされている。 近年、異常検出アルゴリズムは主にディープラーニング生成モデルに基づいており、再構成誤差を用いて異常を検出する。 彼らは、トレーニングフェーズで正規データを再構成し、正常データの分布をキャプチャし、テストデータの再構成エラーを計算して異常検出を試みる。 しかし、その多くはトレーニングフェーズで通常のデータのみを使用しており、異常データの再構築プロセスを保証することができない。 したがって、異常データはしばしば適切に再構成され、再構成誤差が低くなり、異常データの欠落につながる。 さらに、時系列データ内のデータポイントの隣接情報は、これらのアルゴリズムでは十分に活用されていない。 本稿では,正規化に対する再構成異常の概念に基づくRANを提案し,教師なし時系列異常検出に適用する。 正規データの再構成誤差を最小化し、異常データの最大化するために、正規データの再構築を良好に行うだけでなく、異常データの再構成を正規データの分布と整合させることを試みる。 我々は,この概念を「類似異常データ」を導入し,特殊設計の潜在ベクトル制約型オートエンコーダと識別器を組み合わせることで,敵ネットワークを構築する。 ECG診断などの異なるシーンからの時系列データセットに関する大規模な実験では、RANが意味のある異常を検出し、AUC-ROCの点で他のアルゴリズムよりも優れていることが示されている。

Anomaly detection in time series has been widely researched and has important practical applications. In recent years, anomaly detection algorithms are mostly based on deep-learning generative models and use the reconstruction error to detect anomalies. They try to capture the distribution of normal data by reconstructing normal data in the training phase, then calculate the reconstruction error of test data to do anomaly detection. However, most of them only use the normal data in the training phase and can not ensure the reconstruction process of anomaly data. So, anomaly data can also be well reconstructed sometimes and gets low reconstruction error, which leads to the omission of anomalies. What's more, the neighbor information of data points in time series data has not been fully utilized in these algorithms. In this paper, we propose RAN based on the idea of Reconstruct Anomalies to Normal and apply it for unsupervised time series anomaly detection. To minimize the reconstruction error of normal data and maximize this of anomaly data, we do not just ensure normal data to reconstruct well, but also try to make the reconstruction of anomaly data consistent with the distribution of normal data, then anomalies will get higher reconstruction errors. We implement this idea by introducing the "imitated anomaly data" and combining a specially designed latent vector-constrained Autoencoder with the discriminator to construct an adversary network. Extensive experiments on time-series datasets from different scenes such as ECG diagnosis also show that RAN can detect meaningful anomalies, and it outperforms other algorithms in terms of AUC-ROC.
翻訳日:2022-10-07 12:45:07 公開日:2020-10-14
# VEST: 予測のための自動機能エンジニアリング

VEST: Automatic Feature Engineering for Forecasting ( http://arxiv.org/abs/2010.07137v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Nuno Moniz, Carlos Soares(参考訳) 時系列予測は、幅広いドメインのアプリケーションにとって困難なタスクである。 自動回帰はこれらの問題に対処する最も一般的なアプローチの1つである。 したがって、観測は過去のラグを予測変数として複数の回帰によってモデル化される。 時系列の過去のダイナミクスを要約した統計を用いて,自動回帰プロセスの拡張について検討する。 我々の研究結果はVESTと呼ばれる新しいフレームワークであり、単変量および数値時系列を用いて特徴工学を自動で行うように設計されている。 提案手法は3つの主要なステップで機能する。 まず、最近の観測は異なる表現にマッピングされる。 第二に、各表現は統計関数によって要約される。 最後に、特徴選択にフィルタを適用する。 VESTが生成した特徴と自動回帰を組み合わせることで,予測性能が大幅に向上することを発見した。 サンプリング頻度の高い90の時系列を用いて証拠を提供する。 VESTはオンラインで公開されている。

Time series forecasting is a challenging task with applications in a wide range of domains. Auto-regression is one of the most common approaches to address these problems. Accordingly, observations are modelled by multiple regression using their past lags as predictor variables. We investigate the extension of auto-regressive processes using statistics which summarise the recent past dynamics of time series. The result of our research is a novel framework called VEST, designed to perform feature engineering using univariate and numeric time series automatically. The proposed approach works in three main steps. First, recent observations are mapped onto different representations. Second, each representation is summarised by statistical functions. Finally, a filter is applied for feature selection. We discovered that combining the features generated by VEST with auto-regression significantly improves forecasting performance. We provide evidence using 90 time series with high sampling frequency. VEST is publicly available online.
翻訳日:2022-10-07 12:43:57 公開日:2020-10-14
# オンライン意思決定のための統計的推論:コンテキスト帯域設定において

Statistical Inference for Online Decision-Making: In a Contextual Bandit Setting ( http://arxiv.org/abs/2010.07283v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbin Lu, Rui Song(参考訳) オンライン意思決定の問題は、インクリメンタル情報に基づいた一連の意思決定を必要とする。 一般的な解決策は、文脈情報を与えられた異なるアクションの報酬モデルを学び、それから長期的な報酬を最大化する。 仮定されたモデルが妥当かどうか、そのモデルが漸近的にどのように機能するかを知ることは有意義である。 本稿では,線形報酬モデルを用いたコンテキストバンディットフレームワークのセットアップにより,この問題を考察する。 古典的な探索と探索のジレンマに対応するために、$\varepsilon$-greedyポリシーが採用されている。 マルティンゲール中心極限定理を用いて、モデルパラメータのオンライン最小二乗推定器が漸近的に正規であることを示す。 線形モデルが誤特定された場合,逆回帰スコア重み付けを用いたオンライン最小二乗推定器を提案し,その漸近正規性を確立する。 さらに,パラメータ推定器の特性に基づいて,サンプル内逆確率重み値推定器が漸近的に正規であることを示す。 シミュレーションと、yahoo!のニュース記事レコメンデーションデータセットへのアプリケーションを用いて、この結果を示す。

Online decision-making problem requires us to make a sequence of decisions based on incremental information. Common solutions often need to learn a reward model of different actions given the contextual information and then maximize the long-term reward. It is meaningful to know if the posited model is reasonable and how the model performs in the asymptotic sense. We study this problem under the setup of the contextual bandit framework with a linear reward model. The $\varepsilon$-greedy policy is adopted to address the classic exploration-and-exploitation dilemma. Using the martingale central limit theorem, we show that the online ordinary least squares estimator of model parameters is asymptotically normal. When the linear model is misspecified, we propose the online weighted least squares estimator using the inverse propensity score weighting and also establish its asymptotic normality. Based on the properties of the parameter estimators, we further show that the in-sample inverse propensity weighted value estimator is asymptotically normal. We illustrate our results using simulations and an application to a news article recommendation dataset from Yahoo!.
翻訳日:2022-10-07 12:43:23 公開日:2020-10-14
# 確率勾配によるオンライン意思決定の統計的推測

Statistical Inference for Online Decision Making via Stochastic Gradient Descent ( http://arxiv.org/abs/2010.07341v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbin Lu, Rui Song(参考訳) オンライン意思決定は、パーソナライズされた意思決定を行い、再帰的に決定ルールを更新することによって、最適な決定ルールを学ぶことを目的としている。 ビッグデータの助けを借りて、これまで以上に簡単になりましたが、新しい課題も生まれました。 決定ルールはステップ毎に1回更新する必要があるため、すべての履歴データを使用するオフライン更新は、計算とストレージにおいて非効率である。 そこで本研究では,確率的勾配降下によって決定ルールをオンラインに更新できる完全オンラインアルゴリズムを提案する。 効率的だけでなく、あらゆる種類のパラメトリック報酬モデルもサポートしている。 オンライン意思決定の統計的推測に着目し,アルゴリズムが生成したパラメータ推定器の漸近正規度と,最適値の推定に用いたオンライン逆確率重み値推定器を確立する。 パラメータと値の分散に対するオンラインプラグイン推定器も提供され、一貫性があることが示され、この方法で間隔推定と仮説テストが可能である。 提案アルゴリズムと理論的結果は,ニュース記事推薦へのシミュレーションおよび実データ応用によって検証される。

Online decision making aims to learn the optimal decision rule by making personalized decisions and updating the decision rule recursively. It has become easier than before with the help of big data, but new challenges also come along. Since the decision rule should be updated once per step, an offline update which uses all the historical data is inefficient in computation and storage. To this end, we propose a completely online algorithm that can make decisions and update the decision rule online via stochastic gradient descent. It is not only efficient but also supports all kinds of parametric reward models. Focusing on the statistical inference of online decision making, we establish the asymptotic normality of the parameter estimator produced by our algorithm and the online inverse probability weighted value estimator we used to estimate the optimal value. Online plugin estimators for the variance of the parameter and value estimators are also provided and shown to be consistent, so that interval estimation and hypothesis test are possible using our method. The proposed algorithm and theoretical results are tested by simulations and a real data application to news article recommendation.
翻訳日:2022-10-07 12:43:01 公開日:2020-10-14
# ラベル名のみを用いたテキスト分類:言語モデル自己学習アプローチ

Text Classification Using Label Names Only: A Language Model Self-Training Approach ( http://arxiv.org/abs/2010.07245v1 )

ライセンス: Link先を確認
Yu Meng, Yunyi Zhang, Jiaxin Huang, Chenyan Xiong, Heng Ji, Chao Zhang, Jiawei Han(参考訳) 現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするが、実際のアプリケーションではコストがかかり難い。 人間はラベル付きの例を見ることなく分類することができるが、分類対象のカテゴリを記述する小さな単語セットのみに基づいている。 本稿では,ラベル付き文書を使わずに,各クラスのラベル名のみを用いてラベル付きデータの分類モデルを訓練する可能性について検討する。 カテゴリー理解のための一般的な言語知識源として,文書分類のための表現学習モデルとして,事前学習されたニューラルネットワークモデルを用いる。 本手法は,(1) 意味的関連語とラベル名とを関連づけ,(2) カテゴリー指示語を検索し,そのカテゴリを予測できるようにモデルを訓練し,(3) 自己学習によりモデルを一般化する。 本モデルでは,ラベル付き文書を使わずにトピック分類や感情分類を含む4つのベンチマークデータセットで約90%の精度を実現するが,ラベル名としてクラス毎に最大3ワード(1つ)の教師付きデータから学習する。

Current text classification methods typically require a good number of human-labeled documents as training data, which can be costly and difficult to obtain in real applications. Humans can perform classification without seeing any labeled examples but only based on a small set of words describing the categories to be classified. In this paper, we explore the potential of only using the label name of each class to train classification models on unlabeled data, without using any labeled documents. We use pre-trained neural language models both as general linguistic knowledge sources for category understanding and as representation learning models for document classification. Our method (1) associates semantically related words with the label names, (2) finds category-indicative words and trains the model to predict their implied categories, and (3) generalizes the model via self-training. We show that our model achieves around 90% accuracy on four benchmark datasets including topic and sentiment classification without using any labeled documents but learning from unlabeled data supervised by at most 3 words (1 in most cases) per class as the label name.
翻訳日:2022-10-07 12:34:56 公開日:2020-10-14
# 言語から言語へ:LSTMの非意味言語刺激表現はどのように脳様か?

From Language to Language-ish: How Brain-Like is an LSTM's Representation of Nonsensical Language Stimuli? ( http://arxiv.org/abs/2010.07435v1 )

ライセンス: Link先を確認
Maryam Hashemzadeh, Greta Kaufeld, Martha White, Andrea E. Martin, Alona Fyshe(参考訳) 多くの言語モデル(単語埋め込み、ニューラルネットワーク、トランスフォーマー)によって生成された表現は、人々が読んでいる間に記録された脳の活動と相関する。 しかしながら、これらの復号結果は、通常、脳の構文的および意味論的に音声言語刺激に対する反応に基づいている。 本研究では,LSTM(長期記憶)言語モデルにおいて,意味的・構文的に無意味な言語を訓練し,意味的・統語的情報を劣化させた言語サンプルをどう表現するかを問う。 LSTM表現は、まだ脳の反応に似ているか? 我々は、ある種の非感覚言語であっても、脳の活動とLSTMの表現との間に統計的に有意な関係があることを発見した。 これは、少なくともいくつかのケースでは、LSTMとヒトの脳が同様に非感覚的なデータを処理していることを示している。

The representations generated by many models of language (word embeddings, recurrent neural networks and transformers) correlate to brain activity recorded while people read. However, these decoding results are usually based on the brain's reaction to syntactically and semantically sound language stimuli. In this study, we asked: how does an LSTM (long short term memory) language model, trained (by and large) on semantically and syntactically intact language, represent a language sample with degraded semantic or syntactic information? Does the LSTM representation still resemble the brain's reaction? We found that, even for some kinds of nonsensical language, there is a statistically significant relationship between the brain's activity and the representations of an LSTM. This indicates that, at least in some instances, LSTMs and the human brain handle nonsensical data similarly.
翻訳日:2022-10-07 12:34:35 公開日:2020-10-14
# 公平な機械学習のための説明可能性

Explainability for fair machine learning ( http://arxiv.org/abs/2010.07389v1 )

ライセンス: Link先を確認
Tom Begley, Tobias Schwedes, Christopher Frye, Ilya Feige(参考訳) 機械学習モデルによる決定や影響が私たちの生活にますます影響を与えているため、不公平を検出し、理解し、軽減することが重要です。 しかし、与えられた文脈で「不公平」がどんな意味を持つべきかを単に決定することさえ簡単ではない:多くの競合する定義があり、それらを選択するには、基礎となるタスクの深い理解が必要である。 したがって、モデルフェアネスに関する洞察を得るためにモデル説明可能性を使う傾向がありますが、既存の説明可能性ツールは、モデルが本当にフェアかどうかを確実に示していません。 本稿では、Shapley値のパラダイムに基づく機械学習における公平性を説明する新しいアプローチを提案する。 我々の公正な説明は、モデルがセンシティブな属性を直接操作していない場合であっても、モデル全体の不公平さを個々の入力特徴に帰着する。 さらに,Shapleyの説明可能性の線形性によって動機づけられたメタアルゴリズムを提案し,既存のトレーニング時間フェアネス介入を適用し,新しいモデルではなく,オリジナルのモデルに摂動を訓練する。 元のモデル、摂動、公正補正モデルを説明することで、介入によって行われている正確性と公正性のトレードオフについて洞察を得る。 さらに, このメタアルゴリズムは, 柔軟性と安定性を両立し, 性能の低下を伴わないことを示す。

As the decisions made or influenced by machine learning models increasingly impact our lives, it is crucial to detect, understand, and mitigate unfairness. But even simply determining what "unfairness" should mean in a given context is non-trivial: there are many competing definitions, and choosing between them often requires a deep understanding of the underlying task. It is thus tempting to use model explainability to gain insights into model fairness, however existing explainability tools do not reliably indicate whether a model is indeed fair. In this work we present a new approach to explaining fairness in machine learning, based on the Shapley value paradigm. Our fairness explanations attribute a model's overall unfairness to individual input features, even in cases where the model does not operate on sensitive attributes directly. Moreover, motivated by the linearity of Shapley explainability, we propose a meta algorithm for applying existing training-time fairness interventions, wherein one trains a perturbation to the original model, rather than a new model entirely. By explaining the original model, the perturbation, and the fair-corrected model, we gain insight into the accuracy-fairness trade-off that is being made by the intervention. We further show that this meta algorithm enjoys both flexibility and stability benefits with no loss in performance.
翻訳日:2022-10-07 12:27:09 公開日:2020-10-14
# 誤予測サンプルの同定:アクティブラーニングのための方法

Identifying Wrongly Predicted Samples: A Method for Active Learning ( http://arxiv.org/abs/2010.06890v1 )

ライセンス: Link先を確認
Rahaf Aljundi, Nikolay Chumerin and Daniel Olmeda Reino(参考訳) 最先端の機械学習モデルは、望まれるパフォーマンスのレベルを達成するために、大量の注釈付きデータにアクセスする必要がある。 ラベルなしのデータはほとんど利用可能で、豊富であるが、アノテーションプロセスは非常に高価で制限される可能性がある。 あるタスクに対して、あるサンプルが他のタスクよりも重要であるという仮定の下で、アクティブな学習は、アノテーションを取得するべき最も情報に富むサンプルを特定する問題をターゲットにしている。 本研究では,新しい未知ラベルを利用するためのプロキシとして,モデルの不確実性に従来から依存する代わりに,不確実性を超えた単純なサンプル選択基準を提案する。 まずモデル予測を受理し,その一般化誤差への影響を判断することにより,誤った予測サンプルを同定する。 我々はさらに,非常に効率的で類似性に基づく解釈を提供する基準の近似を提示する。 アクティブラーニングの標準ベンチマーク上での手法の評価に加えて,カテゴリが等しく表現されない不均衡データの現実的シナリオについても検討する。 最新の結果と誤った予測サンプルの同定率を示す。 提案手法は単純で,モデルに依存しず,スクラッチから再トレーニングする必要がなく,現在のモデル状態に依存している。

State-of-the-art machine learning models require access to significant amount of annotated data in order to achieve the desired level of performance. While unlabelled data can be largely available and even abundant, annotation process can be quite expensive and limiting. Under the assumption that some samples are more important for a given task than others, active learning targets the problem of identifying the most informative samples that one should acquire annotations for. Instead of the conventional reliance on model uncertainty as a proxy to leverage new unknown labels, in this work we propose a simple sample selection criterion that moves beyond uncertainty. By first accepting the model prediction and then judging its effect on the generalization error, we can better identify wrongly predicted samples. We further present an approximation to our criterion that is very efficient and provides a similarity based interpretation. In addition to evaluating our method on the standard benchmarks of active learning, we consider the challenging yet realistic scenario of imbalanced data where categories are not equally represented. We show state-of-the-art results and better rates at identifying wrongly predicted samples. Our method is simple, model agnostic and relies on the current model status without the need for re-training from scratch.
翻訳日:2022-10-07 12:26:01 公開日:2020-10-14
# Web質問応答のための半構造化データのグラフ表現

A Graph Representation of Semi-structured Data for Web Question Answering ( http://arxiv.org/abs/2010.06801v1 )

ライセンス: Link先を確認
Xingyao Zhang, Linjun Shou, Jian Pei, Ming Gong, Lijie Wen, Daxin Jiang(参考訳) HTMLベースのテーブルやリストなどのWeb上の豊富な半構造化データにより、商用検索エンジンは質問応答(QA)のための豊富な情報ソースを提供する。 webドキュメントの平文節とは異なり、webテーブルとリストには固有の構造があり、テーブルとリストのさまざまな要素間の意味的相関がある。 既存の研究の多くは、表やリストを平らな文書としてテキストで扱い、構造に隠された意味情報をうまく利用していない。 本稿では, 半構造化データ中の成分の体系的分類とそれらの関係に基づく, ウェブ表とリストの新しいグラフ表現を提案する。 また,QAタスクのグラフモデル上での事前学習および推論手法も開発する。 商用エンジンから収集した実データに対する広範囲な実験により,本手法の有効性が検証された。 本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。

The abundant semi-structured data on the Web, such as HTML-based tables and lists, provide commercial search engines a rich information source for question answering (QA). Different from plain text passages in Web documents, Web tables and lists have inherent structures, which carry semantic correlations among various elements in tables and lists. Many existing studies treat tables and lists as flat documents with pieces of text and do not make good use of semantic information hidden in structures. In this paper, we propose a novel graph representation of Web tables and lists based on a systematic categorization of the components in semi-structured data as well as their relations. We also develop pre-training and reasoning techniques on the graph model for the QA task. Extensive experiments on several real datasets collected from a commercial engine verify the effectiveness of our approach. Our method improves F1 score by 3.90 points over the state-of-the-art baselines.
翻訳日:2022-10-07 12:25:37 公開日:2020-10-14
# 教師なしBLIにおけるリラクシドマッチング法

A Relaxed Matching Procedure for Unsupervised BLI ( http://arxiv.org/abs/2010.07095v1 )

ライセンス: Link先を確認
Xu Zhao, Zihao Wang, Hao Wu, Yong Zhang(参考訳) 最近、平行コーパスのない非教師付きバイリンガルレキシコン誘導(BLI)が研究の関心を集めている。 BLIタスクにおけるメソッドの重要な部分の1つは、マッチング手順である。 先行研究はマッチングに強い制約を課し、多くの反直感的な翻訳ペアリングに繋がる。 そこで本研究では,2言語間のより正確なマッチング方法を提案する。 また、ソースとターゲット言語を双方向に埋め込むことで、大幅な改善が期待できる。 我々は実験を行うための前回の反復的枠組みに従う。 提案手法の有効性は,従来の教師なし手法よりもかなり優れていた。

Recently unsupervised Bilingual Lexicon Induction (BLI) without any parallel corpus has attracted much research interest. One of the crucial parts in methods for the BLI task is the matching procedure. Previous works impose a too strong constraint on the matching and lead to many counterintuitive translation pairings. Thus, We propose a relaxed matching procedure to find a more precise matching between two languages. We also find that aligning source and target language embedding space bidirectionally will bring significant improvement. We follow the previous iterative framework to conduct experiments. Results on standard benchmark demonstrate the effectiveness of our proposed method, which substantially outperforms previous unsupervised methods.
翻訳日:2022-10-07 12:25:01 公開日:2020-10-14
# Vokenization: コンテキスト化された視覚的なスーパービジョンによる言語理解の改善

Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision ( http://arxiv.org/abs/2010.06775v1 )

ライセンス: Link先を確認
Hao Tan, Mohit Bansal(参考訳) 人間は、マルチモーダルな現実世界との対話を通じて、聞き、話し、書く、読むなど、言語を学ぶ。 既存の言語事前学習フレームワークでは,テキストのみの自己教師付けの有効性を示しつつ,視覚教師付き言語モデルの考え方を考察する。 この探索を妨げている主な理由は、視覚的に接地された言語データセットと純粋言語コーパスの間の大きなばらつきと分布である。 そこで我々は,言語トークンを関連画像(vokensと呼ぶ)にコンテキストマッピングすることで,言語のみのデータにマルチモーダルアライメントを外挿する "vokenization" という手法を開発した。 vokenizer"は、比較的小さな画像キャプションデータセットでトレーニングされ、それを大言語コーパス用のvokenを生成するために適用します。 これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルは、GLUE、SQuAD、SWAGといった複数の純粋言語タスクにおいて、自己教師付き言語よりも一貫した改善を示す。 コードと事前トレーニング済みモデルはhttps://github.com/airsplay/vokenizationで公開されている。

Humans learn language by listening, speaking, writing, reading, and also, via interaction with the multimodal real world. Existing language pre-training frameworks show the effectiveness of text-only self-supervision while we explore the idea of a visually-supervised language model in this paper. We find that the main reason hindering this exploration is the large divergence in magnitude and distributions between the visually-grounded language datasets and pure-language corpora. Therefore, we develop a technique named "vokenization" that extrapolates multimodal alignments to language-only data by contextually mapping language tokens to their related images (which we call "vokens"). The "vokenizer" is trained on relatively small image captioning datasets and we then apply it to generate vokens for large language corpora. Trained with these contextually generated vokens, our visually-supervised language models show consistent improvements over self-supervised alternatives on multiple pure-language tasks such as GLUE, SQuAD, and SWAG. Code and pre-trained models publicly available at https://github.com/airsplay/vokenization
翻訳日:2022-10-07 12:18:36 公開日:2020-10-14
# 拡張クープマンモデル

Extended Koopman Models ( http://arxiv.org/abs/2010.06845v1 )

ライセンス: Link先を確認
Span Spanbauer, Ian Hunter(参考訳) 非線形動的モデリングのクープマン作用素法の2つの新しい一般化を導入する。 これらの一般化はそれぞれ、非線形非凸系の高速で大域的な最適制御のポテンシャルであるクープマン法の特徴を犠牲にすることなく、予測性能を大幅に改善する。 最初の一般化であるConvex Koopman Modelsは、持ち上げ空間における線型力学よりも凸を用いる。 2番目に拡張されたkoopmanモデルは、昇降凸ダイナミクスに寄与する制御信号の可逆変換も導入している。 これらのモデルのクラスをパラメータ化するためのディープラーニングアーキテクチャについて述べるとともに,非線形非凸力学系の軌道予測において,それぞれが従来のクープマンモデルを大きく上回っていることを実験的に示す。

We introduce two novel generalizations of the Koopman operator method of nonlinear dynamic modeling. Each of these generalizations leads to greatly improved predictive performance without sacrificing a unique trait of Koopman methods: the potential for fast, globally optimal control of nonlinear, nonconvex systems. The first generalization, Convex Koopman Models, uses convex rather than linear dynamics in the lifted space. The second, Extended Koopman Models, additionally introduces an invertible transformation of the control signal which contributes to the lifted convex dynamics. We describe a deep learning architecture for parameterizing these classes of models, and show experimentally that each significantly outperforms traditional Koopman models in trajectory prediction for two nonlinear, nonconvex dynamic systems.
翻訳日:2022-10-07 12:17:57 公開日:2020-10-14
# InstantEmbedding: 効率的なローカルノード表現

InstantEmbedding: Efficient Local Node Representations ( http://arxiv.org/abs/2010.06992v1 )

ライセンス: Link先を確認
\c{S}tefan Post\u{a}varu, Anton Tsitsulin, Filipe Miguel Gon\c{c}alves de Almeida, Yingtao Tian, Silvio Lattanzi, Bryan Perozzi(参考訳) 本稿では,ローカルなPageRank計算を用いて単一ノード表現を効率よく生成するInstantEmbeddingを提案する。 我々は,この手法が線形時間で一貫した表現を生成することを理論的に証明する。 10億のエッジを持つ実世界のデータセットで、広範囲な実験を行い、経験的に実証する。 InstantEmbeddingは、DeepWalk、node2vec、VERSE、FastRPといった従来の方法よりも、単一のノードの埋め込みを生成するのに、計算時間(9000倍以上)とメモリ(8,000倍以上)を劇的に削減する必要があることを確認した。 また,提案手法は,ノード分類やリンク予測などのタスクにおける教師なし表現学習の技術を満たしているか,あるいは超えた結果を示す高品質表現を生成する。

In this paper, we introduce InstantEmbedding, an efficient method for generating single-node representations using local PageRank computations. We theoretically prove that our approach produces globally consistent representations in sublinear time. We demonstrate this empirically by conducting extensive experiments on real-world datasets with over a billion edges. Our experiments confirm that InstantEmbedding requires drastically less computation time (over 9,000 times faster) and less memory (by over 8,000 times) to produce a single node's embedding than traditional methods including DeepWalk, node2vec, VERSE, and FastRP. We also show that our method produces high quality representations, demonstrating results that meet or exceed the state of the art for unsupervised representation learning on tasks like node classification and link prediction.
翻訳日:2022-10-07 12:16:50 公開日:2020-10-14