このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210216となっている論文です。

PDF登録状況(公開日: 20210216)

TitleAuthorsAbstract論文公表日・翻訳日
# ツイスト量子双対による非パウリ位相安定化符号

Non-Pauli topological stabilizer codes from twisted quantum doubles ( http://arxiv.org/abs/2001.11516v4 )

ライセンス: Link先を確認
Julio Carlos Magdalena de la Fuente, Nicolas Tarantino, Jens Eisert(参考訳) 長い距離の絡み合った位相相が、望ましくない局所誤差から量子情報を保護するために利用されることは長年知られている。 実際、固有位相秩序の条件は忠実な量子誤差補正の基準を連想させる。 同時に、実際的な誤り訂正のために一般トポロジカルな順序を用いるという約束は、今日までほとんど満たされていない。 本研究では,Abelian twisted quantum double model が量子誤り訂正に利用できることを示すことによって,そのような接続を確立することに大きく貢献する。 これらの格子モデルの中心に位置する群コホモロジーデータを利用することで、これらのハミルトニアンの項をフルランクでペアワイズな通勤演算子に変換し、通勤安定化子を定義する。 結果の符号は非パウリ可換安定器によって定義され、局所系は量子ビットか高次元量子系のいずれかである。 このように、この研究は凝縮物質物理学と量子情報理論の新たなつながりを確立し、トーリックまたは表面コードモデルを超えた新しい位相量子誤り訂正符号を体系的に考案するツールを構築する。

It has long been known that long-ranged entangled topological phases can be exploited to protect quantum information against unwanted local errors. Indeed, conditions for intrinsic topological order are reminiscent of criteria for faithful quantum error correction. At the same time, the promise of using general topological orders for practical error correction remains largely unfulfilled to date. In this work, we significantly contribute to establishing such a connection by showing that Abelian twisted quantum double models can be used for quantum error correction. By exploiting the group cohomological data sitting at the heart of these lattice models, we transmute the terms of these Hamiltonians into full-rank, pairwise commuting operators, defining commuting stabilizers. The resulting codes are defined by non-Pauli commuting stabilizers, with local systems that can either be qubits or higher dimensional quantum systems. Thus, this work establishes a new connection between condensed matter physics and quantum information theory, and constructs tools to systematically devise new topological quantum error correcting codes beyond toric or surface code models.
翻訳日:2023-06-05 04:34:32 公開日:2021-02-16
# フラックス量子ビットにおけるアニールパス補正

Anneal-path correction in flux qubits ( http://arxiv.org/abs/2002.11217v2 )

ライセンス: Link先を確認
Mostafa Khezri, Jeffrey A. Grover, James I. Basham, Steven M. Disseler, Huo Chen, Sergey Novikov, Kenneth M. Zick, Daniel A. Lidar(参考訳) 量子アニーラは、古典的アルゴリズムよりも計算上の優位性を示すために、ノイズレベルを低減するために正確な制御と最適化された操作スキームを必要とする。 分散測定を用いて高コヒーレンス4接合容量磁束量子ビット(CSFQ)を解析し,システムパラメータを抽出し,デバイスをモデル化する。 デバイス固有のジョセフソン接合非対称性は、キュービットを焼成する際に非線形なクロストークを引き起こす。 我々は非対称性をその場で補正するために非線形アニーリング経路を実装し、適用された磁束バイアスにより量子ビットが正しい状態にある確率を相当に増加させる。 また,CSFQ回路モデルのマルチレベル構造を,小さなスペクトルギャップを通して熱処理し,エネルギー準位交差の量子シグネチャを観察することで確認する。 提案手法は,高コヒーレンス・高制御量子アニーラの制御精度を向上させるために設計・実装されたアニーアルパス補正方式であり,アニーリングプロトコルにおける成功確率の向上に繋がる。

Quantum annealers require accurate control and optimized operation schemes to reduce noise levels, in order to eventually demonstrate a computational advantage over classical algorithms. We study a high coherence four-junction capacitively shunted flux qubit (CSFQ), using dispersive measurements to extract system parameters and model the device. Josephson junction asymmetry inherent to the device causes a deleterious nonlinear cross-talk when annealing the qubit. We implement a nonlinear annealing path to correct the asymmetry in-situ, resulting in a substantial increase in the probability of the qubit being in the correct state given an applied flux bias. We also confirm the multi-level structure of our CSFQ circuit model by annealing it through small spectral gaps and observing quantum signatures of energy level crossings. Our results demonstrate an anneal-path correction scheme designed and implemented to improve control accuracy for high-coherence and high-control quantum annealers, which leads to an enhancement of success probability in annealing protocols.
翻訳日:2023-06-01 23:47:04 公開日:2021-02-16
# 量子ビット空間の量子シミュレーション

Quantum simulations of a qubit of space ( http://arxiv.org/abs/2003.13124v2 )

ライセンス: Link先を確認
Grzegorz Czelusta, Jakub Mielczarek(参考訳) ループ量子重力法によるプランクスケール物理学では、量子幾何はスピンネットワーク状態の重ね合わせによって表される。 近年の研究では、量子重力系の量子シミュレーションの観点から約束されるスピンネットワークのクラスが研究されている。 この場合、スピンネットワーク状態は4価のノードを持つグラフで表現され、2次元のインタートウィナーヒルベルト空間(空間の量子ビット)がそれらに取り付けられている。 本稿では、一般のインターツツイナー量子ビットに対する量子回路の構成について述べる。 得られた回路は 5-qubit (Yorktown) と 15-qubit (Melbourne) IBM の超伝導量子コンピュータ上でシミュレートされ、良好な忠実さを与える。 この回路は将来、複雑なスピンネットワークの量子シミュレーションのためのビルディングブロックを提供する。 さらに、スピンネットワークの最大絡み合い状態のクラスを導入する。 応用例として、超伝導量子プロセッサを用いたモノポールと双極子スピンネットワークの遷移振幅を決定する試みがある。

In loop quantum gravity approach to Planck scale physics, quantum geometry is represented by superposition of the so-called spin network states. In the recent literature, a class of spin networks promising from the perspective of quantum simulations of quantum gravitational systems has been studied. In this case, the spin network states are represented by graphs with four-valent nodes, and two dimensional intertwiner Hilbert spaces (qubits of space) attached to them. In this article, construction of quantum circuits for a general intertwiner qubit is presented. The obtained circuits are simulated on 5-qubit (Yorktown) and 15-qubit (Melbourne) IBM superconducting quantum computers, giving satisfactory fidelities. The circuits provide building blocks for quantum simulations of complex spin networks in the future. Furthermore, a class of maximally entangled states of spin networks is introduced. As an example of application, attempts to determine transition amplitudes for a monopole and a dipole spin networks with the use of superconducting quantum processor are made.
翻訳日:2023-05-27 14:20:31 公開日:2021-02-16
# 最適周波数推定と量子ドットへの応用

Optimal frequency estimation and its application to quantum dots ( http://arxiv.org/abs/2004.12049v2 )

ライセンス: Link先を確認
Angel Gutierrez-Rubio, Peter Stano, Daniel Loss(参考訳) 2レベルシステムにおける周波数推定のための相互作用時間最適化に対処する。 目標は、確率的摂動の最大精度で推定することである。 我々のアプローチは、最適性を定義するのに使用されるどんな効果も有効であり、分散とエントロピーについて示される。 エントロピーについては,最大線量推定との関係を明らかにする。 我々はフィードバックなしで新しい推定プロトコルを考案する。 彼らは文学で与えられた共通のプロトコルを上回ります。 フィードバックのない最適推定法として確率的自己整合プロトコルを設計する。 現在の実験技術を改善し、量子コンピューティングにおけるコヒーレンス時間を短縮することができる。

We address the interaction-time optimization for frequency estimation in a two-level system. The goal is to estimate with maximum precision a stochastic perturbation. Our approach is valid for any figure of merit used to define optimality, and is illustrated for the variance and entropy. For the entropy, we clarify the connection to maximum-likelihood estimation. We devise novel estimation protocols with and without feedback. They outperform common protocols given in the literature. We design a probabilistic self-consistent protocol as an optimal estimation without feedback. It can improve current experimental techniques and boost coherence times in quantum computing.
翻訳日:2023-05-22 04:08:34 公開日:2021-02-16
# フィードバック機構による重力相互作用

Gravitational interaction through a feedback mechanism ( http://arxiv.org/abs/2007.11980v3 )

ライセンス: Link先を確認
Jos\'e Luis Gaona-Reyes, Matteo Carlesso, Angelo Bassi(参考訳) カフリ、テイラー、ミルバーン(KTM)、ティロイ、ディオシ(TD)のモデルについて検討し、どちらも連続的な測定とフィードバック機構を通じて量子システム間の重力を実装する。 最初のモデルは、ニュートンポテンシャルが線型化される1次元で動く2つの粒子である。 2つ目はニュートン重力の文脈において、任意の量子系に適用できる。 任意の有限個の粒子に対してKTMモデルを一般化する方法の問題に対処する。 最も単純な一般化は一貫性がないか、実験的な証拠によって除外されている。 また、後者のモデルを定義する近似の下で、TDモデルはKTMモデルに還元されないことを示す。 そして、最も単純な条件下では、TDモデルは連続的な測定とフィードバック機構を通じてニュートン相互作用の唯一実行可能な実装であると主張する。

We study the models of Kafri, Taylor and Milburn (KTM) and Tilloy and Di\'osi (TD), both of which implement gravity between quantum systems through a continuous measurement and feedback mechanism. The first model is for two particles, moving in one dimension, where the Newtonian potential is linearized. The second is applicable to any quantum system, within the context of Newtonian gravity. We address the issue of how to generalize the KTM model for an arbitrary finite number of particles. We find that the most straightforward generalisations are either inconsistent or are ruled out by experimental evidence. We also show that the TD model does not reduce to the KTM model under the approximations which define the latter model. We then argue that under the simplest conditions, the TD model is the only viable implementation of a full-Newtonian interaction through a continuous measurement and feedback mechanism.
翻訳日:2023-05-08 10:59:21 公開日:2021-02-16
# 量子力学における純粋状態限界問題の完全階層

A complete hierarchy for the pure state marginal problem in quantum mechanics ( http://arxiv.org/abs/2008.02124v2 )

ライセンス: Link先を確認
Xiao-Dong Yu, Timo Simnacher, Nikolai Wyderka, H. Chau Nguyen, Otfried G\"uhne(参考訳) 全体と部分の関係を明らかにすることは、科学における多くの問題に不可欠である。 量子力学において、この問題は、与えられた辺数に対して大域的な純粋な量子状態が存在するかどうかを問う量子辺数問題(quantum marginal problem)に現れている。 この問題は、量子化学から絡み合い理論、量子誤り訂正符号まで、多くの文脈で発生する。 本稿では,分離可能性問題に対する限界問題の対応を実証する。 これに基づいて、与えられた限界値が純粋な大域量子状態と互換性があるかどうかを決定できる半定値プログラムの列を記述する。 応用として、与えられた次元に対して極大に絡み合った多粒子の存在は、明示的に与えられた2次元量子状態の分離可能性と同値であることを示す。 最後に、与えられたパラメータを持つ量子符号の存在も限界問題として解釈できることを示し、したがって、我々の完全な階層も利用することができる。

Clarifying the relation between the whole and its parts is crucial for many problems in science. In quantum mechanics, this question manifests itself in the quantum marginal problem, which asks whether there is a global pure quantum state for some given marginals. This problem arises in many contexts, ranging from quantum chemistry to entanglement theory and quantum error correcting codes. In this paper, we prove a correspondence of the marginal problem to the separability problem. Based on this, we describe a sequence of semidefinite programs which can decide whether some given marginals are compatible with some pure global quantum state. As an application, we prove that the existence of multiparticle absolutely maximally entangled states for a given dimension is equivalent to the separability of an explicitly given two-party quantum state. Finally, we show that the existence of quantum codes with given parameters can also be interpreted as a marginal problem, hence, our complete hierarchy can also be used.
翻訳日:2023-05-07 02:24:26 公開日:2021-02-16
# 磁壁付き弦網における行列積作用素対称性とインターツイナー

Matrix product operator symmetries and intertwiners in string-nets with domain walls ( http://arxiv.org/abs/2008.11187v3 )

ライセンス: Link先を確認
Laurens Lootens, J\"urgen Fuchs, Jutho Haegeman, Christoph Schweigert, Frank Verstraete(参考訳) 文字列-ネットモデルの射影絡み合ったペア状態(PEPS)表現における仮想非局所行列積演算子(MPO)対称性について述べる。 そのようなPEPS表現から、MPO対称性の整合条件は、双加群圏の五角形方程式と同一視できる6つの結合方程式の集合に等しいことを示す。 これにより、すべての等価PEPS表現を分類し、それらの間にMPOインタートウィンダーを構築し、位相位相の様々なテンソルネットワーク表現を合成し、一般化することができる。 さらに、この一般化を用いて、キタエフとコングによって構築された異なる位相相間のドメインウォールの明示的なペップ実現(commun. math. phys. 313 (2012) 351-373]。 一般的な抽象分類法は位相相の構造を記述するのに十分であるが、境界を持つ文字列ネットに基づく量子誤り訂正符号のしきい値を計算するのに必要な、コンピュータ上でこれらのシステムをシミュレートするには明示的なテンソルネットワーク表現が必要である。 最後に、これらの文字列ネットPEPS表現は、物理的境界を持つ3次元多様体上のトポロジカル場理論のトゥラエフ・ヴェロ状態サムモデルの具体例として理解でき、数学的に厳密な足場にこれらのテンソルネットワーク構造を置く。

We provide a description of virtual non-local matrix product operator (MPO) symmetries in projected entangled pair state (PEPS) representations of string-net models. Given such a PEPS representation, we show that the consistency conditions of its MPO symmetries amount to a set of six coupled equations that can be identified with the pentagon equations of a bimodule category. This allows us to classify all equivalent PEPS representations and build MPO intertwiners between them, synthesising and generalising the wide variety of tensor network representations of topological phases. Furthermore, we use this generalisation to build explicit PEPS realisations of domain walls between different topological phases as constructed by Kitaev and Kong [Commun. Math. Phys. 313 (2012) 351-373]. While the prevailing abstract categorical approach is sufficient to describe the structure of topological phases, explicit tensor network representations are required to simulate these systems on a computer, such as needed for calculating thresholds of quantum error-correcting codes based on string-nets with boundaries. Finally, we show that all these string-net PEPS representations can be understood as specific instances of Turaev-Viro state-sum models of topological field theory on three-manifolds with a physical boundary, thereby putting these tensor network constructions on a mathematically rigorous footing.
翻訳日:2023-05-04 23:42:16 公開日:2021-02-16
# 量子ウォークにおける無秩序局在

Disorder-free localization in quantum walks ( http://arxiv.org/abs/2009.04571v2 )

ライセンス: Link先を確認
B. Danac{\i}, \.I. Yal\c{c}{\i}nkaya, B. \c{C}akmak, G. Karpat, S. P. Kelly and A. L. Suba\c{s}{\i}(参考訳) 局在化現象は、通常、媒体における障害の存在によって起こる。 それでも、ある量子系は内部相互作用の性質によってのみ動的局所化を許す。 乱れのない局在を示す離散時間量子ウォーカーについて検討する。 量子ウォーカーは1次元の格子の上を移動し、各ステップで所定の軸の周りをコヒーレントに回転させてオンサイトスピンと相互作用する。 スピンは自身のダイナミクスを持っていないため、系は回転軸に沿った局所的なスピン成分を多くの保存モーメントとして表す。 相互作用が弱い場合、ウォーカーの拡散は、中間時間スケールでの進化確率分布において、下位スケールの弾道尾を持つ部分拡散挙動を示す。 しかし、相互作用が強くなるにつれて、ウォーカーは格子状態と初期状態の両方における障害の完全な欠如によって指数関数的に局所化される。 行列生成状態アンサッツを用いて、量子ウォーカーとのカップリングによるオンサイトスピンの緩和と絡み合いダイナミクスについて検討する。 驚くべきことに、非局在化状態においても、局所化遷移を示す他のモデルのマージョリティとは異なり、絡み合った成長と緩和がゆっくりと起こる。

The phenomenon of localization usually happens due to the existence of disorder in a medium. Nevertheless, certain quantum systems allow dynamical localization solely due to the nature of internal interactions. We study a discrete time quantum walker which exhibits disorder free localization. The quantum walker moves on a one-dimensional lattice and interacts with on-site spins by coherently rotating them around a given axis at each step. Since the spins do not have dynamics of their own, the system poses the local spin components along the rotation axis as an extensive number of conserved moments. When the interaction is weak, the spread of the walker shows subdiffusive behaviour having downscaled ballistic tails in the evolving probability distribution at intermediate time scales. However, as the interaction gets stronger the walker gets exponentially localized in the complete absence of disorder in both lattice and initial state. Using a matrix-product-state ansatz, we investigate the relaxation and entanglement dynamics of the on-site spins due to their coupling with the quantum walker. Surprisingly, we find that even in the delocalized regime, entanglement growth and relaxation occur slowly unlike marjority of the other models displaying a localization transition.
翻訳日:2023-05-03 02:44:17 公開日:2021-02-16
# 微小移動下における3次元イオン結晶中の高忠実密閉ゲート

High Fidelity Entangling Gates in a 3D Ion Crystal under Micromotion ( http://arxiv.org/abs/2009.13007v2 )

ライセンス: Link先を確認
Y.-K. Wu, Z.-D. Liu, W.-D. Zhao and L.-M. Duan(参考訳) イオントラップは量子コンピューティングの最も有望な候補の1つである。 現在のスキームは主にポールトラップ内の約100イオンの線形鎖に焦点を当てている。 量子ビット数をさらに拡大するには、2dまたは3dイオン結晶(ウィグナー結晶)を使用することが考えられる。 これらの系では、イオンは一般的に強い高速振動電場によって大きな微小運動を受けるが、これは絡み合うゲートの性能に大きく影響する。 本研究では,高忠実度エンタングリングゲートを一般の3次元イオン結晶で設計する効率的な数値計算法を開発した。 イオンとそれらの集合正規モードの平衡配置を解くための数値アルゴリズムを提案する。 次に、マイクロモーションの数学的記述を行い、線形イオン鎖のゲートスキームを一般的な3次元結晶に一般化する。 高振動関数の時間積分は、正確かつ効率的な評価と最適化のために高速収束系列に拡張される。 数値的な例では、100イオン結晶中の2つのイオン間の高忠実なゲート設計を示し、理論的忠実度は99.9\%である。

Ion trap is one of the most promising candidates for quantum computing. Current schemes mainly focus on a linear chain of up to about one hundred ions in a Paul trap. To further scale up the qubit number, one possible direction is to use 2D or 3D ion crystals (Wigner crystals). In these systems, ions are generally subjected to large micromotion due to the strong fast-oscillating electric field, which can significantly influence the performance of entangling gates. In this work, we develop an efficient numerical method to design high-fidelity entangling gates in a general 3D ion crystal. We present numerical algorithms to solve the equilibrium configuration of the ions and their collective normal modes. We then give a mathematical description of the micromotion and use it to generalize the gate scheme for linear ion chains into a general 3D crystal. The involved time integral of highly oscillatory functions is expanded into a fast-converging series for accurate and efficient evaluation and optimization. As a numerical example, we show a high-fidelity entangling gate design between two ions in a 100-ion crystal, with a theoretical fidelity of 99.9\%.
翻訳日:2023-04-30 18:53:51 公開日:2021-02-16
# ノウノレッジ計測による時間遅延量子フィードバックと不完全デコヒーレンス抑制

Time-delayed quantum feedback and incomplete decoherence suppression with no-knowledge measurement ( http://arxiv.org/abs/2010.06904v2 )

ライセンス: Link先を確認
Jirawat Saiphet, Sujin Suwanna, Andr\'e R. R. Carvalho, Areeya Chantasri(参考訳) no-knowledge 量子フィードバックは Szigeti et al., Phys によって提案された。 Rev. Lett. 113, 020407 (2014) オープン量子システムにおける非一貫性抑制のための計測に基づくフィードバックプロトコル。 環境騒音を継続的に測定し、システムの制御をフィードバックすることにより、このプロトコルは測定のバックアクションを完全に逆転させ、システムのデコヒーレンスを抑制することができる。 しかし、完全なデコヒーレンスキャンセルは、実際の実験では実用的でない即時フィードバックに対してのみ示された。 そこで本研究では,非マルコフ平均力学を解析することにより,デコヒーレンス抑制が避けられない遅延時間でどのように劣化するかを検証した。 平均力学に対する解析式を提示し, コヒーレント駆動2レベルシステムに対する遅延フィードバックの効果を数値解析し, ハーミタン結合演算子を介してボゾン浴に結合する。 また、キュービットのユニタリダイナミクスが測定とフィードバック制御で可換でない場合、遅延時間に応じてデコヒーレンス率を抑制または増幅することができる。

The no-knowledge quantum feedback was proposed by Szigeti et al., Phys. Rev. Lett. 113, 020407 (2014), as a measurement-based feedback protocol for decoherence suppression for an open quantum system. By continuously measuring environmental noises and feeding back controls on the system, the protocol can completely reverse the measurement backaction and therefore suppress the system's decoherence. However, the complete decoherence cancellation was shown only for the instantaneous feedback, which is impractical in real experiments. Therefore, in this work, we generalize the original work and investigate how the decoherence suppression can be degraded with unavoidable delay times, by analyzing non-Markovian average dynamics. We present analytical expressions for the average dynamics and numerically analyze the effects of the delayed feedback for a coherently driven two-level system, coupled to a bosonic bath via a Hermitian coupling operator. We also find that, when the qubit's unitary dynamics does not commute with the measurement and feedback controls, the decoherence rate can be either suppressed or amplified, depending on the delay time.
翻訳日:2023-04-29 02:55:54 公開日:2021-02-16
# 量子教師付き学習のための統一フレームワーク

A Unified Framework for Quantum Supervised Learning ( http://arxiv.org/abs/2010.13186v2 )

ライセンス: Link先を確認
Nhat A. Nghiem, Samuel Yen-Chi Chen, Tzu-Chieh Wei(参考訳) 量子機械学習は、機械学習と量子技術の進歩を組み合わせた新興分野である。 多くの研究が、教師あり学習に短期量子ハードウェアを使用する可能性を示している。 本稿では,学習可能な量子回路を用いた教師付き学習のための組込み型フレームワークを提案する。 我々は明示的アプローチと暗黙的アプローチの両方を導入する。 これらのアプローチの目的は、異なるクラスから量子特徴写像を介してヒルベルト空間内の分離された場所へデータをマッピングすることである。 暗黙的アプローチは、最近導入された戦略、いわゆる \textit{quantum metric learning}の一般化であることを示す。 特に暗黙的なアプローチでは、教師付き学習問題における分離されたクラス(またはそれらのラベル)の数は、現在の量子機械学習モデルの容量を超える与えられたキュービットの数に対して任意に高い。 明示的な手法と比較すると、この暗黙のアプローチは、小さなトレーニングサイズよりもいくつかの利点を示す。 さらに、明示的なアプローチと他の量子教師あり学習モデルとの本質的な関係を確立する。 暗黙的アプローチと組み合わせることで、この接続は量子教師付き学習のための統一フレームワークを提供する。 本手法は雑音のない,ノイズの多い数値シミュレーションによって実演する。 さらに、いくつかのIBM Qデバイスを用いて暗黙的および明示的なアプローチで分類試験を行った。

Quantum machine learning is an emerging field that combines machine learning with advances in quantum technologies. Many works have suggested great possibilities of using near-term quantum hardware in supervised learning. Motivated by these developments, we present an embedding-based framework for supervised learning with trainable quantum circuits. We introduce both explicit and implicit approaches. The aim of these approaches is to map data from different classes to separated locations in the Hilbert space via the quantum feature map. We will show that the implicit approach is a generalization of a recently introduced strategy, so-called \textit{quantum metric learning}. In particular, with the implicit approach, the number of separated classes (or their labels) in supervised learning problems can be arbitrarily high with respect to the number of given qubits, which surpasses the capacity of some current quantum machine learning models. Compared to the explicit method, this implicit approach exhibits certain advantages over small training sizes. Furthermore, we establish an intrinsic connection between the explicit approach and other quantum supervised learning models. Combined with the implicit approach, this connection provides a unified framework for quantum supervised learning. The utility of our framework is demonstrated by performing both noise-free and noisy numerical simulations. Moreover, we have conducted classification testing with both implicit and explicit approaches using several IBM Q devices.
翻訳日:2023-04-27 18:52:59 公開日:2021-02-16
# 光損失から量子限界にアプローチするための広帯域信号リサイクル方式

A Broadband Signal Recycling Scheme for Approaching the Quantum Limit from Optical Losses ( http://arxiv.org/abs/2011.04793v3 )

ライセンス: Link先を確認
Teng Zhang, Joe Bentley, Haixing Miao(参考訳) 量子ノイズはレーザー干渉計測重力波検出器の感度を制限する。 最先端の光学系を考えると、光学損失は最良の量子制限検出器感度の下限を定義する。 そこで本研究では, アクティブ光機械フィルタを用いた広帯域信号増幅器に信号再生キャビティを変換することにより, この低域に接近する潜在的な解決策を与える広帯域信号再生方式を提案する。 我々は,[Phys.Rev.Lett.115.211104 (2015)]におけるオプティメカルフィルタを用いた従来の白色光空洞方式と比較して,このような方式の違いと利点を示す。 欠点は、新しい方式が機械振動子の熱雑音の影響を受けやすいことである。

Quantum noise limits the sensitivity of laser interferometric gravitational-wave detectors. Given the state-of-the-art optics, the optical losses define the lower bound of the best possible quantum-limited detector sensitivity. In this work, we come up with a broadband signal recycling scheme which gives potential solution to approaching this lower bound by converting the signal recycling cavity to be a broadband signal amplifier using an active optomechanical filter. We will show the difference and advantage of such a scheme compared with the previous white light cavity scheme using the optomechanical filter in [Phys.Rev.Lett.115.211104 (2015)]. The drawback is that the new scheme is more susceptible to the thermal noise of the mechanical oscillator.
翻訳日:2023-04-24 21:10:03 公開日:2021-02-16
# 動的偏光への近道

Shortcuts to Dynamic Polarization ( http://arxiv.org/abs/2011.05349v2 )

ライセンス: Link先を確認
Tamiro Villazon, Pieter W. Claeys, Anatoli Polkovnikov, Anushya Chandran(参考訳) 動的偏光プロトコルは、量子ドットや色欠陥などのよく制御された量子ビットからスピン偏光を伝達することでスピン浴を過分極することを目的としている。 ショートカットから断熱までの技術に基づいて、双極子相互作用系に適用する中心スピンモデルにおける高速で効率的な動的偏光プロトコルを設計する。 このプロトコルは、近傍の可積分点における明るい状態を介しての偏光移動を最大化し、可積分破壊項を利用して偏光を転送しない暗い状態の統計量を減らし、フロケット工学を通じて実験的にアクセス可能な局所対断駆動を実現する。 マスター方程式の処理は、プロトコルの持続時間がバススピンの数と線形にスケールし、非アシストプロトコルよりも桁違いに小さいプリファクタを持つことを示唆する。 この研究はスピンバスを冷却する新しい経路を開き、量子情報処理やメトロロジーへの応用のために量子ビットコヒーレンス時間を延長する。

Dynamic polarization protocols aim to hyperpolarize a spin bath by transferring spin polarization from a well-controlled qubit such as a quantum dot or a color defect. Building on techniques from shortcuts to adiabaticity, we design fast and efficient dynamic polarization protocols in central spin models that apply to dipolarly interacting systems. The protocols maximize the transfer of polarization via bright states at a nearby integrable point, exploit the integrability-breaking terms to reduce the statistical weight on dark states that do not transfer polarization, and realize experimentally accessible local counterdiabatic driving through Floquet-engineering. A master equation treatment suggests that the protocol duration scales linearly with the number of bath spins with a prefactor that can be orders of magnitude smaller than that of unassisted protocols. This work opens new pathways to cool spin baths and extend qubit coherence times for applications in quantum information processing and metrology.
翻訳日:2023-04-24 18:56:41 公開日:2021-02-16
# 凝縮物量子シミュレータとしてのmoir\'eヘテロ構造

Moir\'e heterostructures as a condensed matter quantum simulator ( http://arxiv.org/abs/2011.12638v2 )

ライセンス: Link先を確認
Dante M. Kennes, Martin Claassen, Lede Xian, Antoine Georges, Andrew J. Millis, James Hone, Cory R. Dean, D. N. Basov, Abhay Pasupathy, Angel Rubio(参考訳) ツイストド・ファン・デル・ワールスのヘテロ構造は、その多くの顕著な実験的性質と、実験室における物質の不可解な状態を実現するために保持される約束によって、後から注目されている。 本論文では,これらの系を強相関物理学と量子材料のトポロジーの研究を可能にする強固な量子シミュレーションプラットフォームとして利用できることを示唆する。 これらの材料を汎用的なツールボックスにする特徴には、ゲーティング、ストレッチ、パッキング、ツイスト角といった容易にアクセスできる外部パラメータによるそれらの特性のチューニング性、凝縮物質物理学の分野における多くの基本的な多体量子モデルの実現と制御の可能性、そして最後に、それらの豊富な位相図を直接平衡の内外へマッピングする実験的な可読性プロトコルが利用可能である。 この一般的な枠組みにより、モジュラー方式で新しい物質相を堅牢に実現し、機能化することが可能となり、アクセス可能な物理学の展望を広げ、将来の技術応用への期待を持てる。

Twisted van der Waals heterostructures have latterly received prominent attention for their many remarkable experimental properties, and the promise that they hold for realising elusive states of matter in the laboratory. We propose that these systems can, in fact, be used as a robust quantum simulation platform that enables the study of strongly correlated physics and topology in quantum materials. Among the features that make these materials a versatile toolbox are the tunability of their properties through readily accessible external parameters such as gating, straining, packing and twist angle; the feasibility to realize and control a large number of fundamental many-body quantum models relevant in the field of condensed-matter physics; and finally, the availability of experimental readout protocols that directly map their rich phase diagrams in and out of equilibrium. This general framework makes it possible to robustly realize and functionalize new phases of matter in a modular fashion, thus broadening the landscape of accessible physics and holding promise for future technological applications.
翻訳日:2023-04-23 01:08:36 公開日:2021-02-16
# スペクトル巻線トポロジーからの量子古典応答

Quantized classical response from spectral winding topology ( http://arxiv.org/abs/2012.08799v2 )

ライセンス: Link先を確認
Linhu Li, Sen Mu, Ching Hua Lee, Jiangbin Gong(参考訳) トポロジカルに量子化された反応は、現代凝縮物質物理学の焦点の1つである。 量子系では直接量子化応答係数をもたらすが、古典系ではこれまでに量子化応答の概念は存在しない。 これは量子化応答が常に量子力学的基底状態を仮定する線形応答理論を介してトポロジーに接続されているためである。 しかし、古典的なシステムでは、位相的な巻線と同じ数の測定可能なエッジモードを持ちながら、各モードに任意の量のエネルギーを運べる。 本研究では、運動量空間における固有状態の巻線ではなく、複素スペクトル平面のスペクトル巻線数に基づく量子化された古典応答の全く新しいパラダイムを発見する。 このような量子化応答は、現象論的非エルミート的設定に適用されるように古典的であり、グリーン関数の基本的な数学的性質から生じ、従来の線形応答理論を呼び出すことなく定常応答で現れる。 具体的には、信号増幅を表す1つの量の変化と1つの虚数フラックスのようなパラメータの変化との比を、スペクトル巻数によって与えられる量子化値を位相不変量として、魅力的なプラトーを表示する。

Topologically quantized response is one of the focal points of contemporary condensed matter physics. While it directly results in quantized response coefficients in quantum systems, there has been no notion of quantized response in classical systems thus far. This is because quantized response has always been connected to topology via linear response theory that assumes a quantum mechanical ground state. Yet, classical systems can carry arbitrarily amounts of energy in each mode, even while possessing the same number of measurable edge modes as their topological winding. In this work, we discover the totally new paradigm of quantized classical response, which is based on the spectral winding number in the complex spectral plane, rather than the winding of eigenstates in momentum space. Such quantized response is classical insofar as it applies to phenomenological non-Hermitian setting, arises from fundamental mathematical properties of the Green's function, and shows up in steady-state response, without invoking a conventional linear response theory. Specifically, the ratio of the change in one quantity depicting signal amplification to the variation in one imaginary flux-like parameter is found to display fascinating plateaus, with their quantized values given by the spectral winding numbers as the topological invariants.
翻訳日:2023-04-20 11:20:46 公開日:2021-02-16
# 中学校における量子物理学 -- milq

Quantum physics in secondary school -- milq ( http://arxiv.org/abs/2012.15162v2 )

ライセンス: Link先を確認
Rainer M\"uller, Oxana Mishina(参考訳) 高校の量子物理学に対するミルクのアプローチは、量子物理学の概念的問題に焦点を当てている。 学生は近代物理学の世界観に参加する機会を与えられるべきである。 目的は、最小の式で量子物理学の概念的に明確な定式化を実現することである。 議論や議論で使用可能な言語ツールを学生に提供するために,我々は4つの「推論ツール」を定式化した。 これらは量子物理学の質的議論を促進し、学生が量子力学的効果を予測できるようにし、学習の困難を避けるのに役立つ。 それらは量子物理学の "beginners' axiomatic system" を形成する。

The milq approach to quantum physics for high schools focuses on the conceptual questions of quantum physics. Students should be given the opportunity to engage with the world view of modern physics. The aim is to achieve a conceptually clear formulation of quantum physics with a minimum of formulas. In order to provide students with verbal tools they can use in discussions and argumentations we formulated four "reasoning tools". They help to facilitate qualitative discussions of quantum physics, allow students to predict quantum mechanical effects, and help to avoid learning difficulties. They form a "beginners' axiomatic system" for quantum physics.
翻訳日:2023-04-18 07:56:50 公開日:2021-02-16
# ノイズ測定による4レベルシステムの量子状態トモグラフィ

Quantum State Tomography of Four-Level Systems with Noisy Measurements ( http://arxiv.org/abs/2101.00016v2 )

ライセンス: Link先を確認
Artur Czerwinski(参考訳) 本稿では,4レベル量子系の状態再構成問題について考察する。 ランダムなユニタリ演算子によって歪んだ測定結果を用いて現実的なシナリオを考える。 インジェクティブ測定を定義する2つのフレームを適用し比較する。 任意の回転を導入することで、フレームワークの性能と実験ノイズの量をテストすることができる。 数値シミュレーションの結果はグラフ上に描かれ、議論されている。 特に、絡み合った状態のクラスが再構築される。 コンカレンス(concurrence)は、ノイズ測定による絡み合いの保存方法の定量化のために、メリットの指標として用いられる。

In this article, we investigate the problem of state reconstruction of four-level quantum systems. A realistic scenario is considered with measurement results distorted by random unitary operators. Two frames which define injective measurements are applied and compared. By introducing arbitrary rotations, we can test the performance of the framework versus the amount of experimental noise. The results of numerical simulations are depicted on graphs and discussed. In particular, a class of entangled states is reconstructed. The concurrence is used as a figure of merit in order to quantify how well entanglement is preserved through noisy measurements.
翻訳日:2023-04-18 05:30:58 公開日:2021-02-16
# 変分、虚時発展、クリロフ空間解法を用いた量子化学計算のベンチマーク

Benchmarking Quantum Chemistry Computations with Variational, Imaginary Time Evolution, and Krylov Space Solver Algorithms ( http://arxiv.org/abs/2102.05511v2 )

ライセンス: Link先を確認
K\"ubra Yeter-Aydeniz, Bryan T. Gard, Jacek Jakowski, Swarnadeep Majumder, George S. Barron, George Siopsis, Travis Humble, and Raphael C. Pooser(参考訳) ノイズの多い中間スケール量子(NISQ)コンピューティングの急速な進歩は、新しいデバイスやアプリケーションのテストと評価の必要性を浮き彫りにしている。 量子化学はこれらのデバイスにとって重要な応用分野であり、現在の量子コンピュータ性能と将来の量子コンピュータ性能の重要なベンチマークとなる。 この分野での以前のベンチマークでは、様々な分子の基底状態や励起状態を計算するための変分法に焦点が当てられていた。 ここでは,IBM の NISQ デバイス上でのアルカリ水素化物分子のハイブリッド量子古典電子構造計算における化学精度に到達する技術の現状について概説する。 我々は、新しい対称性を保ったAns\atzeで変分固有解法のリーチを拡張する方法を示す。 次に,量子イマジナリー時間発展とランチョスを変分法の補完的手法として用いる方法について概説し,それぞれのアプローチの利点を強調する。 最後に,隠れ逆ゲート構成による系統的誤りキャンセリングを用いて,典型的な変分アルゴリズムの性能を向上させる新しい誤り緩和法を示す。 これらの結果から,電子構造計算は数年前の量子コンピュータの始まりから,単純な分子の化学的精度を日常的に向上させており,nisqデバイスのパワーが増大するにつれて,より大きな分子へのさらなる進歩を示唆している。

The rapid progress of noisy intermediate-scale quantum (NISQ) computing underscores the need to test and evaluate new devices and applications. Quantum chemistry is a key application area for these devices, and therefore serves as an important benchmark for current and future quantum computer performance. Previous benchmarks in this field have focused on variational methods for computing ground and excited states of various molecules, including a benchmarking suite focused on performance of computing ground states for alkali-hydrides under an array of error mitigation methods. Here, we outline state of the art methods to reach chemical accuracy in hybrid quantum-classical electronic structure calculations of alkali hydride molecules on NISQ devices from IBM. We demonstrate how to extend the reach of variational eigensolvers with new symmetry preserving Ans\"atze. Next, we outline how to use quantum imaginary time evolution and Lanczos as a complementary method to variational techniques, highlighting the advantages of each approach. Finally, we demonstrate a new error mitigation method which uses systematic error cancellation via hidden inverse gate constructions, improving the performance of typical variational algorithms. These results show that electronic structure calculations have advanced rapidly, to routine chemical accuracy for simple molecules, from their inception on quantum computers a few short years ago, and they point to further rapid progress to larger molecules as the power of NISQ devices grows.
翻訳日:2023-04-12 00:50:00 公開日:2021-02-16
# コヒーレント集団トラップ条件近傍における共鳴蛍光の位相依存性変動

Phase-dependent fluctuations of resonance fluorescence near the coherent population trapping condition ( http://arxiv.org/abs/2102.07908v1 )

ライセンス: Link先を確認
Octavio de los Santos-S\'anchez and Hector M. Castro-Beltran(参考訳) 本研究では,コヒーレント人口トラッピング近傍における1つの$\lambda$型3レベル原子の共振蛍光の位相依存的変動,すなわち2光子デチューニング条件について検討する。 そこで本研究では,弱駆動系におけるスクイーズを考慮した条件付きホモダイン検出法(chd)を採用し,飽和・強磁場に対する非ゲージ揺らぎに拡張する。 この枠組みでは, 単一捕捉された$^{138} \mathrm{Ba}^{+}$イオンの共鳴蛍光の推定パラメータ設定を用いて, プローブ遷移から散乱した光は, CHDの振幅-強度相関において非古典的特性と顕著な非対称な3次揺らぎを示す。

We study phase-dependent fluctuations of the resonance fluorescence of a single $\Lambda$-type three-level atom in the regime near coherent population trapping, i.e., alongside the two-photon detuning condition. To this end, we employ the method of conditional homodyne detection (CHD) which considers squeezing in the weak driving regime, and extends to non-Gaussian fluctuations for saturating and strong fields. In this framework, and using estimated parameter settings of the resonance fluorescence of a single trapped $^{138} \mathrm{Ba}^{+}$ ion, the light scattered from the probe transitions is found to manifest a non-classical character and conspicuous asymmetric third-order fluctuations in the amplitude-intensity correlation of CHD.
翻訳日:2023-04-11 00:26:49 公開日:2021-02-16
# 光の超低温量子流体におけるアナログ宇宙論粒子の生成

Analogue cosmological particle creation in an ultracold quantum fluid of light ( http://arxiv.org/abs/2102.08279v1 )

ライセンス: Link先を確認
Jeff Steinhauer, Murad Abuzarli, Tangui Aladjidi, Tom Bienaim\'e, Clara Piekarski, Wei Liu, Elisabeth Giacobino, Alberto Bramati and Quentin Glorieux(参考訳) インフレ宇宙学において、初期の宇宙の急速な膨張は、今日の宇宙マイクロ波背景異方性で観測可能な真空揺らぎによる宇宙粒子の自発的な生成をもたらした。 量子流体における宇宙論的な粒子生成の類似は洞察を与えることができるが、観測はまだ達成されていない。 本稿では、光の3次元量子流体を用いて、実験室におけるアナログ宇宙粒子の自然発生を報告する。 密度パワースペクトルの音響ピークを量子場理論の予測と密接に定量的に一致して観測する。 長波長の粒子が早期に窓となることが判明し、この原理を宇宙マイクロ波背景に適用する。 この研究は原子のボース・アインシュタイン凝縮物のように冷たく新しい量子流体を導入する。

In inflationary cosmology, the rapid expansion of the early universe resulted in the spontaneous production of cosmological particles from vacuum fluctuations, observable today in the cosmic microwave background anisotropies. The analogue of cosmological particle creation in a quantum fluid could provide insight, but an observation has not yet been achieved. Here we report the spontaneous creation of analogue cosmological particles in the laboratory, using a quenched 3-dimensional quantum fluid of light. We observe acoustic peaks in the density power spectrum, in close quantitative agreement with the quantum-field theoretical prediction. We find that the long-wavelength particles provide a window to early times, and we apply this principle to the cosmic microwave background. This work introduces a new quantum fluid, as cold as an atomic Bose-Einstein condensate.
翻訳日:2023-04-11 00:24:00 公開日:2021-02-16
# ボソンの抗薬品金属

Anti-Drude Metal of Bosons ( http://arxiv.org/abs/2102.08206v1 )

ライセンス: Link先を確認
Guido Masella, Nikolay V. Prokof'ev and Guido Pupillo(参考訳) フラストレーションがない状態では、基底状態の相互作用ボソンは超流動相または絶縁相に存在する。 超流動は物質場の摩擦のない流れに対応し、光学伝導度は、ドリュード重みと呼ばれる振幅を持つゼロ周波数での差$\delta$-functional peakを通して明らかにされる。 この特徴的な低周波特性は、代わりに静電気伝導度ゼロで定義される絶縁相に欠如している。 ここで、無秩序な1次元、すなわち$d=1$のボソニック粒子は、それらのホッピングが双極子型である導電性非超流動相でも存在でき、しばしば$d=1$の短距離と見なされる。 この位相は、有限の静電気伝導率で特徴づけられ、続いて有限の周波数で幅広い反ドードピークが続く。 対角線外相関は、任意の大きな障害値に対する可積分代数的崩壊を特徴とする。 これらの結果は既知の量子位相の記述に適合せず、基底状態におけるボソニック物質の新しい伝導状態の存在を強く示唆している。

In the absence of frustration, interacting bosons in the ground state exist either in the superfluid or insulating phases. Superfluidity corresponds to frictionless flow of the matter field, and in optical conductivity is revealed through a distinct $\delta$-functional peak at zero frequency with the amplitude known as the Drude weight. This characteristic low-frequency feature is instead absent in insulating phases, defined by zero static optical conductivity. Here we demonstrate that bosonic particles in disordered one dimensional, $d=1$, systems can also exist in a conducting, non-superfluid, phase when their hopping is of the dipolar type, often viewed as short-ranged in $d=1$. This phase is characterized by finite static optical conductivity, followed by a broad anti-Drude peak at finite frequencies. Off-diagonal correlations are also unconventional: they feature an integrable algebraic decay for arbitrarily large values of disorder. These results do not fit the description of any known quantum phase and strongly suggest the existence of a novel conducting state of bosonic matter in the ground state.
翻訳日:2023-04-11 00:23:31 公開日:2021-02-16
# Dicke状態とGHZ系混合物に対するベル相関の対称性の持続性--モノガミーの限界について

Symmetrized persistency of Bell correlations for Dicke states and GHZ-based mixtures: studying the limits of monogamy ( http://arxiv.org/abs/2102.08141v1 )

ライセンス: Link先を確認
Marcin Wie\'sniak(参考訳) 特にベルの不等式 \cite{bell} を破ることを可能にする量子相関は、ある種の通信タスクに有利な方法を開く。 しかし、量子性を利用する主な難しさは、例えば粒子のノイズや損失に対する脆弱さである。 GHZ系混合物とディック状態のベル相関の持続性について検討した。 前者に対しては、量子通信複雑性の低減(QCCR)方式を検討するとともに、多数の粒子の極限における高い持続性のためのスキームに使用できる新しいベル不等式(BIs)を提案する。 ディッキン状態の場合、持続性は以前の研究で報告されたよりもかなり高い0.482n$に達することが示されている。

Quantum correlations, in particular those, which enable to violate a Bell inequality \cite{BELL}, open a way to advantage in certain communication tasks. However, the main difficulty in harnessing quantumness is its fragility to, e.g, noise or loss of particles. We study the persistency of Bell correlations of GHZ based mixtures and Dicke states. For the former, we consider quantum communication complexity reduction (QCCR) scheme, and propose new Bell inequalities (BIs), which can be used in that scheme for higher persistency in the limit of large number of particles $N$. In case of Dicke states, we show that persistency can reach $0.482N$, significantly more than reported in previous studies.
翻訳日:2023-04-11 00:23:14 公開日:2021-02-16
# 集団放射崩壊を伴う励起輸送

Excitation transport with collective radiative decay ( http://arxiv.org/abs/2102.08139v1 )

ライセンス: Link先を確認
Francesca Mineo and Claudiu Genes(参考訳) 近接する双極子-双極子相互作用を介して励起と相関の輸送が行われる1次元量子エミッタチェーンについて検討する。 集団放射放射の存在下では、波束初期化過程の位相インプリンティングがサブラジアント輸送につながり、量子相関を保存できることを示す。 エミッタが共通の非局在光モードに結合されるキャビティ媒介輸送の文脈において、周波数障害と非固有光-エミッタカップリングが励起輸送に与える影響を解析する。

We investigate a one-dimensional quantum emitter chain where transport of excitations and correlations takes place via nearest neighbor, dipole-dipole interactions. In the presence of collective radiative emission, we show that a phase imprinting wavepacket initialization procedure can lead to subradiant transport and can preserve quantum correlations. In the context of cavity mediated transport, where emitters are coupled to a common delocalized optical mode, we analyze the effect of frequency disorder and nonidentical photon-emitter couplings on excitation transport.
翻訳日:2023-04-11 00:23:00 公開日:2021-02-16
# ホワイトになって、もっと信用できますか。 ディープフェイクの信頼性に及ぼすレースの影響評価

Could you become more credible by being White? Assessing Impact of Race on Credibility with Deepfakes ( http://arxiv.org/abs/2102.08054v1 )

ライセンス: Link先を確認
Kurtis Haut, Caleb Wohn, Victor Antony, Aidan Goldfarb, Melissa Welsh, Dillanie Sumanthiran, Ji-ze Jang, Md. Rafayet Ali and Ehsan Hoque(参考訳) コンピュータによる会話(ビデオ会議など)が新しい主流メディアとなった。 これらの環境でレースを素早く変えることができれば、信頼性はどのように影響しますか? 本稿では,deepfakesとganアーキテクチャを用いた視覚特徴を分離し,人種認識を変化させる手法を提案する。 次に、800以上の調査回答をクラウドソーシングして、認識された人種の変化による信頼性への影響を測定しました。 本研究では、黒人の静止画像と白人の静止画像とを比較し、各調査に同じ音声クリップを用いて評価する。 また、オリジナルビデオや、オリジナルビデオ内の人物の外観がより白く見えるように修正されたビデオを表示する効果についても検証する。 話者が真実を言っていると信じた参加者の回答のパーセントとして信頼性を測定した。 静的な画像で人の人種を変えることは、信頼性にほとんど影響しないことがわかった。 しかし、ビデオ上でのレースの操作は信頼性を大幅に向上させる(p $<$ 0.05で61\%から73\%)。 さらに、free response surveyの質問に対するvaderの感情分析により、ビデオ内の白人の信頼性を正当化するために、よりポジティブな感情が使用されることが明らかになった。

Computer mediated conversations (e.g., videoconferencing) is now the new mainstream media. How would credibility be impacted if one could change their race on the fly in these environments? We propose an approach using Deepfakes and a supporting GAN architecture to isolate visual features and alter racial perception. We then crowd-sourced over 800 survey responses to measure how credibility was influenced by changing the perceived race. We evaluate the effect of showing a still image of a Black person versus a still image of a White person using the same audio clip for each survey. We also test the effect of showing either an original video or an altered video where the appearance of the person in the original video is modified to appear more White. We measure credibility as the percent of participant responses who believed the speaker was telling the truth. We found that changing the race of a person in a static image has negligible impact on credibility. However, the same manipulation of race on a video increases credibility significantly (61\% to 73\% with p $<$ 0.05). Furthermore, a VADER sentiment analysis over the free response survey questions reveals that more positive sentiment is used to justify the credibility of a White individual in a video.
翻訳日:2023-04-11 00:22:02 公開日:2021-02-16
# ソーシャルボットとソーシャルメディア操作:2020年を振り返る

Social Bots and Social Media Manipulation in 2020: The Year in Review ( http://arxiv.org/abs/2102.08436v1 )

ライセンス: Link先を確認
Ho-Chun Herbert Chang, Emily Chen, Meiqing Zhang, Goran Muric, Emilio Ferrara(参考訳) 2020年は、新型コロナウイルス(COVID-19)パンデミックと2020年アメリカ合衆国大統領選挙の2つの重要な出来事で記憶される。 本章では,これらの課題に関する大規模公開Twitterデータセットを用いた最近の研究を要約する。 主な目的は3つある。 まず,計算研究と社会科学研究の伝統を組み合わせる際に,認識論的・実践的な考察を述べる。 社会的理論の進歩と具体的な関係が高くなると、適切なバランスがとられ、進行中の出来事をタイムリーに報告する。 また、大量のソーシャルメディアデータから洞察を得ることによる計算上の課題についてもコメントする。 第2に、新型コロナウイルス(COVID-19)パンデミックと2020年アメリカ合衆国大統領選挙をめぐるソーシャルメディア操作におけるソーシャルボットの役割を特徴づける。 第3に、2020年の結果とそれ以前の結果を比較して、ボットアカウントは依然としてecho-chambersの出現に貢献しているが、国家が支援するキャンペーンから国内に出現する歪みの源へと移行していることを指摘した。 さらに、公衆衛生の問題は政治の方向性、特に誤った情報を広める俳優の地域社会によってまとめられる。 我々は、自動化とソーシャルメディア操作が、公共領域における多元主義の表現を歪めているため、健全で民主的な言論に問題をもたらすと結論付けた。

The year 2020 will be remembered for two events of global significance: the COVID-19 pandemic and 2020 U.S. Presidential Election. In this chapter, we summarize recent studies using large public Twitter data sets on these issues. We have three primary objectives. First, we delineate epistemological and practical considerations when combining the traditions of computational research and social science research. A sensible balance should be struck when the stakes are high between advancing social theory and concrete, timely reporting of ongoing events. We additionally comment on the computational challenges of gleaning insight from large amounts of social media data. Second, we characterize the role of social bots in social media manipulation around the discourse on the COVID-19 pandemic and 2020 U.S. Presidential Election. Third, we compare results from 2020 to prior years to note that, although bot accounts still contribute to the emergence of echo-chambers, there is a transition from state-sponsored campaigns to domestically emergent sources of distortion. Furthermore, issues of public health can be confounded by political orientation, especially from localized communities of actors who spread misinformation. We conclude that automation and social media manipulation pose issues to a healthy and democratic discourse, precisely because they distort representation of pluralism within the public sphere.
翻訳日:2023-04-11 00:15:42 公開日:2021-02-16
# 溝の発見: 乱れた環境下でのニューロモルフィックモーションビジョン

Finding the Gap: Neuromorphic Motion Vision in Cluttered Environments ( http://arxiv.org/abs/2102.08417v1 )

ライセンス: Link先を確認
Thorben Schoepe, Ella Janotte, Moritz B. Milde, Olivier J.N. Bertrand, Martin Egelhaaf and Elisabetta Chicca(参考訳) 多くの動物は環境に潜伏し、衝突を避けます。 基礎となるニューロン機構が様々な環境で強固な行動を起こす方法はまだ不明である。 ハエの脳では、運動感受性ニューロンは近くの物体の存在を示し、方向の手がかりは中心複合体と呼ばれる領域に統合される。 このようなニューロン機構は、従来のストリームベースの信号処理アプローチとは対照的に、動物によって変化が感知されたときに発生するイベントベースのアプローチを用いる。 von neumannのコンピューティングアーキテクチャとは対照的に、イベントベースのニューロモルフィックハードウェアは、非同期かつ分散的な方法で情報を処理するように設計されている。 筆者らはハエの脳にインスパイアされた神経型クローズドループシステムを初めてモデル化し、空飛ぶ昆虫に観察される重要な挙動を模倣する。 我々はソフトウェアとニューロモルフィックハードウェアの両方でシステムを実装した。 環境中を移動中、エージェントは周囲の変化を認識し、衝突回避のためにこの情報を利用する。 エージェントの操作は確率論的意思決定プロセスを実装する閉じた行動知覚ループから生じる。 このループ閉鎖はカンブリア爆発以来、生物学的エージェントにおける神経回路の発達を促したと考えられている。 人工エージェントの神経計算を理解するための基本的な探求では、神経形態的システムにおいてもループを閉じることで生物学的知性の理解とモデリングに近づいた。 クローズドループシステムとして、ニューラルネットワークにおける処理の理解を深め、生体および人工システムの計算を行う。 これらの研究により,我々は今後,ニューロモルフィック・インテリジェンスの基礎を定め,ニューロモルフィック・システムの潜在能力を最大限に活用することを目指している。

Many animals meander in environments and avoid collisions. How the underlying neuronal machinery can yield robust behaviour in a variety of environments remains unclear. In the fly brain, motion-sensitive neurons indicate the presence of nearby objects and directional cues are integrated within an area known as the central complex. Such neuronal machinery, in contrast with the traditional stream-based approach to signal processing, uses an event-based approach, with events occurring when changes are sensed by the animal. Contrary to von Neumann computing architectures, event-based neuromorphic hardware is designed to process information in an asynchronous and distributed manner. Inspired by the fly brain, we model, for the first time, a neuromorphic closed-loop system mimicking essential behaviours observed in flying insects, such as meandering in clutter and gap crossing, which are highly relevant for autonomous vehicles. We implemented our system both in software and on neuromorphic hardware. While moving through an environment, our agent perceives changes in its surroundings and uses this information for collision avoidance. The agent's manoeuvres result from a closed action-perception loop implementing probabilistic decision-making processes. This loop-closure is thought to have driven the development of neural circuitry in biological agents since the Cambrian explosion. In the fundamental quest to understand neural computation in artificial agents, we come closer to understanding and modelling biological intelligence by closing the loop also in neuromorphic systems. As a closed-loop system, our system deepens our understanding of processing in neural networks and computations in biological and artificial systems. With these investigations, we aim to set the foundations for neuromorphic intelligence in the future, moving towards leveraging the full potential of neuromorphic systems.
翻訳日:2023-04-11 00:15:03 公開日:2021-02-16
# 変分量子アルゴリズムのためのユニタリブロック最適化

Unitary Block Optimization for Variational Quantum Algorithms ( http://arxiv.org/abs/2102.08403v1 )

ライセンス: Link先を確認
Lucas Slattery, Benjamin Villalonga, and Bryan K. Clark(参考訳) 変分量子アルゴリズムは、化学と物理学の問題を解くための有望なハイブリッドフレームワークであり、最適化にも広く適用できる。 特にノイズの多い中間スケール量子コンピュータ(NISQ)に適している。 本稿では、ユニタリブロック最適化方式(UBOS)を記述し、変分量子固有解法(VQE)と変分時間進化という2つの変分量子アルゴリズムに適用する。 VQEの目標は、古典的に抽出可能なパラメータ化量子波動関数を最適化して、ハミルトニアンの物理的状態をターゲットにしたり、最適化問題を解くことである。 UBOSは他のVQE最適化方式に代わるもので、高速収束、バレンプラトーへの感度の低下、局所的なミニマをトンネルで通過する能力、調整のためのハイパーパラメーターがないなど多くの利点がある。 さらに、UBOSがリアルタイム・仮想時間進化(TUBOS)にどのように適用されるかを述べる。

Variational quantum algorithms are a promising hybrid framework for solving chemistry and physics problems with broad applicability to optimization as well. They are particularly well suited for noisy intermediate scale quantum (NISQ) computers. In this paper, we describe the unitary block optimization scheme (UBOS) and apply it to two variational quantum algorithms: the variational quantum eigensolver (VQE) and variational time evolution. The goal of VQE is to optimize a classically intractable parameterized quantum wave function to target a physical state of a Hamiltonian or solve an optimization problem. UBOS is an alternative to other VQE optimization schemes with a number of advantages including fast convergence, less sensitivity to barren plateaus, the ability to tunnel through some local minima and no hyperparameters to tune. We additionally describe how UBOS applies to real and imaginary time-evolution (TUBOS).
翻訳日:2023-04-11 00:14:27 公開日:2021-02-16
# 中性子散乱による量子磁石の絡み合いの観察

Witnessing entanglement in quantum magnets using neutron scattering ( http://arxiv.org/abs/2102.08376v1 )

ライセンス: Link先を確認
A. Scheie, Pontus Laurell, A. M. Samarakoon, B. Lake, S. E. Nagler, G. E. Granroth, S. Okamoto, G. Alvarez, and D. A. Tennant(参考訳) 量子エンタングルメントが準-1Dハイゼンベルク反強磁性体 KCuF$_3$ でどのように直接観測できるかを実証する。 中性子の非弾性スペクトルに対して, 1-tangle, two-tangle, quantum fisherの3つのエンタングルト観測値を適用し,有限温度密度行列再正規化群 (dmrg) と古典モンテカルロ法でシミュレーションされたスペクトルと比較した。 それぞれの目撃者が 絡み合いに直接 アクセスできることが分かりました これらのうち、量子フィッシャー情報は実験的に最も頑健であり、スピノンゾーン境界エネルギーの約10%に相当する少なくとも50kまでの2成分の絡み合いが存在することを示している。 量子フィッシャー情報をより高いスピンsハイゼンベルク鎖に適用し、量子数の増加に伴って観測可能な絡み合いが低温に抑えられることを理論的に示す。 最後に、これらの結果を高次元量子材料に適用して、絡み合いを目撃し定量化する方法について概説する。

We demonstrate how quantum entanglement can be directly witnessed in the quasi-1D Heisenberg antiferromagnet KCuF$_3$. We apply three entanglement witnesses --- one-tangle, two-tangle, and quantum Fisher information --- to its inelastic neutron spectrum, and compare with spectra simulated by finite-temperature density matrix renormalization group (DMRG) and classical Monte Carlo methods. We find that each witness provides direct access to entanglement. Of these, quantum Fisher information is the most robust experimentally, and indicates the presence of at least bipartite entanglement up to at least 50 K, corresponding to around 10% of the spinon zone-boundary energy. We apply quantum Fisher information to higher spin-S Heisenberg chains, and show theoretically that the witnessable entanglement gets suppressed to lower temperatures as the quantum number increases. Finally, we outline how these results can be applied to higher dimensional quantum materials to witness and quantify entanglement.
翻訳日:2023-04-11 00:13:44 公開日:2021-02-16
# 運動量における最小不確実性の存在下での非最小ベクトル相互作用を持つスピン-ワンDKP方程式

The spin-one DKP Equation with a nonminimal vector interaction in the presence of minimal uncertainty in momentum ( http://arxiv.org/abs/2102.08490v1 )

ライセンス: Link先を確認
B. Hamil, B. C. L\"utf\"uo\u{g}lu and H. Aounallah(参考訳) 本研究では、運動量における最小の不確かさの存在下で、非ミニマルベクトル相互作用を持つスピン1粒子に対する相対論的ダフィン・ケマー・ペティオウ方程式を考える。 位置空間表現を用いて、有界スペクトルと対応する固有関数を正確に決定する。 変形および非最小ベクトル結合パラメータがエネルギースペクトルに与える影響を解析的および数値的に検討する。

In this work, we consider the relativistic Duffin-Kemmer-Petiau equation for spin-one particles with a nonminimal vector interaction in the presence of minimal uncertainty in momentum. By using the position space representation we exactly determine the bound-states spectrum and the corresponding eigenfunctions. We discuss the effects of the deformation and nonminimal vector coupling parameters on the energy spectrum analytically and numerically.
翻訳日:2023-04-11 00:03:54 公開日:2021-02-16
# 深層学習における神経進化 : 中性の役割

Neuroevolution in Deep Learning: The Role of Neutrality ( http://arxiv.org/abs/2102.08475v1 )

ライセンス: Link先を確認
Edgar Galv\'an(参考訳) 人工深層ニューラルネットワーク(DNN)のアーキテクチャ構成や学習、トレーニングには、様々な方法が適用されている。 これらの手法は、ほとんどの問題やアプリケーションにおいて、DNNの成功や失敗において重要な役割を果たす。 進化的アルゴリズム(EA)はDNNの自動最適化のための計算可能手法として勢いを増している。 Neuroevolution(神経進化)とは、EAを用いたDNNの自動構成とトレーニングのプロセスを記述する用語である。 しかし、進化的アルゴリズムによる現代のニューラルネットワークの自動設計と訓練は費用がかかる。 分子進化に関する木村の中立理論は、分子レベルでの進化的変化の大部分は、選択的に中性突然変異のランダムな固定の結果であると述べている。 ある遺伝子から別の遺伝子への突然変異は、表現型に影響を与えなければ中立である。 本稿では、特定の条件下での中立性が、ディープニューラルネットワークのトレーニングと設計のスピードアップにどのように役立つかを論じる。

A variety of methods have been applied to the architectural configuration and learning or training of artificial deep neural networks (DNN). These methods play a crucial role in the success or failure of the DNN for most problems and applications. Evolutionary Algorithms (EAs) are gaining momentum as a computationally feasible method for the automated optimisation of DNNs. Neuroevolution is a term which describes these processes of automated configuration and training of DNNs using EAs. However, the automatic design and/or training of these modern neural networks through evolutionary algorithms is computanalli expensive. Kimura's neutral theory of molecular evolution states that the majority of evolutionary changes at molecular level are the result of random fixation of selectively neutral mutations. A mutation from one gene to another is neutral if it does not affect the phenotype. This work discusses how neutrality, given certain conditions, can help to speed up the training/design of deep neural networks.
翻訳日:2023-04-11 00:03:48 公開日:2021-02-16
# オーケストレーショントリオ: 3量子ゲートを持つ量子プログラムにおける効率的な通信のためのコンパイル

Orchestrated Trios: Compiling for Efficient Communication in Quantum Programs with 3-Qubit Gates ( http://arxiv.org/abs/2102.08451v1 )

ライセンス: Link先を確認
Casey Duckering and Jonathan M. Baker and Andrew Litteken and Frederic T. Chong(参考訳) 現在の量子コンピュータは特にエラーを起こしやすく、プログラムが成功する確率を最大化するために高いレベルの最適化を必要とする。 これらのコンピュータは、1ビットと2ビットのゲートと、物理的に接続されたキュービット間の2ビットのゲートに分解された操作しかサポートしていない。 典型的なコンパイラはまず操作を分解し、その後データを接続されたキュービットにルーティングする。 提案するコンパイラ構造であるOrchestted Triosは,まず3量子ビットのToffoliに分解し,上位のToffoli演算の入力を近くのキュービットのグループにルーティングし,ハードウェアサポートされたゲートへの分解を終了する。 これにより、ルーティングを破棄する代わりに、回路の上位構造へのアクセスをパスすることで、通信オーバーヘッドを大幅に削減できる。 2つめの利点は、ルーティングパス後に既知の特定のハードウェアキュービットに対して、8-cnot toffoliのようなアーキテクチャで調整されたtoffoli分解を選択できるようになったことだ。 我々はIBM Johannesburgで実実験を行い、2キュービットゲート数の平均35%が減少し、Qiskit上で1つのToffoliの成功率が23%増加することを示した。 さらに、Johannesburgアーキテクチャにおける成功率をシミュレーションした平均344%(または4.44倍)の増加を示す多くの短期ベンチマークアルゴリズムをコンパイルし、他のアーキテクチャと比較した。

Current quantum computers are especially error prone and require high levels of optimization to reduce operation counts and maximize the probability the compiled program will succeed. These computers only support operations decomposed into one- and two-qubit gates and only two-qubit gates between physically connected pairs of qubits. Typical compilers first decompose operations, then route data to connected qubits. We propose a new compiler structure, Orchestrated Trios, that first decomposes to the three-qubit Toffoli, routes the inputs of the higher-level Toffoli operations to groups of nearby qubits, then finishes decomposition to hardware-supported gates. This significantly reduces communication overhead by giving the routing pass access to the higher-level structure of the circuit instead of discarding it. A second benefit is the ability to now select an architecture-tuned Toffoli decomposition such as the 8-CNOT Toffoli for the specific hardware qubits now known after the routing pass. We perform real experiments on IBM Johannesburg showing an average 35% decrease in two-qubit gate count and 23% increase in success rate of a single Toffoli over Qiskit. We additionally compile many near-term benchmark algorithms showing an average 344% increase in (or 4.44x) simulated success rate on the Johannesburg architecture and compare with other architecture types.
翻訳日:2023-04-11 00:03:32 公開日:2021-02-16
# 遺伝的アルゴリズムを用いたベクトル量子化の一手法

An Implementation of Vector Quantization using the Genetic Algorithm Approach ( http://arxiv.org/abs/2102.08893v1 )

ライセンス: Link先を確認
Maha Mohammed Khan(参考訳) 画像圧縮領域への機械学習(ML)と遺伝的プログラミング(GP)の適用は多くのケースで有望な結果をもたらしている。 圧縮の必要性は、インターネット上で共有されるデータの異常なサイズによって生じる。 テキスト、ビデオ、画像には圧縮が必要であり、ニュース記事、ソーシャルメディア投稿、ブログ、教育プラットフォーム、医療ドメイン、政府サービス、その他多くのウェブサイトでは、ネットワークを圧倒するのを避けるために圧縮が必要である。 本稿では,ニューラルネットワーク,残留学習,ファジィニューラルネットワーク,畳み込みニューラルネットワーク,ディープラーニング,遺伝的アルゴリズムなどの手法を用いた画像圧縮アルゴリズムの実装について述べる。 また,gaを用いた画像圧縮のためのコードブック生成のためのベクトル量子化の実装について述べる。 これらのアプローチは、機械学習アルゴリズムの非常に並列で計算的に広い性質のため、画像処理の標準的なアプローチと非常に対照的である。 このようなMLとGPの非線形能力は、複数のドメインで広く使われている。 従来のアプローチは、より優れた結果を得るために、ハイブリッドシステムにつながる人工知能システムと組み合わせられる。

The application of machine learning(ML) and genetic programming(GP) to the image compression domain has produced promising results in many cases. The need for compression arises due to the exorbitant size of data shared on the internet. Compression is required for text, videos, or images, which are used almost everywhere on web be it news articles, social media posts, blogs, educational platforms, medical domain, government services, and many other websites, need packets for transmission and hence compression is necessary to avoid overwhelming the network. This paper discusses some of the implementations of image compression algorithms that use techniques such as Artificial Neural Networks, Residual Learning, Fuzzy Neural Networks, Convolutional Neural Nets, Deep Learning, Genetic Algorithms. The paper also describes an implementation of Vector Quantization using GA to generate codebook which is used for Lossy image compression. All these approaches prove to be very contrasting to the standard approaches to processing images due to the highly parallel and computationally extensive nature of machine learning algorithms. Such non-linear abilities of ML and GP make it widely popular for use in multiple domains. Traditional approaches are also combined with artificially intelligent systems, leading to hybrid systems, to achieve better results.
翻訳日:2023-04-10 23:56:32 公開日:2021-02-16
# 学生はどのようにソフトウェアユニットをテストするのか?

How do students test software units? ( http://arxiv.org/abs/2102.09368v1 )

ライセンス: Link先を確認
Lex Bijlsma, Niels Doorn, Harrie Passier, Harold Pootjes, Sylvia Stuurman(参考訳) テストの正式な教育を受けずにプログラミング入門コースを修了した学生のアイデアや信念について見識を得た。 学生に小さな調査に記入し、4つのエクササイズを行い、2つ目の調査に記入するよう求めた。 これらの学生の11人に半構造化インタビューを行い、より深い洞察を得た。 主な成果は、学生は体系的にテストしないが、ほとんどの学生は体系的にテストすると考えている。 私たちが見出した誤解の1つは、ほとんどの学生がプログラミングコードに基づいてテストケースしか考えられないということです。 たとえコードが提供されていなくても(ブラックボックステスト)、学生はテストケースをベースとするコードを考え出そうとします。

We gained insight into ideas and beliefs on testing of students who finished an introductory course on programming without any formal education on testing. We asked students to fill in a small survey, to do four exercises and to fill in a second survey. We interviewed eleven of these students in semi-structured interviews, to obtain more in-depth insight. The main outcome is that students do not test systematically, while most of them think they do test systematically. One of the misconceptions we found is that most students can only think of test cases based on programming code. Even if no code was provided (black-box testing), students try to come up with code to base their test cases on.
翻訳日:2023-04-10 23:46:14 公開日:2021-02-16
# 株価予測から金融関連へ:注意重みの取得から手動アノテーションなしでニュース関連性を評価する

From Stock Prediction to Financial Relevance: Repurposing Attention Weights to Assess News Relevance Without Manual Annotations ( http://arxiv.org/abs/2001.09466v3 )

ライセンス: Link先を確認
Luciano Del Corro and Johannes Hoffart(参考訳) 株価の動きやニュース見出しを入力として、金融関連ニュースを自動的に識別する手法を提案する。 この方法は、まずニューラルネットワークの注意重みを再利用し、株価を予測して各見出しに関連度スコアを割り当て、手動ラベル付きトレーニングデータの必要性をなくす。 米国の株価指数の4つと150万のニュースヘッドラインに関する実験では、この方法が関連するニュースを高いランク付けし、初期株価予測タスクの正確さと正の相関を示した。

We present a method to automatically identify financially relevant news using stock price movements and news headlines as input. The method repurposes the attention weights of a neural network initially trained to predict stock prices to assign a relevance score to each headline, eliminating the need for manually labeled training data. Our experiments on the four most relevant US stock indices and 1.5M news headlines show that the method ranks relevant news highly, positively correlated with the accuracy of the initial stock price prediction task.
翻訳日:2023-01-06 19:25:13 公開日:2021-02-16
# DeepSurf:タンパク質上のリガンド結合部位の予測のための表面ベースディープラーニングアプローチ

DeepSurf: A surface-based deep learning approach for the prediction of ligand binding sites on proteins ( http://arxiv.org/abs/2002.05643v2 )

ライセンス: Link先を確認
Stelios K. Mylonas (1), Apostolos Axenopoulos (1), Petros Daras (1) ((1) Information Technologies Institute, Centre for Research and Technology Hellas, Thessaloniki, Greece)(参考訳) タンパク質に対する潜在的薬物性結合部位の知識は、新しい薬物の発見への重要な予備的なステップである。 このような領域の計算予測は、ディープラーニング分野の最近の大きな進歩を追従し、適切なデータの可用性を高めることによって促進することができる。 本稿では,DeepSurfと呼ばれる,潜在的な結合部位の予測のための新しい計算手法を提案する。 DeepSurfは、多くの3Dボキセル化されたグリッドをタンパク質の表面に置く表面ベースの表現と、最先端のディープラーニングアーキテクチャを組み合わせる。 scPDBの大規模なデータベースでトレーニングを受けた後、DeepSurfは、従来の非データ駆動のアプローチに競合するパフォーマンスを達成しながら、主要なディープラーニングベースの競合すべてを追い越して、3つのさまざまなテストデータセットで優れた結果を示す。

The knowledge of potentially druggable binding sites on proteins is an important preliminary step towards the discovery of novel drugs. The computational prediction of such areas can be boosted by following the recent major advances in the deep learning field and by exploiting the increasing availability of proper data. In this paper, a novel computational method for the prediction of potential binding sites is proposed, called DeepSurf. DeepSurf combines a surface-based representation, where a number of 3D voxelized grids are placed on the protein's surface, with state-of-the-art deep learning architectures. After being trained on the large database of scPDB, DeepSurf demonstrates superior results on three diverse testing datasets, by surpassing all its main deep learning-based competitors, while attaining competitive performance to a set of traditional non-data-driven approaches.
翻訳日:2023-01-01 13:47:56 公開日:2021-02-16
# ランダムニューラルネットワークと貯水池システムの近似境界

Approximation Bounds for Random Neural Networks and Reservoir Systems ( http://arxiv.org/abs/2002.05933v2 )

ライセンス: Link先を確認
Lukas Gonon, Lyudmila Grigoryeva, and Juan-Pablo Ortega(参考訳) 本研究は、ランダムに生成された内部重みを持つ単層フィードフォワードおよび繰り返しニューラルネットワークに基づく近似を研究する。 重みの最後の層といくつかのハイパーパラメータのみを最適化したこれらの手法は、幅広い静的および動的学習問題に適用されている。 経験的タスクにおけるこのアプローチの人気にもかかわらず、未知の関数、重み分布、近似率との関係に関する重要な理論的疑問は、まだ未解決のままである。 この研究で、未知の関数、関数系、あるいは力学系が十分に規則的である限り、(未知の物体に依存しない)一般的な分布からランダムな(繰り返し)ニューラルネットワークの内部重みを引いて、神経細胞の数とハイパーパラメータの点から誤差を定量化できることが証明された。 特に、ランダムに生成された重みを持つエコー状態ネットワークは、広い種類の力学系を任意に近似することができることを証明し、力学系の学習において経験的に観察された成功に対する最初の数学的説明を提供する。

This work studies approximation based on single-hidden-layer feedforward and recurrent neural networks with randomly generated internal weights. These methods, in which only the last layer of weights and a few hyperparameters are optimized, have been successfully applied in a wide range of static and dynamic learning problems. Despite the popularity of this approach in empirical tasks, important theoretical questions regarding the relation between the unknown function, the weight distribution, and the approximation rate have remained open. In this work it is proved that, as long as the unknown function, functional, or dynamical system is sufficiently regular, it is possible to draw the internal weights of the random (recurrent) neural network from a generic distribution (not depending on the unknown object) and quantify the error in terms of the number of neurons and the hyperparameters. In particular, this proves that echo state networks with randomly generated weights are capable of approximating a wide class of dynamical systems arbitrarily well and thus provides the first mathematical explanation for their empirically observed success at learning dynamical systems.
翻訳日:2023-01-01 04:48:30 公開日:2021-02-16
# 重み付き分布のプライベート平均推定

Private Mean Estimation of Heavy-Tailed Distributions ( http://arxiv.org/abs/2002.09464v3 )

ライセンス: Link先を確認
Gautam Kamath, Vikrant Singhal, Jonathan Ullman(参考訳) 差分的にプライベートな分布の平均推定におけるミニマックスサンプルの複雑さについて, 新たな上限値と下限値を与える。 大まかに言えば、不定値の場合、$n = \theta\left(\frac{1}{\alpha^2} + \frac{1}{\alpha^{\frac{k}{k-1}}\varepsilon}\right)$ のサンプルは、$\varepsilon$- differential privacy の下で$\alpha$-accuracy の平均を推定するのに必要で十分である。 この結果は、プライバシ制約のない推定と比較して質的に異なる振る舞いを示し、サンプルの複雑さはすべての$k \geq 2$ に対して同一である。 また、サンプルの複雑さが単変数の場合よりも$O(d)$大きいような多変量集合に対してアルゴリズムを与える。

We give new upper and lower bounds on the minimax sample complexity of differentially private mean estimation of distributions with bounded $k$-th moments. Roughly speaking, in the univariate case, we show that $n = \Theta\left(\frac{1}{\alpha^2} + \frac{1}{\alpha^{\frac{k}{k-1}}\varepsilon}\right)$ samples are necessary and sufficient to estimate the mean to $\alpha$-accuracy under $\varepsilon$-differential privacy, or any of its common relaxations. This result demonstrates a qualitatively different behavior compared to estimation absent privacy constraints, for which the sample complexity is identical for all $k \geq 2$. We also give algorithms for the multivariate setting whose sample complexity is a factor of $O(d)$ larger than the univariate case.
翻訳日:2022-12-30 01:19:12 公開日:2021-02-16
# StructSum: 構造化表現による要約

StructSum: Summarization via Structured Representations ( http://arxiv.org/abs/2003.00576v2 )

ライセンス: Link先を確認
Vidhisha Balachandran, Artidoro Pagnoni, Jay Yoon Lee, Dheeraj Rajagopal, Jaime Carbonell, Yulia Tsvetkov(参考訳) abstractive text summarizationは、長いソースドキュメントの情報を要約された要約に圧縮することを目的としている。 モデリング技術の進歩にもかかわらず、抽象要約モデルは依然としていくつかの重要な課題を抱えている。 (i)レイアウトバイアス:コーパスのトレーニングスタイルに過度に適合する (ii)限定的な抽象性:新規の抽象要約を生成するのではなく、ソースからn-gramをコピーするよう最適化されている。 (iii)透明性の欠如:解釈できない。 本研究では,これらの課題に対処するための要約のための文書レベルの構造誘導に基づくフレームワークを提案する。 そこで本研究では,ソース文書中の文間の潜在および明示的な依存関係を,エンドツーエンドの単一文書要約モデルに組み込む手法を提案する。 本稿では,標準エンコーダ・デコーダ要約モデルを補完し,暗黙的に学習された(相対的な)構造と外部から派生した言語的(説明的)構造に基づくリッチな構造認識文書表現で補完する。 CNN/DMデータセットに基づいてトレーニングされた要約フレームワークは、ソース文書のコンテンツカバレッジを改善し、より斬新なn-gramを生成することでより抽象的な要約を生成し、標準ベースラインと同等の文レベル構造を組み込む。

Abstractive text summarization aims at compressing the information of a long source document into a rephrased, condensed summary. Despite advances in modeling techniques, abstractive summarization models still suffer from several key challenges: (i) layout bias: they overfit to the style of training corpora; (ii) limited abstractiveness: they are optimized to copying n-grams from the source rather than generating novel abstractive summaries; (iii) lack of transparency: they are not interpretable. In this work, we propose a framework based on document-level structure induction for summarization to address these challenges. To this end, we propose incorporating latent and explicit dependencies across sentences in the source document into end-to-end single-document summarization models. Our framework complements standard encoder-decoder summarization models by augmenting them with rich structure-aware document representations based on implicitly learned (latent) structures and externally-derived linguistic (explicit) structures. We show that our summarization framework, trained on the CNN/DM dataset, improves the coverage of content in the source documents, generates more abstractive summaries by generating more novel n-grams, and incorporates interpretable sentence-level structures, while performing on par with standard baselines.
翻訳日:2022-12-27 12:54:02 公開日:2021-02-16
# ドメイン適応による意味セグメンテーションにおける新しいターゲットクラス処理

Handling new target classes in semantic segmentation with domain adaptation ( http://arxiv.org/abs/2004.01130v2 )

ライセンス: Link先を確認
Maxime Bucher, Tuan-Hung Vu, Matthieu Cord, and Patrick P\'erez(参考訳) 本研究では,対象ドメインがソースドメインにデータ分散シフトを示すだけでなく,後者に存在しない新しいクラスも含んでいるセマンティックシーンセグメンテーションにおいて,新たなドメイン適応(DA)問題を定義し,対処する。 新しいクラスから全てのオブジェクトを「未知」とみなす「オープンセット」や「ユニバーサルドメイン適応」とは異なり、これらの新しいクラスに対するテスト時の明示的な予測を目指している。 この目標を達成するために,ドメイン適応とゼロショット学習技術を活用して,対象ドメインにおける"バウンドレス"適応を実現するフレームワークを提案する。 新たなクラスのラベルを関連する視覚的表現にマップする方法を学習しながら、ソースとターゲットのドメインギャップを橋渡しするために、新しいアーキテクチャと専用の学習スキームに依存している。 さらに、ターゲットドメインの擬似ラベルの自己学習により性能が向上する。 検証のために、synthetic-2-real、 country-2-country、dataset-2-datasetという異なるドメイン適応セットを考える。 当社のフレームワークは,新たなタスクのすべてのベンチマークにおいて,競争基準を設定することによって,ベースラインを大幅なマージンで上回ります。 コードとモデルはhttps://github.com/valeoai/budaで入手できる。

In this work, we define and address a novel domain adaptation (DA) problem in semantic scene segmentation, where the target domain not only exhibits a data distribution shift w.r.t. the source domain, but also includes novel classes that do not exist in the latter. Different to "open-set" and "universal domain adaptation", which both regard all objects from new classes as "unknown", we aim at explicit test-time prediction for these new classes. To reach this goal, we propose a framework that leverages domain adaptation and zero-shot learning techniques to enable "boundless" adaptation in the target domain. It relies on a novel architecture, along with a dedicated learning scheme, to bridge the source-target domain gap while learning how to map new classes' labels to relevant visual representations. The performance is further improved using self-training on target-domain pseudo-labels. For validation, we consider different domain adaptation set-ups, namely synthetic-2-real, country-2-country and dataset-2-dataset. Our framework outperforms the baselines by significant margins, setting competitive standards on all benchmarks for the new task. Code and models are available at https://github.com/valeoai/buda.
翻訳日:2022-12-17 12:56:53 公開日:2021-02-16
# CWYパラメトリゼーション:直交行列とスティフェル行列の並列最適化解

CWY Parametrization: a Solution for Parallelized Optimization of Orthogonal and Stiefel Matrices ( http://arxiv.org/abs/2004.08675v3 )

ライセンス: Link先を確認
Valerii Likhosherstov, Jared Davis, Krzysztof Choromanski, Adrian Weller(参考訳) 本稿では,GPUやTPUなどの並列計算ユニット上での直交群に対する効率的な最適化手法を提案する。 初期の研究と同様に、直交行列をハウスリフレクションの積としてパラメトリズする。 しかし, 家庭内反射の低並列化を順次克服するために, コンパクトワイ変換 (compact wy, cwy transform) という, 家庭内反射の列に対するコンパクト並列化フレンドリな行列表現を用いる手法を提案する。 さらに,styfel多様体パラメトリゼーションに対する新しい切断型cwy(t-cwy)アプローチも開発し,gpuとtpusで計算した場合の利点を享受する。 我々は,我々のCWY法とT-CWY法が,確率勾配降下と組み合わせることで,トレーニング対象の定常点に収束することを証明する。 ニューラルマシン翻訳とビデオ予測のタスクにおいて,本手法をリカレントニューラルネットワークアーキテクチャのトレーニングに応用する。

We introduce an efficient approach for optimization over orthogonal groups on highly parallel computation units such as GPUs or TPUs. As in earlier work, we parametrize an orthogonal matrix as a product of Householder reflections. However, to overcome low parallelization capabilities of computing Householder reflections sequentially, we propose employing an accumulation scheme called the compact WY (or CWY) transform -- a compact parallelization-friendly matrix representation for the series of Householder reflections. We further develop a novel Truncated CWY (or T-CWY) approach for Stiefel manifold parametrization which has a competitive complexity and, again, yields benefits when computed on GPUs and TPUs. We prove that our CWY and T-CWY methods lead to convergence to a stationary point of the training objective when coupled with stochastic gradient descent. We apply our methods to train recurrent neural network architectures in the tasks of neural machine translation and video prediction.
翻訳日:2022-12-12 05:10:38 公開日:2021-02-16
# 深層強化学習のためのグラフベース状態表現

Graph-based State Representation for Deep Reinforcement Learning ( http://arxiv.org/abs/2004.13965v3 )

ライセンス: Link先を確認
Vikram Waradpande, Daniel Kudenko, Megha Khosla(参考訳) deep rlアプローチは、ディープニューラルネットワークが有用な内部表現を生成する能力に基づいて、その成功の多くを築いている。 それでも、高いサンプル複雑さに悩まされ、優れた入力表現から始めると、パフォーマンスに大きな影響を与える可能性がある。 本稿では,マルコフ決定過程(markov decision process, mdp)がグラフであるという事実を活用し,効率的な状態表現学習にトポロジカル情報を組み込むことを可能にする。 近年のグラフ解析タスクにおけるノード表現の成功により,ノード表現学習手法が深部RLにおける基礎となるMDPのトポロジを効果的にエンコードする能力について検討した。 この目的のために、グリッドワールドナビゲーションタスクにおけるポリシー学習のための4種類の表現学習アルゴリズムから選択された複数のモデルの比較分析を行った。 その結果,すべての埋め込み手法が,グリッドワールド環境の一般的な行列表現よりも優れていることがわかった。 さらに、グラフ畳み込みに基づく手法は、単純なランダムウォーク法とグラフ線形オートエンコーダにより性能が向上する。

Deep RL approaches build much of their success on the ability of the deep neural network to generate useful internal representations. Nevertheless, they suffer from a high sample-complexity and starting with a good input representation can have a significant impact on the performance. In this paper, we exploit the fact that the underlying Markov decision process (MDP) represents a graph, which enables us to incorporate the topological information for effective state representation learning. Motivated by the recent success of node representations for several graph analytical tasks we specifically investigate the capability of node representation learning methods to effectively encode the topology of the underlying MDP in Deep RL. To this end we perform a comparative analysis of several models chosen from 4 different classes of representation learning algorithms for policy learning in grid-world navigation tasks, which are representative of a large class of RL problems. We find that all embedding methods outperform the commonly used matrix representation of grid-world environments in all of the studied cases. Moreoever, graph convolution based methods are outperformed by simpler random walk based methods and graph linear autoencoders.
翻訳日:2022-12-08 12:58:45 公開日:2021-02-16
# テキスト検索のためのスパース、密集、注意表現

Sparse, Dense, and Attentional Representations for Text Retrieval ( http://arxiv.org/abs/2005.00181v3 )

ライセンス: Link先を確認
Yi Luan, Jacob Eisenstein, Kristina Toutanova, Michael Collins(参考訳) デュアルエンコーダは、ドキュメントとクエリを密集した低次元ベクトルにエンコードして検索を行い、各ドキュメントをその内部積でスコア付けする。 単語の疎結合モデルや注目ニューラルネットワークと比較して,このアーキテクチャの能力について検討する。 理論的および経験的分析の両方を用いて, 符号化次元, 金と下級文書間のマージン, 文書長の相関関係を確立し, 長大文書の正確な検索を支援する固定長符号化の容量の限界を示唆した。 これらの知見に基づいて、よりコストのかかる注目アーキテクチャの表現性を両エンコーダの効率性と組み合わせた単純なニューラルモデルを提案し、スパース検索の精度を生かしたスパースセンスハイブリッドを探索する。 これらのモデルは大規模な検索において強力な代替手段を上回る。

Dual encoders perform retrieval by encoding documents and queries into dense lowdimensional vectors, scoring each document by its inner product with the query. We investigate the capacity of this architecture relative to sparse bag-of-words models and attentional neural networks. Using both theoretical and empirical analysis, we establish connections between the encoding dimension, the margin between gold and lower-ranked documents, and the document length, suggesting limitations in the capacity of fixed-length encodings to support precise retrieval of long documents. Building on these insights, we propose a simple neural model that combines the efficiency of dual encoders with some of the expressiveness of more costly attentional architectures, and explore sparse-dense hybrids to capitalize on the precision of sparse retrieval. These models outperform strong alternatives in large-scale retrieval.
翻訳日:2022-12-07 23:37:14 公開日:2021-02-16
# ノイズ保護属性による公平な分類:確率的保証を伴うフレームワーク

Fair Classification with Noisy Protected Attributes: A Framework with Provable Guarantees ( http://arxiv.org/abs/2006.04778v3 )

ライセンス: Link先を確認
L. Elisa Celis and Lingxiao Huang and Vijay Keswani and Nisheeth K. Vishnoi(参考訳) 本稿では,保護属性における雑音下摂動の存在下で公平な分類器を学習するための最適化フレームワークを提案する。 従来の研究と比較すると、我々のフレームワークは線形および線形摩擦公正性制約の非常に一般的なクラスを採用でき、複数の非バイナリ保護属性を処理でき、精度と公平性の両方で証明可能な保証を持つ分類器を出力することができる。 実世界の2つのデータセットにおいて,ノイズが大きい場合でも,統計的率と偽陽性率の公平性を保証するためのフレームワークが,精度の低下を最小限に抑えることができることを示す。

We present an optimization framework for learning a fair classifier in the presence of noisy perturbations in the protected attributes. Compared to prior work, our framework can be employed with a very general class of linear and linear-fractional fairness constraints, can handle multiple, non-binary protected attributes, and outputs a classifier that comes with provable guarantees on both accuracy and fairness. Empirically, we show that our framework can be used to attain either statistical rate or false positive rate fairness guarantees with a minimal loss in accuracy, even when the noise is large, in two real-world datasets.
翻訳日:2022-11-24 00:15:31 公開日:2021-02-16
# FastPitch: ピッチ予測を備えた並列テキスト音声合成

FastPitch: Parallel Text-to-speech with Pitch Prediction ( http://arxiv.org/abs/2006.06873v2 )

ライセンス: Link先を確認
Adrian {\L}a\'ncucki(参考訳) 本稿では,FastSpeechに基づく完全並列テキスト音声合成モデルであるFastPitchについて述べる。 モデルは推論中にピッチ輪郭を予測する。 これらの予測を変更することで、生成された音声はより表現力があり、発話の意味がよりよく一致し、最後にはリスナーにより関与する。 FastPitchによる一様増加または縮小は、音声の自発的な変調に似た音声を生成する。 周波数パターンのコンディショニングは合成音声の全体的な品質を改善し、最先端に匹敵する。 オーバーヘッドは発生せず、FastPitchは、典型的な発話のメル-スペクトログラム合成に900倍以上のリアルタイム係数を持つ、好ましい完全な並列トランスフォーマーアーキテクチャを維持している。

We present FastPitch, a fully-parallel text-to-speech model based on FastSpeech, conditioned on fundamental frequency contours. The model predicts pitch contours during inference. By altering these predictions, the generated speech can be more expressive, better match the semantic of the utterance, and in the end more engaging to the listener. Uniformly increasing or decreasing pitch with FastPitch generates speech that resembles the voluntary modulation of voice. Conditioning on frequency contours improves the overall quality of synthesized speech, making it comparable to state-of-the-art. It does not introduce an overhead, and FastPitch retains the favorable, fully-parallel Transformer architecture, with over 900x real-time factor for mel-spectrogram synthesis of a typical utterance.
翻訳日:2022-11-22 12:55:39 公開日:2021-02-16
# OMBA:オンライン市場バスケット分析のためのユーザガイド型製品表現

OMBA: User-Guided Product Representations for Online Market Basket Analysis ( http://arxiv.org/abs/2006.10396v2 )

ライセンス: Link先を確認
Amila Silva, Ling Luo, Shanika Karunasekera, Christopher Leckie(参考訳) 市場バスケット分析(mba)は、製品間の関連を特定する一般的な手法であり、ビジネス上の意思決定に不可欠である。 これまでの研究では、mbaを実行するために従来型の頻繁なアイテムセットマイニングアルゴリズムが採用されている。 しかし、一般的には、最も粒度の細かい製品間で発生する稀な関連を明らかにすることができない。 また、製品間の関連性において時間的ダイナミクスを捉える能力も限られている。 そこで我々は,オンライン・マーケット・バスケットボール・アナリティクスのための新しい表現学習手法であるOMBAを提案する。 ombaは製品とユーザの表現を共同で学習し、製品間および製品間関係の時間的ダイナミクスを保ちます。 その後、OMBAはスケーラブルで効果的なオンライン手法を提案し、それらの表現を用いて製品の関連性を生成する。 3つの実世界のデータセットに関する広範な実験から,ombaは最先端の手法を最大21%上回り,稀に発生する強い関連を強調し,時間的変化を効果的に捉えていることがわかった。

Market Basket Analysis (MBA) is a popular technique to identify associations between products, which is crucial for business decision making. Previous studies typically adopt conventional frequent itemset mining algorithms to perform MBA. However, they generally fail to uncover rarely occurring associations among the products at their most granular level. Also, they have limited ability to capture temporal dynamics in associations between products. Hence, we propose OMBA, a novel representation learning technique for Online Market Basket Analysis. OMBA jointly learns representations for products and users such that they preserve the temporal dynamics of product-to-product and user-to-product associations. Subsequently, OMBA proposes a scalable yet effective online method to generate products' associations using their representations. Our extensive experiments on three real-world datasets show that OMBA outperforms state-of-the-art methods by as much as 21%, while emphasizing rarely occurring strong associations and effectively capturing temporal changes in associations.
翻訳日:2022-11-19 12:39:39 公開日:2021-02-16
# メモリトランスフォーマ

Memory Transformer ( http://arxiv.org/abs/2006.11527v2 )

ライセンス: Link先を確認
Mikhail S. Burtsev, Yuri Kuratov, Anton Peganov, Grigory V. Sapunov(参考訳) トランスフォーマーベースのモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。 セルフアテンションアーキテクチャにより、transformerはシーケンスのすべての要素からの情報をコンテキスト認識表現にまとめることができる。 しかし、コンテキストに関する情報は、主に同じ要素単位の表現に格納される。 これにより、シーケンスに関連するプロパティの処理がより困難になる可能性がある。 ローカルとグローバルなシーケンス表現を選択的に格納するためにトレーニング可能なメモリを追加することは、Transformerモデルを改善するための有望な方向である。 メモリ拡張ニューラルネットワーク(MANN)は、従来のニューラルネットワークを拡張し、汎用メモリで表現する。 MANNは、CopyやReverseのような単純なアルゴリズムを学習する能力を示し、質問応答から言語モデリングへのバックプロパゲーションを通じて、同等の複雑さのRNNやLSTMよりも優れた言語モデリングまで、さまざまなタスクをうまくトレーニングすることができる。 本研究では,トランスフォーマーベースライン(1)に非局所的な表現を格納するためのメモリトークンの追加,(2)グローバル情報のためのメモリボトルネックの生成,(3)専用レイヤによるメモリ更新の制御など,いくつかの拡張を提案する。 我々はこれらのメモリ拡張トランスフォーマーを評価し、メモリの存在が機械翻訳や言語モデリングタスクのモデル性能と正の相関を示す。 メモリトークンを用いた事前学習型マスク付き言語モデルの強化は,GLUEベンチマークによるタスクの混合結果を示している。 メモリ上の注意パターンの可視化は、グローバルコンテキストを処理するモデルの能力を改善することを示唆している。

Transformer-based models have achieved state-of-the-art results in many natural language processing tasks. The self-attention architecture allows transformer to combine information from all elements of a sequence into context-aware representations. However, information about the context is stored mostly in the same element-wise representations. This might limit the processing of properties related to the sequence as a whole more difficult. Adding trainable memory to selectively store local as well as global representations of a sequence is a promising direction to improve the Transformer model. Memory-augmented neural networks (MANNs) extend traditional neural architectures with general-purpose memory for representations. MANNs have demonstrated the capability to learn simple algorithms like Copy or Reverse and can be successfully trained via backpropagation on diverse tasks from question answering to language modeling outperforming RNNs and LSTMs of comparable complexity. In this work, we propose and study few extensions of the Transformer baseline (1) by adding memory tokens to store non-local representations, (2) creating memory bottleneck for the global information, (3) controlling memory update with dedicated layer. We evaluate these memory augmented Transformers and demonstrate that presence of memory positively correlates with the model performance for machine translation and language modelling tasks. Augmentation of pre-trained masked language model with memory tokens shows mixed results for tasks from GLUE benchmark. Visualization of attention patterns over the memory suggest that it improves the model's ability to process a global context.
翻訳日:2022-11-18 21:53:56 公開日:2021-02-16
# モンテカルロ木探索における凸正規化

Convex Regularization in Monte-Carlo Tree Search ( http://arxiv.org/abs/2007.00391v3 )

ライセンス: Link先を確認
Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen(参考訳) モンテカルロ計画と強化学習(RL)はシーケンシャルな意思決定に不可欠である。 最近のAlphaGoとAlphaZeroのアルゴリズムは、大規模なシーケンシャルな決定問題を解くためにこれらの2つのパラダイムをうまく組み合わせる方法を示している。 これらの手法は、よく知られたUCTアルゴリズムの変種を利用して、良い行動の搾取と目に見えない状態の探索をトレードオフするが、その実証的な成功は、サンプル効率の低下と高い計算時間によって生じる。 本稿では,モンテカルロ木探索(MCTS)における凸正規化を考慮し,これらの制約を克服する。 まず,mctsにおけるジェネリック凸正規化器の使用に関する統一理論を導入し,後悔分析を導出し,指数収束率の保証を提供する。 第2に,政策更新の相対エントロピーと政策のtsallisエントロピーに基づいて,mtsの新たな正規化バックアップ演算子を導入するための理論的枠組みを活用した。 最後に,alphago と alphazero の操作者について,おもちゃ問題から atari ゲームまで,次元と分岐係数の増大の問題について経験的に評価し,その優越性を示す。

Monte-Carlo planning and Reinforcement Learning (RL) are essential to sequential decision making. The recent AlphaGo and AlphaZero algorithms have shown how to successfully combine these two paradigms in order to solve large scale sequential decision problems. These methodologies exploit a variant of the well-known UCT algorithm to trade off exploitation of good actions and exploration of unvisited states, but their empirical success comes at the cost of poor sample-efficiency and high computation time. In this paper, we overcome these limitations by considering convex regularization in Monte-Carlo Tree Search (MCTS), which has been successfully used in RL to efficiently drive exploration. First, we introduce a unifying theory on the use of generic convex regularizers in MCTS, deriving the regret analysis and providing guarantees of exponential convergence rate. Second, we exploit our theoretical framework to introduce novel regularized backup operators for MCTS, based on the relative entropy of the policy update, and on the Tsallis entropy of the policy. Finally, we empirically evaluate the proposed operators in AlphaGo and AlphaZero on problems of increasing dimensionality and branching factor, from a toy problem to several Atari games, showing their superiority w.r.t. representative baselines.
翻訳日:2022-11-14 21:49:51 公開日:2021-02-16
# 完全交叉カラビ・ヤウ3次元多様体のためのインセプションニューラルネットワーク

Inception Neural Network for Complete Intersection Calabi-Yau 3-folds ( http://arxiv.org/abs/2007.13379v2 )

ライセンス: Link先を確認
Harold Erbin, Riccardo Finotello(参考訳) 我々は,googleのインセプションモデルに触発されたニューラルネットワークを導入し,完全交叉カラビヤウ(cicy)3次元多様体のホッジ数$h^{1,1}$を計算する。 このアーキテクチャは、既存の結果に対する予測の精度を大幅に改善し、トレーニング用のデータのわずか30%で、すでに97%の精度を実現している。 さらに、トレーニングに80%のデータを使用する場合、精度は99%まで上昇する。 このことは、ニューラルネットワークが純粋数学と弦理論の両方の幾何学的側面を研究するための貴重な資源であることを証明している。

We introduce a neural network inspired by Google's Inception model to compute the Hodge number $h^{1,1}$ of complete intersection Calabi-Yau (CICY) 3-folds. This architecture improves largely the accuracy of the predictions over existing results, giving already 97% of accuracy with just 30% of the data for training. Moreover, accuracy climbs to 99% when using 80% of the data for training. This proves that neural networks are a valuable resource to study geometric aspects in both pure mathematics and string theory.
翻訳日:2022-11-06 11:45:15 公開日:2021-02-16
# 二重整合制約付き非教師付きマルチコントラストMR画像デフォルマブル登録のための粗粒間フレームワーク

A coarse-to-fine framework for unsupervised multi-contrast MR image deformable registration with dual consistency constraint ( http://arxiv.org/abs/2008.01896v3 )

ライセンス: Link先を確認
Weijian Huang, Hao Yang, Xinfeng Liu, Cheng Li, Ian Zhang, Rongpin Wang, Hairong Zheng, Shanshan Wang(参考訳) マルチコントラストMRI(Multi-Contrast Magnetic resonance)画像登録は,画像診断と治療計画の迅速かつ正確な実現に有用である。 それでも既存の登録アルゴリズムの効率と性能は改善される。 本稿では,高精度なマルチコントラストMR画像登録を実現するための,教師なし学習に基づく新しいフレームワークを提案する。 特に、アフィンと変形可能な変換からなるエンドツーエンドの粗いネットワークアーキテクチャは、堅牢性を改善し、エンドツーエンドの登録を実現するために設計されている。 さらに、登録性能を高めるために、二重整合制約と新たな知識に基づく損失関数を開発する。 提案手法は, 555例の臨床データを用いて評価され, 有意な成績を上げている。 VoxelMorph, SyN, LT-Netなどの一般的な登録法と比較し, 脳卒中病変の同定においてDiceスコア0.8397でより良い登録性能を実現する。 登録速度に関しては、cpu上でテストする場合、最も競争力のあるsyn(affine)メソッドより約10倍高速である。 また, 本手法は, 臨床応用に高い堅牢性を示すため, スキャン情報の欠如を伴わずに, より困難な課題に対して良好に動作できることを実証する。

Multi-contrast magnetic resonance (MR) image registration is useful in the clinic to achieve fast and accurate imaging-based disease diagnosis and treatment planning. Nevertheless, the efficiency and performance of the existing registration algorithms can still be improved. In this paper, we propose a novel unsupervised learning-based framework to achieve accurate and efficient multi-contrast MR image registrations. Specifically, an end-to-end coarse-to-fine network architecture consisting of affine and deformable transformations is designed to improve the robustness and achieve end-to-end registration. Furthermore, a dual consistency constraint and a new prior knowledge-based loss function are developed to enhance the registration performances. The proposed method has been evaluated on a clinical dataset containing 555 cases, and encouraging performances have been achieved. Compared to the commonly utilized registration methods, including VoxelMorph, SyN, and LT-Net, the proposed method achieves better registration performance with a Dice score of 0.8397 in identifying stroke lesions. With regards to the registration speed, our method is about 10 times faster than the most competitive method of SyN (Affine) when testing on a CPU. Moreover, we prove that our method can still perform well on more challenging tasks with lacking scanning information data, showing high robustness for the clinical application.
翻訳日:2022-11-02 18:38:50 公開日:2021-02-16
# Ortus:(人工)バイオインテリジェンスに対する感情駆動アプローチ

Ortus: an Emotion-Driven Approach to (artificial) Biological Intelligence ( http://arxiv.org/abs/2008.04875v2 )

ライセンス: Link先を確認
Andrew W.E. McDonald, Sean Grimes, David E. Breen(参考訳) ortusはシンプルな仮想生物で、生物ベースの人工知能の研究と開発のための初期フレームワークとしても機能する。 複雑な仮想知能を創造し、c. elegansをモデル化する最初の試みから生まれたortusは、有機神経系で観察される多くのメカニズムを実装し、生物学的実装と心理的観察に基づいて未知の情報を満たそうとする。 実装されたメカニズムには、興奮的および抑制的な化学シナプス、双方向ギャップジャンクション、およびステント拡張によるヘビアン学習が含まれる。 本稿では,ortusの基本原理,特に循環呼吸回路,および入力刺激に対する感情駆動連想学習を示す最初の実験について述べる。 最後に,ortusおよび類似システムの意義と今後の方向性について考察する。

Ortus is a simple virtual organism that also serves as an initial framework for investigating and developing biologically-based artificial intelligence. Born from a goal to create complex virtual intelligence and an initial attempt to model C. elegans, Ortus implements a number of mechanisms observed in organic nervous systems, and attempts to fill in unknowns based upon plausible biological implementations and psychological observations. Implemented mechanisms include excitatory and inhibitory chemical synapses, bidirectional gap junctions, and Hebbian learning with its Stentian extension. We present an initial experiment that showcases Ortus' fundamental principles; specifically, a cyclic respiratory circuit, and emotionally-driven associative learning with respect to an input stimulus. Finally, we discuss the implications and future directions for Ortus and similar systems.
翻訳日:2022-10-31 11:45:54 公開日:2021-02-16
# 強化学習による生成設計:トポロジ最適化設計の多様性を高める

Generative Design by Reinforcement Learning: Enhancing the Diversity of Topology Optimization Designs ( http://arxiv.org/abs/2008.07119v2 )

ライセンス: Link先を確認
Seowoo Jang, Soyoung Yoo, Namwoo Kang(参考訳) ジェネレーティブデザイン(Generative Design)とは、デザイナが定義した制約の下で自動的に設計探索を行う計算設計手法である。 多くのアプローチの中で、トポロジ最適化に基づく生成設計は、従来のパラメトリック設計では表現できない様々なトポロジ設計を探求することを目的としている。 近年、データ駆動トポロジー最適化研究は、ディープラーニングや機械学習などの人工知能を利用して、デザイン探索の能力を向上させる。 本研究では、トポロジー設計の多様性を最大化する報酬関数を備えた強化学習(RL)に基づく生成設計プロセスを提案する。 我々は、与えられた基準設計に従って最適な設計パラメータの組み合わせを見つけるための逐次問題として生成設計を定式化する。 近位政策最適化は学習フレームワークとして用いられ、自動車の車輪設計問題のケーススタディで実証されている。 RLの定式化に必要なホイールトポロジー最適化プロセスの計算負荷を軽減するため,ニューラルネットワークによる最適化処理を近似した。 効率的なデータプリプロセッシング/オーグメンテーションとニューラルネットワークアーキテクチャにより、ニューラルネットワークは、一般的なパフォーマンスと対称性保存特性を達成する。 RLをベースとした生成設計は,GPUを完全自動で活用することにより,短時間で多数の多様な設計を実現できることを示す。 従来のCPUを使ったアプローチとは大きく異なり、処理時間が大きくなり、人間の介入が伴う。

Generative design refers to computational design methods that can automatically conduct design exploration under constraints defined by designers. Among many approaches, topology optimization-based generative designs aim to explore diverse topology designs, which cannot be represented by conventional parametric design approaches. Recently, data-driven topology optimization research has started to exploit artificial intelligence, such as deep learning or machine learning, to improve the capability of design exploration. This study proposes a reinforcement learning (RL) based generative design process, with reward functions maximizing the diversity of topology designs. We formulate generative design as a sequential problem of finding optimal design parameter combinations in accordance with a given reference design. Proximal Policy Optimization is used as the learning framework, which is demonstrated in the case study of an automotive wheel design problem. To reduce the heavy computational burden of the wheel topology optimization process required by our RL formulation, we approximate the optimization process with neural networks. With efficient data preprocessing/augmentation and neural architecture, the neural networks achieve a generalized performance and symmetricity-reserving characteristics. We show that RL-based generative design produces a large number of diverse designs within a short inference time by exploiting GPU in a fully automated manner. It is different from the previous approach using CPU which takes much more processing time and involving human intervention.
翻訳日:2022-10-28 03:50:57 公開日:2021-02-16
# 雑音・部分観測によるカオス・確率力学系の同定と再構成のための変分深度学習

Variational Deep Learning for the Identification and Reconstruction of Chaotic and Stochastic Dynamical Systems from Noisy and Partial Observations ( http://arxiv.org/abs/2009.02296v6 )

ライセンス: Link先を確認
Duong Nguyen, Said Ouala, Lucas Drumetz and Ronan Fablet(参考訳) データ駆動型動的システムの未知の支配方程式の回復は、最近ますます関心を集めている。 しかしながら、制御方程式の同定は、ノイズと部分的観測を扱う場合、依然として困難である。 本稿では,この課題に対処し,変分深層学習方式について検討する。 提案フレームワークでは,一連のノイズや部分的なデータから,システムの真の状態とそれらの状態の統治法則を再構築する推論モデルを共同で学習する。 このフレームワークは、古典的なデータ同化と最先端の機械学習技術を橋渡しする。 また、最先端の手法を一般化することを示した。 重要なことは、推論モデルと支配モデルの両方に確率的要素が組み込まれ、確率的変動、モデルエラー、不確実性を考慮に入れていることである。 カオス力学系および確率力学系に関する様々な実験は、我々のスキーム w.r.t. state-of-art 手法の妥当性を裏付けている。

The data-driven recovery of the unknown governing equations of dynamical systems has recently received an increasing interest. However, the identification of governing equations remains challenging when dealing with noisy and partial observations. Here, we address this challenge and investigate variational deep learning schemes. Within the proposed framework, we jointly learn an inference model to reconstruct the true states of the system and the governing laws of these states from series of noisy and partial data. In doing so, this framework bridges classical data assimilation and state-of-the-art machine learning techniques. We also demonstrate that it generalises state-of-the-art methods. Importantly, both the inference model and the governing model embed stochastic components to account for stochastic variabilities, model errors, and reconstruction uncertainties. Various experiments on chaotic and stochastic dynamical systems support the relevance of our scheme w.r.t. state-of-the-art approaches.
翻訳日:2022-10-22 01:52:41 公開日:2021-02-16
# グループ教師付き学習によるゼロショット合成

Zero-shot Synthesis with Group-Supervised Learning ( http://arxiv.org/abs/2009.06586v3 )

ライセンス: Link先を確認
Yunhao Ge, Sami Abu-El-Haija, Gan Xin and Laurent Itti(参考訳) 霊長類の視覚認知は、ポーズ、位置、色、テクスチャなどの異なる特性で、新たに導入されたものでさえ、視覚オブジェクトを「強調」する能力において、人工ニューラルネットワークよりも優れている。 ニューラルネットワークがさまざまな属性を持つオブジェクトを想定するのを助けるために,GSL(Group-Supervised Learning)と呼ばれる新しい学習フレームワークとして,サンプル群に表現された目的関数のファミリーを提案する。 GSLは、入力をスワップ可能なコンポーネントで切り離した表現に分解し、新しいサンプルを合成するために再結合することができる。 例えば、赤いボートと青い車のイメージを分解して再結合することで、赤い車の新しいイメージを合成することができる。 本稿では,学習フレームワークを用いたグループ教師付きゼロショット合成ネットワーク(gzs-net,group-supervised zero-shot synthesis network)と呼ばれるオートエンコーダに基づく実装を提案する。 私たちは、新しいデータセットに加えて、既存のベンチマークでモデルと学習フレームワークをテストします。 GSLで訓練したGZS-Netが最先端の手法より優れていることを示す。

Visual cognition of primates is superior to that of artificial neural networks in its ability to 'envision' a visual object, even a newly-introduced one, in different attributes including pose, position, color, texture, etc. To aid neural networks to envision objects with different attributes, we propose a family of objective functions, expressed on groups of examples, as a novel learning framework that we term Group-Supervised Learning (GSL). GSL allows us to decompose inputs into a disentangled representation with swappable components, that can be recombined to synthesize new samples. For instance, images of red boats & blue cars can be decomposed and recombined to synthesize novel images of red cars. We propose an implementation based on auto-encoder, termed group-supervised zero-shot synthesis network (GZS-Net) trained with our learning framework, that can produce a high-quality red car even if no such example is witnessed during training. We test our model and learning framework on existing benchmarks, in addition to anew dataset that we open-source. We qualitatively and quantitatively demonstrate that GZS-Net trained with GSL outperforms state-of-the-art methods.
翻訳日:2022-10-18 11:25:13 公開日:2021-02-16
# DANCE: 異なるアクセラレータ/ネットワークの共同探索

DANCE: Differentiable Accelerator/Network Co-Exploration ( http://arxiv.org/abs/2009.06237v3 )

ライセンス: Link先を確認
Kanghyun Choi, Deokki Hong, Hojae Yoon, Joonsang Yu, Youngsok Kim, Jinho Lee(参考訳) 最近のニューラルネットワークサーチ(NAS)アルゴリズムは、DNN実行の計算要求の増加に対処するため、GPUレイテンシなどのハードウェアコストメトリクスを考慮に入れている。 さらに高速で効率的な実行を追求するため、DNN特化ハードウェアアクセラレータは、GPUの効率をはるかに上回る複数の目的のために設計されている。 しかしながら、これらのハードウェア関連メトリクスは、ネットワークアーキテクチャと非線形関係を示すことが証明されている。 そのため、加速器に対してネットワークを最適化するか、ネットワークに対して加速器を最適化するかという問題が発生した。 このような状況下で、ハードウェアアクセラレーターとネットワークアーキテクチャ設計の共同探索に向けた異なるアプローチであるDANCEを提示する。 DANCEの中心は差別化可能な評価ネットワークである。 ハードウェア評価ソフトウェアをニューラルネットワークでモデル化することにより、アクセラレーションアーキテクチャとハードウェアメトリクスの関係を微分可能とし、バックプロパゲーションにより探索を行うことができる。 既存手法と比較すると,提案手法は精度とハードウェアコストの指標を向上しつつ,非常に短時間で共同探索を行う。

To cope with the ever-increasing computational demand of the DNN execution, recent neural architecture search (NAS) algorithms consider hardware cost metrics into account, such as GPU latency. To further pursue a fast, efficient execution, DNN-specialized hardware accelerators are being designed for multiple purposes, which far-exceeds the efficiency of the GPUs. However, those hardware-related metrics have been proven to exhibit non-linear relationships with the network architectures. Therefore it became a chicken-and-egg problem to optimize the network against the accelerator, or to optimize the accelerator against the network. In such circumstances, this work presents DANCE, a differentiable approach towards the co-exploration of the hardware accelerator and network architecture design. At the heart of DANCE is a differentiable evaluator network. By modeling the hardware evaluation software with a neural network, the relation between the accelerator architecture and the hardware metrics becomes differentiable, allowing the search to be performed with backpropagation. Compared to the naive existing approaches, our method performs co-exploration in a significantly shorter time, while achieving superior accuracy and hardware cost metrics.
翻訳日:2022-10-18 11:13:09 公開日:2021-02-16
# 異なる個人的フェデレーション学習のための投票に基づくアプローチ

Voting-based Approaches For Differentially Private Federated Learning ( http://arxiv.org/abs/2010.04851v2 )

ライセンス: Link先を確認
Yuqing Zhu, Xiang Yu, Yi-Hsuan Tsai, Francesco Pittaluga, Masoud Faraki, Manmohan chandraker and Yu-Xiang Wang(参考訳) Differentially Private Federated Learning (DPFL)は、多くのアプリケーションを持つ新興分野である。 勾配平均法に基づくdpfl法はコストのかかる通信ラウンドを必要とし、追加ノイズの明示的な次元依存性のため、大容量モデルでは動作しない。 本研究は,Papernotらによる非フェデレーションプライバシ学習にインスパイアされた。 (2017; 2018)では,次元依存を回避し通信コストを大幅に削減する勾配を平均化する代わりに,各局所モデルから返却したデータラベル間で投票を行うことにより,DPFL方式を2つ設計する。 理論的には、セキュアなマルチパーティ計算を適用することで、投票スコアのマージンが大きい場合に(データに依存しない)プライバシー保証を指数関数的に増幅することができる。 我々のアプローチはDPFLの最先端技術に対するプライバシーとユーティリティのトレードオフを大幅に改善することを示している。

Differentially Private Federated Learning (DPFL) is an emerging field with many applications. Gradient averaging based DPFL methods require costly communication rounds and hardly work with large-capacity models, due to the explicit dimension dependence in its added noise. In this work, inspired by knowledge transfer non-federated privacy learning from Papernot et al.(2017; 2018), we design two new DPFL schemes, by voting among the data labels returned from each local model, instead of averaging the gradients, which avoids the dimension dependence and significantly reduces the communication cost. Theoretically, by applying secure multi-party computation, we could exponentially amplify the (data-dependent) privacy guarantees when the margin of the voting scores are large. Extensive experiments show that our approaches significantly improve the privacy-utility trade-off over the state-of-the-arts in DPFL.
翻訳日:2022-10-09 06:35:27 公開日:2021-02-16
# 表現融合によるクロスドメインFew-Shot学習

Cross-Domain Few-Shot Learning by Representation Fusion ( http://arxiv.org/abs/2010.06498v2 )

ライセンス: Link先を確認
Thomas Adler, Johannes Brandstetter, Michael Widrich, Andreas Mayr, David Kreil, Michael Kopp, G\"unter Klambauer, Sepp Hochreiter(参考訳) 新しいデータに迅速に適応するために、少数ショット学習は、しばしば既に取得した知識を使用して、少数の例から学習することを目的としている。 新しいデータは、ドメインシフト、すなわち入力ターゲット分布の変化によって、これまで見られたデータとは異なることが多い。 いくつかのメソッドは、同様の入力を持つ新しいターゲットクラスのような小さなドメインシフトでうまく機能するが、より大きなドメインシフトは依然として難しい。 大きなドメインシフトは、元のドメインと新しいドメインの間で共有されないハイレベルな概念をもたらす可能性があるが、画像内のエッジのような低レベルな概念は依然として共有され、有用である。 クロスドメインの少数ショット学習では、ディープニューラルネットワークの異なる抽象レベルを1つの表現に統一する表現融合を提案する。 深層ニューラルネットワークの異なる層に作用するヘビアン学習者のアンサンブルによる表現融合を実現するクロスドメイン・ヘビアン・アンサンブルFew-shot Learning (CHEF)を提案する。 アブレーション研究は、表現融合がクロスドメインの少数ショット学習を促進する決定的な要因であることを示している。 少数のデータセットである miniImagenet と tieredImagenet と小さなドメインシフトでは、CHEF は最先端のメソッドと競合する。 より大きなドメインシフトを伴うドメイン間数ショットベンチマークの課題に対して、CHEFはすべてのカテゴリで新しい最先端の結果を確立している。 さらに、医薬品発見における現実世界のクロスドメイン応用にCHEFを適用した。 生物活性分子から環境化学物質や薬物への12の毒性予測タスクの領域シフトを検討する。 これらのタスクでは、計算薬の発見に非常に関係があるが、CHEFは競合する全てのものよりも大幅に優れている。 github: https://github.com/ml-jku/chef

In order to quickly adapt to new data, few-shot learning aims at learning from few examples, often by using already acquired knowledge. The new data often differs from the previously seen data due to a domain shift, that is, a change of the input-target distribution. While several methods perform well on small domain shifts like new target classes with similar inputs, larger domain shifts are still challenging. Large domain shifts may result in high-level concepts that are not shared between the original and the new domain, whereas low-level concepts like edges in images might still be shared and useful. For cross-domain few-shot learning, we suggest representation fusion to unify different abstraction levels of a deep neural network into one representation. We propose Cross-domain Hebbian Ensemble Few-shot learning (CHEF), which achieves representation fusion by an ensemble of Hebbian learners acting on different layers of a deep neural network. Ablation studies show that representation fusion is a decisive factor to boost cross-domain few-shot learning. On the few-shot datasets miniImagenet and tieredImagenet with small domain shifts, CHEF is competitive with state-of-the-art methods. On cross-domain few-shot benchmark challenges with larger domain shifts, CHEF establishes novel state-of-the-art results in all categories. We further apply CHEF on a real-world cross-domain application in drug discovery. We consider a domain shift from bioactive molecules to environmental chemicals and drugs with twelve associated toxicity prediction tasks. On these tasks, that are highly relevant for computational drug discovery, CHEF significantly outperforms all its competitors. Github: https://github.com/ml-jku/chef
翻訳日:2022-10-08 00:24:27 公開日:2021-02-16
# ニューラルメッセージパッシングのためのパスファインダー発見ネットワーク

Pathfinder Discovery Networks for Neural Message Passing ( http://arxiv.org/abs/2010.12878v2 )

ライセンス: Link先を確認
Benedek Rozemberczki, Peter Englert, Amol Kapoor, Martin Blais, Bryan Perozzi(参考訳) 本研究では,下流半教師付きモデルを用いたマルチプレックスネットワーク上でメッセージパッシンググラフを共同学習する手法であるパスファインダーディスカバリネットワーク(pdns)を提案する。 PDNは各エッジの集約重みを誘導的に学習し、下流学習タスクに最適な結果をもたらすように最適化する。 PDNはグラフ上の注意機構の一般化であり、ノード間の類似性関数、エッジ畳み込み、安価なマルチスケール混合層を柔軟に構築することができる。 本研究では,pdnsが既存のグラフ注目手法(グラフ注意ネットワークなど)の弱点を克服していることを示す。 実験結果は,アカデミックノード分類タスクにおける競合予測性能を示す。 ノード分類実験の挑戦的なスイートによる追加結果は、PDNが既存のベースラインよりも広いクラスの関数を学習できることを示している。 我々はPDNの相対計算複雑性を解析し、PDNランタイムが静的グラフモデルよりもかなり高くないことを示す。 最後に、ユーザがグラフ内の情報伝達を理解できるように、PDNを用いて容易に解釈可能なアテンションメカニズムを構築する方法について論じる。

In this work we propose Pathfinder Discovery Networks (PDNs), a method for jointly learning a message passing graph over a multiplex network with a downstream semi-supervised model. PDNs inductively learn an aggregated weight for each edge, optimized to produce the best outcome for the downstream learning task. PDNs are a generalization of attention mechanisms on graphs which allow flexible construction of similarity functions between nodes, edge convolutions, and cheap multiscale mixing layers. We show that PDNs overcome weaknesses of existing methods for graph attention (e.g. Graph Attention Networks), such as the diminishing weight problem. Our experimental results demonstrate competitive predictive performance on academic node classification tasks. Additional results from a challenging suite of node classification experiments show how PDNs can learn a wider class of functions than existing baselines. We analyze the relative computational complexity of PDNs, and show that PDN runtime is not considerably higher than static-graph models. Finally, we discuss how PDNs can be used to construct an easily interpretable attention mechanism that allows users to understand information propagation in the graph.
翻訳日:2022-10-03 12:25:53 公開日:2021-02-16
# 非自己回帰型エンドツーエンドASRのためのマスクCTCの改良

Improved Mask-CTC for Non-Autoregressive End-to-End ASR ( http://arxiv.org/abs/2010.13270v2 )

ライセンス: Link先を確認
Yosuke Higuchi, Hirofumi Inaguma, Shinji Watanabe, Tetsuji Ogawa, Tetsunori Kobayashi(参考訳) 自動音声認識(ASR)の現実的な展開には,計算資源の要求を軽減しつつ,高速な推論が可能であることが望まれる。 最近提案されたマスク予測とコネクショナリズム時間分類(CTC)に基づくエンドツーエンドのASRシステムであるMask-CTCは、トークンを非自己回帰的に生成することでこの要求を満たす。 Mask-CTCは驚くほど高速な推論速度を実現するが、認識性能は従来の自己回帰(AR)システムに劣る。 Mask-CTCの性能向上を目的として,最近提案されたConformerアーキテクチャを用いて,エンコーダネットワークアーキテクチャの強化を提案する。 次に,モデルが推論中にトークンを削除または挿入できるようにする部分的ターゲットシーケンスの長さを予測するための補助的目的を導入することで,新たなトレーニングとデコード手法を提案する。 異なるASRタスクに対する実験結果から、提案手法はMask-CTCを大幅に改善し、標準的なCTCモデル(WSJでは15.5%$\rightarrow$9.1% WER)を上回った。 さらに、Mask-CTCは推論速度を低下させることなく(CPUを使用した0.1 RTF)ARモデルと競合する結果が得られる。 また,Msk-CTCのエンドツーエンド音声翻訳への応用の可能性を示す。

For real-world deployment of automatic speech recognition (ASR), the system is desired to be capable of fast inference while relieving the requirement of computational resources. The recently proposed end-to-end ASR system based on mask-predict with connectionist temporal classification (CTC), Mask-CTC, fulfills this demand by generating tokens in a non-autoregressive fashion. While Mask-CTC achieves remarkably fast inference speed, its recognition performance falls behind that of conventional autoregressive (AR) systems. To boost the performance of Mask-CTC, we first propose to enhance the encoder network architecture by employing a recently proposed architecture called Conformer. Next, we propose new training and decoding methods by introducing auxiliary objective to predict the length of a partial target sequence, which allows the model to delete or insert tokens during inference. Experimental results on different ASR tasks show that the proposed approaches improve Mask-CTC significantly, outperforming a standard CTC model (15.5% $\rightarrow$ 9.1% WER on WSJ). Moreover, Mask-CTC now achieves competitive results to AR models with no degradation of inference speed ($<$ 0.1 RTF using CPU). We also show a potential application of Mask-CTC to end-to-end speech translation.
翻訳日:2022-10-02 19:51:12 公開日:2021-02-16
# 生成的芸術におけるバイアス ---美術史のレンズからの因果的考察-

Biases in Generative Art -- A Causal Look from the Lens of Art History ( http://arxiv.org/abs/2010.13266v2 )

ライセンス: Link先を確認
Ramya Srinivasan, Kanji Uchino(参考訳) 人工知能(AI)の急速な進歩により、生成技術の普及が著しく進んでいる。 絵画の作成から新しいアートスタイルの生成に至るまで、AIベースの生成アートはさまざまな応用を披露してきた。 しかし、AIベースの生成芸術の倫理的影響についてはほとんど注目されていない。 本研究では,アルゴリズム設計に関連する問題定式化の不適切な問題から生じる問題から,生成的aiパイプラインのバイアスについて検討する。 美術史のレンズから,これらのバイアスの社会文化的影響について考察する。 因果モデルを活用することで,現在の手法がアート創造の過程をモデル化するのにいかに不足しているかを強調し,様々なバイアスに寄与する。 ケーススタディ、特にスタイル転送に関するケーススタディでも同じことを示します。 私たちの知る限りでは、これは、生成的アートAIパイプラインのバイアスを美術史の観点から調査する、初めての広範な分析である。 生成芸術のアカウンタビリティに関する学際的な議論に火を付けることを願っている。

With rapid progress in artificial intelligence (AI), popularity of generative art has grown substantially. From creating paintings to generating novel art styles, AI based generative art has showcased a variety of applications. However, there has been little focus concerning the ethical impacts of AI based generative art. In this work, we investigate biases in the generative art AI pipeline right from those that can originate due to improper problem formulation to those related to algorithm design. Viewing from the lens of art history, we discuss the socio-cultural impacts of these biases. Leveraging causal models, we highlight how current methods fall short in modeling the process of art creation and thus contribute to various types of biases. We illustrate the same through case studies, in particular those related to style transfer. To the best of our knowledge, this is the first extensive analysis that investigates biases in the generative art AI pipeline from the perspective of art history. We hope our work sparks interdisciplinary discussions related to accountability of generative art.
翻訳日:2022-10-02 19:05:43 公開日:2021-02-16
# グラフに基づく時間分類による半教師あり音声認識

Semi-Supervised Speech Recognition via Graph-based Temporal Classification ( http://arxiv.org/abs/2010.15653v2 )

ライセンス: Link先を確認
Niko Moritz, Takaaki Hori, Jonathan Le Roux(参考訳) 半教師付き学習は、ラベルなしデータに擬似ラベルを用いたシードasrモデルを用いた自己学習による自動音声認識(asr)において有望な結果を示している。 このアプローチの有効性は、通常、1-best ASR仮説のみを使用する擬似ラベルの精度に大きく依存する。 しかし、N-bestリストの代替ASR仮説は、ラベルなし音声のラベルをより正確に提供し、シードASRモデルの不確実性を反映することができる。 本稿では,学習ラベルのグラフ表現を受け入れるコネクショニスト時間分類(CTC)の汎用形式を提案する。 新たに提案したグラフベース時間分類(GTC)は,擬似ラベルのN-bestリストから生成したWFSTによる自己学習に応用される。 この設定では、gtcはctcと同様に時間的アライメントだけでなく、重み付きグラフから最適な擬似ラベル配列を得るためのラベルアライメントを学ぶために使われる。 提案手法は,N-bestリストの最良の仮説を手動で選択するオラクル実験にアプローチすることで,標準的な擬似ラベルよりもかなり優れたスコアを持つN-bestリストを効果的に活用できることを示す。

Semi-supervised learning has demonstrated promising results in automatic speech recognition (ASR) by self-training using a seed ASR model with pseudo-labels generated for unlabeled data. The effectiveness of this approach largely relies on the pseudo-label accuracy, for which typically only the 1-best ASR hypothesis is used. However, alternative ASR hypotheses of an N-best list can provide more accurate labels for an unlabeled speech utterance and also reflect uncertainties of the seed ASR model. In this paper, we propose a generalized form of the connectionist temporal classification (CTC) objective that accepts a graph representation of the training labels. The newly proposed graph-based temporal classification (GTC) objective is applied for self-training with WFST-based supervision, which is generated from an N-best list of pseudo-labels. In this setup, GTC is used to learn not only a temporal alignment, similarly to CTC, but also a label alignment to obtain the optimal pseudo-label sequence from the weighted graph. Results show that this approach can effectively exploit an N-best list of pseudo-labels with associated scores, considerably outperforming standard pseudo-labeling, with ASR results approaching an oracle experiment in which the best hypotheses of the N-best lists are selected manually.
翻訳日:2022-10-01 22:27:20 公開日:2021-02-16
# Augmented Simulation を用いた複雑・リアルタイム物理問題解決のためのデータ効率学習

Data-Efficient Learning for Complex and Real-Time Physical Problem Solving using Augmented Simulation ( http://arxiv.org/abs/2011.07193v2 )

ライセンス: Link先を確認
Kei Ota, Devesh K. Jha, Diego Romeres, Jeroen van Baar, Kevin A. Smith, Takayuki Semitsu, Tomoaki Oiki, Alan Sullivan, Daniel Nikovski, and Joshua B. Tenenbaum(参考訳) 人間は複雑なダイナミクスを持つ新しいシステムのタスクを素早く解き、多くの相互作用を必要としない。 深層強化学習アルゴリズムは多くの複雑なタスクで大きな成功を収めているが、これらのアルゴリズムは有意義なポリシーを学ぶために大量のサンプルを必要とする。 本稿では,円迷路の中央に大理石を移動させる作業について述べる。 このシステムは人間にとって非常に直感的で容易に解けるが、標準的な強化学習アルゴリズムが意味のあるポリシーを学ぶのは非常に困難で非効率である。 実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。 学習は物理エンジンを初期化し、実システムからのデータを用いてパラメータを推定する。 物理エンジンの誤差は、実際の観測と物理エンジンシミュレーションの間の残差をモデル化するために使用されるガウス過程回帰を用いて補正される。 残留モデルで拡張された物理エンジンは、後退地平線上のモデル予測フィードバックを用いて迷路環境における大理石の制御に使用される。 我々の知る限りでは、非線形モデル予測制御(nmpc)を用いて複雑な物理系をリアルタイムに制御するために、統計関数近似器と共に完全な物理エンジンからなるハイブリッドモデルが使用されたのはこれが初めてである。

Humans quickly solve tasks in novel systems with complex dynamics, without requiring much interaction. While deep reinforcement learning algorithms have achieved tremendous success in many complex tasks, these algorithms need a large number of samples to learn meaningful policies. In this paper, we present a task for navigating a marble to the center of a circular maze. While this system is very intuitive and easy for humans to solve, it can be very difficult and inefficient for standard reinforcement learning algorithms to learn meaningful policies. We present a model that learns to move a marble in the complex environment within minutes of interacting with the real system. Learning consists of initializing a physics engine with parameters estimated using data from the real system. The error in the physics engine is then corrected using Gaussian process regression, which is used to model the residual between real observations and physics engine simulations. The physics engine augmented with the residual model is then used to control the marble in the maze environment using a model-predictive feedback over a receding horizon. To the best of our knowledge, this is the first time that a hybrid model consisting of a full physics engine along with a statistical function approximator has been used to control a complex physical system in real-time using nonlinear model-predictive control (NMPC).
翻訳日:2022-09-25 13:19:19 公開日:2021-02-16
# 不確かさ駆動型自己学習による音声認識のための教師なしドメイン適応

Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training ( http://arxiv.org/abs/2011.13439v2 )

ライセンス: Link先を確認
Sameer Khurana, Niko Moritz, Takaaki Hori, Jonathan Le Roux(参考訳) 自動音声認識(asr)システムの性能は、トレーニングとテストデータドメインがミスマッチした場合に著しく低下する。 本稿では,不確実性に基づく擬似ラベルフィルタリング手法を併用した自己学習(ST)が,ドメイン適応に有効であることを示す。 本研究では,異なるドロップアウト設定で得られたasrシステムの複数予測間の一致を利用して,モデルの予測の不確実性を測定する,ドロップアウトに基づく不確実性駆動型自己学習手法であるダストを提案する。 DUSTはトレーニングから高い不確実性を有する擬似ラベルデータを除外し、フィルタ無しのSTと比較してASR結果を大幅に改善し、トレーニングデータセットの縮小によるトレーニング時間を短縮する。 WSJをソースドメインとし、TED-Lium 3とSWITCHBOARDをターゲットドメインとしたドメイン適応実験により、地上データに基づいてトレーニングされたシステムの性能の最大80%を回復できることを示した。

The performance of automatic speech recognition (ASR) systems typically degrades significantly when the training and test data domains are mismatched. In this paper, we show that self-training (ST) combined with an uncertainty-based pseudo-label filtering approach can be effectively used for domain adaptation. We propose DUST, a dropout-based uncertainty-driven self-training technique which uses agreement between multiple predictions of an ASR system obtained for different dropout settings to measure the model's uncertainty about its prediction. DUST excludes pseudo-labeled data with high uncertainties from the training, which leads to substantially improved ASR results compared to ST without filtering, and accelerates the training time due to a reduced training data set. Domain adaptation experiments using WSJ as a source domain and TED-LIUM 3 as well as SWITCHBOARD as the target domains show that up to 80% of the performance of a system trained on ground-truth data can be recovered.
翻訳日:2022-09-20 08:38:48 公開日:2021-02-16
# (参考訳) ダブル機械学習による動的治療効果の評価(重み付け)

Evaluating (weighted) dynamic treatment effects by double machine learning ( http://arxiv.org/abs/2012.00370v4 )

ライセンス: CC BY 4.0
Hugo Bodory, Martin Huber, Luk\'a\v{s} Laff\'ers(参考訳) 我々は、動的治療の因果効果、すなわち、評価について検討する。 様々な期間における複数の治療シーケンスについて、観測された時変共変量の制御のための2つの機械学習に基づいて、選択-観察-観察の仮定の下でデータ駆動の方法で処理する。 この目的のために, ニーマン・オルトゴナルスコア関数(neyman-orthogonal score function)を用いて, 治療効果推定のロバスト性を, 動的結果と治療モデルの中等度(局所的)な不特定化に導く。 このロバスト性は、高次元共変量の下でも二重機械学習による近似結果と処理モデルを可能にし、データ分割と組み合わせて過度な適合を防止する。 総人口に対する効果推定に加えて,特定のサブグループにおける動的治療効果の評価を許容する重み付け推定についても検討する。 最初の治療期間に治療を受けた人のうちです 本研究は, 比例則条件下での漸近的正規性と$\sqrt{n}$-consistentであることを示し, その有限標本特性についてシミュレーション研究を行った。 最後に,この手法をジョブ・コーポレーション・リサーチに適用し,多数の共変量集合の下で異なる訓練プログラムのシーケンスを評価する。

We consider evaluating the causal effects of dynamic treatments, i.e. of multiple treatment sequences in various periods, based on double machine learning to control for observed, time-varying covariates in a data-driven way under a selection-on-observables assumption. To this end, we make use of so-called Neyman-orthogonal score functions, which imply the robustness of treatment effect estimation to moderate (local) misspecifications of the dynamic outcome and treatment models. This robustness property permits approximating outcome and treatment models by double machine learning even under high dimensional covariates and is combined with data splitting to prevent overfitting. In addition to effect estimation for the total population, we consider weighted estimation that permits assessing dynamic treatment effects in specific subgroups, e.g. among those treated in the first treatment period. We demonstrate that the estimators are asymptotically normal and $\sqrt{n}$-consistent under specific regularity conditions and investigate their finite sample properties in a simulation study. Finally, we apply the methods to the Job Corps study in order to assess different sequences of training programs under a large set of covariates.
翻訳日:2021-05-31 12:46:14 公開日:2021-02-16
# 視覚ベースのドローンが屋外環境に群がる

Vision-based Drone Flocking in Outdoor Environments ( http://arxiv.org/abs/2012.01245v2 )

ライセンス: Link先を確認
Fabian Schilling, Fabrizio Schiano, Dario Floreano(参考訳) 無人機の分散配置は通常、相互検出を単純化するために、車両に搭載されたエージェント間通信や視覚マーカーに依存する。 このレターは、コミュニケーションや視覚マーカーなしでドローンのグループをナビゲートできるビジョンベースの検出と追跡アルゴリズムを提案する。 我々は畳み込みニューラルネットワークを用いてクワッドコプターの近傍のエージェントをリアルタイムで検出・ローカライズする。 データセットを手動でラベル付けするのではなく、静止カメラの前でクワッドコプターを系統的に飛行させることで、背景減算を使ってニューラルネットワークをトレーニングするために自動的に画像に注釈を付けます。 マルチエージェント状態トラッカーを用いて近接エージェントの相対位置と速度を推定し,その後,高レベル制御のためのフラッキングアルゴリズムに供給する。 ドローンには全方向の視覚入力を提供する複数のカメラが搭載されている。 カメラ設定は、エージェント構成によらず盲点を回避し、群れの安全性を確保する。 本手法は,提案手法を用いて制御される3つの実クワッドコプター群を用いて評価する。 その結果、背景が乱雑で照明が難しいにもかかわらず、ドローンは屋外環境で安全に航行できることがわかった。 ソースコード、イメージデータセット、トレーニングされた検出モデルはhttps://github.com/lis-epfl/vswarm.comで入手できる。

Decentralized deployment of drone swarms usually relies on inter-agent communication or visual markers that are mounted on the vehicles to simplify their mutual detection. This letter proposes a vision-based detection and tracking algorithm that enables groups of drones to navigate without communication or visual markers. We employ a convolutional neural network to detect and localize nearby agents onboard the quadcopters in real-time. Rather than manually labeling a dataset, we automatically annotate images to train the neural network using background subtraction by systematically flying a quadcopter in front of a static camera. We use a multi-agent state tracker to estimate the relative positions and velocities of nearby agents, which are subsequently fed to a flocking algorithm for high-level control. The drones are equipped with multiple cameras to provide omnidirectional visual inputs. The camera setup ensures the safety of the flock by avoiding blind spots regardless of the agent configuration. We evaluate the approach with a group of three real quadcopters that are controlled using the proposed vision-based flocking algorithm. The results show that the drones can safely navigate in an outdoor environment despite substantial background clutter and difficult lighting conditions. The source code, image dataset, and trained detection model are available at https://github.com/lis-epfl/vswarm.
翻訳日:2021-05-25 04:07:05 公開日:2021-02-16
# (参考訳) 自己組織現象としての弦締め:最短ホモトピックパス,平滑パス,凸ハルの計算

String Tightening as a Self-Organizing Phenomenon: Computation of Shortest Homotopic Path, Smooth Path, and Convex Hull ( http://arxiv.org/abs/2012.06513v2 )

ライセンス: CC BY 4.0
Bonny Banerjee(参考訳) 自己組織化の現象は、数十年間、ニューラルネットワークコミュニティに特に関心を寄せてきた。 本稿では,弦を一方あるいは両端から締め付ける際に,弦を形成する粒子の自己組織化現象をモデル化した自己組織化マップ(SOM)の変種について検討する。 提案した変種は、ストリングタイニング自己組織化ニューラルネットワーク(STON)と呼ばれ、最短ホモトピーパスの計算、鋭い旋回を避けるための滑らかな経路、凸殻の計算など、いくつかの実用的な問題を解決するために使用できる。 これらの問題は、計算幾何学、ロボティクス経路計画、AI(ダイアグラム推論)、VLSIルーティング、地理情報システムにかなりの関心を持っている。 障害物の集合と2次元空間に2つの固定された終点を持つ弦が与えられると、ストンモデルはユークリッド計量の観点で一意に短い構成に達するまで弦を連続的に引き締める。 STONは、競合的な方法で特徴ベクトルを動的に生成し、選択することにより、収束における文字列の総長さを最小化する。 このアルゴリズムの正しさの証明と,その展開によって得られた実験結果について述べる。

The phenomenon of self-organization has been of special interest to the neural network community for decades. In this paper, we study a variant of the Self-Organizing Map (SOM) that models the phenomenon of self-organization of the particles forming a string when the string is tightened from one or both ends. The proposed variant, called the String Tightening Self-Organizing Neural Network (STON), can be used to solve certain practical problems, such as computation of shortest homotopic paths, smoothing paths to avoid sharp turns, and computation of convex hull. These problems are of considerable interest in computational geometry, robotics path planning, AI (diagrammatic reasoning), VLSI routing, and geographical information systems. Given a set of obstacles and a string with two fixed terminal points in a two dimensional space, the STON model continuously tightens the given string until the unique shortest configuration in terms of the Euclidean metric is reached. The STON minimizes the total length of a string on convergence by dynamically creating and selecting feature vectors in a competitive manner. Proof of correctness of this anytime algorithm and experimental results obtained by its deployment are presented in the paper.
翻訳日:2021-05-11 04:56:37 公開日:2021-02-16
# 構造的破壊を伴う時系列学習のための2次手法の証明と追加実験

Proofs and additional experiments on Second order techniques for learning time-series with structural breaks ( http://arxiv.org/abs/2012.08037v2 )

ライセンス: Link先を確認
Takayuki Osogami(参考訳) 我々は,osogami (2021) における構造的ブレークを伴う時系列学習の2次手法で用いられる正規化損失関数の性質に関する補題の完全な証明を提供する。 さらに,本手法の有効性を支持する実験結果を示す。

We provide complete proofs of the lemmas about the properties of the regularized loss function that is used in the second order techniques for learning time-series with structural breaks in Osogami (2021). In addition, we show experimental results that support the validity of the techniques.
翻訳日:2021-05-07 05:35:11 公開日:2021-02-16
# (参考訳) SpaceML: NASAの宇宙技術の発展に向けた市民科学者による分散オープンソース研究

SpaceML: Distributed Open-source Research with Citizen Scientists for the Advancement of Space Technology for NASA ( http://arxiv.org/abs/2012.10610v3 )

ライセンス: CC BY 4.0
Anirudh Koul, Siddha Ganju, Meher Kasam, James Parr(参考訳) 伝統的にアカデミックラボは、現実世界にデプロイできる直接製品ではなく、長期的な価値を持つ発見に重点を置いたオープンエンドな研究を行っている。 一方、業界の研究は、投資に対する商業的リターンが期待されていることから、短期的なタイムラインを持つ現実世界の製品に焦点が当てられている。 どちらの場合も機会は選択的であり、先進的な教育的背景を持つ研究者がしばしば利用できる。 研究はしばしばクローズドドアの後ろで行われ、公開か製品リリースまで秘密にされ、AI再現性の問題が悪化し、この分野の他の人々による将来の研究が遅くなる。 多くの研究機関が特定の分野に集中する傾向があるため、学際的な研究の機会は減少する。 非商業的で大きな公共価値を持つ未調査分野における長期的な大胆な研究は、高い事前リスク、予算制約、ニッチ分野におけるデータと専門家の可用性の欠如など、難しい。 このような長期的な研究を行うことができるのは、少数の企業や資金豊富な研究所だけだ。 分野や資源の爆発的な拡散に注目する研究組織によって、学際研究の成熟の機会は減少する。 これらの例外とは別に、オープンソースコントリビュータを通じて市民科学者が研究対話において積極的な役割を果たす必要がある。 本稿では、NASAのAIアクセラレータであるFrontier Development Labの拡張であるSpaceMLの短いケーススタディを示す。 SpaceMLはオープンソースの研究を配布し、ボランティアの市民科学者に、宇宙とAIの交差点で高い社会価値製品の開発と展開に参加するよう依頼する。

Traditionally, academic labs conduct open-ended research with the primary focus on discoveries with long-term value, rather than direct products that can be deployed in the real world. On the other hand, research in the industry is driven by its expected commercial return on investment, and hence focuses on a real world product with short-term timelines. In both cases, opportunity is selective, often available to researchers with advanced educational backgrounds. Research often happens behind closed doors and may be kept confidential until either its publication or product release, exacerbating the problem of AI reproducibility and slowing down future research by others in the field. As many research organizations tend to exclusively focus on specific areas, opportunities for interdisciplinary research reduce. Undertaking long-term bold research in unexplored fields with non-commercial yet great public value is hard due to factors including the high upfront risk, budgetary constraints, and a lack of availability of data and experts in niche fields. Only a few companies or well-funded research labs can afford to do such long-term research. With research organizations focused on an exploding array of fields and resources spread thin, opportunities for the maturation of interdisciplinary research reduce. Apart from these exigencies, there is also a need to engage citizen scientists through open-source contributors to play an active part in the research dialogue. We present a short case study of SpaceML, an extension of the Frontier Development Lab, an AI accelerator for NASA. SpaceML distributes open-source research and invites volunteer citizen scientists to partake in development and deployment of high social value products at the intersection of space and AI.
翻訳日:2021-05-01 16:12:18 公開日:2021-02-16
# CAMTA:マルチタッチ属性に対する因果注意モデル

CAMTA: Causal Attention Model for Multi-touch Attribution ( http://arxiv.org/abs/2012.11403v2 )

ライセンス: Link先を確認
Sachin Kumar, Garima Gupta, Ranjitha Prasad, Arnab Chatterjee, Lovekesh Vig, Gautam Shroff(参考訳) 広告チャネルは、従来の印刷媒体、看板、ラジオ広告からオンラインデジタル広告(ad)へと進化し、ユーザーはソーシャルネットワーク、ディスプレイ広告、検索などを通じて一連の広告キャンペーンにさらされている。 広告主は新しい広告チャネルから生まれる要求を同時に満たすために広告キャンペーンの設計を再検討する一方で、顧客アクションのシーケンスに基づいて異なるチャンネルのタッチポイント(ビュー、クリック、変換)からの貢献を見積もることも重要である。 このコントリビューション測定のプロセスは、しばしばMTA(Multi-touch Attribution)と呼ばれる。 本研究では,観測データの文脈におけるユーザ個人化MTAのカジュアルな帰属機構である,新しいディープリカレントニューラルネットワークアーキテクチャであるCAMTAを提案する。 CAMTAは、チャンネル割り当てにおける選択バイアスを時間ステップとタッチポイントで最小化する。 さらに、プリチャネル属性を予測するために、ユーザの事前変換動作を原則的に利用する。 提案したMTAモデルを定量的にベンチマークするために,実世界のCriteoデータセットを用いて,CAMTAの予測精度に対して,複数のベースラインと比較して優れた性能を示す。 さらに,予測チャネル属性に基づく予算配分とユーザビヘイビアモデリングの結果も提供する。

Advertising channels have evolved from conventional print media, billboards and radio advertising to online digital advertising (ad), where the users are exposed to a sequence of ad campaigns via social networks, display ads, search etc. While advertisers revisit the design of ad campaigns to concurrently serve the requirements emerging out of new ad channels, it is also critical for advertisers to estimate the contribution from touch-points (view, clicks, converts) on different channels, based on the sequence of customer actions. This process of contribution measurement is often referred to as multi-touch attribution (MTA). In this work, we propose CAMTA, a novel deep recurrent neural network architecture which is a casual attribution mechanism for user-personalised MTA in the context of observational data. CAMTA minimizes the selection bias in channel assignment across time-steps and touchpoints. Furthermore, it utilizes the users' pre-conversion actions in a principled way in order to predict pre-channel attribution. To quantitatively benchmark the proposed MTA model, we employ the real world Criteo dataset and demonstrate the superior performance of CAMTA with respect to prediction accuracy as compared to several baselines. In addition, we provide results for budget allocation and user-behaviour modelling on the predicted channel attribution.
翻訳日:2021-04-27 06:26:53 公開日:2021-02-16
# メタ学習のバックプロパゲーションと改善

Meta Learning Backpropagation And Improving It ( http://arxiv.org/abs/2012.14905v2 )

ライセンス: Link先を確認
Louis Kirsch and J\"urgen Schmidhuber(参考訳) ニューラルネットワーク(nns)を用いたメタ学習には,高速重み制御やハイパーネットワーク,学習ルール,メタリカレントnnなど,多くの概念が提案されている。 我々の可変共有メタラーニング(VS-ML)は、NNにおける単純なウェイトシェアリングとスパーシリティが、強力な学習アルゴリズム(LA)を再利用可能な方法で表現するのに十分であることを示す。 VS-ML RNNと呼ばれるVS-MLのシンプルな実装では、前方モードでRNNを実行するだけで、バックプロパゲーションLAを実装することができる。 バックプロパゲーションを改善し、明示的な勾配計算なしでメタトレーニング分布外のデータセットに一般化する新しいlasをメタ学習することもできる。 イントロスペクションにより,我々のメタ学習LAは,高速な結合を通じて勾配降下と定性的に異なることが判明した。

Many concepts have been proposed for meta learning with neural networks (NNs), e.g., NNs that learn to control fast weights, hyper networks, learned learning rules, and meta recurrent NNs. Our Variable Shared Meta Learning (VS-ML) unifies the above and demonstrates that simple weight-sharing and sparsity in an NN is sufficient to express powerful learning algorithms (LAs) in a reusable fashion. A simple implementation of VS-ML called VS-ML RNN allows for implementing the backpropagation LA solely by running an RNN in forward-mode. It can even meta-learn new LAs that improve upon backpropagation and generalize to datasets outside of the meta training distribution without explicit gradient calculation. Introspection reveals that our meta-learned LAs learn qualitatively different from gradient descent through fast association.
翻訳日:2021-04-18 20:49:18 公開日:2021-02-16
# (参考訳) 胸部X線半監督破壊検出のための適応的非対称ラベルシャーニングによる知識蒸留

Knowledge Distillation with Adaptive Asymmetric Label Sharpening for Semi-supervised Fracture Detection in Chest X-rays ( http://arxiv.org/abs/2012.15359v2 )

ライセンス: CC BY 4.0
Yirui Wang, Kang Zheng, Chi-Tung Chang, Xiao-Yun Zhou, Zhilin Zheng, Lingyun Huang, Jing Xiao, Le Lu, Chien-Hung Liao, Shun Miao(参考訳) 半教師付き学習(ssl)設定による高機能cadモデルのトレーニングに利用可能な医療記録を活用することで,大規模医用画像アノテーションに関わる労働コストの削減が図られている。 sslが広く注目されているにもかかわらず,1)医療記録における疾患の頻度が低いこと,2)医療記録から示される画像レベルの診断を活用できなかった。 どちらもCADモデルのSSL特有の問題である。 そこで本研究では,医療記録から抽出した大規模画像レベルラベルを,専門的アノテートされた地域レベルラベルで拡張した知識蒸留法を提案し,胸部X線(CXR)のリブおよび鎖骨骨折CADモデルを訓練した。 本手法は教師-学生モデルパラダイムを活用し,医学領域に特有なラベル不均衡問題に対処する適応型非対称ラベルシャープニング(AALS)アルゴリズムを特徴とする。 本手法は,無名病院の外傷登録簿から得られたすべてのcxr (n = 65,845) において,リブと鎖骨骨折の9年間 (2008-2016) にわたって広範囲に評価された。 その結果,AUROC 1.63% と FROC 3.74% の差で従来よりも大幅に向上し,0.9318 のレシーバ動作特性曲線(AUROC) と0.8914 のフリー応答受信動作特性(FROC) スコア(FROC) が得られた。 鎖骨骨折の検出には一貫した性能向上が観察される。

Exploiting available medical records to train high performance computer-aided diagnosis (CAD) models via the semi-supervised learning (SSL) setting is emerging to tackle the prohibitively high labor costs involved in large-scale medical image annotations. Despite the extensive attentions received on SSL, previous methods failed to 1) account for the low disease prevalence in medical records and 2) utilize the image-level diagnosis indicated from the medical records. Both issues are unique to SSL for CAD models. In this work, we propose a new knowledge distillation method that effectively exploits large-scale image-level labels extracted from the medical records, augmented with limited expert annotated region-level labels, to train a rib and clavicle fracture CAD model for chest X-ray (CXR). Our method leverages the teacher-student model paradigm and features a novel adaptive asymmetric label sharpening (AALS) algorithm to address the label imbalance problem that specially exists in medical domain. Our approach is extensively evaluated on all CXR (N = 65,845) from the trauma registry of anonymous hospital over a period of 9 years (2008-2016), on the most common rib and clavicle fractures. The experiment results demonstrate that our method achieves the state-of-the-art fracture detection performance, i.e., an area under receiver operating characteristic curve (AUROC) of 0.9318 and a free-response receiver operating characteristic (FROC) score of 0.8914 on the rib fractures, significantly outperforming previous approaches by an AUROC gap of 1.63% and an FROC improvement by 3.74%. Consistent performance gains are also observed for clavicle fracture detection.
翻訳日:2021-04-18 07:15:19 公開日:2021-02-16
# 音声認識のためのドメイン認識ニューラルネットワークモデル

Domain-aware Neural Language Models for Speech Recognition ( http://arxiv.org/abs/2101.03229v2 )

ライセンス: Link先を確認
Linda Liu, Yile Gu, Aditya Gourav, Ankur Gandhe, Shashank Kalmane, Denis Filimonov, Ariya Rastrow, Ivan Bulyko(参考訳) 音声アシスタントがよりユビキタスになるにつれて、さまざまなドメインにわたるさまざまなユースケースのサポートとパフォーマンスが期待されている。 本稿では,本番環境における第2パスリコーリング時のドメイン適応を実現するのに適したドメイン認識リコーリングフレームワークを提案する。 本フレームワークでは,複数のドメイン上のドメイン汎用ニューラルネットワークモデルを微調整し,LSTMに基づくドメイン分類モデルを用いて,第2パス再構成に使用する適切なドメイン適応モデルを選択する。 このドメイン認識のリスコリングは、ドメイン一般リスコリングと比較して、ワードエラー率を最大2.4%改善し、スロットワードエラー率を最大4.1%向上させる。 これらの改善は、一般的なユースケースの精度を維持しながら得られる。

As voice assistants become more ubiquitous, they are increasingly expected to support and perform well on a wide variety of use-cases across different domains. We present a domain-aware rescoring framework suitable for achieving domain-adaptation during second-pass rescoring in production settings. In our framework, we fine-tune a domain-general neural language model on several domains, and use an LSTM-based domain classification model to select the appropriate domain-adapted model to use for second-pass rescoring. This domain-aware rescoring improves the word error rate by up to 2.4% and slot word error rate by up to 4.1% on three individual domains -- shopping, navigation, and music -- compared to domain general rescoring. These improvements are obtained while maintaining accuracy for the general use case.
翻訳日:2021-04-11 11:31:24 公開日:2021-02-16
# (参考訳) twitch gamers:近接保存と構造的役割に基づくノード埋め込みを評価するデータセット

Twitch Gamers: a Dataset for Evaluating Proximity Preserving and Structural Role-based Node Embeddings ( http://arxiv.org/abs/2101.03091v2 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Rik Sarkar(参考訳) 近接保存と構造的役割ベースのノード埋め込みは、応用グラフマイニングの原動力となっている。 新たなノード埋め込み技術は、しばしば制限されたベンチマークデータセットでテストされる。 本稿では,複数のターゲット属性を持つtwitch gamersという,新たな多様なソーシャルネットワークデータセットを提案する。 ソーシャルネットワークとノード分類実験の分析により,twitch gamersは新規近接保存および構造的役割に基づくノード埋め込みアルゴリズムの予測性能を評価するのに適していることが示された。

Proximity preserving and structural role-based node embeddings have become a prime workhorse of applied graph mining. Novel node embedding techniques are often tested on a restricted set of benchmark datasets. In this paper, we propose a new diverse social network dataset called Twitch Gamers with multiple potential target attributes. Our analysis of the social network and node classification experiments illustrate that Twitch Gamers is suitable for assessing the predictive performance of novel proximity preserving and structural role-based node embedding algorithms.
翻訳日:2021-04-10 07:45:42 公開日:2021-02-16
# (参考訳) 高精度な同心物体検出法

New Methods for Detecting Concentric Objects With High Accuracy ( http://arxiv.org/abs/2103.05104v1 )

ライセンス: CC BY 4.0
Ali A. Al-Sharadqah and Lorenzo Rull(参考訳) 同心幾何オブジェクトをデジタルデータに適合させることは、虹彩検出、自律ナビゲーション、産業ロボット操作など、多くの分野において重要な問題である。 データに幾何学的形状を合わせるには、幾何学的(定形)アプローチと代数的(非定形)アプローチの2つの一般的なアプローチがある。 幾何学的アプローチは、観測点から楕円点へのユークリッド距離の平方数の和を最小化し、最も正確な方法と見なす非線形反復的手法であるが、収束率を改善するには適切な初期推定が必要である。 代数的アプローチは、パラメトリック空間にいくつかの制約を課した代数的距離の最小化に基づいている。 各代数法は課せられる制約に依存し、一般化された固有値問題の助けを借りて解くことができる。 同心楕円の問題を解決するための文学的手法はごくわずかである。 本稿では,本問題に対する一般的な数学的・統計的枠組みをまず確立し,既存手法の統計的性質について検討する。 厳密な摂動解析を用いて,各手法のばらつきと偏りを小シグマモデルで導出する。 また、他の反復的手法の信頼性の高い初期推定に使用できる新しい推定器を開発する。 次に,各手法の性能を理論的な精度で比較する。 ここで述べる手法は、既存の非イテレーティブな手法よりも優れているだけでなく、大きなノイズに対して非常に頑健です。 これらの手法と実用性能は合成データと実データの両方について一連の数値実験によって評価される。

Fitting concentric geometric objects to digitized data is an important problem in many areas such as iris detection, autonomous navigation, and industrial robotics operations. There are two common approaches to fitting geometric shapes to data: the geometric (iterative) approach and algebraic (non-iterative) approach. The geometric approach is a nonlinear iterative method that minimizes the sum of the squares of Euclidean distances of the observed points to the ellipses and regarded as the most accurate method, but it needs a good initial guess to improve the convergence rate. The algebraic approach is based on minimizing the algebraic distances with some constraints imposed on parametric space. Each algebraic method depends on the imposed constraint, and it can be solved with the aid of the generalized eigenvalue problem. Only a few methods in literature were developed to solve the problem of concentric ellipses. Here we study the statistical properties of existing methods by firstly establishing a general mathematical and statistical framework for this problem. Using rigorous perturbation analysis, we derive the variances and biasedness of each method under the small-sigma model. We also develop new estimators, which can be used as reliable initial guesses for other iterative methods. Then we compare the performance of each method according to their theoretical accuracy. Not only do our methods described here outperform other existing non-iterative methods, they are also quite robust against large noise. These methods and their practical performances are assessed by a series of numerical experiments on both synthetic and real data.
翻訳日:2021-04-06 04:51:39 公開日:2021-02-16
# (参考訳) trader: 貿易実行のための実践的深層強化学習

TradeR: Practical Deep Hierarchical Reinforcement Learning for Trade Execution ( http://arxiv.org/abs/2104.00620v1 )

ライセンス: CC BY 4.0
Karush Suri, Xiao Qi Shi, Konstantinos Plataniotis, Yuri Lawryshyn(参考訳) 強化学習(Reinforcement Learning, RL)の進歩は、この分野の開発を動機づける幅広いアプリケーションにまたがる。 アプリケーションタスクは実世界の問題に適したベンチマークとして機能するが、RLは急激なダイナミクスからなる実践的なシナリオではほとんど使われない。 これにより、実践的な課題を考慮して、問題設定を再考することができる。 本稿では,現実世界の階層的rl問題として取引を定式化することによる,カタストロフィとサプライズ最小化の2つの実践的課題に対処するために,強化学習(trader)を用いた取引実行を提案する。 このレンズを通じてTradeRは、2019年度の新型コロナウイルス(COVID-19)株式市場の暴落に伴う急激な価格変動を含む、高頻度の不動産市場での取引入札を実施するために階層的なRLを利用している。 このフレームワークはエネルギーベースのスキームとサプライズ値関数を併用してサプライズを推定し最小化する。 S&P500指数の35銘柄の大規模な調査で、TradeRは利益率を維持しつつ、急激な価格変動と破滅的な損失に対するロバスト性を示した。 我々の研究が、実践的な問題へのRLの適用の動機となることを願っています。

Advances in Reinforcement Learning (RL) span a wide variety of applications which motivate development in this area. While application tasks serve as suitable benchmarks for real world problems, RL is seldomly used in practical scenarios consisting of abrupt dynamics. This allows one to rethink the problem setup in light of practical challenges. We present Trade Execution using Reinforcement Learning (TradeR) which aims to address two such practical challenges of catastrophy and surprise minimization by formulating trading as a real-world hierarchical RL problem. Through this lens, TradeR makes use of hierarchical RL to execute trade bids on high frequency real market experiences comprising of abrupt price variations during the 2019 fiscal year COVID19 stock market crash. The framework utilizes an energy-based scheme in conjunction with surprise value function for estimating and minimizing surprise. In a large-scale study of 35 stock symbols from the S&P500 index, TradeR demonstrates robustness to abrupt price changes and catastrophic losses while maintaining profitable outcomes. We hope that our work serves as a motivating example for application of RL to practical problems.
翻訳日:2021-04-06 04:31:32 公開日:2021-02-16
# (参考訳) 不変局所記述子を用いた3次元グラフニューラルネットワークによる材料特性予測

Predicting Material Properties Using a 3D Graph Neural Network with Invariant Local Descriptors ( http://arxiv.org/abs/2102.11023v1 )

ライセンス: CC BY 4.0
Boyu Zhang, Mushen Zhou, Jianzhong Wu, Fuchang Gao(参考訳) 材料特性を正確に予測することは新しい材料の発見と設計に不可欠である。 機械学習技術は、大規模スクリーニングの可能性について、材料科学コミュニティで大きな注目を集めている。 機械学習の手法の中で、グラフ畳み込みニューラルネットワーク(GCNN)は3D構造データを記述する際の柔軟性と有効性から、最も成功したものの一つである。 既存のGCNNモデルはトポロジカル構造に重点を置いているが、三次元幾何学構造を過度に単純化している。 物質科学では、原子の3次元空間分布は原子の状態と原子間力を決定するために重要である。 本稿では, 近接する全ての原子間の相互作用を3次元空間で同時にモデル化する新しい畳み込み型適応GCNNを提案する。 このモデルを,物質特性の予測における2つの難解な問題に適用する。 第一にヘンリーの金属有機フレームワーク(MOF)へのガス吸着定数は、原子配置に対する高い感度のため、非常に難しい。 2つ目は固体結晶材料のイオン伝導率であり、これはトレーニングに利用可能なラベル付きデータが少ないため難しい。 この新しいモデルは、両方のデータセット上で既存のGCNNモデルよりも優れており、重要な3次元幾何学的情報が実際に新しいモデルによって捕捉されていることを示唆している。

Accurately predicting material properties is critical for discovering and designing novel materials. Machine learning technologies have attracted significant attention in materials science community for their potential for large-scale screening. Among the machine learning methods, graph convolution neural networks (GCNNs) have been one of the most successful ones because of their flexibility and effectiveness in describing 3D structural data. Most existing GCNN models focus on the topological structure but overly simplify the three-dimensional geometric structure. In materials science, the 3D-spatial distribution of the atoms, however, is crucial for determining the atomic states and interatomic forces. In this paper, we propose an adaptive GCNN with novel convolutions that model interactions among all neighboring atoms in three-dimensional space simultaneously. We apply the model to two distinctly challenging problems on predicting material properties. The first is Henry's constant for gas adsorption in Metal-Organic Frameworks (MOFs), which is notoriously difficult because of its high sensitivity to atomic configurations. The second is the ion conductivity of solid-state crystal materials, which is difficult because of very few labeled data available for training. The new model outperforms existing GCNN models on both data sets, suggesting that some important three-dimensional geometric information is indeed captured by the new model.
翻訳日:2021-04-06 04:06:56 公開日:2021-02-16
# 認知的態度の質的理論とその変化

A Qualitative Theory of Cognitive Attitudes and their Change ( http://arxiv.org/abs/2102.11025v1 )

ライセンス: Link先を確認
Emiliano Lorini(参考訳) 本稿では, エージェントの認知的態度と動機づけの双方を推論するための一般的な論理的枠組みを提案する。 我々は、知識、信念、強い信念、条件付き信念、欲望、条件付き欲望、強い欲望、選好という概念を含む、質的決定論に関連する様々な概念を表現できることを示す。 我々はまた、論理の2つの拡張を提示する。一方は選択の概念によるものであり、他方は信念変化と欲求変化のための動的演算子によるものであり、前者は不完全情報の下での単段ゲームの解析に適用する。 基本論理とその2つの拡張に対して、音響および完全公理化を提供する。 この論文は論理プログラミングの理論と実践(TPLP)において検討されている。

We present a general logical framework for reasoning about agents' cognitive attitudes of both epistemic type and motivational type. We show that it allows us to express a variety of relevant concepts for qualitative decision theory including the concepts of knowledge, belief, strong belief, conditional belief, desire, conditional desire, strong desire and preference. We also present two extensions of the logic, one by the notion of choice and the other by dynamic operators for belief change and desire change, and we apply the former to the analysis of single-stage games under incomplete information. We provide sound and complete axiomatizations for the basic logic and for its two extensions. The paper is under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-04-05 00:41:11 公開日:2021-02-16
# 医療用ハイブリッドインテリジェントシステムにおけるモラル決定--バイアス軽減とデータ共有設計問題へのチームデザインパターンアプローチ

Moral Decision-Making in Medical Hybrid Intelligent Systems: A Team Design Patterns Approach to the Bias Mitigation and Data Sharing Design Problems ( http://arxiv.org/abs/2102.11211v1 )

ライセンス: Link先を確認
Jip van Stijn(参考訳) 医療分野における自動化の増大は、人間と自律機械の協力を深く研究し設計するためのハイブリッド・インテリジェンス(hi)アプローチを要求する。 医療HIシステムの意思決定が倫理的であることを保証することが重要である。 チームデザインパターン(TDP)の使用は、意思決定が道徳的な要素を持つ設計問題の再利用可能な構成を成功させ、HIシステムを設計する複数の学際的なチームでのコミュニケーションを促進することによって、この目標を前進させることができる。 本研究では,(1)機械学習アルゴリズムにおける有害バイアスの軽減,(2)健康と行動の患者データを医療従事者やシステム開発者と共有すること,という,医療hiシステムにおける2つの設計問題に対する一組のソリューションを記述するために,tdpsを開発した。 社会認知工学の手法が採用され、運用要求、ヒューマンファクターの知識、技術分析を一連のTDPに統合した。 パターンの理解性、有効性、一般化性に関するユーザビリティを評価するために、調査が作成されました。 その結果,TDPは多分野研究者の異種グループで使用可能な,様々な抽象レベルでの道徳的要素を持つ多様なHI設計問題の解を曖昧に記述する上で有用であることがわかった。 さらに, SCE アプローチと開発したアンケートは, TDP の作成と評価に適した方法であることが示唆された。 この研究は、インタラクションデザインパターンとの統合、いくつかの追加概念の追加、多くの方法論的改善など、TDPの改善案をまとめて結論付けている。 最後に、論文は今後の研究の方向性を推奨している。

Increasing automation in the healthcare sector calls for a Hybrid Intelligence (HI) approach to closely study and design the collaboration of humans and autonomous machines. Ensuring that medical HI systems' decision-making is ethical is key. The use of Team Design Patterns (TDPs) can advance this goal by describing successful and reusable configurations of design problems in which decisions have a moral component, as well as through facilitating communication in multidisciplinary teams designing HI systems. For this research, TDPs were developed to describe a set of solutions for two design problems in a medical HI system: (1) mitigating harmful biases in machine learning algorithms and (2) sharing health and behavioral patient data with healthcare professionals and system developers. The Socio-Cognitive Engineering methodology was employed, integrating operational demands, human factors knowledge, and a technological analysis into a set of TDPs. A survey was created to assess the usability of the patterns on their understandability, effectiveness, and generalizability. The results showed that TDPs are a useful method to unambiguously describe solutions for diverse HI design problems with a moral component on varying abstraction levels, that are usable by a heterogeneous group of multidisciplinary researchers. Additionally, results indicated that the SCE approach and the developed questionnaire are suitable methods for creating and assessing TDPs. The study concludes with a set of proposed improvements to TDPs, including their integration with Interaction Design Patterns, the inclusion of several additional concepts, and a number of methodological improvements. Finally, the thesis recommends directions for future research.
翻訳日:2021-04-05 00:41:01 公開日:2021-02-16
# スマートメータデータの日々の負荷形状クラスタリングによる住宅エネルギー利用パターンの変動要因の検討

Investigating Underlying Drivers of Variability in Residential Energy Usage Patterns with Daily Load Shape Clustering of Smart Meter Data ( http://arxiv.org/abs/2102.11027v1 )

ライセンス: Link先を確認
Ling Jin, C. Anna Spurlock, Sam Borgeson, Alina Lazar, Daniel Fredman, Annika Todd, Alexander Sim, Kesheng Wu(参考訳) 住宅の顧客は伝統的に、住宅の消費パターンのボラティリティが高く、ユーティリティやシステムフィーダの観点から集約された負荷に歴史的に焦点が当てられているため、個別の実体として扱われていない。 スマートメータの大規模展開は、日々の負荷パターンの分散を探求する研究の動機となり、さまざまな時間スケール、気象条件、さらには各家庭内および各家庭における重要な異質性を明らかにする可能性がある。 本稿では,電力消費パターンが変動を示すメカニズムと,需要応答(DR)の柔軟性に影響を及ぼす可能性のある制約を明らかにすることを目的とする。 提案手法を改良した適応型k-meansクラスタリング法を用いて, 夏季ピークユーティリティの"ハウスホールドデイ"をプロファイリングし, 興味の時間尺度, 気象条件, 世帯特性を含む外的および内的影響要因との関係を体系的に評価した。 この夏型のユーティリティーでは、屋外の温度が季節性や週ごとの負荷形状の変化の最も重要な外部要因であることが分かっています。 上位3つの消費パターンは、最高気温の日の使用量の約50%を表している。 夏季の負荷形態の変動は、家庭の温度に対する応答性によって説明できる。 その結果, 影響要因によっては, 消費の変動が容易に消費の柔軟性に変換できるわけではないことが示唆された。 このような情報は、急速に進化する電力網のニーズを満たすために、より良いプログラムターゲティングと調整のために顧客をセグメント化する上で、さらに検討する必要がある。

Residential customers have traditionally not been treated as individual entities due to the high volatility in residential consumption patterns as well as a historic focus on aggregated loads from the utility and system feeder perspective. Large-scale deployment of smart meters has motivated increasing studies to explore disaggregated daily load patterns, which can reveal important heterogeneity across different time scales, weather conditions, as well as within and across individual households. This paper aims to shed light on the mechanisms by which electricity consumption patterns exhibit variability and the different constraints that may affect demand-response (DR) flexibility. We systematically evaluate the relationship between daily time-of-use patterns and their variability to external and internal influencing factors, including time scales of interest, meteorological conditions, and household characteristics by application of an improved version of the adaptive K-means clustering method to profile "household-days" of a summer peaking utility. We find that for this summer-peaking utility, outdoor temperature is the most important external driver of the load shape variability relative to seasonality and day-of-week. The top three consumption patterns represent approximately 50% of usage on the highest temperature days. The variability in summer load shapes across customers can be explained by the responsiveness of the households to outside temperature. Our results suggest that depending on the influencing factors, not all the consumption variability can be readily translated to consumption flexibility. Such information needs to be further explored in segmenting customers for better program targeting and tailoring to meet the needs of the rapidly evolving electricity grid.
翻訳日:2021-04-05 00:39:44 公開日:2021-02-16
# cobbo:座標バックオフベイズ最適化

CobBO: Coordinate Backoff Bayesian Optimization ( http://arxiv.org/abs/2101.05147v2 )

ライセンス: Link先を確認
Jian Tan, Niv Nayman, Mengchang Wang, Feifei Li, Rong Jin(参考訳) ベイズ最適化は高価なブラックボックス関数を最適化する一般的な方法である。 実世界の難解な問題の客観的機能は、しばしば多くの局所最適の変動した風景によって特徴づけられる。 ベイズ最適化はそのようなトラップを過剰に露呈するリスクがあり、グローバルな景観を探索するのに十分なクエリ予算が残されている。 これらの課題を軽減するために、CobBO(Coordinate Backoff Bayesian Optimization)を導入します。 CobBOは、ランダムに選択された有望な部分空間に投影されるクエリされた点の値を補間することにより、世界景観の滑らかな近似を捉える。 したがって、低次元部分空間に適用されるガウス過程の回帰に対して、より小さなクエリ予算が要求される。 このアプローチは、ある種の部分空間からバックオフし、別の座標部分集合に切り替える停止規則を用いて、ベイズ最適化に適した座標昇華の変種と見なすことができる。 大規模な評価の結果、CobBOは数十から数百の次元に対する他の最先端の手法に匹敵するソリューションを見つけながら、試行の複雑さを減らしている。

Bayesian optimization is a popular method for optimizing expensive black-box functions. The objective functions of hard real world problems are oftentimes characterized by a fluctuated landscape of many local optima. Bayesian optimization risks in over-exploiting such traps, remaining with insufficient query budget for exploring the global landscape. We introduce Coordinate Backoff Bayesian Optimization (CobBO) to alleviate those challenges. CobBO captures a smooth approximation of the global landscape by interpolating the values of queried points projected to randomly selected promising subspaces. Thus also a smaller query budget is required for the Gaussian process regressions applied over the lower dimensional subspaces. This approach can be viewed as a variant of coordinate ascent, tailored for Bayesian optimization, using a stopping rule for backing off from a certain subspace and switching to another coordinate subset. Extensive evaluations show that CobBO finds solutions comparable to or better than other state-of-the-art methods for dimensions ranging from tens to hundreds, while reducing the trial complexity.
翻訳日:2021-03-30 08:08:39 公開日:2021-02-16
# ステレオタイプとスキュー : 事前学習と微調整言語モデルにおけるジェンダーバイアスの定量化

Stereotype and Skew: Quantifying Gender Bias in Pre-trained and Fine-tuned Language Models ( http://arxiv.org/abs/2101.09688v2 )

ライセンス: Link先を確認
Daniel de Vassimon Manela, David Errington, Thomas Fisher, Boris van Breugel, Pasquale Minervini(参考訳) 本稿では,WinoBias代名詞解決課題に取り組む際に,文脈言語モデルに存在する性別バイアスの定量化と解析を行う,スキューとステレオタイプという2つの直感的な指標を提案する。 性別のステレオタイプは、アウト・オブ・ボックスモデルにおける性別の歪とほぼ負の相関関係にあり、これらの2種類のバイアスの間にトレードオフが存在することを示唆している。 バイアスを軽減する2つの方法を検討する。 最初のアプローチは、ステレオタイプを犠牲にしてスクリューを取り除くのに有効なオンライン手法である。 2つ目は、ELMoの以前の作業に触発され、強化されたジェンダーバランスデータセットを使用してBERTの微調整を含む。 その結果,スキューとステレオタイプの両方が,未修正の微調整と比較して減少することがわかった。 しかし,既存の性別バイアスベンチマークでは,代名詞分解能が性偏見の他の徴候との相互相関によって損なわれる可能性があるため,プロの偏見を十分に調査していないことが判明した。 私たちのコードはhttps://github.com/12kleingordon34/NLP_masters_project.comで公開されている。

This paper proposes two intuitive metrics, skew and stereotype, that quantify and analyse the gender bias present in contextual language models when tackling the WinoBias pronoun resolution task. We find evidence that gender stereotype correlates approximately negatively with gender skew in out-of-the-box models, suggesting that there is a trade-off between these two forms of bias. We investigate two methods to mitigate bias. The first approach is an online method which is effective at removing skew at the expense of stereotype. The second, inspired by previous work on ELMo, involves the fine-tuning of BERT using an augmented gender-balanced dataset. We show that this reduces both skew and stereotype relative to its unaugmented fine-tuned counterpart. However, we find that existing gender bias benchmarks do not fully probe professional bias as pronoun resolution may be obfuscated by cross-correlations from other manifestations of gender prejudice. Our code is available online, at https://github.com/12kleingordon34/NLP_masters_project.
翻訳日:2021-03-16 09:20:07 公開日:2021-02-16
# (参考訳) 2次元シングルショットからの3次元多物体距離推定のためのアンカー距離

Anchor Distance for 3D Multi-Object Distance Estimation from 2D Single Shot ( http://arxiv.org/abs/2101.10399v2 )

ライセンス: CC BY 4.0
Hyeonwoo Yu and Jean Oh(参考訳) 3D環境での物体の視覚的な認識は、自動運転と同時ローカリゼーションとマッピング(SLAM)におけるパフォーマンスの成功の鍵です。 本稿では,シーン内の複数物体間の距離を,単写画像のみを用いてリアルタイムに推定する手法を提案する。 2Dバウンディングボックス(BBox)とオブジェクトパラメータが与えられた場合、オブジェクトへの3D距離は3D再投影を用いて直接計算できるが、2D検出からの誤差を3Dで増幅できるため、大きなエラーが発生する。 また,計算負荷のため,このような手法をリアルタイムシステムに適用することは困難である。 従来のマルチオブジェクト検出手法の場合、%はオブジェクト分割や2D BBox回帰などの特定のタスクのために開発されている既存の作業に注意を払います。 これらの手法は2次元BBox推定のためのアンカーBBoxの概念を導入し、予測器は特定の2次元BBoxを専門的に訓練する。 一つの2次元画像から3次元物体の距離を推定するために,物体の位置に基づく \textit{anchor distance} の概念を導入し,マルチオブジェクト検出器構造にアンカー距離を適用する手法を提案する。 予測器がアンカー距離を使用する前に距離をキャッチし、距離に基づいてネットワークを訓練します。 予測器は、特定の距離範囲に位置する物体を特徴付けることができる。 予測器に距離アンカーを用いて予め距離を伝搬することにより、正確な距離推定とリアルタイム実行を同時に行うことができる。 提案手法は約30FPSの速度を実現し,既存の手法と比較して最低のRMSEを示す。

Visual perception of the objects in a 3D environment is a key to successful performance in autonomous driving and simultaneous localization and mapping (SLAM). In this paper, we present a real time approach for estimating the distances to multiple objects in a scene using only a single-shot image. Given a 2D Bounding Box (BBox) and object parameters, a 3D distance to the object can be calculated directly using 3D reprojection; however, such methods are prone to significant errors because an error from the 2D detection can be amplified in 3D. In addition, it is also challenging to apply such methods to a real-time system due to the computational burden. In the case of the traditional multi-object detection methods, %they mostly pay attention to existing works have been developed for specific tasks such as object segmentation or 2D BBox regression. These methods introduce the concept of anchor BBox for elaborate 2D BBox estimation, and predictors are specialized and trained for specific 2D BBoxes. In order to estimate the distances to the 3D objects from a single 2D image, we introduce the notion of \textit{anchor distance} based on an object's location and propose a method that applies the anchor distance to the multi-object detector structure. We let the predictors catch the distance prior using anchor distance and train the network based on the distance. The predictors can be characterized to the objects located in a specific distance range. By propagating the distance prior using a distance anchor to the predictors, it is feasible to perform the precise distance estimation and real-time execution simultaneously. The proposed method achieves about 30 FPS speed, and shows the lowest RMSE compared to the existing methods.
翻訳日:2021-03-14 22:35:58 公開日:2021-02-16
# (参考訳) lojasiewicz-landscapesにおける確率勾配降下スキームの収束

Convergence of stochastic gradient descent schemes for Lojasiewicz-landscapes ( http://arxiv.org/abs/2102.09385v1 )

ライセンス: CC BY 4.0
Steffen Dereich and Sebastian Kassing(参考訳) 本稿では,確率勾配降下スキーム(SGD)の収束を,基礎となる景観に対する弱い仮定の下で考察する。 より具体的には、SGD が局所に留まっているとき、可算個の臨界点しか存在しない場合や、対象関数/ランドスケープが全ての解析関数のように全ての臨界レベルに関するロジャシエッツ不等式を満たす場合、SGD の収束が示される。 特に、ソフトプラス、シグモイド、双曲的接点などの解析活性化関数を持つニューラルネットワークの場合、SGDは、信号とトレーニングにおける応答をモデル化するランダム変数がコンパクトにサポートされている場合、局所的な状態に収束することを示す。

In this article, we consider convergence of stochastic gradient descent schemes (SGD) under weak assumptions on the underlying landscape. More explicitly, we show that on the event that the SGD stays local we have convergence of the SGD if there is only a countable number of critical points or if the target function/landscape satisfies Lojasiewicz-inequalities around all critical levels as all analytic functions do. In particular, we show that for neural networks with analytic activation function such as softplus, sigmoid and the hyperbolic tangent, SGD converges on the event of staying local, if the random variables modeling the signal and response in the training are compactly supported.
翻訳日:2021-02-20 06:29:35 公開日:2021-02-16
# 分類のためのトレーニングセットの推薦

Recommending Training Set Sizes for Classification ( http://arxiv.org/abs/2102.09382v1 )

ライセンス: Link先を確認
Phillip Koshute, Jared Zook, Ian McCulloh(参考訳) 20個のデータセットの包括的研究に基づいて、任意の分類データセットのトレーニングセットサイズを推奨する。 トレーニングデータを体系的に保持し、各トレーニングセットごとに5つの異なる分類方法によってモデルを開発することで推奨を得ます。 これらの結果に基づき,各トレーニングセットサイズに対する精度信頼区間を構築し,その下限を逆パワー低学習曲線に適合させる。 また、確立された収束基準に基づいて、各データセットに対して十分なトレーニングセットサイズ(STSS)を推定する。 STSSとデータセットの特性を比較し、特定された傾向に基づいて、データセットのクラス数と機能数に応じて、3000から30000のデータポイント間のトレーニングセットサイズを推奨します。 トレーニングデータの取得と準備にはデータセットのサイズに比例する不要なコストが伴うため、これらの結果は予測モデリングの労力を大幅に節約する可能性がある。

Based on a comprehensive study of 20 established data sets, we recommend training set sizes for any classification data set. We obtain our recommendations by systematically withholding training data and developing models through five different classification methods for each resulting training set. Based on these results, we construct accuracy confidence intervals for each training set size and fit the lower bounds to inverse power low learning curves. We also estimate a sufficient training set size (STSS) for each data set based on established convergence criteria. We compare STSS to the data sets' characteristics; based on identified trends, we recommend training set sizes between 3000 and 30000 data points, according to a data set's number of classes and number of features. Because obtaining and preparing training data has non-negligible costs that are proportional to data set size, these results afford the potential opportunity for substantial savings for predictive modeling efforts.
翻訳日:2021-02-19 14:16:39 公開日:2021-02-16
# (参考訳) 複数のラベラーから基底を見つける:なぜタスクのパラメータが重要なのか

Finding the Ground-Truth from Multiple Labellers: Why Parameters of the Task Matter ( http://arxiv.org/abs/2102.08482v1 )

ライセンス: CC BY 4.0
Robert McCluskey, Amir Enshaei, Bashar Awwad Shiekh Hasan(参考訳) 近年、複雑なモデルをトレーニングするために大量のラベル付きデータを収集することや、不正でノイズの多いラベル付けのリスクを軽減し、複数のワーカーを機械学習モデルにラベル付けするために採用することがますます重要になっている。 一般のクラウドソーシングプラットフォーム上での大規模なデータ収集や、高度に専門的なラベル付け演習における小規模労働者の集合体であるにせよ、雇用者からのコンセンサスを集めるための様々な方法が推奨されている。 しかし、ラベル付けタスクの様々なパラメータがこれらの方法に与える影響についてはほとんど研究されていない。 これらのパラメータには、労働者の数、労働者の専門知識、分類におけるラベルの数、およびサンプルサイズが含まれます。 本論文では, 主観的投票, CrowdTruth および Binomial Expectation Maximization をこれらのパラメータの順列に対して検討し, パラメータ設定をよりよく理解し, 接地真理推論の優位性を与える。 結果から, 期待最大化とクラウドルースは, パラメータ条件下では多数決に勝る傾向がみられたが, 方法が大きな影響を及ぼさないことを示すケースが多数存在する。 この実験フレームワークは、他の確立されたメソッドをテストする方法を提供し、また、この論文のメソッドがなかった場合に有利なパフォーマンスを提供するために試みることができる新しいメソッドをテストする方法を提供します。 最適なクラウドソーシングパラメータに関するさらなるレベルの理解も達成されている。

Employing multiple workers to label data for machine learning models has become increasingly important in recent years with greater demand to collect huge volumes of labelled data to train complex models while mitigating the risk of incorrect and noisy labelling. Whether it is large scale data gathering on popular crowd-sourcing platforms or smaller sets of workers in high-expertise labelling exercises, there are various methods recommended to gather a consensus from employed workers and establish ground-truth labels. However, there is very little research on how the various parameters of a labelling task can impact said methods. These parameters include the number of workers, worker expertise, number of labels in a taxonomy and sample size. In this paper, Majority Vote, CrowdTruth and Binomial Expectation Maximisation are investigated against the permutations of these parameters in order to provide better understanding of the parameter settings to give an advantage in ground-truth inference. Findings show that both Expectation Maximisation and CrowdTruth are only likely to give an advantage over majority vote under certain parameter conditions, while there are many cases where the methods can be shown to have no major impact. Guidance is given as to what parameters methods work best under, while the experimental framework provides a way of testing other established methods and also testing new methods that can attempt to provide advantageous performance where the methods in this paper did not. A greater level of understanding regarding optimal crowd-sourcing parameters is also achieved.
翻訳日:2021-02-19 06:05:44 公開日:2021-02-16
# (参考訳) 近似計算フレームワークの比較と組み合わせ

Comparing and Combining Approximate Computing Frameworks ( http://arxiv.org/abs/2102.08771v1 )

ライセンス: CC BY 4.0
Saeid Barati, Gordon Kindlmann, Hank Hoffmann(参考訳) 近似コンピューティングフレームワークは、精度パフォーマンスのトレードオフスペースでさまざまなポイントで動作できるようにアプリケーションを構成する。 以前の仕事は、近似プログラムを作成するための多くのフレームワークを導入しました。 近似フレームワークが普及するにつれて、どのように比較して組み合わせて、より大きく、よりリッチなトレードオフ空間を作ることができるかを尋ねるのは自然なことです。 VIPER と BOA を提示することで,これらの問題に対処する。 VIPERは、様々な近似フレームワークによって引き起こされるトレードオフ空間を比較し、あらゆる可能な精度でパフォーマンスの改善を可視化する。 BOAは、2つ以上の近似フレームワークの組み合わせによって生成される巨大なトレードオフスペースでパレート効率の高いポイントを迅速に見つける探索技術の一群です。 VIPERとBOAを使用して、システムスタック全体の3つの異なる近似フレームワークを比較し、組み合わせます。数値精度を変更するもの、ループイテレーションをスキップするもの、既存のアプリケーションパラメータを操作するものなどです。 単にPareto-optimal曲線を見ることと比較して、VIPERの可視化は、精度の損失に最適な近似技術を決定するためのより迅速かつ便利な方法を提供します。 最先端の進化アルゴリズムと比較すると、BOAは14倍少ない構成を探索するが、パレート効率は35%高い。

Approximate computing frameworks configure applications so they can operate at a range of points in an accuracy-performance trade-off space. Prior work has introduced many frameworks to create approximate programs. As approximation frameworks proliferate, it is natural to ask how they can be compared and combined to create even larger, richer trade-off spaces. We address these questions by presenting VIPER and BOA. VIPER compares trade-off spaces induced by different approximation frameworks by visualizing performance improvements across the full range of possible accuracies. BOA is a family of exploration techniques that quickly locate Pareto-efficient points in the immense trade-off space produced by the combination of two or more approximation frameworks. We use VIPER and BOA to compare and combine three different approximation frameworks from across the system stack, including: one that changes numerical precision, one that skips loop iterations, and one that manipulates existing application parameters. Compared to simply looking at Pareto-optimal curves, we find VIPER's visualizations provide a quicker and more convenient way to determine the best approximation technique for any accuracy loss. Compared to a state-of-the-art evolutionary algorithm, we find that BOA explores 14x fewer configurations yet locates 35% more Pareto-efficient points.
翻訳日:2021-02-19 05:45:59 公開日:2021-02-16
# (参考訳) 相補性最大化による視覚位置認識性能の向上

Improving Visual Place Recognition Performance by Maximising Complementarity ( http://arxiv.org/abs/2102.08416v1 )

ライセンス: CC BY 4.0
Maria Waheed, Michael Milford, Klaus D. McDonald-Maier, Shoaib Ehsan(参考訳) 視覚的位置認識(VPR)は、これまで訪れた場所を視覚情報を用いて認識する問題である。 VPR法の性能向上のための多くの試みが文献で行われている。 最近注目されているアプローチの1つは、異なるVPRメソッドが並列に実行されるマルチプロセス融合であり、その出力はより良いパフォーマンスを達成するために組み合わせられている。 しかし、マルチプロセス融合は、様々なオプションから異なるVPRメソッドを選択し、組み合わせるための明確な基準を持っていない。 そこで本研究では,最先端のVPR手法の相互補完性を初めて体系的に検討し,それらの組み合わせによって性能が向上することを示す。 本稿は,mcnemarテストライクなアプローチを活用し,2つの手法間の相補性を見出すための健全性チェックとして機能する,明確に定義されたフレームワークを提案する。 このフレームワークにより、vpr技術の上位および下位の相補性境界の推定と、達成可能な最大vpr性能の推定を組み合わせることができる。 この枠組みに基づいて,10個の広く使用されているVPRデータセット上で8つの最先端VPR手法について,性能向上のための異なる組み合わせの可能性を示す結果が提示される。

Visual place recognition (VPR) is the problem of recognising a previously visited location using visual information. Many attempts to improve the performance of VPR methods have been made in the literature. One approach that has received attention recently is the multi-process fusion where different VPR methods run in parallel and their outputs are combined in an effort to achieve better performance. The multi-process fusion, however, does not have a well-defined criterion for selecting and combining different VPR methods from a wide range of available options. To the best of our knowledge, this paper investigates the complementarity of state-of-the-art VPR methods systematically for the first time and identifies those combinations which can result in better performance. The paper presents a well-defined framework which acts as a sanity check to find the complementarity between two techniques by utilising a McNemar's test-like approach. The framework allows estimation of upper and lower complementarity bounds for the VPR techniques to be combined, along with an estimate of maximum VPR performance that may be achieved. Based on this framework, results are presented for eight state-of-the-art VPR methods on ten widely-used VPR datasets showing the potential of different combinations of techniques for achieving better performance.
翻訳日:2021-02-19 05:09:05 公開日:2021-02-16
# (参考訳) 形状整列型深層ニューラルネットワーク

Shape-Tailored Deep Neural Networks ( http://arxiv.org/abs/2102.08497v1 )

ライセンス: CC BY 4.0
Naeemullah Khan, Angira Sharma, Ganesh Sundaramoorthi, Philip H. S. Torr(参考訳) 形状制御型ディープニューラルネットワーク(ST-DNN)を紹介します。 ST-DNNは、固定形状(正方形)の近傍からデータを集約する畳み込みネットワーク(CNN)を拡張し、任意形状の領域で定義された記述子を計算する。 これはセグメンテーションにおいて自然であり、記述子は多様な形を持つ領域(例えば物体)を記述すべきである。 我々はこれらの記述子をポアソン偏微分方程式(PDE)を通して定式化し、任意の領域への畳み込みを一般化することができる。 複数のPDE層を積み重ねて、深いCNNを任意の領域に一般化し、セグメンテーションに適用する。 ST-DNNは翻訳と回転に共変であり、既存のCNNベースの方法に欠けているセグメンテーションに自然であるドメイン変形に堅牢であることを示す。 ST-DNNは3~4桁小さく、CNNはセグメンテーションに使用される。 テクスチャセグメンテーション問題に対する2~3桁のトレーニングセットを用いて,最先端CNNベースの記述子と比較してセグメンテーション性能を上回ることを示す。

We present Shape-Tailored Deep Neural Networks (ST-DNN). ST-DNN extend convolutional networks (CNN), which aggregate data from fixed shape (square) neighborhoods, to compute descriptors defined on arbitrarily shaped regions. This is natural for segmentation, where descriptors should describe regions (e.g., of objects) that have diverse shape. We formulate these descriptors through the Poisson partial differential equation (PDE), which can be used to generalize convolution to arbitrary regions. We stack multiple PDE layers to generalize a deep CNN to arbitrary regions, and apply it to segmentation. We show that ST-DNN are covariant to translations and rotations and robust to domain deformations, natural for segmentation, which existing CNN based methods lack. ST-DNN are 3-4 orders of magnitude smaller then CNNs used for segmentation. We show that they exceed segmentation performance compared to state-of-the-art CNN-based descriptors using 2-3 orders smaller training sets on the texture segmentation problem.
翻訳日:2021-02-19 04:54:07 公開日:2021-02-16
# (参考訳) TableLab: 適応的ディープラーニングを用いた対話型テーブル抽出システム

TableLab: An Interactive Table Extraction System with Adaptive Deep Learning ( http://arxiv.org/abs/2102.08445v1 )

ライセンス: CC BY 4.0
Nancy Xin Ru Wang, Douglas Burdick, Yunyao Li(参考訳) pdfおよび画像文書からのテーブル抽出は、現実世界においてユビキタスなタスクである。 完全抽出品質は,(1)表形式が多様であること,(2)表形式を表わす訓練データの欠如,(3)表定義の本来の曖昧さと主観性により,一つのアウト・オブ・ボックスモデルで達成することは困難である。 一方、アノテートテーブルデータの高価な性質のため、スクラッチからカスタマイズされたモデルを構築することは困難である。 ユーザとモデルがシームレスに連携して高品質な抽出モデルを素早くカスタマイズするシステムを提供し,テーブルのあるページを含むユーザのドキュメントコレクションにラベル付きサンプルを添付することで,これらの課題を解決する。 入力ドキュメントコレクションが与えられると、tablelabは抽出モデルから埋め込みをクラスタリングすることで、最初に同様の構造(テンプレート)を持つテーブルを検出する。 ドキュメントコレクションは、テンプレートまたは類似の構造の限られたセットで作成されたテーブルを含むことが多い。 そして、事前訓練されたベースディープラーニングモデルで抽出されたいくつかの代表テーブルの例を選択する。 使いやすいユーザーインターフェイスを介して、ユーザーはすべてのエラーを識別することなく、これらの選択にフィードバックを提供します。 次にtablelabは、事前学習したモデルを微調整するためにこのようなフィードバックを適用し、微調整されたモデルの結果をユーザに返す。 ユーザーは満足な性能のカスタマイズされたモデルを得るまで、このプロセスを反復的に繰り返すことができます。

Table extraction from PDF and image documents is a ubiquitous task in the real-world. Perfect extraction quality is difficult to achieve with one single out-of-box model due to (1) the wide variety of table styles, (2) the lack of training data representing this variety and (3) the inherent ambiguity and subjectivity of table definitions between end-users. Meanwhile, building customized models from scratch can be difficult due to the expensive nature of annotating table data. We attempt to solve these challenges with TableLab by providing a system where users and models seamlessly work together to quickly customize high-quality extraction models with a few labelled examples for the user's document collection, which contains pages with tables. Given an input document collection, TableLab first detects tables with similar structures (templates) by clustering embeddings from the extraction model. Document collections often contain tables created with a limited set of templates or similar structures. It then selects a few representative table examples already extracted with a pre-trained base deep learning model. Via an easy-to-use user interface, users provide feedback to these selections without necessarily having to identify every single error. TableLab then applies such feedback to finetune the pre-trained model and returns the results of the finetuned model back to the user. The user can choose to repeat this process iteratively until obtaining a customized model with satisfactory performance.
翻訳日:2021-02-19 04:03:05 公開日:2021-02-16
# (参考訳) ゲーム学習のための複合モーメント

Complex Momentum for Learning in Games ( http://arxiv.org/abs/2102.08431v1 )

ライセンス: CC BY 4.0
Jonathan Lorraine, David Acuna, Paul Vicol, David Duvenaud(参考訳) 我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。 本手法の理論的動機は,同時更新と交互更新の両立ゼロサムゲーム上での収束を証明できることにある。 本手法は,実値パラメータの更新を行い,標準オプティマイザの代替となる。 複素数値運動量により、生成的逆数ネットワークのような逆数ゲームにおける収束が向上し、ほぼ同じ計算コストでより良い解が見つかることを実証的に示す。 また,CIFAR-10の発案点を改善するためにBigGANを訓練するために使用する,複雑な値のアダム変種に対する実用的な一般化を示す。

We generalize gradient descent with momentum for learning in differentiable games to have complex-valued momentum. We give theoretical motivation for our method by proving convergence on bilinear zero-sum games for simultaneous and alternating updates. Our method gives real-valued parameter updates, making it a drop-in replacement for standard optimizers. We empirically demonstrate that complex-valued momentum can improve convergence in adversarial games - like generative adversarial networks - by showing we can find better solutions with an almost identical computational cost. We also show a practical generalization to a complex-valued Adam variant, which we use to train BigGAN to better inception scores on CIFAR-10.
翻訳日:2021-02-19 02:22:43 公開日:2021-02-16
# (参考訳) 安全な自動運転のためのオブジェクトベース環境認識テストのレビュー

A Review of Testing Object-Based Environment Perception for Safe Automated Driving ( http://arxiv.org/abs/2102.08460v1 )

ライセンス: CC BY 4.0
Michael Hoss, Maike Scholtes, Lutz Eckstein(参考訳) 自動運転システムの安全確保は、環境認識の不確実性を考慮しなければならない。 本論文では,安全確保の一環として認識テストがいかに実現されるかに関する文献をレビューする。 我々は、認識と計画の間のインターフェースにおける検証と検証の目的のテストに焦点を合わせ、1)テスト基準とメトリクス、2)テストシナリオ、3)リファレンスデータに沿って分析を構造化する。 さらに, 安全基準, 安全非依存知覚アルゴリズムベンチマーク, センサモデリングなどについて分析した。 安全認識テストの実現は,三軸とその相互依存性に関する課題が十分に解決されていないため,まだ未解決の課題である。

Safety assurance of automated driving systems must consider uncertain environment perception. This paper reviews literature addressing how perception testing is realized as part of safety assurance. We focus on testing for verification and validation purposes at the interface between perception and planning, and structure our analysis along the three axes 1) test criteria and metrics, 2) test scenarios, and 3) reference data. Furthermore, the analyzed literature includes related safety standards, safety-independent perception algorithm benchmarking, and sensor modeling. We find that the realization of safety-aware perception testing remains an open issue since challenges concerning the three testing axes and their interdependencies currently do not appear to be sufficiently solved.
翻訳日:2021-02-18 23:20:33 公開日:2021-02-16
# (参考訳) 不確実・不完全情報に基づく機械学習モデルの公平性評価

Evaluating Fairness of Machine Learning Models Under Uncertain and Incomplete Information ( http://arxiv.org/abs/2102.08410v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, Alex Beutel, Matthaeus Kleindessner, Jamie Morgenstern, Xuezhi Wang(参考訳) 公正な分類器の訓練と評価は難しい問題です。 これは、関心のある公平さの指標が、センシティブな属性情報とデータポイントのラベル情報の両方に依存しているためでもある。 多くのシナリオでは、そのような情報で大規模なデータセットを収集することはできない。 一般的に使用される別のアプローチは、敏感な属性情報を持つデータで属性分類器を個別に訓練し、後でMLパイプラインでそれを使用して与えられた分類器のバイアスを評価することです。 このような分離は人口不足の問題を緩和する上で有効だが、次のような自然な疑問を提起する。 属性分類器をトレーニングすべきか、正確なバイアス推定に属性分類器をどのように使用するべきか? 本研究では,理論的および実証的な視点からこの問題を研究する。 まず,属性分類器のテスト精度が,下流モデルにおけるバイアス推定の有効性と必ずしも相関しないことを実験的に証明した。 この現象をさらに調査するために,理想化理論モデルを解析し,最適分類器の構造を特徴付ける。 私たちの分析は、特定の体制において、属性分類器のエラーを可能な限り異なるサブグループに分散させたい場合、驚きと反直感的な意味を持ちます。 本分析では,データ不足状態におけるバイアス推定のための属性分類器とトレーニングのためのヒューリスティックスを開発した。 実データおよびシミュレーションデータに対するアプローチの有効性を実証的に実証する。

Training and evaluation of fair classifiers is a challenging problem. This is partly due to the fact that most fairness metrics of interest depend on both the sensitive attribute information and label information of the data points. In many scenarios it is not possible to collect large datasets with such information. An alternate approach that is commonly used is to separately train an attribute classifier on data with sensitive attribute information, and then use it later in the ML pipeline to evaluate the bias of a given classifier. While such decoupling helps alleviate the problem of demographic scarcity, it raises several natural questions such as: how should the attribute classifier be trained?, and how should one use a given attribute classifier for accurate bias estimation? In this work we study this question from both theoretical and empirical perspectives. We first experimentally demonstrate that the test accuracy of the attribute classifier is not always correlated with its effectiveness in bias estimation for a downstream model. In order to further investigate this phenomenon, we analyze an idealized theoretical model and characterize the structure of the optimal classifier. Our analysis has surprising and counter-intuitive implications where in certain regimes one might want to distribute the error of the attribute classifier as unevenly as possible among the different subgroups. Based on our analysis we develop heuristics for both training and using attribute classifiers for bias estimation in the data scarce regime. We empirically demonstrate the effectiveness of our approach on real and simulated data.
翻訳日:2021-02-18 19:28:44 公開日:2021-02-16
# (参考訳) 雑音ラベルを用いたマルチラベル分類器の評価

Evaluating Multi-label Classifiers with Noisy Labels ( http://arxiv.org/abs/2102.08427v1 )

ライセンス: CC BY 4.0
Wenting Zhao, Carla Gomes(参考訳) マルチラベル分類(MLC)は、与えられたサンプルに複数のラベルを割り当てることができる標準分類の一般化である。 現実の世界では、クラウドソーシングプラットフォーム上でアノテータの大規模なグループによって現代のデータセットがラベル付けされていることを考えると、クリーンデータセットよりもノイズの多いデータセットを扱うのが一般的だが、ノイズラベルを持つマルチラベル分類器の評価にはほとんど注意が払われていない。 ラベル相関を利用すると、競合性能を達成するためにマルチラベル分類器の標準コンポーネントとなる。 しかし、このコンポーネントは分類器を貧弱な一般化に陥れやすくし、ラベル依存だけでなくラベル依存にも過剰に適合する。 3つの実世界のラベルノイズシナリオを識別し,ノイズラベルによる単一フォーム毎の従来のアプローチの悪さを示す。 この問題に対処するために,ラベル依存を学習する際に雑音ラベルを効果的に処理するコンテキストベースマルチラベル分類器(cbmlc)を提案する。 クリーンな設定とノイズの多い設定の両方で、CbMLCをさまざまなデータセット上の他のドメイン固有の最新モデルと比較します。 CbMLCは、ほとんどの場合、以前の方法よりも大幅に改善されています。

Multi-label classification (MLC) is a generalization of standard classification where multiple labels may be assigned to a given sample. In the real world, it is more common to deal with noisy datasets than clean datasets, given how modern datasets are labeled by a large group of annotators on crowdsourcing platforms, but little attention has been given to evaluating multi-label classifiers with noisy labels. Exploiting label correlations now becomes a standard component of a multi-label classifier to achieve competitive performance. However, this component makes the classifier more prone to poor generalization - it overfits labels as well as label dependencies. We identify three common real-world label noise scenarios and show how previous approaches per-form poorly with noisy labels. To address this issue, we present a Context-Based Multi-LabelClassifier (CbMLC) that effectively handles noisy labels when learning label dependencies, without requiring additional supervision. We compare CbMLC against other domain-specific state-of-the-art models on a variety of datasets, under both the clean and the noisy settings. We show CbMLC yields substantial improvements over the previous methods in most cases.
翻訳日:2021-02-18 19:09:29 公開日:2021-02-16
# (参考訳) DEUP: 直接のてんかん不確実性予測

DEUP: Direct Epistemic Uncertainty Prediction ( http://arxiv.org/abs/2102.08501v1 )

ライセンス: CC BY 4.0
Moksh Jain, Salem Lahlou, Hadi Nekoei, Victor Butoi, Paul Bertin, Jarrid Rector-Brooks, Maksym Korablyov, Yoshua Bengio(参考訳) 疫学的な不確実性は、学習者の知識の欠如によるサンプル外予測エラーの一部である。 従来の研究はモデルの分散に着目していたが,一般化誤差の予測を学習することで認識的不確実性を直接推定する原理的手法を提案し,推定的不確実性,すなわち内在的不確実性の推定を減じた。 この認識の不確実性推定装置は、モデルバイアスの効果を含み、アクティブラーニングや強化学習で発生する非定常学習環境に適用することができる。 直接認識不確実性予測(DEUP)のこれらの特性の実証に加えて、逐次モデル最適化や強化学習を含む下流タスクにおける不確実性推定手法に対する利点を示す。 また,画像の確率的分類と相乗的薬物の組み合わせに関する不確かさを推定するために,deupから推定した不確実性の品質を評価する。

Epistemic uncertainty is the part of out-of-sample prediction error due to the lack of knowledge of the learner. Whereas previous work was focusing on model variance, we propose a principled approach for directly estimating epistemic uncertainty by learning to predict generalization error and subtracting an estimate of aleatoric uncertainty, i.e., intrinsic unpredictability. This estimator of epistemic uncertainty includes the effect of model bias and can be applied in non-stationary learning environments arising in active learning or reinforcement learning. In addition to demonstrating these properties of Direct Epistemic Uncertainty Prediction (DEUP), we illustrate its advantage against existing methods for uncertainty estimation on downstream tasks including sequential model optimization and reinforcement learning. We also evaluate the quality of uncertainty estimates from DEUP for probabilistic classification of images and for estimating uncertainty about synergistic drug combinations.
翻訳日:2021-02-18 18:50:25 公開日:2021-02-16
# (参考訳) 多様なHausa言語データセットの最初の大規模コレクション

The first large scale collection of diverse Hausa language datasets ( http://arxiv.org/abs/2102.06991v2 )

ライセンス: CC BY 4.0
Isa Inuwa-Dutse(参考訳) ハウサ語はアフロアシア語のフィラムに属し、他のサハラ以南のアフリカ語よりも第一言語話者が多い。 話者の大半はナイジェリア北部と南部に居住し、ニジェール共和国では1億人以上がこの言語を話していると推定されている。 そのため、チャド語で最も多く話されている言語である。 ハウサはサハラ以南のアフリカの言語の中でよく研究され、文書化された言語と考えられているが、NLP関連のタスクに利用するリソースが限られているため、自然言語処理(NLP)の観点からは低リソース言語と見なされている。 これはアフリカのほとんどの言語に共通するものであり、現代社会の要求を満たすために様々な下流タスクの実行のペースをサポートし、高速化するリソースでそのような言語を充実させることが重要です。 有用なデータセット、特にニュースサイトや宗教的なテキストは存在するが、コーパスにはより多くの多様性が必要である。 我々は,refutable web サイト と online social media network から,形式形式と形式的の両方からなるデータ集合の広範なコレクションを提供する。 このコレクションは、既存のコーポラよりも大規模で多様で、言語の特異性をキャプチャする最初の、最大のHausaソーシャルメディアデータ投稿を提供します。 このコレクションは並列データセットも含んでおり、スプリアスや熱狂的なオンラインコンテンツの検出などの分野でアプリケーションによる機械翻訳などのタスクに使用することができる。 収集、前処理、データの取得方法から、キュレーションプロセスを説明し、データを使用して対処できるいくつかの研究問題を推測します。

Hausa language belongs to the Afroasiatic phylum, and with more first-language speakers than any other sub-Saharan African language. With a majority of its speakers residing in the Northern and Southern areas of Nigeria and the Republic of Niger, respectively, it is estimated that over 100 million people speak the language. Hence, making it one of the most spoken Chadic language. While Hausa is considered well-studied and documented language among the sub-Saharan African languages, it is viewed as a low resource language from the perspective of natural language processing (NLP) due to limited resources to utilise in NLP-related tasks. This is common to most languages in Africa; thus, it is crucial to enrich such languages with resources that will support and speed the pace of conducting various downstream tasks to meet the demand of the modern society. While there exist useful datasets, notably from news sites and religious texts, more diversity is needed in the corpus. We provide an expansive collection of curated datasets consisting of both formal and informal forms of the language from refutable websites and online social media networks, respectively. The collection is large and more diverse than the existing corpora by providing the first and largest set of Hausa social media data posts to capture the peculiarities in the language. The collection also consists of a parallel dataset, which can be used for tasks such as machine translation with applications in areas such as the detection of spurious or inciteful online content. We describe the curation process -- from the collection, preprocessing and how to obtain the data -- and proffer some research problems that could be addressed using the data.
翻訳日:2021-02-18 16:56:39 公開日:2021-02-16
# (参考訳) 多変量弱ラベル時系列の分類と注目

Classification of multivariate weakly-labelled time-series with attention ( http://arxiv.org/abs/2102.08245v1 )

ライセンス: CC BY 4.0
Surayez Rahman, Chang Wei Tan(参考訳) 本研究は, 最先端のTSCモデルでは形状がよくない弱い多変量時系列分類(TSC)におけるギャップを明らかにする。 弱いラベル付き時系列は、ノイズと重大な冗長性を含む時系列である。 このギャップに対応するために,従来のサブシーケンスからのサブシーケンスのコンテキスト関連性を利用して分類精度を向上させる手法を提案する。 これを実現するために、最先端のアテンションアルゴリズムとTLC(FCNとResNet)の上位CNNモデルの組み合わせをCNN-LSTMアーキテクチャで実験する。 注意は、現代のシーケンスからシーケンスへのタスクで優れたパフォーマンスを持つコンテキスト抽出のための一般的な戦略です。 本稿では,商業用Emotivヘッドセットを用いて得られた多変量脳波時系列データセット上で,走行中の様々な活動を行う参加者からモデルを評価することにより,弱ラベル化TSCの改善に注意アルゴリズムをいかに利用できるかを示す。 これらの時系列はサブシーケンスに分割され、教師付きTSCを可能にするためにラベル付けされる。

This research identifies a gap in weakly-labelled multivariate time-series classification (TSC), where state-of-the-art TSC models do not per-form well. Weakly labelled time-series are time-series containing noise and significant redundancies. In response to this gap, this paper proposes an approach of exploiting context relevance of subsequences from previous subsequences to improve classification accuracy. To achieve this, state-of-the-art Attention algorithms are experimented in combination with the top CNN models for TSC (FCN and ResNet), in an CNN-LSTM architecture. Attention is a popular strategy for context extraction with exceptional performance in modern sequence-to-sequence tasks. This paper shows how attention algorithms can be used for improved weakly labelledTSC by evaluating models on a multivariate EEG time-series dataset obtained using a commercial Emotiv headsets from participants performing various activities while driving. These time-series are segmented into sub-sequences and labelled to allow supervised TSC.
翻訳日:2021-02-18 15:38:07 公開日:2021-02-16
# (参考訳) 不均一ネットワークにおけるメタパスフリー表現学習

Meta-Path-Free Representation Learning on Heterogeneous Networks ( http://arxiv.org/abs/2102.08120v1 )

ライセンス: CC BY 4.0
Jie Zhang, Jinru Ding, Suyuan Liu, Hongyan Wu(参考訳) 実世界のネットワークと知識グラフは通常異質なネットワークである。 不均一なネットワーク上での表現学習は、人気のあるだけでなく、実用的な研究分野です。 主な課題は、異種性 — さまざまなタイプのノードとエッジ — にあります。 さらに、HIN内の与えられたノードに対して、近傍ノードの重要性は構造距離だけでなく意味論にも依存する。 構造的関係と意味的関係を効果的に捉える方法も課題です。 現在の最先端のメソッドはメタパスのアルゴリズムに基づいており、それ故に深刻な不利がある -- パフォーマンスはメタパスの任意の選択に依存する。 しかし、メタパスの選択は経験ベースであり、時間がかかる。 本研究では,異種ネットワーク上のメタパス自由表現学習,すなわち異種グラフ畳み込みネットワーク(HCN)を提案する。 提案手法は不均一性を融合し,$k$-strataアルゴリズム (k$ is an integer) を開発し,$k$-hopの構造的および意味的情報をヘテロジニアスネットワークで取得する。 私たちの知る限りでは、これは異種ネットワーク上での表現学習のためのメタパスの閉じ込めから抜け出す最初の試みです。 私達は3つの実世界の異種ネットワークで広範な実験を遂行します。 実験の結果,提案手法は様々な解析課題において,現在の最先端手法よりも有意に優れていた。

Real-world networks and knowledge graphs are usually heterogeneous networks. Representation learning on heterogeneous networks is not only a popular but a pragmatic research field. The main challenge comes from the heterogeneity -- the diverse types of nodes and edges. Besides, for a given node in a HIN, the significance of a neighborhood node depends not only on the structural distance but semantics. How to effectively capture both structural and semantic relations is another challenge. The current state-of-the-art methods are based on the algorithm of meta-path and therefore have a serious disadvantage -- the performance depends on the arbitrary choosing of meta-path(s). However, the selection of meta-path(s) is experience-based and time-consuming. In this work, we propose a novel meta-path-free representation learning on heterogeneous networks, namely Heterogeneous graph Convolutional Networks (HCN). The proposed method fuses the heterogeneity and develops a $k$-strata algorithm ($k$ is an integer) to capture the $k$-hop structural and semantic information in heterogeneous networks. To the best of our knowledge, this is the first attempt to break out of the confinement of meta-paths for representation learning on heterogeneous networks. We carry out extensive experiments on three real-world heterogeneous networks. The experimental results demonstrate that the proposed method significantly outperforms the current state-of-the-art methods in a variety of analytic tasks.
翻訳日:2021-02-18 15:37:14 公開日:2021-02-16
# (参考訳) インフルエンザの予測のための動的仮想グラフ意義ネットワーク

Dynamic Virtual Graph Significance Networks for Predicting Influenza ( http://arxiv.org/abs/2102.08122v1 )

ライセンス: CC BY 4.0
Jie Zhang, Pengfei Zhou, Hongyan Wu(参考訳) グラフ構造データとその関連アルゴリズムは、公衆衛生におけるインフルエンザの予測など、多くの分野で注目を集めている。 しかし、インフルエンザの季節変動、パンデミック、ドメイン知識は適切なグラフを構築する上で大きな課題をもたらし、現在の一般的なグラフベースのアルゴリズムの強みを損なう可能性がある。 本研究では,歴史的時刻における同様の「感染状況」から指導的かつ動的に学習できる動的仮想グラフ意義ネットワーク(DVGSN)を開発した。 動的仮想グラフ上の表現学習は、季節やパンデミックの変化に対処し、パフォーマンスを向上させることができる。 実世界のインフルエンザデータに関する広範な実験は、DVGSNが現在の最先端の方法を大幅に上回っていることを示しています。 我々の知る限りでは、時系列予測タスクのための動的仮想グラフを監督的に学習する最初の試みである。 さらに,提案手法では,事前のグラフ作成に必要なドメイン知識が少なく,解釈性も豊富であり,公衆衛生,生命科学などの分野ではより受け入れられる手法である。

Graph-structured data and their related algorithms have attracted significant attention in many fields, such as influenza prediction in public health. However, the variable influenza seasonality, occasional pandemics, and domain knowledge pose great challenges to construct an appropriate graph, which could impair the strength of the current popular graph-based algorithms to perform data analysis. In this study, we develop a novel method, Dynamic Virtual Graph Significance Networks (DVGSN), which can supervisedly and dynamically learn from similar "infection situations" in historical timepoints. Representation learning on the dynamic virtual graph can tackle the varied seasonality and pandemics, and therefore improve the performance. The extensive experiments on real-world influenza data demonstrate that DVGSN significantly outperforms the current state-of-the-art methods. To the best of our knowledge, this is the first attempt to supervisedly learn a dynamic virtual graph for time-series prediction tasks. Moreover, the proposed method needs less domain knowledge to build a graph in advance and has rich interpretability, which makes the method more acceptable in the fields of public health, life sciences, and so on.
翻訳日:2021-02-18 15:12:27 公開日:2021-02-16
# COCO-LM:言語モデル事前学習のためのテキストシーケンスの修正とコントラスト

COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining ( http://arxiv.org/abs/2102.08473v1 )

ライセンス: Link先を確認
Yu Meng, Chenyan Xiong, Payal Bajaj, Saurabh Tiwary, Paul Bennett, Jiawei Han, Xia Song(参考訳) 我々は,言語モデルを事前学習する,新たな自己教師型学習フレームワークCOCO-LMを提案する。 COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。 これは、補助言語モデルの可能性に基づいてノイズをサンプリングする、より困難な事前トレーニング入力を作成します。 最初のタスクである修正言語モデリングは、元のトークンを復元することで、補助モデルの破損を修正することを学習します。 第2のタスクであるシーケンスコントラスト学習は、言語モデルがノイズや変換に不変なシーケンス表現を生成することを保証する。 GLUEおよびSQuADベンチマークの実験では、COCO-LMは、様々なプリトレーニング設定およびマルチショット評価における最近のプリトレーニングアプローチを上回り、プリトレーニング効率が向上します。 分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。

We present COCO-LM, a new self-supervised learning framework that pretrains Language Models by COrrecting challenging errors and COntrasting text sequences. COCO-LM employs an auxiliary language model to mask-and-predict tokens in original text sequences. It creates more challenging pretraining inputs, where noises are sampled based on their likelihood in the auxiliary language model. COCO-LM then pretrains with two tasks: The first task, corrective language modeling, learns to correct the auxiliary model's corruptions by recovering the original tokens. The second task, sequence contrastive learning, ensures that the language model generates sequence representations that are invariant to noises and transformations. In our experiments on the GLUE and SQuAD benchmarks, COCO-LM outperforms recent pretraining approaches in various pretraining settings and few-shot evaluations, with higher pretraining efficiency. Our analyses reveal that COCO-LM's advantages come from its challenging training signals, more contextualized token representations, and regularized sequence representations.
翻訳日:2021-02-18 14:49:19 公開日:2021-02-16
# シェイプレットに基づく時系列分類のためのパターンサンプリング

Pattern Sampling for Shapelet-based Time Series Classification ( http://arxiv.org/abs/2102.08498v1 )

ライセンス: Link先を確認
Atif Raza, Stefan Kramer(参考訳) 時系列分類アルゴリズムは正確かつ解釈可能なモデルを提供するが、これらのモデルのトレーニングは非常に計算集約的である。 これらのアルゴリズムは高度に識別的な部分配列の完全探索に基づいているため、部分順序に基づくアルゴリズムの非近時複雑性は高階多項式のままである。 パターン爆発現象を緩和するための効果的な代替手段としてパターンサンプリングが提案されている。 そこで,パターンサンプリングを用いて離散時系列データから識別特徴を抽出する。 離散化された時系列データに基づいて重み付きトリエを作成し、高度に識別可能なパターンをサンプリングする。 これらのサンプルパターンを用いて、時系列分類問題を特徴に基づく分類問題に変換するために使用されるシェープレットを同定する。 最後に、分類モデルは、既成のアルゴリズムを使って訓練することができる。 パターンサンプリングを作成するには、以前のアプローチで採用した徹底的な探索と比較して、少数のパターンを評価する必要がある。 提案手法は,従来のアルゴリズムと比較して計算量やメモリリソースが大幅に少ない。 実験では、提案されたアプローチが分類精度と実行時のパフォーマンスの点でどう異なるかを示す。

Subsequence-based time series classification algorithms provide accurate and interpretable models, but training these models is extremely computation intensive. The asymptotic time complexity of subsequence-based algorithms remains a higher-order polynomial, because these algorithms are based on exhaustive search for highly discriminative subsequences. Pattern sampling has been proposed as an effective alternative to mitigate the pattern explosion phenomenon. Therefore, we employ pattern sampling to extract discriminative features from discretized time series data. A weighted trie is created based on the discretized time series data to sample highly discriminative patterns. These sampled patterns are used to identify the shapelets which are used to transform the time series classification problem into a feature-based classification problem. Finally, a classification model can be trained using any off-the-shelf algorithm. Creating a pattern sampler requires a small number of patterns to be evaluated compared to an exhaustive search as employed by previous approaches. Compared to previously proposed algorithms, our approach requires considerably less computational and memory resources. Experiments demonstrate how the proposed approach fares in terms of classification accuracy and runtime performance.
翻訳日:2021-02-18 14:48:49 公開日:2021-02-16
# Reward Poisoning in Reinforcement Learning: 未知の学習者に対する攻撃

Reward Poisoning in Reinforcement Learning: Attacks Against Unknown Learners in Unknown Environments ( http://arxiv.org/abs/2102.08492v1 )

ライセンス: Link先を確認
Amin Rakhsha, Xuezhou Zhang, Xiaojin Zhu, Adish Singla(参考訳) そこで,敵は,未知のアルゴリズムでRLエージェントの列を誤誘導し,敵が未知の環境下で悪質なポリシーを学習することを目的とした,強化学習(RL)に対するブラックボックス報酬毒殺攻撃について検討した。 すなわち、私たちの攻撃は敵の以前の知識に最小限の仮定をします。環境や学習者の初期の知識がなく、実行された行動を除いて学習者の内部メカニズムを観察しません。 最先端のホワイトボックス攻撃に匹敵する性能を発揮できる新しいブラックボックス攻撃、U2を設計し、最も挑戦的なブラックボックス設定でも報酬中毒の可能性を示しています。

We study black-box reward poisoning attacks against reinforcement learning (RL), in which an adversary aims to manipulate the rewards to mislead a sequence of RL agents with unknown algorithms to learn a nefarious policy in an environment unknown to the adversary a priori. That is, our attack makes minimum assumptions on the prior knowledge of the adversary: it has no initial knowledge of the environment or the learner, and neither does it observe the learner's internal mechanism except for its performed actions. We design a novel black-box attack, U2, that can provably achieve a near-matching performance to the state-of-the-art white-box attack, demonstrating the feasibility of reward poisoning even in the most challenging black-box setting.
翻訳日:2021-02-18 14:44:51 公開日:2021-02-16
# オートエンコーディングのトポロジカル障害

Topological Obstructions to Autoencoding ( http://arxiv.org/abs/2102.08380v1 )

ライセンス: Link先を確認
Joshua Batson, C. Grace Haaf, Yonatan Kahn, Daniel A. Roberts(参考訳) 高エネルギー物理におけるモデル非依存型異常検出のための強力なツールとして,オートエンコーダが提案されている。 運用原則は、トレーニングデータの空間に属さないイベントは、不十分に再構築されるため、異常としてフラグ付けされる。 様々な興味深い例では、大きなリコンストラクションエラーと異常との関連性がそれほど明確ではないことを指摘した。 特に、非自明なトポロジを持つデータセットには、グローバル問題のために誤って異常に見える点が常にあります。 逆に、ニューラルネットワークは典型的には誘導バイアスを持つか、あるいは局所的な補間の前に、実際に望ましい異常であるにもかかわらず、アンダーサンプルまたはまれな事象を小さなエラーで再構築することができる。 これらの事実は、オートエンコーダを異常検出器として単純な画像と緊張関係にある。 低次元の一連の例を用いて、データセットの内在的および外在的トポロジがオートエンコーダの挙動にどのように影響し、このトポロジがトレーニング中の潜在空間表現にどのように現れるかを明確に示す。 この解析を,n$-particle 位相空間の固有位相に結びついた理由から,autoencoder が異常な "signal" を識別できないモック "bump hunt" の議論で根拠としている。

Autoencoders have been proposed as a powerful tool for model-independent anomaly detection in high-energy physics. The operating principle is that events which do not belong to the space of training data will be reconstructed poorly, thus flagging them as anomalies. We point out that in a variety of examples of interest, the connection between large reconstruction error and anomalies is not so clear. In particular, for data sets with nontrivial topology, there will always be points that erroneously seem anomalous due to global issues. Conversely, neural networks typically have an inductive bias or prior to locally interpolate such that undersampled or rare events may be reconstructed with small error, despite actually being the desired anomalies. Taken together, these facts are in tension with the simple picture of the autoencoder as an anomaly detector. Using a series of illustrative low-dimensional examples, we show explicitly how the intrinsic and extrinsic topology of the dataset affects the behavior of an autoencoder and how this topology is manifested in the latent space representation during training. We ground this analysis in the discussion of a mock "bump hunt" in which the autoencoder fails to identify an anomalous "signal" for reasons tied to the intrinsic topology of $n$-particle phase space.
翻訳日:2021-02-18 14:43:48 公開日:2021-02-16
# アダプティブ・アドバンサリによるスムース分析

Smoothed Analysis with Adaptive Adversaries ( http://arxiv.org/abs/2102.08446v1 )

ライセンス: Link先を確認
Nika Haghtalab, Tim Roughgarden, Abhishek Shetty(参考訳) オンライン問題に対する新しいアルゴリズムの保証を平滑化解析モデルで証明する。 このモデルでは、敵が上記の密度関数を持つ入力分布を $\tfrac{1}{\sigma}$ 倍の均一分布で選択するたびに、自然は、この分布から入力をサンプリングする。 重要なことに、我々の結果はアルゴリズムの決定と前回の時間ステップにおける入力の実現に基づいて入力分布を選択できる「適応的」敵に対して成り立つ。 本稿では,適応的敵意に対するアルゴリズム的保証の平滑化を実現するための汎用的手法を提案する。 オンライン学習: オンライン予測問題を考えると、インスタンスは$\sigma$-smooth分布の適応シーケンスから生成され、仮説クラスはVC次元が$d$である。 後悔を$\tilde{o}\big(\sqrt{t d\ln(1/\sigma)} + d\sqrt{\ln(t/\sigma)}\big)$ で縛る。 これは[RST11,Hag18]のオープンな質問に答えます。 オンライン差分最小化:$\sigma$-smoothの適応列と$\ell_2$単位球上の等方分布から入力が生成されるオンラインKoml\'os問題を考える。 矛盾ベクトルの $\ell_\infty$ ノルムを $\tilde{O}\big(\ln^2\!\big( \frac{nT}{\sigma}\big) \big)$ でバインドします。 オンライン最適化の分散:$\ell$の不連続関数が滑らかな適応的逆数によって選択される部分的なリプシッツ関数のオンライン最適化を検討し、結果列が$\big( {\sigma}/{\sqrt{t\ell}}, \tilde o\big(\sqrt{t\ell} \big)\big)$-dispersedであることを示す。 これは、[BDV18]の不正な敵のパラメータとログファクターに一致します。

We prove novel algorithmic guarantees for several online problems in the smoothed analysis model. In this model, at each time an adversary chooses an input distribution with density function bounded above by $\tfrac{1}{\sigma}$ times that of the uniform distribution; nature then samples an input from this distribution. Crucially, our results hold for {\em adaptive} adversaries that can choose an input distribution based on the decisions of the algorithm and the realizations of the inputs in the previous time steps. This paper presents a general technique for proving smoothed algorithmic guarantees against adaptive adversaries, in effect reducing the setting of adaptive adversaries to the simpler case of oblivious adversaries. We apply this technique to prove strong smoothed guarantees for three problems: -Online learning: We consider the online prediction problem, where instances are generated from an adaptive sequence of $\sigma$-smooth distributions and the hypothesis class has VC dimension $d$. We bound the regret by $\tilde{O}\big(\sqrt{T d\ln(1/\sigma)} + d\sqrt{\ln(T/\sigma)}\big)$. This answers open questions of [RST11,Hag18]. -Online discrepancy minimization: We consider the online Koml\'os problem, where the input is generated from an adaptive sequence of $\sigma$-smooth and isotropic distributions on the $\ell_2$ unit ball. We bound the $\ell_\infty$ norm of the discrepancy vector by $\tilde{O}\big(\ln^2\!\big( \frac{nT}{\sigma}\big) \big)$. -Dispersion in online optimization: We consider online optimization of piecewise Lipschitz functions where functions with $\ell$ discontinuities are chosen by a smoothed adaptive adversary and show that the resulting sequence is $\big( {\sigma}/{\sqrt{T\ell}}, \tilde O\big(\sqrt{T\ell} \big)\big)$-dispersed. This matches the parameters of [BDV18] for oblivious adversaries, up to log factors.
翻訳日:2021-02-18 14:43:26 公開日:2021-02-16
# グローバルロバストニューラルネットワーク

Globally-Robust Neural Networks ( http://arxiv.org/abs/2102.08452v1 )

ライセンス: Link先を確認
Klas Leino, Zifan Wang, Matt Fredrikson(参考訳) 敵対的な例の脅威は、推論時の局所的堅牢性の効率的な検証を促進するために、証明可能な堅牢なニューラルネットワークの訓練に動機づけられた。 グローバルロバスト性の概念を形式化し、オンラインローカルロバスト性認定の運用特性を捉えながら、堅牢なトレーニングのための自然学習目標を実現します。 本研究では,この目的に対して,効率的なグローバルリプシッツバウンダリをネットワークに組み込むことで,最先端の検証とクリーンな精度を実現する構築により,信頼性の高いロバストモデルが得られることを示す。 特に,本手法は,近年の認定トレーニング手法よりも時間とメモリを著しく少なくし,ポイントをオンラインに認定する際の無視可能なコストにつながる。 我々は、より安価なグローバル境界(以前の提案では、良いパフォーマンスのためにより厳密なローカル境界が必要である)を使用することで、これが可能であることを実証する。 すなわち,与えられたデータセットに対する最大可否検証精度は,局所境界を用いることで向上しないことを示す。

The threat of adversarial examples has motivated work on training certifiably robust neural networks, to facilitate efficient verification of local robustness at inference time. We formalize a notion of global robustness, which captures the operational properties of on-line local robustness certification while yielding a natural learning objective for robust training. We show that widely-used architectures can be easily adapted to this objective by incorporating efficient global Lipschitz bounds into the network, yielding certifiably-robust models by construction that achieve state-of-the-art verifiable and clean accuracy. Notably, this approach requires significantly less time and memory than recent certifiable training methods, and leads to negligible costs when certifying points on-line; for example, our evaluation shows that it is possible to train a large tiny-imagenet model in a matter of hours. We posit that this is possible using inexpensive global bounds -- despite prior suggestions that tighter local bounds are needed for good performance -- because these models are trained to achieve tighter global bounds. Namely, we prove that the maximum achievable verifiable accuracy for a given dataset is not improved by using a local bound.
翻訳日:2021-02-18 14:42:44 公開日:2021-02-16
# Lexicographically Fair Learning:アルゴリズムと一般化

Lexicographically Fair Learning: Algorithms and Generalization ( http://arxiv.org/abs/2102.08454v1 )

ライセンス: Link先を確認
Emily Diana, Wesley Gill, Ira Globus-Harris, Michael Kearns, Aaron Roth and Saeed Sharifi-Malvajerdi(参考訳) 教師付き学習問題におけるミニマックスフェアネスの概念を自然な結論へと拡張する: lexicographic minimax fairness(略してlexifairness)。 非公式に、興味のある集団の集合が与えられたとき、minimax fairnessは、最も高い誤差を持つグループの誤差を最小化するように要求する。 Lexifairnessはさらに進み、すべてのminimaxフェアソリューションの中で、2番目に高いエラーを持つグループのエラーを最小限に抑えるべきであり、それらのすべてのソリューションの中で、3番目に高いエラーを持つグループのエラーを最小限に抑えるべきである。 その自然さにもかかわらず、正しくlexifairnessを定義することは、近似誤差に対する固有の感受性のために、ミニマックス公平性よりもかなり微妙です。 この問題を回避する近似lexifairnessの概念を与え、その後、非常に一般的な設定でおよそlexifairソリューションを見つけるためのオラクル効率の高いアルゴリズムを導出する。 公平性制約を欠いた経験的リスク最小化問題が凸である場合(例えば線形回帰やロジスティック回帰の場合)、最悪の場合であってもアルゴリズムは確実に効率的である。 最後に、一般化境界 -- トレーニングサンプル上の近似レキシフィアネスは、確率の高い真の分布上の近似レキシフィアネスを暗示する。 一般化境界を証明する能力は、ナイーブ定義の不安定さを避けるための選択定義に依存する。

We extend the notion of minimax fairness in supervised learning problems to its natural conclusion: lexicographic minimax fairness (or lexifairness for short). Informally, given a collection of demographic groups of interest, minimax fairness asks that the error of the group with the highest error be minimized. Lexifairness goes further and asks that amongst all minimax fair solutions, the error of the group with the second highest error should be minimized, and amongst all of those solutions, the error of the group with the third highest error should be minimized, and so on. Despite its naturalness, correctly defining lexifairness is considerably more subtle than minimax fairness, because of inherent sensitivity to approximation error. We give a notion of approximate lexifairness that avoids this issue, and then derive oracle-efficient algorithms for finding approximately lexifair solutions in a very general setting. When the underlying empirical risk minimization problem absent fairness constraints is convex (as it is, for example, with linear and logistic regression), our algorithms are provably efficient even in the worst case. Finally, we show generalization bounds -- approximate lexifairness on the training sample implies approximate lexifairness on the true distribution with high probability. Our ability to prove generalization bounds depends on our choosing definitions that avoid the instability of naive definitions.
翻訳日:2021-02-18 14:42:24 公開日:2021-02-16
# 主要化から補間へ:カーネルスムージングを用いた分散ロバスト学習

From Majorization to Interpolation: Distributionally Robust Learning using Kernel Smoothing ( http://arxiv.org/abs/2102.08474v1 )

ライセンス: Link先を確認
Jia-Jie Zhu, Yassine Nemmour, Bernhard Sch\"olkopf(参考訳) 分布的に堅牢な最適化(DRO)の関数近似の側面を、Wassersteinや最大平均不一致などの確率メトリクスに基づいて検討する。 我々の分析は、既存のDROパラダイムがモロー・ヨシダ正則化 (supremal convolution) のような関数長元にヒンジするという知見を利用する。 そこで本論文では,スムース関数近似と補間に基づく頑健な学習アルゴリズムを提案する。 本手法は形式的に単純であり,関数ノルムを事前に知ることなく一般損失関数に適用できる。 さらに、スムーズな関数近似器と経験的カーネル平均埋め込みの収束率を利用して、DROのリスク境界分解を分析する。

We study the function approximation aspect of distributionally robust optimization (DRO) based on probability metrics, such as the Wasserstein and the maximum mean discrepancy. Our analysis leverages the insight that existing DRO paradigms hinge on function majorants such as the Moreau-Yosida regularization (supremal convolution). Deviating from those, this paper instead proposes robust learning algorithms based on smooth function approximation and interpolation. Our methods are simple in forms and apply to general loss functions without knowing functional norms a priori. Furthermore, we analyze the DRO risk bound decomposition by leveraging smooth function approximators and the convergence rate for empirical kernel mean embedding.
翻訳日:2021-02-18 14:41:59 公開日:2021-02-16
# 二国間貿易の残余分析

A Regret Analysis of Bilateral Trade ( http://arxiv.org/abs/2102.08754v1 )

ライセンス: Link先を確認
Nicol\`o Cesa-Bianchi, Tommaso Cesari (TSE), Roberto Colomboni (IIT), Federico Fusco, Stefano Leonardi(参考訳) 経済の基本的なトピックである二国間貿易は、売り手と買い手の2つの戦略的代理人の間で仲介する問題をモデル化し、彼らが私的な評価を保持するために良いものを取引しようとします。 この問題の単純さにもかかわらず、Myerson and Satterthwaite (1983) による古典的な結果は、同時に効率的でインセンティブに適合し、個々に合理的で予算バランスの取れたメカニズムを設計できないことを裏付けている。 この不可能性の結果は、これらの望ましい特性間の有意義なトレードオフの激しい調査を促した。 多くの研究は、Blumrosen と Dobzinski (2014; 2016), Colini-Baldeschi et al など、およそ効率的な固定価格機構に焦点を当てている。 (2016)は、バランスの取れた強い予算と、個別に合理的な直接啓示メカニズムを完全に特徴付けることが示されている。 しかしながら、これらの結果のすべては、売り手/買い手の評価の事前知識を仮定するか、d{\"u}tting et alのように、分布のいくつかのサンプルにアクセスするブラックボックスのいずれかである。 (2021). 本稿では,二国間貿易問題が初めて,個人販売者/購入者評価の知識がなく,販売者/購入者間インタラクションのラウンドに対する後悔の最小化枠組みに突き当たった。 私たちの主な貢献は、フィードバックとプライベート評価の異なるモデルを備えた固定価格メカニズムの後悔体制の完全な評価であり、後見で最高の固定価格のベンチマークとして使用します。 More precisely, we prove the following bounds on the regret: $\bullet$ $\widetilde{\Theta}(\sqrt{T})$ for full-feedback (i.e., direct revelation mechanisms); $\bullet$ $\widetilde{\Theta}(T^{2/3})$ for realistic feedback (i.e., posted-price mechanisms) and independent seller/buyer valuations with bounded densities; $\bullet$ $\Theta(T)$ for realistic feedback and seller/buyer valuations with bounded densities; $\bullet$ $\Theta(T)$ for realistic feedback and independent seller/buyer valuations; $\bullet$ $\Theta(T)$ for the adversarial setting.

Bilateral trade, a fundamental topic in economics, models the problem of intermediating between two strategic agents, a seller and a buyer, willing to trade a good for which they hold private valuations. Despite the simplicity of this problem, a classical result by Myerson and Satterthwaite (1983) affirms the impossibility of designing a mechanism which is simultaneously efficient, incentive compatible, individually rational, and budget balanced. This impossibility result fostered an intense investigation of meaningful trade-offs between these desired properties. Much work has focused on approximately efficient fixed-price mechanisms, i.e., Blumrosen and Dobzinski (2014; 2016), Colini-Baldeschi et al. (2016), which have been shown to fully characterize strong budget balanced and ex-post individually rational direct revelation mechanisms. All these results, however, either assume some knowledge on the priors of the seller/buyer valuations, or a black box access to some samples of the distributions, as in D{\"u}tting et al. (2021). In this paper, we cast for the first time the bilateral trade problem in a regret minimization framework over rounds of seller/buyer interactions, with no prior knowledge on the private seller/buyer valuations. Our main contribution is a complete characterization of the regret regimes for fixed-price mechanisms with different models of feedback and private valuations, using as benchmark the best fixed price in hindsight. More precisely, we prove the following bounds on the regret: $\bullet$ $\widetilde{\Theta}(\sqrt{T})$ for full-feedback (i.e., direct revelation mechanisms); $\bullet$ $\widetilde{\Theta}(T^{2/3})$ for realistic feedback (i.e., posted-price mechanisms) and independent seller/buyer valuations with bounded densities; $\bullet$ $\Theta(T)$ for realistic feedback and seller/buyer valuations with bounded densities; $\bullet$ $\Theta(T)$ for realistic feedback and independent seller/buyer valuations; $\bullet$ $\Theta(T)$ for the adversarial setting.
翻訳日:2021-02-18 14:41:19 公開日:2021-02-16
# 神経形態変化における探索誤差の探索

Searching for Search Errors in Neural Morphological Inflection ( http://arxiv.org/abs/2102.08424v1 )

ライセンス: Link先を確認
Martina Forster, Clara Meister, Ryan Cotterell(参考訳) ニューラルシークエンス・トゥ・シークエンスモデルは現在、言語生成タスクの主たる選択である。 しかし、単語レベルのタスクでは、これらのモデルの正確な推論が空文字列がしばしば大域的最適であることを示している。 以前の研究では、この現象は言語生成のためのニューラルモデルの不十分の結果であると推測されている。 しかし、形態学的帰納法の場合、空文字列はモデルの下では最も可能性の高い解ではないことが分かる。 さらに、欲求検索はしばしばグローバルな最適条件を見つける。 これらの観察から、多くのニューラルモデルの不適切なキャリブレーションは、言語生成のためのモデルの一般的な不適合性よりも、タスクの特定のサブセットの特性に起因している可能性が示唆されている。

Neural sequence-to-sequence models are currently the predominant choice for language generation tasks. Yet, on word-level tasks, exact inference of these models reveals the empty string is often the global optimum. Prior works have speculated this phenomenon is a result of the inadequacy of neural models for language generation. However, in the case of morphological inflection, we find that the empty string is almost never the most probable solution under the model. Further, greedy search often finds the global optimum. These observations suggest that the poor calibration of many neural models may stem from characteristics of a specific subset of tasks rather than general ill-suitedness of such models for language generation.
翻訳日:2021-02-18 14:38:43 公開日:2021-02-16
# Stiefel-Restricted Kernel Machineを用いた非監視エネルギーベース分布検出

Unsupervised Energy-based Out-of-distribution Detection using Stiefel-Restricted Kernel Machine ( http://arxiv.org/abs/2102.08443v1 )

ライセンス: Link先を確認
Francesco Tonin, Arun Pandey, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) アウト・オブ・ディストリビューション(OOD)サンプルの検出は、現実世界での機械学習システムの展開に不可欠な要件です。 これまで、エネルギーベースのOOD検出器の研究は、クラスラベルにアクセス可能なトレーニング済みニューラルネットワーク分類器からのソフトマックス信頼性スコアに焦点を当ててきた。 対照的に、Stiefel-Restricted Kernel Machine (St-RKM) を利用した教師なしエネルギーベースOOD検出器を提案する。 トレーニングでは、オートエンコーダ損失項とStiefel多様体上の相互結合行列が存在するRKMエネルギーで客観的関数を最小化する必要がある。 さらに、RKMフレームワークに基づく複数のエネルギー関数定義を概説し、その有用性について議論する。 標準データセットの実験では、提案手法は既存のエネルギーベースのOOD検出器とディープジェネレーションモデルよりも改善される。 いくつかのアブレーション研究を通じて,提案した各エネルギー関数がOOD検出性能に与える影響をさらに明らかにした。

Detecting out-of-distribution (OOD) samples is an essential requirement for the deployment of machine learning systems in the real world. Until now, research on energy-based OOD detectors has focused on the softmax confidence score from a pre-trained neural network classifier with access to class labels. In contrast, we propose an unsupervised energy-based OOD detector leveraging the Stiefel-Restricted Kernel Machine (St-RKM). Training requires minimizing an objective function with an autoencoder loss term and the RKM energy where the interconnection matrix lies on the Stiefel manifold. Further, we outline multiple energy function definitions based on the RKM framework and discuss their utility. In the experiments on standard datasets, the proposed method improves over the existing energy-based OOD detectors and deep generative models. Through several ablation studies, we further illustrate the merit of each proposed energy function on the OOD detection performance.
翻訳日:2021-02-18 14:36:27 公開日:2021-02-16
# オンデバイスパーソナライズのためのフェデレーション評価とチューニング:システム設計と応用

Federated Evaluation and Tuning for On-Device Personalization: System Design & Applications ( http://arxiv.org/abs/2102.08503v1 )

ライセンス: Link先を確認
Matthias Paulik, Matt Seigel, Henry Mason, Dominic Telaar, Joris Kluivers, Rogier van Dalen, Chi Wai Lau, Luke Carlson, Filip Granqvist, Chris Vandevelde, Sudeep Agarwal, Julien Freudiger, Andrew Byde, Abhishek Bhowmick, Gaurav Kapoor, Si Beaumont, \'Aine Cahill, Dominic Hughes, Omid Javidbakht, Fei Dong, Rehan Rishi, Stanley Hung(参考訳) フェデレーションタスク処理システムの設計について説明します。 もともと、システムは2つの特定の連合タスクをサポートするために作成されました:主にこれらのシステムをパーソナライズする目的で、デバイス上のMLシステムの評価とチューニング。 近年では、深層ニューラルネットワークのフェデレーション学習(FL)という、新たなフェデレーションタスクのサポートが追加されている。 我々の知る限り、FLを大規模にサポートする文献では、他の1つのシステムのみが記述されている。 我々は、設計決定と関連するトレードオフを議論するために、システムとの比較を含める。 最後に、デバイス上でのパーソナライズへのフェデレーションチューニングの適用性を示し、アプリケーション固有のソリューションを強調するために、2つの特定の大規模パーソナライズユースケースを詳述する。

We describe the design of our federated task processing system. Originally, the system was created to support two specific federated tasks: evaluation and tuning of on-device ML systems, primarily for the purpose of personalizing these systems. In recent years, support for an additional federated task has been added: federated learning (FL) of deep neural networks. To our knowledge, only one other system has been described in literature that supports FL at scale. We include comparisons to that system to help discuss design decisions and attached trade-offs. Finally, we describe two specific large scale personalization use cases in detail to showcase the applicability of federated tuning to on-device personalization and to highlight application specific solutions.
翻訳日:2021-02-18 14:36:12 公開日:2021-02-16
# AIにおける公正の正しい種類に向けて

Towards the Right Kind of Fairness in AI ( http://arxiv.org/abs/2102.08453v1 )

ライセンス: Link先を確認
Boris Ruf and Marcin Detyniecki(参考訳) 持続可能な方法で公正な機械学習を実装するためには、適切な公正の定義を特定することが重要である。 しかし公正は正義の概念であり、様々な定義が存在する。 それらのいくつかは互いに対立しており、公正さの統一的な概念はありません。 人工知能システムの最も適切な公正性の定義は、しばしば応用の問題であり、正しい選択は倫理的基準と法的要件に依存する。 公式な拘束規則がない場合、この文書の目的は、既存の公正の定義の複雑な景観を構造化することである。 本研究では,選択過程を形式化し,与えられたシステムに対して最も適切な公平度尺度を簡単な手順で識別するツールであるFairness Compassを提案する。 さらに、このプロセスにおいて、各決定の背後にある推論を文書化することは、実装された公平性の説明と正当化を通じて、ユーザからの信頼を構築するのに役立つと論じる。

To implement fair machine learning in a sustainable way, identifying the right fairness definition is key. However, fairness is a concept of justice, and various definitions exist. Some of them are in conflict with each other and there is no uniformly accepted notion of fairness. The most appropriate fairness definition for an artificial intelligence system is often a matter of application and the right choice depends on ethical standards and legal requirements. In the absence of officially binding rules, the objective of this document is to structure the complex landscape of existing fairness definitions. We propose the "Fairness Compass", a tool which formalises the selection process and makes identifying the most appropriate fairness metric for a given system a simple, straightforward procedure. We further argue that documenting the reasoning behind the respective decisions in the course of this process can help to build trust from the user through explaining and justifying the implemented fairness.
翻訳日:2021-02-18 14:35:02 公開日:2021-02-16
# Galaxy Zoo DECaLS:ボランティアによる詳細な視覚形態計測と314,000個の銀河の深層学習

Galaxy Zoo DECaLS: Detailed Visual Morphology Measurements from Volunteers and Deep Learning for 314,000 Galaxies ( http://arxiv.org/abs/2102.08414v1 )

ライセンス: Link先を確認
Mike Walmsley, Chris Lintott, Tobias Geron, Sandor Kruk, Coleman Krawczyk, Kyle W. Willett, Steven Bamford, William Keel, Lee S. Kelvin, Lucy Fortson, Karen L. Masters, Vihang Mehta, Brooke D. Simmons, Rebecca Smethurst, Elisabeth M. Baeten, Christine Macmillan(参考訳) 我々は、SDSS DR8フットプリント内の銀河のダークエネルギーカメラレガシー・サーベイ画像の詳細な視覚形態分類であるGalaxy Zoo DECaLSを提示する。 より深いDCaLS画像(SDSSのr=23.6 vs. r=22.2)では、スパイラルアーム、弱いバー、そしてSDSSイメージングでこれまで見えなかった潮流の特徴が示される。 DECaLS画像の深度を最大限に活用するために、ボランティアは合併やバーに対する感度を改善するために、新しい回答セットを選択する。 ギャラクシー動物園のボランティアは314,000の銀河に7,500万の個人分類を提供している。 14万の銀河は少なくとも30の分類を受けており、バーのような詳細な形態を正確に測定するには十分である。 すべての分類は、314,000個の銀河の詳細な形態を予測するためにベイズ畳み込みニューラルネットワーク(最先端の深層学習法)のアンサンブルを訓練するために使用される。 信頼できるボランティア分類に対して測定すると、ネットワークは質問ごとに約99%正確である。 私たちの人間と機械の分類は、銀河がどのように進化するかを理解するための正確で詳細なリソースです。

We present Galaxy Zoo DECaLS: detailed visual morphological classifications for Dark Energy Camera Legacy Survey images of galaxies within the SDSS DR8 footprint. Deeper DECaLS images (r=23.6 vs. r=22.2 from SDSS) reveal spiral arms, weak bars, and tidal features not previously visible in SDSS imaging. To best exploit the greater depth of DECaLS images, volunteers select from a new set of answers designed to improve our sensitivity to mergers and bars. Galaxy Zoo volunteers provide 7.5 million individual classifications over 314,000 galaxies. 140,000 galaxies receive at least 30 classifications, sufficient to accurately measure detailed morphology like bars, and the remainder receive approximately 5. All classifications are used to train an ensemble of Bayesian convolutional neural networks (a state-of-the-art deep learning method) to predict posteriors for the detailed morphology of all 314,000 galaxies. When measured against confident volunteer classifications, the networks are approximately 99% accurate on every question. Morphology is a fundamental feature of every galaxy; our human and machine classifications are an accurate and detailed resource for understanding how galaxies evolve.
翻訳日:2021-02-18 14:32:34 公開日:2021-02-16
# pansharpening のための深度マルチレゾリューション表現の学習

Learning deep multiresolution representations for pansharpening ( http://arxiv.org/abs/2102.08423v1 )

ライセンス: Link先を確認
Hannan Adeel and Syed Sohaib Ali and Muhammad Mohsin Riaz and Syed Abdul Mannan Kirmani and Muhammad Imran Qureshi and Junaid Imtiaz(参考訳) パンクロマティック画像の空間特性とマルチスペクトル帯のスペクトル情報の保持は、パンシャーピングにおいて重要な問題である。 本稿では,異なるスケールでスペクトル特性と空間特性を保持するピラミッド型深層融合フレームワークを提案する。 対応する低分解能マルチスペクトル画像を各スケールでネットワークの残留成分として通過させてスペクトル情報を保存する。 空間情報は、対応する低解像度マルチスペクトル画像と共に、パンクロマティック画像の高頻度で各スケールでネットワークを訓練することにより保存される。 異なるネットワークのパラメータはピラミッド全体で共有され、スケール間で一貫して空間的詳細を追加する。 パラメータはまた、特定のスケールでネットワーク内の融合層間で共有されます。 実験により,提案手法はアートパンシャープニングモデルよりも優れていることが示唆された。 提案されたモデル、コード、データセットはhttps://github.com/sohaibali01/deep_pyramid_fusionで公開されている。

Retaining spatial characteristics of panchromatic image and spectral information of multispectral bands is a critical issue in pansharpening. This paper proposes a pyramid based deep fusion framework that preserves spectral and spatial characteristics at different scales. The spectral information is preserved by passing the corresponding low resolution multispectral image as residual component of the network at each scale. The spatial information is preserved by training the network at each scale with the high frequencies of panchromatic image alongside the corresponding low resolution multispectral image. The parameters of different networks are shared across the pyramid in order to add spatial details consistently across scales. The parameters are also shared across fusion layers within a network at a specific scale. Experiments suggest that the proposed architecture outperforms state of the art pansharpening models. The proposed model, code and dataset is publicly available at https://github.com/sohaibali01/deep_pyramid_fusion.
翻訳日:2021-02-18 14:32:13 公開日:2021-02-16
# 超解像能率を用いた自撮り眼の検証

Selfie Periocular Verification using an Efficient Super-Resolution Approach ( http://arxiv.org/abs/2102.08449v1 )

ライセンス: Link先を確認
Juan Tapia, Marta Gomez-Barrero, Rodrigo Lara, Andres Valenzuela, Christoph Busch(参考訳) セルフィーベースのバイオメトリックスは、マーケティングからオンラインバンキングのような高度なセキュリティ環境まで、幅広いアプリケーションにとって大きな可能性を秘めている。 現在では特に関係がある。 感染確認は非接触で、covid-19のようなパンデミックでも安全に使用できる。 しかし、セルフィーベースの生体認証は、データ取得条件の制御が制限されているため、いくつかの課題に直面しています。 したがって、撮像された画像の品質を高めるために超解像を用いる必要がある。 最先端のスーパーリゾリューションメソッドのほとんどは、大規模なフィルタを備えたディープネットワークを使用しているため、対応する多数のパラメータをトレーニングして保存する必要があり、セルフィーベースの一般的なモバイルデバイスでの使用を困難にします。 本研究では,ニューラルネットワークの効率とフィルタのサイズとのトレードオフを考慮し,高効率な超解像法を実現するために,高効率なesisr(single image super- resolution)アルゴリズムを提案する。 そのために、この方法はシャープネスメトリックに基づく新しい損失関数を実装します。 この測定値は、視線画像の品質を高めるのにより適していることが判明した。 提案手法は,Deep CNNとSkip Connection and Network (DCSCN)を比較した際のパラメータ数を,画像サイズがx3倍になった場合,2,170,142から28,654に大幅に削減する。 さらに,提案手法は画像の鮮明な品質を保ち,生体認証の目的に非常に関係している。 生画像を用いた遠隔検証システムの結果,FaceNetが8.7%,VGGFaceが10.05%,EERが8.7%に達した。 眼周囲画像から埋め込みベクトルを用いた場合、最も良い結果はFaceNetのEERが8.9%(x3)、VGGFaceの9.90%(x4)に達した。

Selfie-based biometrics has great potential for a wide range of applications from marketing to higher security environments like online banking. This is now especially relevant since e.g. periocular verification is contactless, and thereby safe to use in pandemics such as COVID-19. However, selfie-based biometrics faces some challenges since there is limited control over the data acquisition conditions. Therefore, super-resolution has to be used to increase the quality of the captured images. Most of the state of the art super-resolution methods use deep networks with large filters, thereby needing to train and store a correspondingly large number of parameters, and making their use difficult for mobile devices commonly used for selfie-based. In order to achieve an efficient super-resolution method, we propose an Efficient Single Image Super-Resolution (ESISR) algorithm, which takes into account a trade-off between the efficiency of the deep neural network and the size of its filters. To that end, the method implements a novel loss function based on the Sharpness metric. This metric turns out to be more suitable for increasing the quality of the eye images. Our method drastically reduces the number of parameters when compared with Deep CNNs with Skip Connection and Network (DCSCN): from 2,170,142 to 28,654 parameters when the image size is increased by a factor of x3. Furthermore, the proposed method keeps the sharp quality of the images, which is highly relevant for biometric recognition purposes. The results on remote verification systems with raw images reached an Equal Error Rate (EER) of 8.7% for FaceNet and 10.05% for VGGFace. Where embedding vectors were used from periocular images the best results reached an EER of 8.9% (x3) for FaceNet and 9.90% (x4) for VGGFace.
翻訳日:2021-02-18 14:32:01 公開日:2021-02-16
# 重み依存型ニューラルネットワークフレームワークによるダークネットトラヒックビッグデータ解析とネットワーク管理による悪意のある意図検出プロセスのリアルタイム自動化

Darknet Traffic Big-Data Analysis and Network Management to Real-Time Automating the Malicious Intent Detection Process by a Weight Agnostic Neural Networks Framework ( http://arxiv.org/abs/2102.08411v1 )

ライセンス: Link先を確認
Konstantinos Demertzis, Konstantinos Tsiknas, Dimitrios Takezis, Charalabos Skianis and Lazaros Iliadis(参考訳) 攻撃者は、検出を避けるために戦術を永久に修正し、ネットワーク環境にすでにデプロイされている信頼できるツールを使って、正当な認証情報を頻繁に活用しているため、組織が重要なセキュリティリスクを積極的に特定することは困難である。 ネットワークトラフィック分析製品は、攻撃者に対する絶え間ないイノベーションに対する反応として登場し、組織がクリエイティブな攻撃者と戦うための現実的な道筋を提供する。 さらに、クラウドコンピューティング、デバイスオペレータプロセス、モノのインターネットの普及により、効果的なネットワーク可視性の維持は非常に複雑で圧倒的なプロセスとなっています。 ネットワークトラフィック分析技術が特に有意義なのは、そのコア機能を組み合わせて悪意のある意図を検出する能力だ。 本論文では,重みに依存しないニューラルネットワークアーキテクチャを用いて,悪意の検出プロセスをリアルタイムに自動化するダークネットトラフィック解析とネットワーク管理フレームワークを提案する。 ネットワークトラフィック分析、マルウェアトラフィックのデミスティフィケーション、リアルタイムの暗号化トラフィック識別のための、効果的で正確な計算知能鑑定ツールである。 重み診断ニューラルネットワーク手法に基づき、ゼロデイアタックの特定など、様々なタスクを実行できる自動探索ニューラルネットワークアーキテクチャ戦略を提案します。 ダークネットから悪意のある意図検出プロセスを自動化することによって、先進的なソリューションは、多くの組織が最も重要な資産を効果的に保護することを妨げるスキルと労力の障壁を低減します。

Attackers are perpetually modifying their tactics to avoid detection and frequently leverage legitimate credentials with trusted tools already deployed in a network environment, making it difficult for organizations to proactively identify critical security risks. Network traffic analysis products have emerged in response to attackers relentless innovation, offering organizations a realistic path forward for combatting creative attackers. Additionally, thanks to the widespread adoption of cloud computing, Device Operators processes, and the Internet of Things, maintaining effective network visibility has become a highly complex and overwhelming process. What makes network traffic analysis technology particularly meaningful is its ability to combine its core capabilities to deliver malicious intent detection. In this paper, we propose a novel darknet traffic analysis and network management framework to real-time automating the malicious intent detection process, using a weight agnostic neural networks architecture. It is an effective and accurate computational intelligent forensics tool for network traffic analysis, the demystification of malware traffic, and encrypted traffic identification in real-time. Based on Weight Agnostic Neural Networks methodology, we propose an automated searching neural net architectures strategy that can perform various tasks such as identify zero-day attacks. By automating the malicious intent detection process from the darknet, the advanced proposed solution is reducing the skills and effort barrier that prevents many organizations from effectively protecting their most critical assets.
翻訳日:2021-02-18 14:30:15 公開日:2021-02-16
# フェデレートラーニングを用いた神経科学研究のスケーリング

Scaling Neuroscience Research using Federated Learning ( http://arxiv.org/abs/2102.08440v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Jose Luis Ambite, Pradeep Lam and Paul Thompson(参考訳) バイオメディカルデータの量は急速に増え続けている。 しかし、プライバシーや規制上の懸念から、これらのデータを分析できる能力は限られている。 単一の場所にデータをコピーする必要がある機械学習アプローチは、データ共有の課題によって妨げられる。 Federated Learningは、データサイロ上で共同モデルを学ぶための有望なアプローチです。 このアーキテクチャは、暗号化された環境で、集約されたパラメータのみ、サイト全体で主題データを共有せず、プライバシーと規制要件を満たします。 ここでは、フェデレーション学習アーキテクチャとトレーニングポリシについて説明する。 多様なデータと対象(年齢)分布を持つ複数の部位に分布する構造的MRIスキャンの脳年齢予測モデルに対するアプローチを実証する。 これらの異種環境において、Semi-Synchronousプロトコルはより高速な収束を提供する。

The amount of biomedical data continues to grow rapidly. However, the ability to analyze these data is limited due to privacy and regulatory concerns. Machine learning approaches that require data to be copied to a single location are hampered by the challenges of data sharing. Federated Learning is a promising approach to learn a joint model over data silos. This architecture does not share any subject data across sites, only aggregated parameters, often in encrypted environments, thus satisfying privacy and regulatory requirements. Here, we describe our Federated Learning architecture and training policies. We demonstrate our approach on a brain age prediction model on structural MRI scans distributed across multiple sites with diverse amounts of data and subject (age) distributions. In these heterogeneous environments, our Semi-Synchronous protocol provides faster convergence.
翻訳日:2021-02-18 14:29:51 公開日:2021-02-16
# パターン, 欠落値, 外れ値をもつ実世界のテンソルストリームのロバスト因子化

Robust Factorization of Real-world Tensor Streams with Patterns, Missing Values, and Outliers ( http://arxiv.org/abs/2102.08466v1 )

ライセンス: Link先を確認
Dongjin Lee and Kijung Shin(参考訳) 複数の季節の時系列をテンソルストリームの形でリアルタイムに収集することを検討する。 現実世界のテンソルストリームには、しばしば欠落したエントリ(例えば、ネットワーク切断による)と予期しない外れ値(例えば、システムエラーによる)が含まれる。 このような実世界のテンソルストリームを考えると、どうやって欠落したエントリを推定し、リアルタイムに将来の進化を正確に予測できるのか? 本稿では,実世界のテンソルストリームに対するロバストな因子分解手法であるsofiaを紹介する。 簡単に言うと、SOFIAはスムーズかつ緊密にテンソル因子化、アウトリーチ除去、時間パターン検出を統合し、互いに自然に強化する。 さらに、SOFIAは、欠落したエントリがあるにもかかわらず、それらをオンライン的に線形時間で統合する。 実験的に、SOFIAは(a)堅牢かつ正確であり、インピーダンス誤差が最大76%、予測誤差が71%、(b)高速:2番目に正確な競合相手よりも935倍速く、(c)スケーラブル:時間ステップあたりの新規エントリ数で線形にスケーリングできることを示した。

Consider multiple seasonal time series being collected in real-time, in the form of a tensor stream. Real-world tensor streams often include missing entries (e.g., due to network disconnection) and at the same time unexpected outliers (e.g., due to system errors). Given such a real-world tensor stream, how can we estimate missing entries and predict future evolution accurately in real-time? In this work, we answer this question by introducing SOFIA, a robust factorization method for real-world tensor streams. In a nutshell, SOFIA smoothly and tightly integrates tensor factorization, outlier removal, and temporal-pattern detection, which naturally reinforce each other. Moreover, SOFIA integrates them in linear time, in an online manner, despite the presence of missing entries. We experimentally show that SOFIA is (a) robust and accurate: yielding up to 76% lower imputation error and 71% lower forecasting error; (b) fast: up to 935X faster than the second-most accurate competitor; and (c) scalable: scaling linearly with the number of new entries per time step.
翻訳日:2021-02-18 14:29:39 公開日:2021-02-16
# 深層ニューラルネットワークを用いたhiv酵素動態の微分方程式解法

Deep Neural Network Based Differential Equation Solver for HIV Enzyme Kinetics ( http://arxiv.org/abs/2102.08471v1 )

ライセンス: Link先を確認
Joseph Stember, Parvathy Jayan, Hrithwik Shalu(参考訳) 目的:我々は、t細胞とhivウイルスの負担のバランスを記述したよく知られた微分方程式系をニューラルネットワーク(nns)で解こうとする。 材料と方法:本稿では,上記の生化学関係を記述する一階常微分方程式系に対する近似解として,3入力並列nnを用いる。 結果:NNで得られた数値結果は,文献からの数値近似のホストと非常によく似ている。 結論: 1次結合常微分方程式のよく知られた医学的に重要なシステムのNN統合を実演した。 試行錯誤アプローチは,システムの本質的なスケールの不均衡を相殺する。 しかし、将来の作業において、スケールの不均衡に対処する必要性を強調している。 これにより、より複雑で生物学的に興味深いシステムを記述できる、より大きな方程式系に対するより自動化された解が可能になる。

Purpose: We seek to use neural networks (NNs) to solve a well-known system of differential equations describing the balance between T cells and HIV viral burden. Materials and Methods: In this paper, we employ a 3-input parallel NN to approximate solutions for the system of first-order ordinary differential equations describing the above biochemical relationship. Results: The numerical results obtained by the NN are very similar to a host of numerical approximations from the literature. Conclusion: We have demonstrated use of NN integration of a well-known and medically important system of first order coupled ordinary differential equations. Our trial-and-error approach counteracts the system's inherent scale imbalance. However, it highlights the need to address scale imbalance more substantively in future work. Doing so will allow more automated solutions to larger systems of equations, which could describe increasingly complex and biologically interesting systems.
翻訳日:2021-02-18 14:29:12 公開日:2021-02-16
# 集中分散強化学習エージェントを用いたマルチステージ伝送路フロー制御

Multi-Stage Transmission Line Flow Control Using Centralized and Decentralized Reinforcement Learning Agents ( http://arxiv.org/abs/2102.08430v1 )

ライセンス: Link先を確認
Xiumin Shang and Jinping Yang and Bingquan Zhu and Lin Ye and Jing Zhang, Jianping Xu and Qin Lyu and Ruisheng Diao(参考訳) 安全と経済的な制約を満たすバルク電力システムの将来の運用シナリオの計画には、通常、大規模なシミュレーションを行うために集中的な労力を要する。 このプロセスを自動化し, 技術者の負担を軽減するため, 本論文では, 送電線の流れを正常かつ緊急に制御するためのグリッドコントローラを自動調整する, 集中型・分散化された強化学習エージェントを訓練するための, 新たな多段階制御手法を提案する。 電力グリッドフロー制御問題はマルコフ決定プロセス(MDP)として定式化される。 ステージ1では、集中型ソフトアクタークリティカル(SAC)エージェントが訓練され、広範囲の発電機のアクティブ出力を制御し、特定のセキュリティ限界に対する送信ラインフローを制御する。 ラインオーバーロードの問題が未解決のままである場合、ステージ2はローカルサブステーションでの負荷スローオーバーを通じて分散SACエージェントのトレーニングに使用される。 提案手法の有効性は、SGCC Zhejiang Electric Power Companyの電力グリッドの運用に使用される一連の実際の計画ケースで検証される。

Planning future operational scenarios of bulk power systems that meet security and economic constraints typically requires intensive labor efforts in performing massive simulations. To automate this process and relieve engineers' burden, a novel multi-stage control approach is presented in this paper to train centralized and decentralized reinforcement learning agents that can automatically adjust grid controllers for regulating transmission line flows at normal condition and under contingencies. The power grid flow control problem is formulated as Markov Decision Process (MDP). At stage one, centralized soft actor-critic (SAC) agent is trained to control generator active power outputs in a wide area to control transmission line flows against specified security limits. If line overloading issues remain unresolved, stage two is used to train decentralized SAC agent via load throw-over at local substations. The effectiveness of the proposed approach is verified on a series of actual planning cases used for operating the power grid of SGCC Zhejiang Electric Power Company.
翻訳日:2021-02-18 14:27:05 公開日:2021-02-16
# Facebookでオリジナルニュースを優先する

Prioritizing Original News on Facebook ( http://arxiv.org/abs/2102.08465v1 )

ライセンス: Link先を確認
Xiuyan Ni, Shujian Bu, Igor Markov(参考訳) この作業は、ニュース品質の重要な指標であるオリジナルニュースの優先順位付け方法の概要です。 ソーシャルメディアプラットフォーム上でのニュース投稿のランドスケープとライフサイクルを調べることで、オリジナル性スコアの構築と展開の課題を特定する。 我々は,正規化されたページランク値と3段階クラスタリングに基づくアプローチを追求し,オンラインニュースのダイナミクスを捉えるために,1時間単位でスコアをリフレッシュする。 ほぼリアルタイムでシステムアーキテクチャを説明し、方法論を評価し、本番環境にデプロイする。 実験結果から,各コンポーネントの検証を行い,ニュースの優先順位付けによってユーザのニュースへのエンゲージメントが向上し,プロプライエタリな累積メトリクスが向上することを示す。

This work outlines how we prioritize original news, a critical indicator of news quality. By examining the landscape and life-cycle of news posts on our social media platform, we identify challenges of building and deploying an originality score. We pursue an approach based on normalized PageRank values and three-step clustering, and refresh the score on an hourly basis to capture the dynamics of online news. We describe a near real-time system architecture, evaluate our methodology, and deploy it to production. Our empirical results validate individual components and show that prioritizing original news increases user engagement with news and improves proprietary cumulative metrics.
翻訳日:2021-02-18 14:26:48 公開日:2021-02-16
# (参考訳) 関係データのための木モデル

Trees-Based Models for Correlated Data ( http://arxiv.org/abs/2102.08114v1 )

ライセンス: CC BY 4.0
Assaf Rabinowicz and Saharon Rosset(参考訳) 本稿では, 単純な回帰木, ランダム林, 勾配増進など, 関係データを含む環境下での木の回帰に対する新しいアプローチを提案する。 相関構造を無視する標準木に基づく回帰モデルを実装する際に生じる問題を示す。 我々の新しいアプローチは, 規則の分割, 規則の停止, 葉の適合値を考慮した相関構造を明示的に考慮し, 標準手法のいくつかの大きな変更を誘発する。 相関を考慮しない木モデルに対する新たなアプローチの優位性は,シミュレーション実験と実データ解析によって裏付けられている。

This paper presents a new approach for trees-based regression, such as simple regression tree, random forest and gradient boosting, in settings involving correlated data. We show the problems that arise when implementing standard trees-based regression models, which ignore the correlation structure. Our new approach explicitly takes the correlation structure into account in the splitting criterion, stopping rules and fitted values in the leaves, which induces some major modifications of standard methodology. The superiority of our new approach over trees-based models that do not account for the correlation is supported by simulation experiments and real data analyses.
翻訳日:2021-02-18 14:20:55 公開日:2021-02-16
# (参考訳) 直接心臓メッシュ再構成のためのディープラーニングアプローチ

A Deep-Learning Approach For Direct Whole-Heart Mesh Reconstruction ( http://arxiv.org/abs/2102.07899v1 )

ライセンス: CC BY 4.0
Fanwei Kong, Nathan Wilson, Shawn C. Shadden(参考訳) ボリューム医療画像から心臓構造の表面形状の自動構築は、多くの臨床用途にとって重要です。 深層学習に基づくアプローチは、有望な再構築精度を示しているが、これらのアプローチは、主に、表面再構成と後処理技術による、ボクセルワイドセグメンテーションに焦点を当てている。 しかし、そのようなアプローチは、誤ったセグメンテーションによる切断領域や誤った表面トポロジー、セグメンテーションの解像度の制限による階段アーティファクトなど、多くの制限に苦しめられている。 本研究では,ボリュームCTとMR画像データから心表面メッシュ全体を直接予測する深層学習に基づく新しい手法を提案する。 本研究では,グラフ畳み込みニューラルネットワークを用いて,メッシュテンプレートからメッシュ頂点の変形を予測し,複数の解剖学的構造を3次元画像ボリュームで再構成する。 提案手法は,高分解能,高画質な全心再建術を作製し,CTとMRの両方の深層学習法を精度,表面品質の両面で優れることを示した。 さらに、CTまたはMRシネ配列から心拍動に対する時間整合性および特徴対応表面メッシュ予測をより効率的に作成できるため、4D全体の心臓ダイナミクスを効率的に構築するために適用することができる。

Automated construction of surface geometries of cardiac structures from volumetric medical images is important for a number of clinical applications. While deep-learning based approaches have demonstrated promising reconstruction precision, these approaches have mostly focused on voxel-wise segmentation followed by surface reconstruction and post-processing techniques. However, such approaches suffer from a number of limitations including disconnected regions or incorrect surface topology due to erroneous segmentation and stair-case artifacts due to limited segmentation resolution. We propose a novel deep-learning-based approach that directly predicts whole heart surface meshes from volumetric CT and MR image data. Our approach leverages a graph convolutional neural network to predict deformation on mesh vertices from a pre-defined mesh template to reconstruct multiple anatomical structures in a 3D image volume. Our method demonstrated promising performance of generating high-resolution and high-quality whole heart reconstructions and outperformed prior deep-learning based methods on both CT and MR data in terms of precision and surface quality. Furthermore, our method can more efficiently produce temporally-consistent and feature-corresponding surface mesh predictions for heart motion from CT or MR cine sequences, and therefore can potentially be applied for efficiently constructing 4D whole heart dynamics.
翻訳日:2021-02-18 13:58:33 公開日:2021-02-16
# (参考訳) イメージングにおける逆問題に対するDeep Equilibrium Architectures

Deep Equilibrium Architectures for Inverse Problems in Imaging ( http://arxiv.org/abs/2102.07944v1 )

ライセンス: CC BY 4.0
Davis Gilton, Gregory Ongie, Rebecca Willett(参考訳) ディープニューラルネットワークによるイメージングにおける逆問題に対する最近の取り組みは、最適化手法の一定数の反復に触発されたアーキテクチャを使用している。 イテレーションの数は通常、より多くのイテレーションに対応するトレーニングネットワークが困難であるため、かなり少ない。結果として生じるソルバは、重大なエラーを発生せずに、テスト時により多くのイテレーションを実行することができない。 本稿では,「無限の」反復数に対応する代替手法について述べる。現状の代替案よりも4dbpsnrの再構成精度が向上し,精度と計算の文脈依存トレードオフを最適化するために,テスト時に計算予算を選択できる方法を提案する。 提案手法は、既知の前方モデルと古典的最適化に基づく再構成法からの洞察を組み込むために固定点反復が構築される、深い平衡モデルからのアイデアを活用する。

Recent efforts on solving inverse problems in imaging via deep neural networks use architectures inspired by a fixed number of iterations of an optimization method. The number of iterations is typically quite small due to difficulties in training networks corresponding to more iterations; the resulting solvers cannot be run for more iterations at test time without incurring significant errors. This paper describes an alternative approach corresponding to an {\em infinite} number of iterations, yielding up to a 4dB PSNR improvement in reconstruction accuracy above state-of-the-art alternatives and where the computational budget can be selected at test time to optimize context-dependent trade-offs between accuracy and computation. The proposed approach leverages ideas from Deep Equilibrium Models, where the fixed-point iteration is constructed to incorporate a known forward model and insights from classical optimization-based reconstruction methods.
翻訳日:2021-02-18 13:04:55 公開日:2021-02-16
# (参考訳) DAN-Net:Dual-Domain Adaptive-Scaling Non-local Network for CT Metal Artifact reduction

DAN-Net: Dual-Domain Adaptive-Scaling Non-local Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2102.08003v1 )

ライセンス: CC BY 4.0
Tao Wang, Wenjun Xia, Yongqiang Huang, Huaiqiang Sun, Yan Liu, Hu Chen, Jiliu Zhou, Yi Zhang(参考訳) 金属インプラントはCTスキャンでX線を著しく減衰させることができ、再構成画像の深刻なアーティファクトを引き起こし、画像の品質が著しく損なわれ、その後の診断や治療計画に悪影響を及ぼす。 医用画像の分野でのディープラーニングの急速な発展に伴い、CTにおける金属加工物還元(MAR)のためのネットワークモデルがいくつか提案されている。 これらの手法によって達成された奨励的な結果にもかかわらず、パフォーマンスをさらに改善する余地はまだまだあります。 本稿では,MAR用デュアルドメイン適応スケーリング非ローカルネットワーク(DAN-Net)について述べる。 適応スケーリングを用いて, 組織や骨の細部をより情報的入力として保存する。 そして、エンドツーエンドのデュアルドメインネットワークを採用して、分析再構成層によって生成されたシングラムとその対応する再構成画像を順次処理する。 また、既存のアーティファクトの抑制と、シンノグラムドメインネットワークの不正確な結果に起因する潜在的な二次アーティファクトの抑制を両立させるため、提案するネットワークモデルにおいて、新たな残留シンノグラム学習戦略と非局所モジュールを活用する。 実験で提案したDAN-Netは,定性的・定量的両面において,最先端のMAR手法と競合する性能を示す。

Metal implants can heavily attenuate X-rays in computed tomography (CT) scans, leading to severe artifacts in reconstructed images, which significantly jeopardize image quality and negatively impact subsequent diagnoses and treatment planning. With the rapid development of deep learning in the field of medical imaging, several network models have been proposed for metal artifact reduction (MAR) in CT. Despite the encouraging results achieved by these methods, there is still much room to further improve performance. In this paper, a novel Dual-domain Adaptive-scaling Non-local network (DAN-Net) for MAR. We correct the corrupted sinogram using adaptive scaling first to preserve more tissue and bone details as a more informative input. Then, an end-to-end dual-domain network is adopted to successively process the sinogram and its corresponding reconstructed image generated by the analytical reconstruction layer. In addition, to better suppress the existing artifacts and restrain the potential secondary artifacts caused by inaccurate results of the sinogram-domain network, a novel residual sinogram learning strategy and nonlocal module are leveraged in the proposed network model. In the experiments, the proposed DAN-Net demonstrates performance competitive with several state-of-the-art MAR methods in both qualitative and quantitative aspects.
翻訳日:2021-02-18 12:43:35 公開日:2021-02-16
# (参考訳) SAR画像における自動氷河養生フロントセグメンテーションのためのマシュー相関係数と距離マップ損失の改善について

On Mathews Correlation Coefficient and Improved Distance Map Loss for Automatic Glacier Calving Front Segmentation in SAR Imagery ( http://arxiv.org/abs/2102.08312v1 )

ライセンス: CC BY 4.0
Amirabbas Davari, Saahil Islam, Thorsten Seehaus, Matthias Braun, Andreas Maier, Vincent Christlein(参考訳) 出口の氷河や極地氷床の氷の流れの大部分は海に終止符を打つ。 過去数十年間、氷河の海への転覆による氷の質量損失は増加している。 計算前位置の時間的変動に関する情報は、氷河と氷流の状態に関する基本的な情報を提供し、氷のダイナミクスモデリングを強化するためのキャリブレーションおよび検証データとして利用することができる。 計算前位置を自動的に識別するために、ディープニューラルネットワークベースのセマンティックセグメンテーションパイプラインを使用して、取得したSARイメージを記述することができる。 しかし,これらの画像における高精度なカルビングフロントセグメンテーションでは,極端なクラス不均衡が極めて困難である。 そこで本研究では,Mathews相関係数(MCC)を,その対称特性とクラス不均衡に対する不変性から早期停止基準として用いることを提案する。 さらに,距離マップに基づくバイナリクロスエントロピー(BCE)損失関数の改良を提案する。 距離マップは、セグメント化のための重要な領域に関する損失関数にコンテキストを追加し、不均衡データの会計を助けます。 マシューズ相関係数を早期停止として用いると、一般的に使用されるBCEと比較して平均15%のダイス係数の改善が示される。 修正された距離マップ損失により、セグメンテーション性能がさらに2%向上する。 これらの結果は,極度のクラス不均衡に苦しむセグメンテーション問題に対する提案手法の有効性を裏付けるものである。

The vast majority of the outlet glaciers and ice streams of the polar ice sheets end in the ocean. Ice mass loss via calving of the glaciers into the ocean has increased over the last few decades. Information on the temporal variability of the calving front position provides fundamental information on the state of the glacier and ice stream, which can be exploited as calibration and validation data to enhance ice dynamics modeling. To identify the calving front position automatically, deep neural network-based semantic segmentation pipelines can be used to delineate the acquired SAR imagery. However, the extreme class imbalance is highly challenging for the accurate calving front segmentation in these images. Therefore, we propose the use of the Mathews correlation coefficient (MCC) as an early stopping criterion because of its symmetrical properties and its invariance towards class imbalance. Moreover, we propose an improvement to the distance map-based binary cross-entropy (BCE) loss function. The distance map adds context to the loss function about the important regions for segmentation and helps accounting for the imbalanced data. Using Mathews correlation coefficient as early stopping demonstrates an average 15% dice coefficient improvement compared to the commonly used BCE. The modified distance map loss further improves the segmentation performance by another 2%. These results are encouraging as they support the effectiveness of the proposed methods for segmentation problems suffering from extreme class imbalances.
翻訳日:2021-02-18 12:33:08 公開日:2021-02-16
# DOBF: プログラミング言語のための難読化プリトレーニング目標

DOBF: A Deobfuscation Pre-Training Objective for Programming Languages ( http://arxiv.org/abs/2102.07492v2 )

ライセンス: Link先を確認
Baptiste Roziere, Marie-Anne Lachaux, Marc Szafraniec and Guillaume Lample(参考訳) 自己教師付き学習の最近の進歩は、幅広いタスクにおける芸術の状態を劇的に改善した。 しかし、言語モデル事前学習の研究は主に自然言語に焦点を当てており、BERTやその変種のようなモデルが、ソースコードなどの他のモダリティに適用した場合に最適な事前学習を提供するかどうかは不明である。 本稿では,プログラミング言語の構造的側面を活用した新しい事前学習目標であるdobfを紹介し,難読化ソースコードの原版を復元するためにモデルを事前学習する。 DOBFで事前訓練されたモデルは、複数の下流タスクにおける既存のアプローチを大幅に上回り、教師なしコード翻訳では最大13%、自然言語コード検索では24%の相対的な改善をもたらす。 ちなみに、事前学習したモデルでは、完全に難読化されたソースファイルの分離や、記述型変数名の提案が可能であることがわかった。

Recent advances in self-supervised learning have dramatically improved the state of the art on a wide variety of tasks. However, research in language model pre-training has mostly focused on natural languages, and it is unclear whether models like BERT and its variants provide the best pre-training when applied to other modalities, such as source code. In this paper, we introduce a new pre-training objective, DOBF, that leverages the structural aspect of programming languages and pre-trains a model to recover the original version of obfuscated source code. We show that models pre-trained with DOBF significantly outperform existing approaches on multiple downstream tasks, providing relative improvements of up to 13% in unsupervised code translation, and 24% in natural language code search. Incidentally, we found that our pre-trained model is able to de-obfuscate fully obfuscated source files, and to suggest descriptive variable names.
翻訳日:2021-02-18 12:16:53 公開日:2021-02-16
# ダイナミックタイムワーピングのためのタイトローバウンド

Tight lower bounds for Dynamic Time Warping ( http://arxiv.org/abs/2102.07076v2 )

ライセンス: Link先を確認
Geoffrey I. Webb and Francois Petitjean(参考訳) Dynamic Time Warping (DTW) は時系列の整列と比較のための一般的な類似度尺度である。 DTWの計算時間が高いため、低い境界はマッチの表示にしばしば使用される。 多くの代替低い境界が提案され、タイトさと計算効率の間のさまざまなトレードオフが提供されている。 LB Keoghは多くのアプリケーションで便利なトレードオフを提供している。 最近の2つの下限、LB ImprovedとLB Enhancedは、LB Keoghよりもかなり狭い。 3つすべてに同じ最悪の場合の計算の複雑さがあります-シリーズ長に関して線形および窓のサイズに関して一定。 同じ複雑性クラスに4つの新しいDTW下位境界を示す。 LB Petitjean は LB Improved よりもかなり密であり、計算オーバーヘッドはわずかである。 LB Webb は LB Improved よりも効率的であり、しばしばより厳密なバウンダリを提供する。 LB Webbは常にLB Keoghよりきつい。 パラメータフリーのLB Webbは通常、LB Enhancedよりもタイトです。 パラメータ化された変種であるLB Webb Enhancedは、常にLB Enhancedよりも厳密である。 LB Webb* は、いくつかの制限された距離関数に有用である。 大規模な実験では、LB Webbは近接探索に非常に有効であることが証明された。

Dynamic Time Warping (DTW) is a popular similarity measure for aligning and comparing time series. Due to DTW's high computation time, lower bounds are often employed to screen poor matches. Many alternative lower bounds have been proposed, providing a range of different trade-offs between tightness and computational efficiency. LB Keogh provides a useful trade-off in many applications. Two recent lower bounds, LB Improved and LB Enhanced, are substantially tighter than LB Keogh. All three have the same worst case computational complexity - linear with respect to series length and constant with respect to window size. We present four new DTW lower bounds in the same complexity class. LB Petitjean is substantially tighter than LB Improved, with only modest additional computational overhead. LB Webb is more efficient than LB Improved, while often providing a tighter bound. LB Webb is always tighter than LB Keogh. The parameter free LB Webb is usually tighter than LB Enhanced. A parameterized variant, LB Webb Enhanced, is always tighter than LB Enhanced. A further variant, LB Webb*, is useful for some constrained distance functions. In extensive experiments, LB Webb proves to be very effective for nearest neighbor search.
翻訳日:2021-02-18 12:16:29 公開日:2021-02-16
# (参考訳) 分子特性予測のためのフェーショットグラフ学習

Few-Shot Graph Learning for Molecular Property Prediction ( http://arxiv.org/abs/2102.07916v1 )

ライセンス: CC BY 4.0
Zhichun Guo, Chuxu Zhang, Wenhao Yu, John Herr, Olaf Wiest, Meng Jiang, Nitesh V. Chawla(参考訳) グラフニューラルネットワークの最近の成功により、分子特性予測が大幅に向上し、薬物発見などの活動が進行した。 既存のディープニューラルネットワーク手法は、通常、それぞれの特性に対して大規模なトレーニングデータセットを必要とし、実際の状況で一般的な実験データが少ない場合(特に新しい分子特性)にその性能を損なう。 そこで本研究では,数発の分子特性予測の新しいモデルであるMeta-MGNNを提案する。 Meta-MGNNは分子グラフニューラルネットワークを用いて分子表現を学習し、モデル最適化のためのメタラーニングフレームワークを構築する。 ラベルのない分子情報と異なる分子特性のタスクの不均一性を利用するため、meta-mgnnはさらに分子構造、属性に基づく自己教師付きモジュール、自己注意型タスク重みを前者の枠組みに組み入れ、学習モデル全体を強化する。 2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。

The recent success of graph neural networks has significantly boosted molecular property prediction, advancing activities such as drug discovery. The existing deep neural network methods usually require large training dataset for each property, impairing their performances in cases (especially for new molecular properties) with a limited amount of experimental data, which are common in real situations. To this end, we propose Meta-MGNN, a novel model for few-shot molecular property prediction. Meta-MGNN applies molecular graph neural network to learn molecular representation and builds a meta-learning framework for model optimization. To exploit unlabeled molecular information and address task heterogeneity of different molecular properties, Meta-MGNN further incorporates molecular structure, attribute based self-supervised modules and self-attentive task weights into the former framework, strengthening the whole learning model. Extensive experiments on two public multi-property datasets demonstrate that Meta-MGNN outperforms a variety of state-of-the-art methods.
翻訳日:2021-02-18 11:47:50 公開日:2021-02-16
# (参考訳) RMIX: 協調強化学習エージェントの学習リスク感知政策

RMIX: Learning Risk-Sensitive Policies for Cooperative Reinforcement Learning Agents ( http://arxiv.org/abs/2102.08159v1 )

ライセンス: CC BY 4.0
Wei Qiu, Xinrun Wang, Runsheng Yu, Xu He, Rundong Wang, Bo An, Svetlana Obraztsova, Zinovi Rabinovich(参考訳) 現在の価値に基づくマルチエージェント強化学習手法は,分散実行(ctde)による集中型トレーニングを通じて個人の行動を指導するために,個別のq値を最適化する。 しかし、このような予想、すなわちリスクニュートラルなQ値は、報酬のランダム性や環境の不確実性のためにCTDEでも十分ではないため、複雑な環境での調整エージェントの訓練にこれらの方法の失敗を引き起こします。 そこで本研究では, 学習したQ値の分布について, CVaR(Conditional Value at Risk)を指標とした新たな協調的MARL法RMIXを提案する。 具体的には、まず個人の戻り分布を学習し、分散実行のためのCVaRを解析的に計算する。 そこで,実行時の確率的結果の時間的性質を扱うために,リスクレベルチューニングのための動的リスクレベル予測器を提案する。 最後に,集中トレーニング中のTD誤差のターゲット推定にCVaR値を用いてCVaRポリシを最適化し,CVaR値を補助的局所報酬として,量子回帰損失による局所分布の更新を行う。 実験により,本手法はStarCraft IIタスクの課題に対して,最先端の手法よりも優れ,協調性の向上とサンプル効率の向上を実証した。

Current value-based multi-agent reinforcement learning methods optimize individual Q values to guide individuals' behaviours via centralized training with decentralized execution (CTDE). However, such expected, i.e., risk-neutral, Q value is not sufficient even with CTDE due to the randomness of rewards and the uncertainty in environments, which causes the failure of these methods to train coordinating agents in complex environments. To address these issues, we propose RMIX, a novel cooperative MARL method with the Conditional Value at Risk (CVaR) measure over the learned distributions of individuals' Q values. Specifically, we first learn the return distributions of individuals to analytically calculate CVaR for decentralized execution. Then, to handle the temporal nature of the stochastic outcomes during executions, we propose a dynamic risk level predictor for risk level tuning. Finally, we optimize the CVaR policies with CVaR values used to estimate the target in TD error during centralized training and the CVaR values are used as auxiliary local rewards to update the local distribution via Quantile Regression loss. Empirically, we show that our method significantly outperforms state-of-the-art methods on challenging StarCraft II tasks, demonstrating enhanced coordination and improved sample efficiency.
翻訳日:2021-02-18 11:30:08 公開日:2021-02-16
# (参考訳) フェデレーションデータ駆動進化アルゴリズム

A Federated Data-Driven Evolutionary Algorithm ( http://arxiv.org/abs/2102.08288v1 )

ライセンス: CC BY 4.0
Jinjin Xu, Yaochu Jin, Wenli Du, Sai Gu(参考訳) データ駆動の進化的最適化は、複雑な現実世界の最適化問題の解決に大きな成功を収めた。 しかし、既存のデータ駆動最適化アルゴリズムでは、すべてのデータを集中的に保存する必要があります。これは必ずしも実用的ではなく、異なるデバイスからデータを収集する必要がある場合、プライバシーの漏洩やセキュリティの脅威に対して脆弱である可能性があります。 そこで本稿では,複数のデバイスに分散したデータに対して,データ駆動最適化を実現するための統合型データ駆動進化最適化フレームワークを提案する。 フェデレーション学習に基づき、ラジアル・ベイシス関数ネットワークに基づく局所サロゲートを集約するソートモデル集約法を開発した。 さらに、グローバルモデルとローカルモデルの両方の情報を考慮に入れた取得機能を設計することにより、フェデレーションサロゲート管理戦略を提案します。 様々なデータ分布の存在下で広く使われているベンチマーク関数のセットに関する実証研究は、提案フレームワークの有効性を示している。

Data-driven evolutionary optimization has witnessed great success in solving complex real-world optimization problems. However, existing data-driven optimization algorithms require that all data are centrally stored, which is not always practical and may be vulnerable to privacy leakage and security threats if the data must be collected from different devices. To address the above issue, this paper proposes a federated data-driven evolutionary optimization framework that is able to perform data driven optimization when the data is distributed on multiple devices. On the basis of federated learning, a sorted model aggregation method is developed for aggregating local surrogates based on radial-basis-function networks. In addition, a federated surrogate management strategy is suggested by designing an acquisition function that takes into account the information of both the global and local surrogate models. Empirical studies on a set of widely used benchmark functions in the presence of various data distributions demonstrate the effectiveness of the proposed framework.
翻訳日:2021-02-18 10:49:56 公開日:2021-02-16
# (参考訳) シンボリック表現の学習:混合整数定式化、カット、ヒューリスティックス

Learning Symbolic Expressions: Mixed-Integer Formulations, Cuts, and Heuristics ( http://arxiv.org/abs/2102.08351v1 )

ライセンス: CC BY 4.0
Jongeun Kim, Sven Leyffer, Prasanna Balaprakash(参考訳) 本稿では,関数形式を仮定せずに回帰関数を学習する問題を検討する。 この問題は象徴的回帰と呼ばれる。 表現木は一般に解関数を表すために使われ、演算子とオペランドをノードに割り当てることで決定される。 シンボリック回帰問題は、非凸混合整数非線形プログラム(MINLP)として定式化することができ、バイナリ変数は演算子を代入するために使用され、非線形式は平方根、指数などの非線形演算子を介してデータ値を伝播するために使用される。 この挑戦的なMINLPの解決を改善する新しい切口を加えることによってこの公式を拡張します。 また、制限されたMINLPを解くことで表現木を反復的に構築するヒューリスティックを提案する。 計算実験を行い,本手法を混合整数型プログラムベース手法とニューラルネットワークベースの手法と比較した。

In this paper we consider the problem of learning a regression function without assuming its functional form. This problem is referred to as symbolic regression. An expression tree is typically used to represent a solution function, which is determined by assigning operators and operands to the nodes. The symbolic regression problem can be formulated as a nonconvex mixed-integer nonlinear program (MINLP), where binary variables are used to assign operators and nonlinear expressions are used to propagate data values through nonlinear operators such as square, square root, and exponential. We extend this formulation by adding new cuts that improve the solution of this challenging MINLP. We also propose a heuristic that iteratively builds an expression tree by solving a restricted MINLP. We perform computational experiments and compare our approach with a mixed-integer program-based method and a neural-network-based method from the literature.
翻訳日:2021-02-18 10:04:29 公開日:2021-02-16
# (参考訳) 正規化とジェネラティブベースの連続学習モデルにおける逆ターゲット

Adversarial Targeted Forgetting in Regularization and Generative Based Continual Learning Models ( http://arxiv.org/abs/2102.08355v1 )

ライセンス: CC BY 4.0
Muhammad Umer, Robi Polikar(参考訳) 継続的(あるいはインクリメンタル)な学習アプローチは、その後のバッチやストリーミングデータから追加の知識やタスクを学ぶ必要がある場合に使用される。 しかし、これらのアプローチは通常、悪意のある攻撃の可能性を考慮していない。 先程の研究では、Elastic Weight Consolidation(EWC)の脆弱性を認識可能な誤報に調査した。 現在、私たちは、他の正規化ベースの脆弱性、および再生再生ベースの連続学習アルゴリズムを探索し、攻撃を知覚不能な誤情報に拡張します。 知的敵は,既存の知識を時間をかけて保持し,故意に導入した誤情報を学習・保持させる連続学習アルゴリズムの能力を活用できることを示す。 この脆弱性を示すために、トレーニングデータにバックドア攻撃サンプルを注入する。 これらの攻撃サンプルは誤情報であり、アタッカーはテスト時にモデルの制御をキャプチャすることができる。 MNISTデータセットのローテーションとスプリットのベンチマーク変異に対するこの脆弱性の程度を、2つの重要なドメインとクラスインクリメンタルな学習シナリオで評価する。 本研究では,そのタスクのテストインスタンスに慎重に設計したバックドアサンプルを挿入することで,任意のタスクに関する「偽メモリ」を作成することができることを示す。 おそらく最も重要なことは、この脆弱性は非常に深刻で損傷的であることを示しています。モデルメモリは、誤った情報が人間の目には受け入れられない場合でも、トレーニングデータのわずか1\%にバックドアサンプルを追加することで簡単に妥協することができます。

Continual (or "incremental") learning approaches are employed when additional knowledge or tasks need to be learned from subsequent batches or from streaming data. However these approaches are typically adversary agnostic, i.e., they do not consider the possibility of a malicious attack. In our prior work, we explored the vulnerabilities of Elastic Weight Consolidation (EWC) to the perceptible misinformation. We now explore the vulnerabilities of other regularization-based as well as generative replay-based continual learning algorithms, and also extend the attack to imperceptible misinformation. We show that an intelligent adversary can take advantage of a continual learning algorithm's capabilities of retaining existing knowledge over time, and force it to learn and retain deliberately introduced misinformation. To demonstrate this vulnerability, we inject backdoor attack samples into the training data. These attack samples constitute the misinformation, allowing the attacker to capture control of the model at test time. We evaluate the extent of this vulnerability on both rotated and split benchmark variants of the MNIST dataset under two important domain and class incremental learning scenarios. We show that the adversary can create a "false memory" about any task by inserting carefully-designed backdoor samples to the test instances of that task thereby controlling the amount of forgetting of any task of its choosing. Perhaps most importantly, we show this vulnerability to be very acute and damaging: the model memory can be easily compromised with the addition of backdoor samples into as little as 1\% of the training data, even when the misinformation is imperceptible to human eye.
翻訳日:2021-02-18 09:33:13 公開日:2021-02-16
# (参考訳) 縮小空間における同時バイナリロジスティック回帰のためのMELODICファミリー

The MELODIC family for simultaneous binary logistic regression in a reduced space ( http://arxiv.org/abs/2102.08232v1 )

ライセンス: CC BY 4.0
Mark de Rooij and Patrick J. F. Groenen(参考訳) ロジスティック回帰はバイナリ分類の一般的な方法である。 研究者はしばしば1つ以上のバイナリ応答変数を持ち、同時解析は、応答変数と予測変数の間の依存性に関する洞察を提供するため、有益なものである。 さらに、この同時解析では、方程式は互いに力を貸すことができ、予測精度を高めることができる。 本稿では,同時二元対ロジスティック回帰モデリングのためのMELODICファミリを提案する。 この群では、回帰モデルは、距離規則に基づいて、縮小次元のユークリッド空間で定義される。 モデルは、ロジスティック回帰係数または双極子の観点から解釈することができる。 パラメータ推定のための高速反復メジャー化(MM)アルゴリズムについて検討する。 薬物摂取プロファイルに関連する性格特性と、うつ病や不安障害に関連する性格特性の2つの応用が詳細に示されている。 MELODICファミリーと多変量バイナリデータに対する代替アプローチを徹底的に比較します。

Logistic regression is a commonly used method for binary classification. Researchers often have more than a single binary response variable and simultaneous analysis is beneficial because it provides insight into the dependencies among response variables as well as between the predictor variables and the responses. Moreover, in such a simultaneous analysis the equations can lend each other strength, which might increase predictive accuracy. In this paper, we propose the MELODIC family for simultaneous binary logistic regression modeling. In this family, the regression models are defined in a Euclidean space of reduced dimension, based on a distance rule. The model may be interpreted in terms of logistic regression coefficients or in terms of a biplot. We discuss a fast iterative majorization (or MM) algorithm for parameter estimation. Two applications are shown in detail: one relating personality characteristics to drug consumption profiles and one relating personality characteristics to depressive and anxiety disorders. We present a thorough comparison of our MELODIC family with alternative approaches for multivariate binary data.
翻訳日:2021-02-18 09:17:24 公開日:2021-02-16
# (参考訳) 無線ネットワークによる連合学習:バンド制限型協調降下法

Federated Learning over Wireless Networks: A Band-limited Coordinated Descent Approach ( http://arxiv.org/abs/2102.07972v1 )

ライセンス: CC BY 4.0
Junshan Zhang, Na Li, Mehmet Dedeoglu(参考訳) ネットワークエッジにおけるフェデレーション学習のための多対一無線アーキテクチャについて検討し,複数のエッジデバイスがローカルデータを用いてモデルを協調的にトレーニングする。 エッジデバイスのコンピューティングリソースの制約とともに、ワイヤレス接続の信頼性の低い性質は、エッジデバイスのローカル更新は、利用可能なワイヤレス通信リソースに合わせて慎重に作成および圧縮され、受信機と連携して動作するべきであることを指示します。 そこで本研究では,SGDに基づく帯域限定座標降下アルゴリズムを提案する。 具体的には、over-the-airコンピューティングを使用する無線エッジにおいて、エッジデバイス間の勾配更新のk-coordinateの共通サブセットを、各イテレーションで受信機によって選択し、各タイムバランシングチャネル条件下でkサブキャリア上で同時に送信する。 提案アルゴリズムの収束度に及ぼす通信誤りと圧縮の影響を,結果として生じる勾配バイアスと平均二乗誤差の観点から評価する。 次に,電力割当と学習率の協調最適化による学習駆動型通信誤り最小化について検討する。 その結果,異なるサブキャリア間での最適電力配分は,勾配値とチャネル条件の両方を考慮に入れるべきであり,水充填政策の一般化が期待できることがわかった。 また,実装可能なサブ最適分散ソリューションも開発した。

We consider a many-to-one wireless architecture for federated learning at the network edge, where multiple edge devices collaboratively train a model using local data. The unreliable nature of wireless connectivity, together with constraints in computing resources at edge devices, dictates that the local updates at edge devices should be carefully crafted and compressed to match the wireless communication resources available and should work in concert with the receiver. Thus motivated, we propose SGD-based bandlimited coordinate descent algorithms for such settings. Specifically, for the wireless edge employing over-the-air computing, a common subset of k-coordinates of the gradient updates across edge devices are selected by the receiver in each iteration, and then transmitted simultaneously over k sub-carriers, each experiencing time-varying channel conditions. We characterize the impact of communication error and compression, in terms of the resulting gradient bias and mean squared error, on the convergence of the proposed algorithms. We then study learning-driven communication error minimization via joint optimization of power allocation and learning rates. Our findings reveal that optimal power allocation across different sub-carriers should take into account both the gradient values and channel conditions, thus generalizing the widely used water-filling policy. We also develop sub-optimal distributed solutions amenable to implementation.
翻訳日:2021-02-18 08:29:51 公開日:2021-02-16
# (参考訳) 複雑ネットワークのノード埋め込みの評価

Evaluating Node Embeddings of Complex Networks ( http://arxiv.org/abs/2102.08275v1 )

ライセンス: CC BY 4.0
Arash Dehghan-Kooshkghazi, Bogumi{\l} Kami\'nski, {\L}ukasz Krai\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge(参考訳) グラフ埋め込みはグラフのノードをベクトルの集合に変換するものである。 a~グッド埋め込みは、グラフトポロジー、ノード間関係、およびグラフ、サブグラフ、ノードに関するその他の関連情報をキャプチャする。 これらの目的が達成されれば、埋め込みは意味のある、理解可能な、圧縮されたネットワーク表現であり、ノード分類、コミュニティ検出、リンク予測などの他の機械学習ツールに使用できる。 主な課題は、埋め込みがグラフの特性をうまく記述することを保証する必要があることである。 その結果、最高の埋め込みを選択することは困難な作業であり、しばしばドメインの専門家が必要です。 本稿では,実世界のネットワークと人工的に生成したグラフの埋め込みアルゴリズムを用いて,様々な実験を行う。 これらの実験に基づいて、2つの一般的な結論を定式化する。 まず、実験を行う前に1つの埋め込みアルゴリズムを選択する必要がある場合、node2vecはテストで一番うまく機能するので、最良の選択です。 とはいえ、すべてのテストで唯一の勝者はなく、ほとんどの埋め込みアルゴリズムは調整されランダム化されるべきハイパーパラメータを持っている。 したがって,可能であれば,手前の問題に対していくつかの埋め込みを生成し,教師なしグラフ埋め込み比較のためのツールを提供する汎用フレームワークを使用することが推奨される。 このフレームワーク(最近文献で紹介され、GitHubリポジトリで簡単に利用できる)は、良いものを悪いものと区別するのに役立つ埋め込みに分岐スコアを割り当てます。

Graph embedding is a transformation of nodes of a graph into a set of vectors. A~good embedding should capture the graph topology, node-to-node relationship, and other relevant information about the graph, its subgraphs, and nodes. If these objectives are achieved, an embedding is a meaningful, understandable, compressed representations of a network that can be used for other machine learning tools such as node classification, community detection, or link prediction. The main challenge is that one needs to make sure that embeddings describe the properties of the graphs well. As a result, selecting the best embedding is a challenging task and very often requires domain experts. In this paper, we do a series of extensive experiments with selected graph embedding algorithms, both on real-world networks as well as artificially generated ones. Based on those experiments we formulate two general conclusions. First, if one needs to pick one embedding algorithm before running the experiments, then node2vec is the best choice as it performed best in our tests. Having said that, there is no single winner in all tests and, additionally, most embedding algorithms have hyperparameters that should be tuned and are randomized. Therefore, our main recommendation for practitioners is, if possible, to generate several embeddings for a problem at hand and then use a general framework that provides a tool for an unsupervised graph embedding comparison. This framework (introduced recently in the literature and easily available on GitHub repository) assigns the divergence score to embeddings to help distinguish good ones from bad ones.
翻訳日:2021-02-18 07:52:08 公開日:2021-02-16
# (参考訳) 密度推定による高速カーネル行列代数

Faster Kernel Matrix Algebra via Density Estimation ( http://arxiv.org/abs/2102.08341v1 )

ライセンス: CC BY 4.0
Arturs Backurs and Piotr Indyk and Cameron Musco and Tal Wagner(参考訳) 正半定核行列 $K \in \mathbb{R}^{n \times n}$ の基本特性を計算するための高速アルゴリズムを $n$ 点 $x_1,\ldots,x_n \in \mathbb{R}^d$ に対応する研究する。 特に、最上位固有値と固有ベクトルとともに、カーネル行列成分の和を推定することを検討する。 行列エントリの合計は、$n$ で $sublinear$ の時における $+\epsilon$ 相対誤差と、ガウス、指数、有理二次カーネルを含む多くの一般的なカーネルに対して $d$ で線形に推定できることを示した。 これらのカーネルについて、トップ固有値(および近似固有ベクトル)は、時間$n$で$subquadratic$、線形で$d$で1+\epsilon$相対誤差に近似できることを示した。 当社のアルゴリズムは、これらの問題に対する最もよく知られたランタイムの大幅な進歩を表します。 それらは、カーネルマトリックスの正定性と、効率的なカーネル密度推定に関する最近の一連の研究を活用する。

We study fast algorithms for computing fundamental properties of a positive semidefinite kernel matrix $K \in \mathbb{R}^{n \times n}$ corresponding to $n$ points $x_1,\ldots,x_n \in \mathbb{R}^d$. In particular, we consider estimating the sum of kernel matrix entries, along with its top eigenvalue and eigenvector. We show that the sum of matrix entries can be estimated to $1+\epsilon$ relative error in time $sublinear$ in $n$ and linear in $d$ for many popular kernels, including the Gaussian, exponential, and rational quadratic kernels. For these kernels, we also show that the top eigenvalue (and an approximate eigenvector) can be approximated to $1+\epsilon$ relative error in time $subquadratic$ in $n$ and linear in $d$. Our algorithms represent significant advances in the best known runtimes for these problems. They leverage the positive definiteness of the kernel matrix, along with a recent line of work on efficient kernel density estimation.
翻訳日:2021-02-18 07:14:54 公開日:2021-02-16
# (参考訳) ルーティングゲームにおけるカオスへのフォロー・ザ・レギュラライザー・リーダールート

Follow-the-Regularizer-Leader Routes to Chaos in Routing Games ( http://arxiv.org/abs/2102.07974v1 )

ライセンス: CC BY 4.0
Jakub Bielawski, Thiparat Chotibut, Fryderyk Falniowski, Grzegorz Kosiorowski, Micha{\l} Misiurewicz, Georgios Piliouras(参考訳) ゲームにおけるフォロー・ザ・レギュラライズ・リーダー(FoReL)ダイナミクスのカオス行動の出現について検討する。 我々は、混雑ゲームにおける人口増加やコストスケールの影響に焦点を当て、乗算重み更新ダイナミクスにおける不安定でカオスな挙動に関する最近の結果を、はるかに大きなクラスのFoReLダイナミクスに一般化する。 我々は、2つの並列リンクと任意の固定学習率を持つ単純な線形非原子混雑ゲームであっても、ゲームが完全に対称でない限り、人口サイズやコストの規模が増加し、学習ダイナミクスが不安定になり、最終的にカオスになり、Li-Yorkeと正の位相エントロピーの意味で。 さらに,同ゲームにおける安定なナッシュ平衡とカオスの共存など,新しい非標準現象の存在を示す。 また、別のカオスアクタが破壊されるにつれて、カオスアクタの同時作成も観察する。 最後に、FoReLダイナミクスは奇妙で非平衡であるが、時間平均はまだ学習率の選択とコストのスケールの正確な平衡に収束していることを証明している。

We study the emergence of chaotic behavior of Follow-the-Regularized Leader (FoReL) dynamics in games. We focus on the effects of increasing the population size or the scale of costs in congestion games, and generalize recent results on unstable, chaotic behaviors in the Multiplicative Weights Update dynamics to a much larger class of FoReL dynamics. We establish that, even in simple linear non-atomic congestion games with two parallel links and any fixed learning rate, unless the game is fully symmetric, increasing the population size or the scale of costs causes learning dynamics to become unstable and eventually chaotic, in the sense of Li-Yorke and positive topological entropy. Furthermore, we show the existence of novel non-standard phenomena such as the coexistence of stable Nash equilibria and chaos in the same game. We also observe the simultaneous creation of a chaotic attractor as another chaotic attractor gets destroyed. Lastly, although FoReL dynamics can be strange and non-equilibrating, we prove that the time average still converges to an exact equilibrium for any choice of learning rate and any scale of costs.
翻訳日:2021-02-18 06:52:07 公開日:2021-02-16
# (参考訳) 階層的なVAEは知らないことを知っている

Hierarchical VAEs Know What They Don't Know ( http://arxiv.org/abs/2102.08248v1 )

ライセンス: CC BY 4.0
Jakob D. Havtorn, Jes Frellsen, S{\o}ren Hauberg, Lars Maal{\o}e(参考訳) 深層生成モデルは、最先端の密度推定器であることが示されています。 しかし、最近の研究によると、トレーニングディストリビューションの外からのデータに高い確率を割り当てることがしばしばある。 この一見パラドックス的な行動は、達成された密度推定の品質に関する懸念を引き起こした。 階層的変分オートエンコーダの文脈では、分布内低レベル機能を有する分布外データを用いて、この挙動を説明する証拠を提供する。 これは期待された行動であり、望ましい行動である。 この洞察により、OOD検出のための高速でスケーラブルで完全に監視されていない可能性比スコアを開発し、すべての機能レベルでデータを分散させる必要があります。 提案手法は,膨大なデータとモデルの組み合わせをベンチマークし,分布外検出の最先端結果を得る。

Deep generative models have shown themselves to be state-of-the-art density estimators. Yet, recent work has found that they often assign a higher likelihood to data from outside the training distribution. This seemingly paradoxical behavior has caused concerns over the quality of the attained density estimates. In the context of hierarchical variational autoencoders, we provide evidence to explain this behavior by out-of-distribution data having in-distribution low-level features. We argue that this is both expected and desirable behavior. With this insight in hand, we develop a fast, scalable and fully unsupervised likelihood-ratio score for OOD detection that requires data to be in-distribution across all feature-levels. We benchmark the method on a vast set of data and model combinations and achieve state-of-the-art results on out-of-distribution detection.
翻訳日:2021-02-18 06:23:08 公開日:2021-02-16
# (参考訳) マルチモーダルイメージセンテンメント解析のためのAutoMLベースのアプローチ

An AutoML-based Approach to Multimodal Image Sentiment Analysis ( http://arxiv.org/abs/2102.08092v1 )

ライセンス: CC BY 4.0
Vasco Lopes, Ant\'onio Gaspar, Lu\'is A. Alexandre, Jo\~ao Cordeiro(参考訳) 感性分析は、データを分析し、それが引き起こす感情に関する情報を抽出することに焦点を当てた研究トピックである。 感情分析の応用は、レコメンデーションシステムやマーケティングから顧客満足度まで幅広い。 最近のアプローチでは、大規模コーパス上でトレーニングされる機械学習技術を用いてテキストコンテンツを評価する。 しかし、ソーシャルメディアが成長するにつれて、画像など他のデータ型も大量に出現した。 画像中の感性分析は、コンテキストと接続を作成することによって、基礎となるメッセージ極性の推定を可能にするため、テキストデータの貴重な補完となることが示されている。 マルチモーダル感情分析アプローチは、テキストコンテンツと画像コンテンツの両方の情報を利用して評価を行うことを目的としています。 近年の進歩にもかかわらず、現在のソリューションは、主に主観性、クラス間の均一性、融合データの違いによって、画像情報とテキスト情報を組み合わせることで、ソーシャルメディアデータを分類している。 本稿では,テキストと画像の個々の感情分析を,AutoMLに基づく最終融合分類に組み合わせ,最適なモデルを探すためにランダム検索を行う手法を提案する。 提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。

Sentiment analysis is a research topic focused on analysing data to extract information related to the sentiment that it causes. Applications of sentiment analysis are wide, ranging from recommendation systems, and marketing to customer satisfaction. Recent approaches evaluate textual content using Machine Learning techniques that are trained over large corpora. However, as social media grown, other data types emerged in large quantities, such as images. Sentiment analysis in images has shown to be a valuable complement to textual data since it enables the inference of the underlying message polarity by creating context and connections. Multimodal sentiment analysis approaches intend to leverage information of both textual and image content to perform an evaluation. Despite recent advances, current solutions still flounder in combining both image and textual information to classify social media data, mainly due to subjectivity, inter-class homogeneity and fusion data differences. In this paper, we propose a method that combines both textual and image individual sentiment analysis into a final fused classification based on AutoML, that performs a random search to find the best model. Our method achieved state-of-the-art performance in the B-T4SA dataset, with 95.19% accuracy.
翻訳日:2021-02-18 05:49:18 公開日:2021-02-16
# (参考訳) SiMaN:Sign-to-Magnitude Network Binarization

SiMaN: Sign-to-Magnitude Network Binarization ( http://arxiv.org/abs/2102.07981v1 )

ライセンス: CC BY 4.0
Mingbao Lin, Rongrong Ji, Zihan Xu, Baochang Zhang, Fei Chao, Mingliang Xu, Chia-Wen Lin, Ling Shao(参考訳) バイナリニューラルネットワーク(BNN)は、その効率的なストレージと計算能力のために幅広い研究関心を集めています。 それにもかかわらず、BNNsの重要な課題は、離散的な制約を処理しながらビットエントロピーの最大化を確保することです。 既存の手法では、単に正の重みを+1と-1にエンコードするサイン関数を使って学習を緩和する。 あるいは、重量二元化を{0,+1}に制限して課題を解決するための角度アライメント目標を策定する。 本稿では,高次重みを+1と0に符号化することにより,重み二項化が解析解となることを示す。 したがって、符号関数を使わずに計算効率よく高品質な離散解が確立される。 二元化ネットワークの学習重みは、エントロピー最大化を許さないラプラシアン分布に概ね従うことを証明し、ネットワークトレーニング中に$\ell_2$正規化を単に取り除いて効果的に解決できることを証明した。 CIFAR-10 と ImageNet では,シマナリゼーション (SiMaN) と呼ばれる手法が評価され,シマナリゼーションの優位性が示された。 コードはhttps://github.com/lmbxmu/SiMaNです。

Binary neural networks (BNNs) have attracted broad research interest due to their efficient storage and computational ability. Nevertheless, a significant challenge of BNNs lies in handling discrete constraints while ensuring bit entropy maximization, which typically makes their weight optimization very difficult. Existing methods relax the learning using the sign function, which simply encodes positive weights into +1s, and -1s otherwise. Alternatively, we formulate an angle alignment objective to constrain the weight binarization to {0,+1} to solve the challenge. In this paper, we show that our weight binarization provides an analytical solution by encoding high-magnitude weights into +1s, and 0s otherwise. Therefore, a high-quality discrete solution is established in a computationally efficient manner without the sign function. We prove that the learned weights of binarized networks roughly follow a Laplacian distribution that does not allow entropy maximization, and further demonstrate that it can be effectively solved by simply removing the $\ell_2$ regularization during network training. Our method, dubbed sign-to-magnitude network binarization (SiMaN), is evaluated on CIFAR-10 and ImageNet, demonstrating its superiority over the sign-based state-of-the-arts. Code is at https://github.com/lmbxmu/SiMaN.
翻訳日:2021-02-18 05:28:58 公開日:2021-02-16
# (参考訳) 不確実性に基づくラベル付きセグメンテーションデータセットの改善手法

Uncertainty-based method for improving poorly labeled segmentation datasets ( http://arxiv.org/abs/2102.08021v1 )

ライセンス: CC BY 4.0
Ekaterina Redekop, Alexey Chernyavskiy(参考訳) 画像セグメンテーションのための現代のディープラーニングアルゴリズムの成功は、関心のあるオブジェクトを正確に記述するクリーンピクセルレベルのアノテーション(マスク)を備えた大規模なデータセットの可用性に大きく依存します。 データアノテーション中の時間と専門知識の欠如は、間違った境界とラベルノイズにつながります。 深層畳み込みニューラルネットワーク(dcnn)は、完全にランダムなラベルさえ記憶することができ、精度が低下することが知られている。 信頼できないピクセルレベルのアノテーションの集合を用いて,バイナリセグメンテーションDCNNを訓練するフレームワークを提案する。 推定されたセグメントの不確かさに基づいて誤ってラベル付けされた画素を識別し、真の値にリラベルする。

The success of modern deep learning algorithms for image segmentation heavily depends on the availability of large datasets with clean pixel-level annotations (masks), where the objects of interest are accurately delineated. Lack of time and expertise during data annotation leads to incorrect boundaries and label noise. It is known that deep convolutional neural networks (DCNNs) can memorize even completely random labels, resulting in poor accuracy. We propose a framework to train binary segmentation DCNNs using sets of unreliable pixel-level annotations. Erroneously labeled pixels are identified based on the estimated aleatoric uncertainty of the segmentation and are relabeled to the true value.
翻訳日:2021-02-18 05:06:56 公開日:2021-02-16
# (参考訳) 不完全ユーザプロファイルを有するタスク指向対話システムのための協調記憶ネットワーク

A Cooperative Memory Network for Personalized Task-oriented Dialogue Systems with Incomplete User Profiles ( http://arxiv.org/abs/2102.08322v1 )

ライセンス: CC BY 4.0
Jiahuan Pei, Pengjie Ren, Maarten de Rijke(参考訳) パーソナライズされたタスク指向対話システム(TDS)の開発への関心が高まっている。 パーソナライズされたTDSに関する以前の研究は、完全なユーザープロファイルがほとんどの、あるいはすべてのユーザーに対して利用できると仮定することが多い。 なぜなら、(1) 誰もがプライバシー上の懸念からプロフィールを公開しようとするわけではないし、(2) リッチなユーザープロフィールには多数の属性(性別、年齢、味など)が伴う可能性があるからである。 . .). 本稿では,ユーザプロファイルの完成を前提に,パーソナライズされたTDSについて検討する。 対話が進むにつれてユーザプロファイルを段階的に強化し,その豊富なプロファイルに基づいた応答選択を同時に改善する,新たなメカニズムを持つ協調メモリネットワーク(CoMemNN)を提案する。 CoMemNNは2つのコアモジュールで構成されている: User Profile Enrichment (UPE) と Dialogue Response Selection (DRS) である。 前者は、隣接するユーザーの共同情報と現在の対話を活用して、不完全なユーザープロファイルを豊かにします。 後者は、ユーザリクエストに対するパーソナライズされたレスポンスが選択されたかに基づいて、現在のユーザクエリを更新して、より有用な情報をエンコードする。 パーソナライズされたbAbIダイアログベンチマークデータセットに関する広範な実験を実施します。 その結果,CoMemNNはユーザプロファイルを効果的に強化することができ,その結果,最先端手法と比較して応答選択精度が3.06%向上することがわかった。 また,ユーザプロファイルから属性値をランダムに破棄することで,ユーザプロファイルの不完全性に対するcomemnnのロバスト性をテストする。 属性値の50%を破棄しても、CoMemNNはユーザープロファイルを破棄することなく、最高のパフォーマンスのベースラインのパフォーマンスにマッチし、CoMemNNの堅牢性を示します。

There is increasing interest in developing personalized Task-oriented Dialogue Systems (TDSs). Previous work on personalized TDSs often assumes that complete user profiles are available for most or even all users. This is unrealistic because (1) not everyone is willing to expose their profiles due to privacy concerns; and (2) rich user profiles may involve a large number of attributes (e.g., gender, age, tastes, . . .). In this paper, we study personalized TDSs without assuming that user profiles are complete. We propose a Cooperative Memory Network (CoMemNN) that has a novel mechanism to gradually enrich user profiles as dialogues progress and to simultaneously improve response selection based on the enriched profiles. CoMemNN consists of two core modules: User Profile Enrichment (UPE) and Dialogue Response Selection (DRS). The former enriches incomplete user profiles by utilizing collaborative information from neighbor users as well as current dialogues. The latter uses the enriched profiles to update the current user query so as to encode more useful information, based on which a personalized response to a user request is selected. We conduct extensive experiments on the personalized bAbI dialogue benchmark datasets. We find that CoMemNN is able to enrich user profiles effectively, which results in an improvement of 3.06% in terms of response selection accuracy compared to state-of-the-art methods. We also test the robustness of CoMemNN against incompleteness of user profiles by randomly discarding attribute values from user profiles. Even when discarding 50% of the attribute values, CoMemNN is able to match the performance of the best performing baseline without discarding user profiles, showing the robustness of CoMemNN.
翻訳日:2021-02-18 04:14:42 公開日:2021-02-16
# (参考訳) 直線トンプソンサンプリングへの応用によるランダム化楕円ポテンシャル補題

The Randomized Elliptical Potential Lemma with an Application to Linear Thompson Sampling ( http://arxiv.org/abs/2102.07987v1 )

ライセンス: CC BY 4.0
Nima Hamidi, Mohsen Bayati(参考訳) 本稿では,逐次学習におけるアルゴリズム解析や確率線形バンドイットなどの意思決定問題において広く用いられている,有名な楕円ポテンシャル補題のランダム化版を提案する。 我々のランダム化された楕円ポテンシャル補題は、観測ノイズと問題パラメータの事前分布に関するガウスの仮定を緩和する。 次に,この一般化を用いて,線形確率バンディットに対するトンプソンサンプリングに拘束されたベイズ的後悔を,事前分布と雑音分布が一般的であるような動作集合を変化させて証明する。 この境界は定数まで最小値である。

In this note, we introduce a randomized version of the well-known elliptical potential lemma that is widely used in the analysis of algorithms in sequential learning and decision-making problems such as stochastic linear bandits. Our randomized elliptical potential lemma relaxes the Gaussian assumption on the observation noise and on the prior distribution of the problem parameters. We then use this generalization to prove an improved Bayesian regret bound for Thompson sampling for the linear stochastic bandits with changing action sets where prior and noise distributions are general. This bound is minimax optimal up to constants.
翻訳日:2021-02-18 03:55:31 公開日:2021-02-16
# (参考訳) ResNet-LDDMM:Deep Residual Networks を用いた LDDMM フレームワークの改善

ResNet-LDDMM: Advancing the LDDMM Framework Using Deep Residual Networks ( http://arxiv.org/abs/2102.07951v1 )

ライセンス: CC BY 4.0
Boulbaba Ben Amor, Sylvain Arguill\`ere and Ling Shao(参考訳) 変形可能な登録において、幾何学的枠組み(大変形双相的距離マッピング、略して lddmm)は、形状や画像の比較、変形、平均化、解析のための多くの技術に影響を与えた。 流体力学で使われる運動方程式に類似した流れに接して、lddmmアルゴリズムは、妥当な変形の空間における流れ方程式を解く。 微分同型。 本研究では,eulerの離散化スキームに基づく非定常ode(フロー方程式)の解法として,深層残留ニューラルネットワークを用いた。 中心となるアイデアは、時間依存の速度場を完全連結のreluニューラルネットワーク(ビルディングブロック)として表現し、正規化損失関数を最小化することで最適重みを導出することである。 変形と形状の間の経路を最小化する計算は、中間構造ブロックをバックプロパゲートすることで最適なネットワークパラメータを見つける。 幾何学的には、各時間ステップにおいて、resnet-lddmmは空間の最適分割を複数のポリトープに探索し、各ポリトープ上のアフィン変換として最適な速度ベクトルを計算する。 その結果、形状の異なる部分は、(手の2本の指など)近い場合でも、異なるポリトピーに属するようにすることができ、したがって、あまりにも多くのエネルギーを費やすことなく異なる方向に移動することができる。 重要な点として,二相変換,あるいはより正確にはビリプシッツ変換がアルゴリズムによってどのように予測されるかを示す。 複雑なトポロジー保存変換の下での3次元形状の多種多様な登録問題について述べる。 したがって,新しいジョイント幾何ニューラルネットワークのリーマン的枠組み,すなわち,より高度な形状変動解析に不可欠な基礎を提供する。 ResNet-LDDMM。

In deformable registration, the geometric framework - large deformation diffeomorphic metric mapping or LDDMM, in short - has inspired numerous techniques for comparing, deforming, averaging and analyzing shapes or images. Grounded in flows, which are akin to the equations of motion used in fluid dynamics, LDDMM algorithms solve the flow equation in the space of plausible deformations, i.e. diffeomorphisms. In this work, we make use of deep residual neural networks to solve the non-stationary ODE (flow equation) based on a Euler's discretization scheme. The central idea is to represent time-dependent velocity fields as fully connected ReLU neural networks (building blocks) and derive optimal weights by minimizing a regularized loss function. Computing minimizing paths between deformations, thus between shapes, turns to find optimal network parameters by back-propagating over the intermediate building blocks. Geometrically, at each time step, ResNet-LDDMM searches for an optimal partition of the space into multiple polytopes, and then computes optimal velocity vectors as affine transformations on each of these polytopes. As a result, different parts of the shape, even if they are close (such as two fingers of a hand), can be made to belong to different polytopes, and therefore be moved in different directions without costing too much energy. Importantly, we show how diffeomorphic transformations, or more precisely bilipshitz transformations, are predicted by our algorithm. We illustrate these ideas on diverse registration problems of 3D shapes under complex topology-preserving transformations. We thus provide essential foundations for more advanced shape variability analysis under a novel joint geometric-neural networks Riemannian-like framework, i.e. ResNet-LDDMM.
翻訳日:2021-02-18 03:06:37 公開日:2021-02-16
# (参考訳) GraphGallery: グラフニューラルネットワークベースのインテリジェントソフトウェアを高速にベンチマークし、簡単に開発するためのプラットフォーム

GraphGallery: A Platform for Fast Benchmarking and Easy Development of Graph Neural Networks Based Intelligent Software ( http://arxiv.org/abs/2102.07933v1 )

ライセンス: CC BY 4.0
Jintang Li, Kun Xu, Liang Chen, Zibin Zheng and Xiao Liu(参考訳) グラフニューラルネットワーク(GNN)は最近、グラフデータを表現し分析するための強力なツールであることが示されている。 これまでのところ、GNNは、プログラム分析、型推論、コード表現を含むソフトウェアエンジニアリングにおいて、ますます重要な役割を担っている。 本稿では,高速なベンチマークと,GNNベースのソフトウェアの開発を容易にするプラットフォームであるGraphGalleryを紹介する。 GraphGalleryは使いやすく、ドメイン固有の知識の少ないGNNを自動的にデプロイできるプラットフォームである。 メインストリームのディープラーニングフレームワークに基づいた共通GNNモデルの一連の実装を提供する。 さらに、PyGやDGLなどの既存のGNNツールボックスをプラットフォームに簡単に組み込むことができます。 実験は、実装の信頼性と高速コーディングの優位性を実証する。 GraphGalleryの公式ソースコードはhttps://github.com/EdisonLeeeee/GraphGalleryで、デモビデオはhttps://youtu.be/mv7Zs1YeaYoで見ることができる。

Graph Neural Networks (GNNs) have recently shown to be powerful tools for representing and analyzing graph data. So far GNNs is becoming an increasingly critical role in software engineering including program analysis, type inference, and code representation. In this paper, we introduce GraphGallery, a platform for fast benchmarking and easy development of GNNs based software. GraphGallery is an easy-to-use platform that allows developers to automatically deploy GNNs even with less domain-specific knowledge. It offers a set of implementations of common GNN models based on mainstream deep learning frameworks. In addition, existing GNNs toolboxes such as PyG and DGL can be easily incorporated into the platform. Experiments demonstrate the reliability of implementations and superiority in fast coding. The official source code of GraphGallery is available at https://github.com/EdisonLeeeee/GraphGallery and a demo video can be found at https://youtu.be/mv7Zs1YeaYo.
翻訳日:2021-02-18 01:28:13 公開日:2021-02-16
# (参考訳) EDITH :ECGバイオメトリックス : 個人認証のための深層学習支援

EDITH :ECG biometrics aided by Deep learning for reliable Individual auTHentication ( http://arxiv.org/abs/2102.08026v1 )

ライセンス: CC BY 4.0
Nabil Ibtehaz, Muhammad E. H. Chowdhury, Amith Khandakar, Serkan Kiranyaz, M. Sohel Rahman, Anas Tahir, Yazan Qiblawey, and Tawsifur Rahman(参考訳) 近年, 生理的信号に基づく認証は, 偽造に対する本質的な堅牢性など, 大きな可能性を秘めている。 心電図(ECG)信号は,最も広く研究されている生体信号であり,この点でも注目されている。 多くの研究で、異なる人の心電図信号を解析することにより、許容できる精度で識別できることが証明されている。 本稿では,ecg生体認証システムのための深層学習ベースのフレームワークであるedithを提案する。 さらに,性能向上のために,シームズアーキテクチャが典型的な距離測定値にまたがって利用できることを仮定し,実証する。 4つの一般的なデータセットを用いてEDITHを評価し、少ないビートで前作を上回りました。 EDITHは1つの心拍(96-99.75%の精度)だけで競争力を発揮し、複数の拍子(100%の精度で3から6拍子)を融合させることでさらに強化することができる。 さらに、提案されたSiameseアーキテクチャは、アイデンティティ検証のEqual Error Rate(EER)を1.29%に削減する。 実世界の実験データを用いたEDITHの限られたケーススタディでは、実際の認証システムとしての可能性も示唆されている。

In recent years, physiological signal based authentication has shown great promises,for its inherent robustness against forgery. Electrocardiogram (ECG) signal, being the most widely studied biosignal, has also received the highest level of attention in this regard. It has been proven with numerous studies that by analyzing ECG signals from different persons, it is possible to identify them, with acceptable accuracy. In this work, we present, EDITH, a deep learning-based framework for ECG biometrics authentication system. Moreover, we hypothesize and demonstrate that Siamese architectures can be used over typical distance metrics for improved performance. We have evaluated EDITH using 4 commonly used datasets and outperformed the prior works using less number of beats. EDITH performs competitively using just a single heartbeat (96-99.75% accuracy) and can be further enhanced by fusing multiple beats (100% accuracy from 3 to 6 beats). Furthermore, the proposed Siamese architecture manages to reduce the identity verification Equal Error Rate (EER) to 1.29%. A limited case study of EDITH with real-world experimental data also suggests its potential as a practical authentication system.
翻訳日:2021-02-18 01:20:25 公開日:2021-02-16
# (参考訳) インフルエンザ流行の時空間多段階予測

Spatio-Temporal Multi-step Prediction of Influenza Outbreaks ( http://arxiv.org/abs/2102.08137v1 )

ライセンス: CC BY 4.0
Jie Zhang, Kazumitsu Nawata, Hongyan Wu(参考訳) インフルエンザは世界中に流れている。 世界的な感染は毎年人々の健康に大きな負担を負っている。 インフルエンザの世界的な循環の特徴にかかわらず、過去のほとんどの研究はインフルエンザのアウトブレイクの地域予測に焦点を当てた。 時空間相関を考慮する手法は、より正確にインフルエンザの発生を予測するのに役立つ。 さらに、長期的なインフルエンザの流行を予測し、インフルエンザ感染の傾向をより正確に理解することは、病院、診療所、製薬会社が毎年のインフルエンザの流行に備えるのに役立ちます。 将来の値のシーケンスを予測する、すなわち、インフルエンザの発生のマルチステップ予測は、懸念を引き起こす可能性があります。 したがって、世界的なインフルエンザ流行のマルチステップ予測を行うための時空間的手法の開発の重要性を強調します。 我々は,SVM,RF,LSTMのMAPEを,他国のインフルエンザデータを1~4週間前に予測するモデルと比較した。 LSTMモデルは,ほとんどの場合,最も低いMAPEを達成できた。 南半球の国については、他の国とインフルエンザデータを予測するMAPEは、他の国なしで予測するよりも高いです。 北半球の国では、他国との2~4週間前のインフルエンザデータを予測するMAPEは他国との予測よりも低く、他国との1週間前のインフルエンザデータを予測するMAPEは、イギリスを除く他国と予測するMAPEよりも高い。 本研究では,インフルエンザ流行の時空間多段階予測を行った。 時空間的特徴を考慮した手法はインフルエンザ発生の多段階予測を改善する。

Flu circulates all over the world. The worldwide infection places a substantial burden on people's health every year. Regardless of the characteristic of the worldwide circulation of flu, most previous studies focused on regional prediction of flu outbreaks. The methodology of considering the spatio-temporal correlation could help forecast flu outbreaks more precisely. Furthermore, forecasting a long-term flu outbreak, and understanding flu infection trends more accurately could help hospitals, clinics, and pharmaceutical companies to better prepare for annual flu outbreaks. Predicting a sequence of values in the future, namely, the multi-step prediction of flu outbreaks should cause concern. Therefore, we highlight the importance of developing spatio-temporal methodologies to perform multi-step prediction of worldwide flu outbreaks. We compared the MAPEs of SVM, RF, LSTM models of predicting flu data of the 1-4 weeks ahead with and without other countries' flu data. We found the LSTM models achieved the lowest MAPEs in most cases. As for countries in the Southern hemisphere, the MAPEs of predicting flu data with other countries are higher than those of predicting without other countries. For countries in the Northern hemisphere, the MAPEs of predicting flu data of the 2-4 weeks ahead with other countries are lower than those of predicting without other countries; and the MAPEs of predicting flu data of the 1-weeks ahead with other countries are higher than those of predicting without other countries, except for the UK. In this study, we performed the spatio-temporal multi-step prediction of influenza outbreaks. The methodology considering the spatio-temporal features improves the multi-step prediction of flu outbreaks.
翻訳日:2021-02-18 01:04:34 公開日:2021-02-16
# (参考訳) グラデーションベース2レベル最適化のためのジェネリックDescent Aggregation Framework

A Generic Descent Aggregation Framework for Gradient-based Bi-level Optimization ( http://arxiv.org/abs/2102.07976v1 )

ライセンス: CC BY 4.0
Risheng Liu, Pan Mu, Xiaoming Yuan, Shangzhi Zeng, Jin Zhang(参考訳) 近年,二段階最適化タスクを解くための勾配に基づく手法が,機械学習コミュニティから大きな関心を集めている。 しかしながら、最良の応答の勾配を計算するために、既存の研究は常に低レベルの解集合のシングルトン(Low-Level Singleton, LLS)に依存している。 本研究では, 楽観的なbiレベル視点からbiレベルモデルを定式化することにより, まず, 上層と下層の両方の階層的目標を集約する新しいbiレベル降下集約(bda)フレームワークを構築した。 フレームワークの柔軟性は、組み込みのタスクカスタマイズ型イテレーションダイナミクスモジュールの利点を享受し、幅広いbiレベルの学習タスクをキャプチャします。 理論的には、LSS制限なしにBDAフレームワークの収束を証明する新しい方法論を導出する。 また,LSSの簡易化により,従来の勾配型二段階法の収束性向上を図るため,本手法を提案する。 さらに,バックプロパゲーション計算を数値的に高速化するために,ワンステージ手法を用いる。 理論結果の正当化とハイパーパラメータ最適化とメタラーニングタスクのための提案アルゴリズムの優位性の実証実験を行った。

In recent years, gradient-based methods for solving bi-level optimization tasks have drawn a great deal of interest from the machine learning community. However, to calculate the gradient of the best response, existing research always relies on the singleton of the lower-level solution set (a.k.a., Lower-Level Singleton, LLS). In this work, by formulating bi-level models from an optimistic bi-level viewpoint, we first establish a novel Bi-level Descent Aggregation (BDA) framework, which aggregates hierarchical objectives of both upper level and lower level. The flexibility of our framework benefits from the embedded replaceable task-tailored iteration dynamics modules, thereby capturing a wide range of bi-level learning tasks. Theoretically, we derive a new methodology to prove the convergence of BDA framework without the LLS restriction. Besides, the new proof recipe we propose is also engaged to improve the convergence results of conventional gradient-based bi-level methods under the LLS simplification. Furthermore, we employ a one-stage technique to accelerate the back-propagation calculation in a numerical manner. Extensive experiments justify our theoretical results and demonstrate the superiority of the proposed algorithm for hyper-parameter optimization and meta-learning tasks.
翻訳日:2021-02-18 00:05:43 公開日:2021-02-16
# (参考訳) 仮想記憶で運転することを学ぶ

Steadily Learn to Drive with Virtual Memory ( http://arxiv.org/abs/2102.08072v1 )

ライセンス: CC BY 4.0
Yuhang Zhang, Yao Mu, Yujie Yang, Yang Guan, Shengbo Eben Li, Qi Sun and Jianyu Chen(参考訳) 強化学習は、高レベルの自動運転の開発に大きな可能性を示しています。 しかし、高次元のタスクでは、現在のRLメソッドは、トレーニングプロセスの低データ効率と振動に苦しんでいます。 本稿では,この問題を解決するために,Learning to drive with Virtual Memory (LVM) というアルゴリズムを提案する。 LVMは、高次元情報をコンパクトな潜時状態に圧縮し、潜時ダイナミクスモデルを学び、エージェントの経験をまとめます。 様々な想像上の潜在トラジェクタは、潜在動的モデルによって仮想メモリとして生成される。 この方針は、学習した潜在軌道モデルを通して勾配を伝播させることで学習され、高いデータ効率をもたらす。 さらに、トレーニング過程における振動を低減するために、二重批判構造を設計する。 LVMの有効性は画像入力による自律運転タスクによって実証され、LVMはデータ効率、学習安定性、制御性能において既存の手法よりも優れる。

Reinforcement learning has shown great potential in developing high-level autonomous driving. However, for high-dimensional tasks, current RL methods suffer from low data efficiency and oscillation in the training process. This paper proposes an algorithm called Learn to drive with Virtual Memory (LVM) to overcome these problems. LVM compresses the high-dimensional information into compact latent states and learns a latent dynamic model to summarize the agent's experience. Various imagined latent trajectories are generated as virtual memory by the latent dynamic model. The policy is learned by propagating gradient through the learned latent model with the imagined latent trajectories and thus leads to high data efficiency. Furthermore, a double critic structure is designed to reduce the oscillation during the training process. The effectiveness of LVM is demonstrated by an image-input autonomous driving task, in which LVM outperforms the existing method in terms of data efficiency, learning stability, and control performance.
翻訳日:2021-02-17 23:14:19 公開日:2021-02-16
# (参考訳) 平均場レンズによる重み付きオートエンコーダの特徴学習の解析

Analysis of feature learning in weight-tied autoencoders via the mean field lens ( http://arxiv.org/abs/2102.08373v1 )

ライセンス: CC BY 4.0
Phan-Minh Nguyen(参考訳) オートエンコーダは、教師なし学習のための最初期の非線形モデルである。 研究以外にも広く採用されているが、訓練された非線形オートエンコーダが提供する特徴抽出機構を数学的に理解することは長年にわたるオープン問題である。 本研究では,平均場フレームワークにおける2層重み付け非線形オートエンコーダのクラスを解析することにより,この問題を進展させる。 適切なスケーリングでは、多数のニューロンの体制において、確率勾配降下で訓練されたモデルが平均磁場制限ダイナミクスを認めることが示されている。 この制限的な記述は、これらのモデルによる特徴学習の漸近的に正確な図面を明らかにしている: トレーニングダイナミクスは、データの異なる主部分空間の学習に対応する異なるフェーズを示し、$\ell_{2}$-regularizationと停止時間に依存する様々な非線形収縮の度合いを示す。 これらの結果を(関連する)ガウスデータの理想的な仮定の下で証明する一方で、実生活データに関する実験は理論と興味深い一致を示した。 興味のオートエンコーダ設定は、これらの結果を証明するための非自明な数学的挑戦をもたらす。 この設定では、モデルの「Lipschitz」定数は、データ次元$d$で成長します。 従って、以前の分析の適応には、少なくとも$d$で指数関数的な数個のニューロンが必要である。 私たちの主な技術的貢献は、必要な$n$が$d$の多項式のみであることを証明する新しい引数です。 我々は $N\gg d$ が十分であり、$N$ がデータに依存する本質的な次元よりも必ずしも大きいと仮定する。

Autoencoders are among the earliest introduced nonlinear models for unsupervised learning. Although they are widely adopted beyond research, it has been a longstanding open problem to understand mathematically the feature extraction mechanism that trained nonlinear autoencoders provide. In this work, we make progress in this problem by analyzing a class of two-layer weight-tied nonlinear autoencoders in the mean field framework. Upon a suitable scaling, in the regime of a large number of neurons, the models trained with stochastic gradient descent are shown to admit a mean field limiting dynamics. This limiting description reveals an asymptotically precise picture of feature learning by these models: their training dynamics exhibit different phases that correspond to the learning of different principal subspaces of the data, with varying degrees of nonlinear shrinkage dependent on the $\ell_{2}$-regularization and stopping time. While we prove these results under an idealized assumption of (correlated) Gaussian data, experiments on real-life data demonstrate an interesting match with the theory. The autoencoder setup of interests poses a nontrivial mathematical challenge to proving these results. In this setup, the "Lipschitz" constants of the models grow with the data dimension $d$. Consequently an adaptation of previous analyses requires a number of neurons $N$ that is at least exponential in $d$. Our main technical contribution is a new argument which proves that the required $N$ is only polynomial in $d$. We conjecture that $N\gg d$ is sufficient and that $N$ is necessarily larger than a data-dependent intrinsic dimension, a behavior that is fundamentally different from previously studied setups.
翻訳日:2021-02-17 22:59:29 公開日:2021-02-16
# (参考訳) FEWS:辞書による大規模・低速単語センスの曖昧化

FEWS: Large-Scale, Low-Shot Word Sense Disambiguation with the Dictionary ( http://arxiv.org/abs/2102.07983v1 )

ライセンス: CC BY 4.0
Terra Blevins, Mandar Joshi, and Luke Zettlemoyer(参考訳) Word Sense Disambiguation(WSD)の現在のモデルは、グローバルなWSDメトリクスで人間のパフォーマンスに到達するにもかかわらず、希少な感覚の曖昧化に苦慮している。 これは、既存のwsdデータセットのレアセンスのモデリングと評価の両方のためのデータの欠如に起因する。 本稿では,wiktionary の例文から自動的に抽出される新しい低ショット wsd データセットである fews (few-shot example of word senses) を紹介する。 さまざまな自然言語ドメインにまたがる高感覚のカバレッジを持ち、(1)以前のデータセットよりも多くの感覚をカバーする大きなトレーニングセット、(2)様々な感覚の少数とゼロショットの例を含む総合的な評価セットを提供する。 我々は、知識ベースおよびニューラルWSDアプローチによるFEWSのベースラインを確立するとともに、FEWSでトレーニングされたモデルが既存のWSDデータセットで稀な感覚をよりよく捉えることを実証するトランスファー学習実験を行う。 最後に、人間がFEWS上で最高のベースラインモデルより優れていることを発見し、FEWSが低ショットWSDにおける重要な将来的な作業をサポートすることを示します。

Current models for Word Sense Disambiguation (WSD) struggle to disambiguate rare senses, despite reaching human performance on global WSD metrics. This stems from a lack of data for both modeling and evaluating rare senses in existing WSD datasets. In this paper, we introduce FEWS (Few-shot Examples of Word Senses), a new low-shot WSD dataset automatically extracted from example sentences in Wiktionary. FEWS has high sense coverage across different natural language domains and provides: (1) a large training set that covers many more senses than previous datasets and (2) a comprehensive evaluation set containing few- and zero-shot examples of a wide variety of senses. We establish baselines on FEWS with knowledge-based and neural WSD approaches and present transfer learning experiments demonstrating that models additionally trained with FEWS better capture rare senses in existing WSD datasets. Finally, we find humans outperform the best baseline models on FEWS, indicating that FEWS will support significant future work on low-shot WSD.
翻訳日:2021-02-17 22:56:55 公開日:2021-02-16
# (参考訳) 事前学習言語モデルを用いた非自己回帰テキスト生成

Non-Autoregressive Text Generation with Pre-trained Language Models ( http://arxiv.org/abs/2102.08220v1 )

ライセンス: CC BY 4.0
Yixuan Su, Deng Cai, Yan Wang, David Vandyke, Simon Baker, Piji Li, Nigel Collier(参考訳) 非自己回帰生成(Non-autoregressive generation、NAG)は、推論速度が速いために最近注目されている。 しかしながら、既存のNAGモデルの生成品質は、自己回帰モデルよりも遅れている。 本研究では, BERTをNAGモデルのバックボーンとして使用することにより, 性能を大幅に向上できることを示す。 さらに,バニラnagモデルの2つの共通問題を緩和するメカニズムを考案する。プレフィックス出力長の非フレキシブル化と個々のトークン予測の条件付き独立性である。 最後に,提案モデルの速度優位性をさらに高めるために,出力長を予め推定可能なアプリケーションに対して,新しい復号化戦略である比優先方式を提案する。 包括的評価のために,提案モデルをテキスト要約,文圧縮,機械翻訳の3つのテキスト生成タスクでテストした。 実験結果から,本モデルが既存の非自己回帰ベースラインを著しく上回り,多くの強力な自己回帰モデルとの競合性能が得られた。 また,提案する各成分の効果を明らかにするために,広範な解析実験を行った。

Non-autoregressive generation (NAG) has recently attracted great attention due to its fast inference speed. However, the generation quality of existing NAG models still lags behind their autoregressive counterparts. In this work, we show that BERT can be employed as the backbone of a NAG model to greatly improve performance. Additionally, we devise mechanisms to alleviate the two common problems of vanilla NAG models: the inflexibility of prefixed output length and the conditional independence of individual token predictions. Lastly, to further increase the speed advantage of the proposed model, we propose a new decoding strategy, ratio-first, for applications where the output lengths can be approximately estimated beforehand. For a comprehensive evaluation, we test the proposed model on three text generation tasks, including text summarization, sentence compression and machine translation. Experimental results show that our model significantly outperforms existing non-autoregressive baselines and achieves competitive performance with many strong autoregressive models. In addition, we also conduct extensive analysis experiments to reveal the effect of each proposed component.
翻訳日:2021-02-17 22:43:18 公開日:2021-02-16
# (参考訳) 最適パスフォレストを用いた情報ランキング

Information Ranking Using Optimum-Path Forest ( http://arxiv.org/abs/2102.07917v1 )

ライセンス: CC BY 4.0
Nathalia Q. Ascen\c{c}\~ao, Luis C. S. Afonso, Danilo Colombo, Luciano Oliveira, Jo\~ao P. Papa(参考訳) ランク付け学習の課題は、主に情報検索、データマイニング、自然言語処理において、その利用と大きな重要性から、機械学習コミュニティによって広く研究されている。 したがって、正確なランク付けとランクへの学習が重要な課題である。 コンテキストベースの情報検索システムは、関連するデータを見つける労力を減らすために非常に重要である。 このようなシステムは、機械学習技術を使って結果を改善することによって進化してきたが、主にユーザーフィードバックに依存している。 情報検索は最適パスフォレスト (opf) に基づく分類器とともに, 異なる作業で取り組まれているが, 課題のランク付けには適用されていない。 したがって、この研究の主な貢献は、最適パスフォレストに基づく分類をそのような文脈で評価することである。 画像検索およびランキングシナリオを考慮して実験を行い、OPFベースのアプローチのパフォーマンスを有名なSVM-Rankペアワイズ技術と距離計算に基づくベースラインと比較した。 実験の結果、計算負荷の点で従来の技術よりも精度と性能が優れていた。

The task of learning to rank has been widely studied by the machine learning community, mainly due to its use and great importance in information retrieval, data mining, and natural language processing. Therefore, ranking accurately and learning to rank are crucial tasks. Context-Based Information Retrieval systems have been of great importance to reduce the effort of finding relevant data. Such systems have evolved by using machine learning techniques to improve their results, but they are mainly dependent on user feedback. Although information retrieval has been addressed in different works along with classifiers based on Optimum-Path Forest (OPF), these have so far not been applied to the learning to rank task. Therefore, the main contribution of this work is to evaluate classifiers based on Optimum-Path Forest, in such a context. Experiments were performed considering the image retrieval and ranking scenarios, and the performance of OPF-based approaches was compared to the well-known SVM-Rank pairwise technique and a baseline based on distance calculation. The experiments showed competitive results concerning precision and outperformed traditional techniques in terms of computational load.
翻訳日:2021-02-17 22:28:48 公開日:2021-02-16
# (参考訳) 深層学習による音楽ハーモニーの生成と多目的進化アルゴリズムの利用

Music Harmony Generation, through Deep Learning and Using a Multi-Objective Evolutionary Algorithm ( http://arxiv.org/abs/2102.07960v1 )

ライセンス: CC BY 4.0
Maryam Majidi and Rahil Mahdian Toroghi(参考訳) 音楽産業に興味を持つ多くの人工知能研究者にとって、自動音楽生成は重要な研究テーマとなっている。 数学と芸術のバランスの取れたコンビネーションであり、A.I.とのコラボレーションによる音楽。 新しい音楽作品の生成プロセスを単純化し、その解釈を具体的レベルまで容易にすることができる。 一方、音楽の芸術的性質とその作曲家の感覚と感情との混ざり合いは、その人工的な生成と数学的モデリングを不可能にします。 実際、客観的な音楽文法と構造を主観的な聴衆満足目標と組み合わせることができる明確な評価尺度は存在しない。 また、オリジナル音楽には様々な要素が含まれており、組み立ては避けられない。 そこで本稿では,3つの特定の目標が生成する音楽の資格を決定するポリフォニック音楽(リズムと調和、あるいは適切な和音)生成のための遺伝的多目的進化最適化アルゴリズムに基づく手法を提案する。 ゴールの1つは音楽の規則と規則であり、他の2つのゴール、例えば音楽の専門家や普通のリスナーのスコアとともに、最も最適な反応を得るために進化のサイクルに適合する。 専門家とリスナーのスコアリングは、Bi-LSTMニューラルネットワークを用いて個別にモデル化され、アルゴリズムの適合機能に組み込まれている。 その結果,提案手法は,聞き手を引き寄せながら文法に従う調和音とともに,所望のスタイルや長さの難易度と快適さを生み出すことができることがわかった。

Automatic music generation has become an epicenter research topic for many scientists in artificial intelligence, who are also interested in the music industry. Being a balanced combination of math and art, music in collaboration with A.I. can simplify the generation process for new musical pieces, and ease the interpretation of it to a tangible level. On the other hand, the artistic nature of music and its mingling with the senses and feelings of the composer makes the artificial generation and mathematical modeling of it infeasible. In fact, there are no clear evaluation measures that can combine the objective music grammar and structure with the subjective audience satisfaction goal. Also, original music contains different elements that it is inevitable to put together. Therefore, in this paper, a method based on a genetic multi-objective evolutionary optimization algorithm for the generation of polyphonic music (melody with rhythm and harmony or appropriate chords) is introduced in which three specific goals determine the qualifications of the music generated. One of the goals is the rules and regulations of music, which, along with the other two goals, including the scores of music experts and ordinary listeners, fits the cycle of evolution to get the most optimal response. The scoring of experts and listeners separately is modeled using a Bi-LSTM neural network and has been incorporated in the fitness function of the algorithm. The results show that the proposed method is able to generate difficult and pleasant pieces with desired styles and lengths, along with harmonic sounds that follow the grammar while attracting the listener, at the same time.
翻訳日:2021-02-17 22:13:46 公開日:2021-02-16
# (参考訳) 高速スパースニューラルトレーニング:N:Mトランスポーザブルマスクを見つけるための確率的で効率的な方法

Accelerated Sparse Neural Training: A Provable and Efficient Method to Find N:M Transposable Masks ( http://arxiv.org/abs/2102.08124v1 )

ライセンス: CC BY 4.0
Itay Hubara, Brian Chmiel, Moshe Island, Ron Banner, Seffi Naor, Daniel Soudry(参考訳) 最近、研究者はN:M$のきめ細かいブロック空間マスクを使用してディープニューラルネットワーク重み(DNN)を刈り取ることを提案した。 このマスクでは、$m$のウェイトのブロックごとに、少なくとも$n$0の値があります。 構造化されていないスパーシリティとは対照的に、$N:M$ きめ細かいブロックスペーシリティは、現在のハードウェアでアクセラレーションを可能にする。 これまでのところ、これは推論段階でのDNN加速に使われていた。 まず,非構造的間隔を持つ事前学習モデルに対して,訓練をほとんど行わずに,N:M$きめ細かいブロック間隔モデルに変換する手法を提案する。 そして, トレーニング段階においてそのような加速を許容するために, 同じマスクを前方・後方の両方に使用可能な, トランスポーザブル粒径のスペーサマスクを提案する。 転置可能なマスクは重み行列とその転置体が同じスパーシティパターンに従うことを保証するので、誤差を後方に渡すのに必要な行列の乗算も促進できる。 提案可能な制約を議論し、マスクの精度と相関するマスク分散(MD)と呼ばれる新しいマスク制約の尺度を考案する。 そこで,最適トランスポーザブルマスクを最小コストのフロー問題とする問題を定式化し,トレーニング中にマスクが動的に変化する場合に使用できる高速線形近似を提案する。 実験では,視覚モデルと言語モデルに対する精度低下を伴わない2倍の速度アップを提案する。 参照実装はhttps://github.com/papers-submission/structured_transposable_masksにある。

Recently, researchers proposed pruning deep neural network weights (DNNs) using an $N:M$ fine-grained block sparsity mask. In this mask, for each block of $M$ weights, we have at least $N$ zeros. In contrast to unstructured sparsity, $N:M$ fine-grained block sparsity allows acceleration in actual modern hardware. So far, this was used for DNN acceleration at the inference phase. First, we suggest a method to convert a pretrained model with unstructured sparsity to a $N:M$ fine-grained block sparsity model, with little to no training. Then, to also allow such acceleration in the training phase, we suggest a novel transposable-fine-grained sparsity mask where the same mask can be used for both forward and backward passes. Our transposable mask ensures that both the weight matrix and its transpose follow the same sparsity pattern; thus the matrix multiplication required for passing the error backward can also be accelerated. We discuss the transposable constraint and devise a new measure for mask constraints, called mask-diversity (MD), which correlates with their expected accuracy. Then, we formulate the problem of finding the optimal transposable mask as a minimum-cost-flow problem and suggest a fast linear approximation that can be used when the masks dynamically change while training. Our experiments suggest 2x speed-up with no accuracy degradation over vision and language models. A reference implementation can be found at https://github.com/papers-submission/structured_transposable_masks.
翻訳日:2021-02-17 22:05:15 公開日:2021-02-16
# (参考訳) Recursive Let を用いた高次表現の公称統一とマッチング

Nominal Unification and Matching of Higher Order Expressions with Recursive Let ( http://arxiv.org/abs/2102.08146v1 )

ライセンス: CC BY-SA 4.0
Manfred Schmidt-Schau{\ss} and Temur Kutsia and Jordi Levy and Mateu Villaret and Yunus Kutz(参考訳) 再帰リートを用いた高階表現の公称統一のための健全で完全なアルゴリズムを記述し、非決定論的多項式時間で実行することを示した。 また,表現に対する名目上のレレックマッチング,DAG,ガベージフリー表現などの特殊化についても検討し,その複雑さを判断する。 最後に、再帰的なlet と atom-variables を持つ高次式に対する名目統一アルゴリズムも提供し、非決定論的多項式時間でも動作することを示す。

A sound and complete algorithm for nominal unification of higher-order expressions with a recursive let is described, and shown to run in nondeterministic polynomial time. We also explore specializations like nominal letrec-matching for expressions, for DAGs, and for garbage-free expressions and determine their complexity. Finally, we also provide a nominal unification algorithm for higher-order expressions with recursive let and atom-variables, where we show that it also runs in nondeterministic polynomial time.
翻訳日:2021-02-17 21:45:59 公開日:2021-02-16
# (参考訳) 群集における群集数と人的局在化のための相互距離変換マップ

Reciprocal Distance Transform Maps for Crowd Counting and People Localization in Dense Crowd ( http://arxiv.org/abs/2102.07925v1 )

ライセンス: CC BY 4.0
Dingkang Liang, Wei Xu, Yingying Zhu, Yu Zhou(参考訳) 本稿では,密集人口数と人的地域化のための新しい地図を提案する。 多くの群集カウント手法は、畳み込みニューラルネットワーク(CNN)を用いて密度マップを回帰し、近年大きな進歩を遂げている。 しかし, これらの回帰に基づく手法は, 1) 密度マップは, 一連のぼやけたガウスブロブから構成される, 2) 密度マップの密度領域に重なる重なりがある,という2つの重要な理由から, それぞれの人物に正確な位置を与えることができないことが多い。 この問題に対処するために,新たにR-DT (Reciprocal Distance Transform) マップを提案する。 密度マップと比較すると、r-dtマップは人口の位置を正確に記述しており、密度の高い地域で近くの頭部が重なり合うことはない。 密度マップをR-DTマップに置き換えることで、クラウドカウントと人々のローカリゼーションを同時にシンプルなネットワークで実現します。 広範にわたる実験により,提案手法が群集数と人的ローカライズタスクにおいて最先端のローカライズベース手法を上回っており,回帰型手法と比較して非常に競争性が高いことが示された。 さらに,提案手法はクロスデータセット検証において優れた一般化性能を実現し,R-DTマップの有効性をさらに検証する。 コードとモデルはhttps://github.com/dk-liang/RDTMで入手できる。

In this paper, we propose a novel map for dense crowd counting and people localization. Most crowd counting methods utilize convolution neural networks (CNN) to regress a density map, achieving significant progress recently. However, these regression-based methods are often unable to provide a precise location for each people, attributed to two crucial reasons: 1) the density map consists of a series of blurry Gaussian blobs, 2) severe overlaps exist in the dense region of the density map. To tackle this issue, we propose a novel Reciprocal Distance Transform (R-DT) map for crowd counting. Compared with the density maps, the R-DT maps accurately describe the people location, without overlap between nearby heads in dense regions. We simultaneously implement crowd counting and people localization with a simple network by replacing density maps with R-DT maps. Extensive experiments demonstrate that the proposed method outperforms state-of-the-art localization-based methods in crowd counting and people localization tasks, achieving very competitive performance compared with the regression-based methods in counting tasks. In addition, the proposed method achieves a good generalization performance under cross dataset validation, which further verifies the effectiveness of the R-DT map. The code and models are available at https://github.com/dk-liang/RDTM.
翻訳日:2021-02-17 21:45:06 公開日:2021-02-16
# (参考訳) 連続的注意と雨図識別による高精度・クリア降雨予報

Accurate and Clear Precipitation Nowcasting with Consecutive Attention and Rain-map Discrimination ( http://arxiv.org/abs/2102.08175v1 )

ライセンス: CC BY 4.0
Ashesh, Buo-Fu Chen, Treng-Shi Huang, Boyo Chen, Chia-Tung Chang, Hsuan-Tien Lin(参考訳) 降雨量予測は気象予報の重要な課題である。 最近の多くの研究は、深層学習技術の助けを借りて、高降雨イベントをより正確に予測することを目的としているが、比較的稀である。 ラリティーはしばしばレアイベントを再重み付けする定式化によって取り扱われる。 このような定式化は、低降雨地域で「青く」予測を行う副作用があり、気象学者にその実用性への信頼を説得することができない。 予測精度を犠牲にすることなく、予測モデルが現実的な雨量マップを生成するように促す識別器を導入することで、信頼の問題を修正します。 さらに,気象学者の要求に応えるために,現在放送されている時間枠を1時間から3時間に延長する。 延長は、異なる時間にわたって連続した注意に基づく。 本稿では,降水流の識別と注意の両方を含む新しい深層学習モデルを提案する。 このモデルは、レーダーデータと実際の雨データの両方を含む、新しく構築されたベンチマークデータセットで検討される。 公開されるこのベンチマークは、提案されたモデルの優位性を確立するだけでなく、今後の降水に関する研究を促進することが期待されています。

Precipitation nowcasting is an important task for weather forecasting. Many recent works aim to predict the high rainfall events more accurately with the help of deep learning techniques, but such events are relatively rare. The rarity is often addressed by formulations that re-weight the rare events. Somehow such a formulation carries a side effect of making "blurry" predictions in low rainfall regions and cannot convince meteorologists to trust its practical usability. We fix the trust issue by introducing a discriminator that encourages the prediction model to generate realistic rain-maps without sacrificing predictive accuracy. Furthermore, we extend the nowcasting time frame from one hour to three hours to further address the needs from meteorologists. The extension is based on consecutive attentions across different hours. We propose a new deep learning model for precipitation nowcasting that includes both the discrimination and attention techniques. The model is examined on a newly-built benchmark dataset that contains both radar data and actual rain data. The benchmark, which will be publicly released, not only establishes the superiority of the proposed model, but also is expected to encourage future research on precipitation nowcasting.
翻訳日:2021-02-17 21:26:56 公開日:2021-02-16
# (参考訳) 連続凸サーロゲートの予測次元における下限の統一

Unifying Lower Bounds on Prediction Dimension of Consistent Convex Surrogates ( http://arxiv.org/abs/2102.08218v1 )

ライセンス: CC BY 4.0
Jessie Finocchiaro and Rafael Frongillo and Bo Waggoner(参考訳) 予測タスクを考えると、一貫性のある凸サーロゲート損失、特に低次元の損失を設計できるかどうかを理解することは、機械学習研究において重要で活発な領域である。 予測タスクは、分類や構造化予測のように目標損失として、または単に、リスク測度の推定のように、データの(条件付き)統計として与えることができる。 これらの2つのシナリオは通常、代理損失を設計および分析するための異なる技術を含む。 我々はこれらの設定をプロパティ・エリシテーションのツールを用いて統一し、予測次元の一般的な下限を与える。 我々の下限は、離散的な予測の場合の既存の結果を厳しくし、以前のキャリブレーションに基づく境界は、主にプロパティ・エリケーションによって回復可能であることを示す。 連続推定では, リスクと不確実性の指標を推定し, 未解決の問題に対処する。

Given a prediction task, understanding when one can and cannot design a consistent convex surrogate loss, particularly a low-dimensional one, is an important and active area of machine learning research. The prediction task may be given as a target loss, as in classification and structured prediction, or simply as a (conditional) statistic of the data, as in risk measure estimation. These two scenarios typically involve different techniques for designing and analyzing surrogate losses. We unify these settings using tools from property elicitation, and give a general lower bound on prediction dimension. Our lower bound tightens existing results in the case of discrete predictions, showing that previous calibration-based bounds can largely be recovered via property elicitation. For continuous estimation, our lower bound resolves on open problem on estimating measures of risk and uncertainty.
翻訳日:2021-02-17 20:37:41 公開日:2021-02-16
# (参考訳) モデルにデータが反応するときの学習方法: 実行的勾配降下

How to Learn when Data Reacts to Your Model: Performative Gradient Descent ( http://arxiv.org/abs/2102.07698v2 )

ライセンス: CC BY 4.0
Zachary Izzo, Lexing Ying, James Zou(参考訳) performanceative distribution shiftは、どのmlモデルがデプロイされるかの選択がデータ分布を変更する設定をキャプチャする。 例えば、ローンで顧客のデフォルトリスクを決定するためにオープンクレジットラインの数を使用する銀行は、顧客が承認される可能性を高めるためにより多くのクレジットラインを開くように誘導する可能性があります。 モデルとデータ分布の相互作用のために、最適なモデルパラメータを見つけることは困難です。 この領域の研究は安定点の発見に焦点を合わせており、最適とはほど遠い。 今回紹介するPerformative gradient descend(PerfGD)は、パフォーマンス的に最適な点に収束する最初のアルゴリズムです。 PerfGDは、モデルの変更がデータ分布にどのように影響するかを明示的にキャプチャし、使いやすいです。 我々は理論と実験で発見を支持している。

Performative distribution shift captures the setting where the choice of which ML model is deployed changes the data distribution. For example, a bank which uses the number of open credit lines to determine a customer's risk of default on a loan may induce customers to open more credit lines in order to improve their chances of being approved. Because of the interactions between the model and data distribution, finding the optimal model parameters is challenging. Works in this area have focused on finding stable points, which can be far from optimal. Here we introduce performative gradient descent (PerfGD), which is the first algorithm which provably converges to the performatively optimal point. PerfGD explicitly captures how changes in the model affects the data distribution and is simple to use. We support our findings with theory and experiments.
翻訳日:2021-02-17 19:57:06 公開日:2021-02-16
# AlphaNet:Alpha-Divergenceによるスーパーネットのトレーニング改善

AlphaNet: Improved Training of Supernet with Alpha-Divergence ( http://arxiv.org/abs/2102.07954v1 )

ライセンス: Link先を確認
Dilin Wang, Chengyue Gong, Meng Li, Qiang Liu, Vikas Chandra(参考訳) 重み共有ニューラルアーキテクチャ検索(nas)は、効率的なニューラルアーキテクチャ設計を自動化する効果的な手法である。 重量共有NASは、サブネットワークとしてすべてのアーキテクチャを組み立て、サブネットワークとスーパーネットを共同トレーニングするスーパーネットを構築します。 重量共有NASの成功は、スーパーネットの知識をサブネットワークに蒸留することに大きく依存している。 しかし、広く使用されている蒸留発散、すなわちKL発散は教師スーパーネットの不確実性を過小評価または過小評価し、サブネットワークのパフォーマンスを低下させる学生サブネットワークにつながる可能性があります。 本研究では,より汎用的なアルファダイバージェンスを用いてスーパーネットトレーニングを改善することを提案する。 アルファダイバージェンスを適応的に選択することにより,教師モデルの不確かさの過大評価や過小評価を同時に防止する。 提案したアルファディバージェンスに基づくスーパーネットトレーニングを、スリムブルニューラルネットワークと重み付けNASの両方に適用し、大幅な改善を示す。 特に,発見されたモデルファミリであるalphanetは,bignas, once-for-all networks, fbnetv3, attentivenasなど,幅広いフロップシステムにおいて,先行技術モデルよりも優れています。 ImageNet Top-1の精度はわずか444 MFLOPで80.0%です。

Weight-sharing neural architecture search (NAS) is an effective technique for automating efficient neural architecture design. Weight-sharing NAS builds a supernet that assembles all the architectures as its sub-networks and jointly trains the supernet with the sub-networks. The success of weight-sharing NAS heavily relies on distilling the knowledge of the supernet to the sub-networks. However, we find that the widely used distillation divergence, i.e., KL divergence, may lead to student sub-networks that over-estimate or under-estimate the uncertainty of the teacher supernet, leading to inferior performance of the sub-networks. In this work, we propose to improve the supernet training with a more generalized alpha-divergence. By adaptively selecting the alpha-divergence, we simultaneously prevent the over-estimation or under-estimation of the uncertainty of the teacher model. We apply the proposed alpha-divergence based supernet training to both slimmable neural networks and weight-sharing NAS, and demonstrate significant improvements. Specifically, our discovered model family, AlphaNet, outperforms prior-art models on a wide range of FLOPs regimes, including BigNAS, Once-for-All networks, FBNetV3, and AttentiveNAS. We achieve ImageNet top-1 accuracy of 80.0% with only 444 MFLOPs.
翻訳日:2021-02-17 15:24:00 公開日:2021-02-16
# GradInit: 安定かつ効率的なトレーニングのためのニューラルネットワークの初期化の学習

GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training ( http://arxiv.org/abs/2102.08098v1 )

ライセンス: Link先を確認
Chen Zhu, Renkun Ni, Zheng Xu, Kezhi Kong, W. Ronny Huang, Tom Goldstein(参考訳) ニューラルネットワークアーキテクチャの変化は、言語モデリングとコンピュータビジョンに大きなブレークスルーをもたらした。 残念なことに、新しいアーキテクチャはしばしば、オプティマイザの安定性を維持するために、ハイパーパラメータ(学習率、ウォームアップスケジュール、運動量係数など)の選択を再考する必要がある。 このオプティマイザ不安定性はしばしばパラメータの初期化が不十分な結果であり、アーキテクチャ固有の初期化スキームによって回避できる。 本稿では,ニューラルネットワークを初期化する自動的かつアーキテクチャに依存しない手法であるgradinitを提案する。 GradInitは単純なヒューリスティックに基づいており、各ネットワーク層の分散はSGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。 この調整は、各パラメータブロックの前にスカラー乗算器変数を導入し、簡単な数値スキームを用いてこれらの変数を最適化する。 GradInitは、多くの畳み込みアーキテクチャの収束とテストのパフォーマンスを、スキップ接続の有無にかかわらず、さらには正規化レイヤなしでも加速する。 また、幅広い学習率と運動量係数で学習率をウォームアップすることなく、機械翻訳のためのオリジナルのPost-LN変換器をトレーニングすることができる。 コードはhttps://github.com/zhuchen03/gradinitで入手できる。

Changes in neural architectures have fostered significant breakthroughs in language modeling and computer vision. Unfortunately, novel architectures often require re-thinking the choice of hyperparameters (e.g., learning rate, warmup schedule, and momentum coefficients) to maintain stability of the optimizer. This optimizer instability is often the result of poor parameter initialization, and can be avoided by architecture-specific initialization schemes. In this paper, we present GradInit, an automated and architecture agnostic method for initializing neural networks. GradInit is based on a simple heuristic; the variance of each network layer is adjusted so that a single step of SGD or Adam results in the smallest possible loss value. This adjustment is done by introducing a scalar multiplier variable in front of each parameter block, and then optimizing these variables using a simple numerical scheme. GradInit accelerates the convergence and test performance of many convolutional architectures, both with or without skip connections, and even without normalization layers. It also enables training the original Post-LN Transformer for machine translation without learning rate warmup under a wide range of learning rates and momentum coefficients. Code is available at https://github.com/zhuchen03/gradinit.
翻訳日:2021-02-17 15:23:36 公開日:2021-02-16
# グラフ埋め込みにおけるメトリックコーンを用いた階層情報強化

Enhancing Hierarchical Information by Using Metric Cones for Graph Embedding ( http://arxiv.org/abs/2102.08014v1 )

ライセンス: Link先を確認
Daisuke Takehara, Kei Kobayashi(参考訳) グラフ埋め込みは、ソーシャルネットワークやナレッジグラフ補完など、さまざまな分野のアプリケーションで重要な方法になりつつある。 特にPoincar\'e埋め込みはグラフの階層構造を捕捉するために提案されており、その効果が報告されている。 しかし、既存の方法の多くは埋め込み空間に等尺写像を持ち、原点の選択は任意である。 この事実は、ポアンカル(poincar\'e)埋め込みの場合のように、原点からの距離を階層の指標として使う場合には望ましくない。 本稿では,このような問題を解決するために,計量円錐にグラフ埋め込みを提案し,さらに利点を得る:1)幾何学的にも直感的にも解釈に自然である階層情報の指標を提供する;2)他の手法のグラフ埋め込み出力から階層構造を抽出し,3)ハイパーパラメータによって埋め込み空間の曲率を変化させる。

Graph embedding is becoming an important method with applications in various areas, including social networks and knowledge graph completion. In particular, Poincar\'e embedding has been proposed to capture the hierarchical structure of graphs, and its effectiveness has been reported. However, most of the existing methods have isometric mappings in the embedding space, and the choice of the origin point can be arbitrary. This fact is not desirable when the distance from the origin is used as an indicator of hierarchy, as in the case of Poincar\'e embedding. In this paper, we propose graph embedding in a metric cone to solve such a problem, and we gain further benefits: 1) we provide an indicator of hierarchical information that is both geometrically and intuitively natural to interpret, 2) we can extract the hierarchical structure from a graph embedding output of other methods by learning additional one-dimensional parameters, and 3) we can change the curvature of the embedding space via a hyperparameter.
翻訳日:2021-02-17 15:22:42 公開日:2021-02-16
# Degree-4の正方形階層からのグラフの厳密な推測

A Thorough View of Exact Inference in Graphs from the Degree-4 Sum-of-Squares Hierarchy ( http://arxiv.org/abs/2102.08019v1 )

ライセンス: Link先を確認
Kevin Bello, Chuyang Ke and Jean Honorio(参考訳) グラフにおける推論の実行は、イメージセグメンテーションやコミュニティ検出など、いくつかの機械学習問題において一般的なタスクである。 与えられた非有向連結グラフに対して、各辺の1つの破損した観測からノードの未知の接地対数ラベルを正確に復元する統計的問題に取り組む。 このような問題はブールハイパーキューブ上の二次組合せ最適化問題として定式化することができ、そこではノード数(例えば、完全グラフ、正規拡大器)に関して増大する等尺数を持つグラフの基底トラストラベルを(高い確率と多項式時間で)正確に復元することができることが以前に示されている。 本研究では,Summit-of-quares(SoS)階層と呼ばれるリラクゼーションの強力な階層を組合せ問題に適用する。 精度回復性の向上に関する実証的証拠に動機付けられ,我々は次数4のSoS緩和に注意を集中させ,その起源をグラフ理論の観点から理解しようとした。 緩和された問題の双対解はジョンソングラフとクネーサーグラフの辺重みを求めることに関係しており、そこでは重みがSoSの制約を満たし、入力グラフが代数的接続性を高めることを直感的に許容する。 最後に、我々の分析の副産物として、符号付き辺重みを持つグラフの代数的接続に対するチェーガー型下界を新たに導き出す。

Performing inference in graphs is a common task within several machine learning problems, e.g., image segmentation, community detection, among others. For a given undirected connected graph, we tackle the statistical problem of exactly recovering an unknown ground-truth binary labeling of the nodes from a single corrupted observation of each edge. Such problem can be formulated as a quadratic combinatorial optimization problem over the boolean hypercube, where it has been shown before that one can (with high probability and in polynomial time) exactly recover the ground-truth labeling of graphs that have an isoperimetric number that grows with respect to the number of nodes (e.g., complete graphs, regular expanders). In this work, we apply a powerful hierarchy of relaxations, known as the sum-of-squares (SoS) hierarchy, to the combinatorial problem. Motivated by empirical evidence on the improvement in exact recoverability, we center our attention on the degree-4 SoS relaxation and set out to understand the origin of such improvement from a graph theoretical perspective. We show that the solution of the dual of the relaxed problem is related to finding edge weights of the Johnson and Kneser graphs, where the weights fulfill the SoS constraints and intuitively allow the input graph to increase its algebraic connectivity. Finally, as byproduct of our analysis, we derive a novel Cheeger-type lower bound for the algebraic connectivity of graphs with signed edge weights.
翻訳日:2021-02-17 15:22:25 公開日:2021-02-16
# スケーラブルなサブスペースクラスタリングのための構造化グラフ学習:シングルビューからマルチビューへ

Structured Graph Learning for Scalable Subspace Clustering: From Single-view to Multi-view ( http://arxiv.org/abs/2102.07943v1 )

ライセンス: Link先を確認
Zhao Kang, Zhiping Lin, Xiaofeng Zhu, Wenbo Xu(参考訳) グラフベースのサブスペースクラスタリング手法は有望な性能を示した。 コストのかかる時間のオーバーヘッドに遭遇し、明示的なクラスタの探索に失敗し、見えないデータポイントに一般化することはできません。 本研究では,上記3つの課題を同時に解決する,スケーラブルなグラフ学習フレームワークを提案する。 具体的には、アンカー点と二部グラフの考えに基づいている。 n$がサンプル数である$n\times n$グラフを構築するのではなく、サンプルとアンカーポイントの関係を記述するために二部グラフを構築します。 一方、接続制約は、接続されたコンポーネントがクラスタを直接示すことを保証するために使用される。 さらに,本手法とK平均クラスタリングの関連性を確立する。 さらに、$n$に対して線形スケールされたマルチビューデータを処理するモデルも提案されている。 多くの最先端クラスタリング手法に対して,本手法の有効性と有効性を示す実験を行った。

Graph-based subspace clustering methods have exhibited promising performance. However, they still suffer some of these drawbacks: encounter the expensive time overhead, fail in exploring the explicit clusters, and cannot generalize to unseen data points. In this work, we propose a scalable graph learning framework, seeking to address the above three challenges simultaneously. Specifically, it is based on the ideas of anchor points and bipartite graph. Rather than building a $n\times n$ graph, where $n$ is the number of samples, we construct a bipartite graph to depict the relationship between samples and anchor points. Meanwhile, a connectivity constraint is employed to ensure that the connected components indicate clusters directly. We further establish the connection between our method and the K-means clustering. Moreover, a model to process multi-view data is also proposed, which is linear scaled with respect to $n$. Extensive experiments demonstrate the efficiency and effectiveness of our approach with respect to many state-of-the-art clustering methods.
翻訳日:2021-02-17 15:21:59 公開日:2021-02-16
# 新型コロナウイルスの分類のための深層移動学習の促進

Boosting Deep Transfer Learning for COVID-19 Classification ( http://arxiv.org/abs/2102.08085v1 )

ライセンス: Link先を確認
Fouzia Altaf, Syed M.S. Islam, Naeem K. Janjua, Naveed Akhtar(参考訳) 胸部CTを用いた新型コロナウイルスの分類はいくつかの研究で実用的に有用であることが確認されている。 注釈付きサンプルがないため、これらの研究は転送学習を推奨し、事前学習されたモデルとデータ拡張の選択を探求する。 しかし、限られたCTデータでより正確な新型コロナウイルス分類のためのバニラ転送学習よりも優れた戦略があるかどうかはまだ不明です。 本論文では,タスクに対する学習の伝達に大幅なパフォーマンス向上を可能にする新しい'モデル'増強手法を考案し,肯定的回答を提供する。 本手法は、ソースとターゲットドメイン間の分布シフトを体系的に低減し、補完表現学習技術による深層学習の強化を検討する。 提案手法の有効性を,従来の研究におけるコントラスト観測と合わせて,利用可能なデータセットとモデルを用いて確立する。

COVID-19 classification using chest Computed Tomography (CT) has been found pragmatically useful by several studies. Due to the lack of annotated samples, these studies recommend transfer learning and explore the choices of pre-trained models and data augmentation. However, it is still unknown if there are better strategies than vanilla transfer learning for more accurate COVID-19 classification with limited CT data. This paper provides an affirmative answer, devising a novel `model' augmentation technique that allows a considerable performance boost to transfer learning for the task. Our method systematically reduces the distributional shift between the source and target domains and considers augmenting deep learning with complementary representation learning techniques. We establish the efficacy of our method with publicly available datasets and models, along with identifying contrasting observations in the previous studies.
翻訳日:2021-02-17 15:21:44 公開日:2021-02-16
# 接地言語によるPick-and-Placeタスクの合成

Composing Pick-and-Place Tasks By Grounding Language ( http://arxiv.org/abs/2102.08094v1 )

ライセンス: Link先を確認
Oier Mees, Wolfram Burgard(参考訳) 自然言語でタスクを実行するロボットを制御することは、人間とロボットの相互作用において最も難しいトピックの1つだ。 本研究では,制約のない言語命令に従って任意の物体を選択・配置し,対話による曖昧さを効果的に解消するロボットシステムを提案する。 提案手法は,入力画像と言語表現からオブジェクトとその関係を推定し,ユーザが表現する空間的関係に応じてオブジェクトを配置する。 従来のアプローチとは異なり、我々はピッキングだけでなく、日常的なオブジェクトを言語から配置するための基盤も検討している。 具体的には、オブジェクトとその空間関係をグラウンド化することで、複雑な配置命令を指定できる。 「中央の赤いボウルの後ろに置きなさい。」 実世界のpr2ロボットを用いて得られた結果は,ピック・アンド・プレース言語命令の理解と逐次構成におけるテーブルトップ操作課題の解法の有効性を示す。 ビデオはhttp://speechrobot.cs.uni-freiburg.deで閲覧できる。

Controlling robots to perform tasks via natural language is one of the most challenging topics in human-robot interaction. In this work, we present a robot system that follows unconstrained language instructions to pick and place arbitrary objects and effectively resolves ambiguities through dialogues. Our approach infers objects and their relationships from input images and language expressions and can place objects in accordance with the spatial relations expressed by the user. Unlike previous approaches, we consider grounding not only for the picking but also for the placement of everyday objects from language. Specifically, by grounding objects and their spatial relations, we allow specification of complex placement instructions, e.g. "place it behind the middle red bowl". Our results obtained using a real-world PR2 robot demonstrate the effectiveness of our method in understanding pick-and-place language instructions and sequentially composing them to solve tabletop manipulation tasks. Videos are available at http://speechrobot.cs.uni-freiburg.de
翻訳日:2021-02-17 15:21:30 公開日:2021-02-16
# 逆コントラスト損失を用いた学習不変表現

Learning Invariant Representations using Inverse Contrastive Loss ( http://arxiv.org/abs/2102.08343v1 )

ライセンス: Link先を確認
Aditya Kumar Akash, Vishnu Suresh Lokhande, Sathya N. Ravi, Vikas Singh(参考訳) 不変表現の学習は多くの機械学習タスクにおいて重要な第一歩である。 共通のアプローチは、相互情報のアプリケーション依存関数を慎重に選択して最適化するいわゆる情報ボトルネック原則に対応します。 残念ながら、これらの関数はモデルのパラメータの計量構造に依存しないため、実際には最適化目的には適さない。 本研究では,ある興味のある変数に不変な学習表現に対する損失のクラスを導入し,コントラスト損失のクラス,すなわち逆コントラスト損失(ICL)を逆転する。 外部変数がバイナリである場合、iclの最適化は正規化mmd分岐の最適化と同値であることを示す。 より一般的には、サンプル空間上のメトリックが与えられた場合、ICLの定式化は与えられた距離メトリックの凸関数の合計に分解することができることも示します。 実験の結果, iclの最適化により得られたモデルは, 所望の精度で, 外部変数に対する不均一性が有意に向上することがわかった。 実験では,連続変数と離散変数の両方に対する不変表現を学習するためのiclの適用性を示す。

Learning invariant representations is a critical first step in a number of machine learning tasks. A common approach corresponds to the so-called information bottleneck principle in which an application dependent function of mutual information is carefully chosen and optimized. Unfortunately, in practice, these functions are not suitable for optimization purposes since these losses are agnostic of the metric structure of the parameters of the model. We introduce a class of losses for learning representations that are invariant to some extraneous variable of interest by inverting the class of contrastive losses, i.e., inverse contrastive loss (ICL). We show that if the extraneous variable is binary, then optimizing ICL is equivalent to optimizing a regularized MMD divergence. More generally, we also show that if we are provided a metric on the sample space, our formulation of ICL can be decomposed into a sum of convex functions of the given distance metric. Our experimental results indicate that models obtained by optimizing ICL achieve significantly better invariance to the extraneous variable for a fixed desired level of accuracy. In a variety of experimental settings, we show applicability of ICL for learning invariant representations for both continuous and discrete extraneous variables.
翻訳日:2021-02-17 15:21:14 公開日:2021-02-16
# 眼疾患知的認識のベンチマーク : マルチディセーゼ検出のためのワンショット

A Benchmark of Ocular Disease Intelligent Recognition: One Shot for Multi-disease Detection ( http://arxiv.org/abs/2102.07978v1 )

ライセンス: Link先を確認
Ning Li, Tao Li, Chunyu Hu, Kai Wang, Hong Kang(参考訳) 眼科領域では、早期眼底スクリーニングは眼疾患による盲目を防ぐ経済的かつ効果的な方法である。 臨床的に、医療資源の不足のため、手動診断は時間がかかり、症状を遅らせる可能性がある。 深層学習の発達により、眼科疾患に関するいくつかの研究は良好な結果を得たが、そのほとんどは1つの疾患に基づいている。 眼底検診中,眼科医は通常,双眼底画像上でマルチダイセーゼの診断を行うため,5,000例の両眼からの1万枚の眼底画像を含む8つの疾患のデータセットを公開する。 最新のディープニューラルネットワークを通じてベンチマーク実験を行いました。 ネットワークの規模を増大させるだけでは、マルチディスリーズ分類に良い結果が得られず、マルチディスリーズの特徴を組み合わさった特徴融合法が必要とされる。 本研究を通じて,関連分野の研究を進めていきたい。

In ophthalmology, early fundus screening is an economic and effective way to prevent blindness caused by ophthalmic diseases. Clinically, due to the lack of medical resources, manual diagnosis is time-consuming and may delay the condition. With the development of deep learning, some researches on ophthalmic diseases have achieved good results, however, most of them are just based on one disease. During fundus screening, ophthalmologists usually give diagnoses of multi-disease on binocular fundus image, so we release a dataset with 8 diseases to meet the real medical scene, which contains 10,000 fundus images from both eyes of 5,000 patients. We did some benchmark experiments on it through some state-of-the-art deep neural networks. We found simply increasing the scale of network cannot bring good results for multi-disease classification, and a well-structured feature fusion method combines characteristics of multi-disease is needed. Through this work, we hope to advance the research of related fields.
翻訳日:2021-02-17 15:20:56 公開日:2021-02-16
# transfuse: 医療用画像分割のためのトランスフォーマーとcnn

TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation ( http://arxiv.org/abs/2102.08005v1 )

ライセンス: Link先を確認
Yundong Zhang, Huiye Liu, and Qiang Hu(参考訳) 深い特徴表現とスキップ接続を備えたu-netベースの畳み込みニューラルネットワークは、医療画像のセグメンテーション性能を著しく向上させた。 本稿では,低レベル詳細の局所化能力を失うことなく,グローバルコンテキストのモデリングにおける効率向上の課題について検討する。 TransFuse、並列スタイルでトランスフォーマーとCNNを組み合わせた新しい2ブランチアーキテクチャが提案されています。 TransFuseでは、グローバル依存性と低レベルの空間詳細の両方を、はるかに浅い方法で効率的にキャプチャできます。 さらに、各ブランチからマルチレベル機能を融合するために、新しい融合技術であるBiFusionモジュールが提案されている。 TransFuseは、約98.7 FPSで20\%のパラメータと最速の推論速度で、最新のPolypセグメンテーションタスクを実現します。

U-Net based convolutional neural networks with deep feature representation and skip-connections have significantly boosted the performance of medical image segmentation. In this paper, we study the more challenging problem of improving efficiency in modeling global contexts without losing localization ability for low-level details. TransFuse, a novel two-branch architecture is proposed, which combines Transformers and CNNs in a parallel style. With TransFuse, both global dependency and low-level spatial details can be efficiently captured in a much shallower manner. Besides, a novel fusion technique - BiFusion module is proposed to fuse the multi-level features from each branch. TransFuse achieves the newest state-of-the-arts on polyp segmentation task, with 20\% fewer parameters and the fastest inference speed at about 98.7 FPS.
翻訳日:2021-02-17 15:20:41 公開日:2021-02-16
# マイクロ表現認識のための方向の異なる移動特性の比較研究

A comparative study on movement feature in different directions for micro-expression recognition ( http://arxiv.org/abs/2102.08068v1 )

ライセンス: Link先を確認
Jinsheng Wei, Guanming Lu, Jingjie Yan(参考訳) マイクロ表現は人々の本当の感情を反映します。 マイクロ表現の認識は、小さな動きであり、短時間であるため困難です。 マイクロ表現認識の研究が深まる中、多くの有効な特徴や手法が提案されています。 本論文では,3種類の水平方向,垂直方向,斜め方向の3つの動きを含む18の方向を選択し,この話題を研究するためにHistogram of Single Direction Gradient(HSDG)と呼ばれる新しい低次元の特徴を提案する。 本稿では,各方向のHSDGをLPP-TOPと結合して単一方向勾配 (LBP-SDG) のLPPを取得し,マイクロ圧縮認識においてどの方向の運動特徴がより識別的か分析する。 既存の作業と同様に、Euler Video Magnification(EVM)が前処理のステップとして採用されている。 CASME II および SMIC-HS データベースにおける実験は,有効かつ最適な方向を要約し,最適方向の HSDG が識別可能であることを示す。

Micro-expression can reflect people's real emotions. Recognizing micro-expressions is difficult because they are small motions and have a short duration. As the research is deepening into micro-expression recognition, many effective features and methods have been proposed. To determine which direction of movement feature is easier for distinguishing micro-expressions, this paper selects 18 directions (including three types of horizontal, vertical and oblique movements) and proposes a new low-dimensional feature called the Histogram of Single Direction Gradient (HSDG) to study this topic. In this paper, HSDG in every direction is concatenated with LBP-TOP to obtain the LBP with Single Direction Gradient (LBP-SDG) and analyze which direction of movement feature is more discriminative for micro-expression recognition. As with some existing work, Euler Video Magnification (EVM) is employed as a preprocessing step. The experiments on the CASME II and SMIC-HS databases summarize the effective and optimal directions and demonstrate that HSDG in an optimal direction is discriminative, and the corresponding LBP-SDG achieves state-of-the-art performance using EVM.
翻訳日:2021-02-17 15:20:28 公開日:2021-02-16
# 大規模知識蒸留を用いた階層型変圧器を用いた大コンテキストエンドツーエンドASR

Hierarchical Transformer-based Large-Context End-to-end ASR with Large-Context Knowledge Distillation ( http://arxiv.org/abs/2102.07935v1 )

ライセンス: Link先を確認
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi(参考訳) 本稿では,知識蒸留に基づく新しい大規模コンテキストエンドツーエンド自動音声認識(E2E-ASR)モデルとその効果的な訓練方法を提案する。 一般的なE2E-ASRモデルは、各発話が独立に書き起こされる発話レベル処理に主に焦点を当てている。 一方、発話境界を超えた長距離連続文脈を考慮した大コンテキストE2E-ASRモデルは、談話や会話のような発話のシーケンスをうまく処理する。 しかし、最近発話レベルASRシステム間で最先端のASR性能を達成したトランスアーキテクチャは、まだ大きなコンテキストASRシステムに導入されていません。 トランザクタアーキテクチャは、入力音声コンテキストだけでなく、発話境界を超えた長距離シーケンシャルコンテキストを効果的に捉えるために活用できると期待できる。 そこで本稿では,トランスアーキテクチャと階層エンコーダデコーダを用いた大規模コンテキストモデリングを組み合わせた階層型トランスフォーマーベースの大コンテキストE2E-ASRモデルを提案する。 また,提案モデルが長距離連続文脈を利用できるようにするために,学習段階における学習済みの大規模文脈言語モデルから知識を抽出する大規模コンテキスト知識蒸留法を提案する。 日本語対話型ASRタスクに対する提案モデルの有効性と提案手法の評価を行った。

We present a novel large-context end-to-end automatic speech recognition (E2E-ASR) model and its effective training method based on knowledge distillation. Common E2E-ASR models have mainly focused on utterance-level processing in which each utterance is independently transcribed. On the other hand, large-context E2E-ASR models, which take into account long-range sequential contexts beyond utterance boundaries, well handle a sequence of utterances such as discourses and conversations. However, the transformer architecture, which has recently achieved state-of-the-art ASR performance among utterance-level ASR systems, has not yet been introduced into the large-context ASR systems. We can expect that the transformer architecture can be leveraged for effectively capturing not only input speech contexts but also long-range sequential contexts beyond utterance boundaries. Therefore, this paper proposes a hierarchical transformer-based large-context E2E-ASR model that combines the transformer architecture with hierarchical encoder-decoder based large-context modeling. In addition, in order to enable the proposed model to use long-range sequential contexts, we also propose a large-context knowledge distillation that distills the knowledge from a pre-trained large-context language model in the training phase. We evaluate the effectiveness of the proposed model and proposed training method on Japanese discourse ASR tasks.
翻訳日:2021-02-17 15:20:07 公開日:2021-02-16
# 自然言語生成におけるトランスフォーマーの探索 - GPT, BERT, XLNet

Exploring Transformers in Natural Language Generation: GPT, BERT, and XLNet ( http://arxiv.org/abs/2102.08036v1 )

ライセンス: Link先を確認
M. Onat Topal, Anil Bas, Imke van Heerden(参考訳) 近年、注意メカニズムの急増と自然言語生成(NLG)におけるトランスフォーマーの台頭が見られます。 従来, RNN や LSTM といった最先端の NLG アーキテクチャは, 文が大きくなるにつれて, 位置間の距離が線形であり, 文が単語によって処理されるため, 並列化を妨げていた。 トランスフォーマーは新しい時代を迎えます。 本稿では、GPT、BERT、XLNetという3つの主要なトランスフォーマーベースのモデルについて検討する。 NLGは急成長する地域であり、注目のメカニズムが急速に発達している。 詩の生成から要約まで、テキスト生成はトランスフォーマーベースの言語モデルが画期的な結果をもたらすため、利益をもたらす。

Recent years have seen a proliferation of attention mechanisms and the rise of Transformers in Natural Language Generation (NLG). Previously, state-of-the-art NLG architectures such as RNN and LSTM ran into vanishing gradient problems; as sentences grew larger, distance between positions remained linear, and sequential computation hindered parallelization since sentences were processed word by word. Transformers usher in a new era. In this paper, we explore three major Transformer-based models, namely GPT, BERT, and XLNet, that carry significant implications for the field. NLG is a burgeoning area that is now bolstered with rapid developments in attention mechanisms. From poetry generation to summarization, text generation derives benefit as Transformer-based language models achieve groundbreaking results.
翻訳日:2021-02-17 15:19:44 公開日:2021-02-16
# 大規模コンテキスト会話表現学習:会話文書の自己監督学習

Large-Context Conversational Representation Learning: Self-Supervised Learning for Conversational Documents ( http://arxiv.org/abs/2102.08147v1 )

ライセンス: Link先を確認
Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Shota Orihashi(参考訳) 本稿では,人間間会話の書き起こしテキストからなる会話文書を扱うための,新しい自己教師付き学習手法を提案する。 会話文書を理解するための重要な技術の1つは、発話レベルのシーケンシャルラベリングであり、そこでは文書からラベルを発話ごとに推定する。 発話レベルのシーケンシャルラベリングの主な問題は、手動アノテーションが非常に高価であるため、ラベル付き会話文書の収集が困難である。 そこで本研究では,対話文書に特化した自己監督型学習手法である大規模会話表現学習(LC-CRL)を提案する。 LC-CRLにおける自己監督学習タスクは、大文脈言語モデリングに基づく周囲のすべての発話を用いた発話の推定を含む。 このように、LC-CRLはラベルのない会話文書を効果的に活用し、発話レベルのシーケンシャルラベリングを強化します。 コンタクトセンター会話データセットを用いたシーンセグメンテーションタスクの実験の結果,提案手法の有効性が示された。

This paper presents a novel self-supervised learning method for handling conversational documents consisting of transcribed text of human-to-human conversations. One of the key technologies for understanding conversational documents is utterance-level sequential labeling, where labels are estimated from the documents in an utterance-by-utterance manner. The main issue with utterance-level sequential labeling is the difficulty of collecting labeled conversational documents, as manual annotations are very costly. To deal with this issue, we propose large-context conversational representation learning (LC-CRL), a self-supervised learning method specialized for conversational documents. A self-supervised learning task in LC-CRL involves the estimation of an utterance using all the surrounding utterances based on large-context language modeling. In this way, LC-CRL enables us to effectively utilize unlabeled conversational documents and thereby enhances the utterance-level sequential labeling. The results of experiments on scene segmentation tasks using contact center conversational datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-02-17 15:19:29 公開日:2021-02-16
# 深層相互学習によるエンドツーエンド自動音声認識

End-to-End Automatic Speech Recognition with Deep Mutual Learning ( http://arxiv.org/abs/2102.08154v1 )

ライセンス: Link先を確認
Ryo Masumura, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Takanori Ashihara(参考訳) 本論文は,エンドツーエンドのASRモデルに深層相互学習(DML)を適用した最初の研究である。 DMLでは、トレーニングプロセスを通してお互いを模倣することにより、複数のモデルが同時に共同でトレーニングされるため、グローバルな最適を達成し、モデルが過剰な予測を下すのを防ぐのに役立ちます。 従来の研究では、DMLを単純な多クラス分類問題に適用していたが、より複雑なシーケンス対シーケンスマッピング問題に利用した研究はない。 そこで本稿では,DMLを最先端のTransformerベースのエンドツーエンドASRモデルに適用する手法を提案する。 特に,DMLと最近の代表訓練技術を組み合わせることを提案する。 ラベルスムーシング、スケジュールサンプリング、仕様化は、いずれも強力なエンドツーエンドasrモデルに不可欠なものである。 DMLには相補的な特徴があるので,これらのトレーニング手法がDMLとうまく連携することを期待している。 大規模モデリングとコンパクトモデリングの2つのasrタスクについて実験を行った。 我々は,DMLが知識蒸留を含む従来の学習手法と比較して,両方のモデリング装置のASR性能を向上させることを示した。 また,既存のトレーニング手法とDMLを組み合わせることで,ASRの性能が向上することを示す。

This paper is the first study to apply deep mutual learning (DML) to end-to-end ASR models. In DML, multiple models are trained simultaneously and collaboratively by mimicking each other throughout the training process, which helps to attain the global optimum and prevent models from making over-confident predictions. While previous studies applied DML to simple multi-class classification problems, there are no studies that have used it on more complex sequence-to-sequence mapping problems. For this reason, this paper presents a method to apply DML to state-of-the-art Transformer-based end-to-end ASR models. In particular, we propose to combine DML with recent representative training techniques. i.e., label smoothing, scheduled sampling, and SpecAugment, each of which are essential for powerful end-to-end ASR models. We expect that these training techniques work well with DML because DML has complementary characteristics. We experimented with two setups for Japanese ASR tasks: large-scale modeling and compact modeling. We demonstrate that DML improves the ASR performance of both modeling setups compared with conventional learning methods including knowledge distillation. We also show that combining DML with the existing training techniques effectively improves ASR performance.
翻訳日:2021-02-17 15:19:13 公開日:2021-02-16
# 多言語表現の学習における言語符号化の見直し

Revisiting Language Encoding in Learning Multilingual Representations ( http://arxiv.org/abs/2102.08357v1 )

ライセンス: Link先を確認
Shengjie Luo, Kaiyuan Gao, Shuxin Zheng, Guolin Ke, Di He, Liwei Wang, Tie-Yan Liu(参考訳) Transformerは、複数の言語に対する文脈表現を単一のモデルで学習する大きな力を示した。 モデルで多言語文を処理するために、学習可能なベクトルは通常各言語に割り当てられ、これは「言語埋め込み」と呼ばれる。 言語の埋め込みは、単語の埋め込みに追加するか、文の先頭に添付することができる。 これは、トランスフォーマーが言語間のコンテキスト表現をキャプチャする言語固有の信号として機能する。 本稿では,言語組込みの利用を再検討し,既存の定式化における諸問題を明らかにする。 自己認識モジュールにおける言語埋め込みと単語埋め込みの相互作用を調べた結果,現在の手法は言語固有の単語相関をよく反映できないことがわかった。 そこで本研究では,XLP(Cross-lingual Language Projection)と呼ばれる言語埋め込みを置き換える手法を提案する。 文の場合、XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに入力され、言語固有の意味で処理されます。 このようにして、XLPは多言語トランスフォーマーモデルで「言語」を適切に符号化する目的を達成する。 実験結果は、XLPが広範囲の多言語ベンチマークデータセットでモデルのパフォーマンスを自由かつ有意に向上できることを示しています。 コードとモデルはhttps://github.com/lsj2408/XLPでリリースされる。

Transformer has demonstrated its great power to learn contextual word representations for multiple languages in a single model. To process multilingual sentences in the model, a learnable vector is usually assigned to each language, which is called "language embedding". The language embedding can be either added to the word embedding or attached at the beginning of the sentence. It serves as a language-specific signal for the Transformer to capture contextual representations across languages. In this paper, we revisit the use of language embedding and identify several problems in the existing formulations. By investigating the interaction between language embedding and word embedding in the self-attention module, we find that the current methods cannot reflect the language-specific word correlation well. Given these findings, we propose a new approach called Cross-lingual Language Projection (XLP) to replace language embedding. For a sentence, XLP projects the word embeddings into language-specific semantic space, and then the projected embeddings will be fed into the Transformer model to process with their language-specific meanings. In such a way, XLP achieves the purpose of appropriately encoding "language" in a multilingual Transformer model. Experimental results show that XLP can freely and significantly boost the model performance on extensive multilingual benchmark datasets. Codes and models will be released at https://github.com/lsj2408/XLP.
翻訳日:2021-02-17 15:18:56 公開日:2021-02-16
# 表現学習のための積層型デノイングオートエンコーダの訓練

Training Stacked Denoising Autoencoders for Representation Learning ( http://arxiv.org/abs/2102.08012v1 )

ライセンス: Link先を確認
Jason Liang, Keith Kelly(参考訳) 高次元データの強力な表現を学習できるニューラルネットワークのクラスである自動エンコーダのスタック化処理を実装します。 自動エンコーダの教師なしトレーニングのための確率勾配降下法と、勾配情報を利用した遺伝的アルゴリズムに基づく新しいアプローチについて述べる。 標準画像分類データセットでトレーニングされたときの最適化アルゴリズムとオートエンコーダの表現学習能力の両方のパフォーマンスを分析します。

We implement stacked denoising autoencoders, a class of neural networks that are capable of learning powerful representations of high dimensional data. We describe stochastic gradient descent for unsupervised training of autoencoders, as well as a novel genetic algorithm based approach that makes use of gradient information. We analyze the performance of both optimization algorithms and also the representation learning ability of the autoencoder when it is trained on standard image classification datasets.
翻訳日:2021-02-17 15:18:34 公開日:2021-02-16
# ハンガリーにおけるチキンポックス症例:グラフニューラルネットワークを用いた時空間信号処理のためのベンチマークデータセット

Chickenpox Cases in Hungary: a Benchmark Dataset for Spatiotemporal Signal Processing with Graph Neural Networks ( http://arxiv.org/abs/2102.08100v1 )

ライセンス: Link先を確認
Benedek Rozemberczki and Paul Scherer and Oliver Kiss and Rik Sarkar and Tamas Ferenci(参考訳) リカレントグラフ畳み込みニューラルネットワークは時空間信号処理に非常に効果的な機械学習技術である。 新たに提案されたグラフニューラルネットワークアーキテクチャは、トラフィックや天気予報などの標準タスクで繰り返し評価される。 本稿では,グラフニューラルネットワークアーキテクチャを比較するための新たなデータセットとして,ハンガリーのChickenpox Casesを提案する。 ハンガリーにおけるChickenpox Casesの時系列解析と予測実験により,新しいグラフニューラルネットワークアーキテクチャの予測性能と予測能力を比較するのに十分であることが示された。

Recurrent graph convolutional neural networks are highly effective machine learning techniques for spatiotemporal signal processing. Newly proposed graph neural network architectures are repetitively evaluated on standard tasks such as traffic or weather forecasting. In this paper, we propose the Chickenpox Cases in Hungary dataset as a new dataset for comparing graph neural network architectures. Our time series analysis and forecasting experiments demonstrate that the Chickenpox Cases in Hungary dataset is adequate for comparing the predictive performance and forecasting capabilities of novel recurrent graph neural network architectures.
翻訳日:2021-02-17 15:18:28 公開日:2021-02-16
# 分散構造ドロップアウトによる深層ニューラルネットワークのベイズ推論の改善

Improving Bayesian Inference in Deep Neural Networks with Variational Structured Dropout ( http://arxiv.org/abs/2102.07927v1 )

ライセンス: Link先を確認
Son Nguyen and Duong Nguyen and Khai Nguyen and Nhat Ho and Khoat Than and Hung Bui(参考訳) ディープベイズネットワークにおける近似推論は、計算効率とスケーラビリティを保ちながら、高忠実度後部近似を得る方法のジレンマを示す。 ベイズ確率モデルにおける近似推論としてのドロップアウトトレーニングの解釈に触発された新しい変分構造近似を導入することで,この課題に取り組む。 具体的には, 実後方の重量パラメータ間の相関が不十分な投下後方の因子化構造の制約に着目し, この制限を克服するために, 変分構造化投下(vsd)と呼ばれる新しい手法を提案する。 vsdは直交変換を用い、変分ドロップアウトノイズの構造化表現を学習し、その結果、近似後方の統計的依存関係を誘導する。 さらに、ベイジアンネットワークにおける関節推論に対応する階層的なドロップアウト手順を提案することにより、VSDの表現的ベイジアンモデルを得る。 さらに,VSDを最近の深層畳み込みネットワークに,計算コストの低い直接的にスケールアップすることができる。 最後に, 予測精度と不確実性評価の両面において, 最先端手法に対するVSDの有効性を示すために, 標準ベンチマークの広範な実験を行った。

Approximate inference in deep Bayesian networks exhibits a dilemma of how to yield high fidelity posterior approximations while maintaining computational efficiency and scalability. We tackle this challenge by introducing a new variational structured approximation inspired by the interpretation of Dropout training as approximate inference in Bayesian probabilistic models. Concretely, we focus on restrictions of the factorized structure of Dropout posterior which is inflexible to capture rich correlations among weight parameters of the true posterior, and we then propose a novel method called Variational Structured Dropout (VSD) to overcome this limitation. VSD employs an orthogonal transformation to learn a structured representation on the variational Dropout noise and consequently induces statistical dependencies in the approximate posterior. We further gain expressive Bayesian modeling for VSD via proposing a hierarchical Dropout procedure that corresponds to the joint inference in a Bayesian network. Moreover, we can scale up VSD to modern deep convolutional networks in a direct way with a low computational cost. Finally, we conduct extensive experiments on standard benchmarks to demonstrate the effectiveness of VSD over state-of-the-art methods on both predictive accuracy and uncertainty estimation.
翻訳日:2021-02-17 15:17:35 公開日:2021-02-16
# 形式的保証付き連続設定における逆強化学習

Inverse Reinforcement Learning in the Continuous Setting with Formal Guarantees ( http://arxiv.org/abs/2102.07937v1 )

ライセンス: Link先を確認
Gregory Dexter, Kevin Bello, and Jean Honorio(参考訳) 逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。 IRLは、報酬関数が手動で指定するのが困難な状況における自動制御に有用であり、強化学習を妨げる。 正規関数の基底を用いたシステムモデリングにより、未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提案する。 アルゴリズムのサンプルおよび時間的複雑さに対する正当性および形式的保証の証明を提供する。

Inverse Reinforcement Learning (IRL) is the problem of finding a reward function which describes observed/known expert behavior. IRL is useful for automated control in situations where the reward function is difficult to specify manually, which impedes reinforcement learning. We provide a new IRL algorithm for the continuous state space setting with unknown transition dynamics by modeling the system using a basis of orthonormal functions. We provide a proof of correctness and formal guarantees on the sample and time complexity of our algorithm.
翻訳日:2021-02-17 15:17:17 公開日:2021-02-16
# 重み付きニューラルネットワークにおけるロバストネスの法則

A Law of Robustness for Weight-bounded Neural Networks ( http://arxiv.org/abs/2102.08093v1 )

ライセンス: Link先を確認
Hisham Husain, Borja Balle(参考訳) 敵の摂動に対するディープニューラルネットワークのロバスト性は、このような脆弱性の浸透性を示す最近の発見に動機づけられている。 ニューラルネットワークモデルの堅牢性を特徴付ける方法の1つは、堅牢性証明書を形成するLipschitz定数である。 質問すべき自然な質問は、固定モデルクラス(ニューラルネットワークなど)とサイズ$n$のデータセットに対して、データセットに適合するすべてのモデルの中で最小の達成可能なLipschitz定数は何ですか? 最近 (bubeck et al., 2020) は、k$ニューロンを持つ2層ネットワークを用いてジェネリックデータセットに適合する場合、最小のリプシッツ定数は$\omega(\sqrt{\frac{n}{k}})$であると予想した。 これは、データポイントごとに1つのニューロンがデータにしっかりと収まる必要があることを意味する。 本研究では,任意のモデルクラスに対して,有界ラデマチャー複雑性を持つLipschitz定数の下限を導出する。 この結果は(bubeck et al., 2020)2層ネットワークにおける有界重みを仮定した予想と一致する。 しかし、結果の一般性のため、多層ニューラルネットワークの境界も導出し、データにロバストに適合するために$\log n$定数サイズの層が必要であることを発見した。 そこで本研究では,重み付きニューラルネットワークの堅牢性の法則を確立し,深層学習における過並列化の必要性を公式に証明する。

Robustness of deep neural networks against adversarial perturbations is a pressing concern motivated by recent findings showing the pervasive nature of such vulnerabilities. One method of characterizing the robustness of a neural network model is through its Lipschitz constant, which forms a robustness certificate. A natural question to ask is, for a fixed model class (such as neural networks) and a dataset of size $n$, what is the smallest achievable Lipschitz constant among all models that fit the dataset? Recently, (Bubeck et al., 2020) conjectured that when using two-layer networks with $k$ neurons to fit a generic dataset, the smallest Lipschitz constant is $\Omega(\sqrt{\frac{n}{k}})$. This implies that one would require one neuron per data point to robustly fit the data. In this work we derive a lower bound on the Lipschitz constant for any arbitrary model class with bounded Rademacher complexity. Our result coincides with that conjectured in (Bubeck et al., 2020) for two-layer networks under the assumption of bounded weights. However, due to our result's generality, we also derive bounds for multi-layer neural networks, discovering that one requires $\log n$ constant-sized layers to robustly fit the data. Thus, our work establishes a law of robustness for weight bounded neural networks and provides formal evidence on the necessity of over-parametrization in deep learning.
翻訳日:2021-02-17 15:17:08 公開日:2021-02-16
# Kernel Conditional Mean EmbeddingsとU-Statistic Regressionを用いた条件分布処理効果

Conditional Distributional Treatment Effect with Kernel Conditional Mean Embeddings and U-Statistic Regression ( http://arxiv.org/abs/2102.08208v1 )

ライセンス: Link先を確認
Junhyung Park and Uri Shalit and Bernhard Sch\"olkopf and Krikamol Muandet(参考訳) より一般的なコンディショナリー平均治療効果(CATE)とは対照的に、平均を超えて治療の分布面を符号化するように設計されたコンディショナリー分布処理効果(CoDiTE)を解析することを提案する。 まず,確率測度間の距離関数に関連するCoDiTEの形式的定義を導入する。 次に, 核条件付平均埋め込みによる最大平均偏差に関連するコダイトについて検討し, 仮説テストと合わせて, 治療の条件付分布効果があるかどうかを考察した。 最後に,CATEを高次モーメントに一般化して,条件付き目撃機能による探索的方法とU統計的回帰による定量的方法の両方において,治療がどのような条件分布効果をもたらすかを検討する。 合成,半合成,実データに関する実験は,このアプローチのメリットを示している。

We propose to analyse the conditional distributional treatment effect (CoDiTE), which, in contrast to the more common conditional average treatment effect (CATE), is designed to encode a treatment's distributional aspects beyond the mean. We first introduce a formal definition of the CoDiTE associated with a distance function between probability measures. Then we discuss the CoDiTE associated with the maximum mean discrepancy via kernel conditional mean embeddings, which, coupled with a hypothesis test, tells us whether there is any conditional distributional effect of the treatment. Finally, we investigate what kind of conditional distributional effect the treatment has, both in an exploratory manner via the conditional witness function, and in a quantitative manner via U-statistic regression, generalising the CATE to higher-order moments. Experiments on synthetic, semi-synthetic and real datasets demonstrate the merits of our approach.
翻訳日:2021-02-17 15:16:44 公開日:2021-02-16
# 自動時系列データ拡張のための適応重み付け方式

Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation ( http://arxiv.org/abs/2102.08310v1 )

ライセンス: Link先を確認
Elizabeth Fons, Paula Dawson, Xiao-jun Zeng, John Keane, Alexandros Iosifidis(参考訳) データ拡張手法は、画像、テキスト、音声分類などのタスクの一般化を改善するための基本的な技術であることが示されています。 近年,自動拡張手法により,画像分類や物体検出がさらに改善され,最先端のパフォーマンスが向上している。 それでも、通常はデータセットのサイズが限られているため、自動データ拡張のメリットを享受できる時系列データでは、ほとんど作業が行われていません。 データ強化のためのサンプル適応型自動重み付け方式を2つ提案する。第1は、加算されたサンプルの損失に対する重み付けを学習し、第2の方法は、予測されたトレーニング損失のランキングに基づいて変換のサブセットを選択する。 提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。 金融データセットでは,取引戦略と組み合わせた手法が50$\%以上の年次リターンの改善につながることが示され,時系列データでは,データセットの半数以上で最先端のモデルを上回り,他のモデルでも同様のパフォーマンスを達成している。

Data augmentation methods have been shown to be a fundamental technique to improve generalization in tasks such as image, text and audio classification. Recently, automated augmentation methods have led to further improvements on image classification and object detection leading to state-of-the-art performances. Nevertheless, little work has been done on time-series data, an area that could greatly benefit from automated data augmentation given the usually limited size of the datasets. We present two sample-adaptive automatic weighting schemes for data augmentation: the first learns to weight the contribution of the augmented samples to the loss, and the second method selects a subset of transformations based on the ranking of the predicted training loss. We validate our proposed methods on a large, noisy financial dataset and on time-series datasets from the UCR archive. On the financial dataset, we show that the methods in combination with a trading strategy lead to improvements in annualized returns of over 50$\%$, and on the time-series data we outperform state-of-the-art models on over half of the datasets, and achieve similar performance in accuracy on the others.
翻訳日:2021-02-17 15:16:28 公開日:2021-02-16
# 共役勾配を用いたガウス過程回帰の対辺可能性のより厳密な境界

Tighter Bounds on the Log Marginal Likelihood of Gaussian Process Regression Using Conjugate Gradients ( http://arxiv.org/abs/2102.08314v1 )

ライセンス: Link先を確認
Artem Artemev, David R. Burt and Mark van der Wilk(参考訳) 本稿では,全核行列の行列分解を伴わずに計算可能なガウス過程回帰モデルのログ周縁確率の下限を提案する。 我々は,パラメータ学習に導入されたバイアスを低減しつつ,下界の最大化によるモデルパラメータの近似的最大度学習が,スパース変分アプローチの利点の多くを保っていることを示す。 私たちの境界の基礎は、ログの限界可能性に現れるログ決定項のより慎重な分析と、勾配を共役する方法を使用して、二次形式を含む項のタイトな下限を導出することです。 我々のアプローチは、下限最大化(例えば、下限最大化)に依存するメソッドを統一する第一歩です。 変動法)およびガウス過程を訓練するための共役勾配に基づく反復的アプローチ。 実験では、他の共役グラデーションベースのアプローチと比較して、トレーニング時間の同等の量のためのモデルで予測性能の改善を示します。

We propose a lower bound on the log marginal likelihood of Gaussian process regression models that can be computed without matrix factorisation of the full kernel matrix. We show that approximate maximum likelihood learning of model parameters by maximising our lower bound retains many of the sparse variational approach benefits while reducing the bias introduced into parameter learning. The basis of our bound is a more careful analysis of the log-determinant term appearing in the log marginal likelihood, as well as using the method of conjugate gradients to derive tight lower bounds on the term involving a quadratic form. Our approach is a step forward in unifying methods relying on lower bound maximisation (e.g. variational methods) and iterative approaches based on conjugate gradients for training Gaussian processes. In experiments, we show improved predictive performance with our model for a comparable amount of training time compared to other conjugate gradient based approaches.
翻訳日:2021-02-17 15:16:08 公開日:2021-02-16
# ウェーブレット網の深化に対するサブバンドアプローチと知覚品質に対する周波数適応損失

A Sub-band Approach to Deep Denoising Wavelet Networks and a Frequency-adaptive Loss for Perceptual Quality ( http://arxiv.org/abs/2102.07973v1 )

ライセンス: Link先を確認
Caglar Aytekin, Sakari Alenius, Dmytro Paliy and Juuso Gren(参考訳) 本稿では,ニューラルネットワークに基づくデノベーションに2つのコントリビューションを提案する。 まず、離散ウェーブレット変換(DWT)の各サブバンドに分離した畳み込み層を適用し、全てのサブバンドを連結し単一の畳み込み層を適用するDWTの一般的な使用法と比較する。 ニューラルネットワークでDWTを使用するアプローチは,逆DWTの前にサブバンドの順序が乱れないようにするため,特に精度が向上することを示す。 第2の貢献は、周波数領域のエラーの上位kパーセントに基づくノイズ損失です。 この損失で訓練されたニューラルネットワークは、各イテレーションで最も回復できない頻度に適応的に焦点を合わせます。 この損失は、周波数成分の誤差に関してよりバランスのとれた画像を提供することにより、知覚品質が向上することを示す。

In this paper, we propose two contributions to neural network based denoising. First, we propose applying separate convolutional layers to each sub-band of discrete wavelet transform (DWT) as opposed to the common usage of DWT which concatenates all sub-bands and applies a single convolution layer. We show that our approach to using DWT in neural networks improves the accuracy notably, due to keeping the sub-band order uncorrupted prior to inverse DWT. Our second contribution is a denoising loss based on top k-percent of errors in frequency domain. A neural network trained with this loss, adaptively focuses on frequencies that it fails to recover the most in each iteration. We show that this loss results into better perceptual quality by providing an image that is more balanced in terms of the errors in frequency components.
翻訳日:2021-02-17 15:15:27 公開日:2021-02-16
# 新型コロナウイルス胸部x線画像のロバスト分類のための2重拡張アーキテクチャ

Twin Augmented Architectures for Robust Classification of COVID-19 Chest X-Ray Images ( http://arxiv.org/abs/2102.07975v1 )

ライセンス: Link先を確認
Kartikeya Badola, Sameer Ambekar, Himanshu Pant, Sumit Soman, Anuradha Sural, Rajiv Narang, Suresh Chandra and Jayadeva(参考訳) COVID-19のゴールドスタンダードはRT-PCRです。テスト施設は限られており、常に最適に配布されるわけではありません。 検査結果は遅れ、治療に影響を及ぼす。 共同著者の1人である専門家放射線学者は、胸部X線(CXR)とCTスキャンからCOVID-19陽性を診断し、タイムリーな治療を容易にすることができます。 このような診断は、新型コロナウイルス患者に十分な専門知識と慣れ親しんだ放射線科医を欠いた場所では特に有用である。 この論文には2つの貢献がある。 まず、CXRベースのCOVID-19診断に関する文献を分析します。 データセット選択の一般的な選択は、データの均一性に悩まされ、誤った結果をもたらすことを示す。 複数の既存の異種ソースから実行可能なベンチマークデータセットをコンパイルおよび分析します。 このようなベンチマークは、現実的なテストモデルにとって重要である。 第2の貢献は、不均衡なデータからの学習に関するものです。 COVID X-Ray分類のデータセットは、ほとんどの被験者がCOVID-veであるため、重度のクラス不均衡に直面します。 Twin Support Vector Machines (Twin SVM) と Twin Neural Networks (Twin NN) は、近年、スキューデータを扱う効果的な方法として現れている。 我々は、一般的な事前学習深層学習モデルを修正するために、ツイン拡張と呼ばれる最先端技術を導入する。 Twin Augmentationは、再トレーニングを必要とせずに、事前訓練されたディープニューラルネットワークのパフォーマンスを向上します。 実験により、複数の分類器をまたいで、2つの拡張が、不均衡設定における分類のための訓練済みモデルの性能を高めるのに非常に効果的であることが示されている。

The gold standard for COVID-19 is RT-PCR, testing facilities for which are limited and not always optimally distributed. Test results are delayed, which impacts treatment. Expert radiologists, one of whom is a co-author, are able to diagnose COVID-19 positivity from Chest X-Rays (CXR) and CT scans, that can facilitate timely treatment. Such diagnosis is particularly valuable in locations lacking radiologists with sufficient expertise and familiarity with COVID-19 patients. This paper has two contributions. One, we analyse literature on CXR based COVID-19 diagnosis. We show that popular choices of dataset selection suffer from data homogeneity, leading to misleading results. We compile and analyse a viable benchmark dataset from multiple existing heterogeneous sources. Such a benchmark is important for realistically testing models. Our second contribution relates to learning from imbalanced data. Datasets for COVID X-Ray classification face severe class imbalance, since most subjects are COVID -ve. Twin Support Vector Machines (Twin SVM) and Twin Neural Networks (Twin NN) have, in recent years, emerged as effective ways of handling skewed data. We introduce a state-of-the-art technique, termed as Twin Augmentation, for modifying popular pre-trained deep learning models. Twin Augmentation boosts the performance of a pre-trained deep neural network without requiring re-training. Experiments show, that across a multitude of classifiers, Twin Augmentation is very effective in boosting the performance of given pre-trained model for classification in imbalanced settings.
翻訳日:2021-02-17 15:15:11 公開日:2021-02-16
# EPE-NAS: ニューラルネットワークアーキテクチャ検索のトレーニングなしで効率的なパフォーマンス推定

EPE-NAS: Efficient Performance Estimation Without Training for Neural Architecture Search ( http://arxiv.org/abs/2102.08099v1 )

ライセンス: Link先を確認
Vasco Lopes, Saeid Alirezazadeh, Lu\'is A. Alexandre(参考訳) neural architecture search (nas) はコンピュータビジョン問題のアーキテクチャ設計において優れた結果を示している。 NASは、アーキテクチャ設計とエンジニアリングを自動化することで、ヒューマン定義設定の必要性を軽減する。 しかし、多くのGPU計算を必要とするため、NASメソッドは遅い傾向があります。 このボトルネックは主に、サンプルメソッドを更新するために、主にトレーニングすることで生成されたアーキテクチャの評価を必要とするパフォーマンス推定戦略に起因している。 本論文では,ネットワーク評価の問題を緩和する効率的な性能推定戦略であるEPE-NASを提案する。 トレーニングされていないネットワークのクラス内およびクラス間相関を調べた。 EPE-NASは堅牢な相関を生成することができ、単純なランダムサンプリング戦略に組み込むことで、単一のGPUを使用して数秒でトレーニングを必要とせず、競争力のあるネットワークを検索できることを示しています。 さらに、EPE-NASは、訓練されていないネットワークの評価に焦点を当てているため、ほぼすべてのNASメソッドに簡単に統合できます。

Neural Architecture Search (NAS) has shown excellent results in designing architectures for computer vision problems. NAS alleviates the need for human-defined settings by automating architecture design and engineering. However, NAS methods tend to be slow, as they require large amounts of GPU computation. This bottleneck is mainly due to the performance estimation strategy, which requires the evaluation of the generated architectures, mainly by training them, to update the sampler method. In this paper, we propose EPE-NAS, an efficient performance estimation strategy, that mitigates the problem of evaluating networks, by scoring untrained networks and creating a correlation with their trained performance. We perform this process by looking at intra and inter-class correlations of an untrained network. We show that EPE-NAS can produce a robust correlation and that by incorporating it into a simple random sampling strategy, we are able to search for competitive networks, without requiring any training, in a matter of seconds using a single GPU. Moreover, EPE-NAS is agnostic to the search method, since it focuses on the evaluation of untrained networks, making it easy to integrate into almost any NAS method.
翻訳日:2021-02-17 15:14:47 公開日:2021-02-16
# 異なるシムズ増量によるデータセットの凝縮

Dataset Condensation with Differentiable Siamese Augmentation ( http://arxiv.org/abs/2102.08259v1 )

ライセンス: Link先を確認
Bo Zhao, Hakan Bilen(参考訳) 多くの機械学習問題において、大規模データセットは重い計算負荷を犠牲にして最先端のディープネットワークを訓練するデファクトスタンダードとなっている。 本論文では,深層ニューラルネットワークをゼロから,性能低下を最小限に抑えるために用いることができる,大規模トレーニングセットを極めて小さな合成セットに凝縮することに焦点を当てる。 近年のトレーニングセット合成法に触発されて,データ拡張を効果的に利用してより有益な合成画像を合成し,拡張を伴うトレーニングネットワークの性能向上を実現する,微分可能なシアム増補法を提案する。 複数の画像分類ベンチマークの実験により、提案手法は最先端のCIFAR10データセットとCIFAR100データセットを7%改善した。 本手法がMNIST, FashionMNIST, SVHN, CIFAR10に対して99.6%, 94.9%, 88.5%, 71.5%の相対的性能をそれぞれ達成していることを1%未満のデータで示した。

In many machine learning problems, large-scale datasets have become the de-facto standard to train state-of-the-art deep networks at the price of heavy computation load. In this paper, we focus on condensing large training sets into significantly smaller synthetic sets which can be used to train deep neural networks from scratch with minimum drop in performance. Inspired from the recent training set synthesis methods, we propose Differentiable Siamese Augmentation that enables effective use of data augmentation to synthesize more informative synthetic images and thus achieves better performance when training networks with augmentations. Experiments on multiple image classification benchmarks demonstrate that the proposed method obtains substantial gains over the state-of-the-art, 7% improvements on CIFAR10 and CIFAR100 datasets. We show with only less than 1% data that our method achieves 99.6%, 94.9%, 88.5%, 71.5% relative performance on MNIST, FashionMNIST, SVHN, CIFAR10 respectively.
翻訳日:2021-02-17 15:14:29 公開日:2021-02-16
# TeraPipe:大規模言語モデルのトレーニングのためのトークンレベルパイプライン並列処理

TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models ( http://arxiv.org/abs/2102.07988v1 )

ライセンス: Link先を確認
Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, Dawn Song, Ion Stoica(参考訳) モデル並列性は、現代の大規模ディープラーニングモデルのトレーニングに必要になった。 本稿では,既存のモデル並列アプローチから新たな直交次元を同定する: 自己回帰性により,トランスフォーマティブ言語モデルのための単一のトレーニングシーケンス内でパイプライン並列処理を行うことができる。 これにより、以前の作業よりもきめ細かいパイプラインが可能になる。 トランスフォーマーに基づく言語モデルの同期モデル並列トレーニングのための,高性能なトークンレベルのパイプライン並列アルゴリズムであるterapipeを設計した。 特定のモデルとクラスタ構成を与えられた最適なパイプライン実行スキームを計算するための動的プログラミングベースアルゴリズムを開発した。 TeraPipeは、48p3.16xlargeインスタンスを持つAWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを、最先端のモデル並列メソッドと比較して5.0倍高速化できることを示す。

Model parallelism has become a necessity for training modern large-scale deep language models. In this work, we identify a new and orthogonal dimension from existing model parallel approaches: it is possible to perform pipeline parallelism within a single training sequence for Transformer-based language models thanks to its autoregressive property. This enables a more fine-grained pipeline compared with previous work. With this key idea, we design TeraPipe, a high-performance token-level pipeline parallel algorithm for synchronous model-parallel training of Transformer-based language models. We develop a novel dynamic programming-based algorithm to calculate the optimal pipelining execution scheme given a specific model and cluster configuration. We show that TeraPipe can speed up the training by 5.0x for the largest GPT-3 model with 175 billion parameters on an AWS cluster with 48 p3.16xlarge instances compared with state-of-the-art model-parallel methods.
翻訳日:2021-02-17 15:14:10 公開日:2021-02-16
# IronMan: 強化学習による高層合成におけるGNN支援設計空間探索

IronMan: GNN-assisted Design Space Exploration in High-Level Synthesis via Reinforcement Learning ( http://arxiv.org/abs/2102.08138v1 )

ライセンス: Link先を確認
Nan Wu, Yuan Xie, Cong Hao(参考訳) 1)HLSにおけるプログラミングスタイルのハイレベルな抽象化は、最適化の機会を隠蔽することがある;2)既存のHLSツールは、異なる目的と制約の間で柔軟なトレードオフ(Pareto)ソリューションを提供していない;3)結果のRTL設計の実際の品質は予測が難しい。 これらの課題に対処するため、IronManというエンドツーエンドのフレームワークを提案します。 主な目標は、柔軟で自動化された設計空間探索(DSE)を可能にし、ユーザー指定の制約下で最適なソリューションを提供するか、さまざまな目的(リソース、エリア、レイテンシの種類など)間のさまざまなトレードオフを提供することです。 このようなDSEは、面倒な手作業を必要とするか、あるいは既存のHLSツールによってこれらの目標を達成することができない。 IronManには、高精度なグラフニューラルネットワークベースのパフォーマンスとリソース予測器であるGPPと、最適なリソース割り当て戦略を探索する強化学習ベースのマルチオブジェクトDSEエンジンであるRLMDと、異なる目的間でParetoソリューションを提供するCTと、オリジナルのHSS C/C++からデータフローグラフを抽出し、HSSディレクティブで自動的に合成可能なコードを生成するRLMDとGPPの3つのコンポーネントがあります。 The experimental results show that: 1) GPP achieves high prediction accuracy, reducing prediction errors of HLS tools by 10.9x in resource utilization and 5.7x in timing; 2) RLMD obtains optimal or Pareto solutions that outperform the genetic algorithm and simulated annealing by 12.7% and 12.9%, respectively; 3) IronMan is able to find optimized solutions perfectly matching various DSP constraints, with 2.54x fewer DSPs and up to 6x shorter latency than those of HLS tools while being up to 400x faster than the heuristic algorithms and HLS tools.

Despite the great success of High-Level Synthesis (HLS) tools, we observe several unresolved challenges: 1) the high-level abstraction of programming styles in HLS sometimes conceals optimization opportunities; 2) existing HLS tools do not provide flexible trade-off (Pareto) solutions among different objectives and constraints; 3) the actual quality of the resulting RTL designs is hard to predict. To address these challenges, we propose an end-to-end framework, namelyIronMan. The primary goal is to enable a flexible and automated design space exploration (DSE), to provide either optimal solutions under user-specified constraints, or various trade-offs among different objectives (such as different types of resources, area, and latency). Such DSE either requires tedious manual efforts or is not achievable to attain these goals through existing HLS tools. There are three components in IronMan: 1) GPP, a highly accurate graph-neural-network-based performance and resource predictor; 2) RLMD, a reinforcement-learning-based multi-objective DSE engine that explores the optimal resource allocation strategy, to provide Pareto solutions between different objectives; 3) CT, a code transformer to assist RLMD and GPP, which extracts the data flow graph from original HLS C/C++ and automatically generates synthesizable code with HLS directives. The experimental results show that: 1) GPP achieves high prediction accuracy, reducing prediction errors of HLS tools by 10.9x in resource utilization and 5.7x in timing; 2) RLMD obtains optimal or Pareto solutions that outperform the genetic algorithm and simulated annealing by 12.7% and 12.9%, respectively; 3) IronMan is able to find optimized solutions perfectly matching various DSP constraints, with 2.54x fewer DSPs and up to 6x shorter latency than those of HLS tools while being up to 400x faster than the heuristic algorithms and HLS tools.
翻訳日:2021-02-17 15:13:55 公開日:2021-02-16
# Entity-Aware Masking Strategiesによる低リソースバイオメディカルQAの促進

Boosting Low-Resource Biomedical QA via Entity-Aware Masking Strategies ( http://arxiv.org/abs/2102.08366v1 )

ライセンス: Link先を確認
Gabriele Pergola, Elena Kochkina, Lin Gui, Maria Liakata, Yulan He(参考訳) バイオメディカル質問応答(QA)は、膨大な科学文献から高品質な情報を提供する能力に注目が集まっている。 バイオメディカルなQAデータセットは近年増えてきているが、これらのリソースはいまだに限られており、生産に費用がかかる。 事前学習言語モデル(LM)による伝達学習は、既存の汎用知識を活用するための有望なアプローチとして示されている。 しかし、これらの大きなモデルの微調整はコストと時間がかかるため、新型コロナウイルスの文献のような専門分野の特定のテーマに適応する際の利点は限られている。 ドメイン適応をさらに推し進めるために,バイオメディカル・エンティティ・アウェア・マスキング (BEM) と呼ばれるシンプルなアプローチを提案する。 マスク付き言語モデルにより、ドメインを特徴づける重要なエンティティに基づいてエンティティ中心の知識を学び、それらのエンティティをLM微調整の推進に活用します。 結果として得られる戦略は、さまざまなマスクされたLMに適用可能な下流プロセスであり、ニューラルアーキテクチャに追加のメモリやコンポーネントを必要としない。 実験結果から, バイオメディカルQAデータセットにおける最先端モデルと同等の性能を示す。

Biomedical question-answering (QA) has gained increased attention for its capability to provide users with high-quality information from a vast scientific literature. Although an increasing number of biomedical QA datasets has been recently made available, those resources are still rather limited and expensive to produce. Transfer learning via pre-trained language models (LMs) has been shown as a promising approach to leverage existing general-purpose knowledge. However, finetuning these large models can be costly and time consuming, often yielding limited benefits when adapting to specific themes of specialised domains, such as the COVID-19 literature. To bootstrap further their domain adaptation, we propose a simple yet unexplored approach, which we call biomedical entity-aware masking (BEM). We encourage masked language models to learn entity-centric knowledge based on the pivotal entities characterizing the domain at hand, and employ those entities to drive the LM fine-tuning. The resulting strategy is a downstream process applicable to a wide variety of masked LMs, not requiring additional memory or components in the neural architectures. Experimental results show performance on par with state-of-the-art models on several biomedical QA datasets.
翻訳日:2021-02-17 15:13:16 公開日:2021-02-16
# 深層強化学習のための大規模ネットワークの訓練

Training Larger Networks for Deep Reinforcement Learning ( http://arxiv.org/abs/2102.07920v1 )

ライセンス: Link先を確認
Kei Ota, Devesh K. Jha, Asako Kanezaki(参考訳) コンピュータビジョンと自然言語処理コミュニティにおけるディープラーニングの成功は、数百万から数十億のパラメータを持つ非常に深いニューラルネットワークのトレーニングによるもので、大量のデータでトレーニングすることができる。 しかし、同様の傾向は、大規模ネットワークが性能改善に繋がらない深層強化学習(RL)アルゴリズムの訓練をほとんど妨げている。 従来の研究によると、これは大きなネットワークを使用する場合、ディープRLエージェントのトレーニング中に不安定である。 本論文では,深層RLのための大規模ネットワークにおけるトレーニングの理解と対処を試みる。 まず,ネットワーク容量の増加によって性能が向上しないことを示す。 そこで本研究では,1)密網接続の広いネットワーク,2)rlのトレーニングから表現学習を分離する手法,3)過剰フィッティング問題を緩和するための分散学習手法を提案する。 この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。 提案手法の有効性と性能向上の理由を直感的に理解するためのいくつかのアブレーション研究を紹介します。 提案手法は,複数の課題に対して,他のベースラインアルゴリズムを上回っていることを示した。

The success of deep learning in the computer vision and natural language processing communities can be attributed to training of very deep neural networks with millions or billions of parameters which can then be trained with massive amounts of data. However, similar trend has largely eluded training of deep reinforcement learning (RL) algorithms where larger networks do not lead to performance improvement. Previous work has shown that this is mostly due to instability during training of deep RL agents when using larger networks. In this paper, we make an attempt to understand and address training of larger networks for deep RL. We first show that naively increasing network capacity does not improve performance. Then, we propose a novel method that consists of 1) wider networks with DenseNet connection, 2) decoupling representation learning from training of RL, 3) a distributed training method to mitigate overfitting problems. Using this three-fold technique, we show that we can train very large networks that result in significant performance gains. We present several ablation studies to demonstrate the efficacy of the proposed method and some intuitive understanding of the reasons for performance gain. We show that our proposed method outperforms other baseline algorithms on several challenging locomotion tasks.
翻訳日:2021-02-17 15:12:54 公開日:2021-02-16
# D2A: 微分解析を用いたAIベースの脆弱性検出のためのデータセット

D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis ( http://arxiv.org/abs/2102.07995v1 )

ライセンス: Link先を確認
Yunhui Zheng, Saurabh Pujar, Burn Lewis, Luca Buratti, Edward Epstein, Bo Yang, Jim Laredo, Alessandro Morari, Zhong Su(参考訳) 静的解析ツールは、複雑な振る舞いと数百万行のコードを持つプログラムを理解するため、脆弱性検出に広く利用されている。 その人気にもかかわらず、静的解析ツールは偽陽性を過剰に生成することが知られている。 最近の機械学習モデルがプログラミング言語を理解する能力は、静的解析に適用する新しい可能性を開く。 しかしながら、脆弱性識別のためのモデルをトレーニングする既存のデータセットは、バグコンテキストの制限、サイズの制限、合成および非現実的なソースコードなど、複数の制限に悩まされている。 静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 d2aデータセットは、複数のオープンソースプロジェクトのバージョンペアを分析することで構築される。 各プロジェクトからバグ修正コミットを選択し、コミット前後のバージョンで静的解析を実行します。 before-commitバージョンで検出されたいくつかの問題が対応するafter-commitバージョンで消えた場合、コミットによって修正された本当のバグである可能性が高い。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。 データセットは、静的解析によって報告された問題の中で考えられる誤報を識別する分類器を構築するために使用できるため、開発者がまず真正の可能性を優先順位付けし、調査するのに役立つ。

Static analysis tools are widely used for vulnerability detection as they understand programs with complex behavior and millions of lines of code. Despite their popularity, static analysis tools are known to generate an excess of false positives. The recent ability of Machine Learning models to understand programming languages opens new possibilities when applied to static analysis. However, existing datasets to train models for vulnerability identification suffer from multiple limitations such as limited bug context, limited size, and synthetic and unrealistic source code. We propose D2A, a differential analysis based approach to label issues reported by static analysis tools. The D2A dataset is built by analyzing version pairs from multiple open source projects. From each project, we select bug fixing commits and we run static analysis on the versions before and after such commits. If some issues detected in a before-commit version disappear in the corresponding after-commit version, they are very likely to be real bugs that got fixed by the commit. We use D2A to generate a large labeled dataset to train models for vulnerability identification. We show that the dataset can be used to build a classifier to identify possible false alarms among the issues reported by static analysis, hence helping developers prioritize and investigate potential true positives first.
翻訳日:2021-02-17 15:12:36 公開日:2021-02-16
# COMBO:保守的なオフラインモデルに基づく政策最適化

COMBO: Conservative Offline Model-Based Policy Optimization ( http://arxiv.org/abs/2102.08363v1 )

ライセンス: Link先を確認
Tianhe Yu, Aviral Kumar, Rafael Rafailov, Aravind Rajeswaran, Sergey Levine, Chelsea Finn(参考訳) ログ化された経験からダイナミックスモデルを学習し、学習モデルの下である種の悲観的な計画を実行するモデルベースアルゴリズムは、オフライン強化学習(オフラインRL)の有望なパラダイムとして登場した。 しかし、そのようなモデルに基づくアルゴリズムの実践的な変種は、悲観論を取り入れるための明確な不確実性定量化に依存している。 ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。 この制限を克服するために,学習モデルの下でロールアウトによって生成された状態動作タプルの値関数を正則化する,モデルベースのオフラインrlアルゴリズムであるcomboを開発した。 これにより、明確な不確実性推定を必要とせず、サポート外状態-動作タプルの値関数を保守的に推定できる。 理論的には,本手法は真の政策値の下位境界を最適化し,この境界が従来の手法よりも厳密であることを示し,オフライン環境での政策改善の保証を満足する。 実験により,画像ベースタスクを含む広く研究されているオフラインrlベンチマークにおいて,コンボは,先行したオフラインモデルフリーおよびモデルベース手法と比較して,一貫して優れた性能を発揮することがわかった。

Model-based algorithms, which learn a dynamics model from logged experience and perform some sort of pessimistic planning under the learned model, have emerged as a promising paradigm for offline reinforcement learning (offline RL). However, practical variants of such model-based algorithms rely on explicit uncertainty quantification for incorporating pessimism. Uncertainty estimation with complex models, such as deep neural networks, can be difficult and unreliable. We overcome this limitation by developing a new model-based offline RL algorithm, COMBO, that regularizes the value function on out-of-support state-action tuples generated via rollouts under the learned model. This results in a conservative estimate of the value function for out-of-support state-action tuples, without requiring explicit uncertainty estimation. We theoretically show that our method optimizes a lower bound on the true policy value, that this bound is tighter than that of prior methods, and our approach satisfies a policy improvement guarantee in the offline setting. Through experiments, we find that COMBO consistently performs as well or better as compared to prior offline model-free and model-based methods on widely studied offline RL benchmarks, including image-based tasks.
翻訳日:2021-02-17 15:12:16 公開日:2021-02-16
# 共同自己監視型ブラインドデノイジングとノイズ推定

Joint self-supervised blind denoising and noise estimation ( http://arxiv.org/abs/2102.08023v1 )

ライセンス: Link先を確認
Jean Ollion, Charles Ollion (CMAP), Elisabeth Gassiat (LMO), Luc Leh\'ericy (JAD), Sylvain Le Corff (IP Paris, TIPIC-SAMOVAR, SAMOVAR)(参考訳) 本研究では,2つのニューラルネットワークが協調してクリーン信号を予測し,ノイズ分布を推定する,新たな自己監視型画像ブラインドノイズ除去手法を提案する。 ノイズ観測が信号と独立に独立していると仮定すると、ネットワークはクリーンなトレーニングデータなしで共同で訓練できる。 そこで本手法は,ノイズの正確なモデル化が困難で,トレーニングデータのクリーン化が不可能な生体医用画像に特に有用である。 この手法は、6つの公開バイオメディカル画像データセットにおいて、最新の自己監視型ブラインドデノイジングアルゴリズムを大幅に上回る。 また,本モデルが効率よくノイズ分布を捉えた合成ノイズデータを実証的に示す。 最後に、記述されたフレームワークはシンプルで、軽量で、計算効率が良いため、実際は有用である。

We propose a novel self-supervised image blind denoising approach in which two neural networks jointly predict the clean signal and infer the noise distribution. Assuming that the noisy observations are independent conditionally to the signal, the networks can be jointly trained without clean training data. Therefore, our approach is particularly relevant for biomedical image denoising where the noise is difficult to model precisely and clean training data are usually unavailable. Our method significantly outperforms current state-of-the-art self-supervised blind denoising algorithms, on six publicly available biomedical image datasets. We also show empirically with synthetic noisy data that our model captures the noise distribution efficiently. Finally, the described framework is simple, lightweight and computationally efficient, making it useful in practical cases.
翻訳日:2021-02-17 15:11:21 公開日:2021-02-16
# 日々を最大限に活用する: 最適な時間配分のためのオンライン学習

Making the most of your day: online learning for optimal allocation of time ( http://arxiv.org/abs/2102.08087v1 )

ライセンス: Link先を確認
Etienne Boursier and Tristan Garrec and Vianney Perchet and Marco Scarsini(参考訳) 割り当てるリソースが時間である場合の最適割り当てのためのオンライン学習について検討する。 適用可能な例としては、乗車で一日を埋めるドライバー、不動産を借りる家主などがあります。 最初のモチベーションに従って、ドライバーはPoissonプロセスに従って順次乗車提案を受け取り、提案された乗車を受け入れたり拒否したりすることができる。 彼女が提案を受け入れた場合、彼女は乗車期間中に忙しく、乗車期間に応じて報酬を得ます。 もし彼女がそれを拒絶すれば、彼女は新しい乗車提案が来るまで保留される。 私たちは、ドライバーが被った後悔をまず、彼女が彼女の報酬関数を知っているが、乗車期間の分布を知らないとき、そして彼女が彼女の報酬関数を知らないときに研究します。 より速いレートは、乗車の分布や報酬関数に構造的な仮定を追加することで得られる。 この自然な設定は、コンテキスト(片腕)のバンディットと類似しているが、コンテキストに関連する正規化報酬がコンテキスト全体の分布に依存するという重大な違いがある。

We study online learning for optimal allocation when the resource to be allocated is time. Examples of possible applications include a driver filling a day with rides, a landlord renting an estate, etc. Following our initial motivation, a driver receives ride proposals sequentially according to a Poisson process and can either accept or reject a proposed ride. If she accepts the proposal, she is busy for the duration of the ride and obtains a reward that depends on the ride duration. If she rejects it, she remains on hold until a new ride proposal arrives. We study the regret incurred by the driver first when she knows her reward function but does not know the distribution of the ride duration, and then when she does not know her reward function, either. Faster rates are finally obtained by adding structural assumptions on the distribution of rides or on the reward function. This natural setting bears similarities with contextual (one-armed) bandits, but with the crucial difference that the normalized reward associated to a context depends on the whole distribution of contexts.
翻訳日:2021-02-17 15:11:06 公開日:2021-02-16
# 変動不等式法における確率的ばらつき低減

Stochastic Variance Reduction for Variational Inequality Methods ( http://arxiv.org/abs/2102.08352v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Yura Malitsky(参考訳) 凸凹サドル点問題, 単調変位不等式, 単調包含を解くための確率的分散低減アルゴリズムを提案する。 私たちのフレームワークは、ユークリッドとブレグマンのセットアップの両方で、エクストラグラデーション、フォワードバックワード、フォワードリフレクテッドバックワードメソッドに適用されます。 提案手法はすべて決定論的手法と全く同じ設定に収束し、構造的min-max問題を解くための最もよく知られた複雑さと一致するか改善する。 その結果,変分不等式分散低減と最小化の対応が強化された。 また,行列ゲーム上での数値評価によるアプローチの改善についても述べる。

We propose stochastic variance reduced algorithms for solving convex-concave saddle point problems, monotone variational inequalities, and monotone inclusions. Our framework applies to extragradient, forward-backward-forward, and forward-reflected-backward methods both in Euclidean and Bregman setups. All proposed methods converge in exactly the same setting as their deterministic counterparts and they either match or improve the best-known complexities for solving structured min-max problems. Our results reinforce the correspondence between variance reduction in variational inequalities and minimization. We also illustrate the improvements of our approach with numerical evaluations on matrix games.
翻訳日:2021-02-17 15:10:49 公開日:2021-02-16
# トポロジカルディープラーニング - ニューラルネットワークの分類

Topological Deep Learning: Classification Neural Networks ( http://arxiv.org/abs/2102.08354v1 )

ライセンス: Link先を確認
Mustafa Hajij, Kyle Istvan(参考訳) 位相的深層学習(英: topological deep learning)は、一般的な深層学習問題で生じる問題を形式化するために最小の数学的構造を利用する目的で、深層学習にトポロジカル言語を導入することを目的とした形式主義である。 これは、この形式の導入と研究を目的とした一連の記事の最初である。 本稿では,機械学習における分類問題をトポロジカルな設定で定義・検討する。 このトポロジカルな枠組みを用いて,ニューラルネットワークの文脈で分類問題が可能か不可能かを示す。 最後に,我々のトポロジカルな設定が,従来のツールでは容易には見当たらない問題の側面を直ちに照らしていることを示す。

Topological deep learning is a formalism that is aimed at introducing topological language to deep learning for the purpose of utilizing the minimal mathematical structures to formalize problems that arise in a generic deep learning problem. This is the first of a sequence of articles with the purpose of introducing and studying this formalism. In this article, we define and study the classification problem in machine learning in a topological setting. Using this topological framework, we show when the classification problem is possible or not possible in the context of neural networks. Finally, we demonstrate how our topological setting immediately illuminates aspects of this problem that are not as readily apparent using traditional tools.
翻訳日:2021-02-17 15:10:37 公開日:2021-02-16
# IntSGD:確率勾配のフロートレス圧縮

IntSGD: Floatless Compression of Stochastic Gradients ( http://arxiv.org/abs/2102.08374v1 )

ライセンス: Link先を確認
Konstantin Mishchenko and Bokun Wang and Dmitry Kovalev and Peter Richt\'arik(参考訳) 本研究では,SGD(Stochastic Gradient Descent)に対して,単一フロートを通信しない不整数圧縮のファミリを提案する。 これは浮動小数点ベクトルを各デバイスに知られている数に乗じて整数数に丸めることで達成される。 本理論では,sgdの反復複雑性は,ベクトルを適切にスケールする場合に一定因子まで変化しないことを示す。 さらに、これはオーバーパラメータなしで、凸関数と非凸関数の両方に対して成り立つ。 他の圧縮アルゴリズムとは対照的に、非滑らかな問題でもSGDの収束速度を保ちます。 最後に、データが著しく不均一である場合、整数を有界に保つことがますます難しくなり、このタイプの問題を解決するために別のアルゴリズムであるintdianaを提案する。

We propose a family of lossy integer compressions for Stochastic Gradient Descent (SGD) that do not communicate a single float. This is achieved by multiplying floating-point vectors with a number known to every device and then rounding to an integer number. Our theory shows that the iteration complexity of SGD does not change up to constant factors when the vectors are scaled properly. Moreover, this holds for both convex and non-convex functions, with and without overparameterization. In contrast to other compression-based algorithms, ours preserves the convergence rate of SGD even on non-smooth problems. Finally, we show that when the data is significantly heterogeneous, it may become increasingly hard to keep the integers bounded and propose an alternative algorithm, IntDIANA, to solve this type of problems.
翻訳日:2021-02-17 15:10:23 公開日:2021-02-16
# EfficientLPS: 効率的なLiDARパンオプティクスセグメンテーション

EfficientLPS: Efficient LiDAR Panoptic Segmentation ( http://arxiv.org/abs/2102.08009v1 )

ライセンス: Link先を確認
Kshitij Sirohi, Rohit Mohan, Daniel B\"uscher, Wolfram Burgard, Abhinav Valada(参考訳) ポイントクラウドのパノラマセグメンテーションは、高精度で信頼性の高いLiDARセンサーを使用して、自動運転車が周辺を理解できるようにする重要なタスクです。 既存のトップダウンアプローチでは、独立タスク特化ネットワークと、LiDARデータの複雑さを無視した画像領域からの翻訳手法を組み合わせることでこの問題に対処している。 本稿では、距離依存空間、重閉塞、大規模偏差、再射誤差を含むLiDAR点雲のセグメンテーションにおける複数の課題に対処する、新しいトップダウンのLiDARパノプティブセグメンテーション(EfficientLPS)アーキテクチャを提案する。 効率的なLPSは、拡張された幾何変換モデリング能力を符号化し、意味的にリッチな範囲対応マルチスケール特徴を集約する新しい共有バックボーンから構成される。 提案するpanoptic periphery loss関数によって監視されるpanoptic fusionモジュールとともに,新しいスケール不変セマンティクスとインスタンスセグメンテーションヘッドが組み込まれている。 さらに、正規化擬似ラベリングフレームワークを策定し、ラベルなしデータのトレーニングにより、EfficientLPSのパフォーマンスをさらに向上させます。 我々は、提案したモデルを2つの大規模LiDARデータセット、nuScenesでベンチマークし、そこでは、基礎となる真実のアノテーションも提供する。 特に、EfficientLPSは、両方のデータセットに新しい最先端技術を設定する。

Panoptic segmentation of point clouds is a crucial task that enables autonomous vehicles to comprehend their vicinity using their highly accurate and reliable LiDAR sensors. Existing top-down approaches tackle this problem by either combining independent task-specific networks or translating methods from the image domain ignoring the intricacies of LiDAR data and thus often resulting in sub-optimal performance. In this paper, we present the novel top-down Efficient LiDAR Panoptic Segmentation (EfficientLPS) architecture that addresses multiple challenges in segmenting LiDAR point clouds including distance-dependent sparsity, severe occlusions, large scale-variations, and re-projection errors. EfficientLPS comprises of a novel shared backbone that encodes with strengthened geometric transformation modeling capacity and aggregates semantically rich range-aware multi-scale features. It incorporates new scale-invariant semantic and instance segmentation heads along with the panoptic fusion module which is supervised by our proposed panoptic periphery loss function. Additionally, we formulate a regularized pseudo labeling framework to further improve the performance of EfficientLPS by training on unlabelled data. We benchmark our proposed model on two large-scale LiDAR datasets: nuScenes, for which we also provide ground truth annotations, and SemanticKITTI. Notably, EfficientLPS sets the new state-of-the-art on both these datasets.
翻訳日:2021-02-17 15:10:10 公開日:2021-02-16
# 給与マップを超える:深層モデルを訓練して深層モデルを解釈する

Going Beyond Saliency Maps: Training Deep Models to Interpret Deep Models ( http://arxiv.org/abs/2102.08239v1 )

ライセンス: Link先を確認
Zixuan Liu and Ehsan Adeli and Kilian M. Pohl and Qingyu Zhao(参考訳) 解釈性は、神経画像研究において、複雑な深層学習モデルを適用して脳障害の理解を促進する上で重要な要素である。 訓練された分類器の決定過程を解釈するために、既存の手法は、典型的には、部分微分を通じて分類するボキセルワイズまたは特徴レベルの重要性を定量化するサリエンシーマップに依存している。 ある程度の局所化を提供するが、これらの地図は脳障害に関連する変化の特定の意味を知らせないため、神経科学の観点からは人間に理解できない。 画像から画像への変換方式に触発されて,所定の画像に反動して疾患のパターンを注入または除去できるシミュレータネットワークを訓練する。 これらのネットワークは、分類器がシミュレーション画像の予測ロジットを一貫して増加または減少させるように訓練される。 さらに,全てのシミュレータを条件付き畳み込みに基づく統一モデルに分割することを提案する。 合成データセットと2つの神経画像データセットで訓練された分類器の解釈に本手法を適用し,アルツハイマー病とアルコール使用障害の効果を可視化した。 基準線法で生成したサリエンシマップと比較して, ワープ領域のヤコビ行列式に基づくシミュレーションと可視化により, 疾患に関連する有意義かつ理解可能なパターンが明らかとなった。

Interpretability is a critical factor in applying complex deep learning models to advance the understanding of brain disorders in neuroimaging studies. To interpret the decision process of a trained classifier, existing techniques typically rely on saliency maps to quantify the voxel-wise or feature-level importance for classification through partial derivatives. Despite providing some level of localization, these maps are not human-understandable from the neuroscience perspective as they do not inform the specific meaning of the alteration linked to the brain disorder. Inspired by the image-to-image translation scheme, we propose to train simulator networks that can warp a given image to inject or remove patterns of the disease. These networks are trained such that the classifier produces consistently increased or decreased prediction logits for the simulated images. Moreover, we propose to couple all the simulators into a unified model based on conditional convolution. We applied our approach to interpreting classifiers trained on a synthetic dataset and two neuroimaging datasets to visualize the effect of the Alzheimer's disease and alcohol use disorder. Compared to the saliency maps generated by baseline approaches, our simulations and visualizations based on the Jacobian determinants of the warping field reveal meaningful and understandable patterns related to the diseases.
翻訳日:2021-02-17 15:09:42 公開日:2021-02-16
# 仮説テストの敵対者に対するアクティブプライバシユーティリティトレードオフ

Active Privacy-utility Trade-off Against a Hypothesis Testing Adversary ( http://arxiv.org/abs/2102.08308v1 )

ライセンス: Link先を確認
Ecenaz Erdemir and Pier Luigi Dragotti and Deniz Gunduz(参考訳) 利用者は、サービス見返りにいくつかの個人情報を含むデータを公開する。 我々は,ユーザの個人情報を2つの相関確率変数としてモデル化し,そのうちの1つは秘密変数と呼ばれ,もう1つは有用変数と呼ばれ,実用のために開示される。 アクティブシーケンシャルデータリリース(Active sequence data release)を検討し、各ステップにおいて、ユーザーは有限なリリースメカニズムの中から選択し、それぞれがユーザーの個人情報、すなわち真の仮説に関する情報を異なる統計で明らかにする。 ユーザは、潜在有用な変数について最大情報量を明らかにするようにオンライン形式でデータリリースを管理し、また、センシティブな変数に対する信頼度を予め定義されたレベル以下に保持する。 本研究では,有用変数を正しく検出する確率と,有用変数と解放されたデータとの間の相互情報(MI)について考察する。 両方の問題をマルコフ決定プロセス(MDP)として定式化し、アドバンテージアクタークリティカル(A2C)深層強化学習(RL)により数値的に解く。

We consider a user releasing her data containing some personal information in return of a service. We model user's personal information as two correlated random variables, one of them, called the secret variable, is to be kept private, while the other, called the useful variable, is to be disclosed for utility. We consider active sequential data release, where at each time step the user chooses from among a finite set of release mechanisms, each revealing some information about the user's personal information, i.e., the true hypotheses, albeit with different statistics. The user manages data release in an online fashion such that maximum amount of information is revealed about the latent useful variable, while his confidence for the sensitive variable is kept below a predefined level. For the utility, we consider both the probability of correct detection of the useful variable and the mutual information (MI) between the useful variable and released data. We formulate both problems as a Markov decision process (MDP), and numerically solve them by advantage actor-critic (A2C) deep reinforcement learning (RL).
翻訳日:2021-02-17 15:09:07 公開日:2021-02-16
# レート歪理論によるモデル圧縮の逐次プルーニング

Successive Pruning for Model Compression via Rate Distortion Theory ( http://arxiv.org/abs/2102.08329v1 )

ライセンス: Link先を確認
Berivan Isik, Albert No, Tsachy Weissman(参考訳) ニューラルネットワーク(NN)圧縮は、リソース制約のあるデバイスにオーバーパラメータ化されたNNモデルをデプロイ可能にするために不可欠です。 シンプルで実装が容易な方法として、pruningは最も確立されたNN圧縮技術の1つです。 30年以上の歴史を持つ成熟した方法ですが、攻撃的な圧縮比でもプーニングがうまく機能する理由の優れた理解と体系的な分析がまだありません。 本研究では,nn圧縮の理論的限界を達成するために,nn圧縮を情報理論的な手法で検討し,レート歪み理論がpruningを示唆することを示す。 我々の導出は、新しいプルーニング戦略を含むエンドツーエンドの圧縮パイプラインも提供する。 つまり、モデルをプルーニングすることに加えて、エントロピーコーディングを通じて、最小長のバイナリ表現も見つけることができる。 本手法は,既存のプルーニング戦略を一貫して上回り,プルーニングモデルのサイズを2.5倍小さくする。 5つの異なるアーキテクチャを用いて,MNIST,CIFAR-10,ImageNetデータセット上での戦略の有効性を評価した。

Neural network (NN) compression has become essential to enable deploying over-parameterized NN models on resource-constrained devices. As a simple and easy-to-implement method, pruning is one of the most established NN compression techniques. Although it is a mature method with more than 30 years of history, there is still a lack of good understanding and systematic analysis of why pruning works well even with aggressive compression ratios. In this work, we answer this question by studying NN compression from an information-theoretic approach and show that rate distortion theory suggests pruning to achieve the theoretical limits of NN compression. Our derivation also provides an end-to-end compression pipeline involving a novel pruning strategy. That is, in addition to pruning the model, we also find a minimum-length binary representation of it via entropy coding. Our method consistently outperforms the existing pruning strategies and reduces the pruned model's size by 2.5 times. We evaluate the efficacy of our strategy on MNIST, CIFAR-10 and ImageNet datasets using 5 distinct architectures.
翻訳日:2021-02-17 15:08:48 公開日:2021-02-16
# 教師・学生モデルを用いた現実的データセットの汎用機能マップの学習曲線のキャプチャ

Capturing the learning curves of generic features maps for realistic data sets with a teacher-student model ( http://arxiv.org/abs/2102.08127v1 )

ライセンス: Link先を確認
Bruno Loureiro, C\'edric Gerbelot, Hugo Cui, Sebastian Goldt, Florent Krzakala, Marc M\'ezard, Lenka Zdeborov\'a(参考訳) 教師学生モデルは、高次元教師付き学習タスクの典型的なケースパフォーマンスをクローズドな形で研究できる強力なフレームワークを提供する。 この設定では、ラベルはデータに割り当てられ、しばしばガウスのi.i.dとされる。 -教師モデルにより、ラベルを生成するパラメータの復元において、学生モデルの典型的な性能を特徴付けることが目的である。 本稿では,教師と生徒が,固定的だが汎用的な特徴マップを用いて生成した異なる空間上で行動できる,この設定の一般化について論じる。 これは高次元ガウス共変量モデルの厳密な研究によって達成される。 まず、このモデルに対する経験的リスク最小化によって達成された漸近的トレーニング損失と一般化誤差の厳密な公式を証明します。 第二に、モデルの学習曲線がカーネルの回帰と分類で学習した \emph{realistic data set} の1つを、ランダムなプロジェクションや散乱変換などのアウト・オブ・ボックスの特徴マップや、マルチ層ニューラルネットワークのトレーニングによって学習した特徴など、事前学習した特徴マップでキャプチャする多くの状況を示す。 実際のデータセットで実際に遭遇した学習曲線をキャプチャする典型的なケース分析として,ガウス教師学生フレームワークのパワーと限界について論じる。

Teacher-student models provide a powerful framework in which the typical case performance of high-dimensional supervised learning tasks can be studied in closed form. In this setting, labels are assigned to data - often taken to be Gaussian i.i.d. - by a teacher model, and the goal is to characterise the typical performance of the student model in recovering the parameters that generated the labels. In this manuscript we discuss a generalisation of this setting where the teacher and student can act on different spaces, generated with fixed, but generic feature maps. This is achieved via the rigorous study of a high-dimensional Gaussian covariate model. Our contribution is two-fold: First, we prove a rigorous formula for the asymptotic training loss and generalisation error achieved by empirical risk minimization for this model. Second, we present a number of situations where the learning curve of the model captures the one of a \emph{realistic data set} learned with kernel regression and classification, with out-of-the-box feature maps such as random projections or scattering transforms, or with pre-learned ones - such as the features learned by training multi-layer neural networks. We discuss both the power and the limitations of the Gaussian teacher-student framework as a typical case analysis capturing learning curves as encountered in practice on real data sets.
翻訳日:2021-02-17 15:08:33 公開日:2021-02-16
# ログロス下におけるバイナリクラシファイアを用いたマルチクラスクラシファイアの構築

Constructing Multiclass Classifiers using Binary Classifiers Under Log-Loss ( http://arxiv.org/abs/2102.08184v1 )

ライセンス: Link先を確認
Assaf Ben-Yishai and Or Ordentlich(参考訳) バイナリ分類器からのマルチクラス分類器の構築について検討し、ベイズ最適ログ損失に関して定義された後悔によって性能を定量化する。 まず、よく知られたOne vs. All(OVA)メソッドの後悔は、その構成二項分類器の後悔の総和によって上限づけられていることを証明する。 次に、条件付きOVA(COVA)と呼ばれる新しい手法を提案し、その後悔は構成二項分類器に対応する後悔の重み付け和によって与えられることを証明した。 最後に、Leveraged COVA (LCOVA) と呼ばれる手法を提示し、独立して最適化されたバイナリ分類器に分解することで、マルチクラス分類器の後悔を減らす。

The construction of multiclass classifiers from binary classifiers is studied in this paper, and performance is quantified by the regret, defined with respect to the Bayes optimal log-loss. We start by proving that the regret of the well known One vs. All (OVA) method is upper bounded by the sum of the regrets of its constituent binary classifiers. We then present a new method called Conditional OVA (COVA), and prove that its regret is given by the weighted sum of the regrets corresponding to the constituent binary classifiers. Lastly, we present a method termed Leveraged COVA (LCOVA), designated to reduce the regret of a multiclass classifier by breaking it down to independently optimized binary classifiers.
翻訳日:2021-02-17 15:08:08 公開日:2021-02-16
# BERTの関心のヘッドはコンスティテンシー文法を学びましたか?

Have Attention Heads in BERT Learned Constituency Grammar? ( http://arxiv.org/abs/2102.07926v1 )

ライセンス: Link先を確認
Ziyang Luo(参考訳) 近年、事前学習された言語モデルの成功に伴い、より多くの研究者がこれらのモデルの「ブラックボックス」の開放に集中している。 その後、BERTおよびRoBERTaの注目ヘッドにおいて、立法文法の定性的かつ定量的な分析を実施します。 シンタクティック距離法を用いて,各頭部の注意重みから暗黙的構成文法を抽出する。 本研究では, ベースラインよりも優れた文法型を誘導できるヘッドが存在することを示し, あるヘッドが立法文法の代名詞として働くことを示唆した。 また,テキストの類似性(SMS)タスクと自然言語推論(NLI)タスクを含む2種類のタスクを微調整した後に,注目者の選択文法(CGI)能力がどのように変化するかを分析する。 本研究では, SMSタスクが上位層の平均CGI能力を低下させ, NLIタスクが増加することを示唆した。 最後に,QQPタスクとMNLIタスクのCGI能力と自然言語理解能力の関係について検討する。

With the success of pre-trained language models in recent years, more and more researchers focus on opening the "black box" of these models. Following this interest, we carry out a qualitative and quantitative analysis of constituency grammar in attention heads of BERT and RoBERTa. We employ the syntactic distance method to extract implicit constituency grammar from the attention weights of each head. Our results show that there exist heads that can induce some grammar types much better than baselines, suggesting that some heads act as a proxy for constituency grammar. We also analyze how attention heads' constituency grammar inducing (CGI) ability changes after fine-tuning with two kinds of tasks, including sentence meaning similarity (SMS) tasks and natural language inference (NLI) tasks. Our results suggest that SMS tasks decrease the average CGI ability of upper layers, while NLI tasks increase it. Lastly, we investigate the connections between CGI ability and natural language understanding ability on QQP and MNLI tasks.
翻訳日:2021-02-17 15:07:43 公開日:2021-02-16
# NoiseQA: ユーザ中心質問応答のための課題セット評価

NoiseQA: Challenge Set Evaluation for User-Centric Question Answering ( http://arxiv.org/abs/2102.08345v1 )

ライセンス: Link先を確認
Abhilasha Ravichander, Siddharth Dalmia, Maria Ryskina, Florian Metze, Eduard Hovy, Alan W Black(参考訳) 質問応答システム(QA)が現実世界に展開されると、ユーザーは音声アシスタントに話しかけたり、質問を検索エンジンに入力したり、質問をQAシステムでサポートされている言語に翻訳したりといった様々なインターフェースを通じて質問を行う。 完全生成された疑問を仮定する通路内の正解の同定にコミュニティの注目が集まっているが, 応答エンジンに先行するパイプラインの部品は, 様々な, かなりの誤差源を導入でき, 強力な事前学習型QAモデルであっても, 上流雑音源に基づいて性能を著しく劣化させることができることを示す。 QAシステムが効果的にデプロイされるまでには、進展の余地が十分にあると結論付け、現実世界の使用を検討するためにQA評価を拡大する必要があることを強調し、私たちの調査結果は、システムが実際に人間に有用である必要があるときに発生する問題に対するコミュニティの関心を高めることを願っています。

When Question-Answering (QA) systems are deployed in the real world, users query them through a variety of interfaces, such as speaking to voice assistants, typing questions into a search engine, or even translating questions to languages supported by the QA system. While there has been significant community attention devoted to identifying correct answers in passages assuming a perfectly formed question, we show that components in the pipeline that precede an answering engine can introduce varied and considerable sources of error, and performance can degrade substantially based on these upstream noise sources even for powerful pre-trained QA models. We conclude that there is substantial room for progress before QA systems can be effectively deployed, highlight the need for QA evaluation to expand to consider real-world use, and hope that our findings will spur greater community interest in the issues that arise when our systems actually need to be of utility to humans.
翻訳日:2021-02-17 15:07:24 公開日:2021-02-16
# 継続的タスクにおけるアドバイザーによるドメイン知識の伝達

Transferring Domain Knowledge with an Adviser in Continuous Tasks ( http://arxiv.org/abs/2102.08029v1 )

ライセンス: Link先を確認
Rukshan Wijesinghe, Kasun Vithanage, Dumindu Tissera, Alex Xavier, Subha Fernando and Jayathu Samarawickrama(参考訳) 最近の強化学習(rl)の進歩は、多くのシミュレーション環境において人間レベルの性能を上回っている。 しかし、既存の強化学習技術は、既に知られているドメイン固有の知識を学習プロセスに明示的に組み込むことができない。 したがってエージェントは、試行錯誤のアプローチを通じてドメインの知識を独立して探究し、学習しなければならない。 そこで我々は,Deep Deterministic Policy Gradient (DDPG)アルゴリズムを適応させ,エージェントの学習プロセスを強化するために,事前学習されたポリシーや事前定義された関係の形式でドメイン知識の統合を可能にするアドバイザーを組み込む。 OpenAi Gymベンチマークタスクの私たちの実験は、アドバイザーによるドメイン知識の統合が学習を迅速化し、より良い最適化に向けたポリシーを改善することを示しています。

Recent advances in Reinforcement Learning (RL) have surpassed human-level performance in many simulated environments. However, existing reinforcement learning techniques are incapable of explicitly incorporating already known domain-specific knowledge into the learning process. Therefore, the agents have to explore and learn the domain knowledge independently through a trial and error approach, which consumes both time and resources to make valid responses. Hence, we adapt the Deep Deterministic Policy Gradient (DDPG) algorithm to incorporate an adviser, which allows integrating domain knowledge in the form of pre-learned policies or pre-defined relationships to enhance the agent's learning process. Our experiments on OpenAi Gym benchmark tasks show that integrating domain knowledge through advisers expedites the learning and improves the policy towards better optima.
翻訳日:2021-02-17 15:07:07 公開日:2021-02-16
# 遺伝的アルゴリズム, ニューラルネットワーク, ファジィ論理の融合に基づく技術設計

Design a Technology Based on the Fusion of Genetic Algorithm, Neural network and Fuzzy logic ( http://arxiv.org/abs/2102.08035v1 )

ライセンス: Link先を確認
Raid R. Al-Nima, Fawaz S. Abdullah, Ali N. Hamoodi(参考訳) 本稿では,遺伝的アルゴリズム,ニューラルネットワーク,ファジィ論理の融合に基づく人工知能のプロトタイプ手法の設計と開発について述べる。 まず、ニューラルネットワークとファジィロジックの関係を確立することから始めます。 そして、遺伝的アルゴリズムをそれらと組み合わせます。 情報融合は信頼度レベルにあり、スコアを報告して議論することができる。 この技術はGNF(Genetic Neuro-Fuzzy)と呼ばれる。 高精度なリアルタイム環境に利用することができる。

This paper describes the design and development of a prototype technique for artificial intelligence based on the fusion of genetic algorithm, neural network and fuzzy logic. It starts by establishing a relationship between the neural network and fuzzy logic. Then, it combines the genetic algorithm with them. Information fusions are at the confidence level, where matching scores can be reported and discussed. The technique is called the Genetic Neuro-Fuzzy (GNF). It can be used for high accuracy real-time environments.
翻訳日:2021-02-17 15:06:53 公開日:2021-02-16
# 議論に基づく情報分析のための情報価値

Value of Information for Argumentation based Intelligence Analysis ( http://arxiv.org/abs/2102.08180v1 )

ライセンス: Link先を確認
Todd Robinson(参考訳) argumentationは、これらの引数間の引数とアタックの表現を提供する。 議論は、結論に達する証拠よりも推論過程を表すのに使うことができる。 このような推論プロセスにおいて、情報の価値を理解することは、推論プロセスの出力に基づいて意思決定の質を向上させることができる。 情報の項目の価値は、本質的に利用可能な証拠と推論によって答えられる質問に依存します。 本稿では,フレームワーク内の引数の有限集合内でもっとも価値のある引数を特定するための議論フレームワークの情報の価値と,評価の出力を変更するために追加できる議論と攻撃について紹介する。 海洋領域におけるインテリジェンス分析を表す引数フレームワーク内の情報の価値を示す。 インテリジェンス分析における情報の価値を理解することで、アナリストは収集のコストとリスクに対する価値のバランスをとることができ、仮説分析の信頼性を高めるために、より効果的なインテリジェンスの収集を要求できる。

Argumentation provides a representation of arguments and attacks between these arguments. Argumentation can be used to represent a reasoning process over evidence to reach conclusions. Within such a reasoning process, understanding the value of information can improve the quality of decision making based on the output of the reasoning process. The value of an item of information is inherently dependent on the available evidence and the question being answered by the reasoning. In this paper we introduce a value of information on argument frameworks to identify the most valuable arguments within the finite set of arguments in the framework, and the arguments and attacks which could be added to change the output of an evaluation. We demonstrate the value of information within an argument framework representing an intelligence analysis in the maritime domain. Understanding the value of information in an intelligence analysis will allow analysts to balance the value against the costs and risks of collection, to effectively request further collection of intelligence to increase the confidence in the analysis of hypotheses.
翻訳日:2021-02-17 15:06:47 公開日:2021-02-16
# マルチエージェントを用いたタスク割当の動的近傍最適化

Dynamic neighbourhood optimisation for task allocation using multi-agent ( http://arxiv.org/abs/2102.08307v1 )

ライセンス: Link先を確認
Niall Creech, Natalia Criado Pacheco, Simon Miles(参考訳) 大規模システムでは、タスク割り当てに集中型技術を使用する場合、根本的な課題がある。 インタラクションの数は、計算、ストレージ、ネットワーク通信などのリソース制約によって制限されます。 分散タスク割り当てシステムとしてシステムを実装することでスケーラビリティを向上させることができ、多くのエージェント間でタスクを共有することができる。 しかし、これは通信と同期のリソースコストを増加させ、スケールアップが困難である。 本稿では,これらの問題を解くための4つのアルゴリズムを提案する。 これらのアルゴリズムの組み合わせにより、各エージェントは強化学習を通じてタスク割り当て戦略を改善し、過去の経験から、現在の戦略がどの程度最適かに応じて、システムの探索量を変更することができます。 エージェントの振る舞いがリソースの使用制限によって制限される分散エージェントシステムに注目し,エージェントをシステム全体の知識よりもローカルに制限する。 エージェントが複数のサブタスクからなるタスクを、異なる能力を持つ他のエージェントに割り当てなければならないというシミュレーション環境で、これらのアルゴリズムを評価し、そのタスクを実行する。 また,ネットワーク不安定性などの実生活システム効果をシミュレートする。 提案手法は,システム構成の理論的最適値の6.7%までタスク割当問題を解決できることが示される。 システム接続が影響を受ける場合、知識を持たない保持アプローチよりも5倍パフォーマンスを回復し、アルゴリズムのパフォーマンスに9%未満の影響のある最大100のエージェントに対してテストされる。

In large-scale systems there are fundamental challenges when centralised techniques are used for task allocation. The number of interactions is limited by resource constraints such as on computation, storage, and network communication. We can increase scalability by implementing the system as a distributed task-allocation system, sharing tasks across many agents. However, this also increases the resource cost of communications and synchronisation, and is difficult to scale. In this paper we present four algorithms to solve these problems. The combination of these algorithms enable each agent to improve their task allocation strategy through reinforcement learning, while changing how much they explore the system in response to how optimal they believe their current strategy is, given their past experience. We focus on distributed agent systems where the agents' behaviours are constrained by resource usage limits, limiting agents to local rather than system-wide knowledge. We evaluate these algorithms in a simulated environment where agents are given a task composed of multiple subtasks that must be allocated to other agents with differing capabilities, to then carry out those tasks. We also simulate real-life system effects such as networking instability. Our solution is shown to solve the task allocation problem to 6.7% of the theoretical optimal within the system configurations considered. It provides 5x better performance recovery over no-knowledge retention approaches when system connectivity is impacted, and is tested against systems up to 100 agents with less than a 9% impact on the algorithms' performance.
翻訳日:2021-02-17 15:06:32 公開日:2021-02-16
# 動的マルチエージェントシステムにおける資源配分

Resource allocation in dynamic multiagent systems ( http://arxiv.org/abs/2102.08317v1 )

ライセンス: Link先を確認
Niall Creech, Natalia Criado Pacheco, Simon Miles(参考訳) リソースの割り当てとタスクの優先順位付けは、自動運転車、ネットワーク、クラウドコンピューティングの分野で重要な問題領域です。 効率的で堅牢なアルゴリズムを開発する上での課題は、これらのシステムの動的性質から来ており、多くのコンポーネントが複雑な方法で通信および相互作用しています。 本稿では,多群資源割当最適化(MG-RAO)アルゴリズムを用いて,時間とともに資源需要を近似し,強化学習手法を用いて資源割当を最適化する手法を開発した。 この方法は、共有リソースやタスク優先問題に対して競合する要求がある場合に適用される。 複数の競合するエージェントを含むシミュレーション環境で評価を行う。 我々は、新しいアルゴリズムを、子エージェントが割り当て可能なすべてのタスクに対して、リソースを均一に分散するアプローチと比較する。 また,エージェント群に対して資源割当を別々にモデル化するアルゴリズムの性能を比較検討し,すべてのエージェントに対して協調的にモデル化する。 MG-RAOアルゴリズムは、シミュレーション環境での固定資源割り当てよりも23~28%改善している。 また、揮発性システムでは、mg-raoアルゴリズムを用いて、子エージェントがすべてのエージェントのリソース割り当てをモデル化するように構成されているため、複数のエージェント群をモデル化するときのパフォーマンスは46.5%である。 これらの結果は,マルチエージェントシステムにおける資源配分問題の解法と,動的環境下での良好な性能を示すものである。

Resource allocation and task prioritisation are key problem domains in the fields of autonomous vehicles, networking, and cloud computing. The challenge in developing efficient and robust algorithms comes from the dynamic nature of these systems, with many components communicating and interacting in complex ways. The multi-group resource allocation optimisation (MG-RAO) algorithm we present uses multiple function approximations of resource demand over time, alongside reinforcement learning techniques, to develop a novel method of optimising resource allocation in these multi-agent systems. This method is applicable where there are competing demands for shared resources, or in task prioritisation problems. Evaluation is carried out in a simulated environment containing multiple competing agents. We compare the new algorithm to an approach where child agents distribute their resources uniformly across all the tasks they can be allocated. We also contrast the performance of the algorithm where resource allocation is modelled separately for groups of agents, as to being modelled jointly over all agents. The MG-RAO algorithm shows a 23 - 28% improvement over fixed resource allocation in the simulated environments. Results also show that, in a volatile system, using the MG-RAO algorithm configured so that child agents model resource allocation for all agents as a whole has 46.5% of the performance of when it is set to model multiple groups of agents. These results demonstrate the ability of the algorithm to solve resource allocation problems in multi-agent systems and to perform well in dynamic environments.
翻訳日:2021-02-17 15:06:10 公開日:2021-02-16
# MITNet:複雑なCNNに基づくGAN強化磁気誘導トモグラフィ

MITNet: GAN Enhanced Magnetic Induction Tomography Based on Complex CNN ( http://arxiv.org/abs/2102.07911v1 )

ライセンス: Link先を確認
Zuohui Chen, Qing Yuan, Xujie Song, Cheng Chen, Dan Zhang, Yun Xiang, Ruigang Liu, and Qi Xuan(参考訳) 磁気誘導トモグラフィ(MIT)は、非侵襲的な電磁場を用いたヒト脳内の生体インピーダンス分布の再構築に焦点を当てた長期脳疾患モニタリングのための効率的なソリューションです。 しかし、計測された弱信号からの画像再構成は高度に非線形で不調な問題であるため、高品質な脳画像再構成は依然として困難である。 本研究では,複合畳み込みニューラルネットワーク(CNN)を基盤として,GAN(ジェネレーション・アドバーサリ・ネットワーク)強化MIT技術であるMITNet(MITNet)を提案する。 実世界のデータセットによる実験結果から,最先端の手法を25.27%上回る性能が得られた。

Magnetic induction tomography (MIT) is an efficient solution for long-term brain disease monitoring, which focuses on reconstructing bio-impedance distribution inside the human brain using non-intrusive electromagnetic fields. However, high-quality brain image reconstruction remains challenging since reconstructing images from the measured weak signals is a highly non-linear and ill-conditioned problem. In this work, we propose a generative adversarial network (GAN) enhanced MIT technique, named MITNet, based on a complex convolutional neural network (CNN). The experimental results on the real-world dataset validate the performance of our technique, which outperforms the state-of-art method by 25.27%.
翻訳日:2021-02-17 15:04:56 公開日:2021-02-16
# 人物検索のためのマルチ属性強化ネットワーク

Multi-Attribute Enhancement Network for Person Search ( http://arxiv.org/abs/2102.07968v1 )

ライセンス: Link先を確認
Lequan Chen, Wei Xie, Zhigang Tu, Yaping Tao, Xinming Wang(参考訳) Person Searchは、対象者を多数の未切断画像に配置するRe-ID(Person Detection and Person Re-identification)の問題を共同で解決するように設計されている。 過去数年間、ディープラーニングに基づく人物検索は大きな進歩を遂げてきた。 視覚的な文字属性は、Re-IDで検索されたが、Person Searchで無視されたクエリ人物を取得する上で重要な役割を果たします。 そこで本研究では,属性学習をモデルに導入し,属性特徴を検索タスクに活用する。 具体的には,局所的な特徴を学習するために属性タグを導入するマルチ属性拡張(mae)と呼ばれるシンプルで効果的なモデルを提案する。 歩行者のグローバルな表現を学ぶことに加えて、局所的な表現を学習し、2つの側面を組み合わせて堅牢な特徴を学習し、検索パフォーマンスを促進する。 さらに,既存のベンチマークデータセットであるCUHK-SYSUとPRWにおけるモジュールの有効性を検証する。 特にCUHK-SYSUでは,mAPの91.8%,ランク1の93.0%に達している。 コードとモデルはhttps://github.com/chenlq123/MAEで入手できる。

Person Search is designed to jointly solve the problems of Person Detection and Person Re-identification (Re-ID), in which the target person will be located in a large number of uncut images. Over the past few years, Person Search based on deep learning has made great progress. Visual character attributes play a key role in retrieving the query person, which has been explored in Re-ID but has been ignored in Person Search. So, we introduce attribute learning into the model, allowing the use of attribute features for retrieval task. Specifically, we propose a simple and effective model called Multi-Attribute Enhancement (MAE) which introduces attribute tags to learn local features. In addition to learning the global representation of pedestrians, it also learns the local representation, and combines the two aspects to learn robust features to promote the search performance. Additionally, we verify the effectiveness of our module on the existing benchmark dataset, CUHK-SYSU and PRW. Ultimately, our model achieves state-of-the-art among end-to-end methods, especially reaching 91.8% of mAP and 93.0% of rank-1 on CUHK-SYSU. Codes and models are available at https://github.com/chenlq123/MAE.
翻訳日:2021-02-17 15:04:44 公開日:2021-02-16
# リモートセンシングインジェクションのセマンティックセグメンテーションのためのマルチヘッド注意型特徴ピラミッドネットワーク

Feature Pyramid Network with Multi-Head Attention for Se-mantic Segmentation of Fine-Resolution Remotely Sensed Im-ages ( http://arxiv.org/abs/2102.07997v1 )

ライセンス: Link先を確認
Rui Li, Shunyi Zheng, Chenxi Duan(参考訳) 衛星画像処理では、リモートセンシング画像からセマンティックセグメンテーションを行うことが急務です。 複雑な環境のため、特に精細な解像度を持つ画像では、自動分類とセグメンテーションは難しい課題である。 この問題を解決することは、都市計画、環境保護、自然景観モニタリングにおいて幅広い障害を克服し、完全な風景理解の道を開くのに役立つ。 しかし、既存の頻繁に使用されるエンコーダデコーダ構造は、抽出された空間的および文脈的特徴を効果的に組み合わせることができない。 そこで本稿では,FPN(Feature Pyramid Net-work)を導入し,低レベル特徴と高レベルの特徴のギャップを埋める。 さらに、精巧なマルチヘッドアテンションモジュールでコンテキスト情報を強化し、ファインレゾリューションリモートセンシング画像のセマンティックセグメンテーションのためのマルチヘッドアテンション(FPN-MHA)を備えた特徴ピラミッドネットワークを提案します。 ISPRS PotsdamおよびVaihingenデータセット上で実施された広範な実験は、FPN-MHAの有効性を示しています。 コードはhttps://github.com/lironui/FPN-MHAで入手できる。

Semantic segmentation from fine-resolution remotely sensed images is an urgent issue in satellite imagery processing. Due to the complicated environment, automatic categorization and segmen-tation is a challenging matter especially for images with a fine resolution. Solving it can help to surmount a wide varied range of obstacles in urban planning, environmental protection, and natural landscape monitoring, which paves the way for complete scene understanding. However, the existing frequently-used encoder-decoder structure is unable to effectively combine the extracted spatial and contextual features. Therefore, in this paper, we introduce the Feature Pyramid Net-work (FPN) to bridge the gap between the low-level and high-level features. Moreover, we enhance the contextual information with the elaborate Multi-Head Attention module and propose the Feature Pyramid Network with Multi-Head Attention (FPN-MHA) for semantic segmentation of fine-resolution remotely sensed images. Extensive experiments conducted on the ISPRS Potsdam and Vaihingen datasets demonstrate the effectiveness of our FPN-MHA. Code is available at https://github.com/lironui/FPN-MHA.
翻訳日:2021-02-17 15:04:25 公開日:2021-02-16
# 注意ディクショナリ付きエゴセントリックビデオにおける物体の動作認識の学習

Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries ( http://arxiv.org/abs/2102.08065v1 )

ライセンス: Link先を確認
Swathikiran Sudhakaran and Sergio Escalera and Oswald Lanz(参考訳) 本稿では,アクションラベルの動詞-名詞構造を利用して,フレームレベルの特徴からアクション-コンテキスト-オブジェクト記述子をプールすることを学ぶ,ビデオアクション認識のための深層ニューラルネットワークであるegoacoを提案する。 EgoACOの中核となるコンポーネントはクラスアクティベーションプーリング(CAP)であり、双線形プールから細粒度認識、特徴学習から識別的ローカライゼーションへのアイデアを組み合わせられる。 CAPは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。 CAPを通じて、EgoACOはビデオフレーム機能からオブジェクトとシーンコンテキストディスクリプタをデコードすることを学ぶ。 EgoACOの時系列モデリングでは、Long Short-Term Attention(LSTA)と呼ばれるクラスアクティベーションプールの繰り返しバージョンを設計します。 LSTAは、空間的注意と再設計された出力ゲートを内蔵した畳み込みゲートLSTMを拡張します。 アクション、オブジェクト、コンテキストディスクリプタは、エゴセントリックビデオデータセット内の名詞-動詞-アクション構造ラベル間の依存性を記述したマルチヘッド予測によって融合されます。 EgoACOは、視覚的な説明を内蔵し、学習と解釈を助けます。 EPIC-KITCHENSとEGTEAという、現在利用可能な2つの大きなエゴセントリックなアクション認識データセットの結果は、アクションコンテキストオブジェクト記述子を明示的にデコードすることで、EgoACOが最先端の認識性能を達成することを示している。

We present EgoACO, a deep neural architecture for video action recognition that learns to pool action-context-object descriptors from frame level features by leveraging the verb-noun structure of action labels in egocentric video datasets. The core component of EgoACO is class activation pooling (CAP), a differentiable pooling operation that combines ideas from bilinear pooling for fine-grained recognition and from feature learning for discriminative localization. CAP uses self-attention with a dictionary of learnable weights to pool from the most relevant feature regions. Through CAP, EgoACO learns to decode object and scene context descriptors from video frame features. For temporal modeling in EgoACO, we design a recurrent version of class activation pooling termed Long Short-Term Attention (LSTA). LSTA extends convolutional gated LSTM with built-in spatial attention and a re-designed output gate. Action, object and context descriptors are fused by a multi-head prediction that accounts for the inter-dependencies between noun-verb-action structured labels in egocentric video datasets. EgoACO features built-in visual explanations, helping learning and interpretation. Results on the two largest egocentric action recognition datasets currently available, EPIC-KITCHENS and EGTEA, show that by explicitly decoding action-context-object descriptors, EgoACO achieves state-of-the-art recognition performance.
翻訳日:2021-02-17 15:04:05 公開日:2021-02-16
# Restore from Restored: Single-image Inpainting

Restore from Restored: Single-image Inpainting ( http://arxiv.org/abs/2102.08078v1 )

ライセンス: Link先を確認
Eun Hye Lee, Jeong Mu Kim, Ji Su Kim, Tae Hyun Kim(参考訳) 最近の画像インペイント手法は、大規模なトレーニングデータセットから得られる外部情報を探索できるディープラーニングのパワーにより、有望な結果を示す。 しかし、最先端のインペインティングネットワークの多くは、テスト時に与えられた入力画像で利用可能な内部情報を活用できない。 この問題を解決するため,本研究では,事前学習したネットワークのパラメータを,地中清浄画像を用いずに適応させることのできる,新規で効率的な自己教師付き微調整アルゴリズムを提案する。 ネットワークアーキテクチャを変更することなく、入力画像内の既存の自己相似パッチを利用することで、事前学習ネットワークのパラメータをアップグレードする。 定性的かつ定量的な実験結果から,提案アルゴリズムの優位性を実証し,多数のベンチマークデータセットに対する最先端の塗装結果を得る。

Recent image inpainting methods show promising results due to the power of deep learning, which can explore external information available from a large training dataset. However, many state-of-the-art inpainting networks are still limited in exploiting internal information available in the given input image at test time. To mitigate this problem, we present a novel and efficient self-supervised fine-tuning algorithm that can adapt the parameters of fully pretrained inpainting networks without using ground-truth clean image in this work. We upgrade the parameters of the pretrained networks by utilizing existing self-similar patches within the given input image without changing network architectures. Qualitative and quantitative experimental results demonstrate the superiority of the proposed algorithm and we achieve state-of-the-art inpainting results on publicly available numerous benchmark datasets.
翻訳日:2021-02-17 15:03:39 公開日:2021-02-16
# 自己監視型検出前訓練のためのインスタンスローカリゼーション

Instance Localization for Self-supervised Detection Pretraining ( http://arxiv.org/abs/2102.08318v1 )

ライセンス: Link先を確認
Ceyuan Yang, Zhirong Wu, Bolei Zhou, Stephen Lin(参考訳) 自己教師付き学習に関する以前の研究は、画像分類においてかなりの進歩をもたらしたが、しばしばオブジェクト検出における劣化した転送性能をもたらす。 本論文の目的は、オブジェクト検出に特化した自己監視型事前訓練モデルを推進することである。 分類と検出の固有の違いに基づいて,インスタンスローカライゼーションと呼ばれる新しい自己教師付きプリテキストタスクを提案する。 画像インスタンスは様々な場所でペーストされ、背景画像にスケールされる。 プリテキストタスクは、合成画像と前景境界ボックスが与えられたインスタンスカテゴリを予測することである。 境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。 さらに,機能アライメントをさらに強化するために,境界ボックス上の拡張手法を提案する。 その結果、画像ネットのセマンティクス分類では弱くなるが、画像パッチのローカライズでは強くなり、オブジェクト検出のためのより強固な事前学習モデルが得られた。 実験の結果,PASCAL VOCおよびMSCOCOにおける物体検出のための最先端の移動学習結果が得られた。

Prior research on self-supervised learning has led to considerable progress on image classification, but often with degraded transfer performance on object detection. The objective of this paper is to advance self-supervised pretrained models specifically for object detection. Based on the inherent difference between classification and detection, we propose a new self-supervised pretext task, called instance localization. Image instances are pasted at various locations and scales onto background images. The pretext task is to predict the instance category given the composited images as well as the foreground bounding boxes. We show that integration of bounding boxes into pretraining promotes better task alignment and architecture alignment for transfer learning. In addition, we propose an augmentation method on the bounding boxes to further enhance the feature alignment. As a result, our model becomes weaker at Imagenet semantic classification but stronger at image patch localization, with an overall stronger pretrained model for object detection. Experimental results demonstrate that our approach yields state-of-the-art transfer learning results for object detection on PASCAL VOC and MSCOCO.
翻訳日:2021-02-17 15:03:23 公開日:2021-02-16
# 推薦理由生成のためのユーザインスパイア後続ネットワーク

User-Inspired Posterior Network for Recommendation Reason Generation ( http://arxiv.org/abs/2102.07919v1 )

ライセンス: Link先を確認
Haolan Zhan, Hainan Zhang, Hongshen Chen, Lei Shen, Yanyan Lan, Zhuoye Ding, Dawei Yin(参考訳) 顧客向け製品のセールスポイント提示を目的としたレコメンデーション理由生成は,ユーザの注意を引き付け,ユーザエクスペリエンスを向上させる上で重要な役割を担っている。 シンプルで効果的な方法は、推薦理由として、製品の知識ベース、すなわち属性やタイトルから直接キーワードを抽出することである。 しかし、製品知識からレコメンデーションの理由を生み出すことは、ユーザの興味に自然に反応しない。 幸運なことに、一部のEコマースのウェブサイトでは、ユーザ主導の側面を反映した製品質問回答(QA)議論という、ユーザ生成コンテンツ(略してユーザコンテンツ)がますます多く存在する。 そこで本稿では,製品属性だけでなく,顧客生成製品QAに関する議論も考慮して,レコメンデーション理由の生成を検討する。 実際には、適切なユーザーコンテンツは最も人気のある商品にのみ可能ですが、大量のロングテール製品や新製品は十分な数のユーザーコンテンツを集めることができません。 そこで本研究では,ユーザインスパイアされたマルチソース後部トランス(MSPT)を提案し,後部複数QAディスカッションモジュールを用いてユーザの関心を反映したモデルを生成し,製品属性とユーザケアされた側面を含む推奨理由を生成する。 実験の結果,本モデルは従来の生成モデルよりも優れていることがわかった。 さらに、この分析は、私たちのモデルがベースラインよりもユーザー重視の側面に集中できることも示しています。

Recommendation reason generation, aiming at showing the selling points of products for customers, plays a vital role in attracting customers' attention as well as improving user experience. A simple and effective way is to extract keywords directly from the knowledge-base of products, i.e., attributes or title, as the recommendation reason. However, generating recommendation reason from product knowledge doesn't naturally respond to users' interests. Fortunately, on some E-commerce websites, there exists more and more user-generated content (user-content for short), i.e., product question-answering (QA) discussions, which reflect user-cared aspects. Therefore, in this paper, we consider generating the recommendation reason by taking into account not only the product attributes but also the customer-generated product QA discussions. In reality, adequate user-content is only possible for the most popular commodities, whereas large sums of long-tail products or new products cannot gather a sufficient number of user-content. To tackle this problem, we propose a user-inspired multi-source posterior transformer (MSPT), which induces the model reflecting the users' interests with a posterior multiple QA discussions module, and generating recommendation reasons containing the product attributes as well as the user-cared aspects. Experimental results show that our model is superior to traditional generative models. Additionally, the analysis also shows that our model can focus more on the user-cared aspects than baselines.
翻訳日:2021-02-17 15:02:50 公開日:2021-02-16
# 確率環境下でのプライベートオンライン学習のための最適アルゴリズム

Optimal Algorithms for Private Online Learning in a Stochastic Environment ( http://arxiv.org/abs/2102.07929v1 )

ライセンス: Link先を確認
Bingshan Hu and Zhiming Huang and Nishant A. Mehta(参考訳) 私たちは、プライベート確率オンライン学習の2つのバリエーションを検討します。 最初の変種は、差動的にプライベートな確率的バンドである。 Sajed and Sheffet (2019)はDP-SEアルゴリズムを考案し、O \biggl(\sum\limits_{1\le j \le K: \Delta_j >0} \frac{ \log T}{ \Delta_j} + \frac{ K\log T}{\epsilon} \biggr)$ problem-dependent regret bound, where $K$ is the number of arms, $\Delta_j$ is the mean reward gap of arm $j$, $T$ is the time horizon, $\epsilon$ is the privacy parameter。 しかし、他の除去スタイルアルゴリズムと同様に、これは時限アルゴリズムではない。 これまで、UCBベースのアルゴリズムがこの最適な後悔の限界を達成できるかどうかは分かっていなかった。 最適性を実現するUCBベースのアルゴリズムを随時発表します。 実験の結果,本アルゴリズムはdp-seと競合することがわかった。 第二の変種は、プライベート確率オンライン学習の完全な情報バージョンです。 具体的には、確率的報酬による決定理論的オンライン学習の問題に対して、$ O \left( \frac{ \log K}{ \Delta_{\min}} + \frac{ \log K}{\epsilon} \right)$ 後悔有界($\Delta_{\min}$ が最小平均報酬ギャップである)を実現する最初のアルゴリズムを提示する。 両方の設定における私たちの良い理論的保証の背後にある重要なアイデアは、忘れること、すなわち、最初に得られたすべての観察ではなく、一定量の新しく得られた観測に基づいて決定が行われます。

We consider two variants of private stochastic online learning. The first variant is differentially private stochastic bandits. Previously, Sajed and Sheffet (2019) devised the DP Successive Elimination (DP-SE) algorithm that achieves the optimal $ O \biggl(\sum\limits_{1\le j \le K: \Delta_j >0} \frac{ \log T}{ \Delta_j} + \frac{ K\log T}{\epsilon} \biggr)$ problem-dependent regret bound, where $K$ is the number of arms, $\Delta_j$ is the mean reward gap of arm $j$, $T$ is the time horizon, and $\epsilon$ is the required privacy parameter. However, like other elimination style algorithms, it is not an anytime algorithm. Until now, it was not known whether UCB-based algorithms could achieve this optimal regret bound. We present an anytime, UCB-based algorithm that achieves optimality. Our experiments show that the UCB-based algorithm is competitive with DP-SE. The second variant is the full information version of private stochastic online learning. Specifically, for the problems of decision-theoretic online learning with stochastic rewards, we present the first algorithm that achieves an $ O \left( \frac{ \log K}{ \Delta_{\min}} + \frac{ \log K}{\epsilon} \right)$ regret bound, where $\Delta_{\min}$ is the minimum mean reward gap. The key idea behind our good theoretical guarantees in both settings is the forgetfulness, i.e., decisions are made based on a certain amount of newly obtained observations instead of all the observations obtained from the very beginning.
翻訳日:2021-02-17 15:01:19 公開日:2021-02-16
# 正規化最大形推定によるオフラインモデルベース最適化

Offline Model-Based Optimization via Normalized Maximum Likelihood Estimation ( http://arxiv.org/abs/2102.07970v1 )

ライセンス: Link先を確認
Justin Fu and Sergey Levine(参考訳) この研究では、固定された点のクエリのみを与えられた関数を最大化しなければならないデータ駆動最適化問題を考える。 この問題の設定は、材料、車両、ニューラルネットワークアーキテクチャの設計など、機能評価が複雑で高価なプロセスである多くの領域で発生します。 利用可能なデータは典型的には入力空間の小さな多様体のみをカバーしているため、単純なオプティマイザは推定モデルを利用して逆入力を返却できるため、不確実性や分布外値を推論できるアルゴリズムを構築することが主な課題である。 我々は,不確実性やアウト・オブ・ディストリビューションの入力を扱うための原則的アプローチを提供する正規化最大形推定器(NML)を活用することで,この問題に対処することを提案する。 標準の定式化ではNMLは難解であるが,本手法を大容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。 本手法は, 化学, 生物学, 材料工学など, 様々な分野における高次元設計問題を効果的に最適化できることを実証する。

In this work we consider data-driven optimization problems where one must maximize a function given only queries at a fixed set of points. This problem setting emerges in many domains where function evaluation is a complex and expensive process, such as in the design of materials, vehicles, or neural network architectures. Because the available data typically only covers a small manifold of the possible space of inputs, a principal challenge is to be able to construct algorithms that can reason about uncertainty and out-of-distribution values, since a naive optimizer can easily exploit an estimated model to return adversarial inputs. We propose to tackle this problem by leveraging the normalized maximum-likelihood (NML) estimator, which provides a principled approach to handling uncertainty and out-of-distribution inputs. While in the standard formulation NML is intractable, we propose a tractable approximation that allows us to scale our method to high-capacity neural network models. We demonstrate that our method can effectively optimize high-dimensional design problems in a variety of disciplines such as chemistry, biology, and materials engineering.
翻訳日:2021-02-17 15:00:34 公開日:2021-02-16
# フラクショナル圧縮オートエンコーダを用いた直交特徴に基づく脳波信号検出

Orthogonal Features-based EEG Signal Denoising using Fractionally Compressed AutoEncoder ( http://arxiv.org/abs/2102.08083v1 )

ライセンス: Link先を確認
Subham Nagar, Ahlad Kumar, M.N.S. Swamy(参考訳) eeg(denoising electroencephalogram)信号の解法として分数ベースの圧縮オートエンコーダアーキテクチャが導入された。 アーキテクチャでは、バックプロパゲーションプロセス中の勾配を計算するために分数計算を使い、結果として分数次($\alpha$)という形の新しいハイパーパラメータが導入され、最適な分数性能を得るように調整できる。 さらに、メモリリソースのかなりの使用を避けるために、モデルは入力としてTchebichefモーメントの形で直交機能を使用します。 直交的な特徴は入力段階で圧縮を達成するのに使われてきた。 低エネルギーデバイスの利用の増加を考えると、ニューラルネットワークの圧縮は必須となる。 ここでは、トレーニング中にランダム化特異値分解(RSVD)アルゴリズムを用いてオートエンコーダの重みを圧縮し、様々な圧縮比を用いて評価を行う。 実験の結果,提案する分数圧縮アーキテクチャは,既存の手法と比較して,標準データセットの分数化結果を改善した。

A fractional-based compressed auto-encoder architecture has been introduced to solve the problem of denoising electroencephalogram (EEG) signals. The architecture makes use of fractional calculus to calculate the gradients during the backpropagation process, as a result of which a new hyper-parameter in the form of fractional order ($\alpha$) has been introduced which can be tuned to get the best denoising performance. Additionally, to avoid substantial use of memory resources, the model makes use of orthogonal features in the form of Tchebichef moments as input. The orthogonal features have been used in achieving compression at the input stage. Considering the growing use of low energy devices, compression of neural networks becomes imperative. Here, the auto-encoder's weights are compressed using the randomized singular value decomposition (RSVD) algorithm during training while evaluation is performed using various compression ratios. The experimental results show that the proposed fractionally compressed architecture provides improved denoising results on the standard datasets when compared with the existing methods.
翻訳日:2021-02-17 15:00:16 公開日:2021-02-16
# 効率的な機械学習のためのメッセージパッシングDescent

Message Passing Descent for Efficient Machine Learning ( http://arxiv.org/abs/2102.08110v1 )

ライセンス: Link先を確認
Francesco Concetti, Michael Chertkov(参考訳) 本稿では,機械学習における"bf data-fitting} (df)問題に対する新しい反復最適化手法を提案する。 ニューラルネットワーク(NN)のトレーニング。 このアプローチは DF 問題の {\bf Graphical Model} (GM) 表現に依存しており、変数は適合パラメータであり、要素は入力出力 (IO) データに関連付けられている。 GM は IO サンプルの数が適合パラメータの数よりも遥かに大きい場合に、実際に重要な場合に対応する {\bf Large Deviation Limit} で考慮された {\bf Belief Propagation} 方程式を導出する。 本稿では,モデルDF関数の分節的表現に依存した {\bf Message Passage Descent} アルゴリズムを提案する。 一般的な勾配降下と関連するアルゴリズムとは対照的に、MPDアルゴリズムは解析的(自動ではない)微分に依存し、また(そして最も重要な)パラメータの非局所的な更新を各イテレーションで行うことで、頑丈なDFの風景を下降させる。 非局所性は、mpdが局所極小に閉じ込められないことを保証するため、勾配拡散型の局所更新アルゴリズムよりも優れた性能をもたらす。 本研究では,単一の隠れ層と分割線形活性化関数を有するフィードフォワードnnにおいて,アルゴリズムの優れた性能を示す。

We propose a new iterative optimization method for the {\bf Data-Fitting} (DF) problem in Machine Learning, e.g. Neural Network (NN) training. The approach relies on {\bf Graphical Model} (GM) representation of the DF problem, where variables are fitting parameters and factors are associated with the Input-Output (IO) data. The GM results in the {\bf Belief Propagation} Equations considered in the {\bf Large Deviation Limit} corresponding to the practically important case when the number of the IO samples is much larger than the number of the fitting parameters. We suggest the {\bf Message Passage Descent} algorithm which relies on the piece-wise-polynomial representation of the model DF function. In contrast with the popular gradient descent and related algorithms our MPD algorithm rely on analytic (not automatic) differentiation, while also (and most importantly) it descents through the rugged DF landscape by \emph{making non local updates of the parameters} at each iteration. The non-locality guarantees that the MPD is not trapped in the local-minima, therefore resulting in better performance than locally-updated algorithms of the gradient-descent type. We illustrate superior performance of the algorithm on a Feed-Forward NN with a single hidden layer and a piece-wise-linear activation function.
翻訳日:2021-02-17 14:59:58 公開日:2021-02-16
# グラフ構造化サロゲートモデルを用いたモデルベースメタ強化学習

Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models ( http://arxiv.org/abs/2102.08291v1 )

ライセンス: Link先を確認
Qi Wang, Herke van Hoof(参考訳) 強化学習は、逐次的な意思決定問題を解決するための有望なパラダイムであるが、実際のアプリケーションでは、データ効率の低さとタスク間の弱い一般化がボトルネックである。 モデルベースメタ強化学習は、これらの問題を学習ダイナミクスと事前経験からの知識の活用によって解決する。 本論文では,このフレームワークを詳細に検討し,タスクダイナミクスをアモールト化ポリシ最適化ステップとともに同定する新しいモデルからなる新しいトンプソンサンプリングベースのアプローチを提案する。 グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。 さらに,テスト時のポリシ勾配最適化を回避して,デプロイメント時の迅速な実行を可能にしながら,高いリターンを得ることができる。

Reinforcement learning is a promising paradigm for solving sequential decision-making problems, but low data efficiency and weak generalization across tasks are bottlenecks in real-world applications. Model-based meta reinforcement learning addresses these issues by learning dynamics and leveraging knowledge from prior experience. In this paper, we take a closer look at this framework, and propose a new Thompson-sampling based approach that consists of a new model to identify task dynamics together with an amortized policy optimization step. We show that our model, called a graph structured surrogate model (GSSM), outperforms state-of-the-art methods in predicting environment dynamics. Additionally, our approach is able to obtain high returns, while allowing fast execution during deployment by avoiding test time policy gradient optimization.
翻訳日:2021-02-17 14:59:34 公開日:2021-02-16
# CTAB-GAN: 効率的なテーブルデータ合成

CTAB-GAN: Effective Table Data Synthesizing ( http://arxiv.org/abs/2102.08369v1 )

ライセンス: Link先を確認
Zilong Zhao, Aditya Kunar, Hiek Van der Scheer, Robert Birke and Lydia Y. Chen(参考訳) データ共有は知識開発には不可欠であるが、プライバシーの懸念と厳格な規制(例えば、欧州一般データ保護規則(GDPR))は残念ながらその完全な有効性を制限している。 合成表データは、規制とプライバシの制約を満たしながらデータ共有を可能にする代替手段として出現する。 最先端の表形式のデータシンセサイザーは、ジェネレーティブ・アドバイサル・ネットワーク(GAN)から方法論を描き、業界における2つの主要なデータタイプ、すなわち連続性とカテゴリーに対処する。 本稿では、連続変数と分類変数の混合を含む多様なデータ型を効果的にモデル化できる新しい条件表GANアーキテクチャであるCTAB-GANを開発する。 さらに、データ不均衡や長い尾の問題、すなわち、大きな値間で大きな周波数差を持つ変数に対処する。 これらの目的を達成するために、まず条件付きGANに情報損失と分類損失を導入する。 第2に,データ変数の混合型と歪んだ分布を効率的に符号化する条件ベクトルを設計する。 データ類似性と分析ユーティリティの観点からctab-ganを合成テーブルを生成する技術ganの状態を広範囲に評価した。 5つのデータセットの結果は、CTAB-GANの合成データが3種類の変数の実際のデータと著しく類似していることを示し、5つの機械学習アルゴリズムの精度を最大17%向上させた。

While data sharing is crucial for knowledge development, privacy concerns and strict regulation (e.g., European General Data Protection Regulation (GDPR)) unfortunately limit its full effectiveness. Synthetic tabular data emerges as an alternative to enable data sharing while fulfilling regulatory and privacy constraints. The state-of-the-art tabular data synthesizers draw methodologies from generative Adversarial Networks (GAN) and address two main data types in the industry, i.e., continuous and categorical. In this paper, we develop CTAB-GAN, a novel conditional table GAN architecture that can effectively model diverse data types, including a mix of continuous and categorical variables. Moreover, we address data imbalance and long-tail issues, i.e., certain variables have drastic frequency differences across large values. To achieve those aims, we first introduce the information loss and classification loss to the conditional GAN. Secondly, we design a novel conditional vector, which efficiently encodes the mixed data type and skewed distribution of data variable. We extensively evaluate CTAB-GAN with the state of the art GANs that generate synthetic tables, in terms of data similarity and analysis utility. The results on five datasets show that the synthetic data of CTAB-GAN remarkably resembles the real data for all three types of variables and results into higher accuracy for five machine learning algorithms, by up to 17%.
翻訳日:2021-02-17 14:59:18 公開日:2021-02-16
# メンタル・トレスパス? 非侵襲的AI嘘検出による真理の解明、思想の暴露、市民の自由の破壊

A Mental Trespass? Unveiling Truth, Exposing Thoughts and Threatening Civil Liberties with Non-Invasive AI Lie Detection ( http://arxiv.org/abs/2102.08004v1 )

ライセンス: Link先を確認
Taylan Sen, Kurtis Haut, Denis Lomakin and Ehsan Hoque(参考訳) 顔の表情、身体の動き、声の感情的な特徴を処理するだけで、あなたが不正であるかどうかを判断できるスマートフォンまたはコンピュータ上のアプリを想像してください。 人々は、あなたの政治的好み、性的指向について尋ねることができ、どの反応が正直で、どちらがそうではないかを即座に判断できます。 本稿では,人工知能を用いた非侵襲的リー検出技術が今後数年で急速に進歩する可能性があり,その意義を議論する前にこれ以上待つことは無責任であると論じる。 法的および一般的な視点を見直し、これらの技術が社会的害を引き起こす可能性を評価します。 合理的な人の視点を理解するため、129人の個人を対象に調査を行い、これらの技術の使用に関する意思決定プロセスにおける主な要因として同意と正確性を特定しました。 本分析では,2種類の嘘検出技術,正確な真理測定,正確な思考露光を識別する。 私たちは一般的に、真実の計測は、いくつかの注目すべき例外にもかかわらず、既存の連邦法と州法の範囲内にあります。 対照的に、現在の思考公開技術の規制は曖昧であり、市民の自由を守るには不十分である。 これらの欠点を正すため、精神的な不法侵入の法的概念を導入し、この概念を規制の根拠として用いる。

Imagine an app on your phone or computer that can tell if you are being dishonest, just by processing affective features of your facial expressions, body movements, and voice. People could ask about your political preferences, your sexual orientation, and immediately determine which of your responses are honest and which are not. In this paper we argue why artificial intelligence-based, non-invasive lie detection technologies are likely to experience a rapid advancement in the coming years, and that it would be irresponsible to wait any longer before discussing its implications. Legal and popular perspectives are reviewed to evaluate the potential for these technologies to cause societal harm. To understand the perspective of a reasonable person, we conducted a survey of 129 individuals, and identified consent and accuracy as the major factors in their decision-making process regarding the use of these technologies. In our analysis, we distinguish two types of lie detection technology, accurate truth metering and accurate thought exposing. We generally find that truth metering is already largely within the scope of existing US federal and state laws, albeit with some notable exceptions. In contrast, we find that current regulation of thought exposing technologies is ambiguous and inadequate to safeguard civil liberties. In order to rectify these shortcomings, we introduce the legal concept of mental trespass and use this concept as the basis for proposed regulation.
翻訳日:2021-02-17 14:57:51 公開日:2021-02-16
# 人工多チャンネル脳波信号合成における生成深部ニューラルネットワークの利用について

On the use of generative deep neural networks to synthesize artificial multichannel EEG signals ( http://arxiv.org/abs/2102.08061v1 )

ライセンス: Link先を確認
Ozan Ozdenizci, Deniz Erdogmus(参考訳) 最近の生成的ディープラーニングの約束は、神経工学における潜在的な利用に関心をもたらした。 本稿では,ニューラルネットワークを用いたeeg(artificial electroencephalography)信号の生成に関する最近の研究について概説する。 その後,条件可変オートエンコーダを用いた条件固有マルチチャネル脳波信号生成の実現可能性実験を行った。 実際の休止状態の脳波エポックを操作することにより、異なる運動条件下で観測されるスペクトル時空間脳波パターンを示す時系列マルチチャネル信号を合成的に生成するアプローチを提案する。

Recent promises of generative deep learning lately brought interest to its potential uses in neural engineering. In this paper we firstly review recently emerging studies on generating artificial electroencephalography (EEG) signals with deep neural networks. Subsequently, we present our feasibility experiments on generating condition-specific multichannel EEG signals using conditional variational autoencoders. By manipulating real resting-state EEG epochs, we present an approach to synthetically generate time-series multichannel signals that show spectro-temporal EEG patterns which are expected to be observed during distinct motor imagery conditions.
翻訳日:2021-02-17 14:57:27 公開日:2021-02-16
# 構成知識工学のためのレコメンダシステム

Recommender Systems for Configuration Knowledge Engineering ( http://arxiv.org/abs/2102.08113v1 )

ライセンス: Link先を確認
Alexander Felfernig and Stefan Reiterer and Martin Stettinger and Florian Reinfrank and Michael Jeran and Gerald Ninaus(参考訳) 知識エンジニアリングのボトルネックは、コンフィギュレータプロジェクトではまだ大きな課題です。 本稿では,知識ベースの開発と保守プロセスを支援するためのレコメンデータシステムについて述べる。 本稿では,知識工学におけるレコメンダシステムの適用シナリオについて議論し,ユーザ中心の構成知識組織の重要性を示す実証研究の結果を報告する。

The knowledge engineering bottleneck is still a major challenge in configurator projects. In this paper we show how recommender systems can support knowledge base development and maintenance processes. We discuss a couple of scenarios for the application of recommender systems in knowledge engineering and report the results of empirical studies which show the importance of user-centered configuration knowledge organization.
翻訳日:2021-02-17 14:57:17 公開日:2021-02-16
# マルチエージェント強化学習における環境と人口多様性の定量化

Quantifying environment and population diversity in multi-agent reinforcement learning ( http://arxiv.org/abs/2102.08370v1 )

ライセンス: Link先を確認
Kevin R. McKee and Joel Z. Leibo and Charlie Beattie and Richard Everett(参考訳) 一般化は多エージェント強化学習の大きな課題である。 エージェントは、新しい環境や新しいコプレイヤーとのインタラクションでどのように機能しますか? 本稿では,マルチエージェント領域における一般化と多様性の関係を定量的に検討する。 ここで考慮されるマルチエージェント環境の範囲で、手続き的にトレーニングレベルを生成することで、保留レベルのエージェントパフォーマンスが大幅に向上します。 しかし、トレーニングで使用する特定のレベルのエージェントのパフォーマンスは、結果として低下することがある。 共同演奏者の変動が与える影響をよりよく理解するために,実験では,行動の多様性の環境によらない新しい尺度を導入する。 以上の結果から,人口規模と本質的モチベーションはともに,人口の多様性を高める効果的な方法であることが示唆された。 逆に、多種多様なコプレイヤーによるトレーニングは、エージェントのパフォーマンスを(すべてではないが)強化する。

Generalization is a major challenge for multi-agent reinforcement learning. How well does an agent perform when placed in novel environments and in interactions with new co-players? In this paper, we investigate and quantify the relationship between generalization and diversity in the multi-agent domain. Across the range of multi-agent environments considered here, procedurally generating training levels significantly improves agent performance on held-out levels. However, agent performance on the specific levels used in training sometimes declines as a result. To better understand the effects of co-player variation, our experiments introduce a new environment-agnostic measure of behavioral diversity. Results demonstrate that population size and intrinsic motivation are both effective methods of generating greater population diversity. In turn, training with a diverse set of co-players strengthens agent performance in some (but not all) cases.
翻訳日:2021-02-17 14:57:11 公開日:2021-02-16
# 航空交通制御システム用小型サンプルを用いた音声認識モデルの改善

Improving speech recognition models with small samples for air traffic control systems ( http://arxiv.org/abs/2102.08015v1 )

ライセンス: Link先を確認
Yi Lin, Qin Li, Bo Yang, Zhen Yan, Huachun Tan, and Zhengmao Chen(参考訳) 航空交通制御 (ATC) の分野において, 実践的自動音声認識 (ASR) モデルの訓練は, 音声サンプルの収集とアノテーションが専門的かつ領域依存的な作業であるため, 常に小さな訓練サンプルの問題に直面している。 本研究では,この課題に対処するために,事前学習と伝達学習に基づく新しい学習手法を提案し,ATC領域におけるASRの具体的な課題に対処するために,エンドツーエンドのディープラーニングモデルを改善する。 教師なしプリトレーニング戦略は、特定のデータセットのラベルなしのサンプルから音声表現を学ぶために最初に提案される。 具体的には、一般的なパターンを失うことなくサンプルの多様性を改善するためのマスキング戦略が適用されます。 その後、事前訓練または他の最適化されたベースラインモデルに転写学習を適用し、最終的に教師付きASRタスクを達成する。 ATCドメインで使用される共通用語により、転送学習タスクはサブドメイン適応タスクとみなすことができ、転送されたモデルは、ベースラインサンプルとターゲットデータセットから新たに転写されたサンプルからなるジョイントコーパスを用いて最適化される。 この共同コーパス構築戦略は,小文字コーパスの問題に対処する上で重要なトレーニングサンプルのサイズと多様性を充実させるものである。 さらに, 音声コーパスの品質向上のために, 新たな転写サンプルを増強するために, 速度摂動を適用した。 3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。 実験の結果,ASRの性能は3つのデータセットで有意に向上し,絶対的な文字誤り率の3分の1が教師付きトレーニングによって達成された。 他のASRアプローチに対する提案された戦略の適用可能性も検証される。

In the domain of air traffic control (ATC) systems, efforts to train a practical automatic speech recognition (ASR) model always faces the problem of small training samples since the collection and annotation of speech samples are expert- and domain-dependent task. In this work, a novel training approach based on pretraining and transfer learning is proposed to address this issue, and an improved end-to-end deep learning model is developed to address the specific challenges of ASR in the ATC domain. An unsupervised pretraining strategy is first proposed to learn speech representations from unlabeled samples for a certain dataset. Specifically, a masking strategy is applied to improve the diversity of the sample without losing their general patterns. Subsequently, transfer learning is applied to fine-tune a pretrained or other optimized baseline models to finally achieves the supervised ASR task. By virtue of the common terminology used in the ATC domain, the transfer learning task can be regarded as a sub-domain adaption task, in which the transferred model is optimized using a joint corpus consisting of baseline samples and new transcribed samples from the target dataset. This joint corpus construction strategy enriches the size and diversity of the training samples, which is important for addressing the issue of the small transcribed corpus. In addition, speed perturbation is applied to augment the new transcribed samples to further improve the quality of the speech corpus. Three real ATC datasets are used to validate the proposed ASR model and training strategies. The experimental results demonstrate that the ASR performance is significantly improved on all three datasets, with an absolute character error rate only one-third of that achieved through the supervised training. The applicability of the proposed strategies to other ASR approaches is also validated.
翻訳日:2021-02-17 14:57:01 公開日:2021-02-16
# オンライン会話における社会的利益の定量化と予測

Conversations Gone Alright: Quantifying and Predicting Prosocial Outcomes in Online Conversations ( http://arxiv.org/abs/2102.08368v1 )

ライセンス: Link先を確認
Jiajun Bao, Junjie Wu, Yiming Zhang, Eshwar Chandrasekharan, and David Jurgens(参考訳) オンラインの会話は、さまざまな方向に進むことができる。反社会的行動のために悪い結果になるものもあれば、すべての人の利益に肯定的に反応するものもある。 オンライン空間の改善に関する研究は、主に反社会的行動の検出と減少に焦点を当てている。 しかし、私たちはオンライン会話における肯定的な結果とそれらを増やす方法についてほとんど知りません。 本稿では,対話型機能がオンライン議論におけるソーシャルな結果にどのようにつながるかを検討する。 メンタリングやエステム強化など、社会的な成果を定義するための一連の新しい理論に基づくメトリクスを紹介します。 26MのReddit会話のコーパスを使用して、これらの結果がオンライン会話の最初のコメントから予測できることを示し、最良のモデルは予測結果のために会話のランキングで人間予測のパフォーマンスよりも相対的な24%改善を提供する。 以上の結果から,プラットフォームは早期会話のアルゴリズム的ランク付けにおいて,より優れた結果の優先順位付けにこれらの早期手がかりを活用できることが示唆された。

Online conversations can go in many directions: some turn out poorly due to antisocial behavior, while others turn out positively to the benefit of all. Research on improving online spaces has focused primarily on detecting and reducing antisocial behavior. Yet we know little about positive outcomes in online conversations and how to increase them-is a prosocial outcome simply the lack of antisocial behavior or something more? Here, we examine how conversational features lead to prosocial outcomes within online discussions. We introduce a series of new theory-inspired metrics to define prosocial outcomes such as mentoring and esteem enhancement. Using a corpus of 26M Reddit conversations, we show that these outcomes can be forecasted from the initial comment of an online conversation, with the best model providing a relative 24% improvement over human forecasting performance at ranking conversations for predicted outcome. Our results indicate that platforms can use these early cues in their algorithmic ranking of early conversations to prioritize better outcomes.
翻訳日:2021-02-17 14:56:31 公開日:2021-02-16
# 測度の集中と一般化積オブランドムベクトル : ハンソン=ライト的不等式への応用

Concentration of measure and generalized product ofrandom vectors with an application to Hanson-Wright-like inequalities ( http://arxiv.org/abs/2102.08020v1 )

ライセンス: Link先を確認
Cosme Louart and Romain Couillet(参考訳) m$ ランダムベクトル $Z_1,\ldots, Z_m$ 上の測度仮説の濃度から始めると、この記事は函数の濃度 $\phi(Z_1,\ldots, Z_m)$ を表現し、各変数上の $\phi$ の変動は、他の変数のノルム(あるいは半ノルム)の積に依存する($\phi$ が積であるように)。 統計的機械学習アプリケーションに根本的な関心を持つ$X$と$D$がランダムであるランダム行列$XDX^T$とその分解元$Q = (I_p - \frac{1}{n}XDX^T)^{-1}$の研究を通じて、ハンソン・ライト濃度の不平等の様々な一般化を通じて、この結果の重要性を説明します。

Starting from concentration of measure hypotheses on $m$ random vectors $Z_1,\ldots, Z_m$, this article provides an expression of the concentration of functionals $\phi(Z_1,\ldots, Z_m)$ where the variations of $\phi$ on each variable depend on the product of the norms (or semi-norms) of the other variables (as if $\phi$ were a product). We illustrate the importance of this result through various generalizations of the Hanson-Wright concentration inequality as well as through a study of the random matrix $XDX^T$ and its resolvent $Q = (I_p - \frac{1}{n}XDX^T)^{-1}$, where $X$ and $D$ are random, which have fundamental interest in statistical machine learning applications.
翻訳日:2021-02-17 14:56:14 公開日:2021-02-16
# 自律機械時代の工学教育

Engineering Education in the Age of Autonomous Machines ( http://arxiv.org/abs/2102.07900v1 )

ライセンス: Link先を確認
Shaoshan Liu, Jean-Luc Gaudiot, Hironori Kasahara(参考訳) 過去数年間で、自動運転エンジニアにとって大きな需要ギャップが見えてきた。 中心的な問題は、自動運転は単一の技術ではなく、多くの技術を統合する複雑なシステムであり、この分野で単一の学術部門が包括的な教育を提供することはできないということです。 我々は,コンピュータ科学,計算機工学,電気工学,機械工学の専門知識を持つ学生に公開するための学際的プログラムの作成を提唱する。 学際横断的技術財団(cross-disciplinary technical foundation)に加えて、実際の自動運転車で作業する体験を学生に提供するcapstoneプロジェクトは、技術基盤を統合するために必要である。

In the past few years, we have observed a huge supply-demand gap for autonomous driving engineers. The core problem is that autonomous driving is not one single technology but rather a complex system integrating many technologies, and no one single academic department can provide comprehensive education in this field. We advocate to create a cross-disciplinary program to expose students with technical background in computer science, computer engineering, electrical engineering, as well as mechanical engineering. On top of the cross-disciplinary technical foundation, a capstone project that provides students with hands-on experiences of working with a real autonomous vehicle is required to consolidate the technical foundation.
翻訳日:2021-02-17 14:55:53 公開日:2021-02-16
# トラヒックデータとディープラーニングを用いたネットワーク上の脆弱性デバイスの自動識別

Automated Identification of Vulnerable Devices in Networks using Traffic Data and Deep Learning ( http://arxiv.org/abs/2102.08199v1 )

ライセンス: Link先を確認
Jakob Greis, Artem Yushchenko, Daniel Vogel, Michael Meier and Volker Steinhage(参考訳) 多くのIoTデバイスは、セキュリティ設計の欠陥や、セキュリティの脆弱性を取り除くファームウェアのアップデートやパッチのメカニズムの欠如による攻撃に対して脆弱である。 脆弱性データベースのデータと組み合わされたデバイスタイプの識別は、ネットワーク内の脆弱なiotデバイスを特定でき、脆弱性のあるデバイスの通信を制限するために使用できる。 本研究では,信頼性の高いIoTデバイスタイプの識別,すなわち再帰性と畳み込みネットワークアーキテクチャに対する2つのディープラーニングアプローチを提示し,評価する。 どちらのディープラーニングアプローチも、それぞれ97%と98%の精度を示し、82%の精度を得る手作りの指紋機能を使用して最新のIoTデバイスタイプの識別アプローチを上回ります。 両方のディープラーニングアプローチのIoT識別のための実行時パフォーマンスは、手作業によるアプローチを3桁上回る。 最後に、重要度は、分析されたトラフィックデータフローの利用の観点から、両方のディープラーニングアプローチの結果を説明する。

Many IoT devices are vulnerable to attacks due to flawed security designs and lacking mechanisms for firmware updates or patches to eliminate the security vulnerabilities. Device-type identification combined with data from vulnerability databases can pinpoint vulnerable IoT devices in a network and can be used to constrain the communications of vulnerable devices for preventing damage. In this contribution, we present and evaluate two deep learning approaches to the reliable IoT device-type identification, namely a recurrent and a convolutional network architecture. Both deep learning approaches show accuracies of 97% and 98%, respectively, and thereby outperform an up-to-date IoT device-type identification approach using hand-crafted fingerprint features obtaining an accuracy of 82%. The runtime performance for the IoT identification of both deep learning approaches outperforms the hand-crafted approach by three magnitudes. Finally, importance metrics explain the results of both deep learning approaches in terms of the utilization of the analyzed traffic data flow.
翻訳日:2021-02-17 14:55:43 公開日:2021-02-16
# Yin-Yang データセット

The Yin-Yang dataset ( http://arxiv.org/abs/2102.08211v1 )

ライセンス: Link先を確認
Laura Kriener, Julian G\"oltz, Mihai A. Petrovici(参考訳) Yin-Yangデータセットは、スパイキングニューラルネットワークにおける生物学的に妥当なエラーバックプロパゲーションとディープラーニングの研究のために開発された。 古典的なディープラーニングデータセットの代替として、特にアルゴリズムとモデルプロトタイピングシナリオにおいて、いくつかの利点を提供する。 まず、より小さく、学習が迅速であるため、ネットワークサイズが制限されたニューロモルフィックチップの展開に適しています。 第2に、深層ニューラルネットワークと比較して浅度で達成可能な精度のギャップが極めて明確である。

The Yin-Yang dataset was developed for research on biologically plausible error backpropagation and deep learning in spiking neural networks. It serves as an alternative to classic deep learning datasets, especially in algorithm- and model-prototyping scenarios, by providing several advantages. First, it is smaller and therefore faster to learn, thereby being better suited for the deployment on neuromorphic chips with limited network sizes. Second, it exhibits a very clear gap between the accuracies achievable using shallow as compared to deep neural networks.
翻訳日:2021-02-17 14:55:27 公開日:2021-02-16
# リード:自動運転用LiDARエクステンダー

LEAD: LiDAR Extender for Autonomous Driving ( http://arxiv.org/abs/2102.07989v1 )

ライセンス: Link先を確認
Jianing Zhang, Wei Li, Honggang Gou, Lu Fang, Ruigang Yang(参考訳) 自動車産業規格のセンサーを用いた3D認識は、自動運転の厳しい要求です。 MEMS LiDARは、その低コスト、より堅牢、および大量生産基準を満たすため、耐え難い傾向で出現します。 しかし、それは小さな視野(FoV)に苦しんで、その人口のステップを遅くします。 本稿では,自走運転用LiDAR拡張器であるLEADを提案し,FoVとレンジの両方で画像w.r.tを結合してMEMS LiDARを拡張する。 深度分布と不確実性マップに基づく多段伝搬戦略を提案し,効果的な伝搬能力を示す。 さらに, 深度推定能力は, スケール誤差を伴わずに, 深度推定能力を深度完備化ネットワークに伝達する, 教師/学生の学習スタイルを踏襲する。 LiDAR拡張の質を検証するため,高精度レーザースキャナーを用いて地中トラスデータセットを生成する。 定量的および定性的な評価は,本手法がSOTAよりも大きなマージンを有することを示す。 提案されたLEADとデータセットは、コミュニティのw.r.t深度研究の恩恵を受けると信じている。

3D perception using sensors under vehicle industrial standard is the rigid demand in autonomous driving. MEMS LiDAR emerges with irresistible trend due to its lower cost, more robust, and meeting the mass-production standards. However, it suffers small field of view (FoV), slowing down the step of its population. In this paper, we propose LEAD, i.e., LiDAR Extender for Autonomous Driving, to extend the MEMS LiDAR by coupled image w.r.t both FoV and range. We propose a multi-stage propagation strategy based on depth distributions and uncertainty map, which shows effective propagation ability. Moreover, our depth outpainting/propagation network follows a teacher-student training fashion, which transfers depth estimation ability to depth completion network without any scale error passed. To validate the LiDAR extension quality, we utilize a high-precise laser scanner to generate a ground-truth dataset. Quantitative and qualitative evaluations show that our scheme outperforms SOTAs with a large margin. We believe the proposed LEAD along with the dataset would benefit the community w.r.t depth researches.
翻訳日:2021-02-17 14:54:47 公開日:2021-02-16
# 最小摂動量を持つ正則化逆画像の生成と機械知覚に対するjust noticeable difference

Just Noticeable Difference for Machine Perception and Generation of Regularized Adversarial Images with Minimal Perturbation ( http://arxiv.org/abs/2102.08079v1 )

ライセンス: Link先を確認
Adil Kaan Akan, Emre Akbas, Fatos T. Yarman Vural(参考訳) 本研究では、人間の知覚のジャストノーズナブル差(JND)の概念に触発された機械知覚の尺度について紹介する。 この尺度に基づいて,機械学習モデルが偽のラベルを出力して画像の変化を検出するまで,付加ノイズによって画像を反復的に歪ませる逆画像生成アルゴリズムを提案する。 原画像に追加されるノイズの量は、機械学習モデルのコスト関数の勾配として定義される。 このコスト関数は、入力画像に適用される摂動の量を明示的に最小化し、境界範囲と総変動関数によって正規化され、入力に対する逆画像の知覚的類似性を保証する。 CIFAR10、ImageNet、MS COCOデータセット上で、アルゴリズムが生成する対向画像の定性的および定量的評価を行います。 画像分類と物体検出タスクの実験により,本手法が生成する対比画像は,認識・検出モデルとしてより成功し,最新手法で生成する画像に比べて乱れが少ないことが示された。

In this study, we introduce a measure for machine perception, inspired by the concept of Just Noticeable Difference (JND) of human perception. Based on this measure, we suggest an adversarial image generation algorithm, which iteratively distorts an image by an additive noise until the machine learning model detects the change in the image by outputting a false label. The amount of noise added to the original image is defined as the gradient of the cost function of the machine learning model. This cost function explicitly minimizes the amount of perturbation applied on the input image and it is regularized by bounded range and total variation functions to assure perceptual similarity of the adversarial image to the input. We evaluate the adversarial images generated by our algorithm both qualitatively and quantitatively on CIFAR10, ImageNet, and MS COCO datasets. Our experiments on image classification and object detection tasks show that adversarial images generated by our method are both more successful in deceiving the recognition/detection model and less perturbed compared to the images generated by the state-of-the-art methods.
翻訳日:2021-02-17 14:54:28 公開日:2021-02-16
# 産業用ロボットアプリケーションのための最適ディスクリプタを用いたディセンスオブジェクトネットの教師付きトレーニング

Supervised Training of Dense Object Nets using Optimal Descriptors for Industrial Robotic Applications ( http://arxiv.org/abs/2102.08096v1 )

ライセンス: Link先を確認
Andras Kupcsik, Markus Spies, Alexander Klein, Marco Todescato, Nicolai Waniek, Philipp Schillinger, Mathias Buerger(参考訳) Dense Object Nets (DONs) by Florence, Manuelli and Tedrake (2018) は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として、密度の高いオブジェクト記述子を導入した。 オブジェクトの把握やポリシー学習など、多くのアプリケーションに適しています。 DONは、オブジェクトを描写するRGBイメージを記述空間イメージにマッピングし、相対的なカメラポーズに不変のオブジェクトの主要機能を暗黙的にエンコードする。 印象的なことに、ドンの自己教師付きトレーニングは任意のオブジェクトに適用でき、数時間で評価およびデプロイできる。 しかし、トレーニングアプローチは正確な深度画像に依存しており、消費者グレードの深度カメラを使用する場合、産業設定に典型的な小さな反射オブジェクトで課題に直面しています。 本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。 私たちはLaplacian Eigenmaps (LE) に頼って、オブジェクトの3Dモデルを最適な生成空間に埋め込んでいます。 私たちのアプローチはより多くのドメイン知識を使用しますが、深さ情報に依存しないため、小さくて反射的なオブジェクトでも効率的に適用できます。 産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。

Dense Object Nets (DONs) by Florence, Manuelli and Tedrake (2018) introduced dense object descriptors as a novel visual object representation for the robotics community. It is suitable for many applications including object grasping, policy learning, etc. DONs map an RGB image depicting an object into a descriptor space image, which implicitly encodes key features of an object invariant to the relative camera pose. Impressively, the self-supervised training of DONs can be applied to arbitrary objects and can be evaluated and deployed within hours. However, the training approach relies on accurate depth images and faces challenges with small, reflective objects, typical for industrial settings, when using consumer grade depth cameras. In this paper we show that given a 3D model of an object, we can generate its descriptor space image, which allows for supervised training of DONs. We rely on Laplacian Eigenmaps (LE) to embed the 3D model of an object into an optimally generated space. While our approach uses more domain knowledge, it can be efficiently applied even for smaller and reflective objects, as it does not rely on depth information. We compare the training methods on generating 6D grasps for industrial objects and show that our novel supervised training approach improves the pick-and-place performance in industry-relevant tasks.
翻訳日:2021-02-17 14:54:11 公開日:2021-02-16
# Hough2Map -- 高速鉄道マッピングのための反復イベントベースのHough変換

Hough2Map -- Iterative Event-based Hough Transform for High-Speed Railway Mapping ( http://arxiv.org/abs/2102.08145v1 )

ライセンス: Link先を確認
Florian Tschopp, Cornelius von Einem, Andrei Cramariuc, David Hug, Andrew William Palmer, Roland Siegwart, Margarita Chli, Juan Nieto(参考訳) 鉄道網における輸送需要の増加に対応するためには、既存の鉄道インフラの安全かつ効率的な利用を可能にするため、正確で堅牢で高周波な位置決めが必要である。 ローカライズシステムの基盤として,車両近傍の電力線からの極など,堅牢な有意義なランドマークをマッピング可能な,完全なオンボードマッピングパイプラインを提案する。 このような極地は、厳しい気象条件や季節変化によっても、信頼性と長期のランドマークのよい候補である。 鉄道シナリオにおける動きのぼかしと照明変化の課題に対処するために,新しいイベントベースカメラであるダイナミックビジョンセンサーを採用した。 横向きのオンボードカメラを使用して、ポールは垂直線として現れる。 このような行をリアルタイムイベントストリームにマップするために,近接構造の検出,追跡,三角化が可能な,新たな連続イベントベースのhough変換フレームワークであるhoughceptionを紹介する。 実世界のデータに対するHoughCeptionのマッピングの信頼性と精度を、典型的な利用シナリオで実証し、調査した基盤地真実マップを用いて評価する。 HoughCeptionは最大92%の検出信頼性と1.1518 mのマッピングルート平均平方誤差精度を実現します。

To cope with the growing demand for transportation on the railway system, accurate, robust, and high-frequency positioning is required to enable a safe and efficient utilization of the existing railway infrastructure. As a basis for a localization system, we propose a complete on-board mapping pipeline able to map robust meaningful landmarks, such as poles from power lines, in the vicinity of the vehicle. Such poles are good candidates for reliable and long term landmarks even through difficult weather conditions or seasonal changes. To address the challenges of motion blur and illumination changes in railway scenarios we employ a Dynamic Vision Sensor, a novel event-based camera. Using a sideways oriented on-board camera, poles appear as vertical lines. To map such lines in a real-time event stream, we introduce HoughCeption, a novel consecutive iterative event-based Hough transform framework capable of detecting, tracking, and triangulating close-by structures. We demonstrate the mapping reliability and accuracy of HoughCeption on real-world data in typical usage scenarios and evaluate using surveyed infrastructure ground truth maps. HoughCeption achieves a detection reliability of up to 92% and a mapping root mean square error accuracy of 1.1518 m.
翻訳日:2021-02-17 14:53:48 公開日:2021-02-16
# ディープマシンビジョンは目立たない違い(JND)を持っていますか?

Does deep machine vision have just noticeable difference (JND)? ( http://arxiv.org/abs/2102.08168v1 )

ライセンス: Link先を確認
Jian Jin, Xingxing Zhang, Xin Fu, Huan Zhang, Weisi Lin, Jian Lou, Yao Zhao(参考訳) 人間の視覚システム(HVS)の重要な知覚特性として、Just Noticeable difference(JND)は画像/ビデオ処理(知覚画像/映像符号化など)で何十年も研究されてきた。 しかし、Deep Machine Vision (DMV)のようなAIのためのJNDの存在についてはほとんど調査されていないが、DMVは多くのマシンビジョンタスクにおいて大きな進歩を遂げている。 本稿では,DMV が DMVJND と呼ばれる JND を持っていることを実証する。 さらに,DMVにおける分類課題に対するJNDモデルを提案する。 DMVは、DMVJND-NETで教師なし学習によってJNDを生成することにより、約9.56dBのPSNRの歪み画像を許容できることが判明した。 特に,意味誘導型冗長性評価戦略は,JNDの大きさと空間分布を制約するように設計されている。 分類タスクに関する実験結果から,JNDの深部マシンビジョンの探索とモデル化に成功したことが示された。 一方、DMV-JNDは、DMV指向の画像/映像圧縮、透かし、品質評価、ディープニューラルネットワークのセキュリティなど、可能な方向を舗装している。

As an important perceptual characteristic of the Human Visual System (HVS), the Just Noticeable Difference (JND) has been studied for decades with image/video processing (e.g., perceptual image/video coding). However, there is little exploration on the existence of JND for AI, like Deep Machine Vision (DMV), although the DMV has made great strides in many machine vision tasks. In this paper, we take an initial attempt, and demonstrate that DMV does have the JND, termed as DMVJND. Besides, we propose a JND model for the classification task in DMV. It has been discovered that DMV can tolerate distorted images with average PSNR of only 9.56dB (the lower the better), by generating JND via unsupervised learning with our DMVJND-NET. In particular, a semantic-guided redundancy assessment strategy is designed to constrain the magnitude and spatial distribution of the JND. Experimental results on classification tasks demonstrate that we successfully find and model the JND for deep machine vision. Meanwhile, our DMV-JND paves a possible direction for DMV oriented image/video compression, watermarking, quality assessment, deep neural network security, and so on.
翻訳日:2021-02-17 14:53:28 公開日:2021-02-16
# DFACフレームワーク: マルチエージェント分布Q-Learningのためのクアンタイル混合による価値関数のファクタリング

DFAC Framework: Factorizing the Value Function via Quantile Mixture for Multi-Agent Distributional Q-Learning ( http://arxiv.org/abs/2102.07936v1 )

ライセンス: Link先を確認
Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee(参考訳) 完全に協調的なマルチエージェント強化学習(MARL)設定では、各エージェントの部分的な可観測性と他のエージェントの継続的な変更ポリシーのために環境は非常に確率的です。 以上の課題を解決するため、分散関数ファクタリゼーション手法と分散関数ファクタリゼーション手法を統合し、分散関数ファクタリゼーション(DFAC)フレームワークを提案し、期待値関数ファクタリゼーション手法をDFAC変数に一般化する。 DFACは、個々のユーティリティ関数を決定論的変数からランダム変数に拡張し、全戻り値の量子関数を量子混合としてモデル化する。 DFACの有効性を検証するため,DFACは2段階の単純な行列ゲームを確率的報酬で分解し,StarCraft Multi-Agent Challengeの全スーパーハードタスクに対して実験を行い,DFACが期待値関数の分解基準を上回り得ることを示す。

In fully cooperative multi-agent reinforcement learning (MARL) settings, the environments are highly stochastic due to the partial observability of each agent and the continuously changing policies of the other agents. To address the above issues, we integrate distributional RL and value function factorization methods by proposing a Distributional Value Function Factorization (DFAC) framework to generalize expected value function factorization methods to their DFAC variants. DFAC extends the individual utility functions from deterministic variables to random variables, and models the quantile function of the total return as a quantile mixture. To validate DFAC, we demonstrate DFAC's ability to factorize a simple two-step matrix game with stochastic rewards and perform experiments on all Super Hard tasks of StarCraft Multi-Agent Challenge, showing that DFAC is able to outperform expected value function factorization baselines.
翻訳日:2021-02-17 14:51:59 公開日:2021-02-16
# コンピュータアーキテクチャとシステムのための機械学習に関する調査

A Survey of Machine Learning for Computer Architecture and Systems ( http://arxiv.org/abs/2102.07952v1 )

ライセンス: Link先を確認
Nan Wu, Yuan Xie(参考訳) コンピュータアーキテクチャとシステムが機械学習(ml)アルゴリズムやモデルの効率的な実行を可能にするように最適化されるのは、長い間のことです。 今こそ、MLとシステムの関係を再考し、MLがコンピュータアーキテクチャとシステムが設計される方法を変える時です。 これは、デザイナーの生産性の向上と、vistuous cycleの完成という2つの意味を持つ。 本論文では,システム設計にMLを適用する作業について総合的に検討し,性能指標の予測を含むMLベースのモデリングと,MLを設計ツールとして直接活用するMLベースの設計方法論の2つの主要なカテゴリに分類する。 MLに基づくモデリングでは,回路レベルからアーキテクチャ/システムレベルまで,システム対象レベルに基づく既存研究について論じる。 MLベースの設計方法論では、(マイクロ)アーキテクチャ設計(メモリ、ブランチ予測、NoC)、アーキテクチャ/システムとワークロード間の調整(リソースの割り当てと管理、データセンター管理、セキュリティ)、コンパイラ、設計自動化など、現在の作業をレビューするためのボトムアップパスに従っています。 さらに、機会と潜在的な方向性の将来のビジョンを提供し、コンピュータアーキテクチャとシステムへのMLの適用がコミュニティで繁栄することを期待しています。

It has been a long time that computer architecture and systems are optimized to enable efficient execution of machine learning (ML) algorithms or models. Now, it is time to reconsider the relationship between ML and systems, and let ML transform the way that computer architecture and systems are designed. This embraces a twofold meaning: the improvement of designers' productivity, and the completion of the virtuous cycle. In this paper, we present a comprehensive review of work that applies ML for system design, which can be grouped into two major categories, ML-based modelling that involves predictions of performance metrics or some other criteria of interest, and ML-based design methodology that directly leverages ML as the design tool. For ML-based modelling, we discuss existing studies based on their target level of system, ranging from the circuit level to the architecture/system level. For ML-based design methodology, we follow a bottom-up path to review current work, with a scope of (micro-)architecture design (memory, branch prediction, NoC), coordination between architecture/system and workload (resource allocation and management, data center management, and security), compiler, and design automation. We further provide a future vision of opportunities and potential directions, and envision that applying ML for computer architecture and systems would thrive in the community.
翻訳日:2021-02-17 14:51:39 公開日:2021-02-16
# 最適輸送の効率的な判別

Efficient Discretizations of Optimal Transport ( http://arxiv.org/abs/2102.07956v1 )

ライセンス: Link先を確認
Junqi Wang, Pei Wang, Patrick Shafto(参考訳) 最適輸送(OT)問題に対する解決策を得ることは、通常、限界空間が連続している場合は困難です。 近年,i.i.d.に基づく離散化法を用いて連続解を近似する研究が行われている。 サンプルのサイズが大きくなるにつれて 収束が証明されました しかし、サンプルサイズが大きいotソリューションを得るには集中的な計算労力が必要であり、これは実際に禁止される。 本稿では,(エントロピー正則化)ワッサーシュタイン距離を最小化することにより,余剰分布の点数で離散化を計算するアルゴリズムを提案する。 サンプル さらに, 大規模アプリケーション向けに並列化可能な, 局所的な離散化方式を提案する。 我々は近似の限界を証明し、幅広い問題について性能を実証する。

Obtaining solutions to Optimal Transportation (OT) problems is typically intractable when the marginal spaces are continuous. Recent research has focused on approximating continuous solutions with discretization methods based on i.i.d. sampling, and has proven convergence as the sample size increases. However, obtaining OT solutions with large sample sizes requires intensive computation effort, that can be prohibitive in practice. In this paper, we propose an algorithm for calculating discretizations with a given number of points for marginal distributions, by minimizing the (entropy-regularized) Wasserstein distance, and result in plans that are comparable to those obtained with much larger numbers of i.i.d. samples. Moreover, a local version of such discretizations which is parallelizable for large scale applications is proposed. We prove bounds for our approximation and demonstrate performance on a wide range of problems.
翻訳日:2021-02-17 14:51:17 公開日:2021-02-16
# 制御情報をターゲットにした機械学習ベースのサイバー攻撃:調査

Machine Learning Based Cyber Attacks Targeting on Controlled Information: A Survey ( http://arxiv.org/abs/2102.07969v1 )

ライセンス: Link先を確認
Yuantian Miao, Chao Chen, Lei Pan, Qing-Long Han, Jun Zhang, Yang Xiang(参考訳) 近年、情報漏洩事件の増加とともに、制御された情報に対する盗聴攻撃がサイバーセキュリティの脅威として浮上している。 高度な分析ソリューションの開発と展開が急増しているため、新しい盗用攻撃は機械学習(ML)アルゴリズムを使用して高い成功率を達成し、多くの損傷を引き起こします。 このような攻撃を検知し、防御することは困難で緊急であり、政府、組織、個人はMLベースの盗難攻撃に非常に重要である。 本調査は, この新しい攻撃方法と対応対策の最近の進歩を示すものである。 MLベースの盗用攻撃は、制御されたユーザーアクティビティ、制御されたMLモデル関連情報、および制御された認証情報を含む3つのカテゴリのターゲット管理情報の観点からレビューされます。 近年の出版物は、包括的な攻撃方法論を一般化し、MLベースの盗難攻撃の限界と今後の方向性を導き出すために要約されている。 さらに,検出,破壊,隔離という3つの側面から効果的な保護を開発するための対策が提案されている。

Stealing attack against controlled information, along with the increasing number of information leakage incidents, has become an emerging cyber security threat in recent years. Due to the booming development and deployment of advanced analytics solutions, novel stealing attacks utilize machine learning (ML) algorithms to achieve high success rate and cause a lot of damage. Detecting and defending against such attacks is challenging and urgent so that governments, organizations, and individuals should attach great importance to the ML-based stealing attacks. This survey presents the recent advances in this new type of attack and corresponding countermeasures. The ML-based stealing attack is reviewed in perspectives of three categories of targeted controlled information, including controlled user activities, controlled ML model-related information, and controlled authentication information. Recent publications are summarized to generalize an overarching attack methodology and to derive the limitations and future directions of ML-based stealing attacks. Furthermore, countermeasures are proposed towards developing effective protections from three aspects -- detection, disruption, and isolation.
翻訳日:2021-02-17 14:51:04 公開日:2021-02-16
# ethereumトランザクショントラッキングのための時空アマウントスナップショットマルチグラフ

Temporal-Amount Snapshot MultiGraph for Ethereum Transaction Tracking ( http://arxiv.org/abs/2102.08013v1 )

ライセンス: Link先を確認
Yunyi Xie, Jie Jin, Jian Zhang, Shanqing Yu, and Qi Xuan(参考訳) 金融分野におけるブロックチェーンの広範な適用により、さまざまなタイプのサイバー犯罪が出現し、ブロックチェーンのセキュリティに大きな課題が生じた。 この新興市場をより深く理解し、効果的な監督のためのより効率的な対策を探求するには、ブロックチェーンベースのシステムでトランザクションを追跡することが不可欠である。 ethereumのオープン性により、公開されているトランザクションレコードにアクセスし、複雑なネットワークとしてモデル化し、ネットワークの観点からethereumトランザクションのより深い理解を提供するリンク予測によるトランザクション追跡の問題をさらに研究することができる。 具体的には,TASMG(temporal-amount snapshot multigraph)とTAW(temporal-amount walk)からなる組込みリンク予測フレームワークを提案する。 トランザクションネットワークの現実的なルールと特徴を考慮に入れて,ethereumトランザクションレコードを時間的最適化ネットワークとしてモデル化し,提案するネットワークの時間的および量的情報を統合したトランザクションレコードを介して,tawsを効果的にアカウントを埋め込む手法を提案する。 実験の結果,提案手法がより情報的な表現を学習する上で優れていることを示し,トランザクション追跡に有効な手法となる可能性が示唆された。

With the wide application of blockchain in the financial field, the rise of various types of cybercrimes has brought great challenges to the security of blockchain. In order to better understand this emerging market and explore more efficient countermeasures for effective supervision, it is imperative to track transactions on blockchain-based systems. Due to the openness of Ethereum, we can easily access the publicly available transaction records, model them as a complex network, and further study the problem of transaction tracking via link prediction, which provides a deeper understanding of Ethereum transactions from a network perspective. Specifically, we introduce an embedding based link prediction framework that is composed of temporal-amount snapshot multigraph (TASMG) and present temporal-amount walk (TAW). By taking the realistic rules and features of transaction networks into consideration, we propose TASMG to model Ethereum transaction records as a temporal-amount network and then present TAW to effectively embed accounts via their transaction records, which integrates temporal and amount information of the proposed network. Experimental results demonstrate the superiority of the proposed framework in learning more informative representations and could be an effective method for transaction tracking.
翻訳日:2021-02-17 14:50:48 公開日:2021-02-16
# ロバスト対比強化学習による上向きメッセンジャー線上のミリ波ビーム追跡のゼロショット適応

Zero-Shot Adaptation for mmWave Beam-Tracking on Overhead Messenger Wires through Robust Adversarial Reinforcement Learning ( http://arxiv.org/abs/2102.08055v1 )

ライセンス: Link先を確認
Masao Shinzaki and Yusuke Koda and Koji Yamamoto and Takayuki Nishio and Masahiro Morikura and Yushi Shirato and Daisei Uchida and Naoki Kita(参考訳) 本稿では,特に不安定な都市インフラ環境において,学習に基づくミリ波通信システムにおいてゼロショット適応の概念を導入する機会について述べる。 ここでは、ゼロショット適応は、学習エージェントが適応的な微調整なしでトレーニング中に見えないシナリオに適応することを意味します。 オーバヘッドメッセンジャーワイヤ上に配置したmmWaveノードの学習に基づくビーム追跡を考慮し、まずゼロショット適応の重要性を論じる。 より具体的には、トレーニングおよびテストシナリオにおけるワイヤー張力と総ワイヤー質量のギャップが受信電力の点でビーム追跡性能を低下させることを確認します。 この議論に動機づけられて、我々は、シナリオを適応させるために再訓練を必要とせずに、ゼロショットの方法で幅広いテストシナリオに適応するための堅牢なビーム追跡方法を提案します。 鍵となるアイデアは、最近の強固な敵強化学習技術を活用し、そのようなトレーニングとテストのギャップを敵からの障害と見なすことだ。 本例では,ビーム追跡エージェントが,ビームの不一致を引き起こす知的敵に対して,競争力のあるベースでトレーニングを行う。 数値的評価は、オンワイヤノードが目に見えないシナリオで適応的な微調整なしで実現可能なビーム追跡性能を達成することを示し、ゼロショット適応の実現性を確認する。

This paper discusses the opportunity of bringing the concept of zero-shot adaptation into learning-based millimeter-wave (mmWave) communication systems, particularly in environments with unstable urban infrastructures. Here, zero-shot adaptation implies that a learning agent adapts to unseen scenarios during training without any adaptive fine-tuning. By considering learning-based beam-tracking of a mmWave node placed on an overhead messenger wire, we first discuss the importance of zero-shot adaptation. More specifically, we confirm that the gap between the values of wire tension and total wire mass in training and test scenarios deteriorates the beam-tracking performance in terms of the received power. Motivated by this discussion, we propose a robust beam-tracking method to adapt to a broad range of test scenarios in a zero-shot manner, i.e., without requiring any retraining to adapt the scenarios. The key idea is to leverage a recent, robust adversarial reinforcement learning technique, where such training and test gaps are regarded as disturbances from adversaries. In our case, a beam-tracking agent performs training competitively bases on an intelligent adversary who causes beam misalignments. Numerical evaluations confirm the feasibility of zero-shot adaptation by showing that the on-wire node achieves feasible beam-tracking performance without any adaptive fine-tuning in unseen scenarios.
翻訳日:2021-02-17 14:50:29 公開日:2021-02-16
# 故障の騒音を学ぶ:ロボットのためのインテリジェントなシステムテスト

Learning the Noise of Failure: Intelligent System Tests for Robots ( http://arxiv.org/abs/2102.08080v1 )

ライセンス: Link先を確認
Felix Sygulla and Daniel Rixen(参考訳) ロボット工学者は実世界のロボットで機能を評価する前にシミュレーション環境で新しい制御ソフトウェアをテストします。 シミュレーションはハードウェアにダメージを与えるリスクを低減し、自動システムテストの形で開発プロセスの効率を大幅に向上させる。 しかし、ソフトウェア内の多くの欠陥はシミュレーションデータでは検出されず、時間を要する実験でのみシステムに有害な影響が示される。 実際、そのような不規則性は、操作中にロボットの空中ノイズによってのみ容易に認識される。 ロボットの自動システムテストにおける故障検出のためのシミュレーションノイズ推定を提案する。 欠陥の分類は、古典的な機械学習(サポートベクターマシン)を使用して、スカラーノイズ推定から異なる障害クラスを識別する。 本手法はヒューマノイドロボットLOLAのシミュレーションデータに基づいて評価する。 このアプローチは、低い偽陽性率で高い障害検出精度をもたらし、より厳格な自動システムテストに使用できる。 結果は、単一の訓練されたモデルが異なるロボットのために働くことを示しています。 提案手法はオープンソースツールであるNoisyTestの形でコミュニティに提供されており,任意のロボットからのデータを簡単にテストすることができる。 より広い範囲では、この技術は、人間が成功や失敗を評価せずに、現実世界の自動化システムテストを強化する可能性がある。

Roboticists usually test new control software in simulation environments before evaluating its functionality on real-world robots. Simulations reduce the risk of damaging the hardware and can significantly increase the development process's efficiency in the form of automated system tests. However, many flaws in the software remain undetected in simulation data, revealing their harmful effects on the system only in time-consuming experiments. In reality, such irregularities are often easily recognized solely by the robot's airborne noise during operation. We propose a simulated noise estimate for the detection of failures in automated system tests of robots. The classification of flaws uses classical machine learning - a support vector machine - to identify different failure classes from the scalar noise estimate. The methodology is evaluated on simulation data from the humanoid robot LOLA. The approach yields high failure detection accuracy with a low false-positive rate, enabling its use for stricter automated system tests. Results indicate that a single trained model may work for different robots. The proposed technique is provided to the community in the form of the open-source tool NoisyTest, making it easy to test data from any robot. In a broader scope, the technique may empower real-world automated system tests without human evaluation of success or failure.
翻訳日:2021-02-17 14:50:07 公開日:2021-02-16
# 異なるプライベートクアンティル

Differentially Private Quantiles ( http://arxiv.org/abs/2102.08244v1 )

ライセンス: Link先を確認
Jennifer Gillenwater, Matthew Joseph, Alex Kulesza(参考訳) 量子はしばしばデータの要約と理解に使用される。 そのデータが敏感な場合、差分プライベートな方法で量子単位を計算する必要があり、その結果が個人情報を明らかにしないという理論的保証を提供する。 しかし、複数の量子化が必要な一般的な場合、既存の微分プライベートアルゴリズムは、個々の量子化を個別に計算し、プライバシ予算を分割し、精度を低下させる。 本研究では,n$データポイントから$m$ quantilesを推定すると同時に,差分プライバシを保証した指数関数機構のインスタンスを提案する。 ユーティリティ関数は慎重に構成されており、$m$への指数依存を避け、$O(mn^2 + m^2n)$の時間内のすべての$m$量子化の推定を返す効率的な実装を可能にする。 実験の結果,本手法は実データと合成データの両方において,実用上十分な効率を保ちながら,技術の現状を著しく上回っていることがわかった。

Quantiles are often used for summarizing and understanding data. If that data is sensitive, it may be necessary to compute quantiles in a way that is differentially private, providing theoretical guarantees that the result does not reveal private information. However, in the common case where multiple quantiles are needed, existing differentially private algorithms scale poorly: they compute each quantile individually, splitting their privacy budget and thus decreasing accuracy. In this work we propose an instance of the exponential mechanism that simultaneously estimates $m$ quantiles from $n$ data points while guaranteeing differential privacy. The utility function is carefully structured to allow for an efficient implementation that avoids exponential dependence on $m$ and returns estimates of all $m$ quantiles in time $O(mn^2 + m^2n)$. Experiments show that our method significantly outperforms the current state of the art on both real and synthetic data while remaining efficient enough to be practical.
翻訳日:2021-02-17 14:49:51 公開日:2021-02-16
# ナップサック制約を受ける部分モジュラ最大化:近最適適応複雑性を有するコンビナールアルゴリズム

Submodular Maximization subject to a Knapsack Constraint: Combinatorial Algorithms with Near-optimal Adaptive Complexity ( http://arxiv.org/abs/2102.08327v1 )

ライセンス: Link先を確認
Georgios Amanatidis, Federico Fusco, Philip Lazos, Stefano Leonardi, Alberto Marchetti Spaccamela, Rebecca Reiffenh\"auser(参考訳) 大規模なインスタンスを扱う必要性の増大は、ソリューションの品質と適用可能性のバランスをとるアルゴリズムの設計を動機付ける。 後者にとって重要な測度は \emph{adaptive complexity} であり、必要な並列計算の逐次ラウンドの数をキャプチャする。 本研究では, \emph{near-optimal} $O(\log n)$ 適応的複雑性を伴うナップサック制約を受ける非モノトーン部分モジュラ最大化に対する,最初の \emph{constant factor} 近似アルゴリズムを得る。 機能評価(または値クエリ)の総数も考慮する必要があります。 我々のアルゴリズムは$\tilde{O}(n^2)$の値クエリを問うが、代わりに$\tilde{O}(n)$だけを実行するように修正できる。 上記の適応性の改善に加えて、この問題に対する部分線形適応的複雑性を持つ最初の \emph{combinatorial} アプローチであり、濃度制約や単調目的の特別な場合であっても、最先端に匹敵するアルゴリズムが得られる。 最後に,実世界のデータセットに対するアルゴリズムの適用性を示す。

The growing need to deal with massive instances motivates the design of algorithms balancing the quality of the solution with applicability. For the latter, an important measure is the \emph{adaptive complexity}, capturing the number of sequential rounds of parallel computation needed. In this work we obtain the first \emph{constant factor} approximation algorithm for non-monotone submodular maximization subject to a knapsack constraint with \emph{near-optimal} $O(\log n)$ adaptive complexity. Low adaptivity by itself, however, is not enough: one needs to account for the total number of function evaluations (or value queries) as well. Our algorithm asks $\tilde{O}(n^2)$ value queries, but can be modified to run with only $\tilde{O}(n)$ instead, while retaining a low adaptive complexity of $O(\log^2n)$. Besides the above improvement in adaptivity, this is also the first \emph{combinatorial} approach with sublinear adaptive complexity for the problem and yields algorithms comparable to the state-of-the-art even for the special cases of cardinality constraints or monotone objectives. Finally, we showcase our algorithms' applicability on real-world datasets.
翻訳日:2021-02-17 14:49:33 公開日:2021-02-16
# 戦略的予知による効率的な競争とオンライン学習

Efficient Competitions and Online Learning with Strategic Forecasters ( http://arxiv.org/abs/2102.08358v1 )

ライセンス: Link先を確認
Rafael Frongillo, Robert Gomez, Anish Thilagar, Bo Waggoner(参考訳) 予測と機械学習における勝者獲得競争は、ゆがんだインセンティブに苦しむ。 Witkowskiet al。 この問題を特定し、勝者を選ぶための真正なメカニズムであるELFを提案した。 n$の予測者のプールからelfには$\theta(n\log n)$イベントまたはテストデータポイントが必要であり、高い確率で最適に近い予測者を選択する。 次に、標準的なオンライン学習アルゴリズムが$O(\log(n) / \epsilon^2)$イベントのみを使用して$\epsilon$-optimal forecasterを選択することを示した。 このバインドは、非戦略設定でも可能な限りベストにマッチします。 次に,このようなメカニズムを応用して,非名指し戦略専門家に対する最初のno-regret保証を得る。

Winner-take-all competitions in forecasting and machine-learning suffer from distorted incentives. Witkowskiet al. identified this problem and proposed ELF, a truthful mechanism to select a winner. We show that, from a pool of $n$ forecasters, ELF requires $\Theta(n\log n)$ events or test data points to select a near-optimal forecaster with high probability. We then show that standard online learning algorithms select an $\epsilon$-optimal forecaster using only $O(\log(n) / \epsilon^2)$ events, by way of a strong approximate-truthfulness guarantee. This bound matches the best possible even in the nonstrategic setting. We then apply these mechanisms to obtain the first no-regret guarantee for non-myopic strategic experts.
翻訳日:2021-02-17 14:49:08 公開日:2021-02-16
# 均質・異種リモートセンシング画像における変化検出のための多スケールグラフ畳み込みネットワーク

A Multiscale Graph Convolutional Network for Change Detection in Homogeneous and Heterogeneous Remote Sensing Images ( http://arxiv.org/abs/2102.08041v1 )

ライセンス: Link先を確認
Junzheng Wu, Biao Li, Yao Qin, Weiping Ni, Han Zhang and Yuli Sun(参考訳) リモートセンシング画像における変化検出(CD)は、常に研究の領域を広げています。 これまで様々な手法を用いて多くの手法が提案されてきたが、特に高分解能や不均一な状況において、異なるパターンの地上物体から特徴を効果的にモデル化することが困難であるため、変化を正確に識別することは依然として大きな課題である。 本稿では,グラフ畳み込みネットワーク(gcn)に基づく新しいcd法と,均質画像と異種画像の両方に対して多スケールオブジェクトベース手法を提案する。 まず、事前訓練されたU-netとマルチスケールセグメンテーションによりオブジェクトワイド高レベル特徴を得る。 各小包をノードとして扱うと、グラフ表現が形成され、提案されたマルチスケールグラフ畳み込みネットワークに、各チャネルが1つのスケールに対応するように供給される。 マルチスケールGCNは、ラベル付けされていない少数のノードから他のノードへラベル情報を伝搬する。 さらに、マルチスケールGCNの出力チャネルからの情報を包括的に組み込むために、スケール間の親子関係を用いて融合戦略を設計する。 光, SAR, 異種光/SARデータセットの広範囲な実験により, 提案手法は定性評価と定量的評価の両方において, 最先端の手法より優れていることを示した。 また、いくつかの要因の影響についても論じる。

Change detection (CD) in remote sensing images has been an ever-expanding area of research. To date, although many methods have been proposed using various techniques, accurately identifying changes is still a great challenge, especially in the high resolution or heterogeneous situations, due to the difficulties in effectively modeling the features from ground objects with different patterns. In this paper, a novel CD method based on the graph convolutional network (GCN) and multiscale object-based technique is proposed for both homogeneous and heterogeneous images. First, the object-wise high level features are obtained through a pre-trained U-net and the multiscale segmentations. Treating each parcel as a node, the graph representations can be formed and then, fed into the proposed multiscale graph convolutional network with each channel corresponding to one scale. The multiscale GCN propagates the label information from a small number of labeled nodes to the other ones which are unlabeled. Further, to comprehensively incorporate the information from the output channels of multiscale GCN, a fusion strategy is designed using the father-child relationships between scales. Extensive Experiments on optical, SAR and heterogeneous optical/SAR data sets demonstrate that the proposed method outperforms some state-of the-art methods in both qualitative and quantitative evaluations. Besides, the Influences of some factors are also discussed.
翻訳日:2021-02-17 14:48:54 公開日:2021-02-16
# 局所ハイパーフロー拡散

Local Hyper-flow Diffusion ( http://arxiv.org/abs/2102.07945v1 )

ライセンス: Link先を確認
Kimon Fountoulakis, Pan Li, Shenghao Yang(参考訳) 現実の問題の多くはハイパーグラフと拡散アルゴリズムの利用を必要とする。 例えば、レコメンデーションシステム、フードネットワークにおけるノードランキング、ソーシャルネットワークにおけるコミュニティ検出などがあります。 実ハイパーグラフのサイズと複雑さの増大により、最も複雑なハイパーグラフを扱う局所的および正確な拡散アルゴリズムが求められている。 本論文では,サブモジュラリティの仮定だけで高次関係を扱う最初の局所拡散法を提案する。 本手法は,プライマル問題は自然なネットワークフロー解釈を持ち,2重問題は一般のサブモジュラーカットコストに対して$\ell_2$-norm ペナルティを用いたカットベース解釈を持つ,プライマル・デュアル最適化定式に基づいている。 提案手法が局所ハイパーグラフクラスタリング問題に対する二次近似誤差を達成することを証明した。 本手法は,局所的なハイパーグラフクラスタリングやノードランキング問題に対する実データよりも,最先端の手法よりもはるかに優れていることを示す。

A plethora of real-world problems require utilization of hypergraphs and diffusion algorithms. Examples include recommendation systems, node ranking in food networks and community detection in social networks to mention a few. Due to the increased size and complexity of real hypergraphs, local and accurate diffusion algorithms that work with the most complex hypergraphs are in need. We propose the first local diffusion method that works on higher-order relations with only a submodularity assumption. Our method is based on a primal-dual optimization formulation where the primal problem has a natural network flow interpretation, and the dual problem has a cut-based interpretation using the $\ell_2$-norm penalty for general submodular cut-costs. We prove that the proposed formulation achieves quadratic approximation error for the problem of local hypergraph clustering. We demonstrate that the new technique is significantly better than state-of-the-art methods over a range of real datasets for the local hypergraph clustering and node ranking problems.
翻訳日:2021-02-17 14:47:52 公開日:2021-02-16
# エピソディック・トリプレット・マイニングによるフェーショット音声分類のための半教師付き学習

Semi Supervised Learning For Few-shot Audio Classification By Episodic Triplet Mining ( http://arxiv.org/abs/2102.08074v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu(参考訳) 少数ショット学習は、テスト中に現れるが、トレーニング中に使用できない未発見のクラスを一般化することを目的としている。 プロトタイプネットワークは、クラス内の埋め込みサポートポイントの平均ベクトルの形でクラスプロトタイプを構築することによって、少数のショットメトリック学習を組み込む。 極端に少数のシナリオ(ワンショットなど)での原型的ネットワークのパフォーマンスは、主にプロトタイプの構築中にクラスタ内のバリエーションが減り、大幅に低下する。 本稿では,典型的な原型損失関数をエピソードトリプルトマイニング(ETM)技術で置き換えることを提案する。 通常の三重項選択は、トレーニング中に全ての組み合わせが使用されるため、過度に適合する。 我々は, 半硬度三重項と半硬度三重項のマイニングにエピソディクストレーニングを取り入れ, オーバーフィッティングを克服した。 また,ラベルなしのトレーニングサンプルをモデリングに利用するための適応法を提案する。 話者認識と音声イベント検出という2つの異なるオーディオ処理タスクの実験は、パフォーマンスの改善と、原型損失関数や他のメタラーニングフレームワークに対するETMの有効性を示しています。 さらに,未ラベルのトレーニングサンプルを用いた場合の性能向上を示す。

Few-shot learning aims to generalize unseen classes that appear during testing but are unavailable during training. Prototypical networks incorporate few-shot metric learning, by constructing a class prototype in the form of a mean vector of the embedded support points within a class. The performance of prototypical networks in extreme few-shot scenarios (like one-shot) degrades drastically, mainly due to the desuetude of variations within the clusters while constructing prototypes. In this paper, we propose to replace the typical prototypical loss function with an Episodic Triplet Mining (ETM) technique. The conventional triplet selection leads to overfitting, because of all possible combinations being used during training. We incorporate episodic training for mining the semi hard positive and the semi hard negative triplets to overcome the overfitting. We also propose an adaptation to make use of unlabeled training samples for better modeling. Experimenting on two different audio processing tasks, namely speaker recognition and audio event detection; show improved performances and hence the efficacy of ETM over the prototypical loss function and other meta-learning frameworks. Further, we show improved performances when unlabeled training samples are used.
翻訳日:2021-02-17 14:47:38 公開日:2021-02-16
# Axial Residual Networks for CycleGAN-based Voice Conversion

Axial Residual Networks for CycleGAN-based Voice Conversion ( http://arxiv.org/abs/2102.08075v1 )

ライセンス: Link先を確認
Jaeseong You, Gyuhyeon Nam, Dalhyun Kim, Gyeongsu Chae(参考訳) 非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。 提案するCycleGANモデルでは,高周波数分解能度スペクトログラムに直接形状保存変換を行い,そのスタイルを変換する。 話者識別) 音声コンテンツを保存しながら。 変換プロセス全体を通して、モデルは任意の種類の圧縮された中間表現に頼らない(例えば)。 mel spectrogram, low resolution spectrogram, decomposed network feature)の略。 この高価な手順とCycleGAN損失に対する様々な修正をサポートし、トレーニングプロセスを安定させるために、効率的な軸残存ブロックアーキテクチャを提案します。 実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。

We propose a novel architecture and improved training objectives for non-parallel voice conversion. Our proposed CycleGAN-based model performs a shape-preserving transformation directly on a high frequency-resolution magnitude spectrogram, converting its style (i.e. speaker identity) while preserving the speech content. Throughout the entire conversion process, the model does not resort to compressed intermediate representations of any sort (e.g. mel spectrogram, low resolution spectrogram, decomposed network feature). We propose an efficient axial residual block architecture to support this expensive procedure and various modifications to the CycleGAN losses to stabilize the training process. We demonstrate via experiments that our proposed model outperforms Scyclone and shows a comparable or better performance to that of CycleGAN-VC2 even without employing a neural vocoder.
翻訳日:2021-02-17 14:47:16 公開日:2021-02-16
# 動的条件下でのリチウムイオン電池劣化の簡易統計モデルと連続深層学習:フラクショナル多項式とニューラルネットワーク

Simple statistical models and sequential deep learning for Lithium-ion batteries degradation under dynamic conditions: Fractional Polynomials vs Neural Networks ( http://arxiv.org/abs/2102.08111v1 )

ライセンス: Link先を確認
Clara B. Salucci, Azzeddine Bakdi, Ingrid K. Glad, Erik Vanem, Riccardo De Bin(参考訳) リチウムイオン電池の寿命と安全性は、電池の運転状況の効率的な監視と調整によって促進されるため、バッテリー管理システム上の状態監視(SoH)のための迅速かつ正確なアルゴリズムを実装することが重要です。 この課題は、バッテリー容量の低下に寄与する要因の複雑さと多さ、特に様々な時間スケールで異なる劣化過程が発生し、それらの相互作用が重要な役割を果たすため、困難である。 本稿では,ディープラーニング分野の長期短期記憶ニューラルネットワークと,古典統計学の多変量分数多項式回帰という2つのデータ駆動型アプローチを提案し,比較する。 両方のクラスからのモデルは、ある疲労したセルの履歴データから訓練され、他の細胞のSoHを予測するために使用されます。 この研究では、NASA Ames Prognostics Center of Excellenceが提供するデータを使用しており、動的動作条件をシミュレートするさまざまな負荷を特徴としています。 1つは、最近の真の容量測定が知られていると仮定し、もう1つは細胞の公称容量のみに依存します。 どちらの手法も効果的であり, 予測誤差が低く, 解釈可能性と複雑性の観点から, 両者の利点について批判的に論じる。

Longevity and safety of Lithium-ion batteries are facilitated by efficient monitoring and adjustment of the battery operating conditions: hence, it is crucial to implement fast and accurate algorithms for State of Health (SoH) monitoring on the Battery Management System. The task is challenging due to the complexity and multitude of the factors contributing to the battery capacity degradation, especially because the different degradation processes occur at various timescales and their interactions play an important role. This paper proposes and compares two data-driven approaches: a Long Short-Term Memory neural network, from the field of deep learning, and a Multivariable Fractional Polynomial regression, from classical statistics. Models from both classes are trained from historical data of one exhausted cell and used to predict the SoH of other cells. This work uses data provided by the NASA Ames Prognostics Center of Excellence, characterised by varying loads which simulate dynamic operating conditions. Two hypothetical scenarios are considered: one assumes that a recent true capacity measurement is known, the other relies solely on the cell nominal capacity. Both methods are effective, with low prediction errors, and the advantages of one over the other in terms of interpretability and complexity are discussed in a critical way.
翻訳日:2021-02-17 14:47:04 公開日:2021-02-16
# 家賃評価のためのフロアプランのヘドニックモデルへの統合

Integrating Floor Plans into Hedonic Models for Rent Price Appraisal ( http://arxiv.org/abs/2102.08162v1 )

ライセンス: Link先を確認
Kirill Solovev, Nicolas Pr\"ollochs(参考訳) オンライン不動産プラットフォームは、ユーザーがアパートや家を検索しやすくする重要な市場となっています。 しかし、プロパティの価値を正確に評価することは依然として困難です。 先行研究は主に、構造化データを考慮したヘドニック価格モデルに基づく不動産評価を研究しており、非構造化データを伴うことは一般的に無視されている。 本研究では,オンライン不動産プラットフォームにおけるマンションフロア計画の視覚的自動分析が,ヘドニック賃貸価格評価をいかに高めるかを検討する。 歴史的価格データからフロアプランの価格関連設計を学ぶために,2段階の深層学習手法を提案する。 次に,集合住宅の構造特性と立地特性を考慮に入れた集合住宅価格モデルにフロアプラン予測を統合する。 9174の不動産リストのユニークなデータセットに基づく経験的分析は、現在のヘドニックモデルが利用可能なデータを過小に活用していることを示唆している。 1) 集合住宅の視覚設計は, 家賃価格について, 構造的, 位置的特徴を制御した上でも, 大幅な説明力を有すること, (2) 床計画の活用により, 最大で10.56%の予測誤差を低減できることがわかった。 さらに, 床計画では, 高齢者や小規模アパートの予測性能が特に高いことが判明した。 以上から,床計画の視覚的設計と不動産価格との関連性を確立することにより,既存の研究機関に実証的な知見が寄与した。 さらに,提案手法は,オンライン不動産プラットフォームにおいて重要な意味を持ち,不動産リストにおけるユーザエクスペリエンスの向上に利用することができる。

Online real estate platforms have become significant marketplaces facilitating users' search for an apartment or a house. Yet it remains challenging to accurately appraise a property's value. Prior works have primarily studied real estate valuation based on hedonic price models that take structured data into account while accompanying unstructured data is typically ignored. In this study, we investigate to what extent an automated visual analysis of apartment floor plans on online real estate platforms can enhance hedonic rent price appraisal. We propose a tailored two-staged deep learning approach to learn price-relevant designs of floor plans from historical price data. Subsequently, we integrate the floor plan predictions into hedonic rent price models that account for both structural and locational characteristics of an apartment. Our empirical analysis based on a unique dataset of 9174 real estate listings suggests that current hedonic models underutilize the available data. We find that (1) the visual design of floor plans has significant explanatory power regarding rent prices - even after controlling for structural and locational apartment characteristics, and (2) harnessing floor plans results in an up to 10.56% lower out-of-sample prediction error. We further find that floor plans yield a particularly high gain in prediction performance for older and smaller apartments. Altogether, our empirical findings contribute to the existing research body by establishing the link between the visual design of floor plans and real estate prices. Moreover, our approach has important implications for online real estate platforms, which can use our findings to enhance user experience in their real estate listings.
翻訳日:2021-02-17 14:46:40 公開日:2021-02-16
# SGDの異なるプライバシーとビザンチン耐性:彼らは追加しますか?

Differential Privacy and Byzantine Resilience in SGD: Do They Add Up? ( http://arxiv.org/abs/2102.08166v1 )

ライセンス: Link先を確認
Rachid Guerraoui, Nirupam Gupta, Rafa\"el Pinot, S\'ebastien Rouault, John Stephan(参考訳) 本稿では,機械学習(ML)におけるビザンチンレジリエンスとプライバシの併用の問題に対処する。 具体的には、有名なStochastic Gradient Descent(SGD)学習アルゴリズムの分散実装が、差分プライバシー(DP)と$(\alpha,f)$-Byzantineレジリエンスの両方で実現可能かどうかを検討する。 私たちの知識を最大限に活かすために、これは理論的観点からこの問題に取り組む最初の仕事です。 我々の分析の鍵となる発見は、これらの2つの(おそらく)直交問題に対する古典的なアプローチが相容れないことである。 より正確には、これらの手法の直接的な構成は、結果のSGDアルゴリズムの保証がMLモデルのパラメータ数に依存しないことを示し、大規模モデルのトレーニングを事実上不可能にする。 我々は,公開データセットの数値実験により,dpとビザンチンのレジリエンスを同時に確保することは実用的でないことを示した。

This paper addresses the problem of combining Byzantine resilience with privacy in machine learning (ML). Specifically, we study whether a distributed implementation of the renowned Stochastic Gradient Descent (SGD) learning algorithm is feasible with both differential privacy (DP) and $(\alpha,f)$-Byzantine resilience. To the best of our knowledge, this is the first work to tackle this problem from a theoretical point of view. A key finding of our analyses is that the classical approaches to these two (seemingly) orthogonal issues are incompatible. More precisely, we show that a direct composition of these techniques makes the guarantees of the resulting SGD algorithm depend unfavourably upon the number of parameters in the ML model, making the training of large models practically infeasible. We validate our theoretical results through numerical experiments on publicly-available datasets; showing that it is impractical to ensure DP and Byzantine resilience simultaneously.
翻訳日:2021-02-17 14:46:12 公開日:2021-02-16
# Mixupによる深層学習に基づく半教師付きオーディオタグの改良

Improving Deep-learning-based Semi-supervised Audio Tagging with Mixup ( http://arxiv.org/abs/2102.08183v1 )

ライセンス: Link先を確認
L\'eo Cances, Etienne Labb\'e, Thomas Pellegrini(参考訳) 近年,深層学習 (DL) のフレームワークである半教師付き学習 (SSL) 手法が,ラベルのないデータを利用して画像データセットに最先端の成果をもたらすことが示されている。 画像中のオブジェクト認識タスクでテストされる時間のほとんどは、これらのアルゴリズムがオーディオタスクに適用される場合、ほとんど比較されない。 本稿では,音声タグ付けのタスクに,最近のSSLメソッドを4つ適用した。 最初の2つの方法、すなわちディープコトレーニング(dct)と平均教師(mt)は、2つの協調ニューラルネットワークを含む。 MixMatch(MM)とFixMatch(FM)と呼ばれる他の2つのアルゴリズムは、主にデータ拡張戦略に依存する単一モデルメソッドである。 Wide ResNet 28-2アーキテクチャをすべての実験で使用し、ラベル付きデータの10%と残りの90\%をラベルなしとして、まず3つの標準的なベンチマークオーディオイベントデータセット(環境音分類(ESC-10)、UrbanSound8K(UBS8K)、Google Speech Commands(GSC)の4つの方法の精度を比較しました。 MMおよびFMはMTおよびDCTをかなり上回り、MMはほとんどの実験で最もよい方法です。 特にUBS8K と GSC では、MM は 18.02% と 3.25% の誤差率 (ER) を達成し、それぞれ 23.29% と 4.94% に達した。 第2に、4つのアルゴリズムでmixup拡張を使用することの利点について検討した。 ほとんどすべてのケースにおいて、mixupは大きな利益をもたらした。 例えばGSCでは、FMは4.44%、ERは3.31%に達した。

Recently, semi-supervised learning (SSL) methods, in the framework of deep learning (DL), have been shown to provide state-of-the-art results on image datasets by exploiting unlabeled data. Most of the time tested on object recognition tasks in images, these algorithms are rarely compared when applied to audio tasks. In this article, we adapted four recent SSL methods to the task of audio tagging. The first two methods, namely Deep Co-Training (DCT) and Mean Teacher (MT) involve two collaborative neural networks. The two other algorithms, called MixMatch (MM) and FixMatch (FM), are single-model methods that rely primarily on data augmentation strategies. Using the Wide ResNet 28-2 architecture in all our experiments, 10% of labeled data and the remaining 90\% as unlabeled, we first compare the four methods' accuracy on three standard benchmark audio event datasets: Environmental Sound Classification (ESC-10), UrbanSound8K (UBS8K), and Google Speech Commands (GSC). MM and FM outperformed MT and DCT significantly, MM being the best method in most experiments. On UBS8K and GSC, in particular, MM achieved 18.02% and 3.25% error rates (ER), outperforming models trained with 100% of the available labeled data, which reached 23.29% and 4.94% ER, respectively. Second, we explored the benefits of using the mixup augmentation in the four algorithms. In almost all cases, mixup brought significant gains. For instance, on GSC, FM reached 4.44% and 3.31% ER without and with mixup.
翻訳日:2021-02-17 14:45:51 公開日:2021-02-16
# 勾配に基づく政策最適化による不適切な学習

Improper Learning with Gradient-based Policy Optimization ( http://arxiv.org/abs/2102.08201v1 )

ライセンス: Link先を確認
Mohammadi Zaki, Avinash Mohan, Aditya Gopalan and Shie Mannor(参考訳) 我々は,未知のマルコフ決定プロセスに対して学習者がmベースコントローラを与えられる不適切な強化学習設定を検討し,それらを最適に組み合わせて,ベースコントローラよりも優れる可能性のある新しいコントローラを創りだそうとする。 制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。 混合値関数とその勾配はクローズド形式では利用できないかもしれないが, ロールアウトと同時摂動確率近似 (SPSA) を明示的な勾配降下最適化に用いることを示した。 勾配オラクルへのアクセスを仮定するアプローチに対して収束率と収束率の保証を導出する。 難解な制約付き待ち行列タスクの数値計算結果から,各構成ポリシーが不安定である場合でも,不適切なポリシー最適化アルゴリズムがシステム安定化が可能であることが示された。

We consider an improper reinforcement learning setting where the learner is given M base controllers for an unknown Markov Decision Process, and wishes to combine them optimally to produce a potentially new controller that can outperform each of the base ones. We propose a gradient-based approach that operates over a class of improper mixtures of the controllers. The value function of the mixture and its gradient may not be available in closed-form; however, we show that we can employ rollouts and simultaneous perturbation stochastic approximation (SPSA) for explicit gradient descent optimization. We derive convergence and convergence rate guarantees for the approach assuming access to a gradient oracle. Numerical results on a challenging constrained queueing task show that our improper policy optimization algorithm can stabilize the system even when each constituent policy at its disposal is unstable.
翻訳日:2021-02-17 14:45:20 公開日:2021-02-16
# テキスト音声編集のための文脈対応韻律補正

Context-Aware Prosody Correction for Text-Based Speech Editing ( http://arxiv.org/abs/2102.08328v1 )

ライセンス: Link先を確認
Max Morrison, Lucas Rencker, Zeyu Jin, Nicholas J. Bryan, Juan-Pablo Caceres, Bryan Pardo(参考訳) テキストベースの音声エディタは、直感的なカット、コピー、ペーストによる音声書き起こし操作を許可することにより、音声録音を編集するプロセスを高速化する。 しかし、現在のシステムの大きな欠点は、編集された領域の周囲の韻律的ミスマッチのために、編集された録音がしばしば不自然に聞こえることである。 本研究では,より自然に音声のテキスト編集を行うための文脈認識手法を提案する。 そこで,本研究では,一連のニューラルネットワークを用いて,編集を囲む音声の韻律に依存し,ユーザ制御の細粒度化が容易な突発的韻律特徴を生成する。2)生成した特徴を用いて,標準ピッチシフト・時間伸長法を制御し,3)信号操作によって引き起こされるアーティファクトを除去し,忠実度の高い結果を得る。 主観的聞き取りテストを用いてアプローチを評価し,詳細な比較分析を行い,いくつかの興味深い知見をまとめる。

Text-based speech editors expedite the process of editing speech recordings by permitting editing via intuitive cut, copy, and paste operations on a speech transcript. A major drawback of current systems, however, is that edited recordings often sound unnatural because of prosody mismatches around edited regions. In our work, we propose a new context-aware method for more natural sounding text-based editing of speech. To do so, we 1) use a series of neural networks to generate salient prosody features that are dependent on the prosody of speech surrounding the edit and amenable to fine-grained user control 2) use the generated features to control a standard pitch-shift and time-stretch method and 3) apply a denoising neural network to remove artifacts induced by the signal manipulation to yield a high-fidelity result. We evaluate our approach using a subjective listening test, provide a detailed comparative analysis, and conclude several interesting insights.
翻訳日:2021-02-17 14:45:07 公開日:2021-02-16
# インドネシアのフィンテック産業における顧客関係評価の試み

An Effort to Measure Customer Relationship Performance in Indonesia's Fintech Industry ( http://arxiv.org/abs/2102.08262v1 )

ライセンス: Link先を確認
Alisya Putri Rabbani, Andry Alamsyah, Sri Widiyanesti(参考訳) ソーシャルメディアの利用は企業と顧客の関係を単純化する。 ソーシャルメディアを用いた会話ネットワークに顧客を巻き込む取り組みは、ソーシャル顧客関係管理(Social Customer Relationship Management, SCRM)と呼ばれる。 ソーシャルネットワーク分析は、ネットワークの特徴とソーシャルメディア上の会話ネットワークのアクティブ性を理解するのに役立ちます。 ネットワーク特性の計算は、顧客関係のパフォーマンスを測定する上で有益です。 金融テクノロジーは、ソーシャルメディアを利用して顧客と対話するデジタルベースの金融サービスを提供する新しい新興産業です。 競争力を維持するためには、SCRMのパフォーマンスを測定する必要があります。 そこで,インドネシアのフィンテック企業のSCRMパフォーマンスについて検討する。 会話ネットワークにおける市場多数意見の発見においては,肯定的,否定的な意見に分類して感情分析を行う。 ケーススタディとして,GoPay,OVO,Dana,LinkAjaに関するTwitterの会話を,2019年10月1日から11月1日までの観察期間中に調査した。 この研究の結果は、特に顧客との関係を管理するビジネスインテリジェンスに有用である。

The availability of social media simplifies the companies-customers relationship. An effort to engage customers in conversation networks using social media is called Social Customer Relationship Management (SCRM). Social Network Analysis helps to understand network characteristics and how active the conversation network on social media. Calculating its network properties is beneficial for measuring customer relationship performance. Financial Technology, a new emerging industry that provides digital-based financial services utilize social media to interact with its customers. Measuring SCRM performance is needed in order to stay competitive among others. Therefore, we aim to explore the SCRM performance of the Indonesia Fintech company. In terms of discovering the market majority thought in conversation networks, we perform sentiment analysis by classifying into positive and negative opinion. As case studies, we investigate Twitter conversations about GoPay, OVO, Dana, and LinkAja during the observation period from 1st October until 1st November 2019. The result of this research is beneficial for business intelligence purposes especially in managing relationships with customers.
翻訳日:2021-02-17 14:44:47 公開日:2021-02-16
# 非自動回帰モデルとBERTからのクロスモーダルナレッジ転送による高速エンドツーエンド音声認識

Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT ( http://arxiv.org/abs/2102.07594v2 )

ライセンス: Link先を確認
Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen, Shuai Zhang(参考訳) アテンションベースエンコーダデコーダ(AED)モデルは音声認識において有望な性能を達成した。 しかし、デコーダは自動回帰的にテキストトークン(文字や単語など)を予測するため、AEDモデルでは全てのトークンを並列に予測することは困難である。 これにより、推論速度は比較的遅くなります。 我々は、エンコーダがトークンレベルの関係を暗黙的に有する音声発話全体を既に捉えているため、明示的な自己回帰言語モデリングなしにトークンを予測できると信じている。 トークンの予測が他のトークンに依存しない場合、シーケンス内のすべてのトークンの並列予測は実現可能である。 この考え方に基づき, LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。 モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。 3つのモジュールは基本的な注意ブロックに基づいている。 エンコーダは、音声から高レベル表現を抽出する。 PDSはトークンに対応する位置エンコーディングを使用して、音響表現をトークンレベル表現に変換する。 デコーダはさらに、自己照準機構とのトークンレベルの関係をキャプチャする。 最後に、各トークン位置毎に語彙上の確率分布を算出する。 このため、位置分類問題として音声認識が再定式化される。 さらに,大規模な事前学習型言語モデルBERTのセマンティクスを洗練し,性能を向上させるためのクロスモーダルトランスファー学習手法を提案する。

Attention-based encoder-decoder (AED) models have achieved promising performance in speech recognition. However, because the decoder predicts text tokens (such as characters or words) in an autoregressive manner, it is difficult for an AED model to predict all tokens in parallel. This makes the inference speed relatively slow. We believe that because the encoder already captures the whole speech utterance, which has the token-level relationship implicitly, we can predict a token without explicitly autoregressive language modeling. When the prediction of a token does not rely on other tokens, the parallel prediction of all tokens in the sequence is realizable. Based on this idea, we propose a non-autoregressive speech recognition model called LASO (Listen Attentively, and Spell Once). The model consists of an encoder, a decoder, and a position dependent summarizer (PDS). The three modules are based on basic attention blocks. The encoder extracts high-level representations from the speech. The PDS uses positional encodings corresponding to tokens to convert the acoustic representations into token-level representations. The decoder further captures token-level relationships with the self-attention mechanism. At last, the probability distribution on the vocabulary is computed for each token position. Therefore, speech recognition is re-formulated as a position-wise classification problem. Further, we propose a cross-modal transfer learning method to refine semantics from a large-scale pre-trained language model BERT for improving the performance.
翻訳日:2021-02-17 12:09:14 公開日:2021-02-16
# ニューラルネットワークにおける2次元曲線:ガウス過程を用いた新しい展望

Double-descent curves in neural networks: a new perspective using Gaussian processes ( http://arxiv.org/abs/2102.07238v2 )

ライセンス: Link先を確認
Ouns El Harzli, Guillermo Valle-P\'erez and Ard A. Louis(参考訳) ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加と共に下降する現象を記述し、データポイントの数より少ないパラメータの最適な数に達した後に成長するが、過度にパラメータ化された状態に再び下降する。 ここでは、無限幅限界の完全連結ネットワーク(FCN)に正確にマップするニューラルネットワークガウスプロセス(NNGP)を使用して、ランダム行列理論のテクニックと組み合わせ、この一般化の挙動を計算し、特に過パラメータ化された体制に焦点を当てます。 我々は,対応するガウス過程回帰の数値シミュレーションを用いて予測を検証する。 NNGPアプローチの利点は、解析的計算の方が解釈が容易である点である。 我々は、ニューラルネットワークの一般化性能は、オーバーパラメータ化された体制において正確に改善する、なぜなら、それが同等のガウス過程に収束するからである。

Double-descent curves in neural networks describe the phenomenon that the generalisation error initially descends with increasing parameters, then grows after reaching an optimal number of parameters which is less than the number of data points, but then descends again in the overparameterised regime. Here we use a neural network Gaussian process (NNGP) which maps exactly to a fully connected network (FCN) in the infinite width limit, combined with techniques from random matrix theory, to calculate this generalisation behaviour, with a particular focus on the overparameterised regime. We verify our predictions with numerical simulations of the corresponding Gaussian process regressions. An advantage of our NNGP approach is that the analytical calculations are easier to interpret. We argue that neural network generalization performance improves in the overparameterised regime precisely because that is where they converge to their equivalent Gaussian process.
翻訳日:2021-02-17 12:08:52 公開日:2021-02-16
# マルチラベル分類法の包括的比較研究

Comprehensive Comparative Study of Multi-Label Classification Methods ( http://arxiv.org/abs/2102.07113v2 )

ライセンス: Link先を確認
Jasmin Bogatinovski, Ljup\v{c}o Todorovski, Sa\v{s}o D\v{z}eroski, Dragi Kocev(参考訳) マルチラベル分類(MLC)は最近、機械学習コミュニティから関心が高まっています。 いくつかの研究はMLCの方法とデータセットのレビューを提供し、いくつかの研究はMLCメソッドの実証的な比較を提供する。 ただし、考慮されるメソッドとデータセットの数に制限があります。 この研究は、さまざまなドメインのデータセットの多さに関する幅広いMLCメソッドの包括的な実証的研究を提供する。 より具体的には、42のベンチマークデータセットの26の手法を20の評価尺度を用いて評価する。 評価手法は、大規模で予算のかかる実験研究を設計・実行するための最も高い文献基準に準拠している。 まず、メソッドはコミュニティが使用する方法に基づいて選択され、メソッドのMLC分類と異なる基礎学習者のメソッドの表現を保証します。 第二に、データセットはアプリケーションの幅広い複雑さとドメインをカバーする。 選択した評価尺度は, 予測性能と手法の効率を評価する。 その結果, RFPCT, RFDTBR, ECCJ48, EBRJ48, AdaBoostMH を, 性能指標のスペクトルで最高の評価方法として同定した。 新しいメソッドが導入されるたびに、異なる評価基準に基づいて決定されるMLCメソッドの異なるサブセットと比較する必要があります。

Multi-label classification (MLC) has recently received increasing interest from the machine learning community. Several studies provide reviews of methods and datasets for MLC and a few provide empirical comparisons of MLC methods. However, they are limited in the number of methods and datasets considered. This work provides a comprehensive empirical study of a wide range of MLC methods on a plethora of datasets from various domains. More specifically, our study evaluates 26 methods on 42 benchmark datasets using 20 evaluation measures. The adopted evaluation methodology adheres to the highest literature standards for designing and executing large scale, time-budgeted experimental studies. First, the methods are selected based on their usage by the community, assuring representation of methods across the MLC taxonomy of methods and different base learners. Second, the datasets cover a wide range of complexity and domains of application. The selected evaluation measures assess the predictive performance and the efficiency of the methods. The results of the analysis identify RFPCT, RFDTBR, ECCJ48, EBRJ48 and AdaBoostMH as best performing methods across the spectrum of performance measures. Whenever a new method is introduced, it should be compared to different subsets of MLC methods, determined on the basis of the different evaluation criteria.
翻訳日:2021-02-17 12:08:37 公開日:2021-02-16
# バッチモードアクティブ学習のための条件エントロピーの最大化

Maximizing Conditional Entropy for Batch-Mode Active Learning of Perceptual Metrics ( http://arxiv.org/abs/2102.07365v2 )

ライセンス: Link先を確認
Priyadarshini Kumari, Sidhdhartha Chaudhuri, Vivek Borkar, Subhasis Chaudhuri(参考訳) アクティブメトリックラーニング(Active metric Learning)は、いくつかの入力ドメイン上のメトリクスの学習モデルを可能な限り迅速に改善するために、アノテーションするトレーニングデータ(通常、順序付きトリプレット)のバッチを段階的に選択する問題である。 バッチ内で各トリプレットを独立に選択する標準的なアプローチは、多くの冗長なトリプレットを持つ高い相関性を持つバッチに影響を受けやすいため、全体的な有用性は低い。 計量学習のためのデコリ関連バッチの選択は近年行われているが、これらの方法は同時に2つの三重項間の相関を推定するためにアドホックなヒューリスティックに依存する。 本稿では,最大エントロピー原理(Maximum Entropy Principle)を用いて,最大関節エントロピーをもつバッチをまとめて選択するバッチモードアクティブメトリック学習手法を提案する。 エントロピーは、ドロップアウトによって推定される2次統計から導かれる。 単調に増加するサブモジュラエントロピー関数を利用して、$\left(1 - \frac{1}{e} \right)$-optimalであるGram-Schmidt直交に基づく効率的な勾配アルゴリズムを構築する。 私たちのアプローチは、トリプルレット全体の情報性と多様性のバランスをとる統一されたスコアを定義する最初のバッチモードアクティブメトリック学習方法です。 いくつかの実世界のデータセットによる実験では、我々のアルゴリズムは堅牢であり、常に最先端のアルゴリズムよりも優れています。

Active metric learning is the problem of incrementally selecting batches of training data (typically, ordered triplets) to annotate, in order to progressively improve a learned model of a metric over some input domain as rapidly as possible. Standard approaches, which independently select each triplet in a batch, are susceptible to highly correlated batches with many redundant triplets and hence low overall utility. While there has been recent work on selecting decorrelated batches for metric learning \cite{kumari2020batch}, these methods rely on ad hoc heuristics to estimate the correlation between two triplets at a time. We present a novel approach for batch mode active metric learning using the Maximum Entropy Principle that seeks to collectively select batches with maximum joint entropy, which captures both the informativeness and the diversity of the triplets. The entropy is derived from the second-order statistics estimated by dropout. We take advantage of the monotonically increasing submodular entropy function to construct an efficient greedy algorithm based on Gram-Schmidt orthogonalization that is provably $\left( 1 - \frac{1}{e} \right)$-optimal. Our approach is the first batch-mode active metric learning method to define a unified score that balances informativeness and diversity for an entire batch of triplets. Experiments with several real-world datasets demonstrate that our algorithm is robust and consistently outperforms the state-of-the-art.
翻訳日:2021-02-17 12:08:20 公開日:2021-02-16
# MAPGN:MAsked Pointer-Generator Network for sequence-to-Sequence pre-training

MAPGN: MAsked Pointer-Generator Network for sequence-to-sequence pre-training ( http://arxiv.org/abs/2102.07380v2 )

ライセンス: Link先を確認
Mana Ihori, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi and Ryo Masumura(参考訳) 本稿では,ポインタ生成ネットワークにおける自己教師付き学習手法を提案する。 機械翻訳や要約といったその後の処理を改善する上で,音声スタイルテキストをスタイル正規化テキストに変換する音声テキスト正規化が重要な技術になりつつある。 これまで最も成功した音声テキスト正規化手法は、入力シーケンスからコピー機構を持つポインタ生成ネットワークを用いたシーケンシャル・ツー・シーケンス(seq2seq)マッピングである。 しかし,これらのモデルには音声文と正規化文のペアデータが多く必要であり,そのような量のデータを作成することは困難である。 限られたペアリングデータから発話テキスト正規化モデルを構築するために,無対のテキストデータを利用してseq2seqモデルを改善する自己監視学習に重点を置いている。 残念なことに,従来の自己監視学習手法では,ポインタ生成ネットワークの利用は想定されていない。 そこで本研究では,MAsked Pointer-Generator Network (MAPGN) を提案する。 提案手法は,コピー機構を用いてマスクトークンを埋めることを学ぶことにより,ポインタ生成ネットワークを効果的にプリトレーニングすることができる。 実験により,MAPGNは2つの音声テキスト正規化タスクにおける従来の自己教師付き学習手法よりもポインタジェネレータネットワークに有効であることが示された。

This paper presents a self-supervised learning method for pointer-generator networks to improve spoken-text normalization. Spoken-text normalization that converts spoken-style text into style normalized text is becoming an important technology for improving subsequent processing such as machine translation and summarization. The most successful spoken-text normalization method to date is sequence-to-sequence (seq2seq) mapping using pointer-generator networks that possess a copy mechanism from an input sequence. However, these models require a large amount of paired data of spoken-style text and style normalized text, and it is difficult to prepare such a volume of data. In order to construct spoken-text normalization model from the limited paired data, we focus on self-supervised learning which can utilize unpaired text data to improve seq2seq models. Unfortunately, conventional self-supervised learning methods do not assume that pointer-generator networks are utilized. Therefore, we propose a novel self-supervised learning method, MAsked Pointer-Generator Network (MAPGN). The proposed method can effectively pre-train the pointer-generator network by learning to fill masked tokens using the copy mechanism. Our experiments demonstrate that MAPGN is more effective for pointer-generator networks than the conventional self-supervised learning methods in two spoken-text normalization tasks.
翻訳日:2021-02-17 12:07:52 公開日:2021-02-16
# nerf--既知のカメラパラメータを持たない神経放射場

NeRF--: Neural Radiance Fields Without Known Camera Parameters ( http://arxiv.org/abs/2102.07064v2 )

ライセンス: Link先を確認
Zirui Wang, Shangzhe Wu, Weidi Xie, Min Chen, Victor Adrian Prisacariu(参考訳) 本稿では、カメラのポーズや内在性のない2次元画像からの新しいビュー合成(NVS)問題に取り組む。 様々なNVS技術の中で、Neural Radiance Field (NeRF)は、その顕著な合成品質のために最近人気を集めている。 既存のNeRFベースのアプローチでは、各入力画像に関連するカメラパラメータがトレーニング時に直接アクセス可能であるか、Structure-from-Motionのような従来の手法で正確に推定できる。 本研究では,RGB画像のみのNeRFモデルを予め計算したカメラパラメータを使わずにトレーニングするための,NeRF-と呼ばれるエンドツーエンドフレームワークを提案する。 具体的には,nerfモデルの学習中に,内在的および外在的の両方を含むカメラパラメータが協調最適化により自動的に検出されることを示す。 標準のLLFFベンチマークでは、COLMAPプリコンピュレートカメラパラメータで訓練されたベースラインと比較して、新しいビュー合成結果が得られます。 また、異なるカメラトラジェクトリのモデル動作を理解するために広範囲な分析を行い、COLMAPが失敗するシナリオでは、モデルが頑健な結果をもたらすことを示す。

This paper tackles the problem of novel view synthesis (NVS) from 2D images without known camera poses and intrinsics. Among various NVS techniques, Neural Radiance Field (NeRF) has recently gained popularity due to its remarkable synthesis quality. Existing NeRF-based approaches assume that the camera parameters associated with each input image are either directly accessible at training, or can be accurately estimated with conventional techniques based on correspondences, such as Structure-from-Motion. In this work, we propose an end-to-end framework, termed NeRF--, for training NeRF models given only RGB images, without pre-computed camera parameters. Specifically, we show that the camera parameters, including both intrinsics and extrinsics, can be automatically discovered via joint optimisation during the training of the NeRF model. On the standard LLFF benchmark, our model achieves comparable novel view synthesis results compared to the baseline trained with COLMAP pre-computed camera parameters. We also conduct extensive analyses to understand the model behaviour under different camera trajectories, and show that in scenarios where COLMAP fails, our model still produces robust results.
翻訳日:2021-02-17 12:07:33 公開日:2021-02-16
# TransGAN:2つのトランスフォーマーが強力なガンを作れる

TransGAN: Two Transformers Can Make One Strong GAN ( http://arxiv.org/abs/2102.07074v2 )

ライセンス: Link先を確認
Yifan Jiang, Shiyu Chang, Zhangyang Wang(参考訳) 最近の変圧器に対する爆発的な関心は、分類、検出、セグメンテーションといったコンピュータビジョンタスクのための強力な「ユニバーサル」モデルになる可能性を示唆している。 しかし、トランスフォーマーはどこまで進むことができるのか?例えばgans(generative adversarial networks)のような、より悪名高い視覚タスクをこなす準備はできているのか? このような好奇心を駆使して、純粋なトランスフォーマーベースのアーキテクチャのみを用いて、GAN \textbf{completely free of convolutions}を構築するための最初のパイロット研究を行う。 私たちのバニラGANアーキテクチャである \textbf{TransGAN} は、組み込み寸法を減らしながら機能解像度を段階的に向上するメモリフレンドリーなトランスフォーマーベースのジェネレータと、トランスフォーマーベースのパッチレベルの識別装置で構成されています。 次に,自然画像の近傍の滑らかさを強調する局所初期化セルフアテンションにより,データ拡張(標準ganよりも多く),マルチタスク協調学習戦略,およびトランスガンの利点を実証する。 これらの結果と合わせて、TransGANはより大きなモデルと高解像度の画像データセットで効果的にスケールアップできる。 特に,我々の最高のアーキテクチャは,畳み込みバックボーンに基づく現在の最先端のGANと比較して,高い競争性能を実現している。 具体的には、TransGAN は STL-10 で 10.10 と FID スコア 25.32 の \textbf{new state-of-the-art} IS スコアを設定する。 また、8.64 ISスコアと11.89 FIDスコアをシファー10で、12.23 FIDスコアをCelebA $64\times64$でそれぞれ達成している。 また、TransGANの現在の限界と将来の可能性についても論じる。 コードは \url{https://github.com/VITA-Group/TransGAN} で入手できる。

The recent explosive interest on transformers has suggested their potential to become powerful "universal" models for computer vision tasks, such as classification, detection, and segmentation. However, how further transformers can go - are they ready to take some more notoriously difficult vision tasks, e.g., generative adversarial networks (GANs)? Driven by that curiosity, we conduct the first pilot study in building a GAN \textbf{completely free of convolutions}, using only pure transformer-based architectures. Our vanilla GAN architecture, dubbed \textbf{TransGAN}, consists of a memory-friendly transformer-based generator that progressively increases feature resolution while decreasing embedding dimension, and a patch-level discriminator that is also transformer-based. We then demonstrate TransGAN to notably benefit from data augmentations (more than standard GANs), a multi-task co-training strategy for the generator, and a locally initialized self-attention that emphasizes the neighborhood smoothness of natural images. Equipped with those findings, TransGAN can effectively scale up with bigger models and high-resolution image datasets. Specifically, our best architecture achieves highly competitive performance compared to current state-of-the-art GANs based on convolutional backbones. Specifically, TransGAN sets \textbf{new state-of-the-art} IS score of 10.10 and FID score of 25.32 on STL-10. It also reaches competitive 8.64 IS score and 11.89 FID score on Cifar-10, and 12.23 FID score on CelebA $64\times64$, respectively. We also conclude with a discussion of the current limitations and future potential of TransGAN. The code is available at \url{https://github.com/VITA-Group/TransGAN}.
翻訳日:2021-02-17 12:07:14 公開日:2021-02-16
# 多人数ポーズ推定のためのグローバル・ローカル二重埋め込み法

A Global to Local Double Embedding Method for Multi-person Pose Estimation ( http://arxiv.org/abs/2102.07318v2 )

ライセンス: Link先を確認
Yiming Xu, Jiaxin Li, Yiheng Peng, Yan Ding and Hua-Liang Wei(参考訳) マルチパーソンポーズ推定は多くのコンピュータビジョンタスクにおいて基本的で困難な問題である。 ほとんどの既存のメソッドは、トップダウンとボトムアップの2つのクラスに広く分類できます。 どちらの方法も、人の検出と関節の検出という2つの段階を含む。 伝統的に、2つの段階はそれらの相互作用を考慮せずに別々に実装され、必然的に本質的な問題を引き起こす可能性がある。 本稿では,人物検出と関節検出を同時に行うことにより,パイプラインを簡略化する新しい手法を提案する。 マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。 DEはGlobal Embedding (GE)とLocal Embedding (LE)で構成されている。 GEは異なる人物インスタンスをエンコードし、画像全体をカバーする情報を処理し、LEは局所的な手足情報をエンコードする。 トップダウン戦略における人物検出のためのGE機能と、ボトムアップ戦略における共同グループ化および情報処理のための機能である残りの関節を順次接続するLE機能。 LEに基づいて,複雑なシナリオにおける予測困難を軽減するためにMRM(Multual Refine Machine)を設計する。 MRMは、キーポイント間の通信情報を効果的に実現し、精度をさらに向上することができる。 MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。

Multi-person pose estimation is a fundamental and challenging problem to many computer vision tasks. Most existing methods can be broadly categorized into two classes: top-down and bottom-up methods. Both of the two types of methods involve two stages, namely, person detection and joints detection. Conventionally, the two stages are implemented separately without considering their interactions between them, and this may inevitably cause some issue intrinsically. In this paper, we present a novel method to simplify the pipeline by implementing person detection and joints detection simultaneously. We propose a Double Embedding (DE) method to complete the multi-person pose estimation task in a global-to-local way. DE consists of Global Embedding (GE) and Local Embedding (LE). GE encodes different person instances and processes information covering the whole image and LE encodes the local limbs information. GE functions for the person detection in top-down strategy while LE connects the rest joints sequentially which functions for joint grouping and information processing in A bottom-up strategy. Based on LE, we design the Mutual Refine Machine (MRM) to reduce the prediction difficulty in complex scenarios. MRM can effectively realize the information communicating between keypoints and further improve the accuracy. We achieve the competitive results on benchmarks MSCOCO, MPII and CrowdPose, demonstrating the effectiveness and generalization ability of our method.
翻訳日:2021-02-17 12:06:41 公開日:2021-02-16
# ナレッジディルミネーションのための学生フレンドリーな教師ネットワーク学習

Learning Student-Friendly Teacher Networks for Knowledge Distillation ( http://arxiv.org/abs/2102.07650v2 )

ライセンス: Link先を確認
Dae Young Park, Moon-Hyun Cha, Changwook Jeong, Daesin Kim, Bohyung Han(参考訳) 本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。 事前教育を受けた教師に与えた学習モデルの効果的な学習に依拠する既存の方法のほとんどとは対照的に,生徒に親しみやすい教師モデルを学び,その結果,より知識伝達に適することを目指す。 言い換えれば、教師モデルを最適化する時点でも、提案されたアルゴリズムは学生のブランチを共同で学習し、学生に優しい表現を得る。 本手法の主な目的は教員モデルの訓練であり,それに続く知識蒸留手順は単純であるため,既存の知識蒸留アルゴリズムのほとんどは,精度と収束速度の観点から学生モデルの性能を向上させるためにこの手法を採用することができる。 提案アルゴリズムは,教師と学生のアーキテクチャの様々な組み合わせによる知識蒸留技術において,優れた精度を示す。

We propose a novel knowledge distillation approach to facilitate the transfer of dark knowledge from a teacher to a student. Contrary to most of the existing methods that rely on effective training of student models given pretrained teachers, we aim to learn the teacher models that are friendly to students and, consequently, more appropriate for knowledge transfer. In other words, even at the time of optimizing a teacher model, the proposed algorithm learns the student branches jointly to obtain student-friendly representations. Since the main goal of our approach lies in training teacher models and the subsequent knowledge distillation procedure is straightforward, most of the existing knowledge distillation algorithms can adopt this technique to improve the performance of the student models in terms of accuracy and convergence speed. The proposed algorithm demonstrates outstanding accuracy in several well-known knowledge distillation techniques with various combinations of teacher and student architectures.
翻訳日:2021-02-17 12:06:21 公開日:2021-02-16
# 実世界のマルチエージェント学習システムにおける多種多様な自己帰結の重要性

Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems ( http://arxiv.org/abs/2102.07659v2 )

ライセンス: Link先を確認
Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor(参考訳) マルチエージェント強化学習(MARL)は,様々なタイプのビデオゲームを解く上で,極めて大きな成功を収めている。 この成功の基盤はオートカリキュラムフレームワークであり、エージェントが適応するための新しい困難なタスクを継続的に作成し、新たなスキルの獲得を促進することによって学習プロセスを形作る。 MARLの手法をゲーム以外の現実世界のドメインに拡張するためには、ダイバーシティを意識したオートカリキュラムの維持がMARLアプリケーションの成功に不可欠である、という青空の論文を構想する。 具体的には、 \emph{behavioural diversity} は実世界のマルチエージェント学習システムにおける重要かつ未知のコンポーネントであり、多様性を意識した自動カリキュラムの設計方法を理解する上で重要な作業が残っていると論じています。 私たちは、auto-curriculumテクニックに対する4つのオープンチャレンジを挙げています。 ビジョンの検証に向けて、自動運転におけるリアルなインタラクティブな振る舞いを重要なテストベッドとしてモデル化し、SMARTS/ULTRAベンチマークを推奨します。

Multiagent reinforcement learning (MARL) has achieved a remarkable amount of success in solving various types of video games. A cornerstone of this success is the auto-curriculum framework, which shapes the learning process by continually creating new challenging tasks for agents to adapt to, thereby facilitating the acquisition of new skills. In order to extend MARL methods to real-world domains outside of video games, we envision in this blue sky paper that maintaining a diversity-aware auto-curriculum is critical for successful MARL applications. Specifically, we argue that \emph{behavioural diversity} is a pivotal, yet under-explored, component for real-world multiagent learning systems, and that significant work remains in understanding how to design a diversity-aware auto-curriculum. We list four open challenges for auto-curriculum techniques, which we believe deserve more attention from this community. Towards validating our vision, we recommend modelling realistic interactive behaviours in autonomous driving as an important test bed, and recommend the SMARTS/ULTRA benchmark.
翻訳日:2021-02-17 12:06:06 公開日:2021-02-16
# インダクティブレコメンデーションのためのユーザ埋め込みに基づく近隣アグリゲーション手法

User Embedding based Neighborhood Aggregation Method for Inductive Recommendation ( http://arxiv.org/abs/2102.07575v2 )

ライセンス: Link先を確認
Rahul Ragesh, Sundararajan Sellamanickam, Vijay Lingam, Arun Iyer and Ramakrishna Bairi(参考訳) 我々は,ユーザとアイテムの潜在機能(組込み)を推薦設定で学習する問題を考える。 ユーザとアイテムの相互作用グラフだけを考えると、目標は各ユーザにアイテムを推薦することです。 伝統的なアプローチは行列分解に基づく協調フィルタリング法を用いる。 グラフ畳み込みネットワーク(例:LightGCN)を用いた最近の手法は最先端の性能を達成する。 ユーザーとアイテムの埋め込みの両方を学びます。 既存のほとんどの方法の大きな欠点は、それらは誘導的ではなく、訓練中に見えないユーザやアイテムを一般化しないことである。 さらに、既存のネットワークモデルは非常に複雑で、トレーニングやスケールが難しい。 光GCNをモチベーションとして,協調フィルタCF-GCNのためのグラフ畳み込みネットワークモデリング手法を提案する。 本研究は,軽量なCF-LGCN-Uを用いたユーザ埋め込みとアイテム埋め込みのみを学習し,モデル複雑性の低減による拡張性を実現する。 CF-LGCN-Uモデルには自然に新しいアイテムの帰納的能力があり,新しいユーザを一般化するための簡単な解法を提案する。 提案モデルがLightGCNとどのように関連しているかを示す。 副産物として、LightGCNを誘導する簡単なソリューションを提案します。 複数のベンチマークデータセットについて包括的な実験を行い,提案手法の能力を実証する。 実験の結果,トランスダクティブとインダクティブの両方において,アートメソッドの状態よりも類似あるいは優れた一般化性能が達成可能であることがわかった。

We consider the problem of learning latent features (aka embedding) for users and items in a recommendation setting. Given only a user-item interaction graph, the goal is to recommend items for each user. Traditional approaches employ matrix factorization-based collaborative filtering methods. Recent methods using graph convolutional networks (e.g., LightGCN) achieve state-of-the-art performance. They learn both user and item embedding. One major drawback of most existing methods is that they are not inductive; they do not generalize for users and items unseen during training. Besides, existing network models are quite complex, difficult to train and scale. Motivated by LightGCN, we propose a graph convolutional network modeling approach for collaborative filtering CF-GCN. We solely learn user embedding and derive item embedding using light variant CF-LGCN-U performing neighborhood aggregation, making it scalable due to reduced model complexity. CF-LGCN-U models naturally possess the inductive capability for new items, and we propose a simple solution to generalize for new users. We show how the proposed models are related to LightGCN. As a by-product, we suggest a simple solution to make LightGCN inductive. We perform comprehensive experiments on several benchmark datasets and demonstrate the capabilities of the proposed approach. Experimental results show that similar or better generalization performance is achievable than the state of the art methods in both transductive and inductive settings.
翻訳日:2021-02-17 12:05:46 公開日:2021-02-16
# 線形ユーティリティのための公平かつ最適コホート選択

Fair and Optimal Cohort Selection for Linear Utilities ( http://arxiv.org/abs/2102.07684v2 )

ライセンス: Link先を確認
Konstantina Bairaktari, Huy Le Nguyen, Jonathan Ullman(参考訳) アルゴリズム的意思決定の台頭は、それらのアルゴリズムの公平性に関する研究の爆発を生み出した。 個々の公平性には多くの説得力のある概念があるが、Dworkらの作品から始まるが、これらの概念は通常、望ましい組成特性を満たしていない。 この目的のために、Dwork と Ilvento はフェアコホート選択問題を導入し、これは単一のフェア分類器がそれ自身で構成され、ちょうど$k$の候補群を選択する特定のアプリケーションを取得する。 本研究では、線形実用関数を最大化するコホートを選択することを目標とするコホート選択の特定の例を紹介する。 この問題に対して,公平分類器が一斉に与えられるオフライン設定と,候補が一斉に到着して到着するオンライン設定のいずれにおいても,ほぼ最適な多項式時間アルゴリズムを提示する。

The rise of algorithmic decision-making has created an explosion of research around the fairness of those algorithms. While there are many compelling notions of individual fairness, beginning with the work of Dwork et al., these notions typically do not satisfy desirable composition properties. To this end, Dwork and Ilvento introduced the fair cohort selection problem, which captures a specific application where a single fair classifier is composed with itself to pick a group of candidates of size exactly $k$. In this work we introduce a specific instance of cohort selection where the goal is to choose a cohort maximizing a linear utility function. We give approximately optimal polynomial-time algorithms for this problem in both an offline setting where the entire fair classifier is given at once, or an online setting where candidates arrive one at a time and are classified as they arrive.
翻訳日:2021-02-17 12:05:25 公開日:2021-02-16