このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201026となっている論文です。

PDF登録状況(公開日: 20201026)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子プロセスの通信コスト

Communication Cost of Quantum Processes ( http://arxiv.org/abs/2002.06840v3 )

ライセンス: Link先を確認
Yuxiang Yang, Giulio Chiribella, and Masahito Hayashi(参考訳) 分散コンピューティングにおける一般的なシナリオは、リモートコンピュータ上でサーバに計算を依頼するクライアントである。 重要な問題は、所望の計算を特定するのに必要な最小の通信量を決定することである。 ここでは、この問題を量子領域に拡張し、パラメトリックな量子プロセスの族からクライアントが選択した量子処理を正確に実行するために、サーバが必要とする(古典的および量子的)通信の総量を解析する。 もし$\nu$-次元のプロセス族が平均二乗誤差$n^{-\beta}$で計算できるなら、$n$の並列クエリを用いて、家族内のプロセスの並行実行の通信コストは$(\beta\nu/2-\epsilon)\log n$ qubits at the lead order in $n$, for every $\epsilon>0$である。 標準量子極限(\beta=1$)を満たす量子過程のクラスについて、所望の過程の近似古典的記述を伝達することにより、境界が達成可能であることを示す。 ハイゼンベルク限界を満たす量子プロセス (\beta=2$) に対して、我々の境界は、通信コストが同じパラメータ数で標準量子制限プロセスと通信するコストの少なくとも2倍であることを示している。

A common scenario in distributed computing involves a client who asks a server to perform a computation on a remote computer. An important problem is to determine the minimum amount of communication needed to specify the desired computation. Here we extend this problem to the quantum domain, analyzing the total amount of (classical and quantum) communication needed by a server in order to accurately execute a quantum process chosen by a client from a parametric family of quantum processes. We derive a general lower bound on the communication cost, establishing a relation with the precision limits of quantum metrology: if a $\nu$-dimensional family of processes can be estimated with mean squared error $n^{-\beta}$ by using $n$ parallel queries, then the communication cost for $n$ parallel executions of a process in the family is at least $(\beta\nu/2-\epsilon)\log n$ qubits at the leading order in $n$, for every $\epsilon>0$. For a class of quantum processes satisfying the standard quantum limit ($\beta=1$), we show that the bound can be attained by transmitting an approximate classical description of the desired process. For quantum processes satisfying the Heisenberg limit ($\beta=2$), our bound shows that the communication cost is at least twice as the cost of communicating standard quantum limited processes with the same number of parameters.
翻訳日:2023-06-03 11:14:49 公開日:2020-10-26
# 変量量子固有解器の絡み合い生成と収束特性

Entanglement Production and Convergence Properties of the Variational Quantum Eigensolver ( http://arxiv.org/abs/2003.12490v2 )

ライセンス: Link先を確認
Andreas J. C. Woitzik, Panagiotis Kl. Barkoutsos, Filip Wudarski, Andreas Buchleitner, Ivano Tavernelli(参考訳) 本研究では, 変分量子固有解法 (VQE) アルゴリズムを用いて, 三角格子上の2次元モデルフェルミオン系の基底状態エネルギーと特性を(周期的境界条件なしで)決定するために, 変分形式(波動関数Ans\atze)の系統的検討を行う。 特に,システム基底状態への最も効率的な収束を提供するエンタングルブロックの性質に着目し,このアルゴリズムをNISQコンピュータで実装するための鍵となる,最小数のゲート演算を使用する。 コンカレンス測度を用いて、レジスタ量子ビットの絡み合い量を最適化プロセス全体を通して監視し、収束の効率を決定する役割を照らす。 最後に、所望のエネルギー精度の関数としてのVQE回路深さのスケーリングについて検討する。 誤差$\varepsilon$ で解に到達するために必要なゲートの数は、solovay-kitaev scaling, $\mathcal{o}(\log^c(1/\varepsilon))$ で、指数 $c = 1.31 {\rm{\pm}}0.13$ である。

We perform a systematic investigation of variational forms (wave function Ans\"atze), to determine the ground state energies and properties of two-dimensional model fermionic systems on triangular lattices (with and without periodic boundary conditions), using the Variational Quantum Eigensolver (VQE) algorithm. In particular, we focus on the nature of the entangler blocks which provide the most efficient convergence to the system ground state inasmuch as they use the minimal number of gate operations, which is key for the implementation of this algorithm in NISQ computers. Using the concurrence measure, the amount of entanglement of the register qubits is monitored during the entire optimization process, illuminating its role in determining the efficiency of the convergence. Finally, we investigate the scaling of the VQE circuit depth as a function of the desired energy accuracy. We show that the number of gates required to reach a solution within an error $\varepsilon$ follows the Solovay-Kitaev scaling, $\mathcal{O}(\log^c(1/\varepsilon))$, with an exponent $c = 1.31 {\rm{\pm}}0.13$.
翻訳日:2023-05-27 18:23:41 公開日:2020-10-26
# Monty Hall Gameの量子バージョンに基づく量子鍵分配プロトコル

Quantum Key-Distribution Protocols Based on a Quantum Version of the Monty Hall Game ( http://arxiv.org/abs/2005.05463v2 )

ライセンス: Link先を確認
L. F. Quezada and Shi-Hai Dong(参考訳) この研究は量子ゲーム理論の量子情報の領域、特に量子暗号への応用の可能性を示している。 この研究は、FlitneyとAbbottによって考案されたMonty Hallの量子バージョンに基づく2つの量子鍵分配(QKD)プロトコルを提案した。 鍵が抽出されるビットが基本選択(bb84のように)でエンコードされる多くのqkdプロトコルとは異なり、これらは操作選択でエンコードされる。 最初の提案されたプロトコルは、システムの状態とFlitneyとAbbottによって提案されたのと同じゲームオペレータを記述するためにクォートを使用する。 2つ目の提案の背後にある動機は、キュービットと単純な論理量子ゲートを使用するために、qutritプロトコルの形式化を適用することで、可能な物理実装を単純化することである。 どちらのプロトコルにおいても、セキュリティはベル型不等式に違反し、2つのクトリットと各ケースで6つのクビットに適用される。 その結果,E91プロトコルよりも高い違反率を示した。

This work illustrates a possible application of quantum game theory to the area of quantum information, in particular to quantum cryptography. The study proposed two quantum key-distribution (QKD) protocols based on the quantum version of the Monty Hall game devised by Flitney and Abbott. Unlike most QKD protocols, in which the bits from which the key is going to be extracted are encoded in a basis choice (as in BB84), these are encoded in an operation choice. The first proposed protocol uses qutrits to describe the state of the system and the same game operators proposed by Flitney and Abbott. The motivation behind the second proposal is to simplify a possible physical implementation by adapting the formalism of the qutrit protocol to use qubits and simple logical quantum gates. In both protocols, the security relies on the violation of a Bell-type inequality, for two qutrits and for six qubits in each case. Results show a higher ratio of violation than the E91 protocol.
翻訳日:2023-05-20 13:54:17 公開日:2020-10-26
# Rydberg原子における非断熱非巡回幾何量子計算

Nonadiabatic noncyclic geometric quantum computation in Rydberg atoms ( http://arxiv.org/abs/2005.06949v4 )

ライセンス: Link先を確認
Bao-Jie Liu, Shi-Lei Su, and Man-Hong Yung(参考訳) nonadiabatic geometric quantum computation (ngqc) は高速でロバストな幾何学的ゲートを実現するために開発された。 しかし、従来のngqcでは、全てのゲートは、循環状態の制限により、幾何学的回転角が大きいか小さいかに関わらず、正確に同一の時間で実行される。 本稿では,非周期的非巡回幾何学的量子計算(nngqc)と呼ばれる非慣習的スキームを提案し,任意の単量子および2量子ビット幾何ゲートを非巡回的非有理幾何位相で構築する。 これにより, 環境デコヒーレンスの影響を緩和し, 実装された幾何学的ゲートサゲインを加速することが可能となる。 さらに、この拡張性スキームは超伝導量子ビットやリドバーグ原子のような異種量子プラットフォームに適用することができる。 具体的には、単一量子ゲートに対して、NNGQCの堅牢性を示すために中性原子系の実用パラメータを用いたシミュレーションを行い、最近の実験パラメータを用いてNGQCとの比較を行い、NNGQCがデコヒーレンスエラーを著しく抑制できることを示す。 また、非自明な2量子ビット幾何ゲートは、現在の実験技術において、非慣習的なrydbergブロック機構を介して実現可能であることを実証する。 したがって、weschemeは高速で堅牢な中性原子ベースの量子計算のための有望な方法を提供する。

Nonadiabatic geometric quantum computation (NGQC) has been developed to realize fast and robust geometric gate. However, the conventional NGQC is that all of the gates are performed with exactly the sameamount of time, whether the geometric rotation angle is large or small, due to the limitation of cyclic condition. Here, we propose an unconventional scheme, called nonadiabatic noncyclic geometric quantum computation(NNGQC), that arbitrary single- and two-qubit geometric gate can be constructed via noncyclic non-Abeliangeometric phase. Consequently, this scheme makes it possible to accelerate the implemented geometric gatesagainst the effects from the environmental decoherence. Furthermore, this extensible scheme can be applied invarious quantum platforms, such as superconducting qubit and Rydberg atoms. Specifically, for single-qubit gate,we make simulations with practical parameters in neutral atom system to show the robustness of NNGQC and also compare with NGQC using the recent experimental parameters to show that the NNGQC can significantly suppress the decoherence error. In addition, we also demonstrate that nontrivial two-qubit geometric gate can berealized via unconventional Rydberg blockade regime within current experimental technologies. Therefore, ourscheme provides a promising way for fast and robust neutral-atom-based quantum computation.
翻訳日:2023-05-20 05:30:35 公開日:2020-10-26
# 開周期変調量子空洞におけるカオススピンフォトニック状態

Chaotic spin-photonic states in an open periodically modulated quantum cavity ( http://arxiv.org/abs/2005.07582v2 )

ライセンス: Link先を確認
I.I. Yusipov, S.V. Denisov, M.V. Ivanchenko(参考訳) 力学系に適用する場合、古典と量子の両方の周期変調は、しばしば「カオス」と呼ばれる複雑な非平衡状態を生成する。 ユニタリハミルトニアンの枠組みでよく理解されているので、この現象は開量子系では研究されていない。 ここでは、空洞内フォトニックモードが周期的に変化する強度でコヒーレントに励起されるとき、漏洩キャビティに現れる量子カオス状態を考える。 一つのスピンが空洞の中に置かれ、モードに結合すると、通常のレギュラーとカオス状態の遷移を緩やかにし、これは量子リヤプノフ指数を用いて同定され、カオスの度合いを制御できることを示している。 実験では、光子放出の統計を分析してこれらの遷移を検出できる。

When applied to dynamical systems, both classical and quantum, time periodic modulations can produce complex non-equilibrium states which are often termed 'chaotic`. Being well understood within the unitary Hamiltonian framework, this phenomenon is less explored in open quantum systems. Here we consider quantum chaotic state emerging in a leaky cavity, when an intracavity photonic mode is coherently pumped with the intensity varying periodically in time. We show that a single spin, when placed inside the cavity and coupled to the mode, can moderate transitions between regular and chaotic regimes -- that are identified by using quantum Lyapunov exponents -- and thus can be used to control the degree of chaos. In an experiment, these transitions can be detected by analyzing photon emission statistics.
翻訳日:2023-05-20 03:14:40 公開日:2020-10-26
# 正則原子配列からのサブラジアント放出:一般化ブロッホ定理による崩壊率の普遍的スケーリング

Subradiant emission from regular atomic arrays: universal scaling of decay rates from the generalized Bloch theorem ( http://arxiv.org/abs/2006.06329v2 )

ライセンス: Link先を確認
Yu-Xiang Zhang and Klaus M{\o}lmer(参考訳) 2レベル原子の無限周期配列における双極子-双極子相互作用のエルミート的部分は、単体励起状態のエネルギーバンドを生成する。 このレターでは、無限系のバンドエッジに近い分散関係 $\omega_k-\omega_{k_\ex} \propto (k-k_{\ex})^s$ が、崩壊速度が$N^{-(s+1)}$としてスケールする$N$原子の有限1次元配列のサブラジアント状態の存在をもたらすことを示す。 これは最近発見された$N^{-3}$スケーリングを説明し、格子周期の特別な値に対して高いパワーを持つ電力法スケーリングの予測につながる。 ダイマー化エミッタアレイにおけるSu-Schrieffer-Heeger(SSH)トポロジカルモデルの量子光学的実装において、トポロジカル遷移に固有のバンドギャップ閉包は分散関係における$s$の値を変更し、サブラディアント状態の崩壊率を桁違いに変化させる。

The Hermitian part of the dipole-dipole interaction in infinite periodic arrays of two-level atoms yields an energy band of singly excited states. In this Letter, we show that a dispersion relation, $\omega_k-\omega_{k_\ex} \propto (k-k_{\ex})^s$, near the band edge of the infinite system leads to the existence of subradiant states of finite one-dimensional arrays of $N$ atoms with decay rates scaling as $N^{-(s+1)}$. This explains the recently discovered $N^{-3}$ scaling and it leads to the prediction of power law scaling with higher power for special values of the lattice period. For the quantum optical implementation of the Su-Schrieffer-Heeger (SSH) topological model in a dimerized emitter array, the band-gap-closing inherent to topological transitions changes the value of $s$ in the dispersion relation and alters the decay rates of the subradiant states by many orders of magnitude.
翻訳日:2023-05-16 00:50:15 公開日:2020-10-26
# 摂動二成分回路の相関:効率的な経路内接式

Correlations in Perturbed Dual-Unitary Circuits: Efficient Path-Integral Formula ( http://arxiv.org/abs/2006.07304v2 )

ライセンス: Link先を確認
Pavel Kos, Bruno Bertini, and Toma\v{z} Prosen(参考訳) 明確にアクセス可能な時空間相関関数を持つ多体系の相互作用は、特に可積分性の欠如において極めて稀である。 近年,このようなシステムの顕著なクラスを同定し,これを二重単位量子回路と呼んだ。 これらはブロックウォール型局所量子回路であり、その力学は時間と空間の両方でユニタリである。 これらの系では、時空間相関関数は因果光円錐の端でのみ自明であり、1次元の伝達行列で計算できる。 しかし、双対ユニタリ性は微調整を必要とし、観察された動的特徴の一般化の度合いは未だ不明である。 ここでは局所ゲートの任意の摂動を導入することでこの問題に対処する。 固定摂動を考えると、摂動のない初等二元ゲートの特定のクラスに対して、相関関数は1次元移動行列の項で表される。 しかし、これらの行列は、原点と因果光円錐内の固定されたエンドポイントをつなぐ一般的な経路上で縮められる。 相関関数はそのようなすべての経路の和として与えられる。 我々の主張は、ゲートのごく一部のみが摂動している「希薄極限」とランダムな縦方向場の存在において厳密であるが、クリーンケースやすべてのゲートが摂動している場合においても、その妥当性を支持する理論的議論と厳密な数値チェックを提供する。 副産物として、ある古典マルコフ鎖と同値であることが判明したランダムな縦体の場合、相関関数が正確にパスサム公式によって与えられる4種類の非双対ユニタリ(および非可積分)相互作用多体系を見つける。

Interacting many-body systems with explicitly accessible spatio-temporal correlation functions are extremely rare, especially in the absence of integrability. Recently, we identified a remarkable class of such systems and termed them dual-unitary quantum circuits. These are brick-wall type local quantum circuits whose dynamics are unitary in both time and space. For these systems the spatio-temporal correlation functions are non-trivial only at the edge of the causal light cone and can be computed in terms of one-dimensional transfer matrices. Dual-unitarity, however, requires fine-tuning and the degree of generality of the observed dynamical features remained unclear. Here we address this question by introducing arbitrary perturbations of the local gates. Considering fixed perturbations, we prove that for a particular class of unperturbed elementary dual-unitary gates the correlation functions are still expressed in terms of one-dimensional transfer matrices. These matrices, however, are now contracted over generic paths connecting the origin to a fixed endpoint inside the causal light cone. The correlation function is given as a sum over all such paths. Our statement is rigorous in the "dilute limit", where only a small fraction of the gates is perturbed, and in the presence of random longitudinal fields, but we provide theoretical arguments and stringent numerical checks supporting its validity even in the clean case and when all gates are perturbed. As a byproduct, in the case of random longitudinal fields -- which turns out to be equivalent to certain classical Markov chains -- we find four types of non-dual-unitary(and non-integrable) interacting many-body systems where the correlation functions are exactly given by the path-sum formula.
翻訳日:2023-05-15 22:14:02 公開日:2020-10-26
# majorana ベースの qubits における表面符号設計の最適化

Optimization of the surface code design for Majorana-based qubits ( http://arxiv.org/abs/2007.00307v2 )

ライセンス: Link先を確認
Rui Chao, Michael E. Beverland, Nicolas Delfosse, Jeongwan Haah(参考訳) 表面符号は、高い耐障害性閾値を示す位相的誤り訂正符号である。 従来、表層符号による誤り訂正は、平面格子上にキュービットを配置し、最寄りのアンシラキュービットとデータキュービット間のネイティブcnotゲートを仮定する。 ここでは,単一キュービットと最寄りキュービットのペアに対して,$\textit{only}$ pauliの測定値を用いた表面符号誤り訂正スキームを提案する。 特に、キュービットのオーバヘッド、回路深度、接続度の間で良好なトレードオフを提供するいくつかのキュービットレイアウトを提供する。 また,シンドローム抽出のための最小測定シーケンスを開発し,論理誤差率の低減と耐障害しきい値の改善を可能にした。 我々の研究は、マヨラナゼロモードで実現された位相的に保護された量子ビットと、CNOTゲートではなくマルチキュービットパウリ測定をネイティブ操作とする類似システムに適用する。

The surface code is a prominent topological error-correcting code exhibiting high fault-tolerance accuracy thresholds. Conventional schemes for error correction with the surface code place qubits on a planar grid and assume native CNOT gates between the data qubits with nearest-neighbor ancilla qubits. Here, we present surface code error-correction schemes using $\textit{only}$ Pauli measurements on single qubits and on pairs of nearest-neighbor qubits. In particular, we provide several qubit layouts that offer favorable trade-offs between qubit overhead, circuit depth and connectivity degree. We also develop minimized measurement sequences for syndrome extraction, enabling reduced logical error rates and improved fault-tolerance thresholds. Our work applies to topologically protected qubits realized with Majorana zero modes and to similar systems in which multi-qubit Pauli measurements rather than CNOT gates are the native operations.
翻訳日:2023-05-11 23:19:42 公開日:2020-10-26
# ファイバーバンドル符号:$N^{1/2} \operatorname{polylog}(N)$ Barrier for Quantum LDPC codes

Fiber Bundle Codes: Breaking the $N^{1/2} \operatorname{polylog}(N)$ Barrier for Quantum LDPC Codes ( http://arxiv.org/abs/2009.03921v2 )

ライセンス: Link先を確認
Matthew B. Hastings, Jeongwan Haah, Ryan O'Donnell(参考訳) 距離が$\Omega(N^{3/5}/\operatorname{polylog}(N))$と$\tilde\Theta(N^{3/5})$論理キュービットを持つ量子LDPC符号族を示す。 これは、$N^{1/2} \operatorname{polylog}(N)$より大きい距離を達成する最初の量子LDPC符号構成である。 この構成は、符号のホモロジー積をファイバーバンドルに一般化することに基づいている。

We present a quantum LDPC code family that has distance $\Omega(N^{3/5}/\operatorname{polylog}(N))$ and $\tilde\Theta(N^{3/5})$ logical qubits. This is the first quantum LDPC code construction which achieves distance greater than $N^{1/2} \operatorname{polylog}(N)$. The construction is based on generalizing the homological product of codes to a fiber bundle.
翻訳日:2023-05-03 04:54:55 公開日:2020-10-26
# 乱れたスピン鎖の局在に対する動的障害

Dynamical obstruction to localization in a disordered spin chain ( http://arxiv.org/abs/2009.04501v2 )

ライセンス: Link先を確認
Dries Sels and Anatoli Polkovnikov(参考訳) 乱れた磁場中での1次元xxzスピンチェーンの解析を行う。 システムの挙動の主なプローブとして、スペクトル関数の低周波漸近と連動して、忠実な感受性によって表されるような、断熱変換に対する固有状態の感度を用いる。 我々は,多体局所化相と拡散的エルゴード相を分離する最大カオス領域を指数関数的に高感度で同定する。 この構造は低速輸送によって特徴づけられ、そのような低速ダイナミクスの存在は熱力学的極限における局在遷移とは相容れないと主張する。 局所化の代わりに、この系は、局所的な磁化のスペクトル関数が周波数に逆比例し、自己相関関数の時間緩和の対数に対応する、障害の適度な値において普遍的な劣微分緩和状態に入るように見える。

We analyze a one-dimensional XXZ spin chain in a disordered magnetic field. As the main probes of the system's behavior we use the sensitivity of eigenstates to adiabatic transformations, as expressed through the fidelity susceptibility, in conjunction with the low frequency asymptotes of the spectral function. We identify a region of maximal chaos -- with exponentially enhanced susceptibility -- which separates the many-body localized phase from the diffusive ergodic phase. This regime is characterized by slow transport and we argue that the presence of such slow dynamics is incompatible with the localization transition in the thermodynamic limit. Instead of localizing, the system appears to enter a universal subdiffusive relaxation regime at moderate values of disorder, where the spectral function of the local longitudinal magnetization is inversely proportional to the frequency, corresponding to logarithmic in time relaxation of its auto-correlation function.
翻訳日:2023-05-03 02:56:02 公開日:2020-10-26
# 量子弱不変量:ゆらぎと相関の動的進化

Quantum weak invariants: Dynamical evolution of fluctuations and correlations ( http://arxiv.org/abs/2009.07959v2 )

ライセンス: Link先を確認
Zeyi Shi and Sumiyoshi Abe(参考訳) 弱い不変量は、保存された期待値を持つ時間依存可観測である。 しかし、その変動は時間的に一定ではない。 開量子系の状態の時間発展が完全に正の写像で与えられると仮定すると、写像がユニタリでない場合でも、ゆらぎは単調に増大し、フォン・ノイマンのエントロピーとr\'enyiのエントロピーの両方の単調な増加はユニタリである必要がある。 このように、弱い不変量はエントロピーとは異なる方法で時間的非対称性を記述する。 系の密度行列がゴリーニ-コサコフスキー-リンドブラッド-スダルシャン方程式に従う場合の弱不変量に関連する共分散行列の時間発展式が提示される。

Weak invariants are time-dependent observables with conserved expectation values. Their fluctuations, however, do not remain constant in time. On the assumption that time evolution of the state of an open quantum system is given in terms of a completely positive map, the fluctuations monotonically grow even if the map is not unital, in contrast to the fact that monotonic increases of both the von Neumann entropy and R\'enyi entropy require the map to be unital. In this way, the weak invariants describe temporal asymmetry in a manner different from the entropies. A formula is presented for time evolution of the covariance matrix associated with the weak invariants in the case when the system density matrix obeys the Gorini-Kossakowski-Lindblad-Sudarshan equation.
翻訳日:2023-05-02 02:09:28 公開日:2020-10-26
# メディアにおけるファンデルワールス力の理論と実験の比較 -調査-

Comparison of theory and experiments on Van der Waals forces in media -- a survey ( http://arxiv.org/abs/2010.03436v2 )

ライセンス: Link先を確認
Friedrich Anton Burger and Robert William Corkery and Stefan Yoshi Buhmann and Johannes Fiedler(参考訳) 本稿では,各Hamaker定数に基づいて,メディア中のVan der Waals分散力の理論的予測と測定を比較した批判的概要を示す。 この合意を定量化するために,提案した実験誤差を,基礎となる分光データの不確実性に起因する理論予測の誤りと補足する。 我々の主な発見は、理論上の誤差が実験結果よりも大きいことである。 これらの不確実性の中で、この比較は、アブラハム電磁応力テンソルに基づく標準のリフシッツ理論を、マックスウェル応力テンソルに基づいて最近提案された代替説明に対して確認する。

We present a critical overview comparing theoretical predictions and measurements of Van der Waals dispersion forces in media on the basis of the respective Hamaker constants. To quantify the agreement, we complement the reported experimental errors with those for the theoretical predictions, which are due to uncertainties in the underlying spectroscopic data. Our main finding is that the theoretical errors are often larger than their experimental counterparts. Within these uncertainties, the comparison confirms the standard Lifshitz theory based on the Abraham electromagnetic stress tensor against the recently suggested alternative account on the basis of the Maxwell stress tensor.
翻訳日:2023-04-29 17:58:07 公開日:2020-10-26
# フラケット高次位相の異常理論--分類, 特徴, およびバルク境界対応

Theory of Anomalous Floquet Higher-Order Topology: Classification, Characterization, and Bulk-Boundary Correspondence ( http://arxiv.org/abs/2010.07945v2 )

ライセンス: Link先を確認
Rui-Xing Zhang and Zhi-Cheng Yang(参考訳) 周期駆動あるいはフロッケ系は、静的位相相の確立されたパラダイムを超えた新しい理論的アイデアを必要とする物質の平衡状態において存在しない異常なトポロジー現象を実現することができる。 本研究では,Floquet高次トポロジカル絶縁体 (AFHOTI) の異常を理解するための一般的な枠組みを提供する。 2次元(2D)では、これらのAFHOTIは、Floquetバンドが自明なバンドトポロジーを特徴としているにもかかわらず、特別な準エネルギーに固定された頑健で対称性に保護されたコーナーモードによって定義される。 AFHOTIのコーナーモード物理学は、バルク時間進化作用素の位相スペクトルに存在する3次元ディラック/ワイル様位相特異点によって一般化的に表される。 物理的には、そのような位相バンド特異性は本質的に位相的量子臨界性の「足跡」であり、これはアホティと自明な位相を静的な極限に非接触的に分離するものである。 驚くべきことに、これらの特異点には3次元の静的格子では達成できない非典型的な分散関係があるが、それでも4次元位相結晶絶縁体の表面物理学に似ている。 上記の高次バルク境界対応を次元還元法により確立し、点群対称性によって保護された2次元AFHOTIの体系的な分類を可能にする。 C_2$とD_4$対称性で保護されたAFHOTIの具体的な2つのモデルへの我々の理論の適用を実証する。 我々の研究は、フロッケ位相問題を分類し特徴付ける統一理論への道を開くものである。

Periodically-driven or Floquet systems can realize anomalous topological phenomena that do not exist in any equilibrium states of matter, whose classification and characterization require new theoretical ideas that are beyond the well-established paradigm of static topological phases. In this work, we provide a general framework to understand anomalous Floquet higher-order topological insulators (AFHOTIs), the classification of which has remained a challenging open question. In two dimensions (2D), such AFHOTIs are defined by their robust, symmetry-protected corner modes pinned at special quasienergies, even though all their Floquet bands feature trivial band topology. The corner-mode physics of an AFHOTI is found to be generically indicated by 3D Dirac/Weyl-like topological singularities living in the phase spectrum of the bulk time-evolution operator. Physically, such a phase-band singularity is essentially a "footprint" of the topological quantum criticality, which separates an AFHOTI from a trivial phase adiabatically connected to a static limit. Strikingly, these singularities feature unconventional dispersion relations that cannot be achieved on any static lattice in 3D, which, nevertheless, resemble the surface physics of 4D topological crystalline insulators. We establish the above higher-order bulk-boundary correspondence through a dimensional reduction technique, which also allows for a systematic classification of 2D AFHOTIs protected by point group symmetries. We demonstrate applications of our theory to two concrete, experimentally feasible models of AFHOTIs protected by $C_2$ and $D_4$ symmetries, respectively. Our work paves the way for a unified theory for classifying and characterizing Floquet topological matters.
翻訳日:2023-04-29 00:17:57 公開日:2020-10-26
# 二軸結晶における円錐回折による渦の進化と軌道角運動量

Evolution of vortices created by conical diffraction in biaxial crystals versus orbital angular momentum ( http://arxiv.org/abs/2010.13425v1 )

ライセンス: Link先を確認
A Brenier (UCBL)(参考訳) 光状態の進化とその分数軌道角運動量(oam)は、二軸結晶を通して生じる円錐回折過程において解析されている。 実験結果は、kgd(wo$_2$)$_4$とbi$_2$znob$_2$o$_6$の二軸結晶の非退化カスケードによって得られる。 0\to 1\to 2$$$\hbar$/photon 整数値を通過する分数 oam の増加は、bi$_2$znob$_2$o$_6$ 結晶におけるスピン軌道結合の助けを借りて行われた。 状態光とその渦の位相は、参照ビームによる干渉パターンによって可視化された。 分数OAM値の進化は、反対の符号を持つ渦の対の連続的な進化を伴い、$-\pi/+\pi$不連続位相線でリンクされる。 半整数型OAMの相変化は連続的に観察される。 他の場合では、$-\pi/+\pi$不連続な位相線を破り、反対電荷を持つ新しい渦が生まれることで進化を中断することができる。

Light states evolution versus their fractional orbital angular momentum (OAM) has been analyzed in the conical diffraction process occurring through biaxial crystals. Experimental results are provided by a non-degenerate cascade of KGd(WO$_2$)$_4$ and Bi$_2$ZnOB$_2$O$_6$ biaxial crystals. The continuous $0\to 1\to 2$ $\hbar$/photon increasing of the fractional OAM in passing through integer values was operated with the help of the spin-orbit coupling in the Bi$_2$ZnOB$_2$O$_6$ crystal. The phase of the state light and its vortices were visualized by interference patterns with a reference beam. The evolution of the fractional OAM value is accompanied by a continuous evolution of pairs of vortices with opposite signs and linked by a $-\pi/+\pi$ discontinuous phase line. The phase pattern evolution around half-integer OAM is observed to be continuous. In other cases, the evolution can be interrupted by the breaking of a $-\pi/+\pi$ discontinuous phase line and a new pair of vortices with opposite charges is born.
翻訳日:2023-04-27 11:37:33 公開日:2020-10-26
# コヒーレンスに基づくマクロ量子性のキャラクタリゼーション

Coherence Based Characterization of Macroscopic Quantumness ( http://arxiv.org/abs/2010.13408v1 )

ライセンス: Link先を確認
Moein Naseri and Sadegh Raeisi(参考訳) 量子力学における最も明白な問題の1つは、古典物理学と量子物理学の遷移である。 この問題はSchr\"{o}dinger's catに遡ることができる。 この問題の中心にある重要な要素は、マクロ的な量子状態の明確な理解とキャラクタリゼーションの欠如である。 マクロ量子性に対する我々の理解は、グリーンベルガー・ホーネ・ザイリンガー(GHZ)やNOON状態のような状態に依存している。 ここでは、この問題に第一原理的アプローチを取ります。 量子性の概念を捉える重要な量としてコヒーレンスから始まり、量子性が集合的かつ大局的であることを要求する。 この目的のために、マクロ的に異なる量子状態間のコヒーレンスであるマクロコヒーレンスを導入する。 我々は、国家のコヒーレンスがいかにグローバルで集合的であるかを定量化する尺度を構築する。 我々の研究は、我々の測度を最大化する状態として、GHZやNOON状態のような確立された状態を導出する第一原理的な方法も提供します。 この新しいアプローチは、量子から古典への遷移をよりよく理解するための道を開く。

One of the most elusive problems in quantum mechanics is the transition between classical and quantum physics. This problem can be traced back to the Schr\"{o}dinger's cat. A key element that lies at the center of this problem is the lack of a clear understanding and characterization of macroscopic quantum states. Our understanding of Macroscopic Quantumness relies on states such as the Greenberger-Horne-Zeilinger(GHZ) or the NOON state. Here we take a first principle approach to this problem. We start from coherence as the key quantity that captures the notion of quantumness and demand the quantumness to be collective and macroscopic. To this end, we introduce macroscopic coherence which is the coherence between macroscopically distinct quantum states. We construct a measure that quantifies how global and collective the coherence of the state is. Our work also provides a first-principle way to derive well-established states like the GHZ and the NOON state as the states that maximize our measure. This new approach paves the way towards a better understanding of the Quantum-to-Classical transition.
翻訳日:2023-04-27 11:37:15 公開日:2020-10-26
# クイディットの文脈性を実証するための実験的アプローチ

Experimental Approach to Demonstrating Contextuality for Qudits ( http://arxiv.org/abs/2010.13278v1 )

ライセンス: Link先を確認
Adel Sohbi, Ruben Ohana, Isabelle Zaquine, Eleni Diamanti, Damian Markham(参考訳) 本稿では,quditsのテスト群を用いて文脈性を示す手法を提案する。 提案する実験では、単一光子の経路とその時間的自由度で符号化されたquditを用いる。 我々は,音がこれらのテストの有効性に与える影響を考察し,オントロジ的に忠実な非文脈性(non-contextuality)のアプローチをとる。 このアプローチでは、実験セットにおける不完全性は、異なる文脈内で統計がどの程度逸脱するかを制限する忠実な存在論的(古典的)モデルにおいて考慮されなければならない。 このようにして、オントロジ的に忠実な非文脈モデルに反証できる実験装置の精度を拘束する。 さらに,quditの符号化の異なる種類のデコヒーレンスモデルによるノイズ許容性についても検討する。 この広い意味での文脈性を示すために,実験装置に必要な精度に対するデコヒーレンスの影響を定量化する。

We propose a method to experimentally demonstrate contextuality with a family of tests for qudits. The experiment we propose uses a qudit encoded in the path of a single photon and its temporal degrees of freedom. We consider the impact of noise on the effectiveness of these tests, taking the approach of ontologically faithful non-contextuality. In this approach, imperfections in the experimental set up must be taken into account in any faithful ontological (classical) model, which limits how much the statistics can deviate within different contexts. In this way we bound the precision of the experimental setup under which ontologically faithful non-contextual models can be refuted. We further consider the noise tolerance through different types of decoherence models on different types of encodings of qudits. We quantify the effect of the decoherence on the required precision for the experimental setup in order to demonstrate contextuality in this broader sense.
翻訳日:2023-04-27 11:36:34 公開日:2020-10-26
# 糖尿病患者を力づける : グループベースの教育プログラムの文脈における自己管理の視点

Towards Empowering Diabetic Patients: A perspective on self-management in the context of a group-based education program ( http://arxiv.org/abs/2010.13276v1 )

ライセンス: Link先を確認
Atae Rezaei Aghdam, Jason Watson, Shah J Miah, Cynthia Cliff(参考訳) 本稿では,糖尿病グループ教育プログラムの有効性を最大化するための新しい枠組みを提供する。

This paper provides a novel framework for maximizing the effectiveness of the Diabetes Group Education Program, which could be generalized in any similar problem context.
翻訳日:2023-04-27 11:36:18 公開日:2020-10-26
# 最小エネルギー絡み合った状態の生成

Generation of minimum energy entangled states ( http://arxiv.org/abs/2010.13644v1 )

ライセンス: Link先を確認
Nicol\`o Piccione, Benedetto Militello, Anna Napoli, Bruno Bellomo(参考訳) 2成分の絡み合いを利用する量子技術は、与えられた絡み合い次数に対して最小のエネルギー量を持つ状態を使用することによりより効率的になる。 本稿では, 任意の有限次元のバイパルタイト系において, 基底状態にユニタリ変換を適用するか, サブシステム間の適切な相互作用項のオンオフに基づくゼロ温度熱化プロトコルを用いてこれらの状態を生成する方法を検討する。 特に、3つの可能なユニタリ作用素と5つの可能な相互作用項を明確に識別する。 一方、3つのユニタリ変換のうち2つは、局所初等演算と1つの非局所変換によって容易に分解可能となり、実装が容易になった。 一方, 熱処理は多種多様な状態の生成に容易に適応できるため, 各エンタングルメントの度合いに応じて, 最小エネルギー絡み状態の生成に要するコストが, 他のほとんどの状態の生成よりも低いことを数値的に示す。

Quantum technologies exploiting bipartite entanglement could be made more efficient by using states having the minimum amount of energy for a given entanglement degree. Here, we study how to generate these states in the case of a bipartite system of arbitrary finite dimension either by applying a unitary transformation to its ground state or through a zero-temperature thermalization protocol based on turning on and off a suitable interaction term between the subsystems. In particular, we explicitly identify three possible unitary operators and five possible interaction terms. On the one hand, two of the three unitary transformations turn out to be easily decomposable in terms of local elementary operations and a single non-local one, making their implementation easier. On the other hand, since the thermalization procedures can be easily adapted to generate many different states, we numerically show that, for each degree of entanglement, generating minimum energy entangled states costs less than generating the vast majority of the other states.
翻訳日:2023-04-27 11:31:26 公開日:2020-10-26
# 状態選択的光学ポテンシャルによるイオンクーロン結晶のトラップ、シェーピング、分離

Trapping, Shaping and Isolating of Ion Coulomb Crystals via State-selective Optical Potentials ( http://arxiv.org/abs/2010.13621v1 )

ライセンス: Link先を確認
Pascal Weckesser, Fabian Thielemann, Daniel Hoenig, Alexander Lambrecht, Leon Karpa and Tobias Schaetz(参考訳) 従来のイオントラップの場合、トラップポテンシャルは電子状態とは独立しており、主に電荷対質量比$q/m$に依存するイオンの閉じ込めを提供する。 対照的に、光双極子トラップ内にイオンを貯蔵すると、状態依存の閉じ込めが生じる。 ここでは、532nmと1064nmの2つの異なるトラップに保存された$^{138}\mathrm{ba}^+$ ionsの光学双極子ポテンシャルを実験的に研究する。 6\mathrm{S}_{\mathrm{1/2}}$電子基底または5\mathrm{D}_{\mathrm{3/2}}$/5\mathrm{D}_{\mathrm{5/2}}$準安定励起状態のイオンを準備し、ポテンシャルの相対強度と極性を探索する。 一方、全てのイオンは同じQ/m$であるにもかかわらず、クーロン結晶からイオンを選択的に除去する。 一方、高エネルギー軌道における寄生イオンからのトラップ体積を決定論的に浄化し、クーロン結晶をラジオ周波数トラップ内の単一イオンに確実に分離する。

For conventional ion traps, the trapping potential is close to independent of the electronic state, providing confinement for ions dependent primarily on their charge-to-mass ratio $Q/m$. In contrast, storing ions within an optical dipole trap results in state-dependent confinement. Here we experimentally study optical dipole potentials for $^{138}\mathrm{Ba}^+$ ions stored within two distinctive traps operating at 532 nm and 1064 nm. We prepare the ions in either the $6\mathrm{S}_{\mathrm{1/2}}$ electronic ground or the $5\mathrm{D}_{\mathrm{3/2}}$/ $5\mathrm{D}_{\mathrm{5/2}}$ metastable excited state and probe the relative strength and polarity of the potential. On the one hand, we apply our findings to selectively remove ions from a Coulomb crystal, despite all ions sharing the same $Q/m$. On the other hand, we deterministically purify the trapping volume from parasitic ions in higher-energy orbits, resulting in reliable isolation of Coulomb crystals down to a single ion within a radio-frequency trap.
翻訳日:2023-04-27 11:31:09 公開日:2020-10-26
# 局所ローレンツ対称性違反とアインシュタイン等価原理

The Local Lorentz Symmetry Violation and Einstein Equivalence Principle ( http://arxiv.org/abs/2010.13590v1 )

ライセンス: Link先を確認
Baocheng Zhang(参考訳) ローレンツ対称性違反(LV)は、ある局所的相互作用(R. Shaniv, et al, PRL 120, 103202 (2018)))として記述される新しい手法で検証可能であることが最近提案された。 本稿では、このLV効果を再検討し、局所的であるだけでなく、アインシュタイン同値原理(EEP)の最近の量子定式化による古典的違反を表していることを示す。 調和に閉じ込められたスピン-1/2原子系に基づいて、LV効果をテストするテーブルトップ実験の結果を適用し、EEPの量子定式化における対応する違反パラメータを推定する。 従来の理論的推定では, 違反パラメータは非常に小さいことが示唆された。

Lorentz symmetry violation (LV) was recently proposed to be testable with a new method, in which the effect of the violation is described as a certain local interaction [R. Shaniv, et al, PRL 120, 103202 (2018)]. We revisit this LV effect in the paper and show that it is not only local, but it also represents a classical violation according to the recent quantum formulation of the Einstein equivalence principle (EEP). Based on a harmonically trapped spin-1/2 atomic system, we apply the results of table-top experiments testing LV effect to estimate the corresponding violation parameter in the quantum formulation of EEP. We find that the violation parameter is indeed very small, as expected by the earlier theoretical estimation.
翻訳日:2023-04-27 11:30:45 公開日:2020-10-26
# 強磁性層を介した超伝導コヒーレンスを含む多層ヘテロ構造の超強光子対マグノンカップリング

Ultra-strong photon-to-magnon coupling in multilayered heterostructures involving superconducting coherence via ferromagnetic layers ( http://arxiv.org/abs/2010.13553v1 )

ライセンス: Link先を確認
I.A. Golovchanskiy, N.N. Abramov, V.S. Stolyarov, M. Weides, V.V. Ryazanov, A.A. Golubov, A.V. Ustinov, M.Yu. Kupriyanov(参考訳) 将来の量子産業にとって重要なステップは、フォトニックシステムやマグノニックシステムなど、異なるプラットフォーム間の効率的な情報交換を実現することである。 あるハイブリッド系における進展の主な抑制因子は、元素粒子間の根本的な弱結合パラメータである。 この制限は、スケーラブルなオンチップハイブリッドマグノニクスシステムの実現を不可能にすることで、ハイブリッドマグノニクスの分野全体を妨げている。 本研究では,前例のない強い結合パラメータを持つオンチップハイブリッドマグノンシステムを実現するための,汎用的なフレキシブルアプローチを提案する。 この手法は、超伝導、絶縁層、強磁性層を含む多層構造をベースとし、光子相速度とマグノン固有周波数の両方を修正した。 現象学的には、ラジカル還元光子モード体積により高結合強度が提供される。 研究系におけるフォノン-マグノンカップリングの微視的機構は、厚い強強強強磁性層による長距離超伝導コヒーレンスの形成を証明している。 このコヒーレンスは、超伝導体/強磁性体/超伝導体3層によるマイクロ波のコヒーレント超伝導スクリーニングにより、磁化前駆体の存在下で現れる。 この発見は、量子技術のためのマイクロ波超伝導スピントロニクスの新しい機会を提供する。

The critical step for future quantum industry demands realization of efficient information exchange between different-platform hybrid systems, including photonic and magnonic systems, that can harvest advantages of distinct platforms. The major restraining factor for the progress in certain hybrid systems is the fundamentally weak coupling parameter between the elemental particles. This restriction impedes the entire field of hybrid magnonics by making realization of scalable on-chip hybrid magnonic systems unattainable. In this work, we propose a general flexible approach for realization of on-chip hybrid magnonic systems with unprecedentedly strong coupling parameters. The approach is based on multilayered micro-structures containing superconducting, insulating and ferromagnetic layers with modified both photon phase velocities and magnon eigen-frequencies. Phenomenologically, the enhanced coupling strength is provided by the radically reduced photon mode volume. The microscopic mechanism of the phonon-to-magnon coupling in studied systems evidences formation of the long-range superconducting coherence via thick strong ferromagnetic layers. This coherence is manifested by coherent superconducting screening of microwave fields by the superconductor/ferromagnet/superconductor three-layers in presence of magnetization precession. This discovery offers new opportunities in microwave superconducting spintronics for quantum technologies.
翻訳日:2023-04-27 11:30:18 公開日:2020-10-26
# プライバシーに配慮した自動連絡先追跡

Another Look at Privacy-Preserving Automated Contact Tracing ( http://arxiv.org/abs/2010.13462v1 )

ライセンス: Link先を確認
Qiang Tang(参考訳) 新型コロナウイルス(COVID-19)のパンデミックで、手動接触追跡は、感染したユーザーの近距離接触に到達し、ウイルスの拡散を遅らせる上で非常に有用であることが証明された。 スケーラビリティを向上させるために、多数の自動接触追跡(ACT)ソリューションが提案され、そのいくつかがデプロイされている。 献身的な努力にもかかわらず、これらのソリューションのセキュリティとプライバシの問題はまだオープンであり、激しい議論が続いている。 本稿では,セキュリティやプライバシの問題だけでなく,インターフェースやユーザビリティ,カバレッジといった機能的な問題にも焦点をあてて,ACTの概念をより広い視点から検討する。 最初にこれらの問題を詳しく説明し、特に既存のBLEベースのACTソリューションにおける必然的なプライバシー漏洩を指摘した。 そこで本研究では,利用者の接触履歴のみをモニタし,bleやwi-fiなどの位置情報追跡技術を組み込む「act」の概念を提案する。 最後に、会場ベースのACT概念をインスタンス化し、我々のインスタンス化が我々の分析で特定したほとんどの問題を緩和できることを示します。

In the current COVID-19 pandemic, manual contact tracing has been proven very helpful to reach close contacts of infected users and slow down virus spreading. To improve its scalability, a number of automated contact tracing (ACT) solutions have proposed and some of them have been deployed. Despite the dedicated efforts, security and privacy issues of these solutions are still open and under intensive debate. In this paper, we examine the ACT concept from a broader perspective, by focusing on not only security and privacy issues but also functional issues such as interface, usability and coverage. We first elaborate on these issues and particularly point out the inevitable privacy leakages in existing BLE-based ACT solutions. Then, we propose a venue-based ACT concept, which only monitors users' contacting history in virus-spreading-prone venues and is able to incorporate different location tracking technologies such as BLE and WIFI. Finally, we instantiate the venue-based ACT concept and show that our instantiation can mitigate most of the issues we have identified in our analysis.
翻訳日:2023-04-27 11:29:15 公開日:2020-10-26
# 半導体系超伝導量子ビットの展望

A perspective on semiconductor-based superconducting qubits ( http://arxiv.org/abs/2010.13775v1 )

ライセンス: Link先を確認
Ram\'on Aguado(参考訳) 電気的に完全に調整可能な半導体ベースのジョセフソン接合のデモンストレーションに続いて、ハイブリッド半導体-超伝導量子ビットの研究のための新しい経路が開かれた。 これには半導体ベースのトランモン量子ビット、単一スピンアンドレーフ量子ビット、マヨラナゼロモードに基づくフォールトトレラントトポロジカル量子ビットが含まれる。 本稿では,このような新しい量子ビット設計への道のりの最近の進歩を概観する。 半導体ナノワイヤを基盤とした超伝導量子ビットに重点を置いている。

Following the demonstration of semiconductor-based Josephson junctions which are fully tuneable by electrical means, new routes have been opened for the study of hybrid semiconductor-superconductor qubits. These include semiconductor-based transmon qubits, single-spin Andreev qubits, and fault-tolerant topological qubits based on Majorana zero modes. In this perspective, we review recent progress in the path towards such novel qubit designs. After a short introduction and a brief digression about the historical roadmap that has led to the experimental state-of-the art, the emphasis is placed on superconducting qubits based on semiconductor nanowires
翻訳日:2023-04-27 11:20:42 公開日:2020-10-26
# 階層環境支援非マルコフ系とその熱力学特性に及ぼす影響

Hierarchical-environment-assisted non-Markovian and its effect on thermodynamic properties ( http://arxiv.org/abs/2010.13756v1 )

ライセンス: Link先を確認
Yong-Wei Li and Lei Li(参考訳) 微視的衝突モデル、すなわち、量子系は補助系と貯留層からなる階層的な環境と相互作用する。 本稿では,システムの非マルコフ特性が,システム・オーソリタリ系の結合強度と補助系保存性,初期システム環境相関,環境コヒーレンスにどのように影響するかを示す。 次に,非マルコフ性と熱力学特性の関係を,特に記憶効果を伴う熱交換による系のエントロピー変化を調べ,非マルコフ性進化における正値と負値のエントロピー変化の本質はコヒーレンスによって決定される熱流束の寄与によるものであることを明らかにした。 そして、システムと環境の間の情報の流れは常にエネルギー交換を伴う。

We consider a microscopic collision model, i.e., a quantum system interacts with a hierarchical environment consisting of an auxiliary system and a reservoir. We show how the non-Markovian character of the system is influenced by the coupling strength of system-auxiliary system and auxiliary system-reservoir, initial system-environment correlations and the coherence of environment. Then we study the relation between non-Markovianity and thermodynamics properties, by studying the entropy change of system especially that from heat exchanges with memory effects, and we reveal the essence of entropy change between positive and negative values during non-Markovian evolution is due to the contribution of heat flux determined by coherence. And the information flow between the system and environment is always accompanied by energy exchange.
翻訳日:2023-04-27 11:20:19 公開日:2020-10-26
# 拡張データ分類のための量子半教師付き生成対向ネットワーク

Quantum semi-supervised generative adversarial network for enhanced data classification ( http://arxiv.org/abs/2010.13727v1 )

ライセンス: Link先を確認
Kouhei Nakaji and Naoki Yamamoto(参考訳) 本稿では,量子半教師付き生成逆数ネットワーク(qSGAN)を提案する。 このシステムは量子発生器と古典的判別器/分類器(d/c)から構成される。 目標は、ジェネレータとD/Cの両方をトレーニングし、後者が与えられたデータセットに対して高い分類精度が得られるようにすることだ。 データローディングも純粋な量子状態の生成も必要とせず、リッチな表現性のおかげで従来のものよりも強力な敵として機能することが期待されている。 これらの利点は数値シミュレーションで示される。

In this paper, we propose the quantum semi-supervised generative adversarial network (qSGAN). The system is composed of a quantum generator and a classical discriminator/classifier (D/C). The goal is to train both the generator and the D/C, so that the latter may get a high classification accuracy for a given dataset. The generator needs neither any data loading nor to generate a pure quantum state, while it is expected to serve as a stronger adversary than a classical one thanks to its rich expressibility. These advantages are demonstrated in a numerical simulation.
翻訳日:2023-04-27 11:19:52 公開日:2020-10-26
# プランク・アインシュタイン関係の爆発

Exploiting the Planck-Einstein Relation ( http://arxiv.org/abs/2010.13690v1 )

ライセンス: Link先を確認
R. Engels, M. B\"uscher, P. Buske, Y. Gan, K. Grigoryev, Chr. Hanhart, L. Huxold, C. S. Kannis, A. Lehrach, H. Soltner, and V. Verhoeven(参考訳) 量子物理学の起源は、1900年にマックス・プランクが黒体放射の実験結果を分析した時に、電磁アクションの基本単位である$h$が発見されたことである。 数年後、アルベルト・アインシュタインは、エネルギーが$E = h \cdot f$の光子の吸収による光電効果を説明することを許した。 約10nVのエネルギー差と数MHzの誘導周波数を持つ2つの状態間の直接遷移のスペクトル測定を, プランク・アインシュタイン関係に応用した。 2つの対立するソレノイドコイルの比較的単純な磁場配置を特徴とするラムシフト偏光計とソナ遷移ユニットを用いて、f$とe$を独立に測定することができた。 プランクの定数 $h$ の整数倍に対応する共鳴のみが我々の設定で観測され、シュリンガー方程式によって定量的に説明できる。 本手法は, マイクロ宇宙における量子化を美しく実証し, サブステート間の超微細分裂エネルギーを, 磁場の関数として$F=1$, $m_F = -1, 0, +1$で測定し, ブライト・ラビ図におけるQED補正の影響を調べた。

The origin of quantum physics was the discovery of the base unit of electromagnetic action $h$ by Max Planck in 1900 when he analyzed the experimental results of the black body radiation. This permitted Albert Einstein a few years later to explain the photoelectric effect by the absorption of photons with an energy of $E = h \cdot f$. We exploit the Planck-Einstein relation in a new type of fundamental spectroscopic measurements of direct transitions between two states with energy differences of about 10 neV and induced frequencies of a few MHz. Employing a Lamb-shift polarimeter and a Sona transition unit, featuring a relatively simple magnetic field configuration of two opposing solenoidal coils, we were able to determine $f$ and measure $E$ independently. Only resonances corresponding to integer multiples of Planck's constant $h$ were observed in our setup, which can very well be explained quantitatively by the Schr\"odinger equation. This new method beautifully demonstrates the quantization in the micro-cosmos and allows one to measure the hyperfine splitting energies between the substates with $F=1$ and $m_F = -1, 0, +1$ of metastable hydrogen atoms as function of a magnetic field and, thus, to investigate the influence of QED corrections on the Breit-Rabi diagram.
翻訳日:2023-04-27 11:19:13 公開日:2020-10-26
# 1次元水素原子の結合状態解

The bound-state solutions of the one-dimensional hydrogen atom ( http://arxiv.org/abs/2010.13946v1 )

ライセンス: Link先を確認
Rufus Boyack and Frank Marsiglio(参考訳) 1次元水素原子は興味深い量子力学の問題であり、議論が続いているいくつかの性質を示す。 特に、等パリティ解が存在するかどうか、特に基底状態が無限の負のエネルギーを持つ等パリティ状態であるかどうかについては、ばらつきがある。 このシステムの「正則化」バージョンについて検討し、原点付近で電位が一定である場合、この正則化された一次元水素原子に対する偶数および奇数パリティ解について議論する。 基底状態を除いて、偶パリティ状態が同じ関数形式に収束し、カットオフがゼロに近づくにつれて奇数パリティ解とともに、x > 0$ で縮退する様子を示す。 これは、一次元クーロンポテンシャルの特異点(すなわち正則化のない)の分析から導かれる結論と異なり、等間隔解がスペクトルから欠落している。

The one-dimensional hydrogen atom is an intriguing quantum mechanics problem that exhibits several properties which have been continually debated. In particular, there has been variance as to whether or not even-parity solutions exist, and specifically whether or not the ground state is an even-parity state with infinite negative energy. We study a "regularized" version of this system, where the potential is a constant in the vicinity of the origin, and we discuss the even- and odd-parity solutions for this regularized one-dimensional hydrogen atom. We show how the even-parity states, with the exception of the ground state, converge to the same functional form and become degenerate for $x > 0$ with the odd-parity solutions as the cutoff approaches zero. This differs with conclusions derived from analysis of the singular (i.e., without regularization) one-dimensional Coulomb potential, where even-parity solutions are absent from the spectrum.
翻訳日:2023-04-27 11:12:30 公開日:2020-10-26
# 一般化Jaynes-Cummingsモデルにおける下界SUSY

Underlying SUSY in a generalized Jaynes-Cummings model ( http://arxiv.org/abs/2010.13867v1 )

ライセンス: Link先を確認
F. H. Maldonado-Villamizar, C. A. Gonz\'alez-Guti\'errez, L. Villanueva-Vergara, B. M. Rodr\'iguez-Lara(参考訳) 本稿では,本論文の広範な実験的・理論的提案を含まない一般化jaynes-cummingsモデルを提案する。 非線形ボソン項、非線形分散および多重ボソン交換相互作用をカバーしている。 我々のモデルは、超対称性量子力学に類似した基礎となるリー次数代数対称性を特徴とする。 これにより、対角化スキームを提案し、その解析時間発展を計算することができる。 結果として、関連する可観測性のための閉形式を構築し、その複雑性に依存しないモデルの特定の実現のダイナミクスを探求することができる。 実例として,スタークシフトを伴う標準jcモデル,kerr様項,強度依存結合,マルチボソン交換,代数的変形といったケースの選択において,基底状態における量子ビットとコヒーレント場との相互作用からなる初期状態に対する集団反転とボソン二次数の進化を示す。

We propose a generalized Jaynes-Cummings model that includes but is not limited to an extensive collection of experimental and theoretical proposals from the literature. It covers nonlinear boson terms, nonlinear dispersive and multi-boson exchange interaction. Our model features an underlying Lie graded algebra symmetry reminiscent to supersymmetric quantum mechanics. This allows us to propose a diagonalization scheme and calculate its analytic time evolution. In consequence, we are able to construct closed forms for relevant observables and explore the dynamics of particular realizations of our model independent of their complexity. As an practical example, we show the evolution of the population inversion and the boson quadratures for an initial state consisting of the qubit in the ground state interacting with a coherent field for a selection of cases including the standard JC model with Stark shift, Kerr-like terms, intensity dependent coupling, multi-boson exchange and algebraic deformations.
翻訳日:2023-04-27 11:11:57 公開日:2020-10-26
# ブラインドオラキュラー量子計算

Blind Oracular Quantum Computation ( http://arxiv.org/abs/2010.13840v1 )

ライセンス: Link先を確認
Cica Gustiani and David P. DiVincenzo(参考訳) 標準オラクルモデルでは、オラクルは量子アルゴリズム自体に依存しない未知の古典関数を効率的に評価する。 量子アルゴリズムはオークルと複雑な相互関係を持ち、例えば量子スピードアップの可能性はオークルが実装される方法によって影響を受ける。 したがって、量子アルゴリズムからオラクルを分離することは物理的に意味があり、ここではそのような分離を紹介する。 我々は、オラクルが量子ネットワーク内の独立したノードであるblind oracular quantum computation(boqc)スキームを定義する。 我々の研究は、量子コンピューティングのクライアントサーバ設定を強化し、量子パワーの低いネットワーク上のクライアントによる離散的な使用のために、強力な量子コンピュータサーバをネットワーク上で利用できるようにする。 boqcでは、oracleはメインクライアントと協調する別のクライアントであり、オラキュラ量子アルゴリズムがサーバ上で実行される。 メインクライアントとオラクルの協力は(ほとんど)コミュニケーションなしで行われます。 我々はBOQCが盲目であることを証明する。サーバはクライアントの計算について何も学べない。 この証明は、抽象暗号の形式主義によって提供される構成可能なセキュリティ定義の中で実行される。 我々は、固体量子ネットワーク上での動作において、最小の物理量子ビットで動作可能なBOQCスキームを強化し、BOQCo(BOQC最適化)と呼ばれるこのスキームがBOQCと同じセキュリティを有することを証明した。

In the standard oracle model, an oracle efficiently evaluates an unknown classical function independent of the quantum algorithm itself. Quantum algorithms have a complex interrelationship to their oracles; for example the possibility of quantum speedup is affected by the manner by which oracles are implemented. Therefore, it is physically meaningful to separate oracles from their quantum algorithms, and we introduce one such separation here. We define the Blind Oracular Quantum Computation (BOQC) scheme, in which the oracle is a distinct node in a quantum network. Our work augments the client-server setting of quantum computing, in which a powerful quantum computer server is available on the network for discreet use by clients on the network with low quantum power. In BOQC, an oracle is another client that cooperates with the main client so that an oracular quantum algorithm is run on the server. The cooperation between the main client and the oracle takes place (almost) without communication. We prove BOQC to be blind: the server cannot learn anything about the clients' computation. This proof is performed within the composable security definitions provided by the formalism of Abstract Cryptography. We enhance the BOQC scheme to be runnable with minimal physical qubits when run on a solid-state quantum network; we prove that this scheme, which we refer to as BOQCo (BOQC-optimized), possesses the same security as BOQC.
翻訳日:2023-04-27 11:10:50 公開日:2020-10-26
# crictrs:embedsベースの統計および半教師付きクリケットチームレコメンデーションシステム

CRICTRS: Embeddings based Statistical and Semi Supervised Cricket Team Recommendation System ( http://arxiv.org/abs/2010.15607v1 )

ライセンス: Link先を確認
Prazwal Chhabra, Rizwan Ali, Vikram Pudi(参考訳) チームレコメンデーションはチームスポーツにおいて常に難しい側面でした。 このようなシステムは、対戦相手に最も適したプレイヤーの組み合わせを推奨し、最適な結果をもたらす。 本稿では,プレイヤーを埋め込みにモデル化することでクリケットのチーム推薦システムを構築するための半教師付き統計手法を提案する。 これらの埋め込みを構築するために,プレイヤーのパフォーマンス評価にも反対者の強度を考慮した質的で定量的な評価システムを設計する。 得られた埋め込みは、プレーヤーの過去のパフォーマンスに基づいてプレイヤーの強みと弱みを記述する。 また、チーム構成において、チーム内のバットマンとボウラーの数を含む重要な側面にも着手しました。 チーム構成は、予測が難しいさまざまな要因によって、時間とともに変化するため、この入力をユーザから受け取り、プレーヤの埋め込みを使用して、与えられたチーム構成と可能な限りのチーム組み合わせを決定します。

Team Recommendation has always been a challenging aspect in team sports. Such systems aim to recommend a player combination best suited against the opposition players, resulting in an optimal outcome. In this paper, we propose a semi-supervised statistical approach to build a team recommendation system for cricket by modelling players into embeddings. To build these embeddings, we design a qualitative and quantitative rating system which considers the strength of opposition also for evaluating player performance. The embeddings obtained, describes the strengths and weaknesses of the players based on past performances of the player. We also embark on a critical aspect of team composition, which includes the number of batsmen and bowlers in the team. The team composition changes over time, depending on different factors which are tough to predict, so we take this input from the user and use the player embeddings to decide the best possible team combination with the given team composition.
翻訳日:2023-04-27 11:01:50 公開日:2020-10-26
# 大都市における電動バスシステムの設計と評価

Design and Evaluation of Electric Bus Systems for Metropolitan Cities ( http://arxiv.org/abs/2010.15606v1 )

ライセンス: Link先を確認
Unnikrishnan Menon and Divyani Panda(参考訳) 過去10年間で、世界中の大都市のほとんどが、空気品質指数の低下傾向を目の当たりにしている。 排ガスデータ観測は、公共交通機関の推進がこのグリッドロックから抜け出す可能性を示している。 環境問題により、多くの公共交通機関がゼロエミッションの電気バスの導入に関心を持っている。 従来のディーゼルバスから電気バスへのシフトには、地域汚染、騒音、燃料消費の削減という面でいくつかの利点がある。 本稿では,都市部における排ガスの懸念を軽減するため,都市部に展開可能な電気バスを設計するための包括的方法論を提供する車両技術,パワートレイン,充電システムを提案する。

Over the past decade, most of the metropolitan cities across the world have been witnessing a degrading trend in air quality index. Exhaust emission data observations show that promotion of public transport could be a potential way out of this gridlock. Due to environmental concerns, numerous public transport authorities harbor a great interest in introducing zero emission electric buses. A shift from conventional diesel buses to electric buses comes with several benefits in terms of reduction in local pollution, noise, and fuel consumption. This paper proposes the relevant vehicle technologies, powertrain, and charging systems, which, in combination, provides a comprehensive methodology to design an Electric Bus that can be deployed in metropolitan cities to mitigate emission concerns.
翻訳日:2023-04-27 11:01:35 公開日:2020-10-26
# 計算病理学のための深層ニューラルネットワークモデル:調査

Deep neural network models for computational histopathology: A survey ( http://arxiv.org/abs/1912.12378v2 )

ライセンス: Link先を確認
Chetan L. Srinidhi, Ozan Ciga, Anne L. Martel(参考訳) 病理組織像は、疾患の進行と患者の生存に寄与するメカニズムを監視するために使用できる豊富な表現型情報を含んでいる。 近年,癌組織像を解析・解釈する手法として,深層学習が主流となっている。 本稿では,病理組織学的画像解析の文脈で用いられてきた最先端のディープラーニングアプローチの包括的レビューを行う。 130以上の論文を対象とした調査から, 教師付き, 弱教師付き, 教師なし, トランスファーラーニングなど, さまざまな機械学習戦略の方法論的側面に基づいて, 分野の進歩を概観する。 また,疾患特異的予後課題に適用可能な深層学習に基づく生存モデルについて概説する。 最後に、既存のいくつかのオープンデータセットを要約し、将来の研究への道筋とともに、現在のディープラーニングアプローチにおける重要な課題と限界を強調する。

Histopathological images contain rich phenotypic information that can be used to monitor underlying mechanisms contributing to diseases progression and patient survival outcomes. Recently, deep learning has become the mainstream methodological choice for analyzing and interpreting cancer histology images. In this paper, we present a comprehensive review of state-of-the-art deep learning approaches that have been used in the context of histopathological image analysis. From the survey of over 130 papers, we review the fields progress based on the methodological aspect of different machine learning strategies such as supervised, weakly supervised, unsupervised, transfer learning and various other sub-variants of these methods. We also provide an overview of deep learning based survival models that are applicable for disease-specific prognosis tasks. Finally, we summarize several existing open datasets and highlight critical challenges and limitations with current deep learning approaches, along with possible avenues for future research.
翻訳日:2023-01-17 12:44:06 公開日:2020-10-26
# MONSTOR: 目に見えないネットワークへの影響を推定・最大化するインダクティブアプローチ

MONSTOR: An Inductive Approach for Estimating and Maximizing Influence over Unseen Networks ( http://arxiv.org/abs/2001.08853v5 )

ライセンス: Link先を確認
Jihoon Ko, Kyuhan Lee, Kijung Shin, Noseong Park(参考訳) 影響最大化(IM)は、ソーシャルネットワーク分析において最も重要な問題の一つである。 その目的は、ソーシャルネットワークを通じて情報の拡散を最大化するシードノード数を見つけることである。 np-ハード問題であるため、多くの近似/ヒューリスティックな手法が開発されており、種子セットの影響(すなわち感染したノード数)を確実に推定するためにモンテカルロ(mc)シミュレーションを繰り返している。 本研究では,学習中のソーシャルネットワークにおけるシードノードの影響を推定するために,モンテカルロシミュレータ(monstor)と呼ばれる帰納的機械学習手法を提案する。 我々の知る限りでは、MONSTORはこの目的のための最初の帰納的手法である。 MONSTORは、繰り返しMCシミュレーションを置き換えることで、既存のIMアルゴリズムを大幅に高速化することができる。 実験の結果,MONSTORは実世界のソーシャルネットワークにおけるPearsonとSpearmanの相関係数を0.998以上の精度で推定した。 さらに、MONSTORを搭載したIMアルゴリズムは、IMのユースケースの63%において、最先端の競合よりも正確である。

Influence maximization (IM) is one of the most important problems in social network analysis. Its objective is to find a given number of seed nodes that maximize the spread of information through a social network. Since it is an NP-hard problem, many approximate/heuristic methods have been developed, and a number of them repeat Monte Carlo (MC) simulations over and over to reliably estimate the influence (i.e., the number of infected nodes) of a seed set. In this work, we present an inductive machine learning method, called Monte Carlo Simulator (MONSTOR), for estimating the influence of given seed nodes in social networks unseen during training. To the best of our knowledge, MONSTOR is the first inductive method for this purpose. MONSTOR can greatly accelerate existing IM algorithms by replacing repeated MC simulations. In our experiments, MONSTOR provided highly accurate estimates, achieving 0.998 or higher Pearson and Spearman correlation coefficients in unseen real-world social networks. Moreover, IM algorithms equipped with MONSTOR are more accurate than state-of-the-art competitors in 63% of IM use cases.
翻訳日:2023-01-07 05:08:11 公開日:2020-10-26
# ハイブリッドデータ駆動, メカニックな仮想フローメータの開発 - 事例研究

Developing a Hybrid Data-Driven, Mechanistic Virtual Flow Meter -- a Case Study ( http://arxiv.org/abs/2002.02737v3 )

ライセンス: Link先を確認
Mathilde Hotvedt, Bjarne Grimstad, Lars Imsland(参考訳) 石油資産の生産流量を予測する数理モデルである仮想流量計は、生産監視や最適化に役立つ。 第一原理に基づく機械モデルが最も一般的であるが、測定でパターンを利用するデータ駆動モデルが人気を集めている。 本研究では,上記の2つの専門分野の技術を生かしたハイブリッドモデリング手法を用いて,生産効率のよいチョークをモデル化する。 このチョークは、第一原理方程式の簡易集合と、弁流量係数を推定するニューラルネットワークで表される。 石油プラットフォーム edvard grieg の過去の生産データはモデル検証に使われている。 さらに,性能比較のために,メカニスティックモデルとデータ駆動モデルを構築した。 パラメータのハイブリッド性と確率的最適化の程度が異なるモデルを開発するための実践的枠組みを確立する。 ハイブリッドモデルの性能は、改善の余地はあるものの有望である。

Virtual flow meters, mathematical models predicting production flow rates in petroleum assets, are useful aids in production monitoring and optimization. Mechanistic models based on first-principles are most common, however, data-driven models exploiting patterns in measurements are gaining popularity. This research investigates a hybrid modeling approach, utilizing techniques from both the aforementioned areas of expertise, to model a well production choke. The choke is represented with a simplified set of first-principle equations and a neural network to estimate the valve flow coefficient. Historical production data from the petroleum platform Edvard Grieg is used for model validation. Additionally, a mechanistic and a data-driven model are constructed for comparison of performance. A practical framework for development of models with varying degree of hybridity and stochastic optimization of its parameters is established. Results of the hybrid model performance are promising albeit with considerable room for improvements.
翻訳日:2023-01-03 05:21:19 公開日:2020-10-26
# 自己蒸留はヒルベルト空間における正則化を増幅する

Self-Distillation Amplifies Regularization in Hilbert Space ( http://arxiv.org/abs/2002.05715v3 )

ライセンス: Link先を確認
Hossein Mobahi, Mehrdad Farajtabar, Peter L. Bartlett(参考訳) ディープラーニングコンテキストで導入された知識蒸留は、あるアーキテクチャから別のアーキテクチャへ知識を移す方法である。 特に、建築が同一の場合、これを自己蒸留と呼ぶ。 その考え方は、トレーニングされたモデルの予測を、再トレーニングのための新しいターゲット値として(そして、このループを数回繰り返して)与えることである。 自己蒸留モデルが保持データに対して高い精度を達成することが実証されている。 自己蒸留ダイナミクスはタスクに関する新たな情報を受け取っておらず、トレーニングをループすることでのみ進化します。 私たちの知る限りでは、この現象について厳密な理解はない。 この研究は、自己蒸留に関する最初の理論的分析を提供する。 我々は、モデル空間がヒルベルト空間であり、この関数空間で$\ell_2$正規化されるような非線型関数をトレーニングデータに適用することに集中する。 自己蒸留の繰り返しは、解を表すのに使える基底関数の数を漸進的に制限することで正規化を変更することを示す。 これは、数ラウンドの自己蒸留が過剰フィッティングを減少させる可能性があるが、さらなるラウンドが過剰フィッティングにつながる可能性があり、その結果パフォーマンスが低下することを示している(実証的に確認する)。

Knowledge distillation introduced in the deep learning context is a method to transfer knowledge from one architecture to another. In particular, when the architectures are identical, this is called self-distillation. The idea is to feed in predictions of the trained model as new target values for retraining (and iterate this loop possibly a few times). It has been empirically observed that the self-distilled model often achieves higher accuracy on held out data. Why this happens, however, has been a mystery: the self-distillation dynamics does not receive any new information about the task and solely evolves by looping over training. To the best of our knowledge, there is no rigorous understanding of this phenomenon. This work provides the first theoretical analysis of self-distillation. We focus on fitting a nonlinear function to training data, where the model space is Hilbert space and fitting is subject to $\ell_2$ regularization in this function space. We show that self-distillation iterations modify regularization by progressively limiting the number of basis functions that can be used to represent the solution. This implies (as we also verify empirically) that while a few rounds of self-distillation may reduce over-fitting, further rounds may lead to under-fitting and thus worse performance.
翻訳日:2023-01-01 10:01:33 公開日:2020-10-26
# 確率正規化流れ

Stochastic Normalizing Flows ( http://arxiv.org/abs/2002.06707v3 )

ライセンス: Link先を確認
Hao Wu, Jonas K\"ohler and Frank No\'e(参考訳) 正規化定数までの確率分布のサンプリングは、機械学習と統計力学の両方において重要な問題である。 マルコフ連鎖モンテカルロ (mcmc) やランジュバン力学 (ld) のような古典的確率的サンプリング法では混合時間が遅いが、与えられた対象分布への単純な事前分布の変換を学ぶために正規化フローの利用に関心が高まっている。 確率正規化フロー(Stochastic Normalizing Flows, SNF) - 決定論的非可逆関数の任意の列と確率的サンプリングブロック。 確率性は可逆性制約による流れの正規化の表現性限界を克服するが、サンプリングステップ間の訓練可能な変換は流れに沿った純粋なmcmc/ldの効率を向上させる。 非平衡統計力学からアイデアを呼び出すことで、サンプルとフローのパラメータの両方をエンドツーエンドに最適化し、確率ブロックのランダム性を排除することなく、正確な重要度重みを計算できる効率的な訓練手順を導出する。 本稿では, SNFの表現力, サンプリング効率, 漸近正性について, 分子系の平衡サンプリングへの応用を含むいくつかのベンチマークで説明する。

The sampling of probability distributions specified up to a normalization constant is an important problem in both machine learning and statistical mechanics. While classical stochastic sampling methods such as Markov Chain Monte Carlo (MCMC) or Langevin Dynamics (LD) can suffer from slow mixing times there is a growing interest in using normalizing flows in order to learn the transformation of a simple prior distribution to the given target distribution. Here we propose a generalized and combined approach to sample target densities: Stochastic Normalizing Flows (SNF) -- an arbitrary sequence of deterministic invertible functions and stochastic sampling blocks. We show that stochasticity overcomes expressivity limitations of normalizing flows resulting from the invertibility constraint, whereas trainable transformations between sampling steps improve efficiency of pure MCMC/LD along the flow. By invoking ideas from non-equilibrium statistical mechanics we derive an efficient training procedure by which both the sampler's and the flow's parameters can be optimized end-to-end, and by which we can compute exact importance weights without having to marginalize out the randomness of the stochastic blocks. We illustrate the representational power, sampling efficiency and asymptotic correctness of SNFs on several benchmarks including applications to sampling molecular systems in equilibrium.
翻訳日:2022-12-31 17:59:14 公開日:2020-10-26
# 自己監督型アクティブドメインランダム化による自動キュリキュラ生成

Generating Automatic Curricula via Self-Supervised Active Domain Randomization ( http://arxiv.org/abs/2002.07911v2 )

ライセンス: Link先を確認
Sharath Chandra Raparthy, Bhairav Mehta, Florian Golemo, Liam Paull(参考訳) 目標指向強化学習(rl)は伝統的に環境と相互作用するエージェントを考慮し、ある目標の完了に比例するエージェントに対して実価値の報酬を処方する。 目標指向のrlは、再利用の容易さや、目標の提案による新たなエクスペリエンスの生成により、サンプル効率が大幅に向上している。 1つのアプローチ、セルフプレイ(self-play)は、エージェントが目標を設定して達成し、学習カリキュラムを作成し、エージェントが徐々に難しい目標を達成することを学べるようにすることで、エージェント自身に対して「プレイ」することができる。 しかし、セルフプレイは、カリキュラムの学習や、単一の環境における徐々に難しい目標の学習に限られている。 ロボットエージェントに関する最近の研究は、例えばドメインのランダム化など、トレーニング中の環境の変化がより堅牢な移動をもたらすことを示した。 その結果、自己プレイフレームワークを拡張して、ゴールと環境のカリキュラムを共同学習し、自己プレイで最も実りあるドメインランダム化戦略を学ぶアプローチへと導かれる。 提案手法は,ss-adr(self-supervised active domain randomization)により,エージェントが徐々に困難なタスクや環境変動を通じて学習するゴール・タスク・カリキュラムを生成する。 エージェントに現在の能力のすぐ外側にあるタスクを試すよう促すことで、SS-ADRはドメインランダム化カリキュラムを構築し、様々なシム2リアル転送タスクの最先端の結果を可能にする。 以上の結果から,各環境における目標の難易度とともに環境難易度を共進化させるカリキュラムが,目標指向課題の実用的効果をもたらすことが示唆された。

Goal-directed Reinforcement Learning (RL) traditionally considers an agent interacting with an environment, prescribing a real-valued reward to an agent proportional to the completion of some goal. Goal-directed RL has seen large gains in sample efficiency, due to the ease of reusing or generating new experience by proposing goals. One approach,self-play, allows an agent to "play" against itself by alternatively setting and accomplishing goals, creating a learned curriculum through which an agent can learn to accomplish progressively more difficult goals. However, self-play has been limited to goal curriculum learning or learning progressively harder goals within a single environment. Recent work on robotic agents has shown that varying the environment during training, for example with domain randomization, leads to more robust transfer. As a result, we extend the self-play framework to jointly learn a goal and environment curriculum, leading to an approach that learns the most fruitful domain randomization strategy with self-play. Our method, Self-Supervised Active Domain Randomization(SS-ADR), generates a coupled goal-task curriculum, where agents learn through progressively more difficult tasks and environment variations. By encouraging the agent to try tasks that are just outside of its current capabilities, SS-ADR builds a domain randomization curriculum that enables state-of-the-art results on varioussim2real transfer tasks. Our results show that a curriculum of co-evolving the environment difficulty together with the difficulty of goals set in each environment provides practical benefits in the goal-directed tasks tested.
翻訳日:2022-12-30 18:57:19 公開日:2020-10-26
# 焦点損失を用いたディープニューラルネットワークの校正

Calibrating Deep Neural Networks using Focal Loss ( http://arxiv.org/abs/2002.09437v2 )

ライセンス: Link先を確認
Jishnu Mukhoti, Viveka Kulharia, Amartya Sanyal, Stuart Golodetz, Philip H.S. Torr, Puneet K. Dokania(参考訳) 深層ニューラルネットワーク(DNN)のモデルの信頼性と正しさのミスマッチであるミススキャリブレーション(Miscalibration)は、予測を頼りにすることを難しくする。 理想的には、ネットワークが正確で、校正され、自信を持っていてほしい。 標準的なクロスエントロピー損失とは対照的に、焦点損失(Lin, al., 2017)により、既に非常によく校正されたモデルを学ぶことができる。 温度スケーリングと組み合わせると、精度を保ちながら、最先端の校正モデルが得られる。 我々は,誤校正の原因を徹底的に分析し,そこから得られた知見を用いて,焦点損失の実験的に優れた性能を正当化する。 実際、焦点損失の使用を容易にするために、損失関数にかかわるハイパーパラメータを自動的に選択する原則的なアプローチも提供します。 我々は様々なコンピュータビジョンとNLPデータセット、および様々なネットワークアーキテクチャに関する広範な実験を行い、ほぼ全てのケースにおいて精度を損なうことなく最先端のキャリブレーションを実現することを示す。 コードはhttps://github.com/torvision/focal_calibrationで入手できる。

Miscalibration - a mismatch between a model's confidence and its correctness - of Deep Neural Networks (DNNs) makes their predictions hard to rely on. Ideally, we want networks to be accurate, calibrated and confident. We show that, as opposed to the standard cross-entropy loss, focal loss [Lin et. al., 2017] allows us to learn models that are already very well calibrated. When combined with temperature scaling, whilst preserving accuracy, it yields state-of-the-art calibrated models. We provide a thorough analysis of the factors causing miscalibration, and use the insights we glean from this to justify the empirically excellent performance of focal loss. To facilitate the use of focal loss in practice, we also provide a principled approach to automatically select the hyperparameter involved in the loss function. We perform extensive experiments on a variety of computer vision and NLP datasets, and with a wide variety of network architectures, and show that our approach achieves state-of-the-art calibration without compromising on accuracy in almost all cases. Code is available at https://github.com/torrvision/focal_calibration.
翻訳日:2022-12-30 00:26:32 公開日:2020-10-26
# ICE-BeeM:非線形ICAに基づく条件付きエネルギーベースディープモデル

ICE-BeeM: Identifiable Conditional Energy-Based Deep Models Based on Nonlinear ICA ( http://arxiv.org/abs/2002.11537v4 )

ライセンス: Link先を確認
Ilyes Khemakhem, Ricardo Pio Monti, Diederik P. Kingma, Aapo Hyv\"arinen(参考訳) 確率モデルの識別可能性理論を考察し、非常に広い条件付きエネルギーベースモデル族によって学習される表現が関数空間において一意であるような十分条件を、単純変換まで確立する。 私たちのモデルファミリでは、エネルギー関数は2つの特徴抽出器、一つは依存変数、もう一つは条件変数の間のドット積である。 穏やかな条件下では、これらの機能はスケーリングと置換に一意である。 我々の結果は最近の非線形ICAの発展を延長し、実際、ICAモデルの重要な一般化につながっている。 特に,我々のモデルは,独立性仮定を緩和する非線形ICAの新しい一般化である独立性変調成分分析(IMCA)の枠組みにおける成分推定に利用できることを示す。 実世界の画像データセットからモデルで学習した表現が識別可能であり,伝達学習や半教師付き学習タスクのパフォーマンスが向上していることを示す。

We consider the identifiability theory of probabilistic models and establish sufficient conditions under which the representations learned by a very broad family of conditional energy-based models are unique in function space, up to a simple transformation. In our model family, the energy function is the dot-product between two feature extractors, one for the dependent variable, and one for the conditioning variable. We show that under mild conditions, the features are unique up to scaling and permutation. Our results extend recent developments in nonlinear ICA, and in fact, they lead to an important generalization of ICA models. In particular, we show that our model can be used for the estimation of the components in the framework of Independently Modulated Component Analysis (IMCA), a new generalization of nonlinear ICA that relaxes the independence assumption. A thorough empirical study shows that representations learned by our model from real-world image datasets are identifiable, and improve performance in transfer learning and semi-supervised learning tasks.
翻訳日:2022-12-28 14:15:08 公開日:2020-10-26
# スケーラブルなロバスト性証明のための自動摂動解析

Automatic Perturbation Analysis for Scalable Certified Robustness and Beyond ( http://arxiv.org/abs/2002.12920v3 )

ライセンス: Link先を確認
Kaidi Xu, Zhouxing Shi, Huan Zhang, Yihan Wang, Kai-Wei Chang, Minlie Huang, Bhavya Kailkhura, Xue Lin, Cho-Jui Hsieh(参考訳) リニア緩和に基づくニューラルネットワークの摂動解析(LiRPA)は、一定の入力摂動量を得た出力ニューロンの証明可能な線形境界を計算し、ロバスト性検証と認証防御のコアコンポーネントとなっている。 lirpaベースの手法の大部分は単純なフィードフォワードネットワークにフォーカスしており、他のアーキテクチャに拡張する場合、特定の手動導出と実装が必要である。 本稿では、CROWNなどの既存のLiRPAアルゴリズムを一般化し、任意のニューラルネットワーク構造上で摂動解析を可能にする自動フレームワークを開発する。 フレームワークの柔軟性、差別化性、使いやすさにより、以前の作業ではサポートされていないDenseNet、ResNeXt、Transformerのようなかなり複雑なネットワーク上で、LiRPAベースの認証された防御で最先端の結果を得ることができる。 我々のフレームワークは、認証された防御のためのLiRPAの計算複雑性を著しく低減する損失融合を可能にする。 今回,lirpaを基盤とした小規模イメージネットとダウンスケールイメージネットの認証防御を初めて実証し,それ以前のアプローチでは,クラス数が比較的多いためスケールできないことを示した。 例えば、ネットワークパラメータにLiRPAを適用することで、おそらくフラットな最適化環境を備えたニューラルネットワークを作成します。 オープンソースライブラリはhttps://github.com/KaidiXu/auto_LiRPAで公開しています。

Linear relaxation based perturbation analysis (LiRPA) for neural networks, which computes provable linear bounds of output neurons given a certain amount of input perturbation, has become a core component in robustness verification and certified defense. The majority of LiRPA-based methods focus on simple feed-forward networks and need particular manual derivations and implementations when extended to other architectures. In this paper, we develop an automatic framework to enable perturbation analysis on any neural network structures, by generalizing existing LiRPA algorithms such as CROWN to operate on general computational graphs. The flexibility, differentiability and ease of use of our framework allow us to obtain state-of-the-art results on LiRPA based certified defense on fairly complicated networks like DenseNet, ResNeXt and Transformer that are not supported by prior works. Our framework also enables loss fusion, a technique that significantly reduces the computational complexity of LiRPA for certified defense. For the first time, we demonstrate LiRPA based certified defense on Tiny ImageNet and Downscaled ImageNet where previous approaches cannot scale to due to the relatively large number of classes. Our work also yields an open-source library for the community to apply LiRPA to areas beyond certified defense without much LiRPA expertise, e.g., we create a neural network with a probably flat optimization landscape by applying LiRPA to network parameters. Our opensource library is available at https://github.com/KaidiXu/auto_LiRPA.
翻訳日:2022-12-28 01:37:15 公開日:2020-10-26
# 初歩的政策最適化による効率的な安全探索

Provably Efficient Safe Exploration via Primal-Dual Policy Optimization ( http://arxiv.org/abs/2003.00534v2 )

ライセンス: Link先を確認
Dongsheng Ding, Xiaohan Wei, Zhuoran Yang, Zhaoran Wang, Mihailo R. Jovanovi\'c(参考訳) 提案手法は,有効関数の総値に対する安全性制約の対象となる全報酬を最大化することを目的とした,制約付きマルコフ決定プロセス(CMDP)の定式化を用いて,安全強化学習(SRL)問題を考察する。 我々はマルコフ遷移核が線形構造を持つが、サンプリングモデルに追加の仮定を課さない関数近似によるエピソディック設定に焦点を当てる。 保証可能な計算効率と統計的効率でSRLアルゴリズムを設計することは、安全制約と関数近似の両方を基本的なエクスプロレーション/探索トレードオフに組み込む必要があるため、この設定では特に困難である。 この目的のために、最小二乗ポリシー評価と安全な探索のための追加のボーナス項を組み合わせることで、値関数を推定する、 \underline{O}ptimistic \underline{P}rimal-\underline{D}ual Proximal Policy \underline{OP}timization (OPDOP)アルゴリズムを提案する。 提案アルゴリズムは, 特徴写像の次元が$d$, エピソード毎の地平線が$H$, ステップ毎の$T$が$\tilde{O}(d H^{2.5}\sqrt{T})$後悔と$\tilde{O}(d H^{2.5}\sqrt{T})$制約違反を実現する。 これらの境界は、報酬/効用機能が固定された時に保持されるが、各エピソードの後のフィードバックはバンディットである。 我々の境界は、特徴写像の次元を通してのみ状態-作用空間の容量に依存するため、状態の数が無限になるときでさえ結果が保たれる。 最善の知識を得るために,我々は,関数近似設定において安全な探索を行うことで,cmdpのオンラインポリシー最適化アルゴリズムを初めて実現可能なものにする。

We study the Safe Reinforcement Learning (SRL) problem using the Constrained Markov Decision Process (CMDP) formulation in which an agent aims to maximize the expected total reward subject to a safety constraint on the expected total value of a utility function. We focus on an episodic setting with the function approximation where the Markov transition kernels have a linear structure but do not impose any additional assumptions on the sampling model. Designing SRL algorithms with provable computational and statistical efficiency is particularly challenging under this setting because of the need to incorporate both the safety constraint and the function approximation into the fundamental exploitation/exploration tradeoff. To this end, we present an \underline{O}ptimistic \underline{P}rimal-\underline{D}ual Proximal Policy \underline{OP}timization (OPDOP) algorithm where the value function is estimated by combining the least-squares policy evaluation and an additional bonus term for safe exploration. We prove that the proposed algorithm achieves an $\tilde{O}(d H^{2.5}\sqrt{T})$ regret and an $\tilde{O}(d H^{2.5}\sqrt{T})$ constraint violation, where $d$ is the dimension of the feature mapping, $H$ is the horizon of each episode, and $T$ is the total number of steps. These bounds hold when the reward/utility functions are fixed but the feedback after each episode is bandit. Our bounds depend on the capacity of the state-action space only through the dimension of the feature mapping and thus our results hold even when the number of states goes to infinity. To the best of our knowledge, we provide the first provably efficient online policy optimization algorithm for CMDP with safe exploration in the function approximation setting.
翻訳日:2022-12-27 12:55:46 公開日:2020-10-26
# グラフ上の普遍関数近似

Universal Function Approximation on Graphs ( http://arxiv.org/abs/2003.06706v3 )

ライセンス: Link先を確認
Rickard Br\"uel-Gabrielsson(参考訳) 本研究では、グラフ同型クラス上の普遍関数近似器を構築するためのフレームワークを作成する。 このフレームワークが理論的に望ましい性質の集合を持ち、新しい分析を可能にすることを実証する。 グラフ分類における4つのよく知られたデータセットと,他のグラフ学習手法では不可能なグラフのクラスを分離することで,最先端のパフォーマンスを実現する方法を示す。 我々のアプローチは、永続的ホモロジー、NLPの依存性解析、および多値関数にインスパイアされている。 アルゴリズムの複雑さはO(#edges x #nodes)であり、コードは公開されている(https://github.com/bruel-gabrielsson/universal-function-approximation-on-graphs)。

In this work we produce a framework for constructing universal function approximators on graph isomorphism classes. We prove how this framework comes with a collection of theoretically desirable properties and enables novel analysis. We show how this allows us to achieve state-of-the-art performance on four different well-known datasets in graph classification and separate classes of graphs that other graph-learning methods cannot. Our approach is inspired by persistent homology, dependency parsing for NLP, and multivalued functions. The complexity of the underlying algorithm is O(#edges x #nodes) and code is publicly available (https://github.com/bruel-gabrielsson/universal-function-approximation-on-graphs).
翻訳日:2022-12-23 20:12:58 公開日:2020-10-26
# log-likelihood ratio フロー最小化:ロバストで定量化可能なニューラルネットワークアライメントに向けて

Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable Neural Distribution Alignment ( http://arxiv.org/abs/2003.12170v2 )

ライセンス: Link先を確認
Ben Usman, Avneesh Sud, Nick Dufour, Kate Saenko(参考訳) 分布アライメントは、ドメイン適応や教師なし画像-画像変換など、ディープラーニングに多くの応用がある。 教師なし分布アライメントに関するほとんどの先行研究は、最大平均偏差のような単純な非パラメトリック統計距離を最小化するか、逆アライメントに依存する。 しかし、前者は複雑な実世界の分布の構造を捉えることができず、後者は訓練が難しく、普遍的な収束保証や自動的定量化手順を提供しない。 本稿では,対数様比統計量と正規化フローに基づく分布アライメント手法を提案する。 特定の仮定の下では、この組み合わせは、収束時に既知の下限に達する深いニューラルフレーバーに基づく最小化目標をもたらす。 入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。

Distribution alignment has many applications in deep learning, including domain adaptation and unsupervised image-to-image translation. Most prior work on unsupervised distribution alignment relies either on minimizing simple non-parametric statistical distances such as maximum mean discrepancy or on adversarial alignment. However, the former fails to capture the structure of complex real-world distributions, while the latter is difficult to train and does not provide any universal convergence guarantees or automatic quantitative validation procedures. In this paper, we propose a new distribution alignment method based on a log-likelihood ratio statistic and normalizing flows. We show that, under certain assumptions, this combination yields a deep neural likelihood-based minimization objective that attains a known lower bound upon convergence. We experimentally verify that minimizing the resulting objective results in domain alignment that preserves the local structure of input domains.
翻訳日:2022-12-19 21:14:25 公開日:2020-10-26
# ニューロモルフィックハードウェアにおけるディープスパイクニューラルネットワークのベンチマーク

Benchmarking Deep Spiking Neural Networks on Neuromorphic Hardware ( http://arxiv.org/abs/2004.01656v3 )

ライセンス: Link先を確認
Christoph Ostrau, Jonas Homburg, Christian Klarhorst, Michael Thies, Ulrich R\"uckert(参考訳) ますます多くのイベントベースのニューロモルフィックハードウェアシステムが大学や業界で開発されてきているため、そのパフォーマンスをドメイン固有の指標で評価する必要性が高まっている。 本研究では,3つのニューロモルフィックハードウェアシステム(BrainScaleS, Spikey, SpiNNaker)と,CPU(NEST)とCPU/GPU(GeNN)の一般的なシミュレーションフレームワークにおいて,トレーニング済みの非スパイクをスパイクニューラルネットワークに変換する手法を用いて,性能損失を評価した。 アナログハードウェアに関しては、デバイスミスマッチに対処するために、hardware-in-the-loop trainingと呼ばれる再トレーニング技術も適用します。 この分析は、ニューラルネットワーク検索フレームワークによる自動最適化によって発見された3つのネットワークを含む、5つの異なるネットワークで実行される。 変換損失は、通常、デジタル実装では1%以下であり、アナログシステムでは、より少ないエネルギー/推論コストの利点により、適度に高いことが示される。

With more and more event-based neuromorphic hardware systems being developed at universities and in industry, there is a growing need for assessing their performance with domain specific measures. In this work, we use the methodology of converting pre-trained non-spiking to spiking neural networks to evaluate the performance loss and measure the energy-per-inference for three neuromorphic hardware systems (BrainScaleS, Spikey, SpiNNaker) and common simulation frameworks for CPU (NEST) and CPU/GPU (GeNN). For analog hardware we further apply a re-training technique known as hardware-in-the-loop training to cope with device mismatch. This analysis is performed for five different networks, including three networks that have been found by an automated optimization with a neural architecture search framework. We demonstrate that the conversion loss is usually below one percent for digital implementations, and moderately higher for analog systems with the benefit of much lower energy-per-inference costs.
翻訳日:2022-12-17 04:12:04 公開日:2020-10-26
# どのレベルから取り出すべきか? 抽出文書要約に関する経験的分析

At Which Level Should We Extract? An Empirical Analysis on Extractive Document Summarization ( http://arxiv.org/abs/2004.02664v2 )

ライセンス: Link先を確認
Qingyu Zhou, Furu Wei, Ming Zhou(参考訳) 抽出法は自動文書要約に有効であることが証明されている。 従来の作業は、文章レベルで情報内容を特定することによって、このタスクを実行する。 しかし, 文レベルでの抽出が最適解であるかどうかは不明である。 本研究は,全文抽出時に不必要・冗長性の問題が存在し,従属単位の抽出が有望な代替手段であることを示す。 具体的には,選挙区解析木に基づくサブセグメント単位の抽出を提案する。 サブセンテンシャル情報を利用してそれらを抽出する神経抽出モデルを提案する。 広範にわたる実験と分析により,自動評価と人間評価の両方の評価の下で,全文抽出と競争的に比較できることがわかった。 今後,本研究は,抽出要約における基本抽出単位に何らかのインスピレーションを与えることを期待している。

Extractive methods have been proven effective in automatic document summarization. Previous works perform this task by identifying informative contents at sentence level. However, it is unclear whether performing extraction at sentence level is the best solution. In this work, we show that unnecessity and redundancy issues exist when extracting full sentences, and extracting sub-sentential units is a promising alternative. Specifically, we propose extracting sub-sentential units based on the constituency parsing tree. A neural extractive model which leverages the sub-sentential information and extracts them is presented. Extensive experiments and analyses show that extracting sub-sentential units performs competitively comparing to full sentence extraction under the evaluation of both automatic and human evaluations. Hopefully, our work could provide some inspiration of the basic extraction units in extractive summarization for future research.
翻訳日:2022-12-16 06:35:44 公開日:2020-10-26
# メタラーニングの総括と最近の進歩

A Comprehensive Overview and Survey of Recent Advances in Meta-Learning ( http://arxiv.org/abs/2004.11149v7 )

ライセンス: Link先を確認
Huimin Peng(参考訳) この記事では、高度自動化されたAI、少数ショット学習、自然言語処理、ロボット工学の応用で、目に見えないタスクへの迅速かつ正確なモデル適応を求めるメタラーニングをレビューする。 ディープラーニングとは異なり、メタラーニングは数ショットの高次元データセットに適用でき、未知のタスクへのモデル一般化をさらに改善することを検討する。 ディープラーニングは、サンプル内予測とメタ学習に関するモデル適応に焦点を当てている。 メタ学習は、高度に自律的なAIを達成するために継続的に自己改善を行うことができる。 メタラーニングは、オリジナルのディープラーニングモデルに補完する追加の一般化ブロックとして機能する。 メタラーニングは、トレーニングされたタスクと大きく異なる未確認タスクへの機械学習モデルの適応を目指している。 エージェントと環境の共進化によるメタラーニングは、スクラッチからトレーニングすることで解決できない複雑なタスクのソリューションを提供する。 メタラーニングの方法論は、幅広い優れた心と考えをカバーします。 メタラーニング手法は,ブラックボックスメタラーニング,メトリックベースメタラーニング,階層型メタラーニング,ベイズ的メタラーニングフレームワークである。 近年のアプリケーションは、メタラーニングと他の機械学習フレームワークの統合に集中し、実現可能な統合問題ソリューションを提供する。 近年のメタラーニングの進歩を概説し,今後の研究の方向性について論じる。

This article reviews meta-learning also known as learning-to-learn which seeks rapid and accurate model adaptation to unseen tasks with applications in highly automated AI, few-shot learning, natural language processing and robotics. Unlike deep learning, meta-learning can be applied to few-shot high-dimensional datasets and considers further improving model generalization to unseen tasks. Deep learning is focused upon in-sample prediction and meta-learning concerns model adaptation for out-of-sample prediction. Meta-learning can continually perform self-improvement to achieve highly autonomous AI. Meta-learning may serve as an additional generalization block complementary for original deep learning model. Meta-learning seeks adaptation of machine learning models to unseen tasks which are vastly different from trained tasks. Meta-learning with coevolution between agent and environment provides solutions for complex tasks unsolvable by training from scratch. Meta-learning methodology covers a wide range of great minds and thoughts. We briefly introduce meta-learning methodologies in the following categories: black-box meta-learning, metric-based meta-learning, layered meta-learning and Bayesian meta-learning framework. Recent applications concentrate upon the integration of meta-learning with other machine learning framework to provide feasible integrated problem solutions. We briefly present recent meta-learning advances and discuss potential future research directions.
翻訳日:2022-12-12 12:50:48 公開日:2020-10-26
# deepsdfの拡張による3次元形状の自動検索と類似度変換推定

Extending DeepSDF for automatic 3D shape retrieval and similarity transform estimation ( http://arxiv.org/abs/2004.09048v3 )

ライセンス: Link先を確認
Oladapo Afolabi, Allen Y. Yang, S. Shankar Sastry(参考訳) 近年のコンピュータグラフィックスとコンピュータビジョンの進歩により、形状表現、検索、補完に有用な符号付き距離関数(sdfs)に基づく3次元形状へのディープニューラルネットワークモデルの応用が成功している。 しかしながら、このアプローチは、トレーニング中に観察されたものと同じ正準スケールのクエリ形状とポーズを持つ必要があり、現実世界のシーンでの有効性が制限されているため、制限されている。 形状および類似度変換パラメータを共同で推定することにより,この問題を克服するための定式化を提案する。 本研究では, この定式化の有効性を, 合成および実データに示す実験を行い, 現状との比較を報告する。 最後に,3次元モデル圧縮の形式として,このアプローチの実用性を強調した。

Recent advances in computer graphics and computer vision have found successful application of deep neural network models for 3D shapes based on signed distance functions (SDFs) that are useful for shape representation, retrieval, and completion. However, this approach has been limited by the need to have query shapes in the same canonical scale and pose as those observed during training, restricting its effectiveness on real world scenes. We present a formulation to overcome this issue by jointly estimating shape and similarity transform parameters. We conduct experiments to demonstrate the effectiveness of this formulation on synthetic and real datasets and report favorable comparisons to the state of the art. Finally, we also emphasize the viability of this approach as a form of 3D model compression.
翻訳日:2022-12-11 18:36:38 公開日:2020-10-26
# GIMP-ML: GIMPでコンピュータビジョンモデルを使用するPythonプラグイン

GIMP-ML: Python Plugins for using Computer Vision Models in GIMP ( http://arxiv.org/abs/2004.13060v3 )

ライセンス: Link先を確認
Kritik Soman(参考訳) 本稿では,GIMP(GNU Image Manipulation Program)用のPythonプラグイン群であるGIMP-ML v1.1を紹介する。 これにより、従来の画像編集パイプラインへのコンピュータビジョンの最近の進歩を利用することができる。 単眼深度推定、セマンティックセグメンテーション、マスク生成敵ネットワーク、画像超解像、ノイズ除去、脱ハージング、マットティング、照明、着色といったディープラーニングの応用が、Pythonベースのプラグインを通じてGIMPに組み込まれている。 さらに、k-meansベースのカラークラスタリングなどの画像の操作も追加されている。 GIMP-MLはnumpy、pytorch、open-cv、scipyなどの標準Pythonパッケージに依存している。 これとは別に、これらのプラグインを使ったいくつかの画像操作技術がyoutubeチャンネル(https://youtube.com/user/kritiksoman)でコンパイルされ、デモされている。 さらに、GIMP-MLは、コンピュータビジョンタスクに使用されるディープラーニングネットワークを、画像処理ワークフローのルーチンに活用することも目標としている。 これらのプラグインを構成するためのコードとインストール手順はhttps://github.com/kritiksoman/GIMP-ML.comで公開されている。

This paper introduces GIMP-ML v1.1, a set of Python plugins for the widely popular GNU Image Manipulation Program (GIMP). It enables the use of recent advances in computer vision to the conventional image editing pipeline. Applications from deep learning such as monocular depth estimation, semantic segmentation, mask generative adversarial networks, image super-resolution, de-noising, de-hazing, matting, enlightening and coloring have been incorporated with GIMP through Python-based plugins. Additionally, operations on images such as k-means based color clustering have also been added. GIMP-ML relies on standard Python packages such as numpy, pytorch, open-cv, scipy. Apart from these, several image manipulation techniques using these plugins have been compiled and demonstrated in the YouTube channel (https://youtube.com/user/kritiksoman) with the objective of demonstrating the use-cases for machine learning based image modification. In addition, GIMP-ML also aims to bring the benefits of using deep learning networks used for computer vision tasks to routine image processing workflows. The code and installation procedure for configuring these plugins is available at https://github.com/kritiksoman/GIMP-ML.
翻訳日:2022-12-09 05:39:24 公開日:2020-10-26
# 低リソースニューラルマシン翻訳に先立つ言語モデル

Language Model Prior for Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2004.14928v3 )

ライセンス: Link先を確認
Christos Baziotis, Barry Haddow, Alexandra Birch(参考訳) 大規模並列コーパスの不足は、神経機械翻訳の重要な障害である。 共通の解決策は、豊富なモノリンガルデータに基づいて訓練された言語モデル(LM)の知識を活用することである。 本研究では,ニューラル翻訳モデル(TM)において,LMを事前に組み込む新しい手法を提案する。 具体的には,TM の出力分布を LM で事前に予測可能とする正規化項を追加し,TM が LM と「一致しない」場合の誤予測を回避する。 この目的は知識蒸留に関連しており、LMは対象言語についてTMを教えることができる。 lmは、推論中にそれを必要とする以前の作業とは異なり、トレーニング時にのみ使用されるため、提案されたアプローチはデコード速度を損なうことはない。 本稿では,tmの分布に異なる方法が与える影響の解析を行う。 2つの低リソース機械翻訳データセットの結果は、限定的な単言語データでも明らかに改善されている。

The scarcity of large parallel corpora is an important obstacle for neural machine translation. A common solution is to exploit the knowledge of language models (LM) trained on abundant monolingual data. In this work, we propose a novel approach to incorporate a LM as prior in a neural translation model (TM). Specifically, we add a regularization term, which pushes the output distributions of the TM to be probable under the LM prior, while avoiding wrong predictions when the TM "disagrees" with the LM. This objective relates to knowledge distillation, where the LM can be viewed as teaching the TM about the target language. The proposed approach does not compromise decoding speed, because the LM is used only at training time, unlike previous work that requires it during inference. We present an analysis of the effects that different methods have on the distributions of the TM. Results on two low-resource machine translation datasets show clear improvements even with limited monolingual data.
翻訳日:2022-12-08 04:33:25 公開日:2020-10-26
# ENT-DESC:知識グラフの探索によるエンティティ記述生成

ENT-DESC: Entity Description Generation by Exploring Knowledge Graph ( http://arxiv.org/abs/2004.14813v2 )

ライセンス: Link先を確認
Liying Cheng, Dekun Wu, Lidong Bing, Yan Zhang, Zhanming Jie, Wei Lu, Luo Si(参考訳) 知識とテキストの生成に関するこれまでの研究は、いくつかのRDFトリプルまたはキーと値のペアを入力として、いくつかのエンティティの知識を伝達して自然言語記述を生成する。 WIKIBIO、WebNLG、E2Eといった既存のデータセットは、入力三重対集合と出力テキストとの整合性が良好である。 しかし実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。 本稿では,このような実用的なシナリオの学習を容易にするために,大規模かつ難解なデータセットを提案する。 我々のデータセットは、大知識グラフ(kg)から多種多様なエンティティの豊富な知識を検索することで、現在のグラフ列モデルが、記述を生成する際に情報損失やパラメータ爆発の問題に苦しむことになる。 これらの課題に対して,元のグラフ情報をより包括的に表現可能なマルチグラフ構造を提案する。 さらに,リッチグラフ情報抽出を学習する集約手法も取り入れた。 大規模な実験は、我々のモデルアーキテクチャの有効性を実証する。

Previous works on knowledge-to-text generation take as input a few RDF triples or key-value pairs conveying the knowledge of some entities to generate a natural language description. Existing datasets, such as WIKIBIO, WebNLG, and E2E, basically have a good alignment between an input triple/pair set and its output text. However, in practice, the input knowledge could be more than enough, since the output description may only cover the most significant knowledge. In this paper, we introduce a large-scale and challenging dataset to facilitate the study of such a practical scenario in KG-to-text. Our dataset involves retrieving abundant knowledge of various types of main entities from a large knowledge graph (KG), which makes the current graph-to-sequence models severely suffer from the problems of information loss and parameter explosion while generating the descriptions. We address these challenges by proposing a multi-graph structure that is able to represent the original graph information more comprehensively. Furthermore, we also incorporate aggregation methods that learn to extract the rich graph information. Extensive experiments demonstrate the effectiveness of our model architecture.
翻訳日:2022-12-08 04:24:42 公開日:2020-10-26
# XCOPA: 因果コモンセンス推論のための多言語データセット

XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning ( http://arxiv.org/abs/2005.00333v2 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Goran Glava\v{s}, Olga Majewska, Qianchu Liu, Ivan Vuli\'c and Anna Korhonen(参考訳) 人間の言語能力をシミュレートするためには、自然言語処理システムは、その原因や影響を含む日常的な状況のダイナミクスを推論できなければならない。 さらに、獲得した世界の知識を新しい言語、モジュロ文化の違いに一般化することができるべきである。 機械推論と言語間移動の進歩は、挑戦的な評価ベンチマークの可用性に依存する。 両要求の両面から,East Apur\'imac Quechua や Haitian Creole などのリソース不足言語を含む11言語における因果コモンセンス推論のための多言語多言語データセットである,可塑性代替詞のクロス言語選択(XCOPA)を紹介した。 本研究は,多言語事前学習とゼロショットファインチューニングに基づく現行手法の性能が,翻訳ベース転送と比較して低下していることを明らかにする。 最後に,小さなコーパスやバイリンガル辞書しか利用できない,サンプル外リソースリーン言語への多言語モデルの適用戦略を提案し,乱数ベースラインに対する大幅な改善を報告する。 XCOPAデータセットはgithub.com/cambridgeltl/xcopaで無料で利用できる。

In order to simulate human language capacity, natural language processing systems must be able to reason about the dynamics of everyday situations, including their possible causes and effects. Moreover, they should be able to generalise the acquired world knowledge to new languages, modulo cultural differences. Advances in machine reasoning and cross-lingual transfer depend on the availability of challenging evaluation benchmarks. Motivated by both demands, we introduce Cross-lingual Choice of Plausible Alternatives (XCOPA), a typologically diverse multilingual dataset for causal commonsense reasoning in 11 languages, which includes resource-poor languages like Eastern Apur\'imac Quechua and Haitian Creole. We evaluate a range of state-of-the-art models on this novel dataset, revealing that the performance of current methods based on multilingual pretraining and zero-shot fine-tuning falls short compared to translation-based transfer. Finally, we propose strategies to adapt multilingual models to out-of-sample resource-lean languages where only a small corpus or a bilingual dictionary is available, and report substantial improvements over the random baseline. The XCOPA dataset is freely available at github.com/cambridgeltl/xcopa.
翻訳日:2022-12-07 23:46:25 公開日:2020-10-26
# 干渉シミュレーションのためのデータ拡張の選択

Selecting Data Augmentation for Simulating Interventions ( http://arxiv.org/abs/2005.01856v4 )

ライセンス: Link先を確認
Maximilian Ilse, Jakub M. Tomczak, Patrick Forr\'e(参考訳) 純粋に観測データで訓練された機械学習モデルと経験的リスク最小化の原理は、目に見えない領域に一般化できない。 本稿では,観測された領域と実際のタスクラベルとの疎結合によって問題が発生する場合に焦点を当てる。 多くのドメイン一般化法は、このスプリアス相関を明示的に考慮していない。 代わりに、特に医療画像やロボティクスのようなよりアプリケーション指向の研究領域では、ヒューリスティックスに基づくデータ拡張技術がドメイン不変機能を学ぶために使用される。 理論と実践のギャップを埋めるため,ドメインの一般化問題に対する因果的視点を構築した。 因果概念は、観測されたドメインとタスクラベルの間のスパーラスな相関を弱める方法を説明することによって、データ拡張の成功を説明するのに使うことができる。 介入データのシミュレーションツールとして,データ拡張が有効であることを示す。 これらの理論的な洞察を用いて、より優れた領域の一般化につながるデータ拡張手法を選択できる単純なアルゴリズムを導出する。

Machine learning models trained with purely observational data and the principle of empirical risk minimization \citep{vapnik_principles_1992} can fail to generalize to unseen domains. In this paper, we focus on the case where the problem arises through spurious correlation between the observed domains and the actual task labels. We find that many domain generalization methods do not explicitly take this spurious correlation into account. Instead, especially in more application-oriented research areas like medical imaging or robotics, data augmentation techniques that are based on heuristics are used to learn domain invariant features. To bridge the gap between theory and practice, we develop a causal perspective on the problem of domain generalization. We argue that causal concepts can be used to explain the success of data augmentation by describing how they can weaken the spurious correlation between the observed domains and the task labels. We demonstrate that data augmentation can serve as a tool for simulating interventional data. We use these theoretical insights to derive a simple algorithm that is able to select data augmentation techniques that will lead to better domain generalization.
翻訳日:2022-12-07 00:04:28 公開日:2020-10-26
# 水中光学・ソナー画像分類のためのFew-Shot学習法の比較

A Comparison of Few-Shot Learning Methods for Underwater Optical and Sonar Image Classification ( http://arxiv.org/abs/2005.04621v2 )

ライセンス: Link先を確認
Mateusz Ochal, Jose Vazquez, Yvan Petillot, Sen Wang(参考訳) 深い畳み込みニューラルネットワークは一般に、光学画像とソナー画像の両方の水中物体認識タスクでうまく機能する。 このような手法の多くは、目に見えない例にうまく一般化するために、クラスごとに数百、数千の画像を必要とする。 しかし、大量のデータの取得とラベリングは、特にレアオブジェクトの観測やリアルタイム操作を行う場合には、比較的費用がかかり、時間がかかる。 FSL(Few-Shot Learning)の取り組みは、データ可用性を低くする多くの有望な方法を生み出している。 しかし、水中領域では、画像のスタイルがオブジェクト認識アルゴリズムに新たな課題をもたらすような、ほとんど注目されていない。 本論文は,水中の光学および横スキャンソナー画像を用いた教師付きおよび半教師付きマイズショット学習(fsl)法を評価・比較した最初の論文である。 この結果から,FSL法は,事前学習したモデルを微調整する従来の移動学習法よりも有意な優位性を示した。 FSLを自律型水中システムに適用し、学習能力を拡大したいと思っています。

Deep convolutional neural networks generally perform well in underwater object recognition tasks on both optical and sonar images. Many such methods require hundreds, if not thousands, of images per class to generalize well to unseen examples. However, obtaining and labeling sufficiently large volumes of data can be relatively costly and time-consuming, especially when observing rare objects or performing real-time operations. Few-Shot Learning (FSL) efforts have produced many promising methods to deal with low data availability. However, little attention has been given in the underwater domain, where the style of images poses additional challenges for object recognition algorithms. To the best of our knowledge, this is the first paper to evaluate and compare several supervised and semi-supervised Few-Shot Learning (FSL) methods using underwater optical and side-scan sonar imagery. Our results show that FSL methods offer a significant advantage over the traditional transfer learning methods that fine-tune pre-trained models. We hope that our work will help apply FSL to autonomous underwater systems and expand their learning capabilities.
翻訳日:2022-12-05 01:56:04 公開日:2020-10-26
# 関係駆動型株式移動予測のためのマルチグラフ畳み込みネットワーク

Multi-Graph Convolutional Network for Relationship-Driven Stock Movement Prediction ( http://arxiv.org/abs/2005.04955v3 )

ライセンス: Link先を確認
Jiexia Ye and Juanjuan Zhao and Kejiang Ye and Chengzhong Xu(参考訳) 株価変動予測は、金融市場の不安定な性質から、非常に困難な課題として一般に受け入れられている。 従来は、主に自社情報に基づいて株価を予測し、関連株間の相互効果を無視していた。 しかし、個々の株価が複雑な方法で他の株式の価格と相関していることはよく知られている。 グラフ畳み込みネットワーク(GCN)とゲートリカレントユニット(GRU)から構成され,ストック運動を予測する深層学習フレームワークであるMulti-GCGRUを提案する。 具体的には、まず、金融分野の知識に基づいて、株間の複数の関係をグラフにエンコードし、GCNを用いて、事前に定義されたグラフに基づいて相互効果を抽出する。 先行知識を更に排除するために,データから学習した適応関係を探索する。 GCNが生み出す相互相関の特徴は歴史的記録と結合し、株価の時間的依存をモデル化するためにGRUに供給される。 中国市場における2つの株価指数の実験は、我々のモデルが他のベースラインを上回っていることを示している。 我々のモデルは、専門家の知識を含むより効果的なストック関係を組み込むことができ、データ駆動関係を学ぶことができる。

Stock price movement prediction is commonly accepted as a very challenging task due to the volatile nature of financial markets. Previous works typically predict the stock price mainly based on its own information, neglecting the cross effect among involved stocks. However, it is well known that an individual stock price is correlated with prices of other stocks in complex ways. To take the cross effect into consideration, we propose a deep learning framework, called Multi-GCGRU, which comprises graph convolutional network (GCN) and gated recurrent unit (GRU) to predict stock movement. Specifically, we first encode multiple relationships among stocks into graphs based on financial domain knowledge and utilize GCN to extract the cross effect based on these pre-defined graphs. To further get rid of prior knowledge, we explore an adaptive relationship learned by data automatically. The cross-correlation features produced by GCN are concatenated with historical records and then fed into GRU to model the temporal dependency of stock prices. Experiments on two stock indexes in China market show that our model outperforms other baselines. Note that our model is rather feasible to incorporate more effective stock relationships containing expert knowledge, as well as learn data-driven relationship.
翻訳日:2022-12-04 20:58:37 公開日:2020-10-26
# 畳み込み指数的および一般化されたシルベスター流れ

The Convolution Exponential and Generalized Sylvester Flows ( http://arxiv.org/abs/2006.01910v2 )

ライセンス: Link先を確認
Emiel Hoogeboom, Victor Garcia Satorras, Jakub M. Tomczak, Max Welling(参考訳) 本稿では,線形変換の指数関数を取り入れ,線形フローを構築する新しい手法を提案する。 この線型変換は可逆である必要はなく、指数関数は次のような望ましい性質を持つ: 可逆であることが保証され、その逆変換は計算が容易であり、ログジャコビアン行列式は線型変換のトレースと等しい。 重要な洞察として、指数関数は暗黙的に計算できるため、畳み込み層を使用することができる。 この知見を用いて、基底変換の等価性を保持する畳み込み指数とグラフ畳み込み指数と呼ばれる新しい可逆変換を開発する。 さらに,Sylvester Flowsを一般化し,基底変化として一般化と畳み込み指数に基づく畳み込み型Sylvester Flowsを提案する。 CIFAR10上の生成フローにおいて、畳み込み指数は他の線形変換よりも優れており、グラフ畳み込み指数はグラフ正規化フローの性能を向上させる。 さらに, コンボリューショナル・シルヴェスタ・フローは, 対数様態で測定された生成フローモデルとして, 残留フローよりも性能が向上することを示した。

This paper introduces a new method to build linear flows, by taking the exponential of a linear transformation. This linear transformation does not need to be invertible itself, and the exponential has the following desirable properties: it is guaranteed to be invertible, its inverse is straightforward to compute and the log Jacobian determinant is equal to the trace of the linear transformation. An important insight is that the exponential can be computed implicitly, which allows the use of convolutional layers. Using this insight, we develop new invertible transformations named convolution exponentials and graph convolution exponentials, which retain the equivariance of their underlying transformations. In addition, we generalize Sylvester Flows and propose Convolutional Sylvester Flows which are based on the generalization and the convolution exponential as basis change. Empirically, we show that the convolution exponential outperforms other linear transformations in generative flows on CIFAR10 and the graph convolution exponential improves the performance of graph normalizing flows. In addition, we show that Convolutional Sylvester Flows improve performance over residual flows as a generative flow model measured in log-likelihood.
翻訳日:2022-11-25 23:19:48 公開日:2020-10-26
# ClockworkのようなDNNを実現する - ボトムアップのパフォーマンス予測可能性

Serving DNNs like Clockwork: Performance Predictability from the Bottom Up ( http://arxiv.org/abs/2006.02464v2 )

ライセンス: Link先を確認
Arpan Gujarati, Reza Karimi, Safya Alzayat, Wei Hao, Antoine Kaufmann, Ymir Vigfusson, Jonathan Mace(参考訳) 機械学習の推論は、インタラクティブなwebアプリケーションの中核的な構築ブロックになりつつある。 その結果、これらのアプリケーションが依存するシステムの基盤となるモデルは、一貫して低レイテンシのターゲットを満たさなければならない。 既存のモデル提供アーキテクチャでは、よく知られたリアクティブ技術を使用して、一般的なレイテンシソースを緩和するが、予測不可能な実行時間によるテールレイテンシを効果的に削減することはできない。 逆に、Deep Neural Network(DNN)モデルを用いた推論は決定論的性能を持っていることを観察する。 ここでは、個々のdnn推論の予測可能な実行時間から始め、予測可能なエンドツーエンドのパフォーマンスを実現する完全分散モデル提供システムを構築するために、原則化された設計手法を採用する。 当社の実装、クロックワーク、プロダクショントレースワークロードの使用を評価し、99.9999%のリクエストに対して100msのレイテンシ目標を同時に満たしながら、クロックワークが数千のモデルをサポートすることができることを示した。 さらに,クロックワークが予測可能な実行時間を利用して,要求レベルのサービスレベル目標(slos)と高い要求レベルのパフォーマンス分離を実現することを実証する。

Machine learning inference is becoming a core building block for interactive web applications. As a result, the underlying model serving systems on which these applications depend must consistently meet low latency targets. Existing model serving architectures use well-known reactive techniques to alleviate common-case sources of latency, but cannot effectively curtail tail latency caused by unpredictable execution times. Yet the underlying execution times are not fundamentally unpredictable - on the contrary we observe that inference using Deep Neural Network (DNN) models has deterministic performance. Here, starting with the predictable execution times of individual DNN inferences, we adopt a principled design methodology to successively build a fully distributed model serving system that achieves predictable end-to-end performance. We evaluate our implementation, Clockwork, using production trace workloads, and show that Clockwork can support thousands of models while simultaneously meeting 100ms latency targets for 99.9999% of requests. We further demonstrate that Clockwork exploits predictable execution times to achieve tight request-level service-level objectives (SLOs) as well as a high degree of request-level performance isolation.
翻訳日:2022-11-25 18:37:53 公開日:2020-10-26
# 動的ベーテ・ヘシアンをもつスパース時間進化グラフにおけるコミュニティ検出

Community detection in sparse time-evolving graphs with a dynamical Bethe-Hessian ( http://arxiv.org/abs/2006.04510v2 )

ライセンス: Link先を確認
Lorenzo Dall'Amico, Romain Couillet, Nicolas Tremblay(参考訳) 本稿では,コミュニティ構造が時間とともに進化するスパース動的グラフにおけるコミュニティ検出の問題について考察する。 そこで,bethe-hessian行列の拡張に基づく高速スペクトルアルゴリズムを提案する。このアルゴリズムはクラスラベルの正の相関と時間発展の利点を生かしており,コミュニティ構造を持つ任意の動的グラフに適用できるように設計されている。 動的次数補正確率ブロックモデルでは、等サイズの2クラスの場合、提案アルゴリズムは、理論上はできるだけ早く非自明なコミュニティ再構築が可能であり、最適な検出可能性しきい値に達し、競合するスペクトル法よりも優れた性能を持つことを示す。

This article considers the problem of community detection in sparse dynamical graphs in which the community structure evolves over time. A fast spectral algorithm based on an extension of the Bethe-Hessian matrix is proposed, which benefits from the positive correlation in the class labels and in their temporal evolution and is designed to be applicable to any dynamical graph with a community structure. Under the dynamical degree-corrected stochastic block model, in the case of two classes of equal size, we demonstrate and support with extensive simulations that our proposed algorithm is capable of making non-trivial community reconstruction as soon as theoretically possible, thereby reaching the optimal detectability threshold and provably outperforming competing spectral methods.
翻訳日:2022-11-25 17:54:38 公開日:2020-10-26
# 等変流:対称密度に対する厳密な帰納的学習

Equivariant Flows: Exact Likelihood Generative Learning for Symmetric Densities ( http://arxiv.org/abs/2006.02425v2 )

ライセンス: Link先を確認
Jonas K\"ohler, Leon Klein and Frank No\'e(参考訳) 正規化フローは完全同化生成ニューラルネットワークであり、サンプルを単純な事前分布から興味の確率分布のサンプルに近似変換する。 近年の研究では、このような生成モデルは統計力学において、物理学や化学における多体系の平衡状態のサンプリングに利用できることが示されている。 これらの結果のスケールと一般化のためには、ターゲットポテンシャルの不変性によって定義される物理学における確率密度の自然な対称性が流れに組み込まれることが不可欠である。 我々は、フローを正規化する \textit{equivariant} によって生成される分布が、これらの対称性に対して設計によって不変であることを示す理論的に十分な基準を与える。 さらに,物理・化学多体粒子系で通常見られる対称性を保存する流れの構成要素を提案する。 分子物理学に動機づけられたベンチマークシステムを用いて,これらの対称性保存フローがより優れた一般化能力とサンプリング効率をもたらすことを実証する。

Normalizing flows are exact-likelihood generative neural networks which approximately transform samples from a simple prior distribution to samples of the probability distribution of interest. Recent work showed that such generative models can be utilized in statistical mechanics to sample equilibrium states of many-body systems in physics and chemistry. To scale and generalize these results, it is essential that the natural symmetries in the probability density -- in physics defined by the invariances of the target potential -- are built into the flow. We provide a theoretical sufficient criterion showing that the distribution generated by \textit{equivariant} normalizing flows is invariant with respect to these symmetries by design. Furthermore, we propose building blocks for flows which preserve symmetries which are usually found in physical/chemical many-body particle systems. Using benchmark systems motivated from molecular physics, we demonstrate that those symmetry preserving flows can provide better generalization capabilities and sampling efficiency.
翻訳日:2022-11-25 17:46:30 公開日:2020-10-26
# 深部ニューラルネットワーク加速器における製造不良の高レベルモデリング

High-level Modeling of Manufacturing Faults in Deep Neural Network Accelerators ( http://arxiv.org/abs/2006.03616v2 )

ライセンス: Link先を確認
Shamik Kundu, Ahmet Soyyi\u{g}it, Khaza Anuarul Hoque and Kanad Basu(参考訳) データ駆動リアルタイムアプリケーションの出現には、機械学習アクセラレーターにディープニューラルネットワーク(DNN)を実装する必要がある。 GoogleのTensor Processing Unit(TPU)は、ニューラルネットワークアクセラレータの1つで、クラック内の計算にsystolic配列ベースの行列乗算ハードウェアを使用する。 行列乗算ユニットの任意の状態要素における製造障害は、これらの推論ネットワークにおいて予期せぬエラーを引き起こす可能性がある。 本稿では、離散時間マルコフ連鎖(DTMC)形式を用いたTPUにおける永久断層とその伝播の形式モデルを提案する。 提案モデルを確率的モデル検査手法を用いて解析し, 故障アウトプットの可能性を推定する。 その結果,分類精度は,永久断層の種類や,その位置,ビット位置,ニューラルネットワークの層数に敏感であることが判明した。 我々の理論モデルからの結論は、デジタル認識に基づくDNNの実験を用いて検証された。

The advent of data-driven real-time applications requires the implementation of Deep Neural Networks (DNNs) on Machine Learning accelerators. Google's Tensor Processing Unit (TPU) is one such neural network accelerator that uses systolic array-based matrix multiplication hardware for computation in its crux. Manufacturing faults at any state element of the matrix multiplication unit can cause unexpected errors in these inference networks. In this paper, we propose a formal model of permanent faults and their propagation in a TPU using the Discrete-Time Markov Chain (DTMC) formalism. The proposed model is analyzed using the probabilistic model checking technique to reason about the likelihood of faulty outputs. The obtained quantitative results show that the classification accuracy is sensitive to the type of permanent faults as well as their location, bit position and the number of layers in the neural network. The conclusions from our theoretical model have been validated using experiments on a digit recognition-based DNN.
翻訳日:2022-11-25 03:36:34 公開日:2020-10-26
# 逆例に対するロバスト性証明のための半定緩和の密着性について

On the Tightness of Semidefinite Relaxations for Certifying Robustness to Adversarial Examples ( http://arxiv.org/abs/2006.06759v2 )

ライセンス: Link先を確認
Richard Y. Zhang(参考訳) 対向的な例に対するニューラルネットワークの堅牢性は凸緩和を解くことで証明可能である。 しかし、緩和が緩い場合、結果の証明書は保守的すぎて実用的ではない可能性がある。 近年,ReLUアクティベーション関数の半有限プログラミング(SDP)緩和に基づく,より保守的なロバスト性証明が提案されている。 本稿では,このSDP証明書が正当であるか否かを判断する幾何学的手法について述べる。 具体的には、通常の対向攻撃問題の最小二乗制限に対して、SDP緩和は、高ボラへの点の非凸投影に等しいことを示す。 結果として得られるSDP証明書は、その点の射影が双曲線の主軸にある場合に限り正確である。 この幾何的手法を用いて、この証明が穏やかな仮定の下で単一の隠蔽層上で正確であることを証明し、通常、複数の隠蔽層に対して保守的である理由を説明する。 汎用インテリアポイント法とカスタムランク2Burer-Monteiroアルゴリズムを用いて理論的知見を実験的に検証した。

The robustness of a neural network to adversarial examples can be provably certified by solving a convex relaxation. If the relaxation is loose, however, then the resulting certificate can be too conservative to be practically useful. Recently, a less conservative robustness certificate was proposed, based on a semidefinite programming (SDP) relaxation of the ReLU activation function. In this paper, we describe a geometric technique that determines whether this SDP certificate is exact, meaning whether it provides both a lower-bound on the size of the smallest adversarial perturbation, as well as a globally optimal perturbation that attains the lower-bound. Concretely, we show, for a least-squares restriction of the usual adversarial attack problem, that the SDP relaxation amounts to the nonconvex projection of a point onto a hyperbola. The resulting SDP certificate is exact if and only if the projection of the point lies on the major axis of the hyperbola. Using this geometric technique, we prove that the certificate is exact over a single hidden layer under mild assumptions, and explain why it is usually conservative for several hidden layers. We experimentally confirm our theoretical insights using a general-purpose interior-point method and a custom rank-2 Burer-Monteiro algorithm.
翻訳日:2022-11-22 13:13:35 公開日:2020-10-26
# 深層学習における方向収束とアライメント

Directional convergence and alignment in deep learning ( http://arxiv.org/abs/2006.06657v2 )

ライセンス: Link先を確認
Ziwei Ji and Matus Telgarsky(参考訳) 本稿では,クロスエントロピーと関連する分類損失の最小化要因は無限大であるが,勾配流によって学習されたネットワーク重みは,ネットワーク予測やトレーニングエラー,マージン分布も収束する直列の系で収束することを示す。 この証明は、ReLU、最大プーリング、線形および畳み込み層を許容する幅広いネットワークのクラスであるディープ・ホモジニアス・ネットワーク(例えば、AlexNet)と近接するだけでなく、非ホモジニアス・ネットワーク(例えば、DenseNet)上でも経験的サポートを提供する。 ネットワークがさらに局所的なリプシッツ勾配を持つ場合、これらの勾配もまた方向収束し、漸近的に勾配流路と一致し、マージンの最大化、サリエンシマップの収束、その他いくつかの設定に影響を及ぼす。 特にネットワーク幅や初期化は必要とせず、単に完全な分類精度を必要とするだけである。 この証明は、o-最小構造で定義可能な関数に対する非有界非スムート・クルディカ・ハイル・オジャシェヴィッツの不等式の理論を発展させ、深層学習の外でも適用できる。

In this paper, we show that although the minimizers of cross-entropy and related classification losses are off at infinity, network weights learned by gradient flow converge in direction, with an immediate corollary that network predictions, training errors, and the margin distribution also converge. This proof holds for deep homogeneous networks -- a broad class of networks allowing for ReLU, max-pooling, linear, and convolutional layers -- and we additionally provide empirical support not just close to the theory (e.g., the AlexNet), but also on non-homogeneous networks (e.g., the DenseNet). If the network further has locally Lipschitz gradients, we show that these gradients also converge in direction, and asymptotically align with the gradient flow path, with consequences on margin maximization, convergence of saliency maps, and a few other settings. Our analysis complements and is distinct from the well-known neural tangent and mean-field theories, and in particular makes no requirements on network width and initialization, instead merely requiring perfect classification accuracy. The proof proceeds by developing a theory of unbounded nonsmooth Kurdyka-{\L}ojasiewicz inequalities for functions definable in an o-minimal structure, and is also applicable outside deep learning.
翻訳日:2022-11-22 09:08:57 公開日:2020-10-26
# 正の特徴を用いた線形時間シンクホーン分岐

Linear Time Sinkhorn Divergences using Positive Features ( http://arxiv.org/abs/2006.07057v3 )

ライセンス: Link先を確認
Meyer Scetbon and Marco Cuturi(参考訳) シンクホーンのダイバージェンスは現在、確率分布を比較するためにデータサイエンスで日常的に使われているが、それらの計算に必要な計算労力は依然として高価であり、これらの分布のサポートの2倍の大きさで成長している。 実際、エントロピー正規化による最適輸送(ot)の解くには、ベクトルに繰り返し適用される$n\times n$ kernel matrix($n\times n$ pairwise ground cost matrixの neg-exponential)を計算する必要がある。 代わりに$c(x,y)=-\log\dotp{\varphi という形式の地上費用を使う。 (x)}{\varphi (y)}$ where $\varphi$ は、地上空間から正のorthant $\RR^r_+$ への写像で、$r\ll n$ である。 この選択は、等価に、カーネル $k(x,y)=\dotp{\varphi を得る。 (x)}{\varphi (y)$、そして、シンクホーン反復のコストが$o(nr)$であることを保証する。 この形式を用いて通常のコスト関数を近似できることを示す。 さらに,従来提案されていたカーネル行列の適応型低ランク近似とは対照的に,入力分布に対して完全に微分可能な近似が得られ,OT-GAN \cite{salimans2018improving}のより高速な変種を訓練する。

Although Sinkhorn divergences are now routinely used in data sciences to compare probability distributions, the computational effort required to compute them remains expensive, growing in general quadratically in the size $n$ of the support of these distributions. Indeed, solving optimal transport (OT) with an entropic regularization requires computing a $n\times n$ kernel matrix (the neg-exponential of a $n\times n$ pairwise ground cost matrix) that is repeatedly applied to a vector. We propose to use instead ground costs of the form $c(x,y)=-\log\dotp{\varphi(x)}{\varphi(y)}$ where $\varphi$ is a map from the ground space onto the positive orthant $\RR^r_+$, with $r\ll n$. This choice yields, equivalently, a kernel $k(x,y)=\dotp{\varphi(x)}{\varphi(y)}$, and ensures that the cost of Sinkhorn iterations scales as $O(nr)$. We show that usual cost functions can be approximated using this form. Additionaly, we take advantage of the fact that our approach yields approximation that remain fully differentiable with respect to input distributions, as opposed to previously proposed adaptive low-rank approximations of the kernel matrix, to train a faster variant of OT-GAN \cite{salimans2018improving}.
翻訳日:2022-11-22 02:39:05 公開日:2020-10-26
# 非微分関数の自動微分の正確性について

On Correctness of Automatic Differentiation for Non-Differentiable Functions ( http://arxiv.org/abs/2006.06903v2 )

ライセンス: Link先を確認
Wonyeol Lee, Hangyeol Yu, Xavier Rival, Hongseok Yang(参考訳) 差別化は、多くの機械学習アルゴリズムの中核にあり、tensorflowやpytorchといった一般的なautodiffシステムでよくサポートされている。 もともとこれらの系は微分可能関数の微分を計算するために開発されたが、実際には微分不可能な関数に適用される。 例えば、reluを用いたニューラルネットワークは一般に非微分可能関数を定義するが、それらの関数を含む損失の勾配は実際にはオートディフシステムを用いて計算される。 このような非微分関数に適用されたとき、autodiffシステムはいかなる形式的意味でも正しいのか? 本稿では,この問題に対する肯定的な回答を提供する。 例えば、 深層学習で発生する非微分確率は、それが測度ゼロ集合を形成するため、何の問題も起こさない。 次に、現在ディープラーニングにおいてほぼすべての(おそらく微分不能な)関数を含むpap関数と呼ばれる関数のクラスを調べます。 これらのPAP関数に対して、Intensional derivativesと呼ばれる新しいタイプの導関数を提案し、これらの導関数が常に存在し、ほぼ全ての入力に対して標準導関数と一致することを証明する。 また、これらの不動微分は、ほとんどのオートディフシステムが本質的に計算または計算しようとするものであることも示している。 このようにして、微分不能関数に適用される自己微分システムの正しさを正式に確立する。

Differentiation lies at the core of many machine-learning algorithms, and is well-supported by popular autodiff systems, such as TensorFlow and PyTorch. Originally, these systems have been developed to compute derivatives of differentiable functions, but in practice, they are commonly applied to functions with non-differentiabilities. For instance, neural networks using ReLU define non-differentiable functions in general, but the gradients of losses involving those functions are computed using autodiff systems in practice. This status quo raises a natural question: are autodiff systems correct in any formal sense when they are applied to such non-differentiable functions? In this paper, we provide a positive answer to this question. Using counterexamples, we first point out flaws in often-used informal arguments, such as: non-differentiabilities arising in deep learning do not cause any issues because they form a measure-zero set. We then investigate a class of functions, called PAP functions, that includes nearly all (possibly non-differentiable) functions in deep learning nowadays. For these PAP functions, we propose a new type of derivatives, called intensional derivatives, and prove that these derivatives always exist and coincide with standard derivatives for almost all inputs. We also show that these intensional derivatives are what most autodiff systems compute or try to compute essentially. In this way, we formally establish the correctness of autodiff systems applied to non-differentiable functions.
翻訳日:2022-11-22 02:33:01 公開日:2020-10-26
# 対人的自己監督型コントラスト学習

Adversarial Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2006.07589v2 )

ライセンス: Link先を確認
Minseon Kim, Jihoon Tack, Sung Ju Hwang(参考訳) 既存のadversarial learningアプローチでは、主にクラスラベルを使用して、誤った予測につながる敵のサンプルを生成し、モデルのトレーニングを強化して堅牢性を改善するために使用される。 ラベルなしデータを利用する半教師付き逆学習法を提案する最近の研究もあるが、クラスラベルはいまだに必要である。 しかし、ディープニューラルネットワークの対向的に堅牢なトレーニングには、クラスラベルが本当に必要か? 本稿では,未ラベルデータに対する新たな逆攻撃法を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルの同一性を混乱させる。 さらに,ラベル付きデータを用いずに頑健なニューラルネットワークを対向的に学習するための自己教師付きコントラスト学習フレームワークを提案する。 本手法,RoCL(Robost Contrastive Learning)を複数のベンチマークデータセット上で検証し,最先端の教師付き対人学習法に対して同等に堅牢な精度が得られるとともに,ブラックボックスに対する堅牢性や,目に見えないタイプの攻撃に対して大幅に向上した。 さらに, 教師付き対向的損失を伴い, 協調的な微調整を行うことで, 自己教師付き学習のみを用いた場合よりも, より堅牢な精度が得られる。 特にroclは、堅牢な転送学習の結果も示している。

Existing adversarial learning approaches mostly use class labels to generate adversarial samples that lead to incorrect predictions, which are then used to augment the training of the model for improved robustness. While some recent works propose semi-supervised adversarial learning methods that utilize unlabeled data, they still require class labels. However, do we really need class labels at all, for adversarially robust training of deep neural networks? In this paper, we propose a novel adversarial attack for unlabeled data, which makes the model confuse the instance-level identities of the perturbed data samples. Further, we present a self-supervised contrastive learning framework to adversarially train a robust neural network without labeled data, which aims to maximize the similarity between a random augmentation of a data sample and its instance-wise adversarial perturbation. We validate our method, Robust Contrastive Learning (RoCL), on multiple benchmark datasets, on which it obtains comparable robust accuracy over state-of-the-art supervised adversarial learning methods, and significantly improved robustness against the black box and unseen types of attacks. Moreover, with further joint fine-tuning with supervised adversarial loss, RoCL obtains even higher robust accuracy over using self-supervised learning alone. Notably, RoCL also demonstrate impressive results in robust transfer learning.
翻訳日:2022-11-21 20:23:46 公開日:2020-10-26
# 反復的自己監督訓練のための言語横断検索

Cross-lingual Retrieval for Iterative Self-Supervised Training ( http://arxiv.org/abs/2006.09526v2 )

ライセンス: Link先を確認
Chau Tran, Yuqing Tang, Xian Li, Jiatao Gu(参考訳) 近年,多言語事前学習言語モデルの言語間アライメント能力が実証されている。 本研究では,seq2seqモデルを自身のエンコーダ出力を用いてマイニングした文対でトレーニングすることで,言語間アライメントをさらに改善できることを示す。 これらの知見を応用して, 反復的自己指導訓練(CRISS)のための言語横断的検索手法を開発し, マイニングとトレーニングを反復的に適用し, 言語横断的アライメントと翻訳能力の向上を実現した。 本手法を用いて, 平均精度2.4BLEU, 絶対精度21.5%向上した16言語を対象としたXTREMEベンチマークにおいて, タトエバ文検索タスクにおいて, 平均精度2.4BLEUで9つの言語方向の機械翻訳結果を得た。 さらに、CRISSは、教師付き機械翻訳の下流タスクを微調整した場合、mBARTと比較して平均1.8BLEUの改善ももたらしている。

Recent studies have demonstrated the cross-lingual alignment ability of multilingual pretrained language models. In this work, we found that the cross-lingual alignment can be further improved by training seq2seq models on sentence pairs mined using their own encoder outputs. We utilized these findings to develop a new approach -- cross-lingual retrieval for iterative self-supervised training (CRISS), where mining and training processes are applied iteratively, improving cross-lingual alignment and translation ability at the same time. Using this method, we achieved state-of-the-art unsupervised machine translation results on 9 language directions with an average improvement of 2.4 BLEU, and on the Tatoeba sentence retrieval task in the XTREME benchmark on 16 languages with an average improvement of 21.5% in absolute accuracy. Furthermore, CRISS also brings an additional 1.8 BLEU improvement on average compared to mBART, when finetuned on supervised machine translation downstream tasks.
翻訳日:2022-11-20 19:01:02 公開日:2020-10-26
# 距離認識による決定論的深層学習による簡便かつ原理的不確かさ推定

Simple and Principled Uncertainty Estimation with Deterministic Deep Learning via Distance Awareness ( http://arxiv.org/abs/2006.10108v2 )

ライセンス: Link先を確認
Jeremiah Zhe Liu, Zi Lin, Shreyas Padhy, Dustin Tran, Tania Bedrax-Weiss, Balaji Lakshminarayanan(参考訳) ベイズニューラルネットワーク(bnn)とディープアンサンブル(deep ensemble)は、ディープラーニングモデルの予測の不確かさを推定するための原則的なアプローチである。 しかし, リアルタイム, 産業規模のアプリケーションでは, 大量のメモリと推論コストのため, 実用性は限られている。 これは、単一のディープニューラルネットワーク(dnn)のみを必要とする高品質の不確実性推定に対する原則的アプローチを研究する動機となっている。 この不確実性定量化をミニマックス学習問題として定式化することにより、まず入力空間内のトレーニングデータからテストサンプルの距離を定量化し、DNNが高品質な(つまり、最小限の)不確実性推定を実現するために必要な条件として、入力距離認識を同定する。 次に、トレーニング中に重み正規化ステップを追加し、出力層をガウス過程に置き換えることにより、現代のDNNの距離認識能力を向上させる簡単な手法であるスペクトル正規化ニューラルガウス過程(SNGP)を提案する。 ビジョンと言語理解タスクのスイートとモダンアーキテクチャ(Wide-ResNetとBERT)では、SNGPは予測、校正、ドメイン外検出において深いアンサンブルと競合し、他の単一モデルアプローチよりも優れています。

Bayesian neural networks (BNN) and deep ensembles are principled approaches to estimate the predictive uncertainty of a deep learning model. However their practicality in real-time, industrial-scale applications are limited due to their heavy memory and inference cost. This motivates us to study principled approaches to high-quality uncertainty estimation that require only a single deep neural network (DNN). By formalizing the uncertainty quantification as a minimax learning problem, we first identify input distance awareness, i.e., the model's ability to quantify the distance of a testing example from the training data in the input space, as a necessary condition for a DNN to achieve high-quality (i.e., minimax optimal) uncertainty estimation. We then propose Spectral-normalized Neural Gaussian Process (SNGP), a simple method that improves the distance-awareness ability of modern DNNs, by adding a weight normalization step during training and replacing the output layer with a Gaussian process. On a suite of vision and language understanding tasks and on modern architectures (Wide-ResNet and BERT), SNGP is competitive with deep ensembles in prediction, calibration and out-of-domain detection, and outperforms the other single-model approaches.
翻訳日:2022-11-19 19:51:59 公開日:2020-10-26
# 大きな自己監督型モデルは強い半監督型学習者である

Big Self-Supervised Models are Strong Semi-Supervised Learners ( http://arxiv.org/abs/2006.10029v2 )

ライセンス: Link先を確認
Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton(参考訳) ラベルなしの大量のデータを最大限に活用しながら、ラベル付き例から学ぶためのパラダイムのひとつは、教師なし事前トレーニングと教師なし微調整である。 このパラダイムは、コンピュータビジョンのための半教師あり学習に対する一般的なアプローチとは対照的に、タスクに依存しない方法でラベルなしのデータを使用するが、imagenet上で半教師なし学習に驚くほど有効である。 我々のアプローチの重要な要素は、事前訓練と微調整において大きな(深度と広度)ネットワークを使用することである。 ラベルが少なくなればなるほど、このアプローチ(ラベルなしのデータを使うタスク非依存)はより大きなネットワークの恩恵を受ける。 微調整後、未ラベルの例を2回、タスク固有の方法で使用することにより、分類精度を損なうことなく、大きなネットワークをさらに改良し、より小さなネットワークに蒸留することができる。 提案した半教師付き学習アルゴリズムは,SimCLRv2を用いた大規模ResNetモデルの教師なし事前学習,いくつかのラベル付き例による教師付き微調整,タスク固有の知識の精製と伝達のためのラベル付き例による蒸留の3段階からなる。 この手順は、ResNet-50を使用してラベルのわずか1%(クラスあたり13ドルラベル付き画像)で73.9%のImageNet Top-1精度を達成する。 ResNet-50はラベルの10%の精度で77.5%の精度を達成し、すべてのラベルで標準的な教師付きトレーニングを上回った。

One paradigm for learning from few labeled examples while making best use of a large amount of unlabeled data is unsupervised pretraining followed by supervised fine-tuning. Although this paradigm uses unlabeled data in a task-agnostic way, in contrast to common approaches to semi-supervised learning for computer vision, we show that it is surprisingly effective for semi-supervised learning on ImageNet. A key ingredient of our approach is the use of big (deep and wide) networks during pretraining and fine-tuning. We find that, the fewer the labels, the more this approach (task-agnostic use of unlabeled data) benefits from a bigger network. After fine-tuning, the big network can be further improved and distilled into a much smaller one with little loss in classification accuracy by using the unlabeled examples for a second time, but in a task-specific way. The proposed semi-supervised learning algorithm can be summarized in three steps: unsupervised pretraining of a big ResNet model using SimCLRv2, supervised fine-tuning on a few labeled examples, and distillation with unlabeled examples for refining and transferring the task-specific knowledge. This procedure achieves 73.9% ImageNet top-1 accuracy with just 1% of the labels ($\le$13 labeled images per class) using ResNet-50, a $10\times$ improvement in label efficiency over the previous state-of-the-art. With 10% of labels, ResNet-50 trained with our method achieves 77.5% top-1 accuracy, outperforming standard supervised training with all of the labels.
翻訳日:2022-11-19 19:05:55 公開日:2020-10-26
# スピン重み付き球状CNN

Spin-Weighted Spherical CNNs ( http://arxiv.org/abs/2006.10731v2 )

ライセンス: Link先を確認
Carlos Esteves, Ameesh Makadia, Kostas Daniilidis(参考訳) 等価表現の学習は、サンプルとモデルの複雑さを減らし、ディープニューラルネットワークの一般化性能を向上させる有望な方法である。 球面cnnは成功例であり、球面入力のso(3)同値表現を生成する。 球状CNNには2つの主な種類がある。 最初の型は回転群 SO(3) 上の関数への入力を持ち上げ、群に畳み込みを適用するが、SO(3) は余剰次元が 1 であるので計算的に高価である。 第2の型は球面に直接畳み込みを適用し、これは帯状(等方性)フィルタに制限され、したがって表現性は制限される。 本稿では,球面領域を離れることなく,効率的な異方性フィルタを実現する新しいタイプの球面cnnを提案する。 重要なアイデアは、重力波の研究で物理学に導入されたスピン重み付き球面関数を考えることである。 これらは回転によって位相が変化する球面上の複素値関数である。 スピン重み関数間の畳み込みを定義し,それに基づいてcnnを構築する。 スピン重み関数は球面ベクトル場としても解釈でき、入力や出力がベクトル場であるタスクに応用することができる。 実験の結果,球面画像の分類,3次元形状の分類,球面パノラマのセグメンテーションなどのタスクにおいて,従来の手法よりも優れていた。

Learning equivariant representations is a promising way to reduce sample and model complexity and improve the generalization performance of deep neural networks. The spherical CNNs are successful examples, producing SO(3)-equivariant representations of spherical inputs. There are two main types of spherical CNNs. The first type lifts the inputs to functions on the rotation group SO(3) and applies convolutions on the group, which are computationally expensive since SO(3) has one extra dimension. The second type applies convolutions directly on the sphere, which are limited to zonal (isotropic) filters, and thus have limited expressivity. In this paper, we present a new type of spherical CNN that allows anisotropic filters in an efficient way, without ever leaving the spherical domain. The key idea is to consider spin-weighted spherical functions, which were introduced in physics in the study of gravitational waves. These are complex-valued functions on the sphere whose phases change upon rotation. We define a convolution between spin-weighted functions and build a CNN based on it. The spin-weighted functions can also be interpreted as spherical vector fields, allowing applications to tasks where the inputs or outputs are vector fields. Experiments show that our method outperforms previous methods on tasks like classification of spherical images, classification of 3D shapes and semantic segmentation of spherical panoramas.
翻訳日:2022-11-19 13:13:30 公開日:2020-10-26
# 非凸凸ミニマックス問題に対するハイブリッド分散縮小sgdアルゴリズム

Hybrid Variance-Reduced SGD Algorithms For Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2006.15266v2 )

ライセンス: Link先を確認
Quoc Tran-Dinh and Deyi Liu and Lam M. Nguyen(参考訳) 我々は,非凸線形目的関数を含む確率的非凸-凸最小値問題のクラスを,機械学習やロバスト最適化などさまざまな分野に応用する,新しい単一ループ分散推論アルゴリズムを開発した。 この問題クラスは、目的関数の非滑らか性、非凸性、非線形性、非分離性のために、いくつかの計算上の問題を持つ。 我々のアプローチは、スムース化とハイブリッドバイアス分散再現技術を含む、最近のアイデアの新たな組み合わせに依存している。 我々のアルゴリズムとその変種は、標準仮定の下でもっともよく知られたoracleの複雑さである$\mathcal{o}(t^{-2/3})$-convergence率を達成することができる。 これらは、実装が簡単でパラメータチューニングの要求が少ないなど、既存の方法と比較して、いくつかの計算上の利点がある。 単一のサンプルでも、微分推定器上のミニバッチでも動作でき、ステップサイズは一定または減少する。 既存手法に対するアルゴリズムの利点を,非平滑および非凸非凹凸ミニマックスモデルを含む2つの数値例で示す。

We develop a novel and single-loop variance-reduced algorithm to solve a class of stochastic nonconvex-convex minimax problems involving a nonconvex-linear objective function, which has various applications in different fields such as machine learning and robust optimization. This problem class has several computational challenges due to its nonsmoothness, nonconvexity, nonlinearity, and non-separability of the objective functions. Our approach relies on a new combination of recent ideas, including smoothing and hybrid biased variance-reduced techniques. Our algorithm and its variants can achieve $\mathcal{O}(T^{-2/3})$-convergence rate and the best known oracle complexity under standard assumptions, where $T$ is the iteration counter. They have several computational advantages compared to existing methods such as simple to implement and less parameter tuning requirements. They can also work with both single sample or mini-batch on derivative estimators, and with constant or diminishing step-sizes. We demonstrate the benefits of our algorithms over existing methods through two numerical examples, including a nonsmooth and nonconvex-non-strongly concave minimax model.
翻訳日:2022-11-16 08:09:26 公開日:2020-10-26
# 無線データ収集のためのuav経路計画:深い強化学習アプローチ

UAV Path Planning for Wireless Data Harvesting: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2007.00544v2 )

ライセンス: Link先を確認
Harald Bayerlein, Mirco Theile, Marco Caccamo, David Gesbert(参考訳) 次世代通信ネットワークをサポートする無人航空機(UAV)の自律展開には、効率的な軌道計画手法が必要である。 都市環境におけるモノのインターネット(IoT)デバイスからのUAV対応データ収集に対するエンドツーエンド強化学習(RL)アプローチを提案する。 自律ドローンは、飛行時間と障害物回避の制限を受ける分散センサーノードからデータを収集する任務を負う。 従来,センサ数,センサ位置,最大飛行時間などの重要なシナリオパラメータが変化しても,学習や非学習に基づくアプローチでは,高価な再計算や振る舞いの学習が必要であったが,シナリオパラメータの変更を一般化するUAV制御ポリシを学習するためには,ダブルディープQネットワーク(DDQN)を併用してトレーニングする。 本研究では,畳み込みネットワーク層からエージェントに供給される環境の多層マップを活用し,提案するネットワークアーキテクチャにより,データ収集目標と飛行時間効率と安全性制約のバランスをとる様々なシナリオパラメータに対して,エージェントが移動を決定できることを示す。 また、UAVの位置中心の地図を非中心の地図上で使用することにより、学習効率が向上することを示す。

Autonomous deployment of unmanned aerial vehicles (UAVs) supporting next-generation communication networks requires efficient trajectory planning methods. We propose a new end-to-end reinforcement learning (RL) approach to UAV-enabled data collection from Internet of Things (IoT) devices in an urban environment. An autonomous drone is tasked with gathering data from distributed sensor nodes subject to limited flying time and obstacle avoidance. While previous approaches, learning and non-learning based, must perform expensive recomputations or relearn a behavior when important scenario parameters such as the number of sensors, sensor positions, or maximum flying time, change, we train a double deep Q-network (DDQN) with combined experience replay to learn a UAV control policy that generalizes over changing scenario parameters. By exploiting a multi-layer map of the environment fed through convolutional network layers to the agent, we show that our proposed network architecture enables the agent to make movement decisions for a variety of scenario parameters that balance the data collection goal with flight time efficiency and safety constraints. Considerable advantages in learning efficiency from using a map centered on the UAV's position over a non-centered map are also illustrated.
翻訳日:2022-11-14 23:01:52 公開日:2020-10-26
# rgb-d塩分検出のための相乗的塩分と深さ予測

Synergistic saliency and depth prediction for RGB-D saliency detection ( http://arxiv.org/abs/2007.01711v2 )

ライセンス: Link先を確認
Yue Wang, Yuke Li, James H. Elder, Huchuan Lu, Runmin Wu, Lu Zhang(参考訳) RGB-Dカメラから得られる深度情報は、RGBチャンネルからの図形/地上の手がかりが弱い場合に、有能なオブジェクトのセグメンテーションに有用である。 これは、トレーニングと推論の両方にRGB-Dデータの4つのチャンネルすべてを使用する、複数のRGB-Dサリエンシデータセットとアルゴリズムの開発を動機付けている。 残念ながら、既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに過度に適合し、限定的な一般化をもたらす可能性がある。 本稿では,saliency ground truthを伴わない,より小さなrgb-d saliency dataset上で,saliency ground truthを併用した大規模rgb saliency datasetの効果的な共同利用が可能な,rgb-d saliency detectionのための半教師付きシステムを提案する。 提案手法をRGB-Dサリエンシデータセットに一般化するために,2つのタスク間の相互洗練による相似性と深度を共同で推定する新しい予測誘導型クロスリファインメントモジュールと,逆学習手法を用いる。 批判的に、我々のシステムはRGB-Dデータセットに対して、大規模な人的負担を削減し、推論のための深度データを必要としないため、RGBデータしか利用できないより広い範囲のアプリケーションにメソッドを使用できる。 7つのRGB-Dデータセットに対する評価は、RGB-Dデータセットの正当性基底真理と推論時にRGB-DデータセットのRGBデータのみを用いることなく、我々の半教師システムは、2つの大きなテストデータセットの推論時にRGB-Dデータセットの正当性基底真理を利用する最先端の完全教師付きRGB-D正当性検出方法に対して好適に機能することを示した。 我々のアプローチは、他のRGB-Dサリエンシベンチマークと同等の結果を得る。

Depth information available from an RGB-D camera can be useful in segmenting salient objects when figure/ground cues from RGB channels are weak. This has motivated the development of several RGB-D saliency datasets and algorithms that use all four channels of the RGB-D data for both training and inference. Unfortunately, existing RGB-D saliency datasets are small, which may lead to overfitting and limited generalization for diverse scenarios. Here we propose a semi-supervised system for RGB-D saliency detection that can be trained on smaller RGB-D saliency datasets without saliency ground truth, while also make effective joint use of a large RGB saliency dataset with saliency ground truth together. To generalize our method on RGB-D saliency datasets, a novel prediction-guided cross-refinement module which jointly estimates both saliency and depth by mutual refinement between two respective tasks, and an adversarial learning approach are employed. Critically, our system does not require saliency ground-truth for the RGB-D datasets, which saves the massive human labor for hand labeling, and does not require the depth data for inference, allowing the method to be used for the much broader range of applications where only RGB data are available. Evaluation on seven RGB-D datasets demonstrates that even without saliency ground truth for RGB-D datasets and using only the RGB data of RGB-D datasets at inference, our semi-supervised system performs favorable against state-of-the-art fully-supervised RGB-D saliency detection methods that use saliency ground truth for RGB-D datasets at training and depth data at inference on two largest testing datasets. Our approach also achieves comparable results on other popular RGB-D saliency benchmarks.
翻訳日:2022-11-14 05:36:54 公開日:2020-10-26
# ユークリッドニューラルネットワークによる対称性破壊次数パラメータの探索

Finding Symmetry Breaking Order Parameters with Euclidean Neural Networks ( http://arxiv.org/abs/2007.02005v2 )

ライセンス: Link先を確認
Tess E. Smidt, Mario Geiger and Benjamin Kurt Miller(参考訳) キュリーの原理は「効果が特定の非対称性を示すとき、この非対称性はそれらを引き起こす原因の中に見い出さなければならない」と述べている。 我々は、対称性同変ニューラルネットワークがキュリーの原理を支持し、多くの対称性関連科学的な疑問を単純な最適化問題に表すのに使用できることを示した。 これらの特性を数学的に証明し、ユークリッド対称性同変ニューラルネットワークを訓練し、対称破れ入力を学習し、正方形を長方形に変形させ、ペロブスカイトのオクタヘドラ傾斜パターンを生成する。

Curie's principle states that "when effects show certain asymmetry, this asymmetry must be found in the causes that gave rise to them". We demonstrate that symmetry equivariant neural networks uphold Curie's principle and can be used to articulate many symmetry-relevant scientific questions into simple optimization problems. We prove these properties mathematically and demonstrate them numerically by training a Euclidean symmetry equivariant neural network to learn symmetry-breaking input to deform a square into a rectangle and to generate octahedra tilting patterns in perovskites.
翻訳日:2022-11-13 13:59:27 公開日:2020-10-26
# 平均フィールドゲームのための架空のプレイ:連続時間解析と応用

Fictitious Play for Mean Field Games: Continuous Time Analysis and Applications ( http://arxiv.org/abs/2007.03458v2 )

ライセンス: Link先を確認
Sarah Perrin, Julien Perolat, Mathieu Lauri\`ere, Matthieu Geist, Romuald Elie, Olivier Pietquin(参考訳) 本稿では,有限状態平均場ゲーム設定(finite horizon,$\gamma$-discounted)を考慮し,連続時間架空の遊び学習アルゴリズムの解析を深め,特に追加のコモンノイズの導入を可能にする。 まず、連続時間有限プレイ過程の理論的収束解析を行い、誘導されたエクスプロイラビリティが$O(\frac{1}{t})$で減少することを示す。 このような分析は、平均フィールドゲームにおけるナッシュ均衡への収束を評価するための関連する指標として、搾取可能性の使用を強調している。 これらの理論的貢献は、モデルベースまたはモデルフリー設定で提供される数値実験によって支持される。 ここでは,共通雑音の存在下で平均フィールドゲームにおける学習ダイナミクスを収束させることを初めて提供する。

In this paper, we deepen the analysis of continuous time Fictitious Play learning algorithm to the consideration of various finite state Mean Field Game settings (finite horizon, $\gamma$-discounted), allowing in particular for the introduction of an additional common noise. We first present a theoretical convergence analysis of the continuous time Fictitious Play process and prove that the induced exploitability decreases at a rate $O(\frac{1}{t})$. Such analysis emphasizes the use of exploitability as a relevant metric for evaluating the convergence towards a Nash equilibrium in the context of Mean Field Games. These theoretical contributions are supported by numerical experiments provided in either model-based or model-free settings. We provide hereby for the first time converging learning dynamics for Mean Field Games in the presence of common noise.
翻訳日:2022-11-13 08:31:00 公開日:2020-10-26
# 多段階予算組合せ問題に対するカリキュラム学習

Curriculum learning for multilevel budgeted combinatorial problems ( http://arxiv.org/abs/2007.03151v2 )

ライセンス: Link先を確認
Adel Nabli, Margarida Carvalho(参考訳) グラフニューラルネットワークによる組合せ最適化問題の学習ヒューリスティックスは、最近、古典的なNPハード問題に対して有望な結果を示した。 シングルレベル最適化の問題であり、プレイヤーは1人だけである。 多段階組合せ最適化問題はそれらの一般化であり、複数のプレイヤーが逐次決定を下す状況を含む。 グラフ上のゼロサムゲームにおいて、2人のプレイヤーが関与する多段階の予算の組合せ問題を解くために,価値に基づく手法を考案した。 我々のフレームワークは単純なカリキュラムに基づいており、もしエージェントが予算が最大$B$のインスタンスの価値を見積もる方法を知っていれば、予算が$B+1$のインスタンスを多項式時間で解決できる。 したがって、ボトムアップアプローチでは、エージェントをトレーニングするためにますます大きな予算でヒューリスティックに解決されたインスタンスのデータセットを生成します。 我々は、最大100ドルノードのグラフの最適性に近い結果と、少なくとも$\Sigma_2^p$-hardであることが示されている最大3レベル問題であるMultilevel critical Node問題で知られている最も正確な解法と比較して平均185ドルのスピードアップを報告した。

Learning heuristics for combinatorial optimization problems through graph neural networks have recently shown promising results on some classic NP-hard problems. These are single-level optimization problems with only one player. Multilevel combinatorial optimization problems are their generalization, encompassing situations with multiple players taking decisions sequentially. By framing them in a multi-agent reinforcement learning setting, we devise a value-based method to learn to solve multilevel budgeted combinatorial problems involving two players in a zero-sum game over a graph. Our framework is based on a simple curriculum: if an agent knows how to estimate the value of instances with budgets up to $B$, then solving instances with budget $B+1$ can be done in polynomial time regardless of the direction of the optimization by checking the value of every possible afterstate. Thus, in a bottom-up approach, we generate datasets of heuristically solved instances with increasingly larger budgets to train our agent. We report results close to optimality on graphs up to $100$ nodes and a $185 \times$ speedup on average compared to the quickest exact solver known for the Multilevel Critical Node problem, a max-min-max trilevel problem that has been shown to be at least $\Sigma_2^p$-hard.
翻訳日:2022-11-12 19:05:20 公開日:2020-10-26
# グローバル最適非凸ニューラルネットワークトレーニングの一般化境界:無限次元ランジュバンダイナミクスによる輸送マップの推定

Generalization bound of globally optimal non-convex neural network training: Transportation map estimation by infinite dimensional Langevin dynamics ( http://arxiv.org/abs/2007.05824v2 )

ライセンス: Link先を確認
Taiji Suzuki(参考訳) 本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。 ニューラルネットワーク最適化解析のための平均場理論や神経接核理論のような既存のフレームワークは、大域収束を示すためにネットワークの無限幅の限界を取る必要がある。 これにより、有限幅ネットワークを直接扱うことが難しくなる可能性があり、特に神経接核系では、カーネル法を超えてニューラルネットワークの好ましい特性を明らかにすることはできない。 より自然な解析を実現するために、パラメータトレーニングを輸送マップ推定として定式化し、無限次元ランゲヴィン力学の理論を通してその大域収束を示す、全く異なるアプローチを考える。 これにより、狭く広いネットワークを統一的に分析することができる。 さらに、ダイナミクスによって得られる解に対して一般化ギャップと過剰リスク境界を与える。 過剰なリスクバウンドは、いわゆる高速学習率を達成する。 特に,分類問題に対する指数収束と回帰問題に対する最小最適速度を示す。

We introduce a new theoretical framework to analyze deep learning optimization with connection to its generalization error. Existing frameworks such as mean field theory and neural tangent kernel theory for neural network optimization analysis typically require taking limit of infinite width of the network to show its global convergence. This potentially makes it difficult to directly deal with finite width network; especially in the neural tangent kernel regime, we cannot reveal favorable properties of neural networks beyond kernel methods. To realize more natural analysis, we consider a completely different approach in which we formulate the parameter training as a transportation map estimation and show its global convergence via the theory of the infinite dimensional Langevin dynamics. This enables us to analyze narrow and wide networks in a unifying manner. Moreover, we give generalization gap and excess risk bounds for the solution obtained by the dynamics. The excess risk bound achieves the so-called fast learning rate. In particular, we show an exponential convergence for a classification problem and a minimax optimal rate for a regression problem.
翻訳日:2022-11-11 13:07:17 公開日:2020-10-26
# 人物再同定のためのプログレッシブ多段特徴混合

Progressive Multi-stage Feature Mix for Person Re-Identification ( http://arxiv.org/abs/2007.08779v2 )

ライセンス: Link先を確認
Yan Zhang, Binyu He, Li Sun(参考訳) 小さな地域の画像の特徴は、しばしば人物の再識別作業において強い証拠を与える。 しかし、cnnは最も塩分の多い地域に注意を払いすぎており、服の髪、靴、ロゴなど他の差別的な手がかりを無視している。 %BDBは、高い応答領域を拡大するために、1ブロックをランダムにバッチにドロップすることを提案する。 BDBは目覚ましい成果を上げましたが、改善の余地はまだあります。 本研究では,より正確で多様な特徴を段階的に把握できるPMM(Progressive Multi-stage Feature Mix Network)を提案する。 具体的には 1. 画像の異なる手がかりを探すためにモデルを強制するために、我々は多段階分類器を採用し、モデルが各段階の補完領域に集中できることを期待している。 2) 現在のバッチにおいて, ラベルが現在のサンプルと異なる負の例によって, 健全な特徴ブロックを置き換えるための注意機能(A-Hard-Mix)を提案する。 3. マーケット-1501, デュークMTMC-reID, CUHK03などのreIDデータセットに対する広範な実験を行い, 提案手法が再同定性能を大幅に向上させることができることを示した。

Image features from a small local region often give strong evidence in person re-identification task. However, CNN suffers from paying too much attention on the most salient local areas, thus ignoring other discriminative clues, e.g., hair, shoes or logos on clothes. %BDB proposes to randomly drop one block in a batch to enlarge the high response areas. Although BDB has achieved remarkable results, there still room for improvement. In this work, we propose a Progressive Multi-stage feature Mix network (PMM), which enables the model to find out the more precise and diverse features in a progressive manner. Specifically, 1. to enforce the model to look for different clues in the image, we adopt a multi-stage classifier and expect that the model is able to focus on a complementary region in each stage. 2. we propose an Attentive feature Hard-Mix (A-Hard-Mix) to replace the salient feature blocks by the negative example in the current batch, whose label is different from the current sample. 3. extensive experiments have been carried out on reID datasets such as the Market-1501, DukeMTMC-reID and CUHK03, showing that the proposed method can boost the re-identification performance significantly.
翻訳日:2022-11-09 13:57:13 公開日:2020-10-26
# 予測情報によるRL学習の促進

Predictive Information Accelerates Learning in RL ( http://arxiv.org/abs/2007.12401v2 )

ライセンス: Link先を確認
Kuang-Huei Lee, Ian Fischer, Anthony Liu, Yijie Guo, Honglak Lee, John Canny, Sergio Guadarrama(参考訳) 予測情報は、過去と未来の間の相互情報I(X_past; X_future)である。 予測情報を取得することはRLにおいて有用である、と仮定する。なぜなら、次に何が起こるかをモデル化する能力は、多くのタスクで成功するのに必要である。 本仮説をテストするために,条件付きエントロピーボトルネック(ceb)目標の対比版を用いて,rl環境ダイナミクスの予測情報の圧縮表現を学習する補助タスクを用いて,画素からソフトアクタ-クリティック(sac)エージェントを訓練する。 我々はこれらを予測情報SAC(PI-SAC)エージェントと呼ぶ。 PI-SACエージェントは、連続制御環境のDM制御スイートからタスクのベースラインに挑戦するよりも、サンプル効率を大幅に改善できることを示す。 我々は, PI-SAC エージェント, 他の圧縮・非圧縮剤, SAC エージェントを画素から直接訓練することにより, PI-SAC エージェントの評価を行った。 実装はGitHubで公開しています。

The Predictive Information is the mutual information between the past and the future, I(X_past; X_future). We hypothesize that capturing the predictive information is useful in RL, since the ability to model what will happen next is necessary for success on many tasks. To test our hypothesis, we train Soft Actor-Critic (SAC) agents from pixels with an auxiliary task that learns a compressed representation of the predictive information of the RL environment dynamics using a contrastive version of the Conditional Entropy Bottleneck (CEB) objective. We refer to these as Predictive Information SAC (PI-SAC) agents. We show that PI-SAC agents can substantially improve sample efficiency over challenging baselines on tasks from the DM Control suite of continuous control environments. We evaluate PI-SAC agents by comparing against uncompressed PI-SAC agents, other compressed and uncompressed agents, and SAC agents directly trained from pixels. Our implementation is given on GitHub.
翻訳日:2022-11-07 05:54:04 公開日:2020-10-26
# 幾何学的全方向ブールテンソル分解

Geometric All-Way Boolean Tensor Decomposition ( http://arxiv.org/abs/2007.15821v2 )

ライセンス: Link先を確認
Changlin Wan, Wennan Chang, Tong Zhao, Sha Cao, Chi Zhang(参考訳) ブールテンソルは、空間的、時間的および/または他の関係領域で収集された高次元論理データを表現するのに広く使われている。 ブールテンソル分解(BTD)は、二元テンソルを複数の階数-1テンソルのブール和に分解する。 既存のBTD法は、大規模または高次テンソルへの応用において、高い計算コストで制限されている。 本研究では,計算効率の高いbtdアルゴリズム,すなわち全階テンソル因子分解のための\textit{geometric expansion for all-order tensor factorization} (getf)を提案した。 我々は,全次テンソルの分解におけるGETFの有効性とアルゴリテミック効率の厳密な理論的解析を行った。 合成データと実世界のデータの両方の実験により、GETFは復元精度、潜伏構造の抽出性能を大幅に向上し、他の最先端手法よりも桁違いに高速であることが示された。

Boolean tensor has been broadly utilized in representing high dimensional logical data collected on spatial, temporal and/or other relational domains. Boolean Tensor Decomposition (BTD) factorizes a binary tensor into the Boolean sum of multiple rank-1 tensors, which is an NP-hard problem. Existing BTD methods have been limited by their high computational cost, in applications to large scale or higher order tensors. In this work, we presented a computationally efficient BTD algorithm, namely \textit{Geometric Expansion for all-order Tensor Factorization} (GETF), that sequentially identifies the rank-1 basis components for a tensor from a geometric perspective. We conducted rigorous theoretical analysis on the validity as well as algorithemic efficiency of GETF in decomposing all-order tensor. Experiments on both synthetic and real-world data demonstrated that GETF has significantly improved performance in reconstruction accuracy, extraction of latent structures and it is an order of magnitude faster than other state-of-the-art methods.
翻訳日:2022-11-04 06:12:00 公開日:2020-10-26
# 多変量時系列予測と解釈のための時空間的注意

Spatiotemporal Attention for Multivariate Time Series Prediction and Interpretation ( http://arxiv.org/abs/2008.04882v2 )

ライセンス: Link先を確認
Tryambak Gangopadhyay, Sin Yong Tan, Zhanhong Jiang, Rui Meng, Soumik Sarkar(参考訳) 多変量時系列モデリングと予測問題は、多くの機械学習アプリケーション領域で豊富である。 このような予測結果の正確な解釈は、時間的相関を明示的に捉えた機械学習モデルによって、ドメインの専門家に多大な利益をもたらす。 この文脈では、入力時系列の重要な時間ステップを分離するために時間的注意がうまく適用されている。 しかし、多変量時系列問題では、モデル出力に対する異なる変数の寄与を理解するために空間的解釈も重要である。 本稿では,最も重要な時間ステップと変数を同時に学習するための,時空間注意機構(STAM)と呼ばれる新しいディープラーニングアーキテクチャを提案する。 STAMは因果関係(すなわち過去の入力にのみ依存し、将来の入力には依存しない)であり、スケーラブルな(つまり変数の数の増加と共にうまくスケールする)アプローチであり、計算的トラクタビリティの観点からは最先端のモデルに匹敵する。 2つの人気のあるパブリックデータセットとドメイン固有のデータセットで、モデルのパフォーマンスを実証します。 ベースラインモデルと比較すると、STAMは正確な時空間解釈可能性の利点を提供しながら最先端の予測精度を維持していることが示された。 学習した注目度は、これらの実世界のデータセットのドメイン知識の観点から検証される。

Multivariate time series modeling and prediction problems are abundant in many machine learning application domains. Accurate interpretation of such prediction outcomes from a machine learning model that explicitly captures temporal correlations can significantly benefit the domain experts. In this context, temporal attention has been successfully applied to isolate the important time steps for the input time series. However, in multivariate time series problems, spatial interpretation is also critical to understand the contributions of different variables on the model outputs. We propose a novel deep learning architecture, called spatiotemporal attention mechanism (STAM) for simultaneous learning of the most important time steps and variables. STAM is a causal (i.e., only depends on past inputs and does not use future inputs) and scalable (i.e., scales well with an increase in the number of variables) approach that is comparable to the state-of-the-art models in terms of computational tractability. We demonstrate our models' performance on two popular public datasets and a domain-specific dataset. When compared with the baseline models, the results show that STAM maintains state-of-the-art prediction accuracy while offering the benefit of accurate spatiotemporal interpretability. The learned attention weights are validated from a domain knowledge perspective for these real-world datasets.
翻訳日:2022-10-31 10:46:16 公開日:2020-10-26
# 2次元スクリブルを用いた3次元物体形状のインタラクティブアノテーション

Interactive Annotation of 3D Object Geometry using 2D Scribbles ( http://arxiv.org/abs/2008.10719v2 )

ライセンス: Link先を確認
Tianchang Shen, Jun Gao, Amlan Kar, Sanja Fidler(参考訳) シーンの詳細な3D形状を推定することは、ロボット工学の応用、シミュレーション、および3Dコンテンツ作成に不可欠である。 しかし、そのような情報は入手が困難であるため、それをサポートするデータセットはほとんどない。 本稿では,ポイントクラウドデータとrgb画像の両方から3次元物体形状をアノテートするインタラクティブなフレームワークを提案する。 このアプローチの背景にある重要な考え方は、人間が3D世界について持つ強い先入観を利用して、完全な3D形状を対話的に注釈付けすることだ。 当社のフレームワークは,芸術的あるいはグラフィック的な専門知識のないナイーブユーザを対象としています。 本稿では2つのシンプルな相互作用モジュールを紹介する。 まず,3次元形状の自動推定を行い,所望の2次元ビューにスクリブルを描画することで,大きな誤差に対するフィードバックを提供する。 次に,グラフ畳み込みネットワークとして実装されたニューラルインタラクティブモジュールを用いて,メッシュ頂点のドラッグアンドドロップによるマイナーエラーの修正を目標とする。 実験により,ShapeNet,Pix3D,ScanNetなどの一般的なベンチマークにおいて,高品質な3D形状を実現するためには,少数のユーザインタラクションが必要であることがわかった。 本フレームワークをwebサービスとして実装し,ユーザ調査を行い,実世界の学習タスクを効果的に効率化することを示す。 webサービス: http://www.cs.toronto.edu/~shenti11/scribble3d。

Inferring detailed 3D geometry of the scene is crucial for robotics applications, simulation, and 3D content creation. However, such information is hard to obtain, and thus very few datasets support it. In this paper, we propose an interactive framework for annotating 3D object geometry from both point cloud data and RGB imagery. The key idea behind our approach is to exploit strong priors that humans have about the 3D world in order to interactively annotate complete 3D shapes. Our framework targets naive users without artistic or graphics expertise. We introduce two simple-to-use interaction modules. First, we make an automatic guess of the 3D shape and allow the user to provide feedback about large errors by drawing scribbles in desired 2D views. Next, we aim to correct minor errors, in which users drag and drop mesh vertices, assisted by a neural interactive module implemented as a Graph Convolutional Network. Experimentally, we show that only a few user interactions are needed to produce good quality 3D shapes on popular benchmarks such as ShapeNet, Pix3D and ScanNet. We implement our framework as a web service and conduct a user study, where we show that user annotated data using our method effectively facilitates real-world learning tasks. Web service: http://www.cs.toronto.edu/~shenti11/scribble3d.
翻訳日:2022-10-25 09:14:46 公開日:2020-10-26
# ナラティブマップ:情報ナラティブの表現と抽出のためのアルゴリズム的アプローチ

Narrative Maps: An Algorithmic Approach to Represent and Extract Information Narratives ( http://arxiv.org/abs/2009.04508v2 )

ライセンス: Link先を確認
Brian Keith and Tanushree Mitra(参考訳) 物語は私たちの世界に対する認識の基本であり、時間の出来事の表現に関わるあらゆる活動に広まります。 しかし、現代のオンライン情報システムは、時間の経過とともに起こる出来事の表現に物語を取り入れていない。 本稿では, このギャップを埋めることを目的としており, 物語表現理論と現代のオンラインシステムのデータを組み合わせる。 ナラティブの理論駆動計算表現,データからこれらの表現を得るための新しい抽出アルゴリズム,アプローチの評価という3つの重要な貢献を行っている。 特に,視覚的なメタファの有効性を考えると,経路マップのメタファを用いてナラティブマップ表現を設計する。 物語の地図表現は、物語の中の出来事と物語を地図上の一連のランドマークとルートとして描写している。 我々の表現の各要素は形式的ナラティブ理論の対応する要素によって裏付けられ、この方法に対する確かな理論的背景を提供する。 提案手法は,コヒーレンスを最大化するための新しい最適化手法を用いて,構造的制約とカバレッジ的制約を尊重しながら,物語マップの基盤となるグラフ構造を抽出する。 ユーザ評価を行い,表現,メタファ,可視化の質を評価することによって,提案手法の有効性を示す。 その結果,ナラティブマップ表現は複雑な物語を個人に伝達する強力な手法であることが示唆された。 我々の発見は、情報アナリスト、計算ジャーナリスト、誤情報研究者に影響を及ぼす。

Narratives are fundamental to our perception of the world and are pervasive in all activities that involve the representation of events in time. Yet, modern online information systems do not incorporate narratives in their representation of events occurring over time. This article aims to bridge this gap, combining the theory of narrative representations with the data from modern online systems. We make three key contributions: a theory-driven computational representation of narratives, a novel extraction algorithm to obtain these representations from data, and an evaluation of our approach. In particular, given the effectiveness of visual metaphors, we employ a route map metaphor to design a narrative map representation. The narrative map representation illustrates the events and stories in the narrative as a series of landmarks and routes on the map. Each element of our representation is backed by a corresponding element from formal narrative theory, thus providing a solid theoretical background to our method. Our approach extracts the underlying graph structure of the narrative map using a novel optimization technique focused on maximizing coherence while respecting structural and coverage constraints. We showcase the effectiveness of our approach by performing a user evaluation to assess the quality of the representation, metaphor, and visualization. Evaluation results indicate that the Narrative Map representation is a powerful method to communicate complex narratives to individuals. Our findings have implications for intelligence analysts, computational journalists, and misinformation researchers.
翻訳日:2022-10-20 11:48:07 公開日:2020-10-26
# クロスマニュファクチャ・チェストX線セグメンテーションのためのデュアルエンコーダ融合U-Net(DEFU-Net)

Dual Encoder Fusion U-Net (DEFU-Net) for Cross-manufacturer Chest X-ray Segmentation ( http://arxiv.org/abs/2009.10608v3 )

ライセンス: Link先を確認
Lipei Zhang, Aozhi Liu, Jing Xiao, Paul Taylor(参考訳) 深層学習に基づく手法が医用画像分割に応用され,最先端のパフォーマンスを達成している。 新型コロナウイルス研究における胸部X線データの重要性から,胸部X線に軟部組織を正確に分画できる最先端のモデルが求められている。 ベストセグメンテーションモデルを探求するためのデータセットは、2014年にオープンしたモンゴメリー・アンド・深セン病院からのものである。 最も有名なテクニックはU-Netで、チェストX線を含む多くの医学データセットに使われている。 しかし、ほとんどの変種u-netはコンテキスト情報の抽出とスキップ接続に重点を置いている。 空間的特徴の抽出を改善するためにはまだ大きな空間がある。 本稿では,Densely Connected Recurrent Convolutional Neural Network(DFU-Net)を応用した,Chest X線用デュアルエンコーダ融合U-Netフレームワークを提案する。 密結合されたリカレントパスは、文脈的特徴抽出を容易にするためにネットワークをより深く拡張する。 ネットワークの幅を拡大し,特徴の表現を豊かにするために,拡張による開始ブロックを採用する。 インセプションブロックは、様々な受容領域からグローバルおよび局所的な空間情報を取り込むことができる。 同時に、2つの経路は特徴を和らげることで融合し、復号部のための文脈情報と空間情報を保存する。 このマルチラーニングスケールモデルは、2つの異なるメーカー(Montgomeryと深セン病院)のChest X-rayデータセットの恩恵を受けている。 DEFU-Netは、基本的なU-Net、残留U-Net、BCDU-Net、R2U-Net、注意R2U-Netよりも優れたパフォーマンスを実現する。 このモデルは混合データセットの実現可能性を示し、最先端にアプローチする。 このフレームワークのソースコードは、https://github.com/uceclz0/DEFU-Netである。

A number of methods based on deep learning have been applied to medical image segmentation and have achieved state-of-the-art performance. Due to the importance of chest x-ray data in studying COVID-19, there is a demand for state-of-the-art models capable of precisely segmenting soft tissue on the chest x-rays. The dataset for exploring best segmentation model is from Montgomery and Shenzhen hospital which had opened in 2014. The most famous technique is U-Net which has been used to many medical datasets including the Chest X-rays. However, most variant U-Nets mainly focus on extraction of contextual information and skip connections. There is still a large space for improving extraction of spatial features. In this paper, we propose a dual encoder fusion U-Net framework for Chest X-rays based on Inception Convolutional Neural Network with dilation, Densely Connected Recurrent Convolutional Neural Network, which is named DEFU-Net. The densely connected recurrent path extends the network deeper for facilitating contextual feature extraction. In order to increase the width of network and enrich representation of features, the inception blocks with dilation are adopted. The inception blocks can capture globally and locally spatial information from various receptive fields. At the same time, the two paths are fused by summing features, thus preserving the contextual and spatial information for decoding part. This multi-learning-scale model is benefiting in Chest X-ray dataset from two different manufacturers (Montgomery and Shenzhen hospital). The DEFU-Net achieves the better performance than basic U-Net, residual U-Net, BCDU-Net, R2U-Net and attention R2U-Net. This model has proved the feasibility for mixed dataset and approaches state-of-the-art. The source code for this proposed framework is public https://github.com/uceclz0/DEFU-Net.
翻訳日:2022-10-19 22:00:43 公開日:2020-10-26
# 公立事前学習に相応しい差分私的言語モデル

Differentially Private Language Models Benefit from Public Pre-training ( http://arxiv.org/abs/2009.05886v2 )

ライセンス: Link先を確認
Gavin Kerrigan and Dylan Slack and Jens Tuyls(参考訳) 言語モデリングは自然言語処理における重要なタスクである。 機密情報に基づいて言語モデルをトレーニングする場合、差分プライバシー(DP)は、プライベートデータが保護されている程度を定量化できます。 しかし、差分プライバシーを強制するトレーニングアルゴリズムは、しばしばモデル品質の低下につながる。 本研究では,個人コーパス上の公開ベースモデルを調整することで,高品質かつプライバシー保護の両立した言語モデル学習の実現可能性について検討する。 DP微調整により,プライベートドメインにおける言語モデルの性能が向上し,そのようなモデルのトレーニングが可能となる。

Language modeling is a keystone task in natural language processing. When training a language model on sensitive information, differential privacy (DP) allows us to quantify the degree to which our private data is protected. However, training algorithms which enforce differential privacy often lead to degradation in model quality. We study the feasibility of learning a language model which is simultaneously high-quality and privacy preserving by tuning a public base model on a private corpus. We find that DP fine-tuning boosts the performance of language models in the private domain, making the training of such models possible.
翻訳日:2022-10-19 02:51:49 公開日:2020-10-26
# 動的融合を用いたcovid-19検出のための連合学習

Dynamic Fusion based Federated Learning for COVID-19 Detection ( http://arxiv.org/abs/2009.10401v4 )

ライセンス: Link先を確認
Weishan Zhang, Tao Zhou, Qinghua Lu, Xiao Wang, Chunsheng Zhu, Haoyun Sun, Zhipeng Wang, Sin Kit Lo, Fei-Yue Wang(参考訳) 機械学習を用いた医療診断画像解析(ctスキャンやx線など)は、新型コロナウイルスの感染を検出する効率的かつ正確な方法である。 しかし、患者のプライバシーの懸念から、医療機関間で診断画像を共有することは許されない。 これにより、画像分類モデルのトレーニングに不十分なデータセットが問題となる。 フェデレーション学習は、クライアントのローカルデータを交換することなく、クライアントによってトレーニングされたローカルモデルの受信した更新に基づいて、バイアスのないグローバルモデルを生成する、新たなプライバシ保護機械学習パラダイムである。 それでも、フェデレーション学習のデフォルト設定は、モデル更新を転送する膨大な通信コストをもたらし、クライアントのデータの不均一性が大きく存在する場合、モデルパフォーマンスを保証できない。 コミュニケーション効率とモデル性能を向上させるため,本稿では,医療診断画像解析による新型コロナウイルス感染検出のための,新しい動的融合型フェデレート学習手法を提案する。 まず, 医用診断画像を分析するために, 動的融合型連合学習システムのためのアーキテクチャを設計する。 さらに,各クライアントの局所的モデル性能に応じて動的に決定する動的融合手法を提案し,参加者のトレーニング時間に基づいてモデル融合をスケジュールする。 さらに、新型コロナウイルス検出のための医療診断画像データセットのカテゴリを要約し、機械学習コミュニティが画像解析に使用することができる。 評価の結果,提案手法はモデルの性能,通信効率,フォールトトレランスの面では,フェデレーション学習のデフォルト設定よりも優れていることがわかった。

Medical diagnostic image analysis (e.g., CT scan or X-Ray) using machine learning is an efficient and accurate way to detect COVID-19 infections. However, sharing diagnostic images across medical institutions is usually not allowed due to the concern of patients' privacy. This causes the issue of insufficient datasets for training the image classification model. Federated learning is an emerging privacy-preserving machine learning paradigm that produces an unbiased global model based on the received updates of local models trained by clients without exchanging clients' local data. Nevertheless, the default setting of federated learning introduces huge communication cost of transferring model updates and can hardly ensure model performance when data heterogeneity of clients heavily exists. To improve communication efficiency and model performance, in this paper, we propose a novel dynamic fusion-based federated learning approach for medical diagnostic image analysis to detect COVID-19 infections. First, we design an architecture for dynamic fusion-based federated learning systems to analyse medical diagnostic images. Further, we present a dynamic fusion method to dynamically decide the participating clients according to their local model performance and schedule the model fusion-based on participating clients' training time. In addition, we summarise a category of medical diagnostic image datasets for COVID-19 detection, which can be used by the machine learning community for image analysis. The evaluation results show that the proposed approach is feasible and performs better than the default setting of federated learning in terms of model performance, communication efficiency and fault tolerance.
翻訳日:2022-10-15 23:18:28 公開日:2020-10-26
# 形式的検証によるニューロシンボリック強化学習

Neurosymbolic Reinforcement Learning with Formally Verified Exploration ( http://arxiv.org/abs/2009.12612v2 )

ライセンス: Link先を確認
Greg Anderson, Abhinav Verma, Isil Dillig, Swarat Chaudhuri(参考訳) 本稿では,連続状態と動作空間を安全に探索するための部分神経強化学習(rl)フレームワークであるrevelを提案する。 確実に安全な深層RLの鍵となる課題は、学習ループ内のニューラルネットワークの繰り返し検証が計算不可能であることだ。 我々は,この課題に対して,概略勾配を持つ一般の神経シンボリッククラスと,効率的な検証を可能にするより制限されたシンボリックポリシクラスという2つのポリシークラスを用いて対処する。 我々の学習アルゴリズムは、ポリシーに対するミラー降下であり、各イテレーションにおいて、ニューロシンボリック空間にシンボルポリシーを安全に持ち上げ、結果のポリシーに安全な勾配更新を行い、更新されたポリシーをニューラルネットワークの明示的な検証を必要とせずに安全なシンボルサブセットに投影する。 実験結果から,revelは,制約付きポリシー最適化が行わない多くのシナリオにおいて安全な探索を強制すると同時に,検証済みの探索に先行するアプローチで学習したポリシーに勝るポリシを発見できることがわかった。

We present Revel, a partially neural reinforcement learning (RL) framework for provably safe exploration in continuous state and action spaces. A key challenge for provably safe deep RL is that repeatedly verifying neural networks within a learning loop is computationally infeasible. We address this challenge using two policy classes: a general, neurosymbolic class with approximate gradients and a more restricted class of symbolic policies that allows efficient verification. Our learning algorithm is a mirror descent over policies: in each iteration, it safely lifts a symbolic policy into the neurosymbolic space, performs safe gradient updates to the resulting policy, and projects the updated policy into the safe symbolic subset, all without requiring explicit verification of neural networks. Our empirical results show that Revel enforces safe exploration in many scenarios in which Constrained Policy Optimization does not, and that it can discover policies that outperform those learned through prior approaches to verified exploration.
翻訳日:2022-10-14 08:27:41 公開日:2020-10-26
# ヴィジュアル・グラウンドド・プランニング:高レベルのインストラクションから詳細なプランを推測する言語モデル

Visually-Grounded Planning without Vision: Language Models Infer Detailed Plans from High-level Instructions ( http://arxiv.org/abs/2009.14259v2 )

ライセンス: Link先を確認
Peter A. Jansen(参考訳) 最近提案されたALFREDチャレンジタスクは、高レベルの自然言語ディレクティブから仮想ホーム環境において、仮想ロボットエージェントが複雑なマルチステップの日常的なタスクを完了することを目的としている。 現在、最高のパフォーマンスのモデルは、これらのタスクの5%未満を成功裏に完了することができる。 本研究は,自然言語ディレクティブを仮想環境における目標を達成するための多段階のアクション列に変換するための翻訳問題をモデル化することに焦点を当てる。 未確認ケースの26%で視覚的な入力を伴わずに、言語ディレクティブから金の多段階プランを生成できることを実証的に実証した。 仮想環境における開始位置など,少量の視覚情報が組み込まれた場合,最も優れたGPT-2モデルでは,58%のケースでゴールドコマンドシーケンスの生成に成功した。 この結果から,文脈型言語モデルでは,仮想エージェントに対して強力な視覚的意味計画モジュールが提供される可能性が示唆された。

The recently proposed ALFRED challenge task aims for a virtual robotic agent to complete complex multi-step everyday tasks in a virtual home environment from high-level natural language directives, such as "put a hot piece of bread on a plate". Currently, the best-performing models are able to complete less than 5% of these tasks successfully. In this work we focus on modeling the translation problem of converting natural language directives into detailed multi-step sequences of actions that accomplish those goals in the virtual environment. We empirically demonstrate that it is possible to generate gold multi-step plans from language directives alone without any visual input in 26% of unseen cases. When a small amount of visual information is incorporated, namely the starting location in the virtual environment, our best-performing GPT-2 model successfully generates gold command sequences in 58% of cases. Our results suggest that contextualized language models may provide strong visual semantic planning modules for grounded virtual agents.
翻訳日:2022-10-13 05:17:28 公開日:2020-10-26
# 記号表現を用いたDeep Composer分類

Deep Composer Classification Using Symbolic Representation ( http://arxiv.org/abs/2010.00823v2 )

ライセンス: Link先を確認
Sunghyeon Kim, Hyeyoon Lee, Sunjong Park, Jinho Lee, Keunwoo Choi(参考訳) 本研究では,深層ニューラルネットワークを訓練し,シンボリックドメイン上で作曲家を分類する。 このモデルは2チャンネルの2次元入力、すなわちmidi記録から変換されシングルラベル分類を行うタイムピッチ表現のオンセットとノートのアクティベーションを取る。 MAESTROデータセットで行った実験では、13名のクラシック作曲家を分類するためにF1値0.8333を報告した。

In this study, we train deep neural networks to classify composer on a symbolic domain. The model takes a two-channel two-dimensional input, i.e., onset and note activations of time-pitch representation, which is converted from MIDI recordings and performs a single-label classification. On the experiments conducted on MAESTRO dataset, we report an F1 value of 0.8333 for the classification of 13~classical composers.
翻訳日:2022-10-12 02:42:53 公開日:2020-10-26
# 連続時間と離散空間におけるPOMDP

POMDPs in Continuous Time and Discrete Spaces ( http://arxiv.org/abs/2010.01014v3 )

ライセンス: Link先を確認
Bastian Alt, Matthias Schultheis, Heinz Koeppl(参考訳) 工学における離散事象系や生物学における集団力学のような多くのプロセスは、離散空間と連続時間で進化する。 このような離散状態と行動空間系における最適決定の問題は、部分観測可能性の下で考慮する。 これにより、最適フィルタリングと最適制御の交差点に作業を置く。 現状では、有限状態と作用空間を持つ連続時間における同時意思決定とフィルタリングのための数学的記述はいまだ欠落している。 本稿では,連続時間部分観測可能なマルコフ決定過程(POMDP)を数学的に記述する。 最適フィルタリング理論を活用することで、最適解を特徴づけるハミルトン・ヤコビ・ベルマン型方程式を導出する。 深層学習の手法を用いて,得られた部分積分微分方程式を概ね解く。 ご紹介します (i)価値関数の近似を学習して意思決定問題をオフラインで解決するアプローチ (ii)深層強化学習を用いた信念空間の解を提供するオンラインアルゴリズム。 高次元問題に対する解決策を提供する将来の方法への道を開くおもちゃの例のセットに適用性を示す。

Many processes, such as discrete event systems in engineering or population dynamics in biology, evolve in discrete space and continuous time. We consider the problem of optimal decision making in such discrete state and action space systems under partial observability. This places our work at the intersection of optimal filtering and optimal control. At the current state of research, a mathematical description for simultaneous decision making and filtering in continuous time with finite state and action spaces is still missing. In this paper, we give a mathematical description of a continuous-time partial observable Markov decision process (POMDP). By leveraging optimal filtering theory we derive a Hamilton-Jacobi-Bellman (HJB) type equation that characterizes the optimal solution. Using techniques from deep learning we approximately solve the resulting partial integro-differential equation. We present (i) an approach solving the decision problem offline by learning an approximation of the value function and (ii) an online algorithm which provides a solution in belief space using deep reinforcement learning. We show the applicability on a set of toy examples which pave the way for future methods providing solutions for high dimensional problems.
翻訳日:2022-10-12 01:24:07 公開日:2020-10-26
# インテリジェントシステムの説明可能性の出現--エネルギー効率のための説明可能かつパーソナライズされた勧告の提供

The emergence of Explainability of Intelligent Systems: Delivering Explainable and Personalised Recommendations for Energy Efficiency ( http://arxiv.org/abs/2010.04990v2 )

ライセンス: Link先を確認
Christos Sardianos and Iraklis Varlamis and Christos Chronis and George Dimitrakopoulos and Abdullah Alsalemi and Yassine Himeur and Faycal Bensaali and Abbes Amira(参考訳) 人工知能の最近の進歩、すなわち機械学習とディープラーニングは、いくつかの方法でインテリジェントシステムの性能を高めている。 これは人間の期待を生んだが、知的なシステムがどう考えるか、決定するかをより深く理解する必要性も生み出した。 説明可能性の概念は、人間の言葉で内部システム力学を説明する程度に現れた。 勧告システムは、人間の意思決定を支援するインテリジェントなシステムであり、ユーザの信頼を高め、レコメンデーションの受け入れを改善するためには、それらを説明する必要がある。 本研究では,エネルギ効率のための文脈認識型レコメンデーションシステムに着目し,ユーザの嗜好や習慣に合わせた説明可能な,説得力のあるレコメンデーションのメカニズムを開発する。 説得力のある事実は、経済的貯蓄見通し(econ)またはポジティブな生態的影響(eco)を強調し、説明は省エネ行動を推奨する理由を提供する。 telegramボットを用いた研究に基づいて、実際のデータと人間のフィードバックで異なるシナリオが検証された。 その結果, 経済的, 生態的説得的事実がともなう場合, 推薦受諾率の19.%の増加が見られた。 このレコメンデーションシステムに対する革命的なアプローチは、インテリジェントなレコメンデーションが省エネ行動を効果的に促進できることを示す。

The recent advances in artificial intelligence namely in machine learning and deep learning, have boosted the performance of intelligent systems in several ways. This gave rise to human expectations, but also created the need for a deeper understanding of how intelligent systems think and decide. The concept of explainability appeared, in the extent of explaining the internal system mechanics in human terms. Recommendation systems are intelligent systems that support human decision making, and as such, they have to be explainable in order to increase user trust and improve the acceptance of recommendations. In this work, we focus on a context-aware recommendation system for energy efficiency and develop a mechanism for explainable and persuasive recommendations, which are personalized to user preferences and habits. The persuasive facts either emphasize on the economical saving prospects (Econ) or on a positive ecological impact (Eco) and explanations provide the reason for recommending an energy saving action. Based on a study conducted using a Telegram bot, different scenarios have been validated with actual data and human feedback. Current results show a total increase of 19\% on the recommendation acceptance ratio when both economical and ecological persuasive facts are employed. This revolutionary approach on recommendation systems, demonstrates how intelligent recommendations can effectively encourage energy saving behavior.
翻訳日:2022-10-08 23:11:27 公開日:2020-10-26
# openreviewのオープンレビュー:機械学習会議レビュープロセスの批判的分析

An Open Review of OpenReview: A Critical Analysis of the Machine Learning Conference Review Process ( http://arxiv.org/abs/2010.05137v2 )

ライセンス: Link先を確認
David Tran, Alex Valtchanov, Keshav Ganapathy, Raymond Feng, Eric Slud, Micah Goldblum, Tom Goldstein(参考訳) 主流の機械学習カンファレンスは、近年、参加者の数が劇的に増加し、さまざまな視点が増加している。 機械学習コミュニティのメンバーは、受け入れ決定のランダム性から機関バイアスまで、噂を耳にしがちだ。 本研究は,2017年から2020年にかけてiclrに提出された論文の包括的調査を通じて,レビュープロセスを批判的に分析する。 レビュースコアと受理決定における再現性/ランダム性を定量化し、スコアが紙の影響と相関するかどうかを検討する。 本研究は, 紙の品質管理においても, 受否決定の制度的偏見が強いことを示唆する。 さらに,男女差の証拠も見いだされ,女性著者は男性よりもスコアが低く,受入率も低く,用紙1枚あたりの引用率も低かった。 今後のカンファレンスオーガナイザのためのレコメンデーションで作業を終えます。

Mainstream machine learning conferences have seen a dramatic increase in the number of participants, along with a growing range of perspectives, in recent years. Members of the machine learning community are likely to overhear allegations ranging from randomness of acceptance decisions to institutional bias. In this work, we critically analyze the review process through a comprehensive study of papers submitted to ICLR between 2017 and 2020. We quantify reproducibility/randomness in review scores and acceptance decisions, and examine whether scores correlate with paper impact. Our findings suggest strong institutional bias in accept/reject decisions, even after controlling for paper quality. Furthermore, we find evidence for a gender gap, with female authors receiving lower scores, lower acceptance rates, and fewer citations per paper than their male counterparts. We conclude our work with recommendations for future conference organizers.
翻訳日:2022-10-08 14:00:12 公開日:2020-10-26
# RESSPECTによるアクティブラーニング:銀河外天体トランジェントのための資源配分

Active learning with RESSPECT: Resource allocation for extragalactic astronomical transients ( http://arxiv.org/abs/2010.05941v2 )

ライセンス: Link先を確認
Noble Kennamer, Emille E. O. Ishida, Santiago Gonzalez-Gaitan, Rafael S. de Souza, Alexander Ihler, Kara Ponder, Ricardo Vilalta, Anais Moller, David O. Jones, Mi Dai, Alberto Krone-Martins, Bruno Quint, Sreevarsha Sreejith, Alex I. Malz, Lluis Galbany (The LSST Dark Energy Science Collaboration and the COIN collaboration)(参考訳) 近年、利用可能な天文学データの量と複雑さの増大により、教師付き機械学習技術が広く使われるようになった。 希少なラベリングリソースの分散を最適化する代替手段として,アクティブラーニング戦略が提案されている。 しかし,ラベルの取得可能な具体的な条件から,サンプル代表性やラベルの安定性といった基本的な前提を満たすことはできない。 天文学データ環境の現実的な記述を考慮し、ルビン天文台の宇宙時間探査(lsst)に最適化されたトレーニングサンプルの構築を可能にすることを目的とした、分光追跡(resspect)プロジェクトの推奨システム。 そこで本研究では,現実的なシミュレーションデータシナリオを用いて,アクティブラーニング手法のロバスト性をテストする。 私たちの実験は、トレーニングとプールサンプルの進化、オブジェクトごとに異なるコスト、そして2つの異なる予算源を考慮しています。 その結果、従来のアクティブラーニング戦略はランダムサンプリングを大きく上回ることがわかった。 それでも、より複雑なバッチ戦略は、単純な不確実性サンプリング技術を大幅に克服することはできない。 我々の発見は3つの重要な点を示している。 1)アクティブラーニング戦略は天文学におけるラベル獲得タスクを最適化するための強力なツールである。 2)lsstのような大規模調査では,調査初日のトレーニングサンプルの構築を調整できる。 3) 天文学的過渡現象の検出に関連する特異なデータ環境は、仕立て機械学習アルゴリズムの開発を求める肥育的な基盤である。

The recent increase in volume and complexity of available astronomical data has led to a wide use of supervised machine learning techniques. Active learning strategies have been proposed as an alternative to optimize the distribution of scarce labeling resources. However, due to the specific conditions in which labels can be acquired, fundamental assumptions, such as sample representativeness and labeling cost stability cannot be fulfilled. The Recommendation System for Spectroscopic follow-up (RESSPECT) project aims to enable the construction of optimized training samples for the Rubin Observatory Legacy Survey of Space and Time (LSST), taking into account a realistic description of the astronomical data environment. In this work, we test the robustness of active learning techniques in a realistic simulated astronomical data scenario. Our experiment takes into account the evolution of training and pool samples, different costs per object, and two different sources of budget. Results show that traditional active learning strategies significantly outperform random sampling. Nevertheless, more complex batch strategies are not able to significantly overcome simple uncertainty sampling techniques. Our findings illustrate three important points: 1) active learning strategies are a powerful tool to optimize the label-acquisition task in astronomy, 2) for upcoming large surveys like LSST, such techniques allow us to tailor the construction of the training sample for the first day of the survey, and 3) the peculiar data environment related to the detection of astronomical transients is a fertile ground that calls for the development of tailored machine learning algorithms.
翻訳日:2022-10-08 07:54:58 公開日:2020-10-26
# SIGTYP 2020共有課題:類型的特徴の予測

SIGTYP 2020 Shared Task: Prediction of Typological Features ( http://arxiv.org/abs/2010.08246v2 )

ライセンス: Link先を確認
Johannes Bjerva and Elizabeth Salesky and Sabrina J. Mielke and Aditi Chaudhary and Giuseppe G. A. Celano and Edoardo M. Ponti and Ekaterina Vylomova and Ryan Cotterell and Isabelle Augenstein(参考訳) WALS (Dryer and Haspelmath, 2013) のような分類学的知識ベース (KB) には、世界の言語の言語的特性に関する情報が含まれている。 これらは、言語間移動学習や言語探索など、下流の応用に有用であることが示されている。 タイポジカルkbsの広範な採用を妨げる大きな欠点は、ほとんどの言語がいくつかの機能に対するアノテーションしか持たず、歪んでいるという意味で、人口がほとんどないという点である。 類型的特徴はしばしば相互に関連しているため、それらを予測することができ、したがって、この共有タスクの焦点でもある類型的KBを自動で投入することができる。 全体として、このタスクには5つのチームから8つの応募が寄せられ、その中で最も成功した方法が、このような機能相関を利用しています。 しかし, 誤り解析の結果, 最強のシステムでさえ, 特徴がほとんど知られていない言語の特徴値の予測に苦慮していることが明らかとなった。

Typological knowledge bases (KBs) such as WALS (Dryer and Haspelmath, 2013) contain information about linguistic properties of the world's languages. They have been shown to be useful for downstream applications, including cross-lingual transfer learning and linguistic probing. A major drawback hampering broader adoption of typological KBs is that they are sparsely populated, in the sense that most languages only have annotations for some features, and skewed, in that few features have wide coverage. As typological features often correlate with one another, it is possible to predict them and thus automatically populate typological KBs, which is also the focus of this shared task. Overall, the task attracted 8 submissions from 5 teams, out of which the most successful methods make use of such feature correlations. However, our error analysis reveals that even the strongest submitted systems struggle with predicting feature values for languages where few features are known.
翻訳日:2022-10-06 20:55:28 公開日:2020-10-26
# オントロジーアライメントのための二重注意を用いた多面的文脈表現

Multifaceted Context Representation using Dual Attention for Ontology Alignment ( http://arxiv.org/abs/2010.11721v2 )

ライセンス: Link先を確認
Vivek Iyer, Arvind Agarwal, Harshit Kumar(参考訳) オントロジアライメント(オントロジアライメント)は、データ統合、データ転送、データ準備など様々な分野のアプリケーションを見つける重要な研究課題である。 オントロジーアライメントにおける最先端の(sota)アーキテクチャは、通常、手作りのルールと手動で割り当てられた値を持つナイーブなドメイン依存のアプローチを用いる。 オントロジーアライメントのためのディープラーニングアプローチは、他のデータセットやドメインに拡張不可能なドメイン固有のアーキテクチャを使用するだけでなく、モデルの過度な適合、データセットのスパーシリティなど、さまざまな制限のため、ルールベースのアプローチよりもパフォーマンスが劣る。 本研究では,概念の文脈的表現を計算してアライメントを学習する,Deep LearningベースのモデルであるVeeAlignを提案する。 そうすることで、我々のアプローチはオントロジーの構文と意味構造の両方を利用するだけでなく、設計によって、最小限の労力で異なるドメインに柔軟でスケーラブルです。 異なるドメインや多言語環境での様々なデータセットに対するアプローチを検証し、soma法よりも優れた性能を示す。

Ontology Alignment is an important research problem that finds application in various fields such as data integration, data transfer, data preparation etc. State-of-the-art (SOTA) architectures in Ontology Alignment typically use naive domain-dependent approaches with handcrafted rules and manually assigned values, making them unscalable and inefficient. Deep Learning approaches for ontology alignment use domain-specific architectures that are not only in-extensible to other datasets and domains, but also typically perform worse than rule-based approaches due to various limitations including over-fitting of models, sparsity of datasets etc. In this work, we propose VeeAlign, a Deep Learning based model that uses a dual-attention mechanism to compute the contextualized representation of a concept in order to learn alignments. By doing so, not only does our approach exploit both syntactic and semantic structure of ontologies, it is also, by design, flexible and scalable to different domains with minimal effort. We validate our approach on various datasets from different domains and in multilingual settings, and show its superior performance over SOTA methods.
翻訳日:2022-10-06 20:49:09 公開日:2020-10-26
# 自己レビュー機構を持つ条件付きマスク翻訳モデルへの逐次情報注入

Infusing Sequential Information into Conditional Masked Translation Model with Self-Review Mechanism ( http://arxiv.org/abs/2010.09194v2 )

ライセンス: Link先を確認
Pan Xie, Zhi Cui, Xiuyin Chen, Xiaohui Hu, Jianwei Cui, Bin Wang(参考訳) 非自己回帰モデルは、高速な復号速度を実現するが、翻訳精度を犠牲にして、目標語を並列に生成する。 非自己回帰モデルによる欠陥翻訳を修復するには、条件付きマスク付き翻訳モデル(CMTM)をトレーニングし、いくつかのイテレーションで結果を改善することが期待できる。 残念なことに、このようなアプローチは対象語の中で \textit{sequential dependency} をほとんど考慮していないため、必然的に翻訳の劣化を招く。 したがって、トランスフォーマーベースのCMTMのみをトレーニングするのではなく、逐次情報を注入する自己レビュー機構を提案する。 具体的には、CMTMの同一デコーダに左から右へのマスクを挿入し、CMTMから生成された各単語が置き換えられるかどうかを自動回帰的にレビューする。 実験結果(wmt14 en$\leftrightarrow$de および wmt16 en$\leftrightarrow$ro)は,本モデルが従来のcmtmよりも劇的に少ないトレーニング計算を,さらに1 bleu以上で最先端の非自己回帰モデルを上回ることを証明した。 知識蒸留により、我々のモデルは典型的な左から右へのトランスフォーマーモデルを超え、デコードを大幅に高速化する。

Non-autoregressive models generate target words in a parallel way, which achieve a faster decoding speed but at the sacrifice of translation accuracy. To remedy a flawed translation by non-autoregressive models, a promising approach is to train a conditional masked translation model (CMTM), and refine the generated results within several iterations. Unfortunately, such approach hardly considers the \textit{sequential dependency} among target words, which inevitably results in a translation degradation. Hence, instead of solely training a Transformer-based CMTM, we propose a Self-Review Mechanism to infuse sequential information into it. Concretely, we insert a left-to-right mask to the same decoder of CMTM, and then induce it to autoregressively review whether each generated word from CMTM is supposed to be replaced or kept. The experimental results (WMT14 En$\leftrightarrow$De and WMT16 En$\leftrightarrow$Ro) demonstrate that our model uses dramatically less training computations than the typical CMTM, as well as outperforms several state-of-the-art non-autoregressive models by over 1 BLEU. Through knowledge distillation, our model even surpasses a typical left-to-right Transformer model, while significantly speeding up decoding.
翻訳日:2022-10-05 21:39:43 公開日:2020-10-26
# クロスデータセット顔年齢推定におけるバイアス軽減のためのフラッター損失

A Flatter Loss for Bias Mitigation in Cross-dataset Facial Age Estimation ( http://arxiv.org/abs/2010.10368v2 )

ライセンス: Link先を確認
Ali Akbari, Muhammad Awais, Zhen-Hua Feng, Ammarah Farooq and Josef Kittler(参考訳) 顔年齢推定における最も既存の研究は、訓練およびテスト画像が同様の射撃条件下で撮影されるという仮定である。 しかし、トレーニングとテストセットが通常異なる特性を持つ現実のアプリケーションでは、これが有効であることは滅多にない。 本稿では,年齢推定ベンチマークのためのクロスデータセットプロトコルを提案する。 クロスデータセットの年齢推定性能を向上させるために,学習アルゴリズム自体が生み出す固有のバイアスを軽減する。 そこで本稿では,ニューラルネットワークのトレーニングに有効な新しい損失関数を提案する。 提案する損失関数の相対的平滑性は,確率勾配降下(sgd)による最適化過程において有利である。 既存の損失関数と比較して、提案された損失関数の勾配の低さは、SGDの収束をより良い最適点に導き、その結果、より良い一般化をもたらす。 クロスデータセット実験により,提案手法が最先端アルゴリズムよりも精度と一般化能力に優れていることを示す。

The most existing studies in the facial age estimation assume training and test images are captured under similar shooting conditions. However, this is rarely valid in real-world applications, where training and test sets usually have different characteristics. In this paper, we advocate a cross-dataset protocol for age estimation benchmarking. In order to improve the cross-dataset age estimation performance, we mitigate the inherent bias caused by the learning algorithm itself. To this end, we propose a novel loss function that is more effective for neural network training. The relative smoothness of the proposed loss function is its advantage with regards to the optimisation process performed by stochastic gradient descent (SGD). Compared with existing loss functions, the lower gradient of the proposed loss function leads to the convergence of SGD to a better optimum point, and consequently a better generalisation. The cross-dataset experimental results demonstrate the superiority of the proposed method over the state-of-the-art algorithms in terms of accuracy and generalisation capability.
翻訳日:2022-10-05 06:11:37 公開日:2020-10-26
# カーネルスタインの相違による輸送測定

Measure Transport with Kernel Stein Discrepancy ( http://arxiv.org/abs/2010.11779v2 )

ライセンス: Link先を確認
Matthew A. Fisher, Tui Nolan, Matthew M. Graham, Dennis Prangle, Chris J. Oates(参考訳) 輸送度の測定は, 後方から近似へのKLD(Kulback--Leibler divergence)の最小化を目的とした, ベイジアン文脈における後方近似の最近のアルゴリズムの基盤となっている。 KLDは強い収束のモードであり、測定の絶対的な連続性を必要とし、輸送地図が許される制限を課す。 ここでは、輸送マップの集合が$L^2$の意味で密度が高いことだけを要求し、この条件がどのように検証できるかを示す。 関連する後部近似の整合性を確立し, 実験結果から, KSDはKLDと競合し, より柔軟であることが示された。

Measure transport underpins several recent algorithms for posterior approximation in the Bayesian context, wherein a transport map is sought to minimise the Kullback--Leibler divergence (KLD) from the posterior to the approximation. The KLD is a strong mode of convergence, requiring absolute continuity of measures and placing restrictions on which transport maps can be permitted. Here we propose to minimise a kernel Stein discrepancy (KSD) instead, requiring only that the set of transport maps is dense in an $L^2$ sense and demonstrating how this condition can be validated. The consistency of the associated posterior approximation is established and empirical results suggest that KSD is competitive and more flexible alternative to KLD for measure transport.
翻訳日:2022-10-04 07:44:47 公開日:2020-10-26
# Few-Shotオブジェクト検出における否定情報の復元

Restoring Negative Information in Few-Shot Object Detection ( http://arxiv.org/abs/2010.11714v2 )

ライセンス: Link先を確認
Yukuan Yang, Fangyun Wei, Miaojing Shi, Guoqi Li(参考訳) 多数のラベル付きデータでディープニューラルネットワーク(DNN)をトレーニングする従来の方法とは異なり、アノテーション付きのサンプルがほとんどない新しいクラスでのDNNの一般化を求める。 近年,画像分類に焦点が当てられているが,本論文では物体検出に焦点をあてる。 少数ショットオブジェクト検出における初期探索は、特定のオブジェクトクラスに対する画像内の肯定的な提案を用いて分類シナリオをシミュレートし、そのクラスの否定的な提案を破棄する傾向がある。 しかし、陰性、特に強陰性は、数発の物体検出における埋め込み空間学習に不可欠である。 本稿では,新しい負および正の表現型メトリック学習フレームワークと,負と正の表現を持つ新しい推論手法を導入することにより,少数ショットオブジェクト検出における負の情報を復元する。 私たちは、トレーニングとテストの両方に負の情報をエンコードする、いくつかの新しいモジュールでリメットした、最近の数ショットパイプラインで作業を構築しています。 ImageNet-LOC と PASCAL VOC の大規模な実験により,本手法は最先端の複数ショット検出ソリューションを大幅に改善することが示された。 私たちのコードはhttps://github.com/yang-yk/np-repmetで利用可能です。

Few-shot learning has recently emerged as a new challenge in the deep learning field: unlike conventional methods that train the deep neural networks (DNNs) with a large number of labeled data, it asks for the generalization of DNNs on new classes with few annotated samples. Recent advances in few-shot learning mainly focus on image classification while in this paper we focus on object detection. The initial explorations in few-shot object detection tend to simulate a classification scenario by using the positive proposals in images with respect to certain object class while discarding the negative proposals of that class. Negatives, especially hard negatives, however, are essential to the embedding space learning in few-shot object detection. In this paper, we restore the negative information in few-shot object detection by introducing a new negative- and positive-representative based metric learning framework and a new inference scheme with negative and positive representatives. We build our work on a recent few-shot pipeline RepMet with several new modules to encode negative information for both training and testing. Extensive experiments on ImageNet-LOC and PASCAL VOC show our method substantially improves the state-of-the-art few-shot object detection solutions. Our code is available at https://github.com/yang-yk/NP-RepMet.
翻訳日:2022-10-04 05:23:00 公開日:2020-10-26
# TweetEval: つぶやき分類のための統一ベンチマークと比較評価

TweetEval: Unified Benchmark and Comparative Evaluation for Tweet Classification ( http://arxiv.org/abs/2010.12421v2 )

ライセンス: Link先を確認
Francesco Barbieri and Jose Camacho-Collados and Leonardo Neves and Luis Espinosa-Anke(参考訳) ソーシャルメディアの自然言語処理における実験的な展望は、あまりにも断片化されている。 毎年、感情分析のような古典から皮肉検出や絵文字予測まで、新しい共有タスクとデータセットが提案されている。 したがって、標準化された評価プロトコルがないため、そのようなドメイン固有のデータに基づいてトレーニングされた強力なベースラインも存在しない。 本稿では、7つの異種Twitter固有の分類タスクからなる新しい評価フレームワーク(TweetEval)を提案する。 また、出発点として強力なベースラインセットを提供し、異なる言語モデリング事前学習戦略を比較します。 最初の実験では、既存のトレーニング済みのジェネリック言語モデルから始め、Twitterコーパスでトレーニングを続ける効果が示された。

The experimental landscape in natural language processing for social media is too fragmented. Each year, new shared tasks and datasets are proposed, ranging from classics like sentiment analysis to irony detection or emoji prediction. Therefore, it is unclear what the current state of the art is, as there is no standardized evaluation protocol, neither a strong set of baselines trained on such domain-specific data. In this paper, we propose a new evaluation framework (TweetEval) consisting of seven heterogeneous Twitter-specific classification tasks. We also provide a strong set of baselines as starting point, and compare different language modeling pre-training strategies. Our initial experiments show the effectiveness of starting off with existing pre-trained generic language models, and continue training them on Twitter corpora.
翻訳日:2022-10-03 23:27:02 公開日:2020-10-26
# 位相可変3次元形状対応のための学習障害関数

Learning Implicit Functions for Topology-Varying Dense 3D Shape Correspondence ( http://arxiv.org/abs/2010.12320v2 )

ライセンス: Link先を確認
Feng Liu and Xiaoming Liu(参考訳) 本研究の目的は, トポロジ変化物体の高密度な3次元形状対応を教師なしで学習することである。 従来の暗黙関数は、3Dポイントの占有度を潜在符号として推定する。 代わりに、我々の新しい暗黙関数は、同じ対象圏の別の3次元形状において、その密に対応付けられた点に類似していると考えられる各3D点に対する部分埋め込みベクトルを生成する。 さらに,組込み部から対応する3次元点への逆関数マッピングにより,密接な対応を実現する。 いずれの関数も、複数の効果的な損失関数を併用して学習し、エンコーダが潜在符号を生成する。 推測中、ユーザがソース形状の任意の点を選択すると、アルゴリズムは、目標形状に対応しているかどうかを示す信頼度スコアと、それに対応する意味点を自動的に生成することができる。 このようなメカニズムは、本質的に異なる構成の人工物に利益をもたらす。 提案手法の有効性は,教師なし3次元意味対応と形状セグメンテーションによって実証される。

The goal of this paper is to learn dense 3D shape correspondence for topology-varying objects in an unsupervised manner. Conventional implicit functions estimate the occupancy of a 3D point given a shape latent code. Instead, our novel implicit function produces a part embedding vector for each 3D point, which is assumed to be similar to its densely corresponded point in another 3D shape of the same object category. Furthermore, we implement dense correspondence through an inverse function mapping from the part embedding to a corresponded 3D point. Both functions are jointly learned with several effective loss functions to realize our assumption, together with the encoder generating the shape latent code. During inference, if a user selects an arbitrary point on the source shape, our algorithm can automatically generate a confidence score indicating whether there is a correspondence on the target shape, as well as the corresponding semantic point if there is one. Such a mechanism inherently benefits man-made objects with different part constitutions. The effectiveness of our approach is demonstrated through unsupervised 3D semantic correspondence and shape segmentation.
翻訳日:2022-10-03 23:20:27 公開日:2020-10-26
# 不規則サンプリングされた医療時系列データのための深層学習手法の検討

A Review of Deep Learning Methods for Irregularly Sampled Medical Time Series Data ( http://arxiv.org/abs/2010.12493v2 )

ライセンス: Link先を確認
Chenxi Sun, Shenda Hong, Moxian Song and Hongyan Li(参考訳) 不規則サンプリング時系列(ISTS)データは、観測とシーケンス間の異なるサンプリング率の間に不規則な時間間隔を持つ。 ISTSは一般的に医療、経済学、地球科学に現れる。 特に医療環境では、広く使われている電子健康記録(EHR)は、典型的に不規則にサンプリングされた医療時系列データ(ISMTS)が豊富である。 EHRデータを用いたディープラーニング手法の開発は、パーソナライズされた治療、正確な診断、医療管理に不可欠である。 しかし、ISMTSデータに直接ディープラーニングモデルを使用することは困難である。 一方、ISMTSデータはシリーズ内およびシリーズ間関係を持つ。 地域構造もグローバル構造も考慮すべきである。 一方,タスク精度とモデル複雑性のトレードオフを考慮し,汎用性と解釈可能性を維持する必要がある。 これまでのところ、多くの既存の作品が上記の問題を解決しようと試みており、良好な成果を上げている。 本稿では,これらの深層学習手法を,技術とタスクの観点から概観する。 技術主導の観点では、データベースメソッドの欠如と生データベースメソッドの2つのカテゴリにまとめる。 タスク駆動の観点からは、データインプテーション指向とダウンストリームタスク指向の2つのカテゴリにまとめます。 それぞれが彼らの長所と短所を指摘します。 さらに、いくつかの代表的な方法を実装し、4つの医療データセットで2つのタスクと比較する。 最後に,この分野の課題と機会について論じる。

Irregularly sampled time series (ISTS) data has irregular temporal intervals between observations and different sampling rates between sequences. ISTS commonly appears in healthcare, economics, and geoscience. Especially in the medical environment, the widely used Electronic Health Records (EHRs) have abundant typical irregularly sampled medical time series (ISMTS) data. Developing deep learning methods on EHRs data is critical for personalized treatment, precise diagnosis and medical management. However, it is challenging to directly use deep learning models for ISMTS data. On the one hand, ISMTS data has the intra-series and inter-series relations. Both the local and global structures should be considered. On the other hand, methods should consider the trade-off between task accuracy and model complexity and remain generality and interpretability. So far, many existing works have tried to solve the above problems and have achieved good results. In this paper, we review these deep learning methods from the perspectives of technology and task. Under the technology-driven perspective, we summarize them into two categories - missing data-based methods and raw data-based methods. Under the task-driven perspective, we also summarize them into two categories - data imputation-oriented and downstream task-oriented. For each of them, we point out their advantages and disadvantages. Moreover, we implement some representative methods and compare them on four medical datasets with two tasks. Finally, we discuss the challenges and opportunities in this area.
翻訳日:2022-10-03 22:00:28 公開日:2020-10-26
# マニフォールド学習に基づく構造欠陥復元のための特徴抽出

Manifold learning-based feature extraction for structural defect reconstruction ( http://arxiv.org/abs/2010.15605v1 )

ライセンス: Link先を確認
Qi Li, Dianzi Liu, Zhenghua Qian(参考訳) 超音波誘導波を用いたデータ駆動量的欠陥復元は,非破壊試験の分野で大きな可能性を示している。 本稿では,波数領域の反射係数と空間領域の欠陥プロファイルのマッピングを実現するデータ駆動教師付き学習進展として,逆導波散乱問題を再キャストする,効率的な深層学習に基づく欠陥再構成フレームワークnetinvを開発した。 従来の欠陥修復法に比べて提案手法が優れていることがいくつかの例で示されている。 結果から,NetInvは高い品質の欠陥プロファイルを顕著な効率で達成し,機械学習を用いた効率的なデータ駆動型構造的健康モニタリングと欠陥再構築の開発に関する貴重な知見を提供する。

Data-driven quantitative defect reconstructions using ultrasonic guided waves has recently demonstrated great potential in the area of non-destructive testing. In this paper, we develop an efficient deep learning-based defect reconstruction framework, called NetInv, which recasts the inverse guided wave scattering problem as a data-driven supervised learning progress that realizes a mapping between reflection coefficients in wavenumber domain and defect profiles in the spatial domain. The superiorities of the proposed NetInv over conventional reconstruction methods for defect reconstruction have been demonstrated by several examples. Results show that NetInv has the ability to achieve the higher quality of defect profiles with remarkable efficiency and provides valuable insight into the development of effective data driven structural health monitoring and defect reconstruction using machine learning.
翻訳日:2022-10-02 20:28:22 公開日:2020-10-26
# ロボット映画作曲家「shimon」と「deepscore」 : 視覚分析に基づく映画スコア生成のためのlstm

Shimon the Robot Film Composer and DeepScore: An LSTM for Generation of Film Scores based on Visual Analysis ( http://arxiv.org/abs/2011.07953v1 )

ライセンス: Link先を確認
Richard Savery, Gil Weinberg(参考訳) 映画の作曲には、映画やそのキャラクター、監督による映画の美的選択について理解を深める必要がある。 本稿では,映画音楽生成のコア技術として,既存の視覚分析システムを提案する。 我々は、主人公とその感情を含む映画の特徴を抽出し、映画の物語の弧をコンピュータで理解する。 このアークは、ペーシングや動きのレベルを含む視覚的に分析されたディレクターの美的選択と組み合わせられる。 ロボット映画作曲家とマリンビストを使ってリアルタイムで映画スコアを生成する2つのシステムを紹介した。 第2のソフトウェアベースのシステムは、ロボット映画作曲家の成果に基づいて、物語駆動映画スコアを作成する。

Composing for a film requires developing an understanding of the film, its characters and the film aesthetic choices made by the director. We propose using existing visual analysis systems as a core technology for film music generation. We extract film features including main characters and their emotions to develop a computer understanding of the film's narrative arc. This arc is combined with visually analyzed director aesthetic choices including pacing and levels of movement. Two systems are presented, the first using a robotic film composer and marimbist to generate film scores in real-time performance. The second software-based system builds on the results from the robot film composer to create narrative driven film scores.
翻訳日:2022-10-02 20:26:45 公開日:2020-10-26
# アンカー参照サンプルを用いた順序回帰による発音評価の改善

Improving pronunciation assessment via ordinal regression with anchored reference samples ( http://arxiv.org/abs/2010.13339v1 )

ライセンス: Link先を確認
Bin Su, Shaoguang Mao, Frank Soong, Yan Xia, Jonathan Tien and Zhiyong Wu(参考訳) 文レベルの発音評価はコンピュータ支援言語学習(CALL)において重要である。 従来の発音評価は、gop(goodness of pronunciation)アルゴリズムに基づいており、音声発話の評価にいくつかの弱点がある。 1) 音素gopスコアは,有効評価のための単純な平均値で容易に文スコアに翻訳できない。 2) ランクの順序付け情報は, 適度な評価を行い, 人格評価とよく関連づけるために, gopスコアにはあまり活用されていない。 本稿では,平均 GOP (aGOP) と混乱 GOP (cGOP) の2つの新しい統計特徴について提案し,それを用いて正規回帰(Ordinal Regression with Anchored Reference Samples (ORARS))のバイナリ分類器を訓練する。 提案手法をMicrosoft mTutor ESL データセットで検証すると,従来の GOP モデルに比べてピアソン相関係数が26.9%向上した。 パフォーマンスは人間レベルか、人間のレーダよりも優れています。

Sentence level pronunciation assessment is important for Computer Assisted Language Learning (CALL). Traditional speech pronunciation assessment, based on the Goodness of Pronunciation (GOP) algorithm, has some weakness in assessing a speech utterance: 1) Phoneme GOP scores cannot be easily translated into a sentence score with a simple average for effective assessment; 2) The rank ordering information has not been well exploited in GOP scoring for delivering a robust assessment and correlate well with a human rater's evaluations. In this paper, we propose two new statistical features, average GOP (aGOP) and confusion GOP (cGOP) and use them to train a binary classifier in Ordinal Regression with Anchored Reference Samples (ORARS). When the proposed approach is tested on Microsoft mTutor ESL Dataset, a relative improvement of Pearson correlation coefficient of 26.9% is obtained over the conventional GOP-based one. The performance is at a human-parity level or better than human raters.
翻訳日:2022-10-02 20:26:33 公開日:2020-10-26
# 音声フィンガープリントのための教師なし学習

Contrastive Unsupervised Learning for Audio Fingerprinting ( http://arxiv.org/abs/2010.13540v1 )

ライセンス: Link先を確認
Zhesong Yu, Xingjian Du, Bilei Zhu, Zejun Ma(参考訳) ビデオ共有プラットフォームの台頭により、動画を撮影してインターネットにアップロードする人がますます増えている。 これらのビデオは、主に注意深く編集されたバックグラウンドオーディオトラックを含んでおり、深刻な音声変化、ピッチシフト、様々な種類のオーディオ効果が関与し、既存のオーディオ識別システムはオーディオを認識できない可能性がある。 そこで本稿では,音声フィンガープリント(AFP)の課題に対して,コントラスト学習という概念を導入する。 コントラスト学習は、類似したサンプルを効果的にグループ化し、類似したものを識別できる表現を学ぶための教師なしのアプローチである。 本研究では、オーディオトラックとその変形したバージョンを類似としつつ、異なるオーディオトラックを類似と捉えた。 モーメントコントラスト(MoCo)の枠組みに基づいて,識別的かつ堅牢な指紋を生成できるAFPのコントラスト学習手法を考案した。 実験の結果,afp法が音響同定に有効であり,音速変化やピッチシフトの難易度などの重大な音響歪みに対する頑健性が示された。

The rise of video-sharing platforms has attracted more and more people to shoot videos and upload them to the Internet. These videos mostly contain a carefully-edited background audio track, where serious speech change, pitch shifting and various types of audio effects may involve, and existing audio identification systems may fail to recognize the audio. To solve this problem, in this paper, we introduce the idea of contrastive learning to the task of audio fingerprinting (AFP). Contrastive learning is an unsupervised approach to learn representations that can effectively group similar samples and discriminate dissimilar ones. In our work, we consider an audio track and its differently distorted versions as similar while considering different audio tracks as dissimilar. Based on the momentum contrast (MoCo) framework, we devise a contrastive learning method for AFP, which can generate fingerprints that are both discriminative and robust. A set of experiments showed that our AFP method is effective for audio identification, with robustness to serious audio distortions, including the challenging speed change and pitch shifting.
翻訳日:2022-10-02 20:25:17 公開日:2020-10-26
# 機械学習による中性多環芳香族炭化水素の赤外スペクトル

Infrared spectra of neutral polycyclic aromatic hydrocarbons by machine learning ( http://arxiv.org/abs/2010.13686v1 )

ライセンス: Link先を確認
Ga\'etan Laurens and Malalatiana Rabary and Julien Lam and Daniel Pel\'aez and Abdul-Rahman Allouche(参考訳) 多環芳香族炭化水素(PAHs)の関心は様々な分野に及び、赤外分光法は分子構造を解離させる方法である。 振動周波数を計算するために、多くの理論的研究は量子計算法または経験的ポテンシャルを用いているが、第1のアプローチの精度と第2の計算コストを組み合わせることは困難である。 本研究では,ニューラルネットワーク(ann)アーキテクチャに基づく潜在的エネルギー面と双極子マッピングを開発するために,機械学習技術を用いた。 また、11個の小さなPAH分子のみを訓練しながら、得られたANNはこれらの小分子の赤外スペクトルを回収することができるが、より重要なのは、トレーニングセットとは異なる8個の大きなPAHのうちの1つであり、我々のアプローチの伝達可能性を示している。

The Interest in polycyclic aromatic hydrocarbons (PAHs) spans numerous fields and infrared spectroscopy is usually the method of choice to disentangle their molecular structure. In order to compute vibrational frequencies, numerous theoretical studies employ either quantum calculation methods, or empirical potentials, but it remains difficult to combine the accuracy of the first approach with the computational cost of the second. In this work, we employed Machine Learning techniques to develop a potential energy surface and a dipole mapping based on an artificial neural network (ANN) architecture. Altogether, while trained on only 11 small PAH molecules, the obtained ANNs are able to retrieve the infrared spectra of those small molecules, but more importantly of 8 large PAHs different from the training set, thus demonstrating the transferability of our approach.
翻訳日:2022-10-02 20:24:57 公開日:2020-10-26
# マルチプレイヤーゲームにおける非regret学習におけるTight last-iterate convergence rate

Tight last-iterate convergence rates for no-regret learning in multi-player games ( http://arxiv.org/abs/2010.13724v1 )

ライセンス: Link先を確認
Noah Golowich, Sarath Pattathil, Constantinos Daskalakis(参考訳) マルチプレイヤーゲームにおける学習アルゴリズムにおいて,最終段階の収束率を求める。 定常的なステップサイズを持つ楽観的勾配(OG)アルゴリズムは,スムーズなモノトーンゲームにおけるギャップ関数に対して,O(1/\sqrt{T})$の最終定値レートを達成できることを示す。 この結果は、Mertikopoulos & Zhou (2018) の問題に対処し、マルチエージェント学習環境における保証を改善するために、(OGのような)漸進的なアプローチを適用することができるかどうかを問うた。 上界の証明は、各反復におけるポテンシャル関数の適応的選択を中心にした新しい手法を用いる。 また、O(1/\sqrt{T})$レートは、特別なケースとしてOGを含む全ての$p$-SCLIアルゴリズムに対して厳密であることを示す。 下限解析の副産物として、さらに以前のアプローチよりも直接的であるarjevani et al. (2015) の予想の証明を示す。

We study the question of obtaining last-iterate convergence rates for no-regret learning algorithms in multi-player games. We show that the optimistic gradient (OG) algorithm with a constant step-size, which is no-regret, achieves a last-iterate rate of $O(1/\sqrt{T})$ with respect to the gap function in smooth monotone games. This result addresses a question of Mertikopoulos & Zhou (2018), who asked whether extra-gradient approaches (such as OG) can be applied to achieve improved guarantees in the multi-agent learning setting. The proof of our upper bound uses a new technique centered around an adaptive choice of potential function at each iteration. We also show that the $O(1/\sqrt{T})$ rate is tight for all $p$-SCLI algorithms, which includes OG as a special case. As a byproduct of our lower bound analysis we additionally present a proof of a conjecture of Arjevani et al. (2015) which is more direct than previous approaches.
翻訳日:2022-10-02 20:18:07 公開日:2020-10-26
# 誤り訂正符号によるニューラルネットワークへのロバストで検証可能な情報埋め込み攻撃

Robust and Verifiable Information Embedding Attacks to Deep Neural Networks via Error-Correcting Codes ( http://arxiv.org/abs/2010.13751v1 )

ライセンス: Link先を確認
Jinyuan Jia, Binghui Wang, Neil Zhenqiang Gong(参考訳) ディープラーニングの時代、ユーザは、サードパーティの機械学習ツールを利用してディープニューラルネットワーク(DNN)分類器を訓練し、その分類器をエンドユーザのソフトウェア製品やクラウドサービスとしてデプロイする。 情報埋め込み攻撃では、攻撃者は悪意のあるサードパーティ機械学習ツールのプロバイダである。 攻撃者は訓練中にDNN分類器にメッセージを埋め込み、ユーザがそれをデプロイした後、ブラックボックス分類器のAPIをクエリすることでメッセージを回復する。 情報埋め込み攻撃は、DNN分類器の透かしやユーザのプライバシの妥協など、様々な応用によって注目を集めている。 最先端の情報埋め込み攻撃には2つの重要な制限がある。 1) 復元したメッセージの正確性を検証することができない。 2) 分類器の処理後に対して頑健ではない。 本研究では,一般的なポストプロセッシング手法に対して検証可能で堅牢な情報埋め込み攻撃を設計することを目的とする。 具体的には、サイクリック冗長チェックを利用して、回収されたメッセージの正確性を検証する。 さらに,後処理に対して頑健であるために,誤り訂正符号の一種であるturbo codesを利用して,dnn分類器に埋め込む前にメッセージをエンコードする。 我々は,クエリを保存するために分類器を適応的にクエリすることで,メッセージを回復することを提案する。 適応的回復戦略は部分符号による誤り訂正をサポートするターボ符号の特性を利用する。 我々は、シミュレートされたメッセージを用いて情報埋め込み攻撃を評価し、3つのアプリケーションに適用する。 分類器を後処理する8つの一般的な方法を考える。 以上の結果から,我々の攻撃はすべてのシナリオにおいて正確かつ検証可能なメッセージ復元が可能であり,多くのシナリオにおいて最先端の攻撃は正確にメッセージを復元できないことがわかった。

In the era of deep learning, a user often leverages a third-party machine learning tool to train a deep neural network (DNN) classifier and then deploys the classifier as an end-user software product or a cloud service. In an information embedding attack, an attacker is the provider of a malicious third-party machine learning tool. The attacker embeds a message into the DNN classifier during training and recovers the message via querying the API of the black-box classifier after the user deploys it. Information embedding attacks have attracted growing attention because of various applications such as watermarking DNN classifiers and compromising user privacy. State-of-the-art information embedding attacks have two key limitations: 1) they cannot verify the correctness of the recovered message, and 2) they are not robust against post-processing of the classifier. In this work, we aim to design information embedding attacks that are verifiable and robust against popular post-processing methods. Specifically, we leverage Cyclic Redundancy Check to verify the correctness of the recovered message. Moreover, to be robust against post-processing, we leverage Turbo codes, a type of error-correcting codes, to encode the message before embedding it to the DNN classifier. We propose to recover the message via adaptively querying the classifier to save queries. Our adaptive recovery strategy leverages the property of Turbo codes that supports error correcting with a partial code. We evaluate our information embedding attacks using simulated messages and apply them to three applications, where messages have semantic interpretations. We consider 8 popular methods to post-process the classifier. Our results show that our attacks can accurately and verifiably recover the messages in all considered scenarios, while state-of-the-art attacks cannot accurately recover the messages in many scenarios.
翻訳日:2022-10-02 20:17:45 公開日:2020-10-26
# モデル評価におけるフェアネスの解釈的評価

Interpretable Assessment of Fairness During Model Evaluation ( http://arxiv.org/abs/2010.13782v1 )

ライセンス: Link先を確認
Amir Sepehri and Cyrus DiCiccio(参考訳) 製品やアルゴリズムを開発する企業にとって、世界のみならず、ユーザーのサブ人口に対する潜在的な影響を理解することが重要である。 特に、ビジネスメトリクスに関して他のユーザと異なる影響を与える特定のユーザグループが存在するか、あるいはモデルが公平な懸念に従って不平等に扱うかを検出することが重要です。 本稿では,グループ類似性の特定の概念に関して,与えられたサブ集団集合におけるユーザ間の不均一性を検出する階層的クラスタリングアルゴリズムを提案する。 出力に関する統計的保証を証明し、解釈可能な結果を提供する。 本稿では,LinkedInの実際のデータに対するアルゴリズムの性能を示す。

For companies developing products or algorithms, it is important to understand the potential effects not only globally, but also on sub-populations of users. In particular, it is important to detect if there are certain groups of users that are impacted differently compared to others with regard to business metrics or for whom a model treats unequally along fairness concerns. In this paper, we introduce a novel hierarchical clustering algorithm to detect heterogeneity among users in given sets of sub-populations with respect to any specified notion of group similarity. We prove statistical guarantees about the output and provide interpretable results. We demonstrate the performance of the algorithm on real data from LinkedIn.
翻訳日:2022-10-02 20:17:05 公開日:2020-10-26
# エンド・ツー・エンド学習とゲームへの介入

End-to-End Learning and Intervention in Games ( http://arxiv.org/abs/2010.13834v1 )

ライセンス: Link先を確認
Jiayang Li, Jing Yu, Yu Marco Nie, Zhaoran Wang(参考訳) 社会システムでは、エージェントの自己利益は集団的善に有害であり、時には社会的ジレンマにつながる。 このような対立を解決するために、中央設計者はシステムを再設計するか、エージェントに行動を変えるインセンティブを与えることで介入することができる。 効果的にするためには、デザイナーはエージェントが介入に対してどのように反応するかを予測しなければならない。 したがって、エージェントについて学ぶことは介入の前提条件である。 本稿では,ゲームにおける学習と介入の統一フレームワークを提案する。 我々はゲームの平衡を個々の層として配置し、それらをエンドツーエンドの最適化フレームワークに統合した。 ゲームの平衡を通した後方伝播を可能にするために,明示的および暗黙的な微分に基づく2つのアプローチを提案する。 具体的には、平衡を変分不等式 (VIs) の解として用いた。 明示的アプローチはVIの解の射影法を解き、暗黙的アプローチはVIの解の感度を利用する。 どちらのアプローチの核心は射影作用素による微分である。 さらに,両アプローチの正しさを確立し,一方のアプローチが他方よりも望ましい条件を特定する。 分析結果はいくつかの実世界の問題を用いて検証される。

In a social system, the self-interest of agents can be detrimental to the collective good, sometimes leading to social dilemmas. To resolve such a conflict, a central designer may intervene by either redesigning the system or incentivizing the agents to change their behaviors. To be effective, the designer must anticipate how the agents react to the intervention, which is dictated by their often unknown payoff functions. Therefore, learning about the agents is a prerequisite for intervention. In this paper, we provide a unified framework for learning and intervention in games. We cast the equilibria of games as individual layers and integrate them into an end-to-end optimization framework. To enable the backward propagation through the equilibria of games, we propose two approaches, respectively based on explicit and implicit differentiation. Specifically, we cast the equilibria as the solutions to variational inequalities (VIs). The explicit approach unrolls the projection method for solving VIs, while the implicit approach exploits the sensitivity of the solutions to VIs. At the core of both approaches is the differentiation through a projection operator. Moreover, we establish the correctness of both approaches and identify the conditions under which one approach is more desirable than the other. The analytical results are validated using several real-world problems.
翻訳日:2022-10-02 20:16:58 公開日:2020-10-26
# どのようにリファクタリングし、どのように文書化するか? リファクタリングドキュメンテーションの分類における教師付き機械学習アルゴリズムの利用について

How We Refactor and How We Document it? On the Use of Supervised Machine Learning Algorithms to Classify Refactoring Documentation ( http://arxiv.org/abs/2010.13890v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, Anthony Peruma, Mohamed Wiem Mkaouer, Christian Newman, Ali Ouni, Marouane Kessentini(参考訳) リファクタリングは、外部の振る舞いを変えることなく、システムの設計を改善する技術である。 リファクタリングは十分に確立され、規律化されたソフトウェアエンジニアリングの実践となり、リファクタリングが主にシステム構造を改善する必要性によって動機づけられていると仮定する多くの研究が寄せられている。 しかし、最近の研究では、開発者は設計の改善を超えて、他の開発活動にリファクタリングを組み込むことが示されている。 残念ながら、これらの研究は開発者インタビューとプロジェクトの縮小に限られています。 上記の制限に対処するため、800のjavaプロジェクトから抽出されたリファクタリングを含む大規模な111,884のコミットをマイニングし、分類することで、開発者がリファクタリングを適用する動機を理解することを目指している。 従来のBugFixとFunctionalのカテゴリとともに、これらのコミットを内部QA、外部QA、Code Smell Resolutionの3つのカテゴリに分類するように、マルチクラス分類器をトレーニングしました。 この分類はリファクタリングの本来の定義に挑戦し、設計の改善とコードの臭いの修正に特化している。 さらに,この分類結果の理解を深めるために,コミットメッセージを解析して,開発者がリファクタリングを記述するために定期的に使用するテキストパターンを抽出する。 その結果、(1)コードの臭いの修正は、開発者がコードベースをリファクタリングする主な要因ではないことがわかった。 2) リファクタリングの配布はプロダクションファイルとテストファイルで異なり、(3) 開発者は意図的にリファクタリングをターゲットにするためにいくつかのパターンを使う;(4) コミットメッセージから抽出されたテキストパターンは、開発者がリファクタリングを文書化する方法についてより適切なカバレッジを提供する。

Refactoring is the art of improving the design of a system without altering its external behavior. Refactoring has become a well established and disciplined software engineering practice that has attracted a significant amount of research presuming that refactoring is primarily motivated by the need to improve system structures. However, recent studies have shown that developers may incorporate refactorings in other development activities that go beyond improving the design. Unfortunately, these studies are limited to developer interviews and a reduced set of projects. To cope with the above-mentioned limitations, we aim to better understand what motivates developers to apply refactoring by mining and classifying a large set of 111,884 commits containing refactorings, extracted from 800 Java projects. We trained a multi-class classifier to categorize these commits into 3 categories, namely, Internal QA, External QA, and Code Smell Resolution, along with the traditional BugFix and Functional categories. This classification challenges the original definition of refactoring, being exclusive to improving the design and fixing code smells. Further, to better understand our classification results, we analyzed commit messages to extract textual patterns that developers regularly use to describe their refactorings. The results show that (1) fixing code smells is not the main driver for developers to refactoring their codebases. Refactoring is solicited for a wide variety of reasons, going beyond its traditional definition; (2) the distribution of refactorings differs between production and test files; (3) developers use several patterns to purposefully target refactoring; (4) the textual patterns, extracted from commit messages, provide better coverage for how developers document their refactorings.
翻訳日:2022-10-02 20:16:41 公開日:2020-10-26
# フィリピン大学大学院課程への入学可能性予測のための二分分類モデル

Using a Binary Classification Model to Predict the Likelihood of Enrolment to the Undergraduate Program of a Philippine University ( http://arxiv.org/abs/2010.15601v1 )

ライセンス: Link先を確認
Dr.Joseph A. Esquivel and Dr. James A. Esquivel(参考訳) K-12プログラムの最近の実施により、特にフィリピンの大学や大学は、効率的な資源管理のために計画された新入生の入学者を決定するのに困難に直面している。 入学は高等教育機関の成功要因に直接影響する。 本研究はフィリピンの大学における入所資格に影響する新入生応募者の諸特性について分析した。 受験生が施設への入学を追求する確率を評価するために,ロジスティック回帰を用いた予測モデルを開発した。 使用したデータセットは大学入学局から取得した。 事務所は、応募者の詳細を捉えるためのオンラインアプリケーションフォームを設計した。 オンラインフォームは全ての学生に配布され、多くの場合、学生は不完全な情報を提供する傾向がある。 この事実にもかかわらず、学生の特徴、および学生の位置に基づく地理的および人口統計データは、入学者決定の重要な予測要因である。 本研究の結果から, 教育機関は, 有望な学生に関する限られた情報があれば, 管理判断を補完し, クラス規模を見積もるための機械学習手法を活用でき, 資源配分の最適化が可能となり, 純学費のコントロールが向上することが示唆された。

With the recent implementation of the K to 12 Program, academic institutions, specifically, Colleges and Universities in the Philippines have been faced with difficulties in determining projected freshmen enrollees vis-a-vis decision-making factors for efficient resource management. Enrollment targets directly impacts success factors of Higher Education Institutions. This study covered an analysis of various characteristics of freshmen applicants affecting their admission status in a Philippine university. A predictive model was developed using Logistic Regression to evaluate the probability that an admitted student will pursue to enroll in the Institution or not. The dataset used was acquired from the University Admissions Office. The office designed an online application form to capture applicants' details. The online form was distributed to all student applicants, and most often, students, tend to provide incomplete information. Despite this fact, student characteristics, as well as geographic and demographic data based on the students' location are significant predictors of enrollment decision. The results of the study show that given limited information about prospective students, Higher Education Institutions can implement machine learning techniques to supplement management decisions and provide estimates of class sizes, in this way, it will allow the institution to optimize the allocation of resources and will have better control over net tuition revenue.
翻訳日:2022-10-02 20:15:47 公開日:2020-10-26
# 位相アンラッピングのための畳み込みと空間4方向LSTMネットワーク

A Joint Convolutional and Spatial Quad-Directional LSTM Network for Phase Unwrapping ( http://arxiv.org/abs/2010.13268v1 )

ライセンス: Link先を確認
Malsha V. Perera, Ashwin De Silva(参考訳) フェーズアンラッピングは、ラップされたフェーズから真のフェーズを回復することを目的とした古典的な誤った問題である。 本稿では、位相アンラッピングのための空間的四方向長項記憶(SQD-LSTM)を組み込んだ新しい畳み込みニューラルネットワーク(CNN)について、回帰問題として定式化して紹介する。 SQD-LSTMを組み込むことで、真の位相を回復する際に必須となるグローバル空間依存を学習する典型的なCNNの難しさを回避することができる。 さらに,本ネットワークを訓練するために問題特定複合損失関数を用いる。 提案手法は,SNR = 0 dBで1.3 %のルート平均正方形誤差(Normalized Root Mean Square Error)を,計算時間(0.054 s)を大幅に削減しながら,従来の手法よりも優れた性能を示した。 ネットワークはまた、トレーニング中に大規模なデータセットを必要としないため、高速で正確なフェーズアンラッピングを必要とする限られたデータを持つアプリケーションに最適である。

Phase unwrapping is a classical ill-posed problem which aims to recover the true phase from wrapped phase. In this paper, we introduce a novel Convolutional Neural Network (CNN) that incorporates a Spatial Quad-Directional Long Short Term Memory (SQD-LSTM) for phase unwrapping, by formulating it as a regression problem. Incorporating SQD-LSTM can circumvent the typical CNNs' inherent difficulty of learning global spatial dependencies which are vital when recovering the true phase. Furthermore, we employ a problem specific composite loss function to train this network. The proposed network is found to be performing better than the existing methods under severe noise conditions (Normalized Root Mean Square Error of 1.3 % at SNR = 0 dB) while spending a significantly less computational time (0.054 s). The network also does not require a large scale dataset during training, thus making it ideal for applications with limited data that require fast and accurate phase unwrapping.
翻訳日:2022-10-02 20:09:28 公開日:2020-10-26
# 量子化勾配を用いた生成逆数ネットワークの分散学習アルゴリズム

A Distributed Training Algorithm of Generative Adversarial Networks with Quantized Gradients ( http://arxiv.org/abs/2010.13359v1 )

ライセンス: Link先を確認
Xiaojun Chen and Shu Yang and Li Shen and Xuanrong Pang(参考訳) GAN(Generative Adversarial Network)を分散的にトレーニングすることは有望な技術である。 しかし、ganはsgd型手法では訓練が困難であることが知られており(収束に失敗しうる)、分散sgd型方式も通信コストの増大に苦しむことがある。 本稿では,DQGANと呼ばれる量子化勾配を持つ分散GAN学習アルゴリズムを提案する。 この新しい方法は、楽観的ミラー降下(omd)アルゴリズムと呼ばれる特定の単一機械アルゴリズムに基づいてganを訓練し、一般的な$\delta$-approximate compressorを満たす任意の勾配圧縮法に適用できる。 私たちが設計したエラーフィードバック操作は、圧縮によるバイアスを補償するために使用され、さらに、新しいメソッドの収束を確実にする。 理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、パラメータサーバモデルにおいて、提案アルゴリズムが線形高速化を実現することを示す。 実験の結果, {dqgan} アルゴリズムは合成データと実データの両方において,わずかな性能低下で通信コストを削減し,トレーニング時間を節約できることがわかった。

Training generative adversarial networks (GAN) in a distributed fashion is a promising technology since it is contributed to training GAN on a massive of data efficiently in real-world applications. However, GAN is known to be difficult to train by SGD-type methods (may fail to converge) and the distributed SGD-type methods may also suffer from massive amount of communication cost. In this paper, we propose a {distributed GANs training algorithm with quantized gradient, dubbed DQGAN,} which is the first distributed training method with quantized gradient for GANs. The new method trains GANs based on a specific single machine algorithm called Optimistic Mirror Descent (OMD) algorithm, and is applicable to any gradient compression method that satisfies a general $\delta$-approximate compressor. The error-feedback operation we designed is used to compensate for the bias caused by the compression, and moreover, ensure the convergence of the new method. Theoretically, we establish the non-asymptotic convergence of {DQGAN} algorithm to first-order stationary point, which shows that the proposed algorithm can achieve a linear speedup in the parameter server model. Empirically, our experiments show that our {DQGAN} algorithm can reduce the communication cost and save the training time with slight performance degradation on both synthetic and real datasets.
翻訳日:2022-10-02 20:08:17 公開日:2020-10-26
# ビデオレコメンデーションのためのマルチモーダルトピック学習

Multimodal Topic Learning for Video Recommendation ( http://arxiv.org/abs/2010.13373v1 )

ライセンス: Link先を確認
Shi Pu and Yijiang He and Zheng Li and Mao Zheng(参考訳) ディープニューラルネットワークに魅了されたビデオレコメンデーションシステムは、大きな進歩を遂げた。 既存のビデオレコメンデーションシステムは、ユーザー個人データ、ユーザー行動データ、ビデオタイトル、ビデオタグ、ビジュアルコンテンツなど)のさまざまな機能を直接利用してディープニューラルネットワークを入力し、これらの機能からユーザ推奨トピックをオンラインマイニングするネットワークを期待する。 しかし、セマンティックトピック情報を欠いた機能は、正確なレコメンデーション生成を制限する。 さらに、視覚的コンテンツ特徴を用いた機能横断は、ネットワークのオンライン計算効率を著しく低下させる高次元特徴を生成する。 本稿では,ビデオトピックをオフラインで生成するための3つのモダリティ(タグ,タイトル,カバーイメージ)を利用するマルチモーダルなトピック学習アルゴリズムを提案する。 提案アルゴリズムが生成するトピックは,嗜好範囲決定と推薦生成を容易にする意味的トピック特徴として機能する。 さらに,オンライン計算コストを効果的に削減するために,ビジュアルコンテンツ機能の代わりにセマンティックトピック機能を使用する。 提案するアルゴリズムはkuaibao情報ストリーミングプラットフォームにデプロイされている。 オンラインおよびオフライン評価の結果は,提案アルゴリズムが好適に動作することを示す。

Facilitated by deep neural networks, video recommendation systems have made significant advances. Existing video recommendation systems directly exploit features from different modalities (e.g., user personal data, user behavior data, video titles, video tags, and visual contents) to input deep neural networks, while expecting the networks to online mine user-preferred topics implicitly from these features. However, the features lacking semantic topic information limits accurate recommendation generation. In addition, feature crosses using visual content features generate high dimensionality features that heavily downgrade the online computational efficiency of networks. In this paper, we explicitly separate topic generation from recommendation generation, propose a multimodal topic learning algorithm to exploit three modalities (i.e., tags, titles, and cover images) for generating video topics offline. The topics generated by the proposed algorithm serve as semantic topic features to facilitate preference scope determination and recommendation generation. Furthermore, we use the semantic topic features instead of visual content features to effectively reduce online computational cost. Our proposed algorithm has been deployed in the Kuaibao information streaming platform. Online and offline evaluation results show that our proposed algorithm performs favorably.
翻訳日:2022-10-02 20:07:52 公開日:2020-10-26
# 数値データ拡張におけるオーバーフィッティングに対する制約付きジェネレーティブ・アドバイサル・ネットワーク

Restrained Generative Adversarial Network against Overfitting in Numeric Data Augmentation ( http://arxiv.org/abs/2010.13549v1 )

ライセンス: Link先を確認
Wei Wang, Yimeng Chai, Tao Cui, Chuang Wang, Baohua Zhang, Yue Li, Yi An(参考訳) 最近の研究では、GAN(Generative Adversarial Network)が画像データセットを拡大する一般的なスキームの1つである。 しかし,本研究では,gan中のジェネレータgが低次元空間における数値データの生成に失敗し,生成の過剰性に対処する。 有向グラフィカルモデル (dgm) の解析により, オーバーフィッティングを抑制するために, 損失関数の独立性という理論的拘束性を提案する。 統計拘束型GAN (SRGAN) と動的拘束型GAN (DRGAN) の2つの枠組みが提案されている。 静的構造では、G と D の特定のネットワークトポロジのペアを制約として事前定義し、その制約を Restraint (SR) の解釈可能な計量類似性によって定量化する。 DRGANでは抑制機能のための調整可能なドロップアウトモジュールを設計する。 4つの一般数値クラス不均衡データセットと5つの分類器を用いた20グループ実験において、静的および動的手法を併用すると、20から19の最良の拡張結果が得られ、両者は同時にトップ2の20グループのうち14を生成し、理論的制約の有効性と実現可能性を示した。

In recent studies, Generative Adversarial Network (GAN) is one of the popular schemes to augment the image dataset. However, in our study we find the generator G in the GAN fails to generate numerical data in lower-dimensional spaces, and we address overfitting in the generation. By analyzing the Directed Graphical Model (DGM), we propose a theoretical restraint, independence on the loss function, to suppress the overfitting. Practically, as the Statically Restrained GAN (SRGAN) and Dynamically Restrained GAN (DRGAN), two frameworks are proposed to employ the theoretical restraint to the network structure. In the static structure, we predefined a pair of particular network topologies of G and D as the restraint, and quantify such restraint by the interpretable metric Similarity of the Restraint (SR). While for DRGAN we design an adjustable dropout module for the restraint function. In the widely carried out 20 group experiments, on four public numerical class imbalance datasets and five classifiers, the static and dynamic methods together produce the best augmentation results of 19 from 20; and both two methods simultaneously generate 14 of 20 groups of the top-2 best, proving the effectiveness and feasibility of the theoretical restraints.
翻訳日:2022-10-02 20:07:33 公開日:2020-10-26
# フェデレーション学習における最適重要度サンプリング

Optimal Importance Sampling for Federated Learning ( http://arxiv.org/abs/2010.13600v1 )

ライセンス: Link先を確認
Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) フェデレートされた学習には、集中型と分散化された処理タスクが混在し、サーバがエージェントのサンプルを定期的に選択し、それらがローカルデータをサンプリングして学習更新の確率勾配を計算する。 このプロセスは継続的に実行される。 エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングを検討する。 エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。 理論的結果を説明するために回帰と分類に関する実験を行う。

Federated learning involves a mixture of centralized and decentralized processing tasks, where a server regularly selects a sample of the agents and these in turn sample their local data to compute stochastic gradients for their learning updates. This process runs continually. The sampling of both agents and data is generally uniform; however, in this work we consider non-uniform sampling. We derive optimal importance sampling strategies for both agent and data selection and show that non-uniform sampling without replacement improves the performance of the original FedAvg algorithm. We run experiments on a regression and classification problem to illustrate the theoretical results.
翻訳日:2022-10-02 20:06:48 公開日:2020-10-26
# ハニカムブロックのエッジ検出問題に対するコンピュータビジョン法の逐次処理の適用

Application of sequential processing of computer vision methods for solving the problem of detecting the edges of a honeycomb block ( http://arxiv.org/abs/2010.13837v1 )

ライセンス: Link先を確認
M V Kubrikov, I A Paulin, M V Saramud and A S Kubrikova(参考訳) この記事ではハフ変換のハニカムブロック画像への適用について述べる。 ハニカムブロックからカビを切断する問題について述べる。 多くの画像変換は、Houghアルゴリズムの効率を高めると考えられている。 単純なしきい値を用いた二値画像を得る方法、大津二値化を用いた二値画像を得る方法、およびキャニーエッジ検出アルゴリズムについて考察する。 二本骨格の方法(骨格化)は2つの主要な形態的操作(ダイレーションとエロージョン)を用いて骨格を得ると考えられる。 多くの実験の結果、元の画像を処理するための最適なシーケンスが明らかにされ、顔の最大数の座標が得られるようになった。 これにより、ハニカムブロックを切断する最適な場所を選択することができ、その結果の形状の質が向上する。

The article describes the application of the Hough transform to a honeycomb block image. The problem of cutting a mold from a honeycomb block is described. A number of image transformations are considered to increase the efficiency of the Hough algorithm. A method for obtaining a binary image using a simple threshold, a method for obtaining a binary image using Otsu binarization, and the Canny Edge Detection algorithm are considered. The method of binary skeleton (skeletonization) is considered, in which the skeleton is obtained using 2 main morphological operations: Dilation and Erosion. As a result of a number of experiments, the optimal sequence of processing the original image was revealed, which allows obtaining the coordinates of the maximum number of faces. This result allows one to choose the optimal places for cutting a honeycomb block, which will improve the quality of the resulting shapes.
翻訳日:2022-10-02 20:00:29 公開日:2020-10-26
# 半教師付き畳み込み変圧器を用いたデータ独立取得質量分析データのピーク検出

Peak Detection On Data Independent Acquisition Mass Spectrometry Data With Semisupervised Convolutional Transformers ( http://arxiv.org/abs/2010.13841v1 )

ライセンス: Link先を確認
Leon L. Xu, Hannes L. R\"ost(参考訳) 質量分析法(LC-MS)に結合した液体クロマトグラフィーは、プロテオームの高スループット、定量的な測定に一般的に用いられている。 ターゲットのlc-msは、2次元の時系列スペクトルの形でデータを生成し、一方の軸上のアナライト(m/z)の質量対電荷比と他方のクロマトグラフィーからの保持時間を持つ。 興味のあるペプチドの溶出は、複数のフラグメントイオントレース(抽出イオンクロマトグラム、xic)にまたがる非常に特異的なパターンを生み出す。 本稿では,このピーク検出問題を多変量時系列分割問題として定式化し,トランスフォーマーアーキテクチャに基づく新しいアプローチを提案する。 ここでは、CNN(Convolutional Neural Networks)を用いて、グローバルビューで長距離依存関係をキャプチャ可能なTransformerを拡張し、そのタスクの重要なローカルコンテキストを、Convolutional Self-AttentionによるTransformer形式でキャプチャする。 さらに,マルチチャネル時系列データに対して,アート半教師付き画像分類手法の状態を適応させることにより,このモデルを半教師付きで訓練する。 代表的なlc-msデータセットにおける実験は、手動アノテーションを使用してベンチマークを行い、この手法の奨励的な性能を示す。

Liquid Chromatography coupled to Mass Spectrometry (LC-MS) based methods are commonly used for high-throughput, quantitative measurements of the proteome (i.e. the set of all proteins in a sample at a given time). Targeted LC-MS produces data in the form of a two-dimensional time series spectrum, with the mass to charge ratio of analytes (m/z) on one axis, and the retention time from the chromatography on the other. The elution of a peptide of interest produces highly specific patterns across multiple fragment ion traces (extracted ion chromatograms, or XICs). In this paper, we formulate this peak detection problem as a multivariate time series segmentation problem, and propose a novel approach based on the Transformer architecture. Here we augment Transformers, which are capable of capturing long distance dependencies with a global view, with Convolutional Neural Networks (CNNs), which can capture local context important to the task at hand, in the form of Transformers with Convolutional Self-Attention. We further train this model in a semisupervised manner by adapting state of the art semisupervised image classification techniques for multi-channel time series data. Experiments on a representative LC-MS dataset are benchmarked using manual annotations to showcase the encouraging performance of our method; it outperforms baseline neural network architectures and is competitive against the current state of the art in automated peak detection.
翻訳日:2022-10-02 20:00:16 公開日:2020-10-26
# 真の歪みに対する非参照画像品質評価アルゴリズムの包括的評価

Comprehensive evaluation of no-reference image quality assessment algorithms on authentic distortions ( http://arxiv.org/abs/2011.07950v1 )

ライセンス: Link先を確認
Domonkos Varga(参考訳) 客観的画像品質評価は、デジタル画像の知覚品質の予測を扱う。 非参照画像品質評価は、所定の入力画像の品質を、そのプリスタント(歪みフリー)に関する知識や情報なしで予測する。 機械学習アルゴリズムは、人間の視覚システムの品質知覚をモデル化するのが非常に複雑であるため、非参照画像品質評価に多用されている。 さらに、公開されているベンチマークデータベース上で、非参照画像品質評価アルゴリズムを評価する。 これらのデータベースは、対応する品質スコアのイメージを含んでいる。 本研究では,複数の機械学習に基づくNR-IQA法と,真の歪みを含むデータベース上での1つの評価方法を評価する。 特に、LIVE In the WildとKonIQ-10kデータベースを適用して最先端の評価を行った。 機械学習ベースのメソッドでは、appx。 80%がトレーニングに使われ、残りの20%がテストに使用された。 さらに, PLCC, SROCC, KROCCの平均値が100以上の無作為列車試験分割を報告した。 PLCC、SROCC、KROCCの値の統計もボックスプロットを用いて公表された。 評価結果は,最先端のno-reference画像品質評価手法の理解を深める上で有用であると考えられる。

Objective image quality assessment deals with the prediction of digital images' perceptual quality. No-reference image quality assessment predicts the quality of a given input image without any knowledge or information about its pristine (distortion free) counterpart. Machine learning algorithms are heavily used in no-reference image quality assessment because it is very complicated to model the human visual system's quality perception. Moreover, no-reference image quality assessment algorithms are evaluated on publicly available benchmark databases. These databases contain images with their corresponding quality scores. In this study, we evaluate several machine learning based NR-IQA methods and one opinion unaware method on databases consisting of authentic distortions. Specifically, LIVE In the Wild and KonIQ-10k databases were applied to evaluate the state-of-the-art. For machine learning based methods, appx. 80% were used for training and the remaining 20% were used for testing. Furthermore, average PLCC, SROCC, and KROCC values were reported over 100 random train-test splits. The statistics of PLCC, SROCC, and KROCC values were also published using boxplots. Our evaluation results may be helpful to obtain a clear understanding about the status of state-of-the-art no-reference image quality assessment methods.
翻訳日:2022-10-02 19:59:53 公開日:2020-10-26
# BayCANN: ニューラルネットワークのメタモデリングによるベイズ校正の合理化

BayCANN: Streamlining Bayesian Calibration with Artificial Neural Network Metamodeling ( http://arxiv.org/abs/2010.13452v1 )

ライセンス: Link先を確認
Hawre Jalal and Fernando Alarid-Escudero(参考訳) 目的: ベイジアンキャリブレーションは, キャリブレーションパラメータの完全後部分布を明らかにすることができるため, 標準直接探索アルゴリズムよりも理論的に優れている。 しかし、ベイズ校正は実用的および計算的負担のため、健康判断科学においてはあまり使われていない。 本稿では,これらの制約に対する1つの解決策として,ニューラルネットワーク(ANN)を提案する。 方法: ニューラルネットワーク(BayCANN)を用いたベイズ校正では,(1)モデル入力と出力のサンプルに基づいてANNメタモデルをトレーニングし,(2)確率的プログラミング言語の完全モデルの代わりにトレーニングされたANNメタモデルを校正して,校正されたパラメータの後方の関節分布を求める。 大腸癌の自然史モデルを腺腫発生率と癌発生率データに校正することにより,BayCANNを実証した。 さらに,ベイカナンの効率と精度を,インクリメンタル・ミックス・プライオリティ・サンプリング(IMIS)アルゴリズムを用いて,シミュレーションモデル上でベイズ校正を行う場合と比較した。 結果: BayCANN は "true" パラメータ値の回復において IMIS よりも一般的に正確であった。 9つのパラメータのうち8つのパラメータのうち8つはIMISに比べて絶対的なANN偏差の比率が低く、ベイカNNがIMISよりも正確であることを示している。 さらに、BayCANNは80分を要したIMIS法と比較して、合計で約15分かかった。 結論: このケーススタディでは, BayCANNはIMISよりも正確で, 5倍高速であった。 baycannはシミュレーションモデルの構造に依存しないため、その構造に小さな変更を加えることで、様々なレベルの複雑さのモデルに適応することができる。 我々は,BayCANNのオープンソース実装をRで提供する。

Purpose: Bayesian calibration is theoretically superior to standard direct-search algorithm because it can reveal the full joint posterior distribution of the calibrated parameters. However, to date, Bayesian calibration has not been used often in health decision sciences due to practical and computational burdens. In this paper we propose to use artificial neural networks (ANN) as one solution to these limitations. Methods: Bayesian Calibration using Artificial Neural Networks (BayCANN) involves (1) training an ANN metamodel on a sample of model inputs and outputs, and (2) then calibrating the trained ANN metamodel instead of the full model in a probabilistic programming language to obtain the posterior joint distribution of the calibrated parameters. We demonstrate BayCANN by calibrating a natural history model of colorectal cancer to adenoma prevalence and cancer incidence data. In addition, we compare the efficiency and accuracy of BayCANN against performing a Bayesian calibration directly on the simulation model using an incremental mixture importance sampling (IMIS) algorithm. Results: BayCANN was generally more accurate than IMIS in recovering the "true" parameter values. The ratio of the absolute ANN deviation from the truth compared to IMIS for eight out of the nine calibrated parameters were less than one indicating that BayCANN was more accurate than IMIS. In addition, BayCANN took about 15 minutes total compared to the IMIS method which took 80 minutes. Conclusions: In our case study, BayCANN was more accurate than IMIS and was five-folds faster. Because BayCANN does not depend on the structure of the simulation model, it can be adapted to models of various levels of complexity with minor changes to its structure. We provide BayCANN's open-source implementation in R.
翻訳日:2022-10-02 19:58:29 公開日:2020-10-26
# 局所グランガー因果関係

Local Granger Causality ( http://arxiv.org/abs/2010.13833v1 )

ライセンス: Link先を確認
Sebastiano Stramaglia, Tomas Scagliarini, Yuri Antonacci, Luca Faes(参考訳) グランジャー因果関係はベクトル自己回帰による予測に基づく因果影響の統計的概念である。 ガウス変数は、共同依存プロセス間の時間指向情報伝達の情報理論測度である転送エントロピーと等価である。 このような等価性を利用して、ガウス過程における各離散時間点における情報伝達のプロファイルを正確に'局所グランガー因果性'を計算する。 本手法は,線形確率過程の時間履歴とガウス近似で研究された非線形複素系に沿って情報伝達を行うためのロバストで計算速度の速い手法を提供する。

Granger causality is a statistical notion of causal influence based on prediction via vector autoregression. For Gaussian variables it is equivalent to transfer entropy, an information-theoretic measure of time-directed information transfer between jointly dependent processes. We exploit such equivalence and calculate exactly the 'local Granger causality', i.e. the profile of the information transfer at each discrete time point in Gaussian processes; in this frame Granger causality is the average of its local version. Our approach offers a robust and computationally fast method to follow the information transfer along the time history of linear stochastic processes, as well as of nonlinear complex systems studied in the Gaussian approximation.
翻訳日:2022-10-02 19:58:01 公開日:2020-10-26
# 複雑な疾患の遺伝データ解析のための期待型ニューラルネットワーク

Expectile Neural Networks for Genetic Data Analysis of Complex Diseases ( http://arxiv.org/abs/2010.13898v1 )

ライセンス: Link先を確認
Jinghang Lin, Xiaoran Tong, Chenxi Li, Qing Lu(参考訳) 共通疾患の遺伝的病因は非常に複雑で異種である。 線形回帰のような古典的な統計手法は、複雑な疾患に関連する多くの遺伝的変異を同定することに成功している。 しかしながら、ほとんどの複雑な疾患では、同定された変異はわずかに遺伝性しか考慮していない。 複雑な疾患に寄与する追加の変種を発見するのが課題である。 期待回帰は線形回帰の一般化であり、興味の表現型の条件分布に関する完全な情報を提供する。 期待レグレッションは多くの優れた性質を持ち、遺伝データ解析(例えば、高リスク集団に先立つ遺伝的変異の研究)に非常に有望であるが、遺伝研究ではほとんど使われていない。 本稿では,複雑な疾患の遺伝子解析のための予測型ニューラルネットワーク(ENN)を開発した。 期待回帰と同様に、ennは遺伝子変異体と疾患表現型との関係を包括的に観察し、亜集団(例えば高リスク群)に先行する遺伝的変異体の発見に使用できる。 さらに、ニューラルネットワークのアイデアをENNに統合し、非線形および非付加的な遺伝的効果(遺伝子-遺伝子相互作用など)を捉えることができる。 シミュレーションにより,遺伝子変異と疾患表現型との間に複雑な関係がある場合,提案手法は既存の予測回帰よりも優れていた。 また,提案手法を依存症:遺伝学および環境(sage)の研究から得られた遺伝データに適用し,候補遺伝子と喫煙量との関係について検討した。

The genetic etiologies of common diseases are highly complex and heterogeneous. Classic statistical methods, such as linear regression, have successfully identified numerous genetic variants associated with complex diseases. Nonetheless, for most complex diseases, the identified variants only account for a small proportion of heritability. Challenges remain to discover additional variants contributing to complex diseases. Expectile regression is a generalization of linear regression and provides completed information on the conditional distribution of a phenotype of interest. While expectile regression has many nice properties and holds great promise for genetic data analyses (e.g., investigating genetic variants predisposing to a high-risk population), it has been rarely used in genetic research. In this paper, we develop an expectile neural network (ENN) method for genetic data analyses of complex diseases. Similar to expectile regression, ENN provides a comprehensive view of relationships between genetic variants and disease phenotypes and can be used to discover genetic variants predisposing to sub-populations (e.g., high-risk groups). We further integrate the idea of neural networks into ENN, making it capable of capturing non-linear and non-additive genetic effects (e.g., gene-gene interactions). Through simulations, we showed that the proposed method outperformed an existing expectile regression when there exist complex relationships between genetic variants and disease phenotypes. We also applied the proposed method to the genetic data from the Study of Addiction: Genetics and Environment(SAGE), investigating the relationships of candidate genes with smoking quantity.
翻訳日:2022-10-02 19:51:34 公開日:2020-10-26
# 3つの計算モデルとその等価性

Three computational models and its equivalence ( http://arxiv.org/abs/2010.15600v1 )

ライセンス: Link先を確認
Ciro Ivan Garcia Lopez(参考訳) 計算可能性の研究は、1900年のヒルベルトの会議でその起源を定めており、そこで彼が質問した質問とは、アルゴリズムの概念を正確に記述することである。 良い定義を求める中で、チューリングとチューリングマシン、G\"odelと再帰関数、チャーチとLambda Calculusという3つの独立した理論が生まれた。 後にクリーネによって古典計算のモデルが等価であると確立された。 この事実は多くの教科書で広く受け入れられており、証明は退屈で読めないため、証明は省略されている。 数学的詳細を忘れずに、現代の方法で証明を提示するこのギャップを埋めるつもりです。

The study of computability has its origin in Hilbert's conference of 1900, where an adjacent question, to the ones he asked, is to give a precise description of the notion of algorithm. In the search for a good definition arose three independent theories: Turing and the Turing machines, G\"odel and the recursive functions, Church and the Lambda Calculus. Later there were established by Kleene that the classic models of computation are equivalent. This fact is widely accepted by many textbooks and the proof is omitted since the proof is tedious and unreadable. We intend to fill this gap presenting the proof in a modern way, without forgetting the mathematical details.
翻訳日:2022-10-02 19:50:06 公開日:2020-10-26
# ActiveNet: レジャーギーを決定するコンピュータビジョンベースのアプローチ

ActiveNet: A computer-vision based approach to determine lethargy ( http://arxiv.org/abs/2010.13714v1 )

ライセンス: Link先を確認
Aitik Gupta, Aadit Agarwal(参考訳) 新型コロナウイルス(COVID-19)の感染拡大により、誰もが屋内に滞在せざるを得なくなった。 本研究は, 対象者の単眼画像を用いて, バックボーン機構を定式化し, リアルタイムに活動レベルを検出することを目的としている。 このスコープは、インタビューやオンラインクラス、セキュリティ監視など、多くのアプリケーションで一般化することができる。 そこで本研究では,まず人物の姿勢を検知し,新しい手法で符号化し,その後,古典的機械学習アルゴリズムで評価し,アクティブネスのレベルを判定する,コンピュータビジョンに基づく多段階アプローチを提案する。 警告システムは、関連する個人に通知通知を送ることによって、不健康を防ぐソリューションを提供するために、アプローチの周りにラップされている。

The outbreak of COVID-19 has forced everyone to stay indoors, fabricating a significant drop in physical activeness. Our work is constructed upon the idea to formulate a backbone mechanism, to detect levels of activeness in real-time, using a single monocular image of a target person. The scope can be generalized under many applications, be it in an interview, online classes, security surveillance, et cetera. We propose a Computer Vision based multi-stage approach, wherein the pose of a person is first detected, encoded with a novel approach, and then assessed by a classical machine learning algorithm to determine the level of activeness. An alerting system is wrapped around the approach to provide a solution to inhibit lethargy by sending notification alerts to individuals involved.
翻訳日:2022-10-02 19:49:00 公開日:2020-10-26
# 疎非線形回帰の高速近似学習

Learning Fast Approximations of Sparse Nonlinear Regression ( http://arxiv.org/abs/2010.13490v1 )

ライセンス: Link先を確認
Yuhai Song, Zhong Cao, Kailun Wu, Ziang Yan, Changshui Zhang(参考訳) 深層ニューラルネットワークとしての反復的アルゴリズムの展開という考え方は、スパース符号問題の解決に広く応用されており、収束速度の固い理論解析と優れた経験的性能の両方を提供している。 しかし、疎非線形回帰問題では、非線形性の複雑さのため、同様のアイデアはめったに利用されない。 本研究では,非線形学習による反復的縮小しきい値化アルゴリズム(nlista)を導入することで,このギャップを埋める。 合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。

The idea of unfolding iterative algorithms as deep neural networks has been widely applied in solving sparse coding problems, providing both solid theoretical analysis in convergence rate and superior empirical performance. However, for sparse nonlinear regression problems, a similar idea is rarely exploited due to the complexity of nonlinearity. In this work, we bridge this gap by introducing the Nonlinear Learned Iterative Shrinkage Thresholding Algorithm (NLISTA), which can attain a linear convergence under suitable conditions. Experiments on synthetic data corroborate our theoretical results and show our method outperforms state-of-the-art methods.
翻訳日:2022-10-02 19:42:48 公開日:2020-10-26
# コントラストグラフニューラルネットワークの説明

Contrastive Graph Neural Network Explanation ( http://arxiv.org/abs/2010.13663v1 )

ライセンス: Link先を確認
Lukas Faber, Amin K. Moghaddam, Roger Wattenhofer(参考訳) グラフニューラルネットワークは構造化データの問題に対して顕著な結果をもたらすが、ブラックボックス予測器として現れる。 隠蔽のような既存の説明手法の転送は、単一ノードやエッジを削除してもグラフに劇的な変化をもたらす可能性があるため失敗する。 結果として得られるグラフは、すべてのトレーニング例と異なり、モデルの混乱と誤った説明を引き起こします。 したがって、説明可能性にはトレーニングデータの基礎となる分布に準拠するグラフを使わなければならない。 本稿では,この特性分布対応説明法(DCE)を考案し,このパラダイムに倣い,新しいコントラストGNN説明法(CoGE)技術を提案する。 実験的研究はCoGEの有効性を支持する。

Graph Neural Networks achieve remarkable results on problems with structured data but come as black-box predictors. Transferring existing explanation techniques, such as occlusion, fails as even removing a single node or edge can lead to drastic changes in the graph. The resulting graphs can differ from all training examples, causing model confusion and wrong explanations. Thus, we argue that explicability must use graphs compliant with the distribution underlying the training data. We coin this property Distribution Compliant Explanation (DCE) and present a novel Contrastive GNN Explanation (CoGE) technique following this paradigm. An experimental study supports the efficacy of CoGE.
翻訳日:2022-10-02 19:41:59 公開日:2020-10-26
# 強化学習によるヘテロジニアスグラフニューラルネットワーク

Reinforcement Learning Enhanced Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2010.13735v1 )

ライセンス: Link先を確認
Zhiqiang Zhong and Cheng-Te Li and Jun Pang(参考訳) ノードタイプと関係型の多様性を含む異種情報ネットワーク(HIN)は,多くの実世界のアプリケーションにおいて普及している。 近年,HIN にリッチな構造情報や意味情報を低次元ノード表現に組み込むヘテロジニアスグラフ表現学習 (HGRL) に注目が集まっている。 現在、ほとんどのHGRLモデルは、与えられたHINの基盤となるセマンティクスをキャプチャするために、メタパスを手動でカスタマイズしている。 しかし、手作りのメタパスへの依存は、複雑でセマンティックなHINを得るのは非常に難しい、豊富なドメイン知識を必要とする。 さらに、厳密に定義されたメタパスは、HGRLのHINにおけるより包括的な情報へのアクセスを制限する。 HGRLのパワーを完全に解き放つために、HIN内のノードごとに異なるメタパスを設計するための強化学習強化ヘテロジニアスグラフニューラルネットワーク(RL-HGNN)を提案する。 具体的には、RL-HGNNは、メタパス設計プロセスをマルコフ決定プロセスとしてモデル化し、ポリシーネットワークを使用して各ノードのメタパスを適応的に設計し、その効果的な表現を学習する。 政策ネットワークは、下流タスクにおけるモデルの性能を利用して、深い強化学習で訓練される。 さらに,メタパス設計手順の改善とトレーニングプロセスの高速化を目的とした拡張RL-HGNN++を提案する。 実験の結果、RL-HGNNの有効性が示され、人間の知識によって無視された有意義なメタパスを識別できることが判明した。

Heterogeneous Information Networks (HINs), involving a diversity of node types and relation types, are pervasive in many real-world applications. Recently, increasing attention has been paid to heterogeneous graph representation learning (HGRL) which aims to embed rich structural and semantics information in HIN into low-dimensional node representations. To date, most HGRL models rely on manual customisation of meta paths to capture the semantics underlying the given HIN. However, the dependency on the handcrafted meta-paths requires rich domain knowledge which is extremely difficult to obtain for complex and semantic rich HINs. Moreover, strictly defined meta-paths will limit the HGRL's access to more comprehensive information in HINs. To fully unleash the power of HGRL, we present a Reinforcement Learning enhanced Heterogeneous Graph Neural Network (RL-HGNN), to design different meta-paths for the nodes in a HIN. Specifically, RL-HGNN models the meta-path design process as a Markov Decision Process and uses a policy network to adaptively design a meta-path for each node to learn its effective representations. The policy network is trained with deep reinforcement learning by exploiting the performance of the model on a downstream task. We further propose an extension, RL-HGNN++, to ameliorate the meta-path design procedure and accelerate the training process. Experimental results demonstrate the effectiveness of RL-HGNN, and reveals that it can identify meaningful meta-paths that would have been ignored by human knowledge.
翻訳日:2022-10-02 19:41:48 公開日:2020-10-26
# T$^2$-Net:乱流予測のための半教師付き深層モデル

T$^2$-Net: A Semi-supervised Deep Model for Turbulence Forecasting ( http://arxiv.org/abs/2010.13903v1 )

ライセンス: Link先を確認
Denghui Zhang, Yanchi Liu, Wei Cheng, Bo Zong, Jingchao Ni, Zhengzhang Chen, Haifeng Chen, Hui Xiong(参考訳) 正確な空気乱流予測は、航空会社が危険な乱流を避けるのに役立ち、乗客を安全に保つルートを案内し、効率を最大化し、コストを削減できる。 従来の乱流予測手法は、動的で複雑な気象条件では効果の低い、高度にカスタマイズされた乱流指数に大きく依存している。 近年の高解像度気象データと乱流記録は、より正確なデータ駆動による乱流予測を可能にする。 しかし, 複雑な時空間相関, 複雑な時空間パターンによる気流に起因する乱流, ラベル不足, 非常に限られた乱流ラベルの2つの課題により, 機械学習に基づく乱流予測システムの開発は, 容易ではない。 そこで本稿では,上記の課題を解決するために,半教師付きフレームワークt$^2$-netを開発した。 具体的には、まず畳み込みLSTMに基づくエンコーダ-デコーダパラダイムを構築し、時空間相関をモデル化する。 そこで, ラベル不足問題に対処するために, 大規模未ラベル乱流データを利用した新しいDual Label Guessing法を提案する。 主乱流予測タスクと補助乱流検出タスクからの補完信号を統合して擬似ラベルを生成し、追加訓練データとして動的に活用する。 最後に,実世界の乱流データを用いて,乱流予測における手法の優位性を検証した。

Accurate air turbulence forecasting can help airlines avoid hazardous turbulence, guide the routes that keep passengers safe, maximize efficiency, and reduce costs. Traditional turbulence forecasting approaches heavily rely on painstakingly customized turbulence indexes, which are less effective in dynamic and complex weather conditions. The recent availability of high-resolution weather data and turbulence records allows more accurate forecasting of the turbulence in a data-driven way. However, it is a non-trivial task for developing a machine learning based turbulence forecasting system due to two challenges: (1) Complex spatio-temporal correlations, turbulence is caused by air movement with complex spatio-temporal patterns, (2) Label scarcity, very limited turbulence labels can be obtained. To this end, in this paper, we develop a unified semi-supervised framework, T$^2$-Net, to address the above challenges. Specifically, we first build an encoder-decoder paradigm based on the convolutional LSTM to model the spatio-temporal correlations. Then, to tackle the label scarcity problem, we propose a novel Dual Label Guessing method to take advantage of massive unlabeled turbulence data. It integrates complementary signals from the main Turbulence Forecasting task and the auxiliary Turbulence Detection task to generate pseudo-labels, which are dynamically utilized as additional training data. Finally, extensive experimental results on a real-world turbulence dataset validate the superiority of our method on turbulence forecasting.
翻訳日:2022-10-02 19:40:46 公開日:2020-10-26
# ダブルQラーニングによるUAV-BSのエネルギー・サービス優先性を考慮した軌道設計

Energy and Service-priority aware Trajectory Design for UAV-BSs using Double Q-Learning ( http://arxiv.org/abs/2010.13346v1 )

ライセンス: Link先を確認
Sayed Amir Hoseini and Ayub Bokani and Jahan Hassan and Shavbo Salehi and Salil S. Kanhere(参考訳) 次世代モバイルネットワークは、地上基地局(UAV-BS)として無人航空機(UAV)の統合を提案している。 UAV-BSを使用する利点はあるものの、オンボードの限られた容量のバッテリーへの依存はサービスの連続性を妨げている。 短い軌道は空飛ぶエネルギーを節約できるが、UAV-BSはノードのサービス要件が必ずしも同じとは限らないため、そのサービスの優先度に基づいてノードを提供する必要がある。 本稿では,UAV-BSがIoTノードのサービス優先性を考慮し,動作決定を行うUAV支援IoTシステムに対して,エネルギー効率の高い軌道最適化を提案する。 ダブルq学習アルゴリズムを用いて軌道最適化問題を解く。 シミュレーションの結果,Q-Learningに基づく最適化トラジェクトリは,UAV-BSの平均エネルギー消費量を削減し,高優先度ノードのサービス遅延を抑えるため,ベンチマークアルゴリズムであるGreedily-servedアルゴリズムよりも優れていることがわかった。

Next-generation mobile networks have proposed the integration of Unmanned Aerial Vehicles (UAVs) as aerial base stations (UAV-BS) to serve ground nodes. Despite having advantages of using UAV-BSs, their dependence on the on-board, limited-capacity battery hinders their service continuity. Shorter trajectories can save flying energy, however, UAV-BSs must also serve nodes based on their service priority since nodes' service requirements are not always the same. In this paper, we present an energy-efficient trajectory optimization for a UAV assisted IoT system in which the UAV-BS considers the IoT nodes' service priorities in making its movement decisions. We solve the trajectory optimization problem using Double Q-Learning algorithm. Simulation results reveal that the Q-Learning based optimized trajectory outperforms a benchmark algorithm, namely Greedily-served algorithm, in terms of reducing the average energy consumption of the UAV-BS as well as the service delay for high priority nodes.
翻訳日:2022-10-02 19:40:09 公開日:2020-10-26
# 制約翻訳候補:ニューラルクエリ翻訳と言語間情報検索の橋渡し

Constraint Translation Candidates: A Bridge between Neural Query Translation and Cross-lingual Information Retrieval ( http://arxiv.org/abs/2010.13658v1 )

ライセンス: Link先を確認
Tianchi Bi and Liang Yao and Baosong Yang and Haibo Zhang and Weihua Luo and Boxing Chen(参考訳) クエリ変換(QT)は、言語間情報検索システム(CLIR)のキーコンポーネントである。 ディープラーニングの助けを借りて、ニューラルネットワーク翻訳(NMT)は様々なタスクにおいて有望な結果を示している。 しかし、nmtは通常、ドメイン内クエリの翻訳ペアではなく、大規模なドメイン外データでトレーニングされる。 さらに、翻訳モデルには、生成された単語が検索インデックスと一致することを保証するメカニズムが欠けている。 QTの2つの不足は、ダウンストリーム検索タスクの候補が不十分な人に対して読みやすいテキストをもたらす。 本稿では,QTのオープンターゲット語彙検索空間を検索インデックスデータベースから抽出した重要な単語の集合に限定することで,これらの問題を緩和する新しい手法を提案する。 制約翻訳候補は、トレーニングと推論の両方のタイミングで採用され、翻訳モデルを学習し、適切に実行されるターゲットクエリを生成するように導く。 提案手法を実単語CLIRシステムで活用し,検討した。 実験の結果,本手法は,強いnmtベースラインよりも翻訳品質と検索精度に優れることがわかった。

Query translation (QT) is a key component in cross-lingual information retrieval system (CLIR). With the help of deep learning, neural machine translation (NMT) has shown promising results on various tasks. However, NMT is generally trained with large-scale out-of-domain data rather than in-domain query translation pairs. Besides, the translation model lacks a mechanism at the inference time to guarantee the generated words to match the search index. The two shortages of QT result in readable texts for human but inadequate candidates for the downstream retrieval task. In this paper, we propose a novel approach to alleviate these problems by limiting the open target vocabulary search space of QT to a set of important words mined from search index database. The constraint translation candidates are employed at both of training and inference time, thus guiding the translation model to learn and generate well performing target queries. The proposed methods are exploited and examined in a real-word CLIR system--Aliexpress e-Commerce search engine. Experimental results demonstrate that our approach yields better performance on both translation quality and retrieval accuracy than the strong NMT baseline.
翻訳日:2022-10-02 19:33:19 公開日:2020-10-26
# 言語横断情報検索のためのニューラルクエリー翻訳

Exploiting Neural Query Translation into Cross Lingual Information Retrieval ( http://arxiv.org/abs/2010.13659v1 )

ライセンス: Link先を確認
Liang Yao and Baosong Yang and Haibo Zhang and Weihua Luo and Boxing Chen(参考訳) 言語間情報検索(CLIR)における重要な役割として,クエリ翻訳には3つの課題がある。 1) 翻訳の妥当性 2)ドメイン内並列トレーニングデータの欠如,及び 3)低レイテンシの必要性。 この目的のために、既存のclirシステムはadvanced neural machine translation(nmt)ではなく、統計ベースの機械翻訳(smt)を主に活用し、翻訳と検索品質のさらなる改善を制限している。 本稿では,CLIRシステムへのニューラルクエリ変換モデルの利用方法を検討する。 具体的には,NMTにおけるドメイン適応の問題を軽減するために,ユーザクリックスルーデータに基づいてクエリ変換ペアを抽出する新しいデータ拡張手法を提案する。 次に,SMTにおけるリアルタイムの利点とNMTにおける正確性を活用する非同期戦略を提案する。 実験結果から,提案手法は強いベースラインよりも検索精度が高く,現実のCLIRシステム,すなわちAli Express e-Commerce検索エンジンによく適用できることがわかった。 読者は私たちのウェブサイトでケースを調べてテストすることができる。

As a crucial role in cross-language information retrieval (CLIR), query translation has three main challenges: 1) the adequacy of translation; 2) the lack of in-domain parallel training data; and 3) the requisite of low latency. To this end, existing CLIR systems mainly exploit statistical-based machine translation (SMT) rather than the advanced neural machine translation (NMT), limiting the further improvements on both translation and retrieval quality. In this paper, we investigate how to exploit neural query translation model into CLIR system. Specifically, we propose a novel data augmentation method that extracts query translation pairs according to user clickthrough data, thus to alleviate the problem of domain-adaptation in NMT. Then, we introduce an asynchronous strategy which is able to leverage the advantages of the real-time in SMT and the veracity in NMT. Experimental results reveal that the proposed approach yields better retrieval quality than strong baselines and can be well applied into a real-world CLIR system, i.e. Aliexpress e-Commerce search engine. Readers can examine and test their cases on our website: https://aliexpress.com .
翻訳日:2022-10-02 19:33:05 公開日:2020-10-26
# オンライン教育と学習のための学習体験のデザイン

Designing learning experiences for online teaching and learning ( http://arxiv.org/abs/2010.15602v1 )

ライセンス: Link先を確認
Nachamma Sockalingam and Junhua Liu(参考訳) 教育とは、アクティブで有意義な学習に多様な学生を関与させる戦略、方法、手段を絶えず革新することである。 これに合わせて、SUTDは様々な学生中心の教育と学習の方法とアプローチを採用する。 つまり、大学院・大学院の講師は、これらの学生中心の教育と学習の教育を学ばなければならない。 本稿では、同期オンラインコースに対面して実施されるこの授業を再設計した経験を共有し、このコースの参加者のひとりを招き、学生としての経験を振り返る。

Teaching is about constantly innovating strategies, ways and means to engage diverse students in active and meaningful learning. In line with this, SUTD adopts various student-centric teaching and learning teaching methods and approaches. This means that our graduate/undergraduate instructors have to be ready to teach using these student student-centric teaching and learning pedagogies. In this article, I share my experiences of redesigning this teaching course that is typically conducted face-to-face to a synchronous online course and also invite one of the participant in this course to reflect on his experience as a student.
翻訳日:2022-10-02 19:32:44 公開日:2020-10-26
# グラフ正規化を伴う判別制約付き半教師付き多視点非負行列分解

Discriminatively Constrained Semi-supervised Multi-view Nonnegative Matrix Factorization with Graph Regularization ( http://arxiv.org/abs/2010.13297v1 )

ライセンス: Link先を確認
Guosheng Cui, Ruxin Wang, Dan Wu, and Ye Li(参考訳) 近年,半教師付きマルチビュー非負行列分解(MVNMF)アルゴリズムは,マルチビュークラスタリングにおいて有望な性能を実現している。 半教師付きMVNMFのほとんどは、クラスタ間の識別情報と複数のビューからの特徴アライメントを同時に検討することができなかった。 本稿では,非負の行列因子分解(DCS^2MVNMF)を提案する。 具体的には、各ビューの補助マトリックスに対して差別的重み付け行列を導入し、クラス間の区別を高める。 一方、ラベルと幾何学的情報で新しいグラフ正則化が構築される。 さらに,複数のビューを整列し,対応する反復最適化スキームを完成させるために,新しい機能スケール正規化戦略を設計する。 複数の実世界のマルチビューデータセットで行った大規模な実験により,提案手法の有効性が実証された。

In recent years, semi-supervised multi-view nonnegative matrix factorization (MVNMF) algorithms have achieved promising performances for multi-view clustering. While most of semi-supervised MVNMFs have failed to effectively consider discriminative information among clusters and feature alignment from multiple views simultaneously. In this paper, a novel Discriminatively Constrained Semi-Supervised Multi-View Nonnegative Matrix Factorization (DCS^2MVNMF) is proposed. Specifically, a discriminative weighting matrix is introduced for the auxiliary matrix of each view, which enhances the inter-class distinction. Meanwhile, a new graph regularization is constructed with the label and geometrical information. In addition, we design a new feature scale normalization strategy to align the multiple views and complete the corresponding iterative optimization schemes. Extensive experiments conducted on several real world multi-view datasets have demonstrated the effectiveness of the proposed method.
翻訳日:2022-10-02 19:32:20 公開日:2020-10-26
# 強化学習におけるダイナミクス一般化のための軌道回り多重選択学習

Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning ( http://arxiv.org/abs/2010.13303v1 )

ライセンス: Link先を確認
Younggyo Seo, Kimin Lee, Ignasi Clavera, Thanard Kurutach, Jinwoo Shin, Pieter Abbeel(参考訳) モデルベース強化学習(RL)は、サンプル効率と最終性能の両方の観点から、様々な制御タスクにおいて大きな可能性を示している。 しかしながら、対象遷移ダイナミクスがマルチモーダル分布に従うため、ダイナミクスの変化に頑健な一般化可能なダイナミクスモデルを学ぶことは依然として課題である。 本稿では,モデルに基づく新しいRLアルゴリズムであるトラジェクトリワイド多重選択学習を提案し,動的一般化のためのマルチヘッド動的モデルについて学習する。 主なアイデアは、クラスタリング環境のようなダイナミックな環境で各ヘッドを専門化するために、最も正確な予測ヘッドを更新することである。 さらに,過去の経験から得られるダイナミクス特有の情報をエンコードしたコンテキスト学習をコンテキスト潜在ベクトルに組み込むことにより,非知覚環境へのオンライン適応を実現する。 最後に,この特殊予測ヘッドをより効果的に活用するために,最近の経験から最も正確な予測ヘッドを選択する適応計画法を提案する。 提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。 ソースコードとビデオはhttps://sites.google.com/view/trajectory-mclで入手できる。

Model-based reinforcement learning (RL) has shown great potential in various control tasks in terms of both sample-efficiency and final performance. However, learning a generalizable dynamics model robust to changes in dynamics remains a challenge since the target transition dynamics follow a multi-modal distribution. In this paper, we present a new model-based RL algorithm, coined trajectory-wise multiple choice learning, that learns a multi-headed dynamics model for dynamics generalization. The main idea is updating the most accurate prediction head to specialize each head in certain environments with similar dynamics, i.e., clustering environments. Moreover, we incorporate context learning, which encodes dynamics-specific information from past experiences into the context latent vector, enabling the model to perform online adaptation to unseen environments. Finally, to utilize the specialized prediction heads more effectively, we propose an adaptive planning method, which selects the most accurate prediction head over a recent experience. Our method exhibits superior zero-shot generalization performance across a variety of control tasks, compared to state-of-the-art RL methods. Source code and videos are available at https://sites.google.com/view/trajectory-mcl.
翻訳日:2022-10-02 19:32:08 公開日:2020-10-26
# プログレッシブレイヤドロップによる変圧器型言語モデルの高速化

Accelerating Training of Transformer-Based Language Models with Progressive Layer Dropping ( http://arxiv.org/abs/2010.13369v1 )

ライセンス: Link先を確認
Minjia Zhang and Yuxiong He(参考訳) 近年,トランスフォーマーに基づく言語モデルは,多くのNLPドメインで顕著な性能を示した。 しかし、これらのモデルの教師なし事前学習段階は、全体的な計算コストに苦しむ。 事前学習を加速する現在の手法は、高度なハードウェアによる大規模並列性に依存するか、言語モデリングには適用できない。 本研究では,過大なハードウェアリソースのコストではなく,モデルのアーキテクチャ変更やトレーニング技術によって効率が向上するトランスフォーマーベースの言語モデルのトレーニングを高速化する,プログレッシブレイヤドロップに基づく手法を提案する。 BERTの大規模実験により,提案手法はサンプルあたり平均24%の時間短縮を実現し,ベースラインの2.5倍の事前学習を可能とし,下流タスクでも同様の精度を得ることができた。 事前学習したモデルでは, 高い知識伝達性を備えており, 同じサンプル数で事前学習した場合, ベースラインよりも高いGLUEスコアが得られる。

Recently, Transformer-based language models have demonstrated remarkable performance across many NLP domains. However, the unsupervised pre-training step of these models suffers from unbearable overall computational expenses. Current methods for accelerating the pre-training either rely on massive parallelism with advanced hardware or are not applicable to language modeling. In this work, we propose a method based on progressive layer dropping that speeds the training of Transformer-based language models, not at the cost of excessive hardware resources but from model architecture change and training technique boosted efficiency. Extensive experiments on BERT show that the proposed method achieves a 24% time reduction on average per sample and allows the pre-training to be 2.5 times faster than the baseline to get a similar accuracy on downstream tasks. While being faster, our pre-trained models are equipped with strong knowledge transferability, achieving comparable and sometimes higher GLUE score than the baseline when pre-trained with the same number of samples.
翻訳日:2022-10-02 19:31:39 公開日:2020-10-26
# 階層型ニューラルネットワークによるディープステレオマッチングの探索

Hierarchical Neural Architecture Search for Deep Stereo Matching ( http://arxiv.org/abs/2010.13501v1 )

ライセンス: Link先を確認
Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, Yuchao Dai, Xiaojun Chang, Tom Drummond, Hongdong Li, Zongyuan Ge(参考訳) ニューラルネットワーク設計における人間の努力を減らすため、ニューラルネットワーク探索(NAS)は、分類やセマンティックセグメンテーションといった様々なハイレベルな視覚タスクに顕著な成功を収めている。 NASアルゴリズムの根底にある考え方は、ネットワークが一連の操作(例えば、異なるフィルタサイズでの畳み込み)の中から選ぶことができるようにすることであり、目の前の問題に適応した最適なアーキテクチャを見つけることができる。 しかし、これまでNASの成功はステレオマッチングのような低レベルの幾何学的視覚タスクでは楽しめなかった。 これは、人間が設計した最先端のディープステレオマッチングネットワークがすでにサイズがかなり大きいことによるところもある。 このような大規模構造にNASを直接適用することは、現在利用可能な主流コンピューティングリソースに基づいて計算的に禁止されている。 本稿では,タスク固有の人的知識をニューラルネットワーク検索フレームワークに組み込むことで,ディープステレオマッチングのための最初のエンドツーエンド階層型NASフレームワークを提案する。 具体的には、深いステレオマッチングのためのゴールド標準パイプライン(すなわち、機能抽出 -- 機能ボリューム構築と高密度マッチング)に従って、パイプライン全体のアーキテクチャを共同で最適化します。 広範な実験により,検索したネットワークが最先端のディープステレオマッチングアーキテクチャを上回っており,kitti stereo 2012,2015,ミドルベリーベンチマークでトップ1にランクインし,ネットワークサイズと推論速度を大幅に改善したsceneflowデータセットではトップ1にランクインした。 コードはhttps://github.com/XuelianCheng/LEAStereoで公開されている。

To reduce the human efforts in neural network design, Neural Architecture Search (NAS) has been applied with remarkable success to various high-level vision tasks such as classification and semantic segmentation. The underlying idea for the NAS algorithm is straightforward, namely, to enable the network the ability to choose among a set of operations (e.g., convolution with different filter sizes), one is able to find an optimal architecture that is better adapted to the problem at hand. However, so far the success of NAS has not been enjoyed by low-level geometric vision tasks such as stereo matching. This is partly due to the fact that state-of-the-art deep stereo matching networks, designed by humans, are already sheer in size. Directly applying the NAS to such massive structures is computationally prohibitive based on the currently available mainstream computing resources. In this paper, we propose the first end-to-end hierarchical NAS framework for deep stereo matching by incorporating task-specific human knowledge into the neural architecture search framework. Specifically, following the gold standard pipeline for deep stereo matching (i.e., feature extraction -- feature volume construction and dense matching), we optimize the architectures of the entire pipeline jointly. Extensive experiments show that our searched network outperforms all state-of-the-art deep stereo matching architectures and is ranked at the top 1 accuracy on KITTI stereo 2012, 2015 and Middlebury benchmarks, as well as the top 1 on SceneFlow dataset with a substantial improvement on the size of the network and the speed of inference. The code is available at https://github.com/XuelianCheng/LEAStereo.
翻訳日:2022-10-02 19:25:36 公開日:2020-10-26
# SHARP 2020: 部分テクスチャ型3Dスキャンによる最初の形状復元

SHARP 2020: The 1st Shape Recovery from Partial Textured 3D Scans Challenge Results ( http://arxiv.org/abs/2010.13508v1 )

ライセンス: Link先を確認
Alexandre Saint, Anis Kacem, Kseniya Cherenkova, Konstantinos Papadopoulos, Julian Chibane, Gerard Pons-Moll, Gleb Gusev, David Fofi, Djamila Aouada, and Bjorn Ottersten(参考訳) SHApe Recovery from partial textured 3D scans Challenge, SHARP 2020は、完全なテクスチャ化された3Dスキャンを生の不完全なデータから回収するための、最初の挑戦とベンチマーク手法である。 SHARP 2020はECCV 2020と共同でワークショップとして組織されている。 補完的な課題は2つあり、ひとつは3Dスキャンで、もうひとつはジェネリックオブジェクトでである。 チャレンジ1はさらに2つのトラックに分けられ、第一に大きな体と衣服の領域、第二に細かな体の詳細に焦点を当てている。 形状復元, テクスチャ再構築, および完成したデータ量を同時に定量化するための新しい評価指標を提案する。 さらに,2つのユニークな3Dスキャンデータセットが提案され,ベンチマークに生の地層構造データを提供する。 データセットは科学コミュニティに公開されています。 さらに、付属するソフトウェアルーチンのカスタムライブラリも科学コミュニティにリリースされている。 3dスキャンを処理し、部分データを生成し、評価を行うことができる。 コンペの結果は、ベースラインと比較して分析され、提案された評価指標の有効性を示し、タスクとデータセットの難易度を強調する。 SHARP 2020の課題の詳細はhttps://cvi2.uni.lu/sharp 2020/にある。

The SHApe Recovery from Partial textured 3D scans challenge, SHARP 2020, is the first edition of a challenge fostering and benchmarking methods for recovering complete textured 3D scans from raw incomplete data. SHARP 2020 is organised as a workshop in conjunction with ECCV 2020. There are two complementary challenges, the first one on 3D human scans, and the second one on generic objects. Challenge 1 is further split into two tracks, focusing, first, on large body and clothing regions, and, second, on fine body details. A novel evaluation metric is proposed to quantify jointly the shape reconstruction, the texture reconstruction and the amount of completed data. Additionally, two unique datasets of 3D scans are proposed, to provide raw ground-truth data for the benchmarks. The datasets are released to the scientific community. Moreover, an accompanying custom library of software routines is also released to the scientific community. It allows for processing 3D scans, generating partial data and performing the evaluation. Results of the competition, analysed in comparison to baselines, show the validity of the proposed evaluation metrics, and highlight the challenging aspects of the task and of the datasets. Details on the SHARP 2020 challenge can be found at https://cvi2.uni.lu/sharp2020/.
翻訳日:2022-10-02 19:25:09 公開日:2020-10-26
# GreedyFool: 歪曲を意識したスパース攻撃

GreedyFool: Distortion-Aware Sparse Adversarial Attack ( http://arxiv.org/abs/2010.13773v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Dongdong Chen and Jianmin Bao and Chuan Qin and Lu Yuan and Weiming Zhang and Nenghai Yu and Dong Chen(参考訳) 現代のディープニューラルネットワーク(DNN)は、敵のサンプルに対して脆弱である。 スパース逆数サンプル(Sparse adversarial sample)は、数ピクセルの摂動のみによってターゲットモデルを騙すことができる逆数サンプルの特別な枝である。 まばらな敵対攻撃の存在は、DNNは人々が信じていたよりもはるかに脆弱であることを示しており、これもDNNを解析するための新しい側面である。 しかし、現在のスパース対逆攻撃法は、疎度と不可視性の両方に欠点がある。 本稿では,GreedyFoolと呼ばれる2段階の歪みを考慮したグリード法を提案する。 具体的には、まずグラデーション(逆向き)と歪みマップ(可視性)の両方を考慮し、修正する最も効果的な候補位置を選択し、還元段階においていくつかの重要でないポイントを落とします。 実験では、開始時の方法と比較して、同じ摂動設定で3\times$のピクセルを変更するだけでよいことが示されています。 ターゲット攻撃の場合、同じ画素予算で、本手法の成功率は、創成開始法よりも9.96\%高い。 コードはhttps://github.com/LightDXY/GreedyFool.orgにある。

Modern deep neural networks(DNNs) are vulnerable to adversarial samples. Sparse adversarial samples are a special branch of adversarial samples that can fool the target model by only perturbing a few pixels. The existence of the sparse adversarial attack points out that DNNs are much more vulnerable than people believed, which is also a new aspect for analyzing DNNs. However, current sparse adversarial attack methods still have some shortcomings on both sparsity and invisibility. In this paper, we propose a novel two-stage distortion-aware greedy-based method dubbed as "GreedyFool". Specifically, it first selects the most effective candidate positions to modify by considering both the gradient(for adversary) and the distortion map(for invisibility), then drops some less important points in the reduce stage. Experiments demonstrate that compared with the start-of-the-art method, we only need to modify $3\times$ fewer pixels under the same sparse perturbation setting. For target attack, the success rate of our method is 9.96\% higher than the start-of-the-art method under the same pixel budget. Code can be found at https://github.com/LightDXY/GreedyFool.
翻訳日:2022-10-02 19:23:56 公開日:2020-10-26
# マスクR-CNNモデルのバウンディングボックスとセグメンテーションマスクの検出器アルゴリズム

Detector Algorithms of Bounding Box and Segmentation Mask of a Mask R-CNN Model ( http://arxiv.org/abs/2010.13783v1 )

ライセンス: Link先を確認
Haruhiro Fujita, Masatoshi Itagaki, Yew Kwang Hooi, Kenta Ichikawa, Kazutaka Kawano, Ryo Yamamoto(参考訳) Mask R-CNNモデルのバウンディングボックスとセグメンテーションマスク出力に対する検出性能の評価を行った。 境界箱とセグメンテーションマスクの検知性能には大きな違いがあり、前者は後者よりも常に優れている。 境界箱よりも分割マスクにおいて, 線形き裂, 接合, 充填, 影の高精度化とリコールの高調波値が有意に低い。 他のクラスも同様の調和値を示した。 境界ボックスおよびセグメンテーションマスクの検出指標の異なる性能について検討を行い,両検出器の検知アルゴリズムに着目した。

Detection performances on bounding box and segmentation mask outputs of Mask R-CNN models are evaluated. There are significant differences in detection performances of bounding boxes and segmentation masks, where the former is constantly superior to the latter. Harmonic values of precisions and recalls of linear cracks, joints, fillings, and shadows are significantly lower in segmentation masks than bounding boxes. Other classes showed similar harmonic values. Discussions are made on different performances of detection metrics of bounding boxes and segmentation masks focusing on detection algorithms of both detectors.
翻訳日:2022-10-02 19:23:37 公開日:2020-10-26
# 測光不変量を用いた道路標識セグメンテーションの強化

Enhancing road signs segmentation using photometric invariants ( http://arxiv.org/abs/2010.13844v1 )

ライセンス: Link先を確認
Tarik Ayaou, Azeddine Beghdadi, Karim Afdel, Abdellah Amghar(参考訳) 道路標識の検出と認識は、知的輸送システム(its)の設計において最も重要なタスクの1つである。 しかし、照明変更は依然として大きな問題である。 本稿では,光量不変量に基づく道路標識分割の効率的なap法を提案する。 本手法は, 色相変化の強調, シェーディング, シャドーの変化に不変なl Theta Phi色空間上で, クロマティック距離と赤と青の比を利用して, ハイブリッド距離を用いたカラーインフォームに基づく。 道路標識セグメンテーションの最も頻繁に使用される手法に対して、このアプローチのロバスト性を示すために比較研究を行った。 実験結果と詳細な解析により,本論文で記述したアルゴリズムの高性能化が確認された。

Road signs detection and recognition in natural scenes is one of the most important tasksin the design of Intelligent Transport Systems (ITS). However, illumination changes remain a major problem. In this paper, an efficient ap-proach of road signs segmentation based on photometric invariants is proposed. This method is based on color in-formation using a hybrid distance, by exploiting the chro-matic distance and the red and blue ratio, on l Theta Phi color space which is invariant to highlight, shading and shadow changes. A comparative study is performed to demonstrate the robustness of this approach over the most frequently used methods for road sign segmentation. The experimental results and the detailed analysis show the high performance of the algorithm described in this paper.
翻訳日:2022-10-02 19:23:28 公開日:2020-10-26
# 低ランク・スパース部分空間分解型不定形神経変性バイオマーカーの開発

Developing Univariate Neurodegeneration Biomarkers with Low-Rank and Sparse Subspace Decomposition ( http://arxiv.org/abs/2010.13954v1 )

ライセンス: Link先を確認
Gang Wang, Qunxi Dong, Jianfeng Wu, Yi Su, Kewei Chen, Qingtang Su, Xiaofeng Zhang, Jinguang Hao, Tao Yao, Li Liu, Caiming Zhang, Richard J Caselli, Eric M Reiman, Yalin Wang(参考訳) アルツハイマー病(AD)による認知低下は、構造磁気共鳴画像(sMRI)によって捉えられた脳構造の変化と密接に関連している。 smriベースのunivariate neurodegeneration biomarkers (unb) の開発が有効である。 しかし、既存のUNBの作業は大きなグループ分散のモデル化に失敗するか、AD認知症(ADD)による変化を捉えない。 ADDにより誘起される形態変化を安定的に定量化できる新しい低ランク・スパース部分空間分解法を提案する。 具体的には,群共通構造を抽出し,元の3次元モーフォメトリー接続を符号化するために正規化制約を課す数値的効率のよいランク最小化機構を提案する。 さらに,A\beta+$ ADとA\beta-$認知障害群(CU)の共通部分空間間のグループ差による関心領域(ROI)を生成する。 A\beta+$ AD と $A\beta-$ CU 群の正規化差により重み付けされた個々の形態特性を要約することにより、これらのROIから一変量形態指標(UMI)を構築する。 UMIを計算し,アルツハイマー病神経画像イニシアチブ(ADNI)コホートにおける研究を検証するために,海馬表面放射距離特徴を用いた。 海馬UMIでは、80$\%の電力と2尾のP=0.05$はそれぞれ116,279,387 USドルA\beta+$AD,$A\beta+$軽度認知障害(MCI)および$A\beta+$CUグループで、平均年間変化の25$\%の減少を検出するのに必要な最小サンプルサイズが推定される。 さらに、MCI患者では、UMIは18ヶ月以内にAD(4.3$, 9,5\%$ CI=2.3-8.2$)への変換の危険度とよく相関している。 実験結果は従来の海馬容積測定よりも優れており,UMIをUNBとして適用することを提案する。

Cognitive decline due to Alzheimer's disease (AD) is closely associated with brain structure alterations captured by structural magnetic resonance imaging (sMRI). It supports the validity to develop sMRI-based univariate neurodegeneration biomarkers (UNB). However, existing UNB work either fails to model large group variances or does not capture AD dementia (ADD) induced changes. We propose a novel low-rank and sparse subspace decomposition method capable of stably quantifying the morphological changes induced by ADD. Specifically, we propose a numerically efficient rank minimization mechanism to extract group common structure and impose regularization constraints to encode the original 3D morphometry connectivity. Further, we generate regions-of-interest (ROI) with group difference study between common subspaces of $A\beta+$ AD and $A\beta-$ cognitively unimpaired (CU) groups. A univariate morphometry index (UMI) is constructed from these ROIs by summarizing individual morphological characteristics weighted by normalized difference between $A\beta+$ AD and $A\beta-$ CU groups. We use hippocampal surface radial distance feature to compute the UMIs and validate our work in the Alzheimer's Disease Neuroimaging Initiative (ADNI) cohort. With hippocampal UMIs, the estimated minimum sample sizes needed to detect a 25$\%$ reduction in the mean annual change with 80$\%$ power and two-tailed $P=0.05$ are 116, 279 and 387 for the longitudinal $A\beta+$ AD, $A\beta+$ mild cognitive impairment (MCI) and $A\beta+$ CU groups, respectively. Additionally, for MCI patients, UMIs well correlate with hazard ratio of conversion to AD ($4.3$, $95\%$ CI=$2.3-8.2$) within 18 months. Our experimental results outperform traditional hippocampal volume measures and suggest the application of UMI as a potential UNB.
翻訳日:2022-10-02 19:23:17 公開日:2020-10-26
# 注意誘導ポーズ推定のための拡張パラレルピラミドネット$p^2$ net

$P^2$ Net: Augmented Parallel-Pyramid Net for Attention Guided Pose Estimation ( http://arxiv.org/abs/2010.14076v1 )

ライセンス: Link先を確認
Luanxuan Hou, Jie Cao, Yuan Zhao, Haifeng Shen, Jian Tang, Ran He(参考訳) 拡張されたボトルネックとアテンションモジュールによる特徴改善を施したParallel-Pyramid Net(P^2~Net$)を提案する。 データ前処理中に、微分可能な自動データ拡張法(DA^2$)を提案した。 我々は,データ拡張ポリシーを異なる形で検索する問題を定式化し,トレーニング中のバック伝搬によって最適なポリシ設定を簡単に更新できるようにする。 $DA^2$はトレーニング効率を改善する。 パラレルピラミド構造を追従して、ネットワークが導入する情報損失を補償する。 我々は2つの融合構造、すなわち並列融合とプログレッシブ融合を革新し、バックボーンネットワークからピラミッドの特徴を処理する。 両融合構造は高分解能空間情報と低分解能意味理解の利点を効果的に活用している。 我々は,ネットワークの精度をさらに高めるために,ピラミッド機能の改良段階を提案する。 拡張されたボトルネックとアテンションモジュールを導入することで、複雑さの少ない機能に対する受容野を拡大し、異なる機能チャネルに重要性をチューニングします。 特徴抽出段階の完了後の特徴マップをさらに洗練するために、並列ピラミド構造によって生成された異なるスケール特徴マップから重み付けされた特徴を抽出するために注意モジュール(am$)を定義する。 従来のアップサンプリングのリファインと比べて、$am$はチャネル間の関係をよりよく捉えることができる。 提案手法の有効性を検証する実験を行った。 特に,本手法は,MSCOCOとMPIIデータセットの課題に対して,最高の性能を実現する。

We propose an augmented Parallel-Pyramid Net ($P^2~Net$) with feature refinement by dilated bottleneck and attention module. During data preprocessing, we proposed a differentiable auto data augmentation ($DA^2$) method. We formulate the problem of searching data augmentaion policy in a differentiable form, so that the optimal policy setting can be easily updated by back propagation during training. $DA^2$ improves the training efficiency. A parallel-pyramid structure is followed to compensate the information loss introduced by the network. We innovate two fusion structures, i.e. Parallel Fusion and Progressive Fusion, to process pyramid features from backbone network. Both fusion structures leverage the advantages of spatial information affluence at high resolution and semantic comprehension at low resolution effectively. We propose a refinement stage for the pyramid features to further boost the accuracy of our network. By introducing dilated bottleneck and attention module, we increase the receptive field for the features with limited complexity and tune the importance to different feature channels. To further refine the feature maps after completion of feature extraction stage, an Attention Module ($AM$) is defined to extract weighted features from different scale feature maps generated by the parallel-pyramid structure. Compared with the traditional up-sampling refining, $AM$ can better capture the relationship between channels. Experiments corroborate the effectiveness of our proposed method. Notably, our method achieves the best performance on the challenging MSCOCO and MPII datasets.
翻訳日:2022-10-02 19:22:39 公開日:2020-10-26
# 敵対的コントラスト学習によるロバスト事前学習

Robust Pre-Training by Adversarial Contrastive Learning ( http://arxiv.org/abs/2010.13337v1 )

ライセンス: Link先を確認
Ziyu Jiang, Tianlong Chen, Ting Chen, Zhangyang Wang(参考訳) 近年の研究では, 自己教師付き事前学習は, 敵対的訓練と統合することで, 最先端の堅牢性に繋がる可能性があり, データの強化と敵意の摂動の両方で一貫した表現を学習することで, 堅牢性を考慮した自己教師付き事前学習を改善する。 我々のアプローチは、異なる拡張ビューの下で特徴の一貫性を最大化することで表現を学習する最近のコントラスト学習フレームワークを活用する。 敵対的不安定性の1つの原因は特徴不変性の欠如である、すなわち小さな入力摂動は特徴や予測されたラベルに望ましくない大きな変化をもたらす可能性があるからである。 コントラストタスクを定式化する様々な選択肢を検討し、逆摂動を注入することで、コントラストプレトレーニングがラベル効率と堅牢性の両方のモデルにつながることを実証する。 本稿では,提案したACL(Adversarial Contrastive Learning)を実証的に評価し,既存の手法を一貫して上回ることを示す。 例えば、CIFAR-10データセットでは、ACLは以前の最先端の教師なしの頑健な事前訓練アプローチを2.99%、標準精度2.14%で上回っている。 さらに, acl前訓練は, ラベル付き例がわずかでも, 半教師付き逆訓練を改善できることを実証した。 私たちのコードと事前訓練されたモデルは、https://github.com/VITA-Group/Adversarial-Contrastive-Learningでリリースされました。

Recent work has shown that, when integrated with adversarial training, self-supervised pre-training can lead to state-of-the-art robustness In this work, we improve robustness-aware self-supervised pre-training by learning representations that are consistent under both data augmentations and adversarial perturbations. Our approach leverages a recent contrastive learning framework, which learns representations by maximizing feature consistency under differently augmented views. This fits particularly well with the goal of adversarial robustness, as one cause of adversarial fragility is the lack of feature invariance, i.e., small input perturbations can result in undesirable large changes in features or even predicted labels. We explore various options to formulate the contrastive task, and demonstrate that by injecting adversarial perturbations, contrastive pre-training can lead to models that are both label-efficient and robust. We empirically evaluate the proposed Adversarial Contrastive Learning (ACL) and show it can consistently outperform existing methods. For example on the CIFAR-10 dataset, ACL outperforms the previous state-of-the-art unsupervised robust pre-training approach by 2.99% on robust accuracy and 2.14% on standard accuracy. We further demonstrate that ACL pre-training can improve semi-supervised adversarial training, even when only a few labeled examples are available. Our codes and pre-trained models have been released at: https://github.com/VITA-Group/Adversarial-Contrastive-Learning.
翻訳日:2022-10-02 19:16:56 公開日:2020-10-26
# 視線と説明方法:意図的不均一双線形ネットワークを用いたファッション画像検索

Where to Look and How to Describe: Fashion Image Retrieval with an Attentional Heterogeneous Bilinear Network ( http://arxiv.org/abs/2010.13357v1 )

ライセンス: Link先を確認
Haibo Su, Peng Wang, Lingqiao Liu, Hui Li, Zhen Li, Yanning Zhang(参考訳) ファッション製品は典型的には、さまざまなスタイルの様々な衣服部品の合成で特徴付けられる。 異なるファッション製品のイメージを識別するには、外観(「表現する方法」)とローカライゼーション(「見る場所」)情報とそれらの相互作用の両方を抽出する必要がある。 そこで本研究では,人間の脳の2ストリーム視覚処理システムを模倣した,画像に基づくファッション製品検索のための生物学的にインスパイアされたフレームワークを提案する。 提案手法は,細粒度の外観属性を抽出するディープcnnブランチと,ランドマーク位置情報を抽出する完全畳み込みブランチの2つのブランチからなる。 さらに、抽出した異種特徴に対して、重要なチャネルに焦点を合わせ、続いて2つのストリームの相互作用をモデル化するためのコンパクトな双線形プール層が適用される。 提案フレームワークは,3つの画像ベースファッション製品検索ベンチマークで満足できる性能を実現する。

Fashion products typically feature in compositions of a variety of styles at different clothing parts. In order to distinguish images of different fashion products, we need to extract both appearance (i.e., "how to describe") and localization (i.e.,"where to look") information, and their interactions. To this end, we propose a biologically inspired framework for image-based fashion product retrieval, which mimics the hypothesized twostream visual processing system of human brain. The proposed attentional heterogeneous bilinear network (AHBN) consists of two branches: a deep CNN branch to extract fine-grained appearance attributes and a fully convolutional branch to extract landmark localization information. A joint channel-wise attention mechanism is further applied to the extracted heterogeneous features to focus on important channels, followed by a compact bilinear pooling layer to model the interaction of the two streams. Our proposed framework achieves satisfactory performance on three image-based fashion product retrieval benchmarks.
翻訳日:2022-10-02 19:15:42 公開日:2020-10-26
# グラフ畳み込みネットワークを用いたビデオ表情認識

Video-based Facial Expression Recognition using Graph Convolutional Networks ( http://arxiv.org/abs/2010.13386v1 )

ライセンス: Link先を確認
Daizong Liu, Hongting Zhang, Pan Zhou(参考訳) 表情認識(fer)は、顔画像やビデオに存在する表情を分類することを目的としており、人工知能やマルチメディアの分野で多くの研究関心を集めている。 映像ベースのFERタスクでは、フレーム間の動的表現変動をキャプチャして顔の表情を認識するのが賢明である。 しかし,既存の手法では,CNN-RNNや3D CNNを直接利用して,表情変化のキャプチャ中に特定の領域に集中するのではなく,異なる顔ユニットから空間的特徴を抽出する。 本稿では,ビデオベースのferのための共通cnn-rnnモデルにグラフ畳み込みネットワーク(gcn)層を導入する。 まず、GCN層を利用して、抽出したノードのCNN特徴間で情報を共有した後、特定の領域に集中するより重要な表情特徴を学習する。 次にLSTMレイヤを適用して,GCN学習機能間の長期依存関係を学習し,変動をモデル化する。 さらに、各フレームにおける表現強度を特徴付けることにより、最終分類のための異なるノードの出力を重み付けする重み付け機構も設計されている。 私たちの知る限りでは、FERタスクでGCNを使用するのは初めてです。 提案手法は, CK+, Oulu-CASIA, MMIの3つの大規模データセットと, AFEW8.0の挑戦的なワイルドデータセットを用いて評価し, 本手法が既存手法よりも優れた性能を示した。

Facial expression recognition (FER), aiming to classify the expression present in the facial image or video, has attracted a lot of research interests in the field of artificial intelligence and multimedia. In terms of video based FER task, it is sensible to capture the dynamic expression variation among the frames to recognize facial expression. However, existing methods directly utilize CNN-RNN or 3D CNN to extract the spatial-temporal features from different facial units, instead of concentrating on a certain region during expression variation capturing, which leads to limited performance in FER. In our paper, we introduce a Graph Convolutional Network (GCN) layer into a common CNN-RNN based model for video-based FER. First, the GCN layer is utilized to learn more significant facial expression features which concentrate on certain regions after sharing information between extracted CNN features of nodes. Then, a LSTM layer is applied to learn long-term dependencies among the GCN learned features to model the variation. In addition, a weight assignment mechanism is also designed to weight the output of different nodes for final classification by characterizing the expression intensities in each frame. To the best of our knowledge, it is the first time to use GCN in FER task. We evaluate our method on three widely-used datasets, CK+, Oulu-CASIA and MMI, and also one challenging wild dataset AFEW8.0, and the experimental results demonstrate that our method has superior performance to existing methods.
翻訳日:2022-10-02 19:15:24 公開日:2020-10-26
# フォトエンハンスメントのためのフレキシブルピアース曲線推定法

Flexible Piecewise Curves Estimation for Photo Enhancement ( http://arxiv.org/abs/2010.13412v1 )

ライセンス: Link先を確認
Chongyi Li, Chunle Guo, Qiming Ai, Shangchen Zhou, Chen Change Loy(参考訳) 本稿では,写真強調のためのFlexiCurveという新しい手法を提案する。 画像から画像へのマッピングを行う既存の方法とは異なり、flexicurveは入力画像を取得し、画像を調整するためにグローバルカーブを推定する。 調整曲線は、非線形調整と微分可能性を考慮した分割マッピングを行うために特別に設計されている。 実世界の画像における困難で多様な照明特性に対処するため、flexicurveは多様な推定と関連する信頼マップを生成するマルチタスクフレームワークとして定式化されている。 これらの推定は、異なる領域の局所的な拡張を改善するために適応的に融合される。 画像と曲線の定式化により、サイズ512*512*3のイメージに対して、FlexiCurveは軽量なネットワーク(150Kトレーニング可能なパラメータ)のみを必要とし、高速な推論速度(NVIDIA 2080Ti GPUで83FPS)を持つ。 提案手法は,原画像の画質向上や詳細の喪失を伴わずに効率を向上する。 また、ペア化されたトレーニングデータに制限されないため、不用意なデータからリッチなエンハンスメントスタイルを柔軟に学習することができる。 広範にわたる実験により,本手法が定量的および定性的に写真エンハンスメントの最先端性能を実現することを実証した。

This paper presents a new method, called FlexiCurve, for photo enhancement. Unlike most existing methods that perform image-to-image mapping, which requires expensive pixel-wise reconstruction, FlexiCurve takes an input image and estimates global curves to adjust the image. The adjustment curves are specially designed for performing piecewise mapping, taking nonlinear adjustment and differentiability into account. To cope with challenging and diverse illumination properties in real-world images, FlexiCurve is formulated as a multi-task framework to produce diverse estimations and the associated confidence maps. These estimations are adaptively fused to improve local enhancements of different regions. Thanks to the image-to-curve formulation, for an image with a size of 512*512*3, FlexiCurve only needs a lightweight network (150K trainable parameters) and it has a fast inference speed (83FPS on a single NVIDIA 2080Ti GPU). The proposed method improves efficiency without compromising the enhancement quality and losing details in the original image. The method is also appealing as it is not limited to paired training data, thus it can flexibly learn rich enhancement styles from unpaired data. Extensive experiments demonstrate that our method achieves state-of-the-art performance on photo enhancement quantitively and qualitatively.
翻訳日:2022-10-02 19:15:00 公開日:2020-10-26
# 終端ニューラルネットワークを用いた複雑なシーンにおけるレーン検出

Lane detection in complex scenes based on end-to-end neural network ( http://arxiv.org/abs/2010.13422v1 )

ライセンス: Link先を確認
Wenbo Liu, Fei Yan, Kuan Tang, Jiyong Zhang, Tao Deng(参考訳) 車線検出は、無人運転における導出可能な領域の分割を解決するための鍵となる問題であり、車線検出精度は、車両運転の意思決定において重要な役割を果たす。 日々の運転で車両が直面するシーンは比較的複雑である。 明るい光、不十分な光、混雑した車両は、車線検出に様々な困難をもたらす。 そこで,空間情報処理における空間畳み込みの利点とセマンティックセグメンテーションにおけるERFNetの効率を組み合わせ,複雑なシーンにおけるレーン検出のためのエンドツーエンドネットワークを提案する。 また,空間畳み込みと拡張畳み込みを組み合わせた情報交換ブロックの設計を行い,詳細情報を理解する上で重要な役割を担っている。 最後に、我々のネットワークはCULaneデータベース上でテストされ、そのF1測定値が 0.5 の IOU 閾値は 71.9% に達する。

The lane detection is a key problem to solve the division of derivable areas in unmanned driving, and the detection accuracy of lane lines plays an important role in the decision-making of vehicle driving. Scenes faced by vehicles in daily driving are relatively complex. Bright light, insufficient light, and crowded vehicles will bring varying degrees of difficulty to lane detection. So we combine the advantages of spatial convolution in spatial information processing and the efficiency of ERFNet in semantic segmentation, propose an end-to-end network to lane detection in a variety of complex scenes. And we design the information exchange block by combining spatial convolution and dilated convolution, which plays a great role in understanding detailed information. Finally, our network was tested on the CULane database and its F1-measure with IOU threshold of 0.5 can reach 71.9%.
翻訳日:2022-10-02 19:14:17 公開日:2020-10-26
# 自己教師付き連想ネットワークを用いたマルチオブジェクトトラッキング

Multi-object tracking with self-supervised associating network ( http://arxiv.org/abs/2010.13424v1 )

ライセンス: Link先を確認
Tae-young Chung, Heansung Lee, Myeong Ah Cho, Suhwan Cho, Sangyoun Lee(参考訳) マルチオブジェクト追跡(MOT)は、開発に多くの可能性を持つタスクであり、解決すべき問題がまだたくさんある。 従来のトラッキングによる検出パラダイムでは、 機能ベースのオブジェクト再識別メソッドには多くの作業があります。 しかし、この手法には訓練データの問題がない。 マルチオブジェクト追跡データセットのラベル付けには、ビデオシーケンス内のすべての検出には、その位置とIDが必要である。 各シーケンスで連続したidを各検出に割り当てることは非常に手間のかかる作業であるため、現在のマルチオブジェクト追跡データセットは再識別ネットワークをトレーニングするには不十分である。 そこで本稿では,人間のラベルを付けない短い動画を多数使用した新たな自己教師付き学習手法を提案し,学習データ不足を解決するために,自己教師付きネットワークを通じて追跡性能を向上させることを提案する。 再識別ネットワークは自己管理方式で訓練されているが、MOTA 62.0\% と IDF1 62.6\% の最先端性能をMOT17テストベンチマークで達成している。 さらに,大量のデータから学習した性能も向上し,自己管理手法の可能性を示した。

Multi-Object Tracking (MOT) is the task that has a lot of potential for development, and there are still many problems to be solved. In the traditional tracking by detection paradigm, There has been a lot of work on feature based object re-identification methods. However, this method has a lack of training data problem. For labeling multi-object tracking dataset, every detection in a video sequence need its location and IDs. Since assigning consecutive IDs to each detection in every sequence is a very labor-intensive task, current multi-object tracking dataset is not sufficient enough to train re-identification network. So in this paper, we propose a novel self-supervised learning method using a lot of short videos which has no human labeling, and improve the tracking performance through the re-identification network trained in the self-supervised manner to solve the lack of training data problem. Despite the re-identification network is trained in a self-supervised manner, it achieves the state-of-the-art performance of MOTA 62.0\% and IDF1 62.6\% on the MOT17 test benchmark. Furthermore, the performance is improved as much as learned with a large amount of data, it shows the potential of self-supervised method.
翻訳日:2022-10-02 19:14:02 公開日:2020-10-26
# 自己教師付き音声と言語モデルの事前学習による半教師付き音声言語理解

Semi-Supervised Spoken Language Understanding via Self-Supervised Speech and Language Model Pretraining ( http://arxiv.org/abs/2010.13826v1 )

ライセンス: Link先を確認
Cheng-I Lai, Yung-Sung Chuang, Hung-Yi Lee, Shang-Wen Li, James Glass(参考訳) モデルがオラクルテキスト入力でトレーニングされ、ASRエラーが無視されたこと、モデルがスロット値なしで意図のみを予測するようにトレーニングされたこと、モデルが大量の社内データでトレーニングされたこと、の3つの方法のうちの1つが、SLU(Spoken Language Understanding)に関する最近の研究である。 本稿では,文章の書き起こしや書き起こしのない音声から直接意味を学習し,これらの問題に対処するクリーンで汎用的な枠組みを提案する。 我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られたターゲットSLUデータに基づいて微調整される。 我々は,asrエンコーダをwav2vecなどの自己教師付き音声表現に置き換えることで,asrコンポーネントの教師付き事前学習と教師なし事前学習の2つの半教師付き設定について検討した。 並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価がある。 ATISの実験では、環境ノイズがあり、ラベル付きセマンティクスデータが限られた量であっても、音声を入力とするSLUフレームワークが、セマンティクス理解の入力としてオラクルテキストを使用する場合と同等に動作できることが示されている。

Much recent work on Spoken Language Understanding (SLU) is limited in at least one of three ways: models were trained on oracle text input and neglected ASR errors, models were trained to predict only intents without the slot values, or models were trained on a large amount of in-house data. In this paper, we propose a clean and general framework to learn semantics directly from speech with semi-supervision from transcribed or untranscribed speech to address these issues. Our framework is built upon pretrained end-to-end (E2E) ASR and self-supervised language models, such as BERT, and fine-tuned on a limited amount of target SLU data. We study two semi-supervised settings for the ASR component: supervised pretraining on transcribed speech, and unsupervised pretraining by replacing the ASR encoder with self-supervised speech representations, such as wav2vec. In parallel, we identify two essential criteria for evaluating SLU models: environmental noise-robustness and E2E semantics evaluation. Experiments on ATIS show that our SLU framework with speech as input can perform on par with those using oracle text as input in semantics understanding, even though environmental noise is present and a limited amount of labeled semantics data is available for training.
翻訳日:2022-10-02 19:07:57 公開日:2020-10-26
# 単語頻度は言語モデルにおける文法的知識を予測しない

Word Frequency Does Not Predict Grammatical Knowledge in Language Models ( http://arxiv.org/abs/2010.13870v1 )

ライセンス: Link先を確認
Charles Yu, Ryan Sie, Nico Tedeschi, Leon Bergen(参考訳) ニューラルネットワークモデルは、自然言語の文法的特性を、様々な精度で学習する。 本研究では,言語モデルの精度に系統的な変化源が存在するかを検討する。 主語-動詞の合意と反射的照応に着目し,特定の名詞は他の名詞よりも体系的に理解され,文法的タスクと異なる言語モデルにおいて頑健な効果を示す。 驚いたことに、コーパス周波数は4桁にわたって、文法的なタスクにおける名詞のパフォーマンスとは無関係である。 最後に、新しい名詞の文法的性質は、様々な訓練データからほとんど学習されないことがわかった。 結果はパラドックスを示している:実際に観察されるよりも文法的性能のばらつきが少ないはずである。

Neural language models learn, to varying degrees of accuracy, the grammatical properties of natural languages. In this work, we investigate whether there are systematic sources of variation in the language models' accuracy. Focusing on subject-verb agreement and reflexive anaphora, we find that certain nouns are systematically understood better than others, an effect which is robust across grammatical tasks and different language models. Surprisingly, we find that across four orders of magnitude, corpus frequency is unrelated to a noun's performance on grammatical tasks. Finally, we find that a novel noun's grammatical properties can be few-shot learned from various types of training data. The results present a paradox: there should be less variation in grammatical performance than is actually observed.
翻訳日:2022-10-02 19:07:20 公開日:2020-10-26
# リカレントニューラルネットワークトランスデューサのための改良型ニューラル言語モデル融合

Improved Neural Language Model Fusion for Streaming Recurrent Neural Network Transducer ( http://arxiv.org/abs/2010.13878v1 )

ライセンス: Link先を確認
Suyoun Kim, Yuan Shangguan, Jay Mahadeokar, Antoine Bruguier, Christian Fuegen, Michael L. Seltzer, Duc Le(参考訳) リカレントニューラルネットワークトランスデューサ(RNN-T)は、ほとんどのエンドツーエンドの音声認識モデルアーキテクチャと同様に、暗黙のニューラルネットワーク言語モデル(NNLM)を持ち、トレーニング中に不適切なテキストデータを簡単に利用できない。 従来の研究では、この弱点に対処するため、外部NNLMをエンドツーエンドのASRに組み込む様々な融合手法が提案されている。 本稿では,学習時間と推論時間の両方において,rnn-tが外部nnlmを活用できるようにする手法の拡張を提案する。 さらに,提案手法はアルゴリズム遅延を余分に発生させることなく,異なるNNLMの柔軟なプラグアンドプレイを可能にする。 また,nnlmの融合手法の利点をより深く理解するために,詳細な分析を行った。 我々の研究は、不用意なテキストデータを活用してRNN-Tを大幅に改善し、システムの合理性、柔軟性、軽量性を保ちながら、信頼性の高い手法を提供する。

Recurrent Neural Network Transducer (RNN-T), like most end-to-end speech recognition model architectures, has an implicit neural network language model (NNLM) and cannot easily leverage unpaired text data during training. Previous work has proposed various fusion methods to incorporate external NNLMs into end-to-end ASR to address this weakness. In this paper, we propose extensions to these techniques that allow RNN-T to exploit external NNLMs during both training and inference time, resulting in 13-18% relative Word Error Rate improvement on Librispeech compared to strong baselines. Furthermore, our methods do not incur extra algorithmic latency and allow for flexible plug-and-play of different NNLMs without re-training. We also share in-depth analysis to better understand the benefits of the different NNLM fusion methods. Our work provides a reliable technique for leveraging unpaired text data to significantly improve RNN-T while keeping the system streamable, flexible, and lightweight.
翻訳日:2022-10-02 19:07:07 公開日:2020-10-26
# 行間を読む:ビジュアル・ナラティブにおけるインフィルディングの探索

Reading Between the Lines: Exploring Infilling in Visual Narratives ( http://arxiv.org/abs/2010.13944v1 )

ライセンス: Link先を確認
Khyathi Raghavi Chandu, Ruo-Ping Dong, Alan Black(参考訳) 複数のモダリティから物語や手順のような長い形態の物語を生み出すことは、人工知能にとって長年の夢だった。 この点に関して、周囲の文脈から派生した重要なサブテキストがしばしば存在する。 一般的なseq2seqトレーニング手法は、近隣のコンテキスト間のギャップを埋めようとしながら、モデルをショートハンドでレンダリングする。 本稿では,画像列からテキスト記述を生成しながら,物語中のステップの欠落を予測できる手法である \textit{infilling} を用いてこの問題に取り組む。 また,46,200のプロシージャと約340kのペアワイズ画像と,そのような文脈依存に富むテキスト記述を備えた,新たな大規模データ集合 \textit{visual procedure telling} (vipt) を提案する。 インフィルディング技術を用いたステップ生成は、よりコヒーレントなテキストを用いた視覚的手順の有効性を示す。 ビジュアルストーリーテリングの最先端よりも高い手順で,METEORの27.51のスコアを確定的に示す。 また,画像の欠落による新たなテキストの補間効果も示す。 コードとデータセットはhttps://visual-narratives.github.io/Visual-Narratives/で公開される。

Generating long form narratives such as stories and procedures from multiple modalities has been a long standing dream for artificial intelligence. In this regard, there is often crucial subtext that is derived from the surrounding contexts. The general seq2seq training methods render the models shorthanded while attempting to bridge the gap between these neighbouring contexts. In this paper, we tackle this problem by using \textit{infilling} techniques involving prediction of missing steps in a narrative while generating textual descriptions from a sequence of images. We also present a new large scale \textit{visual procedure telling} (ViPT) dataset with a total of 46,200 procedures and around 340k pairwise images and textual descriptions that is rich in such contextual dependencies. Generating steps using infilling technique demonstrates the effectiveness in visual procedures with more coherent texts. We conclusively show a METEOR score of 27.51 on procedures which is higher than the state-of-the-art on visual storytelling. We also demonstrate the effects of interposing new text with missing images during inference. The code and the dataset will be publicly available at https://visual-narratives.github.io/Visual-Narratives/.
翻訳日:2022-10-02 19:06:48 公開日:2020-10-26
# RNNAccel:エッジインテリジェンスのためのフュージョンリカレントニューラルネットワークアクセラレータ

RNNAccel: A Fusion Recurrent Neural Network Accelerator for Edge Intelligence ( http://arxiv.org/abs/2010.13311v1 )

ライセンス: Link先を確認
Chao-Yang Kao, Huang-Chih Kuo, Jian-Wen Chen, Chiung-Liang Lin, Pin-Han Chen and Youn-Long Lin(参考訳) 多くのエッジデバイスは製品インテリジェンスを高めるためにリカレントニューラルネットワーク(RNN)を使用している。 しかし、計算複雑性の増大は、パフォーマンス、エネルギー効率、製品開発時間に課題をもたらす。 本稿では,Long Short-Term Memory(LSTM)ネットワーク,Gated Recurrent Unit(GRU)ネットワーク,Fully Connected Layer(FC)/Multiple-Perceptron Layer(MLP)ネットワークをサポートするRNNAccelという,RNNディープラーニングアクセラレータを提案する。 本発明のrnn加速器は、(1)rnnデータ依存によるユニット利用ボトルネック、(2)特定のアプリケーションに対する柔軟性のない設計、(3)メモリアクセスによるエネルギー消費、(4)係数圧縮による精度損失、(5)プロセッサ・アクセラレータ統合による予測不能なパフォーマンスに対処する。 提案するRNN加速器は,構成可能な32-MACアレイと係数圧縮エンジンから構成される。 MACアレイはスループット要件と電力予算を満たすためにスケールアップすることができる。 洗練されたオフライン圧縮と単純なハードウェアフレンドリーなオンライン圧縮であるNeuCompressionは、メモリフットプリントを16倍に減らし、メモリアクセス能力を低下させる。 さらに,SOC統合を容易にするため,ビット精度シミュレーションと統合結果検証のためのツールセットを開発した。 キーワードスポッティングアプリケーションを用いて評価し、32-MAC RNNアクセラレータは90%のMAC利用、40nmプロセスでの1.27TOPs/W、8倍の圧縮比、90%の推論精度を達成する。

Many edge devices employ Recurrent Neural Networks (RNN) to enhance their product intelligence. However, the increasing computation complexity poses challenges for performance, energy efficiency and product development time. In this paper, we present an RNN deep learning accelerator, called RNNAccel, which supports Long Short-Term Memory (LSTM) network, Gated Recurrent Unit (GRU) network, and Fully Connected Layer (FC)/ Multiple-Perceptron Layer (MLP) networks. This RNN accelerator addresses (1) computing unit utilization bottleneck caused by RNN data dependency, (2) inflexible design for specific applications, (3) energy consumption dominated by memory access, (4) accuracy loss due to coefficient compression, and (5) unpredictable performance resulting from processor-accelerator integration. Our proposed RNN accelerator consists of a configurable 32-MAC array and a coefficient decompression engine. The MAC array can be scaled-up to meet throughput requirement and power budget. Its sophisticated off-line compression and simple hardware-friendly on-line decompression, called NeuCompression, reduces memory footprint up to 16x and decreases memory access power. Furthermore, for easy SOC integration, we developed a tool set for bit-accurate simulation and integration result validation. Evaluated using a keyword spotting application, the 32-MAC RNN accelerator achieves 90% MAC utilization, 1.27 TOPs/W at 40nm process, 8x compression ratio, and 90% inference accuracy.
翻訳日:2022-10-02 19:06:13 公開日:2020-10-26
# adafuse:野生の正確なポーズ推定のための適応型マルチビュー融合

AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in the Wild ( http://arxiv.org/abs/2010.13302v1 )

ライセンス: Link先を確認
Zhe Zhang, Chunyu Wang, Weichao Qiu, Wenhu Qin, Wenjun Zeng(参考訳) 咬合は、野生の人間のポーズ推定にとっておそらく最大の課題である。 典型的な解法は、閉塞された関節を検出するために、IMUのような侵入センサーに依存することが多い。 タスクを真に無拘束にするために,適応型マルチビュー融合手法であるadafuseを提案する。 AdaFuseの中核は、ヒートマップ表現の空間性を探究することによって、効果的に解決する2つのビュー間のポイント対応を決定することである。 さらに,各カメラビューに対する適応的な融合重みを学習し,その機能品質を反映して,‘bad’ビューによって,優れた機能が望ましくないほど損なわれる可能性を低減する。 融合モデルはポーズ推定ネットワークでエンドツーエンドに訓練され、追加の適応なしに新しいカメラ構成に直接適用することができる。 我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。 それらすべてにおいて最先端の技術を上回っている。 また、画像中のすべての関節に対して閉塞ラベルを提供するため、閉塞関節の数値評価を可能にする大規模な合成データセットOcclusion-Personを作成する。 データセットとコードはhttps://github.com/zhezh/adafuse-3d-human-poseでリリースされる。

Occlusion is probably the biggest challenge for human pose estimation in the wild. Typical solutions often rely on intrusive sensors such as IMUs to detect occluded joints. To make the task truly unconstrained, we present AdaFuse, an adaptive multiview fusion method, which can enhance the features in occluded views by leveraging those in visible views. The core of AdaFuse is to determine the point-point correspondence between two views which we solve effectively by exploring the sparsity of the heatmap representation. We also learn an adaptive fusion weight for each camera view to reflect its feature quality in order to reduce the chance that good features are undesirably corrupted by ``bad'' views. The fusion model is trained end-to-end with the pose estimation network, and can be directly applied to new camera configurations without additional adaptation. We extensively evaluate the approach on three public datasets including Human3.6M, Total Capture and CMU Panoptic. It outperforms the state-of-the-arts on all of them. We also create a large scale synthetic dataset Occlusion-Person, which allows us to perform numerical evaluation on the occluded joints, as it provides occlusion labels for every joint in the images. The dataset and code are released at https://github.com/zhezh/adafuse-3d-human-pose.
翻訳日:2022-10-02 19:05:02 公開日:2020-10-26
# 構造優先型正規化ディープラーニングによるソナー画像分類

Structural Prior Driven Regularized Deep Learning for Sonar Image Classification ( http://arxiv.org/abs/2010.13317v1 )

ライセンス: Link先を確認
Isaac D. Gerg and Vishal Monga(参考訳) 近年,合成開口ソナー(SAS)画像分類における深層学習の性能向上が示されている。 SASの範囲の一定解像度を考えると、ディープラーニング技術がこれほどよく機能するのは驚くにあたらない。 近年の深層学習の成功にもかかわらず、高い誤報率を減らし、訓練画像が限定された場合の成功を可能にするという、魅力的なオープンな課題が依然として残っており、これは、SAS分類問題と訓練画像が豊富である可能性のある標準画像分類セットとを区別する実践的な課題である。 我々は、人間がシーンを把握するために使用する事前知識を活用することで、これらの課題に対処する。 これには、画像のスペックルの無意識的な削除とシーン内のオブジェクトのローカライズが含まれる。 SAS画像から自動目標認識(ATR)を改善することを目的として,これらの先行情報を組み込んだ新しいディープラーニングアーキテクチャを提案する。 我々の提案はSPDRDLと呼ばれ、従来のSAS ATR手法と比較して、前述のように、マルチタスク畳み込みニューラルネットワーク(CNN)に組み込まれており、追加のトレーニングデータを必要としない。 Two structural priors are enforced via regularization terms in the learning of the network: (1) structural similarity prior -- enhanced imagery (often through despeckling) aids human interpretation and is semantically similar to the original imagery and (2) structural scene context priors -- learned features ideally encapsulate target centering information; hence learning may be enhanced via a regularization that encourages fidelity against known ground truth target shifts (relative target position from scene center). 挑戦的な実世界のデータセットの実験により、SPDRDLはSAS画像分類のための最先端のディープラーニングやその他の競合する手法よりも優れていることが明らかになった。

Deep learning has been recently shown to improve performance in the domain of synthetic aperture sonar (SAS) image classification. Given the constant resolution with range of a SAS, it is no surprise that deep learning techniques perform so well. Despite deep learning's recent success, there are still compelling open challenges in reducing the high false alarm rate and enabling success when training imagery is limited, which is a practical challenge that distinguishes the SAS classification problem from standard image classification set-ups where training imagery may be abundant. We address these challenges by exploiting prior knowledge that humans use to grasp the scene. These include unconscious elimination of the image speckle and localization of objects in the scene. We introduce a new deep learning architecture which incorporates these priors with the goal of improving automatic target recognition (ATR) from SAS imagery. Our proposal -- called SPDRDL, Structural Prior Driven Regularized Deep Learning -- incorporates the previously mentioned priors in a multi-task convolutional neural network (CNN) and requires no additional training data when compared to traditional SAS ATR methods. Two structural priors are enforced via regularization terms in the learning of the network: (1) structural similarity prior -- enhanced imagery (often through despeckling) aids human interpretation and is semantically similar to the original imagery and (2) structural scene context priors -- learned features ideally encapsulate target centering information; hence learning may be enhanced via a regularization that encourages fidelity against known ground truth target shifts (relative target position from scene center). Experiments on a challenging real-world dataset reveal that SPDRDL outperforms state-of-the-art deep learning and other competing methods for SAS image classification.
翻訳日:2022-10-02 19:04:42 公開日:2020-10-26
# 深層学習による目的語抽出における構文構造の導入

Introducing Syntactic Structures into Target Opinion Word Extraction with Deep Learning ( http://arxiv.org/abs/2010.13378v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Nasim Nouri, Franck Dernoncourt, Dejing Dou, Thien Huu Nguyen(参考訳) ToWE(Targeted opinion word extract)は、アスペクトベースの感情分析(ABSA)のサブタスクであり、文中の特定のアスペクトタームに対する意見語を見つけることを目的としている。 TOWEの成功にもかかわらず、現在のディープラーニングモデルは、以前の研究でTOWEに有用であることが証明された文の構文情報を活用できない。 本研究では,文の構文構造をTOWEの深層学習モデルに組み込むことを提案する。 また,toweの単語間の表現区別に基づいて,ディープラーニングモデルの性能を向上させるための新しい正規化手法を提案する。 提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。

Targeted opinion word extraction (TOWE) is a sub-task of aspect based sentiment analysis (ABSA) which aims to find the opinion words for a given aspect-term in a sentence. Despite their success for TOWE, the current deep learning models fail to exploit the syntactic information of the sentences that have been proved to be useful for TOWE in the prior research. In this work, we propose to incorporate the syntactic structures of the sentences into the deep learning models for TOWE, leveraging the syntax-based opinion possibility scores and the syntactic connections between the words. We also introduce a novel regularization technique to improve the performance of the deep learning models based on the representation distinctions between the words in TOWE. The proposed model is extensively analyzed and achieves the state-of-the-art performance on four benchmark datasets.
翻訳日:2022-10-02 18:58:21 公開日:2020-10-26
# fastformers: 自然言語理解のための高効率トランスフォーマーモデル

FastFormers: Highly Efficient Transformer Models for Natural Language Understanding ( http://arxiv.org/abs/2010.13382v1 )

ライセンス: Link先を確認
Young Jin Kim and Hany Hassan Awadalla(参考訳) Transformerベースのモデルは、自然言語理解(NLU)アプリケーションのための最先端技術である。 さまざまなタスクにおいて、モデルはますます大きくなっています。 しかし、Transformerモデルは従来の手法に比べて推論時の効率が良くないため、計算的に困難である。 本稿では,様々なnluタスクにおけるトランスフォーマティブモデルの効率的な推論時間性能を実現するためのレシピであるfastformersを提案する。 本研究では, 知識蒸留, 構造化プルーニング, 数値最適化が, 推論効率を大幅に向上させることを示す。 我々は,NLUタスクや事前学習モデルに最適な設定を選択するための効果的なレシピを提供する。 SuperGLUEベンチマークに提案されたレシピを適用して、CPUのアウト・オブ・ボックスモデルと比較して9.8倍から233.9倍のスピードアップを達成した。 GPUでは、提案手法で最大12.4倍のスピードアップを実現しています。 我々は、FastFormersがAzure F16s_v2インスタンス上で4,223 USDから18 USDに1億のリクエストを提供するコストを大幅に削減できることを示した。 これは、SustaiNLP 2020共有タスクで使用されるメトリクスに従って、エネルギー消費を6.9x - 125.8x削減することで、持続可能なランタイムに変換される。

Transformer-based models are the state-of-the-art for Natural Language Understanding (NLU) applications. Models are getting bigger and better on various tasks. However, Transformer models remain computationally challenging since they are not efficient at inference-time compared to traditional approaches. In this paper, we present FastFormers, a set of recipes to achieve efficient inference-time performance for Transformer-based models on various NLU tasks. We show how carefully utilizing knowledge distillation, structured pruning and numerical optimization can lead to drastic improvements on inference efficiency. We provide effective recipes that can guide practitioners to choose the best settings for various NLU tasks and pretrained models. Applying the proposed recipes to the SuperGLUE benchmark, we achieve from 9.8x up to 233.9x speed-up compared to out-of-the-box models on CPU. On GPU, we also achieve up to 12.4x speed-up with the presented methods. We show that FastFormers can drastically reduce cost of serving 100 million requests from 4,223 USD to just 18 USD on an Azure F16s_v2 instance. This translates to a sustainable runtime by reducing energy consumption 6.9x - 125.8x according to the metrics used in the SustaiNLP 2020 shared task.
翻訳日:2022-10-02 18:58:08 公開日:2020-10-26
# Gated Graph Convolutional Networksによるアスペクトベース感性分析の改善と構文ベースレギュレーション

Improving Aspect-based Sentiment Analysis with Gated Graph Convolutional Networks and Syntax-based Regulation ( http://arxiv.org/abs/2010.13389v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Nasim Nour, Franck Dernoncourt, Quan Hung Tran, Dejing Dou, Thien Huu Nguyen(参考訳) Aspect-based Sentiment Analysis (ABSA)は、特定の側面に向けて文の感情極性を予測する。 近年,ABSAの最先端性能を実現するため,依存関係木をディープラーニングモデルに統合できることが示されている。 しかし、これらのモデルはアスペクト項を考慮せずに隠れ/表現ベクトルを計算し、ABSAの依存木から得られる単語の全体的な文脈的重要性スコアから恩恵を受けない傾向にある。 本研究では,従来のABSA研究の2つの課題を克服するために,グラフに基づく新しいディープラーニングモデルを提案する。 本モデルでは、アスペクト項の表現ベクトルからゲートベクトルを生成し、グラフに基づくモデルの隠れベクトルをアスペクト項に向けてカスタマイズする。 さらに, 文中の各単語の重要度を, ABSAの表現ベクトルを改善するためにモデルに注入する依存性木に基づいて求める機構を提案する。 提案モデルは,3つのベンチマークデータセット上での最先端性能を実現する。

Aspect-based Sentiment Analysis (ABSA) seeks to predict the sentiment polarity of a sentence toward a specific aspect. Recently, it has been shown that dependency trees can be integrated into deep learning models to produce the state-of-the-art performance for ABSA. However, these models tend to compute the hidden/representation vectors without considering the aspect terms and fail to benefit from the overall contextual importance scores of the words that can be obtained from the dependency tree for ABSA. In this work, we propose a novel graph-based deep learning model to overcome these two issues of the prior work on ABSA. In our model, gate vectors are generated from the representation vectors of the aspect terms to customize the hidden vectors of the graph-based models toward the aspect terms. In addition, we propose a mechanism to obtain the importance scores for each word in the sentences based on the dependency trees that are then injected into the model to improve the representation vectors for ABSA. The proposed model achieves the state-of-the-art performance on three benchmark datasets.
翻訳日:2022-10-02 18:57:48 公開日:2020-10-26
# イベント引数抽出のための構文構造と意味構造を備えたグラフトランスフォーマネットワーク

Graph Transformer Networks with Syntactic and Semantic Structures for Event Argument Extraction ( http://arxiv.org/abs/2010.13391v1 )

ライセンス: Link先を確認
Amir Pouran Ben Veyseh, Tuan Ngo Nguyen, Thien Huu Nguyen(参考訳) イベント引数抽出(eae)の目的は、与えられたイベントトリガワードに対する各エンティティの参照の役割を見つけることである。 文の構文構造は,EAEの深層学習モデルに有用であることが過去の研究で示されている。 しかし、そのような先行研究における大きな問題は、文の意味構造を利用してEAEの効果的な表現を誘導できないことである。 そこで本研究では,文の構文的構造と意味的構造をグラフトランスフォーマーネットワーク(GTN)で利用し,より効果的な文構造を学習するEAEの新しいモデルを提案する。 さらに,情報ボトルネックに基づく新しい帰納バイアスを導入し,AEモデルの一般化を改善する。 提案モデルの利点を実証するために広範な実験が行われ、標準データセットでのeaeの最先端のパフォーマンスに繋がる。

The goal of Event Argument Extraction (EAE) is to find the role of each entity mention for a given event trigger word. It has been shown in the previous works that the syntactic structures of the sentences are helpful for the deep learning models for EAE. However, a major problem in such prior works is that they fail to exploit the semantic structures of the sentences to induce effective representations for EAE. Consequently, in this work, we propose a novel model for EAE that exploits both syntactic and semantic structures of the sentences with the Graph Transformer Networks (GTNs) to learn more effective sentence structures for EAE. In addition, we introduce a novel inductive bias based on information bottleneck to improve generalization of the EAE models. Extensive experiments are performed to demonstrate the benefits of the proposed model, leading to state-of-the-art performance for EAE on standard datasets.
翻訳日:2022-10-02 18:57:31 公開日:2020-10-26
# TPLinker:トークンペアリンクによるエンティティとリレーションの単一段階共同抽出

TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking ( http://arxiv.org/abs/2010.13415v1 )

ライセンス: Link先を確認
Yucheng Wang, Bowen Yu, Yueyang Zhang, Tingwen Liu, Hongsong Zhu and Limin Sun(参考訳) 非構造化テキストからのエンティティとリレーションの抽出は近年注目されているが,共有エンティティとの重複関係の特定が本質的に困難であるため,依然として課題となっている。 先行研究は、共同学習が顕著なパフォーマンス向上をもたらすことを示している。 しかし、通常は連続的な相互関係のステップを伴い、露光バイアスの問題に悩まされる。 訓練時には、推測時にゼロから抽出する必要がある間、基礎的な真理条件で予測する。 この矛盾はエラーの蓄積につながる。 そこで本稿では,1つまたは2つの実体を共有する重なり関係を,露出バイアスから免れることなく発見できる一段階のジョイント抽出モデル,tplinkerを提案する。 TPLinkerはトークンペアリンク問題としてジョイント抽出を定式化し,各関係型に基づいてエンティティペアの境界トークンを整列する新しいハンドシェイキングタギング方式を提案する。 実験の結果,TPLinkerは重なり合いと多重関係抽出に優れ,2つの公開データセット上で最先端のパフォーマンスを実現することがわかった。

Extracting entities and relations from unstructured text has attracted increasing attention in recent years but remains challenging, due to the intrinsic difficulty in identifying overlapping relations with shared entities. Prior works show that joint learning can result in a noticeable performance gain. However, they usually involve sequential interrelated steps and suffer from the problem of exposure bias. At training time, they predict with the ground truth conditions while at inference it has to make extraction from scratch. This discrepancy leads to error accumulation. To mitigate the issue, we propose in this paper a one-stage joint extraction model, namely, TPLinker, which is capable of discovering overlapping relations sharing one or both entities while immune from the exposure bias. TPLinker formulates joint extraction as a token pair linking problem and introduces a novel handshaking tagging scheme that aligns the boundary tokens of entity pairs under each relation type. Experiment results show that TPLinker performs significantly better on overlapping and multiple relation extraction, and achieves state-of-the-art performance on two public datasets.
翻訳日:2022-10-02 18:57:16 公開日:2020-10-26
# 神聖な喜劇の音節化

Syllabification of the Divine Comedy ( http://arxiv.org/abs/2010.13515v1 )

ライセンス: Link先を確認
Andrea Asperti and Stefano Dal Bianco(参考訳) 確率的および制約的プログラミングの手法を用いて,神的喜劇の文節化アルゴリズムを提案する。 我々は特に、隣接した単語でシナリーフに参加する単語の「正当性」の観点から、シナリーフに焦点を合わせている。 我々は,各単語について,その音節の音節化,音節アクセントの位置,上述した音節の正当性に関する情報を左右に含むオンライン語彙を共同で提供する。 このアルゴリズムは本質的に非決定論的であり、各節に対して異なる確率で異なる可能なシラビフィケーションを生成し、解空間を更に小さくするために10,4,6音節のアクセントに対するメートル法的制約を用いる。 最も可能性の高いシラビ化は出力として返される。 この作業は、さまざまな調査において大きなマイルストーンになると考えています。 デジタル人間性の観点からは、異常や問題ケースの自動検出、詩のメートル法クラスタリングとその分類、あるいは子音と母音の音声的役割に対処する基礎的な調査などを含む、デジタルソースのコンピュータ支援分析に関する新たな視点が開かれている。 テキスト処理と深層学習の観点からは、単語や詩の自動学習音節化の可能性から、生成モデルの改善、メートル法問題への認識、期待される音楽性への敬意に至るまで、シラビフィケーションに関する情報とアクセントの位置は、幅広いエキサイティングな視点を開いている。

We provide a syllabification algorithm for the Divine Comedy using techniques from probabilistic and constraint programming. We particularly focus on the synalephe, addressed in terms of the "propensity" of a word to take part in a synalephe with adjacent words. We jointly provide an online vocabulary containing, for each word, information about its syllabification, the location of the tonic accent, and the aforementioned synalephe propensity, on the left and right sides. The algorithm is intrinsically nondeterministic, producing different possible syllabifications for each verse, with different likelihoods; metric constraints relative to accents on the 10th, 4th and 6th syllables are used to further reduce the solution space. The most likely syllabification is hence returned as output. We believe that this work could be a major milestone for a lot of different investigations. From the point of view of digital humanities it opens new perspectives on computer assisted analysis of digital sources, comprising automated detection of anomalous and problematic cases, metric clustering of verses and their categorization, or more foundational investigations addressing e.g. the phonetic roles of consonants and vowels. From the point of view of text processing and deep learning, information about syllabification and the location of accents opens a wide range of exciting perspectives, from the possibility of automatic learning syllabification of words and verses, to the improvement of generative models, aware of metric issues, and more respectful of the expected musicality.
翻訳日:2022-10-02 18:56:56 公開日:2020-10-26
# 遠隔監視による神経関係分類のためのメタラーニング

Meta-Learning for Neural Relation Classification with Distant Supervision ( http://arxiv.org/abs/2010.13544v1 )

ライセンス: Link先を確認
Zhenzhen Li, Jian-Yun Nie, Benyou Wang, Pan Du, Yuhan Zhang, Lixin Zou, and Dongsheng Li(参考訳) 遠隔監視は、関係分類のための低コストで多数の弱いラベル付きデータを作成する手段を提供する。 しかし、結果のラベル付きインスタンスは非常に騒がしく、間違ったラベルのデータを含んでいる。 ニューラルモデルトレーニングのために信頼できるインスタンスのサブセットを選択するための多くのアプローチが提案されているが、それでもノイズの多いラベル問題や弱いラベルデータの過小利用に苦しめられている。 より信頼性の高いトレーニングインスタンスを選択するために、少量の手動ラベル付きデータを参照として導入し、選択プロセスをガイドする。 本稿では,参照データの指導のもと,ノイズのあるトレーニングデータの重み付けを学習するメタラーニングに基づく手法を提案する。 クリーンな参照データは通常非常に小さいため、ノイズの多いデータから最も信頼性の高いエリートインスタンスを動的に蒸留することにより、それを強化することを提案する。 いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的に導くことを示し、我々の強化されたアプローチは、既存の最先端手法と比較して、関係分類の性能を一貫して改善する。

Distant supervision provides a means to create a large number of weakly labeled data at low cost for relation classification. However, the resulting labeled instances are very noisy, containing data with wrong labels. Many approaches have been proposed to select a subset of reliable instances for neural model training, but they still suffer from noisy labeling problem or underutilization of the weakly-labeled data. To better select more reliable training instances, we introduce a small amount of manually labeled data as reference to guide the selection process. In this paper, we propose a meta-learning based approach, which learns to reweight noisy training data under the guidance of reference data. As the clean reference data is usually very small, we propose to augment it by dynamically distilling the most reliable elite instances from the noisy data. Experiments on several datasets demonstrate that the reference data can effectively guide the selection of training data, and our augmented approach consistently improves the performance of relation classification comparing to the existing state-of-the-art methods.
翻訳日:2022-10-02 18:56:28 公開日:2020-10-26
# 言語生成評価指標の奇妙な事例--注意物語

Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale ( http://arxiv.org/abs/2010.13588v1 )

ライセンス: Link先を確認
Ozan Caglayan, Pranava Madhyastha, Lucia Specia(参考訳) 言語生成システムの自動評価は自然言語処理においてよく研究されている問題である。 毎年新しいメトリクスが提案されているが、既知の制限にもかかわらず、イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的なメトリクスが残っている。 これは使いやすさと、研究者がそれを見て解釈する方法を知りたがっているためでもある。 本稿では,複数のデータセット,言語ペア,タスクに対して重要な障害事例を示すことによって,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。 私たちの実験では (i)通常は人文よりもシステム出力を好む。 (ii)は、まれな単語の正しい翻訳に敏感である。 (iii) テストセット全体のシステム出力として単一文が与えられると驚くほど高いスコアが得られる。

Automatic evaluation of language generation systems is a well-studied problem in Natural Language Processing. While novel metrics are proposed every year, a few popular metrics remain as the de facto metrics to evaluate tasks such as image captioning and machine translation, despite their known limitations. This is partly due to ease of use, and partly because researchers expect to see them and know how to interpret them. In this paper, we urge the community for more careful consideration of how they automatically evaluate their models by demonstrating important failure cases on multiple datasets, language pairs and tasks. Our experiments show that metrics (i) usually prefer system outputs to human-authored texts, (ii) can be insensitive to correct translations of rare words, (iii) can yield surprisingly high scores when given a single sentence as system output for the entire test set.
翻訳日:2022-10-02 18:56:10 公開日:2020-10-26
# それは素晴らしいか、恐ろしいか? アラビア語の機械翻訳における感情の保存

Is it Great or Terrible? Preserving Sentiment in Neural Machine Translation of Arabic Reviews ( http://arxiv.org/abs/2010.13814v1 )

ライセンス: Link先を確認
Hadeel Saadany, Constantin Orasan(参考訳) ニューラルネットワーク翻訳(NMT)の登場以来、自動翻訳の品質は大幅に改善されてきた。 しかし、NMT出力は、一部の低リソース言語では精度に欠けており、時には大規模な後編集を必要とする大きなエラーを発生させることがある。 これは、ユーザ生成コンテンツ(UGC)のような一般的な語彙文法標準に従わないテキストで特に顕著である。 本稿では,アラビア語から英語への書評の翻訳にかかわる課題,特に感情極性の誤訳につながる誤りに着目した。 本研究は, アラビア語 UGC の特殊特性を指摘するとともに, アラビア語 UGC の Google Translate が英語に翻訳した感情伝達誤差を調査し, 問題の原因を分析し, アラビア語 UGC の翻訳に特有な誤り型付けを提案する。 我々の分析は、アラビア語 UGC のオンライン翻訳ツールの出力は、中立なターゲットテキストを生成することによって、感情の伝達に失敗するか、あるいはターゲット単語やフレーズの感情の極性を完全に反転させ、その結果、誤った感情メッセージを提供する可能性があることを示している。 本研究では, 感情極性に関するNMTモデルを微調整することにより, アラビア語 UGC のオンライン翻訳で検出された感情誤りの修正に有効であることを示す。

Since the advent of Neural Machine Translation (NMT) approaches there has been a tremendous improvement in the quality of automatic translation. However, NMT output still lacks accuracy in some low-resource languages and sometimes makes major errors that need extensive post-editing. This is particularly noticeable with texts that do not follow common lexico-grammatical standards, such as user generated content (UGC). In this paper we investigate the challenges involved in translating book reviews from Arabic into English, with particular focus on the errors that lead to incorrect translation of sentiment polarity. Our study points to the special characteristics of Arabic UGC, examines the sentiment transfer errors made by Google Translate of Arabic UGC to English, analyzes why the problem occurs, and proposes an error typology specific of the translation of Arabic UGC. Our analysis shows that the output of online translation tools of Arabic UGC can either fail to transfer the sentiment at all by producing a neutral target text, or completely flips the sentiment polarity of the target word or phrase and hence delivers a wrong affect message. We address this problem by fine-tuning an NMT model with respect to sentiment polarity showing that this approach can significantly help with correcting sentiment errors detected in the online translation of Arabic UGC.
翻訳日:2022-10-02 18:55:56 公開日:2020-10-26
# VoteNet++: マルチアトラスセグメンテーションの登録リファインメント

VoteNet++: Registration Refinement for Multi-Atlas Segmentation ( http://arxiv.org/abs/2010.13484v1 )

ライセンス: Link先を確認
Zhipeng Ding, Marc Niethammer(参考訳) マルチアトラスセグメンテーション(MAS)は医用画像のイメージセグメンテーション技術として人気がある。 本研究では,ラベル融合前の登録誤りを修正することでMASの性能を向上させる。 具体的には、画像の解剖学的外観と予測ラベルに基づいて登録を洗練するために体積変位場を用いる。 我々は,初期空間アライメントの影響と,MAS演奏におけるラベル情報の利用効果を示す。 提案手法により膝の3次元磁気共鳴データセットにおけるMAS性能が向上することを示した。

Multi-atlas segmentation (MAS) is a popular image segmentation technique for medical images. In this work, we improve the performance of MAS by correcting registration errors before label fusion. Specifically, we use a volumetric displacement field to refine registrations based on image anatomical appearance and predicted labels. We show the influence of the initial spatial alignment as well as the beneficial effect of using label information for MAS performance. Experiments demonstrate that the proposed refinement approach improves MAS performance on a 3D magnetic resonance dataset of the knee.
翻訳日:2022-10-02 18:49:20 公開日:2020-10-26
# 医用画像分割の最適化 : diceスコアまたはjaccard indexを用いた評価法の理論と実践

Optimization for Medical Image Segmentation: Theory and Practice when evaluating with Dice Score or Jaccard Index ( http://arxiv.org/abs/2010.13499v1 )

ライセンス: Link先を確認
Tom Eelbode, Jeroen Bertels, Maxim Berman, Dirk Vandermeulen, Frederik Maes, Raf Bisschops, Matthew B. Blaschko(参考訳) 多くの医用画像や古典的コンピュータビジョンタスクでは、DiceスコアとJaccardインデックスを使用してセグメンテーション性能を評価する。 測度に敏感な損失の存在と大きな経験的成功、すなわち、ソフトDice、ソフトJaccard、Lovasz-Softmaxのようなメトリクスの緩和にもかかわらず、多くの研究者は、セグメンテーションのためにCNNを訓練するために(重み付けされた)クロスエントロピーのようなピクセル単位の損失を依然として使っている。 したがって、目標距離は直接最適化されないことが多い。 理論的な観点から, 計量感応損失関数群内の関係を考察し, 試験時間におけるサイススコアとジャカード指数を最適化するための重み付きクロスエントロピーの最適重み付けスキームの存在を疑問視する。 Dice スコアと Jaccard インデックスは相対的に絶対的に近似するが、重み付けされたハミング類似性に対するそのような近似は見つからない。 トベルスキーの損失に対して、ソフトトベルスキーがソフトダイスと等しい自明な重量設定から外れると、近似は単調に悪化する。 これらの結果は、6つの医療区分タスクの広範な検証において実証的に検証され、diceスコアやjaccardインデックスを用いた評価において、メートル法に敏感な損失がクロスエントロピーに基づく損失関数よりも優れていることが確認できる。 これはさらに多クラス設定であり、異なるオブジェクトサイズとフォアグラウンド/バックグラウンド比にまたがる。 これらの結果は、関心のあるパフォーマンス指標がサイススコアまたはjaccardインデックスである医学的セグメンテーションタスクにおいて、メトリクスに敏感な損失関数を広く採用することを奨励する。

In many medical imaging and classical computer vision tasks, the Dice score and Jaccard index are used to evaluate the segmentation performance. Despite the existence and great empirical success of metric-sensitive losses, i.e. relaxations of these metrics such as soft Dice, soft Jaccard and Lovasz-Softmax, many researchers still use per-pixel losses, such as (weighted) cross-entropy to train CNNs for segmentation. Therefore, the target metric is in many cases not directly optimized. We investigate from a theoretical perspective, the relation within the group of metric-sensitive loss functions and question the existence of an optimal weighting scheme for weighted cross-entropy to optimize the Dice score and Jaccard index at test time. We find that the Dice score and Jaccard index approximate each other relatively and absolutely, but we find no such approximation for a weighted Hamming similarity. For the Tversky loss, the approximation gets monotonically worse when deviating from the trivial weight setting where soft Tversky equals soft Dice. We verify these results empirically in an extensive validation on six medical segmentation tasks and can confirm that metric-sensitive losses are superior to cross-entropy based loss functions in case of evaluation with Dice Score or Jaccard Index. This further holds in a multi-class setting, and across different object sizes and foreground/background ratios. These results encourage a wider adoption of metric-sensitive loss functions for medical segmentation tasks where the performance measure of interest is the Dice score or Jaccard index.
翻訳日:2022-10-02 18:49:13 公開日:2020-10-26
# demo abstract: ミリメートル波レーダと慣性センサを用いた視覚劣化環境における屋内位置決めシステム

Demo Abstract: Indoor Positioning System in Visually-Degraded Environments with Millimetre-Wave Radar and Inertial Sensors ( http://arxiv.org/abs/2010.13750v1 )

ライセンス: Link先を確認
Zhuangzhuang Dai, Muhamad Risqi U. Saputra, Chris Xiaoxuan Lu, Niki Trigoni, Andrew Markham(参考訳) 位置推定は公共安全分野において非常に重要である。 消防隊、救急隊、警察などの緊急対応者は、安全で効果的な救急サービスを提供する回復力のある位置決めシステムから恩恵を受ける。 残念なことに、衛星ナビゲーション(GPSなど)は屋内環境に限られている。 インフラストラクチャベースのソリューションに頼ることも不可能である。 この目的のために、カメラや慣性計測ユニット(IMU)をベースとしたウェアラブルセンサー支援ナビゲーション技術が、最近、正確なインフラストラクチャフリーなソリューションとして登場した。 モバイルデバイスの計算能力の向上と合わせて,動作推定をリアルタイムに行うことができる。 本研究では,ミリ波(ミリ波)レーダとimuデータを深いセンサ融合で融合するリアルタイム屋内測位システムを提案する。 我々は、RGBカメラではなくmmWaveレーダを用いて、視覚的劣化(煙、暗闇など)に対してより堅牢性を提供すると同時に、実行時計算を可能にするために低い計算リソースを必要とする。 携帯端末と10FPSで動作する移動体コンピュータにセンサシステムを実装し,アパート内におけるユーザ追跡を行った。 照明の悪いシーンでも高い精度と弾力性が示された。

Positional estimation is of great importance in the public safety sector. Emergency responders such as fire fighters, medical rescue teams, and the police will all benefit from a resilient positioning system to deliver safe and effective emergency services. Unfortunately, satellite navigation (e.g., GPS) offers limited coverage in indoor environments. It is also not possible to rely on infrastructure based solutions. To this end, wearable sensor-aided navigation techniques, such as those based on camera and Inertial Measurement Units (IMU), have recently emerged recently as an accurate, infrastructure-free solution. Together with an increase in the computational capabilities of mobile devices, motion estimation can be performed in real-time. In this demonstration, we present a real-time indoor positioning system which fuses millimetre-wave (mmWave) radar and IMU data via deep sensor fusion. We employ mmWave radar rather than an RGB camera as it provides better robustness to visual degradation (e.g., smoke, darkness, etc.) while at the same time requiring lower computational resources to enable runtime computation. We implemented the sensor system on a handheld device and a mobile computer running at 10 FPS to track a user inside an apartment. Good accuracy and resilience were exhibited even in poorly illuminated scenes.
翻訳日:2022-10-02 18:48:18 公開日:2020-10-26
# チェビシェフステップによる収束加速:深部展開勾配の可塑性解釈

Convergence Acceleration via Chebyshev Step: Plausible Interpretation of Deep-Unfolded Gradient Descent ( http://arxiv.org/abs/2010.13335v1 )

ライセンス: Link先を確認
Satoshi Takabe and Tadashi Wadayama(参考訳) deep unfoldingは有望なディープラーニング技術であり、ネットワークアーキテクチャは既存の反復アルゴリズムの再帰的構造の拡張に基づいている。 収束加速は深い展開の顕著な利点であるが、その理論的側面はまだ明らかになっていない。 本研究の前半は、トレーニング可能なパラメータがステップサイズであるDu-Unfolded gradient descent (DUGD)における収束加速度の理論解析について詳述した。 本研究では,chebyshev 多項式から導かれる chebyshev ステップの原理を導入することにより,dugd で学習されたステップサイズパラメータの正当な解釈を提案する。 勾配降下(GD)におけるチェビシェフのステップを用いることで、GDの収束速度を管理する行列のスペクトル半径を束縛することができ、収束速度に強い上限を与えることができる。 チェビシェフステップを用いたgdの収束速度は漸近的に最適であるが、運動量項は持たない。 また、Chebyshevのステップは、DUGDの学習したステップサイズパラメータを数値的に説明できることを示す。 本研究の後半では,chebyshevステップの理論とchebyshev周期的逐次オーバーリラクシエーション(chebyshev-psor)を線形・非線形不動点反復の促進に適用する。 理論的解析と数値実験により、チェビシェフPSORはヤコビ法や近位勾配法などの様々な例において、はるかに高速な収束を示すことが示された。

Deep unfolding is a promising deep-learning technique, whose network architecture is based on expanding the recursive structure of existing iterative algorithms. Although convergence acceleration is a remarkable advantage of deep unfolding, its theoretical aspects have not been revealed yet. The first half of this study details the theoretical analysis of the convergence acceleration in deep-unfolded gradient descent (DUGD) whose trainable parameters are step sizes. We propose a plausible interpretation of the learned step-size parameters in DUGD by introducing the principle of Chebyshev steps derived from Chebyshev polynomials. The use of Chebyshev steps in gradient descent (GD) enables us to bound the spectral radius of a matrix governing the convergence speed of GD, leading to a tight upper bound on the convergence rate. The convergence rate of GD using Chebyshev steps is shown to be asymptotically optimal, although it has no momentum terms. We also show that Chebyshev steps numerically explain the learned step-size parameters in DUGD well. In the second half of the study, %we apply the theory of Chebyshev steps and Chebyshev-periodical successive over-relaxation (Chebyshev-PSOR) is proposed for accelerating linear/nonlinear fixed-point iterations. Theoretical analysis and numerical experiments indicate that Chebyshev-PSOR exhibits significantly faster convergence for various examples such as Jacobi method and proximal gradient methods.
翻訳日:2022-10-02 18:47:35 公開日:2020-10-26
# 明示的な制約によるハミルトニアンとラグランジュのニューラルネットワークの単純化

Simplifying Hamiltonian and Lagrangian Neural Networks via Explicit Constraints ( http://arxiv.org/abs/2010.13581v1 )

ライセンス: Link先を確認
Marc Finzi, Ke Alexander Wang, Andrew Gordon Wilson(参考訳) 物理世界についての推論には、基礎となるダイナミクスを学ぶために正しい帰納バイアスを持つモデルが必要である。 最近の研究は、微分方程式を直接ではなく系のハミルトニアンあるいはラグランジアンを学ぶことによって、軌道予測の一般化を改善する。 これらの手法は一般化座標を用いてシステムの制約を符号化するが、システムをデカルト座標に埋め込み、ラグランジュ乗算器で明示的に制約を強制することは学習問題を劇的に単純化することを示している。 我々は,N-ペンデュラム,バネカップリング,磁場,剛性ローター,ジャイロスコープを備えたシステムを含む,カオス的で拡張された一連のシステムを導入し,現在のアプローチの限界を推し進める。 実験の結果,デカルト座標と明示的な制約により,精度とデータ効率が100倍向上することが示された。

Reasoning about the physical world requires models that are endowed with the right inductive biases to learn the underlying dynamics. Recent works improve generalization for predicting trajectories by learning the Hamiltonian or Lagrangian of a system rather than the differential equations directly. While these methods encode the constraints of the systems using generalized coordinates, we show that embedding the system into Cartesian coordinates and enforcing the constraints explicitly with Lagrange multipliers dramatically simplifies the learning problem. We introduce a series of challenging chaotic and extended-body systems, including systems with N-pendulums, spring coupling, magnetic fields, rigid rotors, and gyroscopes, to push the limits of current approaches. Our experiments show that Cartesian coordinates with explicit constraints lead to a 100x improvement in accuracy and data efficiency.
翻訳日:2022-10-02 18:47:08 公開日:2020-10-26
# マルチタスクによる物理誘導深層学習画像再構成の指導改善

Improved Supervised Training of Physics-Guided Deep Learning Image Reconstruction with Multi-Masking ( http://arxiv.org/abs/2010.13868v1 )

ライセンス: Link先を確認
Burhaneddin Yaman, Seyed Amir Hossein Hosseini, Steen Moeller and Mehmet Ak\c{c}akaya(参考訳) 物理誘導型ディープラーニング(PG-DL)はMRIを含む画像再構成の改善に多大な関心を集めている。 これらの手法は反復最適化アルゴリズムを一連の正規化器とデータ一貫性ユニットに展開する。 アンロールネットワークは通常、教師付きアプローチを使用してエンドツーエンドにトレーニングされる。 現在のPG-DLアプローチでは、データ一貫性ユニットで利用可能なすべてのサブサンプル計測を使用する。 したがって、ネットワークは残りの測定値に適合することを学ぶ。 本研究では,データ整合性ユニットのすべての測定値のサブセットのみを遡って選択することで,ランダム性を利用して教師付きトレーニングの性能と堅牢性を向上させることを提案する。 このプロセスはトレーニング中に異なるランダムマスクを使用して何度も繰り返され、さらに強化される。 膝関節MRIでは,従来のPG-DL法と比較して,複数マスクのPG-DLによる再建性能の向上が認められた。

Physics-guided deep learning (PG-DL) via algorithm unrolling has received significant interest for improved image reconstruction, including MRI applications. These methods unroll an iterative optimization algorithm into a series of regularizer and data consistency units. The unrolled networks are typically trained end-to-end using a supervised approach. Current supervised PG-DL approaches use all of the available sub-sampled measurements in their data consistency units. Thus, the network learns to fit the rest of the measurements. In this study, we propose to improve the performance and robustness of supervised training by utilizing randomness by retrospectively selecting only a subset of all the available measurements for data consistency units. The process is repeated multiple times using different random masks during training for further enhancement. Results on knee MRI show that the proposed multi-mask supervised PG-DL enhances reconstruction performance compared to conventional supervised PG-DL approaches.
翻訳日:2022-10-02 18:46:52 公開日:2020-10-26
# k-NNに基づくモード推定のクエリ複雑性

Query Complexity of k-NN based Mode Estimation ( http://arxiv.org/abs/2010.13491v1 )

ライセンス: Link先を確認
Anirudh Singhal, Subham Pirojiwala and Nikhil Karamchandani(参考訳) 未知の多変量確率密度関数のモード推定問題に動機づけられ,与えられたn点のデータセットに対して,最小k次近傍距離の点を同定する問題について検討した。 ペア間の距離が不明な場合について検討しますが、oracleにアクセスして、任意の2つのポイント間の距離に関するノイズ情報を取得することができます。 2つの自然オラクルモデルに対して、信頼区間のアイデアに基づいて逐次学習アルゴリズムを設計し、どのクエリをオラクルに送信するかを適応的に決定し、高い確率で問題を正しく解けるようにする。 提案手法の問合せ複雑性のインスタンス依存上界を導出し,広範囲な数値評価により,他のベースラインの性能に対して有意な改善を示す。

Motivated by the mode estimation problem of an unknown multivariate probability density function, we study the problem of identifying the point with the minimum k-th nearest neighbor distance for a given dataset of n points. We study the case where the pairwise distances are apriori unknown, but we have access to an oracle which we can query to get noisy information about the distance between any pair of points. For two natural oracle models, we design a sequential learning algorithm, based on the idea of confidence intervals, which adaptively decides which queries to send to the oracle and is able to correctly solve the problem with high probability. We derive instance-dependent upper bounds on the query complexity of our proposed scheme and also demonstrate significant improvement over the performance of other baselines via extensive numerical evaluations.
翻訳日:2022-10-02 18:41:01 公開日:2020-10-26
# Laggard Data Pipelinesによる確率最適化

Stochastic Optimization with Laggard Data Pipelines ( http://arxiv.org/abs/2010.13639v1 )

ライセンス: Link先を確認
Naman Agarwal, Rohan Anil, Tomer Koren, Kunal Talwar, Cyril Zhang(参考訳) 最先端の最適化は、非常に大きなバッチサイズを持つ超並列パイプラインへと着実にシフトしている。 その結果、ハードウェアアクセラレーションによる勾配計算とは対照的に、CPUバウンドな前処理とディスク/メモリ/ネットワーク操作が新たなパフォーマンスボトルネックとして浮上した。 この方法では、最近提案されたアプローチとしてdata echoing(choi et al., 2019)がある。 我々は、共通最適化法の「データエコー」拡張の初回収束解析を行い、同期法に比べて有望な改善が示された。 具体的には, 確率的ミニバッチを用いた凸最適化において, 最適統計速度を維持しつつ, 収束率の曲率支配部分の速度アップを可能とすることを示す。

State-of-the-art optimization is steadily shifting towards massively parallel pipelines with extremely large batch sizes. As a consequence, CPU-bound preprocessing and disk/memory/network operations have emerged as new performance bottlenecks, as opposed to hardware-accelerated gradient computations. In this regime, a recently proposed approach is data echoing (Choi et al., 2019), which takes repeated gradient steps on the same batch while waiting for fresh data to arrive from upstream. We provide the first convergence analyses of "data-echoed" extensions of common optimization methods, showing that they exhibit provable improvements over their synchronous counterparts. Specifically, we show that in convex optimization with stochastic minibatches, data echoing affords speedups on the curvature-dominated part of the convergence rate, while maintaining the optimal statistical rate.
翻訳日:2022-10-02 18:40:47 公開日:2020-10-26
# 大規模数値シミュレーションのディープニューラルネットワークサロゲートによる有意義な不確かさ

Meaningful uncertainties from deep neural network surrogates of large-scale numerical simulations ( http://arxiv.org/abs/2010.13749v1 )

ライセンス: Link先を確認
Gemma J. Anderson, Jim A. Gaffney, Brian K. Spears, Peer-Timo Bremer, Rushil Anirudh and Jayaraman J. Thiagarajan(参考訳) 大規模数値シミュレーションは、実験的な開発を促進し、基礎となる物理過程に関する洞察を与えるために、多くの科学分野にまたがって使用されているが、計算コストは相当である。 ディープニューラルネットワーク(DNN)は、さまざまなデータ型を扱う能力を備えた高精度な代理モデルとして機能し、予測やその他の下流タスクの大幅なスピードアップを提供する。 これらのサロゲートの重要なユースケースは、シミュレーションと実験の比較である。予測の不確実性推定は、そのような比較を意味付けるために重要であるが、標準的なDNNはそれらを提供しない。 本研究では,DNNが科学的応用に有用であるための基本的な要件を定義し,キャリブレーションされたベイズ不確実性を用いた慣性凝縮融合シミュレーションに基づいて訓練されたDNNサロゲートモデルからスカラーおよび画像データの平衡予測に対する一般的な変分推論アプローチを示す。 批判的に、これらの不確実性は予測された量の物理相関を解釈し、意味を持ち、保存する。

Large-scale numerical simulations are used across many scientific disciplines to facilitate experimental development and provide insights into underlying physical processes, but they come with a significant computational cost. Deep neural networks (DNNs) can serve as highly-accurate surrogate models, with the capacity to handle diverse datatypes, offering tremendous speed-ups for prediction and many other downstream tasks. An important use-case for these surrogates is the comparison between simulations and experiments; prediction uncertainty estimates are crucial for making such comparisons meaningful, yet standard DNNs do not provide them. In this work we define the fundamental requirements for a DNN to be useful for scientific applications, and demonstrate a general variational inference approach to equip predictions of scalar and image data from a DNN surrogate model trained on inertial confinement fusion simulations with calibrated Bayesian uncertainties. Critically, these uncertainties are interpretable, meaningful and preserve physics-correlations in the predicted quantities.
翻訳日:2022-10-02 18:40:33 公開日:2020-10-26
# 新型コロナウイルスの診断におけるモデル予測の不確かさの解釈

Interpreting Uncertainty in Model Predictions For COVID-19 Diagnosis ( http://arxiv.org/abs/2010.13271v1 )

ライセンス: Link先を確認
Gayathiri Murugamoorthy and Naimul Khan(参考訳) 新型コロナウイルスの感染拡大が加速しているため、一般的なラボスワブ検査に加えて、診断の迅速化に補助ツールを使う必要がある。 新型コロナウイルスの胸部x線は、深層ニューラルネットワークによって検出できるグラウンドグラスの不透明度や末梢圧密などの肺の変化を示す傾向がある。 しかし、従来の畳み込みネットワークは予測にポイント推定を使い、不確かさを把握できないため、採用の信頼性が低下する。 これまでのところ、胸部x線による新型コロナウイルス陽性例の予測にはいくつかの研究がある。 しかし、これらの予測の不確実性を定量化し、不確実性を解釈し、これをモデルやデータ不確実性に分解する研究はあまり行われていない。 これらのニーズに対処するために,ベイズ畳み込みニューラルネットワークで計算される予測の不確実性を用いて,不確実性とその構成要素の解釈可能性に対処する可視化フレームワークを開発した。 このフレームワークは、チェストX線画像における個々の特徴の予測不確実性への寄与を理解することを目的としている。 これを補助的なツールとして提供することで、放射線科医はモデルがなぜ予測を思いついたのか、特定の予測のためにモデルが捉えた関心領域が診断に重要であるかどうかを理解するのに役立つ。 ベンチマークデータセットからのいくつかのテストケースを通して胸部X線解釈におけるツールの有用性を示す。

COVID-19, due to its accelerated spread has brought in the need to use assistive tools for faster diagnosis in addition to typical lab swab testing. Chest X-Rays for COVID cases tend to show changes in the lungs such as ground glass opacities and peripheral consolidations which can be detected by deep neural networks. However, traditional convolutional networks use point estimate for predictions, lacking in capture of uncertainty, which makes them less reliable for adoption. There have been several works so far in predicting COVID positive cases with chest X-Rays. However, not much has been explored on quantifying the uncertainty of these predictions, interpreting uncertainty, and decomposing this to model or data uncertainty. To address these needs, we develop a visualization framework to address interpretability of uncertainty and its components, with uncertainty in predictions computed with a Bayesian Convolutional Neural Network. This framework aims to understand the contribution of individual features in the Chest-X-Ray images to predictive uncertainty. Providing this as an assistive tool can help the radiologist understand why the model came up with a prediction and whether the regions of interest captured by the model for the specific prediction are of significance in diagnosis. We demonstrate the usefulness of the tool in chest x-ray interpretation through several test cases from a benchmark dataset.
翻訳日:2022-10-02 18:39:16 公開日:2020-10-26
# 生息地を通した実環境における具体的視覚ナビゲーションについて

On Embodied Visual Navigation in Real Environments Through Habitat ( http://arxiv.org/abs/2010.13439v1 )

ライセンス: Link先を確認
Marco Rosano, Antonino Furnari, Luigi Gulino, Giovanni Maria Farinella(参考訳) 深層学習に基づく視覚ナビゲーションモデルは、強化学習を通じて大量の視覚的観察を訓練することで、効果的なポリシーを学習することができる。 残念ながら、現実の世界で必要な経験を集めるには、高価で時間がかかるロボットプラットフォームを配置する必要がある。 この制限に対処するため、仮想環境における視覚ナビゲーションポリシーを効率的に訓練するためのシミュレーションプラットフォームがいくつか提案されている。 それらの利点にもかかわらず、シミュレーターは外観と物理力学の点で限られた現実性を示し、現実の世界では一般化しないナビゲーションポリシーをもたらす。 本稿では,センサやアクチュエータの騒音モデルとともに環境の現実的なイメージを利用して,より現実的なナビゲーションエピソードを生成するHabitatシミュレータに基づくツールを提案する。 仮想および実世界のイメージを一般化するためのポリシーの能力を評価するために、様々な実験を行い、また教師なしのドメイン適応アプローチで変換された観察も行います。 また,センサとアクティベーションノイズがナビゲーション性能に与える影響を評価し,より堅牢なナビゲーションポリシーを学習できるかどうかを検討する。 本ツールは,実世界のナビゲーションピソードを動作させることなく,実世界観測におけるナビゲーションポリシーの訓練と評価を効果的に行うことができることを示す。

Visual navigation models based on deep learning can learn effective policies when trained on large amounts of visual observations through reinforcement learning. Unfortunately, collecting the required experience in the real world requires the deployment of a robotic platform, which is expensive and time-consuming. To deal with this limitation, several simulation platforms have been proposed in order to train visual navigation policies on virtual environments efficiently. Despite the advantages they offer, simulators present a limited realism in terms of appearance and physical dynamics, leading to navigation policies that do not generalize in the real world. In this paper, we propose a tool based on the Habitat simulator which exploits real world images of the environment, together with sensor and actuator noise models, to produce more realistic navigation episodes. We perform a range of experiments to assess the ability of such policies to generalize using virtual and real-world images, as well as observations transformed with unsupervised domain adaptation approaches. We also assess the impact of sensor and actuation noise on the navigation performance and investigate whether it allows to learn more robust navigation policies. We show that our tool can effectively help to train and evaluate navigation policies on real-world observations without running navigation pisodes in the real world.
翻訳日:2022-10-02 18:38:28 公開日:2020-10-26
# 入出力関数学習のためのニューラルアンサイン距離場

Neural Unsigned Distance Fields for Implicit Function Learning ( http://arxiv.org/abs/2010.13938v1 )

ライセンス: Link先を確認
Julian Chibane, Aymen Mir, Gerard Pons-Moll(参考訳) 本研究では,任意の形状の連続的高分解能出力が可能な学習可能な出力表現を提案する。 最近の研究はニューラルネットワークで暗黙的に3D表面を表現しているため、解像度の以前の障壁を破り、多様なトポロジを表現できる。 しかし、ニューラルな暗示表現は、空間を内側と外側に分割する閉曲面に限られる。 センサーや衣服によってスキャンされたシーンの壁、内部構造を持つ車など、現実世界の多くの物体は閉じられていない。 これは、データ前処理(オブジェクトは人工的にクローズされ、アーティファクトを生成する必要がある)とオープンサーフェスを出力する能力の観点から、大きな障壁となる。 本研究では,疎点雲の任意の3次元形状に対する符号なし距離場を予測するニューラルネットワークモデルであるニューラル距離場(NDF)を提案する。 NDFは、高解像度の表面を事前の暗黙のモデルとして表現するが、クローズドサーフェスデータを必要とせず、出力の表現可能な形状のクラスを大きく広げる。 NDFは表面を非常に密度の高い点雲やメッシュとして抽出することができる。 また, NDFは表面正規計算が可能であり, 球追跡の微修正により描画可能であることを示す。 NDFは、グラフィックスのレンダリングにのみ使用される技術を用いて、マルチターゲット回帰(1入力に複数の出力)に使用できる。 ShapeNetの実験によると、NDFはシンプルながら最先端の技術であり、バス内の椅子のような内部構造で形状を再構築することができる。 特に, ndfは3次元形状に制限されず, 曲線, 多様体, 関数などのより一般的な開曲面を近似できることを示した。 コードはhttps://virtualhumans.mpi-inf.mpg.de/ndf/で研究することができる。

In this work we target a learnable output representation that allows continuous, high resolution outputs of arbitrary shape. Recent works represent 3D surfaces implicitly with a Neural Network, thereby breaking previous barriers in resolution, and ability to represent diverse topologies. However, neural implicit representations are limited to closed surfaces, which divide the space into inside and outside. Many real world objects such as walls of a scene scanned by a sensor, clothing, or a car with inner structures are not closed. This constitutes a significant barrier, in terms of data pre-processing (objects need to be artificially closed creating artifacts), and the ability to output open surfaces. In this work, we propose Neural Distance Fields (NDF), a neural network based model which predicts the unsigned distance field for arbitrary 3D shapes given sparse point clouds. NDF represent surfaces at high resolutions as prior implicit models, but do not require closed surface data, and significantly broaden the class of representable shapes in the output. NDF allow to extract the surface as very dense point clouds and as meshes. We also show that NDF allow for surface normal calculation and can be rendered using a slight modification of sphere tracing. We find NDF can be used for multi-target regression (multiple outputs for one input) with techniques that have been exclusively used for rendering in graphics. Experiments on ShapeNet show that NDF, while simple, is the state-of-the art, and allows to reconstruct shapes with inner structures, such as the chairs inside a bus. Notably, we show that NDF are not restricted to 3D shapes, and can approximate more general open surfaces such as curves, manifolds, and functions. Code is available for research at https://virtualhumans.mpi-inf.mpg.de/ndf/.
翻訳日:2022-10-02 18:31:56 公開日:2020-10-26
# ランダムデータセットにおける2層ニューラルネットワークのトレーニング精度の推定

The estimation of training accuracy for two-layer neural networks on random datasets without training ( http://arxiv.org/abs/2010.13380v1 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) ニューラルネットワーク(NN)技術は機械学習において重要な役割を果たすが、NNモデルのメカニズムとディープラーニングの透明性を理解するには、より基本的な研究が必要である。 本研究では,空間分割に基づく新しい理論を提案し,ランダムデータセット上の2層ニューラルネットワークのトレーニング精度をトレーニングなしで推定する。 入力データやトレーニングモデルを用いずにトレーニング精度を推定する方法を提唱した研究は他にないようである。 本手法は,入力の次元性(d),入力数(N),隠蔽層(L)内のニューロン数(L)の3つの引数のみを用いて,2層完全連結ニューラルネットワークのトレーニング精度を推定する。 実験では,実際のトレーニング精度を用いて本手法を検証した。 その結果,提案手法は任意の次元に対して有効であり,より深いnnモデルの推定にも拡張できることが示唆された。 この研究は、研究者がディープラーニングを理解する難しい問題を前進させる新しい方法の出発点となるかもしれない。

Although the neural network (NN) technique plays an important role in machine learning, understanding the mechanism of NN models and the transparency of deep learning still require more basic research. In this study we propose a novel theory based on space partitioning to estimate the approximate training accuracy for two-layer neural networks on random datasets without training. There appear to be no other studies that have proposed a method to estimate training accuracy without using input data or trained models. Our method estimates the training accuracy for two-layer fully-connected neural networks on two-class random datasets using only three arguments: the dimensionality of inputs (d), the number of inputs (N), and the number of neurons in the hidden layer (L). We have verified our method using real training accuracies in our experiments. The results indicate that the method will work for any dimension, and the proposed theory could extend also to estimate deeper NN models. This study may provide a starting point for a new way for researchers to make progress on the difficult problem of understanding deep learning.
翻訳日:2022-10-02 18:31:07 公開日:2020-10-26
# 理解:再正規化グループにインスパイアされた(人工)インテリジェンスモデル

Understanding understanding: a renormalization group inspired model of (artificial) intelligence ( http://arxiv.org/abs/2010.13482v1 )

ライセンス: Link先を確認
A. Jakovac, D. Berenyi and P. Posfay(参考訳) 本稿では,科学的および人工知能システムにおける理解の意味について述べる。 共通知識とは対照的に、入力集合上の確率空間を定義し、情報を失うのではなく、新しい座標系の枠組みにおける情報の再編成として、知的アクターによってなされる変換を扱い、理解の数学的定義を与える。 身体的再正規化グループの概念、関連するパラメータと無関係なパラメータの概念、これらの概念に沿って異なるAIタスクがどのように解釈され、どのように学習プロセスを記述するかについて議論する。 この枠組みに科学的理解がどのように適合するかを示し、科学的課題とパターン認識の違いを実証する。 また,損失圧縮を行う上で有用な関連性尺度を提案する。

This paper is about the meaning of understanding in scientific and in artificial intelligent systems. We give a mathematical definition of the understanding, where, contrary to the common wisdom, we define the probability space on the input set, and we treat the transformation made by an intelligent actor not as a loss of information, but instead a reorganization of the information in the framework of a new coordinate system. We introduce, following the ideas of physical renormalization group, the notions of relevant and irrelevant parameters, and discuss, how the different AI tasks can be interpreted along these concepts, and how the process of learning can be described. We show, how scientific understanding fits into this framework, and demonstrate, what is the difference between a scientific task and pattern recognition. We also introduce a measure of relevance, which is useful for performing lossy compression.
翻訳日:2022-10-02 18:30:50 公開日:2020-10-26
# ワンvs。 -節間バイアスの1つの軽減:公平性を考慮した二項分類の一般的な方法

One-vs.-One Mitigation of Intersectional Bias: A General Method to Extend Fairness-Aware Binary Classification ( http://arxiv.org/abs/2010.13494v1 )

ライセンス: Link先を確認
Kenji Kobayashi, Yuri Nakao(参考訳) 現実世界での機械学習の普及により、差別バイアスの影響が注目されている。 近年,バイアスを軽減する様々な方法が提案されている。 しかし,そのほとんどは交叉バイアスを考慮していないため,複数の属性を考慮した場合,保護集団の特定のサブグループに属する人々が悪化する不公平な状況が生じる。 このバイアスを軽減するため,本稿ではone-vsという手法を提案する。 -二分分類のためのフェアネスアウェア機械学習に対して、機密属性に関連する各サブグループ間の比較プロセスを適用することで軽減する。 本手法と従来のフェアネス対応バイナリ分類法を,3つの手法(前処理,内処理,後処理),6つの指標(人口差,等化確率,等機会の比率と差),2つの実世界データセット(adultとcompas)を用いて包括的に比較した。 その結果,すべての設定において従来の手法よりも交叉バイアスを低減できることがわかった。 その結果,複数の感度特性が存在する場合に発生するより現実的な問題を解決するために,公平性に配慮したバイナリ分類の可能性を開放する。

With the widespread adoption of machine learning in the real world, the impact of the discriminatory bias has attracted attention. In recent years, various methods to mitigate the bias have been proposed. However, most of them have not considered intersectional bias, which brings unfair situations where people belonging to specific subgroups of a protected group are treated worse when multiple sensitive attributes are taken into consideration. To mitigate this bias, in this paper, we propose a method called One-vs.-One Mitigation by applying a process of comparison between each pair of subgroups related to sensitive attributes to the fairness-aware machine learning for binary classification. We compare our method and the conventional fairness-aware binary classification methods in comprehensive settings using three approaches (pre-processing, in-processing, and post-processing), six metrics (the ratio and difference of demographic parity, equalized odds, and equal opportunity), and two real-world datasets (Adult and COMPAS). As a result, our method mitigates the intersectional bias much better than conventional methods in all the settings. With the result, we open up the potential of fairness-aware binary classification for solving more realistic problems occurring when there are multiple sensitive attributes.
翻訳日:2022-10-02 18:30:37 公開日:2020-10-26
# 決定木学習アルゴリズムの評価への一手法

An Approach to Evaluating Learning Algorithms for Decision Trees ( http://arxiv.org/abs/2010.13665v1 )

ライセンス: Link先を確認
Tianqi Xiao and Omer Nguena Timo and Florent Avellaneda and Yasir Malik and Stefan Bruda(参考訳) 学習アルゴリズムは、重要な分類タスクを実現するためのソフトウェアモデルを生成する。 決定木モデルは、ニューラルネットワークのような他のモデルよりも単純であり、医療や航空などの様々な重要な領域で使用される。 学習能力の低いあるいは未知のアルゴリズムでは、生成したソフトウェアモデルを信頼できないため、モデルを検証するための費用がかかるテスト活動や、学習能力の欠如によりモデルに障害が生じそうな場合の学習時間の浪費につながります。 決定木学習能力を他のモデルと同様に評価する方法は、特に学習モデルのテストが依然としてホットな話題であるため必要である。 決定木に対する学習アルゴリズム(学習能力)を評価するための,新しいオラクル中心のアプローチを提案する。 オラクルの役割を担うリファレンスツリーからデータを生成し、既存の学習アルゴリズムで学習ツリーを生成し、それらをオラクルと比較することで学習ツリーの正確度(doe)を決定する。 平均DOEは学習アルゴリズムの品質を推定するために使用される。 提案手法に基づき,5つの決定木学習アルゴリズムを評価した。

Learning algorithms produce software models for realising critical classification tasks. Decision trees models are simpler than other models such as neural network and they are used in various critical domains such as the medical and the aeronautics. Low or unknown learning ability algorithms does not permit us to trust the produced software models, which lead to costly test activities for validating the models and to the waste of learning time in case the models are likely to be faulty due to the learning inability. Methods for evaluating the decision trees learning ability, as well as that for the other models, are needed especially since the testing of the learned models is still a hot topic. We propose a novel oracle-centered approach to evaluate (the learning ability of) learning algorithms for decision trees. It consists of generating data from reference trees playing the role of oracles, producing learned trees with existing learning algorithms, and determining the degree of correctness (DOE) of the learned trees by comparing them with the oracles. The average DOE is used to estimate the quality of the learning algorithm. the We assess five decision tree learning algorithms based on the proposed approach.
翻訳日:2022-10-02 18:30:16 公開日:2020-10-26
# 高次元マルコフ決定過程におけるエキスパート選択

Expert Selection in High-Dimensional Markov Decision Processes ( http://arxiv.org/abs/2010.15599v1 )

ライセンス: Link先を確認
Vicenc Rubies-Royo, Eric Mazumdar, Roy Dong, Claire Tomlin, and S. Shankar Sastry(参考訳) 本稿では,マルコフ決定過程におけるオンライン専門家選択のためのマルチアームバンディットフレームワークを提案し,高次元環境での使用例を示す。 提案手法は,従来の上位信頼度拘束アルゴリズムの変種を用いて,最善のエキスパートを迅速に識別するために,候補のエキスパートポリシとそれらの切り替えを行い,システム全体のパフォーマンスの低さを保証した。 これは、いくつかの専門家ポリシーが利用可能なアプリケーションで有用であり、基礎となる環境のために実行時に選択する必要がある。

In this work we present a multi-armed bandit framework for online expert selection in Markov decision processes and demonstrate its use in high-dimensional settings. Our method takes a set of candidate expert policies and switches between them to rapidly identify the best performing expert using a variant of the classical upper confidence bound algorithm, thus ensuring low regret in the overall performance of the system. This is useful in applications where several expert policies may be available, and one needs to be selected at run-time for the underlying environment.
翻訳日:2022-10-02 18:29:58 公開日:2020-10-26
# 全変動距離を用いた離散結果に対するロバストベイズ推定

Robust Bayesian Inference for Discrete Outcomes with the Total Variation Distance ( http://arxiv.org/abs/2010.13456v1 )

ライセンス: Link先を確認
Jeremias Knoblauch, Lara Vomfell(参考訳) 離散値結果のモデルは、データがゼロインフレーション、過分散、汚染を示す場合、容易に誤特定される。 この不特定性の存在と性質に関する追加の知識がなければ、モデル推論と予測は悪影響を及ぼす。 本稿では,Ttal Variation Distance (TVD) を用いた頑健な相違に基づくベイズ的アプローチを提案する。 まず、パラメトリックモデルとデータ生成機構の間のTVDのための計算効率の高い推定器の収束性と堅牢性について検討する。 第2に,データ生成機構上で直接的に非変形的非パラメトリックな前処理を定式化することに対応する,lyddonら(2019)から適応した効率的な推定法を提案する。 最後に,本手法がロバストであること,シミュレーションおよび実世界のデータで予測性能を大幅に向上できることを実証的に示す。

Models of discrete-valued outcomes are easily misspecified if the data exhibit zero-inflation, overdispersion or contamination. Without additional knowledge about the existence and nature of this misspecification, model inference and prediction are adversely affected. Here, we introduce a robust discrepancy-based Bayesian approach using the Total Variation Distance (TVD). In the process, we address and resolve two challenges: First, we study convergence and robustness properties of a computationally efficient estimator for the TVD between a parametric model and the data-generating mechanism. Second, we provide an efficient inference method adapted from Lyddon et al. (2019) which corresponds to formulating an uninformative nonparametric prior directly over the data-generating mechanism. Lastly, we empirically demonstrate that our approach is robust and significantly improves predictive performance on a range of simulated and real world data.
翻訳日:2022-10-02 18:29:16 公開日:2020-10-26
# 時系列予測におけるDeep Learning Interpretabilityのベンチマーク

Benchmarking Deep Learning Interpretability in Time Series Predictions ( http://arxiv.org/abs/2010.13924v1 )

ライセンス: Link先を確認
Aya Abdelsalam Ismail, Mohamed Gunady, H\'ector Corrada Bravo, and Soheil Feizi(参考訳) saliencyメソッドはモデル予測における入力機能の重要性を強調するために広く使われている。 これらの手法は主に視覚や言語タスクで使われ、時系列データへの応用は比較的未探索である。 本稿では,リカレントニューラルネットワーク,テンポラル畳み込みネットワーク,トランスフォーマーなど,多種多様なニューラルネットワークを対象としたサリエンシに基づく解釈可能性手法の性能を,合成時系列データの新たなベンチマークで広範囲に比較することを試みた。 本稿では,有意な信号を含む特徴を識別する特徴量(重要信号を含む特徴数)とリコール(重要信号を含む特徴数)の両方を用いて,時間経過とともに特徴重要度を検出する方法の性能を実証的に評価するための複数の指標を提案し,報告する。 いくつかの実験を通して (i)一般に、ネットワークアーキテクチャやサリエンシ手法は時系列データにおける時間的重要性を確実に正確に識別できない。 (二)この失敗は、主に時間と特徴領域の融合によるもので、 3)本提案手法は,まず時間ステップの重要度を計算し,各特徴量の重要度を時間ステップで算出する2段階時相相再スケーリング(TSR)手法を用いて,精度を著しく向上させることができる。

Saliency methods are used extensively to highlight the importance of input features in model predictions. These methods are mostly used in vision and language tasks, and their applications to time series data is relatively unexplored. In this paper, we set out to extensively compare the performance of various saliency-based interpretability methods across diverse neural architectures, including Recurrent Neural Network, Temporal Convolutional Networks, and Transformers in a new benchmark of synthetic time series data. We propose and report multiple metrics to empirically evaluate the performance of saliency methods for detecting feature importance over time using both precision (i.e., whether identified features contain meaningful signals) and recall (i.e., the number of features with signal identified as important). Through several experiments, we show that (i) in general, network architectures and saliency methods fail to reliably and accurately identify feature importance over time in time series data, (ii) this failure is mainly due to the conflation of time and feature domains, and (iii) the quality of saliency maps can be improved substantially by using our proposed two-step temporal saliency rescaling (TSR) approach that first calculates the importance of each time step before calculating the importance of each feature at a time step.
翻訳日:2022-10-02 18:23:04 公開日:2020-10-26
# 時間分解顕微鏡による半教師付きセグメンテーションと3次元核追跡

Semi supervised segmentation and graph-based tracking of 3D nuclei in time-lapse microscopy ( http://arxiv.org/abs/2010.13343v1 )

ライセンス: Link先を確認
S. Shailja, Jiaxiang Jiang, B.S. Manjunath(参考訳) 過分割画像を用いた3次元セグメント化核の境界線改善のための弱教師付き手法を提案する。 これは、現在の最先端のディープラーニング手法が、トレーニングデータが弱いアノテートされたときに正確な境界に達しないという観察によって動機付けられている。 これに向けて、3D U-Netは核のセントロイドを得るために訓練され、単純な線形反復クラスタリング(SLIC)スーパーボクセルアルゴリズムと統合され、クラスタ境界へのより優れた付着を提供する。 これらのセグメンテーション核を追跡するために、このアルゴリズムは、核分裂とアポトーシスの過程を表す相対核位置を利用する。 提案するアルゴリズムパイプラインは,セルトラッキングチャレンジ(ctc)2019における最先端手法と比較して,セグメンテーション性能が向上し,ieee isbi ctc2020の最先端手法に匹敵する性能が得られた。 詳細な実験結果が提供されており、ソースコードはGitHubで入手できる。

We propose a novel weakly supervised method to improve the boundary of the 3D segmented nuclei utilizing an over-segmented image. This is motivated by the observation that current state-of-the-art deep learning methods do not result in accurate boundaries when the training data is weakly annotated. Towards this, a 3D U-Net is trained to get the centroid of the nuclei and integrated with a simple linear iterative clustering (SLIC) supervoxel algorithm that provides better adherence to cluster boundaries. To track these segmented nuclei, our algorithm utilizes the relative nuclei location depicting the processes of nuclei division and apoptosis. The proposed algorithmic pipeline achieves better segmentation performance compared to the state-of-the-art method in Cell Tracking Challenge (CTC) 2019 and comparable performance to state-of-the-art methods in IEEE ISBI CTC2020 while utilizing very few pixel-wise annotated data. Detailed experimental results are provided, and the source code is available on GitHub.
翻訳日:2022-10-02 18:22:40 公開日:2020-10-26
# 反復同次グラフニューラルネットワークによるスケール不変グラフ関連問題の解法に向けて

Towards Scale-Invariant Graph-related Problem Solving by Iterative Homogeneous Graph Neural Networks ( http://arxiv.org/abs/2010.13547v1 )

ライセンス: Link先を確認
Hao Tang, Zhiao Huang, Jiayuan Gu, Bao-Liang Lu, Hao Su(参考訳) 現在のグラフニューラルネットワーク(GNN)は、多くのグラフ解析問題を解く際に、スケール(グラフサイズ、グラフ径、エッジウェイトなど)に関する一般化性に欠ける。 グラフ理論プログラムの合成の観点から,この問題に対処するいくつかの拡張を提案する。 まず、グラフサイズに対する共通グラフ理論アルゴリズムの繰り返し数に依存することから着想を得て、GNNにおけるメッセージパッシング処理を計算の進捗に応じて適応的に終了させる。 第二に、グラフ理論のアルゴリズムがグラフの重みに関して均質であるという事実に着想を得て、一般のGNNを均質に変換するために、普遍的同質関数近似器である同質変換層を導入する。 実験により,GNNは小規模なグラフから学習できるが,多数の基本グラフ理論問題に対して,大規模グラフによく応用できることを示した。 また,多体物理シミュレーションや画像に基づくナビゲーション問題に対する一般化可能性を示す。

Current graph neural networks (GNNs) lack generalizability with respect to scales (graph sizes, graph diameters, edge weights, etc..) when solving many graph analysis problems. Taking the perspective of synthesizing graph theory programs, we propose several extensions to address the issue. First, inspired by the dependency of the iteration number of common graph theory algorithms on graph size, we learn to terminate the message passing process in GNNs adaptively according to the computation progress. Second, inspired by the fact that many graph theory algorithms are homogeneous with respect to graph weights, we introduce homogeneous transformation layers that are universal homogeneous function approximators, to convert ordinary GNNs to be homogeneous. Experimentally, we show that our GNN can be trained from small-scale graphs but generalize well to large-scale graphs for a number of basic graph theory problems. It also shows generalizability for applications of multi-body physical simulation and image-based navigation problems.
翻訳日:2022-10-02 18:21:50 公開日:2020-10-26
# マルチモーダル特徴を用いた教育ビデオにおける重要セグメントの分類

Classification of Important Segments in Educational Videos using Multimodal Features ( http://arxiv.org/abs/2010.13626v1 )

ライセンス: Link先を確認
Junaid Ahmed Ghauri, Sherzod Hakimov and Ralph Ewerth(参考訳) ビデオは、web検索の学習でよく使われるコンテンツだ。 多くのeラーニングプラットフォームは質の高いコンテンツを提供しているが、教育ビデオは長く、多くのトピックをカバーしている。 人間はビデオから重要な部分を取り出すのに長けているが、それでもコンピューターにとって重要な課題だ。 本稿では,映像セグメントに重要度スコアを割り当てる問題,すなわち,教育ビデオのトピック全体の情報量について述べる。 一般的なオンライン学習プラットフォームから収集したアノテーションツールと注釈付き教育ビデオの新しいデータセットを提案する。 さらに,最先端の音声,視覚,テキスト機能を活用したマルチモーダルニューラルアーキテクチャを提案する。 本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。

Videos are a commonly-used type of content in learning during Web search. Many e-learning platforms provide quality content, but sometimes educational videos are long and cover many topics. Humans are good in extracting important sections from videos, but it remains a significant challenge for computers. In this paper, we address the problem of assigning importance scores to video segments, that is how much information they contain with respect to the overall topic of an educational video. We present an annotation tool and a new dataset of annotated educational videos collected from popular online learning platforms. Moreover, we propose a multimodal neural architecture that utilizes state-of-the-art audio, visual and textual features. Our experiments investigate the impact of visual and temporal information, as well as the combination of multimodal features on importance prediction.
翻訳日:2022-10-02 18:21:33 公開日:2020-10-26
# Fewer is More: 少ないプロキシを用いた深層グラフメトリック学習の視点

Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer Proxies ( http://arxiv.org/abs/2010.13636v1 )

ライセンス: Link先を確認
Yuehua Zhu, Muli Yang, Cheng Deng, and Wei Liu(参考訳) ディープラーニングは、さまざまな機械学習タスクにおいて重要な役割を果たす。 以前の作品のほとんどは、埋め込み空間のグローバルな幾何学を正確に特徴づけることができないミニバッチからのサンプリングに限られている。 研究者はサンプリング問題に対処するためにプロキシと分類に基づく手法を開発したが、これらの手法は必然的に冗長な計算コストを発生させる。 本稿では,グラフ分類の観点から,プロキシベースの深層グラフメトリック学習(proxygml)手法を提案する。 具体的には、複数のグローバルプロキシを利用して、各クラスの元のデータポイントを集合的に近似する。 局所隣接関係を効率的に捉えるために、これらのプロキシと各データポイントとの類似性部分グラフを構築するために、少数のプロキシを適応的に選択する。 さらに,隣接関係を接地ラベルに応じて調整し,サブグラフ分類の過程で識別距離空間を学習できるように,新しい逆ラベル伝播アルゴリズムを設計した。 広く使われているCUB-200-2011、Cars196、Stanford Online Productsのデータセットで実施された大規模な実験は、有効性と効率の両面で最先端の手法よりも提案されたProxyGMLの方が優れていることを示した。 ソースコードはhttps://github.com/YuehuaZhu/ProxyGMLで公開されている。

Deep metric learning plays a key role in various machine learning tasks. Most of the previous works have been confined to sampling from a mini-batch, which cannot precisely characterize the global geometry of the embedding space. Although researchers have developed proxy- and classification-based methods to tackle the sampling issue, those methods inevitably incur a redundant computational cost. In this paper, we propose a novel Proxy-based deep Graph Metric Learning (ProxyGML) approach from the perspective of graph classification, which uses fewer proxies yet achieves better comprehensive performance. Specifically, multiple global proxies are leveraged to collectively approximate the original data points for each class. To efficiently capture local neighbor relationships, a small number of such proxies are adaptively selected to construct similarity subgraphs between these proxies and each data point. Further, we design a novel reverse label propagation algorithm, by which the neighbor relationships are adjusted according to ground-truth labels, so that a discriminative metric space can be learned during the process of subgraph classification. Extensive experiments carried out on widely-used CUB-200-2011, Cars196, and Stanford Online Products datasets demonstrate the superiority of the proposed ProxyGML over the state-of-the-art methods in terms of both effectiveness and efficiency. The source code is publicly available at https://github.com/YuehuaZhu/ProxyGML.
翻訳日:2022-10-02 18:21:21 公開日:2020-10-26
# ウェーブレットフロー:高分解能正規化流れの高速訓練

Wavelet Flow: Fast Training of High Resolution Normalizing Flows ( http://arxiv.org/abs/2010.13821v1 )

ライセンス: Link先を確認
Jason J. Yu, Konstantinos G. Derpanis, Marcus A. Brubaker(参考訳) 正規化フローは、高速密度計算と効率的なサンプリングの両方を可能にし、画像のような複雑な分布のモデリングに有効である確率的生成モデルの一種である。 現在の方法の欠点は、トレーニングコストの大幅な向上であり、最新の結果を得るためには、数ヶ月のgpuトレーニング時間を要する場合もある。 本稿では,ウェーブレットに基づくマルチスケール正規化フローアーキテクチャであるWavelet Flowを紹介する。 ウェーブレットフローは信号スケールの明示的な表現を持ち、これは本質的には低解像度信号のモデルと高解像度信号、すなわち超解像度信号の条件生成を含む。 ウェーブレットフローの大きな利点は、以前のモデルと非現実的な高解像度データ(例えば、1024 x 1024画像)の生成モデルを構築する能力である。 さらに、Wavelet Flowは、標準(低解像度)ベンチマークで1次元当たりのビット数で従来の正規化フローと競合する一方で、トレーニングの最大15倍高速である。

Normalizing flows are a class of probabilistic generative models which allow for both fast density computation and efficient sampling and are effective at modelling complex distributions like images. A drawback among current methods is their significant training cost, sometimes requiring months of GPU training time to achieve state-of-the-art results. This paper introduces Wavelet Flow, a multi-scale, normalizing flow architecture based on wavelets. A Wavelet Flow has an explicit representation of signal scale that inherently includes models of lower resolution signals and conditional generation of higher resolution signals, i.e., super resolution. A major advantage of Wavelet Flow is the ability to construct generative models for high resolution data (e.g., 1024 x 1024 images) that are impractical with previous models. Furthermore, Wavelet Flow is competitive with previous normalizing flows in terms of bits per dimension on standard (low resolution) benchmarks while being up to 15x faster to train.
翻訳日:2022-10-02 18:20:57 公開日:2020-10-26
# 芸術的素材認識のためのマルチクラスゼロショット学習

Multi-Class Zero-Shot Learning for Artistic Material Recognition ( http://arxiv.org/abs/2010.13850v1 )

ライセンス: Link先を確認
Alexander W Olson, Andreea Cucu, Tom Bock(参考訳) Zero-Shot Learning(ZSL)は、トランスファーラーニングの極端な形態であり、トレーニング段階で分類されるデータのラベル付き例は提供されない。 代わりに、ZSLはドメインについて学んだ追加情報を使用し、欠落したインスタンスに関する知識を推測するために転送学習アルゴリズムに依存している。 ZSLアプローチはスパースデータセットの魅力的なソリューションである。 ここでは、作品の主題の英語記述と合成資料との関係を学習することにより、作品が作成された資料を特定するためのモデルについて概説する。 様々なハイパーパラメータを実験した結果、全く異なる博物館のデータセットからピースに使用される材料を正確に識別できるモデルを作成した。 このモデルはテイト・コレクションから採取された5,000点の美術品で48.42%の分類精度を返しました。

Zero-Shot Learning (ZSL) is an extreme form of transfer learning, where no labelled examples of the data to be classified are provided during the training stage. Instead, ZSL uses additional information learned about the domain, and relies upon transfer learning algorithms to infer knowledge about the missing instances. ZSL approaches are an attractive solution for sparse datasets. Here we outline a model to identify the materials with which a work of art was created, by learning the relationship between English descriptions of the subject of a piece and its composite materials. After experimenting with a range of hyper-parameters, we produce a model which is capable of correctly identifying the materials used on pieces from an entirely distinct museum dataset. This model returned a classification accuracy of 48.42% on 5,000 artworks taken from the Tate collection, which is distinct from the Rijksmuseum network used to create and train our model.
翻訳日:2022-10-02 18:20:41 公開日:2020-10-26
# グラフ)畳み込みニューラルネットワークによる不完全画像の処理

Processing of incomplete images by (graph) convolutional neural networks ( http://arxiv.org/abs/2010.13914v1 )

ライセンス: Link先を確認
Tomasz Danel, Marek \'Smieja, {\L}ukasz Struski, Przemys{\l}aw Spurek, {\L}ukasz Maziarka(参考訳) 不足する値を置き換えることなく、不完全な画像からニューラルネットワークを訓練する問題を調べる。 この目的のために、まず画像をグラフとして表現し、欠落したピクセルは完全に無視される。 グラフ画像表現は、画像で動作する古典的なcnnの適切な一般化であるグラフ畳み込みネットワークの一種である空間グラフ畳み込みネットワーク(sgcn)を用いて処理される。 一方,本手法では,CNNとSGCNとの間には自然な対応がある一方で,データ計算の欠如の問題を回避する。 実験により,本手法は典型的分類および再構成作業における欠落値の計算により,類似CNNよりも優れていることを確認した。

We investigate the problem of training neural networks from incomplete images without replacing missing values. For this purpose, we first represent an image as a graph, in which missing pixels are entirely ignored. The graph image representation is processed using a spatial graph convolutional network (SGCN) -- a type of graph convolutional networks, which is a proper generalization of classical CNNs operating on images. On one hand, our approach avoids the problem of missing data imputation while, on the other hand, there is a natural correspondence between CNNs and SGCN. Experiments confirm that our approach performs better than analogical CNNs with the imputation of missing values on typical classification and reconstruction tasks.
翻訳日:2022-10-02 18:20:14 公開日:2020-10-26
# スパースガウス過程モデルによるスケーラブルベイズ最適化

Scalable Bayesian Optimization with Sparse Gaussian Process Models ( http://arxiv.org/abs/2010.13301v1 )

ライセンス: Link先を確認
Ang Yang(参考訳) この論文はベイズ最適化に焦点をあてており、改善には2つの側面がある。 (i)最適化収束を加速するためのデリバティブ情報の利用 (ii)大規模データを扱うためのスケーラブルgpsの考察

This thesis focuses on Bayesian optimization with the improvements coming from two aspects:(i) the use of derivative information to accelerate the optimization convergence; and (ii) the consideration of scalable GPs for handling massive data.
翻訳日:2022-10-02 18:13:36 公開日:2020-10-26
# ガウス混合モデルに基づくクレジット・スコーリングの新しい分類法

A Novel Classification Approach for Credit Scoring based on Gaussian Mixture Models ( http://arxiv.org/abs/2010.13388v1 )

ライセンス: Link先を確認
Hamidreza Arian, Seyed Mohammad Sina Seyfi, Azin Sharifi(参考訳) 信用スコアリング(Credit score)は、銀行やその他の金融機関が急速に普及する分析手法である。 クレジットスコアリングに関する学術研究は、良い借り手と悪い借り手の区別に使われる分類技術を提供する。 本研究の主な貢献は,ガウス混合モデルに基づく新たなクレジットスコアリング手法の導入である。 本アルゴリズムは消費者を正または負の分類群に分類する。 ラベルは各クラスに関連する確率に応じて推定される。 我々は,オーストラリア,日本,ドイツの実世界のデータベースにモデルを適用した。 数値的な結果から,我々のモデルの性能は他のモデルに匹敵するだけでなく,標準クロス検証技術がない場合でも過剰フィッティングを回避できることがわかった。 本稿では,関連金融機関における消費者のデフォルトリスクを評価するための,計算効率が高く強力なツールを提供する。

Credit scoring is a rapidly expanding analytical technique used by banks and other financial institutions. Academic studies on credit scoring provide a range of classification techniques used to differentiate between good and bad borrowers. The main contribution of this paper is to introduce a new method for credit scoring based on Gaussian Mixture Models. Our algorithm classifies consumers into groups which are labeled as positive or negative. Labels are estimated according to the probability associated with each class. We apply our model with real world databases from Australia, Japan, and Germany. Numerical results show that not only our model's performance is comparable to others, but also its flexibility avoids over-fitting even in the absence of standard cross validation techniques. The framework developed by this paper can provide a computationally efficient and powerful tool for assessment of consumer default risk in related financial institutions.
翻訳日:2022-10-02 18:13:33 公開日:2020-10-26
# 層ワイド入力強化によるスケーラブルベイズニューラルネットワーク

Scalable Bayesian neural networks by layer-wise input augmentation ( http://arxiv.org/abs/2010.13498v1 )

ライセンス: Link先を確認
Trung Trinh, Samuel Kaski, Markus Heinonen(参考訳) 深層学習における不確実性表現のためのシンプルでスケーラブルなアプローチである暗黙のベイズニューラルネットワークを導入する。 ディープラーニングに対する標準的なベイズ的アプローチは、数百万のパラメータに対する後方分布の非実用的推論を必要とする。 代わりに,各レイヤの入力を潜在変数で強化することにより,ニューラルネットワーク上の不確実性をキャプチャする分布を誘導する。 大規模・マルチミリオンパラメータ画像分類タスクにおけるキャリブレーション,ロバスト性,不確実性特性の両面から,適切な入力分布を示し,最先端性能を示す。

We introduce implicit Bayesian neural networks, a simple and scalable approach for uncertainty representation in deep learning. Standard Bayesian approach to deep learning requires the impractical inference of the posterior distribution over millions of parameters. Instead, we propose to induce a distribution that captures the uncertainty over neural networks by augmenting each layer's inputs with latent variables. We present appropriate input distributions and demonstrate state-of-the-art performance in terms of calibration, robustness and uncertainty characterisation over large-scale, multi-million parameter image classification tasks.
翻訳日:2022-10-02 18:13:10 公開日:2020-10-26
# Delta-STN:構造化応答ジャコビアンを用いたニューラルネットワークの効率的な2レベル最適化

Delta-STN: Efficient Bilevel Optimization for Neural Networks using Structured Response Jacobians ( http://arxiv.org/abs/2010.13514v1 )

ライセンス: Link先を確認
Juhan Bae, Roger Grosse(参考訳) ニューラルネットワークのハイパーパラメータ最適化は、2レベル最適化問題としてエレガントに定式化することができる。 ニューラルネットワークのバイレベル最適化の研究は暗黙の差別化とアンロールによって支配されているが、自己チューニングネットワーク(STN)のようなハイパーネットワークは、内的目的の最適化を補正する能力によって、最近勢いを増している。 本稿ではSTNのトレーニングにおけるいくつかの微妙な病理診断を行う。 これらの観測に基づいて,STNよりもはるかに効率的にトレーニングを安定化し,ハイパーパラメータを最適化する改良されたハイパーネットワークアーキテクチャである$\Delta$-STNを提案する。 鍵となる考え方は、最高の応答関数ではなく、最良の応答ジャコビアンを正確に近似することであり、ハイパーネットワークを再パラメータ化し、現在のパラメータのまわりのネットワークを線形化する。 我々の$\delta$-stnが、より精度が高く、より高速に収束し、既存のアプローチよりも安定性が向上した、正規化ハイパーパラメータ(例えば、重量減少、滴落、切欠孔の数)をチューニングできることを実証的に示します。

Hyperparameter optimization of neural networks can be elegantly formulated as a bilevel optimization problem. While research on bilevel optimization of neural networks has been dominated by implicit differentiation and unrolling, hypernetworks such as Self-Tuning Networks (STNs) have recently gained traction due to their ability to amortize the optimization of the inner objective. In this paper, we diagnose several subtle pathologies in the training of STNs. Based on these observations, we propose the $\Delta$-STN, an improved hypernetwork architecture which stabilizes training and optimizes hyperparameters much more efficiently than STNs. The key idea is to focus on accurately approximating the best-response Jacobian rather than the full best-response function; we achieve this by reparameterizing the hypernetwork and linearizing the network around the current parameters. We demonstrate empirically that our $\Delta$-STN can tune regularization hyperparameters (e.g. weight decay, dropout, number of cutout holes) with higher accuracy, faster convergence, and improved stability compared to existing approaches.
翻訳日:2022-10-02 18:12:44 公開日:2020-10-26
# ユークリッド球のランダム幾何グラフ

Random Geometric Graphs on Euclidean Balls ( http://arxiv.org/abs/2010.13734v1 )

ライセンス: Link先を確認
Ernesto Araya Valdivia(参考訳) 我々は、ノード $i$ がユークリッド単位球上のランダムな潜点 $x_i$ に関連付けられるようなランダムグラフに対する潜空間モデルを考える。 2つのノードの間にエッジが存在する確率は、ドット積カーネルに対応する ``link'' 関数によって決定される。 x_i$ に対する球対称分布の任意のクラス $\f$ に対して、潜在ノルム回復と潜在グラム行列推定という2つの推定問題を考える。 エッジ確率が$f(\langle x_i,x_j\rangle)=\mathbbm{1}_{\langle x_i,x_j\rangle\geq \tau}$,ただし$0<\tau<1$であるようなモデルにおいて、観測されたグラフのノードの次数に基づいて潜在ノルムの推定子を構成する。 本稿では,観測グラフの固有ベクトルに基づくグラム行列の推定器を導入し,この誤りに対するフロベニウス型保証を確立する。 特定のリンク関数に対して、ここで検討したモデルは、ユークリッド球面上の古典的ランダム幾何グラフモデルに対して、ここで提示されるモデルの利点として見ることのできる、パワーロー型分布の尾を持つ次数分布のグラフを生成する。 実験結果を数値実験で紹介する。

We consider a latent space model for random graphs where a node $i$ is associated to a random latent point $X_i$ on the Euclidean unit ball. The probability that an edge exists between two nodes is determined by a ``link'' function, which corresponds to a dot product kernel. For a given class $\F$ of spherically symmetric distributions for $X_i$, we consider two estimation problems: latent norm recovery and latent Gram matrix estimation. We construct an estimator for the latent norms based on the degree of the nodes of an observed graph in the case of the model where the edge probability is given by $f(\langle X_i,X_j\rangle)=\mathbbm{1}_{\langle X_i,X_j\rangle\geq \tau}$, where $0<\tau<1$. We introduce an estimator for the Gram matrix based on the eigenvectors of observed graph and we establish Frobenius type guarantee for the error, provided that the link function is sufficiently regular in the Sobolev sense and that a spectral-gap-type condition holds. We prove that for certain link functions, the model considered here generates graphs with degree distribution that have tails with a power-law-type distribution, which can be seen as an advantage of the model presented here with respect to the classic Random Geometric Graph model on the Euclidean sphere. We illustrate our results with numerical experiments.
翻訳日:2022-10-02 18:12:15 公開日:2020-10-26
# 機械翻訳における文レベルの信頼度推定におけるデータ問題

Data Troubles in Sentence Level Confidence Estimation for Machine Translation ( http://arxiv.org/abs/2010.13856v1 )

ライセンス: Link先を確認
Ciprian Chelba, Junpei Zhou, Yuezhang (Music) Li, Hideto Kazawa, Jeff Klingner, Mengmeng Niu(参考訳) 本稿では,性能スペクトルのハイエンドで動作するニューラルマシン翻訳モデルの信頼度推定の可能性について検討する。 このようなモデル構築に必要なデータアノテーションプロセスの副産物として,翻訳品質の簡易な自己説明的評価指標として文レベルの精度$SACC$を提案する。 Experiments on two different annotator pools, one comprised of non-expert (crowd-sourced) and one of expert (professional) translators show that $SACC$ can vary greatly depending on the translation proficiency of the annotators, despite the fact that both pools are about equally reliable according to Krippendorff's alpha metric; the relatively low values of inter-annotator agreement confirm the expectation that sentence-level binary labeling $good$ / $needs\ work$ for translation out of context is very hard. SACC = 0.89$で動作する英語とスペイン語の翻訳モデルでは、0.95精度の「ドメイン内」テストセットで$good$の翻訳の0.5-0.6をラベル付けする自信の推定を導出できる。 専門家アノテータプールへの切り替えは、SACC$を劇的に下げる:0.61$ for English- Spanish, measured on the exactly same data。 これにより、CEモデルの動作点を0.9精度に下げると同時に、データ内の$$$$の変換の約0.20-0.25を正しくラベル付けします。 CEがデータのラベル付けに使用するアノテータプールの習熟度にどの程度依存しているかは驚きだ。 CEトレーニングデータにバイナリ品質ラベルを割り当てるアノテータの要求と、所望のドメインにおける翻訳品質に対するエンドユーザの期待とを一致させることが重要です。

The paper investigates the feasibility of confidence estimation for neural machine translation models operating at the high end of the performance spectrum. As a side product of the data annotation process necessary for building such models we propose sentence level accuracy $SACC$ as a simple, self-explanatory evaluation metric for quality of translation. Experiments on two different annotator pools, one comprised of non-expert (crowd-sourced) and one of expert (professional) translators show that $SACC$ can vary greatly depending on the translation proficiency of the annotators, despite the fact that both pools are about equally reliable according to Krippendorff's alpha metric; the relatively low values of inter-annotator agreement confirm the expectation that sentence-level binary labeling $good$ / $needs\ work$ for translation out of context is very hard. For an English-Spanish translation model operating at $SACC = 0.89$ according to a non-expert annotator pool we can derive a confidence estimate that labels 0.5-0.6 of the $good$ translations in an "in-domain" test set with 0.95 Precision. Switching to an expert annotator pool decreases $SACC$ dramatically: $0.61$ for English-Spanish, measured on the exact same data as above. This forces us to lower the CE model operating point to 0.9 Precision while labeling correctly about 0.20-0.25 of the $good$ translations in the data. We find surprising the extent to which CE depends on the level of proficiency of the annotator pool used for labeling the data. This leads to an important recommendation we wish to make when tackling CE modeling in practice: it is critical to match the end-user expectation for translation quality in the desired domain with the demands of annotators assigning binary quality labels to CE training data.
翻訳日:2022-10-02 18:05:56 公開日:2020-10-26
# GraphMDN:逆問題解決のためのグラフ構造とディープラーニングの活用

GraphMDN: Leveraging graph structure and deep learning to solve inverse problems ( http://arxiv.org/abs/2010.13668v1 )

ライセンス: Link先を確認
Tuomas P. Oikarinen (1), Daniel C. Hannah (2), Sohrob Kazerounian (2) ((1) Massachusetts Institute of Technology, (2) Vectra AI)(参考訳) 最近のグラフニューラルネットワーク(GNN)の導入と、ここ数年で人気の高まりにより、非ユークリッドグラフ構造化データへのディープラーニングアルゴリズムの適用が可能になった。 GNNは、グラフベースの機械学習問題によって、最先端の結果を達成した。 それでも、急速な開発ペースにもかかわらず、GNNの研究の多くはグラフ分類と埋め込み技術に焦点を当てており、グラフデータよりも回帰タスクを無視している。 本稿では,グラフニューラルネットワークと混合密度ネットワーク(MDN)の出力を組み合わせたグラフ混合密度ネットワーク(Graph Mixture Density Network, GraphMDN)を提案する。 これらのテクニックを組み合わせることで、GraphMDNは自然にグラフ構造化情報をニューラルネットワークに組み込むことができ、マルチモーダル回帰ターゲットをモデル化できるという利点がある。 このように、graphmdnsは、データがグラフ構造であり、ターゲット統計は特異値よりも密度の混合によって表現される(いわゆる「逆問題」)回帰タスクに優れるように設計されている。 これを示すために、Semantic GCN(Semantic GCN)と呼ばれる既存のGNNアーキテクチャをGraphMDN構造に拡張し、Human3.6Mのポーズ推定タスクの結果を示す。 拡張モデルは、GCNとMDNの両方のアーキテクチャを、同等の数のパラメータで一貫して上回っている。

The recent introduction of Graph Neural Networks (GNNs) and their growing popularity in the past few years has enabled the application of deep learning algorithms to non-Euclidean, graph-structured data. GNNs have achieved state-of-the-art results across an impressive array of graph-based machine learning problems. Nevertheless, despite their rapid pace of development, much of the work on GNNs has focused on graph classification and embedding techniques, largely ignoring regression tasks over graph data. In this paper, we develop a Graph Mixture Density Network (GraphMDN), which combines graph neural networks with mixture density network (MDN) outputs. By combining these techniques, GraphMDNs have the advantage of naturally being able to incorporate graph structured information into a neural architecture, as well as the ability to model multi-modal regression targets. As such, GraphMDNs are designed to excel on regression tasks wherein the data are graph structured, and target statistics are better represented by mixtures of densities rather than singular values (so-called ``inverse problems"). To demonstrate this, we extend an existing GNN architecture known as Semantic GCN (SemGCN) to a GraphMDN structure, and show results from the Human3.6M pose estimation task. The extended model consistently outperforms both GCN and MDN architectures on their own, with a comparable number of parameters.
翻訳日:2022-10-02 18:04:34 公開日:2020-10-26
# 注意型政策モデルを用いたトラックアサインの詳細なルーティング

Track-Assignment Detailed Routing Using Attention-based Policy Model With Supervision ( http://arxiv.org/abs/2010.13702v1 )

ライセンス: Link先を確認
Haiguang Liao, Qingyi Dong, Weiyi Qi, Elias Fallon, Levent Burak Kara(参考訳) 詳細なルーティングはアナログ回路設計における最も重要なステップの1つである。 ノードアナログ回路では、完全ルーティングがますます難しくなり、効率的な自動ルータの進歩がさらに必要になった。 本研究では,先進ノードアナログ回路におけるトラック割り当て詳細ルーティング問題を解決するための機械学習方式を提案する。 我々のアプローチは、注意に基づく強化学習(RL)ポリシーモデルを採用する。 このRLモデルに対する我々の主要な洞察と進歩は、従来の遺伝的アルゴリズム(GA)が生み出すソリューションを活用する手段として、監督の利用である。 そこで本研究では,RLポリシーモデルから得られた出力と遺伝的解法から得られた解分布との間のKulback-Leibler分散損失を最小化する。 このアプローチの鍵となる利点は、ルータがオフラインでポリシーを学習できると同時に、遺伝的解決器の100倍近くの性能を向上させることだ。 さらに、私たちのアプローチが生み出すソリューションの品質は、gaが生成するソリューションとよく一致します。 提案手法は,特に複雑な問題に対して,実行時性能を含まずに従来の注意型rlと類似した品質ソリューションを提供する。 例の設計から学び、ルータを訓練して、実行時の大幅な改善の順序で同様のソリューションを得る能力は、設計フローに劇的に影響し、設計探索とルタビリティ駆動の配置を増大させる可能性がある。

Detailed routing is one of the most critical steps in analog circuit design. Complete routing has become increasingly more challenging in advanced node analog circuits, making advances in efficient automatic routers ever more necessary. In this work, we propose a machine learning driven method for solving the track-assignment detailed routing problem for advanced node analog circuits. Our approach adopts an attention-based reinforcement learning (RL) policy model. Our main insight and advancement over this RL model is the use of supervision as a way to leverage solutions generated by a conventional genetic algorithm (GA). For this, our approach minimizes the Kullback-Leibler divergence loss between the output from the RL policy model and a solution distribution obtained from the genetic solver. The key advantage of this approach is that the router can learn a policy in an offline setting with supervision, while improving the run-time performance nearly 100x over the genetic solver. Moreover, the quality of the solutions our approach produces matches well with those generated by GA. We show that especially for complex problems, our supervised RL method provides good quality solution similar to conventional attention-based RL without comprising run time performance. The ability to learn from example designs and train the router to get similar solutions with orders of magnitude run-time improvement can impact the design flow dramatically, potentially enabling increased design exploration and routability-driven placement.
翻訳日:2022-10-02 18:04:13 公開日:2020-10-26
# 情報理論を用いた深層ニューラルネットワークの因果構造の検討

Examining the causal structures of deep neural networks using information theory ( http://arxiv.org/abs/2010.13871v1 )

ライセンス: Link先を確認
Simon Mattsson, Eric J. Michaud, Erik Hoel(参考訳) ディープニューラルネットワーク(DNN)は、ノードとデータセット間の相互情報を解析するなど、入力に対する応答のレベルでしばしば検討される。 しかし、DNNは因果関係のレベルで調べて、ネットワーク自体のレイヤ内で"何をするのか"を探ることもできる。 歴史的に、DNNの因果構造を分析することは、入力に対する応答を理解することよりも注意を引いている。 しかし、定義上は、一般化可能性はDNNの因果構造の機能でなければならない。 本稿では,学習中のDNNの因果構造の変化を定量化し,追跡するための情報理論に基づくメトリクススイートを紹介する。 具体的には、最大エントロピー摂動後の層入力と出力の相互情報であるフィードフォワードDNNの有効情報(EI)を紹介する。 EIは、各レイヤの下流ターゲットに対する因果影響ノードとエッジの程度を評価するために使用することができる。 EIは、層(エッジがいかに摂動を伝達するかによって測定される)の感度と層(エッジの重複が透過とどのように干渉するかによって測定される)の縮退度を、層統合情報の量の推定とともに、さらに分解できることが示される。 これらの特性を合わせて、各レイヤが"causal plane"にある場所を定義し、各レイヤの接続性が時間とともにより敏感になるか、あるいは縮退するかを視覚化し、トレーニング中に統合がどう変化するかを定義し、レイヤ毎の因果構造の違いを明らかにする。 これらの結果は、DNNの一般化能力を理解し、DNNをより一般化し、より説明しやすいものにするための基礎的なツールを提供するのに役立つかもしれない。

Deep Neural Networks (DNNs) are often examined at the level of their response to input, such as analyzing the mutual information between nodes and data sets. Yet DNNs can also be examined at the level of causation, exploring "what does what" within the layers of the network itself. Historically, analyzing the causal structure of DNNs has received less attention than understanding their responses to input. Yet definitionally, generalizability must be a function of a DNN's causal structure since it reflects how the DNN responds to unseen or even not-yet-defined future inputs. Here, we introduce a suite of metrics based on information theory to quantify and track changes in the causal structure of DNNs during training. Specifically, we introduce the effective information (EI) of a feedforward DNN, which is the mutual information between layer input and output following a maximum-entropy perturbation. The EI can be used to assess the degree of causal influence nodes and edges have over their downstream targets in each layer. We show that the EI can be further decomposed in order to examine the sensitivity of a layer (measured by how well edges transmit perturbations) and the degeneracy of a layer (measured by how edge overlap interferes with transmission), along with estimates of the amount of integrated information of a layer. Together, these properties define where each layer lies in the "causal plane" which can be used to visualize how layer connectivity becomes more sensitive or degenerate over time, and how integration changes during training, revealing how the layer-by-layer causal structure differentiates. These results may help in understanding the generalization capabilities of DNNs and provide foundational tools for making DNNs both more generalizable and more explainable.
翻訳日:2022-10-02 18:03:49 公開日:2020-10-26
# 複数の化学特性を最適化する制御分子発生装置

Controlled Molecule Generator for Optimizing Multiple Chemical Properties ( http://arxiv.org/abs/2010.13908v1 )

ライセンス: Link先を確認
Bonggun Shin, Sungsoo Park, JinYeong Bak, Joyce C. Ho(参考訳) 化学的性質が望ましい新規で最適化された分子の生成は、薬物発見プロセスの不可欠な部分である。 必要な特性の1つを満たさないと、コストのかかる臨床テストで失敗することが少なくありません。 さらに、これらの複数のプロパティの最適化は、あるプロパティの最適化が他のプロパティの変更に近付くため、難しいタスクである。 本稿では,このマルチプロパティ最適化問題をシーケンス変換プロセスとして適用し,特性予測と類似性予測という2つの制約付きトランスフォーマーに基づく新しい最適化分子生成モデルを提案する。 我々は,これらの制約ネットワークからのスコア予測を修正ビーム探索アルゴリズムに組み込むことにより,モデルをさらに改善する。 実験により,提案モデルが最先端モデルに匹敵し,同時に複数の特性を最適化できることを示す。

Generating a novel and optimized molecule with desired chemical properties is an essential part of the drug discovery process. Failure to meet one of the required properties can frequently lead to failure in a clinical test which is costly. In addition, optimizing these multiple properties is a challenging task because the optimization of one property is prone to changing other properties. In this paper, we pose this multi-property optimization problem as a sequence translation process and propose a new optimized molecule generator model based on the Transformer with two constraint networks: property prediction and similarity prediction. We further improve the model by incorporating score predictions from these constraint networks in a modified beam search algorithm. The experiments demonstrate that our proposed model outperforms state-of-the-art models by a significant margin for optimizing multiple properties simultaneously.
翻訳日:2022-10-02 18:02:58 公開日:2020-10-26
# Laplace-Beltramiスペクトルフィルタリングの多項式近似を用いたグラフ上の畳み込みニューラルネットワークの再検討

Revisiting convolutional neural network on graphs with polynomial approximations of Laplace-Beltrami spectral filtering ( http://arxiv.org/abs/2010.13269v1 )

ライセンス: Link先を確認
Shih-Gu Huang, Moo K. Chung, Anqi Qiu, Alzheimer's Disease Neuroimaging Initiative(参考訳) 本稿では、Defferrard(2016)で与えられたスペクトルグラフ畳み込みニューラルネットワーク(graph-CNN)を再検討し、グラフラプラシアンをLB演算子に置き換えることにより、Laplace-Beltrami CNN(LB-CNN)を開発する。 次に、グラフ上のLB演算子を介してスペクトルフィルタを定義する。 本稿では, チェビシェフ, ラゲール, ヘルミテ多項式のLBスペクトルフィルタ近似の実現可能性について検討し, LBCNNにおけるプールのためのLB演算子の更新を定義する。 我々は、アルツハイマー病神経画像イニシアチブ(ADNI)の脳画像データを用いて、提案したLB-CNNの使用を実証する。 ADNIデータセットの皮質厚みに基づいて,LB-CNNはスペクトルグラフCNNと比較して分類精度を向上しなかった。 3つの多項式は計算コストが類似しており、LB-CNNやスペクトルグラフ-CNNで同等の分類精度を示した。 その結果,3つの多項式の形状が異なるにもかかわらず,ディープラーニングアーキテクチャにより,分類性能が多項式のタイプや演算子(グラフラプラシアンおよびLB演算子)に依存しないようなスペクトルフィルタを学習できることがわかった。

This paper revisits spectral graph convolutional neural networks (graph-CNNs) given in Defferrard (2016) and develops the Laplace-Beltrami CNN (LB-CNN) by replacing the graph Laplacian with the LB operator. We then define spectral filters via the LB operator on a graph. We explore the feasibility of Chebyshev, Laguerre, and Hermite polynomials to approximate LB-based spectral filters and define an update of the LB operator for pooling in the LBCNN. We employ the brain image data from Alzheimer's Disease Neuroimaging Initiative (ADNI) and demonstrate the use of the proposed LB-CNN. Based on the cortical thickness of the ADNI dataset, we showed that the LB-CNN didn't improve classification accuracy compared to the spectral graph-CNN. The three polynomials had a similar computational cost and showed comparable classification accuracy in the LB-CNN or spectral graph-CNN. Our findings suggest that even though the shapes of the three polynomials are different, deep learning architecture allows us to learn spectral filters such that the classification performance is not dependent on the type of the polynomials or the operators (graph Laplacian and LB operator).
翻訳日:2022-10-02 18:02:47 公開日:2020-10-26
# PowerTransformer: バイアス言語訂正のための教師なし制御可能な修正

PowerTransformer: Unsupervised Controllable Revision for Biased Language Correction ( http://arxiv.org/abs/2010.13816v1 )

ライセンス: Link先を確認
Xinyao Ma, Maarten Sap, Hannah Rashkin, Yejin Choi(参考訳) 現代のテキストやメディアでは、無意識の偏見が広まり続けており、偏見の修正を手伝うアルゴリズムが求められている。 例えば、物語の中の女性キャラクターはしばしば受動的で無力な人物として描かれる("she daydreams about being a doctor")が、男性はより積極的で強力な人物として描かれる("he seeks his dream of being a doctor")。 これは、文字の描写における暗黙的かつ潜在的に望ましくないバイアスを修正するために、与えられたテキストを書き直すことを目的とした新しいリビジョンタスクである。 次に,動詞述語に関して意味のあるパワーダイナミクスの実用的知識をエンコードするconnotation frames (sap et al., 2017) のレンズを通してテキストをデビ化するアプローチとして,powertransformerを導入する。 私たちのタスクの重要な課題は、並列コーパスの欠如です。 この課題に対処するために,パラフラージングや自己スーパービジョンといった関連するタスクを補助的に監督することにより,事前学習した言語モデルに基づいて構築した教師なしアプローチを採用する。 自動評価と人的評価に基づく総合的な実験を通じて,本手法が関連する課題からアブレーションや既存手法よりも優れていることを示す。 さらに,映画脚本における人物描写における性別バイアスを緩和するステップとして,PowerTransformerの使用を実証する。

Unconscious biases continue to be prevalent in modern text and media, calling for algorithms that can assist writers with bias correction. For example, a female character in a story is often portrayed as passive and powerless ("She daydreams about being a doctor") while a man is portrayed as more proactive and powerful ("He pursues his dream of being a doctor"). We formulate *Controllable Debiasing*, a new revision task that aims to rewrite a given text to correct the implicit and potentially undesirable bias in character portrayals. We then introduce PowerTransformer as an approach that debiases text through the lens of connotation frames (Sap et al., 2017), which encode pragmatic knowledge of implied power dynamics with respect to verb predicates. One key challenge of our task is the lack of parallel corpora. To address this challenge, we adopt an unsupervised approach using auxiliary supervision with related tasks such as paraphrasing and self-supervision based on a reconstruction loss, building on pretrained language models. Through comprehensive experiments based on automatic and human evaluations, we demonstrate that our approach outperforms ablations and existing methods from related tasks. Furthermore, we demonstrate the use of PowerTransformer as a step toward mitigating the well-documented gender bias in character portrayal in movie scripts.
翻訳日:2022-10-02 17:56:02 公開日:2020-10-26
# 言語モデルからのタスク指向対話表現の提案

Probing Task-Oriented Dialogue Representation from Language Models ( http://arxiv.org/abs/2010.13912v1 )

ライセンス: Link先を確認
Chien-Sheng Wu and Caiming Xiong(参考訳) 本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も情報に富むかを事前に学習した言語モデルを用いて検討する。 教師付き分類器プローブと教師なし相互情報プローブの2つの側面からこの問題にアプローチする。 我々は,アノテートラベルを教師付きで固定された事前学習された言語モデルの上に,フィードフォワード層を分類器プローブとして微調整する。 本稿では,実クラスタリングと表現クラスタリングの相互依存性を評価するための教師なし相互情報プローブを提案する。 この実験的な論文の目標は 1)調査技術,特に教師なしの相互情報面から調査する。 2)対話研究コミュニティに事前学習した言語モデル選択のガイドラインを提供する。 3) 成功の鍵となるかもしれない対話アプリケーションのための事前学習要因の洞察を得る。

This paper investigates pre-trained language models to find out which model intrinsically carries the most informative representation for task-oriented dialogue tasks. We approach the problem from two aspects: supervised classifier probe and unsupervised mutual information probe. We fine-tune a feed-forward layer as the classifier probe on top of a fixed pre-trained language model with annotated labels in a supervised way. Meanwhile, we propose an unsupervised mutual information probe to evaluate the mutual dependence between a real clustering and a representation clustering. The goals of this empirical paper are to 1) investigate probing techniques, especially from the unsupervised mutual information aspect, 2) provide guidelines of pre-trained language model selection for the dialogue research community, 3) find insights of pre-training factors for dialogue application that may be the key to success.
翻訳日:2022-10-02 17:55:38 公開日:2020-10-26
# 自己スーパービジョンによる限定ラベル付き対話状態追跡の改善

Improving Limited Labeled Dialogue State Tracking with Self-Supervision ( http://arxiv.org/abs/2010.13920v1 )

ライセンス: Link先を確認
Chien-Sheng Wu and Steven Hoi and Caiming Xiong(参考訳) 既存の対話状態追跡(DST)モデルには多くのラベル付きデータが必要である。 しかし、特にドメイン数が増えると、高品質なラベルの収集はコストがかかる。 本稿では,限られたラベル付きデータで効率的に学習するなど,ほとんど議論されない実践的なDST問題に対処する。 我々は,潜在一貫性の維持と会話行動のモデル化という2つの自己監視目標を提示・検討する。 我々はDSTモデルに対して、摂動入力が与えられたとき、一貫した潜伏分布を持つことを推奨する。 また、対話行動と対話状態の潜在的な相関をモデル化する補助発話生成タスクも追加する。 実験の結果,MultiWOZデータセット上でラベル付きデータのみを使用する場合,提案した自己教師型信号は関節ゴール精度を8.95 %向上できることがわかった。 ラベルのないデータを半教師付き学習として共同で訓練すれば,さらに1.76 %の改善が達成できる。 提案する自己教師付き信号がdst課題にどのように役立つかを分析し,可視化し,今後のdst研究の促進を期待する。

Existing dialogue state tracking (DST) models require plenty of labeled data. However, collecting high-quality labels is costly, especially when the number of domains increases. In this paper, we address a practical DST problem that is rarely discussed, i.e., learning efficiently with limited labeled data. We present and investigate two self-supervised objectives: preserving latent consistency and modeling conversational behavior. We encourage a DST model to have consistent latent distributions given a perturbed input, making it more robust to an unseen scenario. We also add an auxiliary utterance generation task, modeling a potential correlation between conversational behavior and dialogue states. The experimental results show that our proposed self-supervised signals can improve joint goal accuracy by 8.95\% when only 1\% labeled data is used on the MultiWOZ dataset. We can achieve an additional 1.76\% improvement if some unlabeled data is jointly trained as semi-supervised learning. We analyze and visualize how our proposed self-supervised signals help the DST task and hope to stimulate future data-efficient DST research.
翻訳日:2022-10-02 17:55:28 公開日:2020-10-26
# SSA成分相関と畳み込みニューラルネットワークを用いた脳波信号からのDyslexia検出

Dyslexia detection from EEG signals using SSA component correlation and Convolutional Neural Networks ( http://arxiv.org/abs/2010.13731v1 )

ライセンス: Link先を確認
Andr\'es Ortiz, Francisco J. Martinez-Murcia, Marco A. Formoso, Juan Luis Luque, Auxiliadora S\'anchez(参考訳) 目的性失読症の診断は、伝統的に異なる行動検査の解釈によって行われるため、下位の課題ではない。 さらに、これらのテストは読者のみに適用できる。 このように、早期診断には読みに限らず特定のタスクを使用する必要がある。 したがって、脳波検査(EEG)の使用は、プリリーダーで使用可能な客観的かつ早期診断の代替となる。 このように、脳波信号の関連特徴の抽出は分類に不可欠である。 しかし、最も関連性の高い特徴の同定は後向きではなく、時間や周波数領域における事前定義された統計は必ずしも十分に識別できない。 一方、脳波帯域の周波数記述子抽出に基づく脳波信号の古典的処理は、通常、インドルメーションのloosingを引き起こす生信号にいくつかの仮定を与える。 本研究では,Singluar Spectrum Analysis (SSA) に基づく周波数領域の解析の代替として,生信号を異なる振動モードを表す成分に分割する手法を提案する。 さらに, 畳み込みニューラルネットワークを用いて, 脳波チャネル間の各成分の相関行列を分類する。

Objective dyslexia diagnosis is not a straighforward task since it is traditionally performed by means of the intepretation of different behavioural tests. Moreover, these tests are only applicable to readers. This way, early diagnosis requires the use of specific tasks not only related to reading. Thus, the use of Electroencephalography (EEG) constitutes an alternative for an objective and early diagnosis that can be used with pre-readers. In this way, the extraction of relevant features in EEG signals results crucial for classification. However, the identification of the most relevant features is not straighforward, and predefined statistics in the time or frequency domain are not always discriminant enough. On the other hand, classical processing of EEG signals based on extracting EEG bands frequency descriptors, usually make some assumptions on the raw signals that could cause indormation loosing. In this work we propose an alternative for analysis in the frequency domain based on Singluar Spectrum Analysis (SSA) to split the raw signal into components representing different oscillatory modes. Moreover, correlation matrices obtained for each component among EEG channels are classfied using a Convolutional Neural network.
翻訳日:2022-10-02 17:54:52 公開日:2020-10-26
# ドイツ語における調書支援コーパス

A Corpus for Argumentative Writing Support in German ( http://arxiv.org/abs/2010.13674v1 )

ライセンス: Link先を確認
Thiemo Wambsganss, Christina Niklaus, Matthias S\"ollner, Siegfried Handschuh, Jan Marco Leimeister(参考訳) 本稿では,ドイツ語のビジネスモデルに対する学生による説得的ピアレビューにおける主張と議論の前提を捉えるための,新たなアノテーションアプローチを提案する。 本稿では,学生が執筆したピアレビューにおける議論的談話の構造を把握するために,クレームや前提をモデル化できるアノテーションガイドラインに基づくアノテーションスキームを提案する。 提案手法を評価するため,50の説得エッセイに3つのアノテーションを用いたアノテーション研究を行った。 議論的関係のための$\alpha=0.57$と$\alpha=0.49$は、提案されたアノテーションスキームがアノテータを適度な合意に導くことに成功したことを示している。 最後に,1,000点の説得力のある学生によるビジネスモデルレビューのコーパスとアノテーションガイドラインを提示し,学生のための議論的執筆支援システムの設計と開発に関する今後の研究を奨励する。

In this paper, we present a novel annotation approach to capture claims and premises of arguments and their relations in student-written persuasive peer reviews on business models in German language. We propose an annotation scheme based on annotation guidelines that allows to model claims and premises as well as support and attack relations for capturing the structure of argumentative discourse in student-written peer reviews. We conduct an annotation study with three annotators on 50 persuasive essays to evaluate our annotation scheme. The obtained inter-rater agreement of $\alpha=0.57$ for argument components and $\alpha=0.49$ for argumentative relations indicates that the proposed annotation scheme successfully guides annotators to moderate agreement. Finally, we present our freely available corpus of 1,000 persuasive student-written peer reviews on business models and our annotation guidelines to encourage future research on the design and development of argumentative writing support systems for students.
翻訳日:2022-10-02 17:53:44 公開日:2020-10-26
# VisualHints:マルチモーダル強化学習のためのビジュアル言語環境

VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement Learning ( http://arxiv.org/abs/2010.13839v1 )

ライセンス: Link先を確認
Thomas Carta, Subhajit Chaudhury, Kartik Talamadupula and Michiaki Tatsubori(参考訳) テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。 現実の問題はしばしば、エージェントが自然言語情報と視覚的な知覚の両方を使って、目標の解決に向けて環境と対話することを要求する。 しかし、従来のRL環境は、Atariゲームのような純粋な視覚ベースのタスクやビデオベースのロボット操作、あるいはテキストベースのゲームやダイアログシステムのようなインタラクションのモードとして自然言語を完全に使用する。 本研究では,このギャップを埋め,この2つのアプローチを単一環境に統一し,マルチモーダルRLを実現することを目的とする。 環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。 目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。 実世界の様々なシナリオをエミュレートするために,環境の変化と難易度を実現する。 CNNに基づく視覚的ヒントからの特徴抽出とテキスト特徴抽出のためのLSTMを用いて,このような問題を解決するためのベースラインマルチモーダルエージェントを提案する。 提案する視覚言語環境は,RLコミュニティの新たな問題設定を促進するだろう。

We present VisualHints, a novel environment for multimodal reinforcement learning (RL) involving text-based interactions along with visual hints (obtained from the environment). Real-life problems often demand that agents interact with the environment using both natural language information and visual perception towards solving a goal. However, most traditional RL environments either solve pure vision-based tasks like Atari games or video-based robotic manipulation; or entirely use natural language as a mode of interaction, like Text-based games and dialog systems. In this work, we aim to bridge this gap and unify these two approaches in a single environment for multimodal RL. We introduce an extension of the TextWorld cooking environment with the addition of visual clues interspersed throughout the environment. The goal is to force an RL agent to use both text and visual features to predict natural language action commands for solving the final task of cooking a meal. We enable variations and difficulties in our environment to emulate various interactive real-world scenarios. We present a baseline multimodal agent for solving such problems using CNN-based feature extraction from visual hints and LSTMs for textual feature extraction. We believe that our proposed visual-lingual environment will facilitate novel problem settings for the RL community.
翻訳日:2022-10-02 17:53:28 公開日:2020-10-26
# 短いショットテキスト分類のためのラベル化可能な単語の自動識別

Automatically Identifying Words That Can Serve as Labels for Few-Shot Text Classification ( http://arxiv.org/abs/2010.13641v1 )

ライセンス: Link先を確認
Timo Schick, Helmut Schmid, Hinrich Sch\"utze(参考訳) 少ないテキスト分類の最近のアプローチは、テキスト入力をある種のタスク記述を含むクローズ質問に変換し、事前訓練された言語モデルで処理し、予測した単語をラベルにマップする。 この単語とラベルのマッピングを手動で定義するには、ドメインの専門知識と言語モデルの能力を理解する必要がある。 この問題を軽減するために、少量のトレーニングデータからそのようなマッピングを自動的に見つけるアプローチを考案する。 多くのタスクにおいて、我々のアプローチで見いだされたマッピングは、手作りのラベルとワードのマッピングとほぼ同等の性能を発揮します。

A recent approach for few-shot text classification is to convert textual inputs to cloze questions that contain some form of task description, process them with a pretrained language model and map the predicted words to labels. Manually defining this mapping between words and labels requires both domain expertise and an understanding of the language model's abilities. To mitigate this issue, we devise an approach that automatically finds such a mapping given small amounts of training data. For a number of tasks, the mapping found by our approach performs almost as well as hand-crafted label-to-word mappings.
翻訳日:2022-10-02 17:47:40 公開日:2020-10-26
# クレジット割り当ての先入観と後見

Forethought and Hindsight in Credit Assignment ( http://arxiv.org/abs/2010.13685v1 )

ライセンス: Link先を確認
Veronica Chelu, Doina Precup, Hado van Hasselt(参考訳) 我々は,強化学習における信用割当の問題に対処し,エージェントが新たな情報伝達に最適な計算方法や,その予測を改善するための世界の内的モデルによる計画について検討する。 特に,前方モデルや後方モデルによる後見操作として採用する計画の成果や特徴を理解するために取り組んでいる。 我々は,注意深く構築されたシナリオにおいて,双方の計画機構の相対的メリット,限界,補完的特性を確立する。 さらに,予測を(再)評価すべき状態の選択に主眼を置き,計画におけるモデルの最適利用について検討する。 最後に,モデル推定の問題について議論し,明示的な環境力学予測子からより抽象的なプランナー・アウェアモデルへ拡張する手法のスペクトルを強調する。

We address the problem of credit assignment in reinforcement learning and explore fundamental questions regarding the way in which an agent can best use additional computation to propagate new information, by planning with internal models of the world to improve its predictions. Particularly, we work to understand the gains and peculiarities of planning employed as forethought via forward models or as hindsight operating with backward models. We establish the relative merits, limitations and complementary properties of both planning mechanisms in carefully constructed scenarios. Further, we investigate the best use of models in planning, primarily focusing on the selection of states in which predictions should be (re)-evaluated. Lastly, we discuss the issue of model estimation and highlight a spectrum of methods that stretch from explicit environment-dynamics predictors to more abstract planner-aware models.
翻訳日:2022-10-02 17:47:30 公開日:2020-10-26
# 自己教師付きオブジェクト提案を用いた合成一般化のためのリファクタリングポリシー

Refactoring Policy for Compositional Generalizability using Self-Supervised Object Proposals ( http://arxiv.org/abs/2011.00971v1 )

ライセンス: Link先を確認
Tongzhou Mu, Jiayuan Gu, Zhiwei Jia, Hao Tang, Hao Su(参考訳) 我々は構成的一般化性のある政策の学習方法を研究する。 本稿では,高水準の教員政策を,帰納的バイアスの強い一般化可能な学生政策にリファクタリングする2段階の枠組みを提案する。 特に,自己教師型学習を通じて画像から入力対象を学習する,オブジェクト中心のGNNベースの学生ポリシーを実装した。 経験的に,構成の一般化性を必要とする4つの課題に対するアプローチを評価し,ベースラインよりも優れた性能を実現する。

We study how to learn a policy with compositional generalizability. We propose a two-stage framework, which refactorizes a high-reward teacher policy into a generalizable student policy with strong inductive bias. Particularly, we implement an object-centric GNN-based student policy, whose input objects are learned from images through self-supervised learning. Empirically, we evaluate our approach on four difficult tasks that require compositional generalizability, and achieve superior performance compared to baselines.
翻訳日:2022-10-02 17:46:49 公開日:2020-10-26
# 一度にいくつかの要因のロバストな絡み合い

Robust Disentanglement of a Few Factors at a Time ( http://arxiv.org/abs/2010.13527v1 )

ライセンス: Link先を確認
Benjamin Estermann, Markus Marks, Mehmet Fatih Yanik(参考訳) 乱れは教師なし学習の最前線にあり、データの乱れの表現は、下流タスクの一般化、解釈可能性、パフォーマンスを改善する。 現在の教師なしのアプローチは、パフォーマンスが非常に可変であり、(セミ-)教師付きアプローチのアンタングルレベルに到達できないため、現実のデータセットには適用できない。 本稿では,変分オートエンコーダ(VAE)の整合性を向上させるための集団ベーストレーニング(PBT)を導入し,教師付き環境(PBT-VAE)におけるこのアプローチの有効性を実証する。 PBT-VAEトレーニングでは、教師なしのヒューリスティックとしてUnsupervised Disentanglement Ranking (UDR)を使用し、この方法でトレーニングされたモデルが、生成因子のサブセットのみを一貫して切り離す傾向を示す。 この観測に基づいて、再帰的 rPU-VAE アプローチを導入する。 モデルの収束までトレーニングし、学習した要素をデータセットから取り除き、繰り返します。 そうすることで、データセットのサブセットに学習した要素をラベル付けし、これらのラベルを連続して使用して、データセット全体を完全に分離するモデルをトレーニングできます。 このアプローチにより、複数のデータセットやメトリクス間で、最先端の教師なしのアンタングルメント性能とロバストネスが大幅に向上することを示す。

Disentanglement is at the forefront of unsupervised learning, as disentangled representations of data improve generalization, interpretability, and performance in downstream tasks. Current unsupervised approaches remain inapplicable for real-world datasets since they are highly variable in their performance and fail to reach levels of disentanglement of (semi-)supervised approaches. We introduce population-based training (PBT) for improving consistency in training variational autoencoders (VAEs) and demonstrate the validity of this approach in a supervised setting (PBT-VAE). We then use Unsupervised Disentanglement Ranking (UDR) as an unsupervised heuristic to score models in our PBT-VAE training and show how models trained this way tend to consistently disentangle only a subset of the generative factors. Building on top of this observation we introduce the recursive rPU-VAE approach. We train the model until convergence, remove the learned factors from the dataset and reiterate. In doing so, we can label subsets of the dataset with the learned factors and consecutively use these labels to train one model that fully disentangles the whole dataset. With this approach, we show striking improvement in state-of-the-art unsupervised disentanglement performance and robustness across multiple datasets and metrics.
翻訳日:2022-10-02 17:46:41 公開日:2020-10-26
# EHRシステム全体での懐疑的衝撃早期予測のための対向領域分離フレームワーク

An Adversarial Domain Separation Framework for Septic Shock Early Prediction Across EHR Systems ( http://arxiv.org/abs/2010.13952v1 )

ライセンス: Link先を確認
Farzaneh Khoshnevisan and Min Chi(参考訳) EHR(Electronic Health Records)を用いた患者の疾患進行のモデル化は臨床的意思決定を支援するために重要である。 先行研究の大部分は、個々の医療システムから収集したERHを用いた効果的な疾患進行モデルの開発に重点を置いているが、比較的少ない研究で、様々なシステムにまたがる堅牢で汎用的な診断モデルの構築が研究されている。 本研究では,異種患者集団(共変量シフト)とデータ収集手順(システムバイアス)のばらつきを原因として,異なる医療システムから収集したEHRの2つのカテゴリの相違に対処する汎用ドメイン適応(DA)フレームワークを提案する。 DAにおける以前の研究は、主に共変量シフトに対処するが、体系的なバイアスには対処しない。 本研究は,逆学習プロセスを通じてグローバルに共有される不変な潜在表現を1つ保持し,またシステム間で統一できない局所的潜在表現を抽出するために,各システムに対してドメイン固有モデルを割り当てることによって,両カテゴリの差異に対処する,逆ドメイン分離フレームワークを提案する。 さらに,複雑な時間的依存関係を捕捉し,時系列データに欠落した値を処理できることから,変動リカレントニューラルネットワーク(VRNN)をベースとしたフレームワークを提案する。 本研究は,米国における異なる医療システムから得られた2つの現実的 EHR を用いて,極めて困難な症状である敗血症性ショックの早期診断のための枠組みを評価する。 その結果, ドメイン固有表現からグローバルシェアドを分離することにより, 両EHRの懐疑的ショック早期予測性能を著しく向上し, 最先端DAモデルより優れていることがわかった。

Modeling patient disease progression using Electronic Health Records (EHRs) is critical to assist clinical decision making. While most of prior work has mainly focused on developing effective disease progression models using EHRs collected from an individual medical system, relatively little work has investigated building robust yet generalizable diagnosis models across different systems. In this work, we propose a general domain adaptation (DA) framework that tackles two categories of discrepancies in EHRs collected from different medical systems: one is caused by heterogeneous patient populations (covariate shift) and the other is caused by variations in data collection procedures (systematic bias). Prior research in DA has mainly focused on addressing covariate shift but not systematic bias. In this work, we propose an adversarial domain separation framework that addresses both categories of discrepancies by maintaining one globally-shared invariant latent representation across all systems} through an adversarial learning process, while also allocating a domain-specific model for each system to extract local latent representations that cannot and should not be unified across systems. Moreover, our proposed framework is based on variational recurrent neural network (VRNN) because of its ability to capture complex temporal dependencies and handling missing values in time-series data. We evaluate our framework for early diagnosis of an extremely challenging condition, septic shock, using two real-world EHRs from distinct medical systems in the U.S. The results show that by separating globally-shared from domain-specific representations, our framework significantly improves septic shock early prediction performance in both EHRs and outperforms the current state-of-the-art DA models.
翻訳日:2022-10-02 17:46:17 公開日:2020-10-26
# LPに基づく予測+最適化のための内部点解法

Interior Point Solving for LP-based prediction+optimisation ( http://arxiv.org/abs/2010.13943v1 )

ライセンス: Link先を確認
Jayanta Mandi, Tias Guns(参考訳) 多くの実生活分析アプリケーションにおいて、最適化問題の解決が意思決定の鍵となる。 しかし、最適化問題の係数はしばしば不確実であり、将来の需要やエネルギー、株価といった外部要因に依存している。 機械学習(ML)モデル、特にニューラルネットワークは、これらの係数をデータ駆動方式で推定するためにますます利用されている。 したがって、予測値が最適化問題の解決にどの程度効果的かを考えるエンドツーエンドの予測・最適化アプローチが注目されている。 整数線型プログラミング問題の場合、その非微分確率を克服するための一般的なアプローチは、二次的プログラムに対する微分の結果が用いられるように、連続緩和に二次的ペナルティ項を加えることである。 代わりに、線形プログラミングのインテリアポイントソルバで広く使われているように、より原理化された対数障壁項の使用について検討する。 具体的には、kkt条件を微分する代わりに、lpの均質な自己双対な定式化を考え、学習に必要な内点ステップ方向と対応する勾配との関係を示す。 最後に,本手法はwilder et al.の定式化やelmachtoubとgrigasのspoアプローチと同様に,最先端のqptl(quadratic programming task loss)と同等の性能を発揮することを実証した。

Solving optimization problems is the key to decision making in many real-life analytics applications. However, the coefficients of the optimization problems are often uncertain and dependent on external factors, such as future demand or energy or stock prices. Machine learning (ML) models, especially neural networks, are increasingly being used to estimate these coefficients in a data-driven way. Hence, end-to-end predict-and-optimize approaches, which consider how effective the predicted values are to solve the optimization problem, have received increasing attention. In case of integer linear programming problems, a popular approach to overcome their non-differentiabilty is to add a quadratic penalty term to the continuous relaxation, such that results from differentiating over quadratic programs can be used. Instead we investigate the use of the more principled logarithmic barrier term, as widely used in interior point solvers for linear programming. Specifically, instead of differentiating the KKT conditions, we consider the homogeneous self-dual formulation of the LP and we show the relation between the interior point step direction and corresponding gradients needed for learning. Finally our empirical experiments demonstrate our approach performs as good as if not better than the state-of-the-art QPTL (Quadratic Programming task loss) formulation of Wilder et al. and SPO approach of Elmachtoub and Grigas.
翻訳日:2022-10-02 17:45:46 公開日:2020-10-26
# ディープリカレントqネットワークを用いた歩行者存在下の都市自律運転行動決定

Behavioral decision-making for urban autonomous driving in the presence of pedestrians using Deep Recurrent Q-Network ( http://arxiv.org/abs/2010.13407v1 )

ライセンス: Link先を確認
Niranjan Deshpande (CHROMA), Dominique Vaufreydaz (LIG), Anne Spalanzani (CHROMA)(参考訳) 都市環境における自動運転の意思決定は,道路構造の複雑化と多様な道路利用者の行動の不確実性により困難である。 従来の手法は、専門家のドメイン知識を必要とする駆動ポリシーとして手動で設計されたルールで構成されており、一般化が困難であり、環境が複雑になるにつれて準最適結果を与える可能性がある。 一方、強化学習を用いることで、環境との対話を通じて最適な運転ポリシーを学習し、自動的に改善することができる。 しかし、自動運転の強化学習の分野での最近の研究は、都市環境にほとんど重点を置かない高速道路の設置に重点を置いている。 本研究では,歩行者の存在下での高レベル運転行動に対する深い強化学習に基づく意思決定手法を提案する。 本研究では,DQN(Deep Recurrent Q-Network)と長期短期記憶(LSTM)を組み合わせ,エージェントが環境の記憶を得るのに役立つ手法を提案する。 3次元状態表現は、都市シミュレータのような現実世界で適切な行動ポリシーを学ぶためのエージェントを訓練するために、適切に定義された報酬関数と組み合わされた入力として設計される。 提案手法は都市密集シナリオに対して評価し,ルールベース手法と比較し,DRQNに基づく運転行動決定器がルールベース手法より優れていることを示す。

Decision making for autonomous driving in urban environments is challenging due to the complexity of the road structure and the uncertainty in the behavior of diverse road users. Traditional methods consist of manually designed rules as the driving policy, which require expert domain knowledge, are difficult to generalize and might give sub-optimal results as the environment gets complex. Whereas, using reinforcement learning, optimal driving policy could be learned and improved automatically through several interactions with the environment. However, current research in the field of reinforcement learning for autonomous driving is mainly focused on highway setup with little to no emphasis on urban environments. In this work, a deep reinforcement learning based decision-making approach for high-level driving behavior is proposed for urban environments in the presence of pedestrians. For this, the use of Deep Recurrent Q-Network (DRQN) is explored, a method combining state-of-the art Deep Q-Network (DQN) with a long term short term memory (LSTM) layer helping the agent gain a memory of the environment. A 3-D state representation is designed as the input combined with a well defined reward function to train the agent for learning an appropriate behavior policy in a real-world like urban simulator. The proposed method is evaluated for dense urban scenarios and compared with a rule-based approach and results show that the proposed DRQN based driving behavior decision maker outperforms the rule-based approach.
翻訳日:2022-10-02 17:45:23 公開日:2020-10-26
# 負の例生成によるオランダのユーモア検出

Dutch Humor Detection by Generating Negative Examples ( http://arxiv.org/abs/2010.13652v1 )

ライセンス: Link先を確認
Thomas Winters, Pieter Delobelle(参考訳) テキストがユーモラスかどうかを検出することは、通常、言語的、常識的な洞察を必要とするため、計算的に行うのが難しい。 機械学習では、ユーモア検出は通常二分分類タスクとしてモデル化され、与えられたテキストがジョークか他のタイプのテキストかを予測するように訓練される。 全く異なる非ハーモラステキストを使用するのではなく、元のジョークデータセットを模倣するテキスト生成アルゴリズムを用いて学習アルゴリズムの難易度を高めることを提案する。 さまざまな言語技術のユーモア検出能力をテストするために,ジョークと非冗談のデータセットをいくつか構築した。 特に、古典的ニューラルネットワークアプローチのユーモア検出能力を、最先端のオランダ語モデルRobBERTと比較する。 そこで,オランダ初のユーモア検出システムを作成し,比較した。 他の言語モデルは、非ジョークがまったく異なるドメインから来たときにうまく機能するのに対し、robbertだけがジョークとネガティブな例を区別することができた。 この性能は、テキスト生成を用いてユーモア認識のための負のデータセットを作成することの有用性を示し、また、トランスフォーマーモデルがユーモア検出の大きな一歩であることを示す。

Detecting if a text is humorous is a hard task to do computationally, as it usually requires linguistic and common sense insights. In machine learning, humor detection is usually modeled as a binary classification task, trained to predict if the given text is a joke or another type of text. Rather than using completely different non-humorous texts, we propose using text generation algorithms for imitating the original joke dataset to increase the difficulty for the learning algorithm. We constructed several different joke and non-joke datasets to test the humor detection abilities of different language technologies. In particular, we compare the humor detection capabilities of classic neural network approaches with the state-of-the-art Dutch language model RobBERT. In doing so, we create and compare the first Dutch humor detection systems. We found that while other language models perform well when the non-jokes came from completely different domains, RobBERT was the only one that was able to distinguish jokes from generated negative examples. This performance illustrates the usefulness of using text generation to create negative datasets for humor recognition, and also shows that transformer models are a large step forward in humor detection.
翻訳日:2022-10-02 17:44:58 公開日:2020-10-26
# 言語と知識グラフのための空間アライメント手法の埋め込みに関する調査

A Survey of Embedding Space Alignment Methods for Language and Knowledge Graphs ( http://arxiv.org/abs/2010.13688v1 )

ライセンス: Link先を確認
Alexander Kalinowski, Yuan An(参考訳) ニューラル埋め込みアプローチは、コンピュータビジョン、自然言語処理、そして最近ではグラフ分析の分野において重要視されている。 これらのアルゴリズムの広範にわたる性質を考えると、自然な問題は、異なるデータソースの埋め込みをマップしたり調整したりする埋め込み空間をどのように利用するかである。 そこで本研究では,単語,文,知識グラフ埋め込みアルゴリズムに関する現在の研究状況を調査した。 本稿では,関連するアライメント手法の分類を行い,本研究で使用されるベンチマークデータセットについて考察する。 これらの多様なアプローチを特異な調査に集めることで、さまざまなデータタイプやソースの埋め込み空間のアライメントに関する研究をさらに動機付けることを望んでいる。

Neural embedding approaches have become a staple in the fields of computer vision, natural language processing, and more recently, graph analytics. Given the pervasive nature of these algorithms, the natural question becomes how to exploit the embedding spaces to map, or align, embeddings of different data sources. To this end, we survey the current research landscape on word, sentence and knowledge graph embedding algorithms. We provide a classification of the relevant alignment techniques and discuss benchmark datasets used in this field of research. By gathering these diverse approaches into a singular survey, we hope to further motivate research into alignment of embedding spaces of varied data types and sources.
翻訳日:2022-10-02 17:44:40 公開日:2020-10-26