このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211018となっている論文です。

PDF登録状況(公開日: 20211018)

TitleAuthorsAbstract論文公表日・翻訳日
# 普遍的誤り最小化手法としての量子エラー緩和--NISQからFTQC時代への応用

Quantum error mitigation as a universal error-minimization technique: applications from NISQ to FTQC eras ( http://arxiv.org/abs/2010.03887v6 )

ライセンス: Link先を確認
Yasunari Suzuki, Suguru Endo, Keisuke Fujii, Yuuki Tokunaga(参考訳) フォールトトレラント量子コンピューティング(FTQC)の初期においては、量子デバイスのスケーラビリティの制限と古典復号ユニットの計算能力の不足により、利用可能なコード距離とマジック状態の数を制限することが期待されている。 ここでは, 量子誤差補正と量子誤差軽減をftqcの効率的なアーキテクチャに統合し, 広範囲の量子計算環境において, サンプリングオーバーヘッドの一定なコストで, コード距離と$t$ゲート数を効果的に増加させる。 例えば、楽観的で悲観的な視点から量子的優位性を示すために10^4$から10^{10}$の論理演算が必要であるが、各レギュレーションにおいて必要となる物理量子ビットの数を80\%と4,5\%に削減できることが示される。 別の見方では、達成可能なコード距離が約11となると、我々のスキームは10^3$以上の論理演算を実行できます。 この方式は、必要な計算オーバーヘッドを劇的に軽減し、FTQC時代の到来を早める。

In the early years of fault-tolerant quantum computing (FTQC), it is expected that the available code distance and the number of magic states will be restricted due to the limited scalability of quantum devices and the insufficient computational power of classical decoding units. Here, we integrate quantum error correction and quantum error mitigation into an efficient FTQC architecture that effectively increases the code distance and $T$-gate count at the cost of constant sampling overheads in a wide range of quantum computing regimes. For example, while we need $10^4$ to $10^{10}$ logical operations for demonstrating quantum advantages from optimistic and pessimistic points of view, we show that we can reduce the required number of physical qubits by $80\%$ and $45\%$ in each regime. From another perspective, when the achievable code distance is up to about 11, our scheme allows executing $10^3$ times more logical operations. This scheme will dramatically alleviate the required computational overheads and hasten the arrival of the FTQC era.
翻訳日:2023-04-29 15:44:48 公開日:2021-10-18
# 準周期浮揚式無圧エネルギポンプ

Quasiperiodic Floquet-Thouless energy pump ( http://arxiv.org/abs/2010.11485v2 )

ライセンス: Link先を確認
Frederik Nathan, Rongchun Ge, Snir Gazit, Mark S. Rudner, Michael Kolodrubetz(参考訳) 最近の研究 (M. H. Kolodrubetz et al, PRL 120, 150601] は、周期的に駆動される1次元フェルミオン系が第2パラメータの断熱変調による量子化されたエネルギーポンピングをサポートすることを示した。 本研究では, パラメトリック駆動が有限周波数で発生する準周期駆動系において, このトポロジカルフロケ-チューレスエネルギーポンプを探索する。 エネルギーポンプの量子化は, 駆動周波数に比例しない限り, 有限発振周波数に対して持続し, 系は空間的障害により局所化されていることを示す。 したがって、トポロジカルなフロケ・チューレスエネルギーポンプは断熱的な状態を超えて安定であり、パラメータ空間の有限領域を占める。 これらの位相相から離れた相転移は、位置空間、光子数(エネルギー)空間の非局在化を伴う。 次元還元法を用いて, 2つの非共役モードを駆動するキャビティ量子ビット系で関連する位相を実現できることを示す。

Recent work [M. H. Kolodrubetz et al, PRL 120, 150601] has demonstrated that periodically driven one-dimensional fermionic systems can support quantized energy pumping resulting from an adiabatic modulation of a second parameter. In this work, we explore this topological Floquet-Thouless energy pump in the quasiperiodic driving regime where the parametric driving occurs at finite frequency. We show that quantization of energy pumping persists for finite ramping frequencies, as long as they are incommensurate with the driving frequency, and the system remains localized by spatial disorder. Thus, the topological Floquet-Thouless energy pump is stable beyond the adiabatic regime, occupying a finite region of parameter space. Phase transitions away from these topological phases are accompanied by delocalization in position space, photon number (energy) space, or both. Using a dimensional reduction scheme, we demonstrate that a related phase can be realized with a cavity-qubit system driven by two incommensurate modes.
翻訳日:2023-04-28 01:14:43 公開日:2021-10-18
# ランダムと量子ウォークによる非構造探索

Unstructured Search by Random and Quantum Walk ( http://arxiv.org/abs/2011.14533v2 )

ライセンス: Link先を確認
Thomas G. Wong(参考訳) n$要素の未分類リストにあるエントリを見つけるタスクは、古典的なコンピュータのoracleへの$o(n)$クエリとgroverのアルゴリズムを使った量子コンピュータの$o(\sqrt{n})$クエリである。 空間探索問題として再編成されたこの手法は、全グラフ(全対全ネットワーク)をオラクルに問い合わせることで有意な頂点を探索することに対応する。 このチュートリアルでは、離散的および連続的(古典的)ランダムウォークと量子ウォークが、この問題を徹底的かつ教育的な方法でどのように解決するかを導出し、ランダムウォークと量子ウォークが空間領域の探索にどのように利用できるかを説明する。 結果のいくつかはすでに知られているが、新しいものも多い。 大きな$N$の場合、ランダムウォークは同じ進化に収束し、どちらも$N \ln(1/\epsilon)$時間で1-\epsilon$の成功確率に達する。 対照的に、離散時間量子ウォークは漸近的に$\pi\sqrt{n}/2\sqrt{2}$で成功確率は$/2$、連続時間量子ウォークは$\pi\sqrt{n}/2$で成功確率は$$$である。

The task of finding an entry in an unsorted list of $N$ elements famously takes $O(N)$ queries to an oracle for a classical computer and $O(\sqrt{N})$ queries for a quantum computer using Grover's algorithm. Reformulated as a spatial search problem, this corresponds to searching the complete graph, or all-to-all network, for a marked vertex by querying an oracle. In this tutorial, we derive how discrete- and continuous-time (classical) random walks and quantum walks solve this problem in a thorough and pedagogical manner, providing an accessible introduction to how random and quantum walks can be used to search spatial regions. Some of the results are already known, but many are new. For large $N$, the random walks converge to the same evolution, both taking $N \ln(1/\epsilon)$ time to reach a success probability of $1-\epsilon$. In contrast, the discrete-time quantum walk asymptotically takes $\pi\sqrt{N}/2\sqrt{2}$ timesteps to reach a success probability of $1/2$, while the continuous-time quantum walk takes $\pi\sqrt{N}/2$ time to reach a success probability of $1$.
翻訳日:2023-04-22 14:54:56 公開日:2021-10-18
# ニューラルネットワークを用いた変分量子アルゴリズムにおける局所最小化

Avoiding local minima in Variational Quantum Algorithms with Neural Networks ( http://arxiv.org/abs/2104.02955v2 )

ライセンス: Link先を確認
Javier Rivera-Dean, Patrick Huembeli, Antonio Ac\'in and Joseph Bowles(参考訳) 変分量子アルゴリズムは、短期量子計算の先導パラダイムとして登場した。 このようなアルゴリズムでは、パラメータ化量子回路は問題依存のコスト関数を最小限に抑える古典的な最適化手法によって制御される。 このようなアルゴリズムは原理的には強力であるが、関連するコストランドスケープの非凸性や局所最小値の出現は、勾配勾配のような局所最適化手法がよくないことを意味する。 本研究では,量子回路の出力を古典的ニューラルネットワークに結合することを含む,変分量子回路最適化に対する勾配に基づくアプローチを改善する手法を提案する。 このニューラルネットワークの効果は、コストランドスケープをパラメータの関数としてペターブすることであり、コストランドスケープ自体の変更によってローカルなミニマを回避または回避することができる。 我々は,このフレームワーク内で2つのアルゴリズムを提示し,最大カット最適化問題の小さなインスタンスで数値的にベンチマークする。 本手法は, 標準勾配降下法よりも, 最小値と低コスト値に到達可能であることを示す。 さらに,本アルゴリズムは,回路の勾配とは異なり,バックプロパゲーション法によってニューラルネットワークの更新を並列に推定できるため,最適化ステップ毎の量子回路評価を標準手法と本質的に同じ数で要求する。 より一般的に、我々のアプローチは、コスト環境の緩和は、短期的な量子コンピューティングアルゴリズムを改善するための実りある道であることを示唆している。

Variational Quantum Algorithms have emerged as a leading paradigm for near-term quantum computation. In such algorithms, a parameterized quantum circuit is controlled via a classical optimization method that seeks to minimize a problem-dependent cost function. Although such algorithms are powerful in principle, the non-convexity of the associated cost landscapes and the prevalence of local minima means that local optimization methods such as gradient descent typically fail to reach good solutions. In this work we suggest a method to improve gradient-based approaches to variational quantum circuit optimization, which involves coupling the output of the quantum circuit to a classical neural network. The effect of this neural network is to peturb the cost landscape as a function of its parameters, so that local minima can be escaped or avoided via a modification to the cost landscape itself. We present two algorithms within this framework and numerically benchmark them on small instances of the Max-Cut optimization problem. We show that the method is able to reach deeper minima and lower cost values than standard gradient descent based approaches. Moreover, our algorithms require essentially the same number of quantum circuit evaluations per optimization step as the standard approach since, unlike the gradient with respect to the circuit, the neural network updates can be estimated in parallel via the backpropagation method. More generally, our approach suggests that relaxing the cost landscape is a fruitful path to improving near-term quantum computing algorithms.
翻訳日:2023-04-05 02:29:02 公開日:2021-10-18
# XZZX符号とKerr-cat量子ビットを用いた実用的な量子誤差補正

Practical quantum error correction with the XZZX code and Kerr-cat qubits ( http://arxiv.org/abs/2104.09539v2 )

ライセンス: Link先を確認
Andrew S. Darmawan, Benjamin J. Brown, Arne L. Grimsmo, David K. Tuckett, and Shruti Puri(参考訳) 大規模フォールトトレラント量子計算が可能なロバストなアーキテクチャの開発は、それらの量子誤り訂正符号と、それらが構築される物理キュービットの両方をタンデムで考慮すべきである。 この設計原理に従い、xzzx表面コードをkerr-cat qubitsに結合することにより、顕著な誤り訂正性能を示す。 我々は,kerr-cat 量子ビットの物理を反映する異なる回路ノイズモデルを行う耐故障システムのいくつかの変種を対比する。 シミュレーションにより,我々のシステムは,物理的に合理的なパラメータ体系内での閾値ゲートの不忠実さ以下でスケーラブルであることが示され,そこでは,p_\mathrm{CX}$は,我々のシステムの最もノイズの多いゲートである制御ノットゲートの不忠実さである。 このしきい値は、kerr-nonlinearityが10$mhz、$\sim 6.25$ photon cat qubit、single-photon lifetimeが$\gtrsim 64\mu$s、thermal photon population $\lesssim 8\%$の超伝導回路アーキテクチャで達成できる。 このようなパラメータは超伝導回路で定期的に達成される。

The development of robust architectures capable of large-scale fault-tolerant quantum computation should consider both their quantum error-correcting codes, and the underlying physical qubits upon which they are built, in tandem. Following this design principle we demonstrate remarkable error correction performance by concatenating the XZZX surface code with Kerr-cat qubits. We contrast several variants of fault-tolerant systems undergoing different circuit noise models that reflect the physics of Kerr-cat qubits. Our simulations show that our system is scalable below a threshold gate infidelity of $p_\mathrm{CX} \sim 6.5\%$ within a physically reasonable parameter regime, where $p_\mathrm{CX}$ is the infidelity of the noisiest gate of our system; the controlled-not gate. This threshold can be reached in a superconducting circuit architecture with a Kerr-nonlinearity of $10$MHz, a $\sim 6.25$ photon cat qubit, single-photon lifetime of $\gtrsim 64\mu$s, and thermal photon population $\lesssim 8\%$. Such parameters are routinely achieved in superconducting circuits.
翻訳日:2023-04-03 04:30:23 公開日:2021-10-18
# ^<40}$ca$^+$光量子ビットを用いた高忠実度ベル状態形成

High-Fidelity Bell-State Preparation with $^{40}$Ca$^+$ Optical Qubits ( http://arxiv.org/abs/2105.05828v3 )

ライセンス: Link先を確認
Craig R. Clark, Holly N. Tinkey, Brian C. Sawyer, Adam M. Meier, Karl A. Burkhardt, Christopher M. Seck, Christopher M. Shappert, Nicholas D. Guise, Curtis E. Volin, Spencer D. Fallek, Harley T. Hayden, Wade G. Rellergert, and Kenton R. Brown(参考訳) 閉じ込められたイオン系における絡み合いの発生は、モルマー・ソレンセンと光シフトゲートという2つの異なるが関連する幾何学的位相ゲート技術に依存している。 我々は最近, 量子ビットレベルを光周波数(b. c. sawyer, k. r. brown, phys. rev. a 103, 022427 (2021))で分離する光シフト方式の変種を提案した。 ここでは、極低温表面電極イオントラップと商業用高出力 532 nm nd:yag レーザーを用いて、このエンタングリングゲートの実証実験を行う。 35$\mu$sでベル状態を生成すると、実験誤差を減じることなく、6(3) \times 10^{-4}$の非忠実度を直接測定する。 532 nm のゲートレーザー波長は、固有光子散乱誤差を$\sim 1 \times 10^{-5}$に抑える。

Entanglement generation in trapped-ion systems has relied thus far on two distinct but related geometric phase gate techniques: Molmer-Sorensen and light-shift gates. We recently proposed a variant of the light-shift scheme where the qubit levels are separated by an optical frequency [B. C. Sawyer and K. R. Brown, Phys. Rev. A 103, 022427 (2021)]. Here we report an experimental demonstration of this entangling gate using a pair of $^{40}$Ca$^+$ ions in a cryogenic surface-electrode ion trap and a commercial, high-power, 532 nm Nd:YAG laser. Generating a Bell state in 35 $\mu$s, we directly measure an infidelity of $6(3) \times 10^{-4}$ without subtraction of experimental errors. The 532 nm gate laser wavelength suppresses intrinsic photon scattering error to $\sim 1 \times 10^{-5}$.
翻訳日:2023-03-31 08:43:20 公開日:2021-10-18
# 誤差緩和による確率過程の量子モデルの拡張

Enhancing quantum models of stochastic processes with error mitigation ( http://arxiv.org/abs/2105.06448v2 )

ライセンス: Link先を確認
Matthew Ho, Ryuji Takagi, Mile Gu(参考訳) 誤差緩和は、ノイズが短期的な量子コンピュータ上で計算されるときのノイズの影響を減らすために最近求められた方法の1つである。 量子モデルによる確率過程のシミュレートへの関心は、古典的プロセスよりも少ないメモリを必要とすることが証明された後に人気を博した。 従来の量子モデルの研究は、主にメモリの圧縮に重点を置いていたが、この研究は、理論量子モデルと実用的な使用法の間のギャップを、エラー軽減法を取り入れて埋めることを目的としている。 誤差軽減が期待値の改善に有効であることが観察された。 この結果から,これらの量子コンピュータにおけるハードウェアの制約により,その手法が制約されることが示唆された。

Error mitigation has been one of the recently sought after methods to reduce the effects of noise when computation is performed on a noisy near-term quantum computer. Interest in simulating stochastic processes with quantum models gained popularity after being proven to require less memory than their classical counterparts. With previous work on quantum models focusing primarily on further compressing memory, this work branches out into the experimental scene; we aim to bridge the gap between theoretical quantum models and practical use with the inclusion of error mitigation methods. It is observed that error mitigation is successful in improving the resultant expectation values. While our results indicate that error mitigation work, we show that its methodology is ultimately constrained by hardware limitations in these quantum computers.
翻訳日:2023-03-31 06:24:38 公開日:2021-10-18
# 光偏光法による表面音波の測定

Optical polarimetric measurement of surface acoustic waves ( http://arxiv.org/abs/2105.08548v5 )

ライセンス: Link先を確認
Kotaro Taga, Ryusuke Hisatomi, Yuichi Ohnuma, Ryo Sasaki, Teruo Ono, Yasunobu Nakamura, Koji Usami(参考訳) 表面音響波(SAW)は、物理学、工学、生物学、様々な信号の伝達、センシング、処理など様々な分野で用いられる。 SAWの光学的測定は、光ビームのスポットサイズに制限された解像度で、変位場の振幅と位相を局所的に測定できるので、貴重な情報を提供する。 これまでの光学計測技術は、SAWに関連する光路、位相、回折の変調に依存している。 ここでは、SAWを光学偏光計で測定できることを実証する。 本研究では,コヒーレント駆動SAWによる周期傾斜面の傾きを偏光回転角に変換し,偏光計がショットノイズに制限された状態で動作した場合に容易に校正可能であることを示す。 したがって、SAWの偏光測定は、SAWベースの技術の定量的研究に有用である。

Surface acoustic wave (SAW) is utilized in diverse fields ranging from physics, engineering, to biology, for transducing, sensing and processing various signals. Optical measurement of SAW provides valuable information since the amplitude and the phase of the displacement field can be measured locally with the resolution limited by the spot size of the optical beam. So far, optical measurement techniques rely on modulation of optical path, phase, or diffraction associated with SAW. Here, we demonstrate that SAW can be measured with an optical polarimeter. We show that the slope of the periodically tilting surface due to the coherently driven SAW is translated into the angle of polarization rotation, which can be straightforwardly calibrated when polarimeters work in the shot-noise-limited regime. The polarimetric measurement of SAW is thus beneficial for quantitative studies of SAW-based technologies.
翻訳日:2023-03-30 19:58:58 公開日:2021-10-18
# 高調波発生の解析的WKB理論と大規模ディラック電子への応用

Analytical WKB theory for high-harmonic generation and its application to massive Dirac electrons ( http://arxiv.org/abs/2105.12446v2 )

ライセンス: Link先を確認
Hidetoshi Taya, Masaru Hongo, Tatsuhiko N. Ikeda(参考訳) 本稿では (Jeffreys-) Wentzel-Kramers-Brillouin (WKB) 近似に基づく非摂動性低周波場に対する高調波発生(HHG)の解析的アプローチを提案する。 WKB溶液のストークス現象を適切に考慮し、異なるペア生成時間間の位相蓄積による電子-ホール対と量子干渉の繰り返しダイナミクスと加速を体系的に含む波動関数を得る(St\"{u}ckelberg 相)。 得られた波動関数を現象論的仮定に頼らずに利用し、ac電場下の(1+1)次元の巨大なディラック系に対するHHGの源として、電流(バンド内およびバンド間寄与を含む)を明示的に計算する。 我々は、WKB近似が時間依存シュルンディンガー方程式を解くことで得られる数値結果とよく一致し、量子干渉がHHGにおいて重要であることを指摘する。 また,(1)高調波強度が電場振幅$e_0$と周波数$\omega$に対して振動し,その周期はst\"{u}ckelberg相によって決定される,(2)hhgの遮断次数は2ee_0/\hbar \omega^2$で決定される,(3)st\"{u}ckelberg相によって制御される非整数高調波は過渡効果として現れる,という深い非摂動的方法で予測する。 我々の WKB 理論は特にパラメータ体系に適しており、Keldysh パラメータ $\gamma=(\Delta/2)\Omega/eE_0$ はギャップサイズである。 このパラメータレジームは、現実的な巨大なディラック材料のためのテラヘルツレジームの強いレーザーに対応する。 解析の結果,HHG高原は現在の技術のテラヘルツ周波数で観測できることが示唆された。

We propose an analytical approach to high-harmonic generation (HHG) for nonperturbative low-frequency and high-intensity fields based on the (Jeffreys-)Wentzel-Kramers-Brillouin (WKB) approximation. By properly taking into account Stokes phenomena of WKB solutions, we obtain wavefunctions that systematically include the repetitive dynamics of production and acceleration of electron-hole pairs and quantum interference due to phase accumulation between different pair production times (St\"{u}ckelberg phase). Using the obtained wavefunctions without relying on any phenomenological assumptions, we explicitly compute electric current (including intra- and inter-band contributions) as the source of HHG for a massive Dirac system in (1+1)-dimensions under an ac electric field. We demonstrate that the WKB approximation agrees well with numerical results obtained by solving the time-dependent Schr\"{o}dinger equation and point out that the quantum interference is important in HHG. We also predict in the deep nonperturbative regime that (1) harmonic intensities oscillate with respect to electric-field amplitude $E_0$ and frequency $\Omega$, with a period determined by the St\"{u}ckelberg phase; (2) the cutoff order of HHG is determined by $2eE_0/\hbar \Omega^2$, with $e$ being the electron charge; and that (3) non-integer harmonics, controlled by the St\"{u}ckelberg phase, appear as a transient effect. Our WKB theory is particularly suited for a parameter regime, where the Keldysh parameter $\gamma=(\Delta/2)\Omega/eE_0$, with $\Delta$ being the gap size, is small. This parameter regime corresponds to intense lasers in the terahertz regime for realistic massive Dirac materials. Our analysis implies that the so-called HHG plateau can be observed at the terahertz frequency within the current technology.
翻訳日:2023-03-29 20:31:24 公開日:2021-10-18
# ニューラルネットワークを用いた多体局在への交差するエルゴード気泡の検出

Detecting ergodic bubbles at the crossover to many-body localization using neural networks ( http://arxiv.org/abs/2106.01811v3 )

ライセンス: Link先を確認
Tomasz Szoldra, Piotr Sierant, Korbinian Kottmann, Maciej Lewenstein, and Jakub Zakrzewski(参考訳) エルゴードと多体局所化相の遷移は、アバランシェ機構によって起こることが期待され、そこでは系特性の局所的なゆらぎによって生じる「emph{ergodic bubbles}」が、この過程を止めるのに十分な障害がなければ、系の非局在化につながる周囲を熱化する。 実験により測定可能な2点相関関数を用いてエルゴードバブルを検出するニューラルネットワークに基づくアルゴリズムを提案する。 システムの時間的進化を考察し,MBL系におけるエルゴードバブルの時間的成長の対数論を考察した。 エルゴード気泡の大きさの分布は時間発展の過程で収束し、mbl系では指数関数的に崩壊する分布、臨界系では熱ピークを持つパワーロー分布となり、雪崩機構による非局在化のシナリオが支持される。 我々のアルゴリズムは、ランダムおよび準周期ポテンシャルを持つ系の時間進化の量的差をピンポイントで検出し、希少な(重力)事象を特定できる。 以上の結果から,無秩序多体系の熱化機構の研究に新たな経路が開けた。

The transition between ergodic and many-body localized phases is expected to occur via an avalanche mechanism, in which \emph{ergodic bubbles} that arise due to local fluctuations in system properties thermalize their surroundings leading to delocalization of the system, unless the disorder is sufficiently strong to stop this process. We propose an algorithm based on neural networks that allows to detect the ergodic bubbles using experimentally measurable two-site correlation functions. Investigating time evolution of the system, we observe a logarithmic in time growth of the ergodic bubbles in the MBL regime. The distribution of the size of ergodic bubbles converges during time evolution to an exponentially decaying distribution in the MBL regime, and a power-law distribution with a thermal peak in the critical regime, supporting thus the scenario of delocalization through the avalanche mechanism. Our algorithm permits to pin-point quantitative differences in time evolution of systems with random and quasiperiodic potentials, as well as to identify rare (Griffiths) events. Our results open new pathways in studies of the mechanisms of thermalization of disordered many-body systems and beyond.
翻訳日:2023-03-27 23:20:24 公開日:2021-10-18
# QEB-ADAPT-VQEによる分子励起状態計算

Molecular excited state calculations with the QEB-ADAPT-VQE ( http://arxiv.org/abs/2106.06296v3 )

ライセンス: Link先を確認
Yordan S. Yordanov, Crispin H. W. Barnes and David R. M. Arvidsson-Shukur(参考訳) 光解離速度や吸収帯などの分子スペクトル特性の計算は、興味のある分子の励起状態エネルギーの知識に依存している。 変分量子固有解法(VQE)に基づくプロトコルは、新興ノイズ中間スケール量子(NISQ)コンピュータ上でそのようなエネルギーを計算することを約束する候補である。 NISQコンピュータにおけるこれらのプロトコルの実装は、分子状態を正確に近似し、浅い量子回路で実装できる ans\atze に依存している。 本稿では,分子励起状態エネルギーを計算するために,励起量子励起に基づく適応型(e-qeb-adapt)-vqeプロトコルを提案する。 e-QEB-ADAPT-VQEは、量子ビット励起作用素の進化を反復的に付加することにより、効率的な問題調整アンスアゼを構成する。 e-qeb-adapt-vqeは、初期参照状態の選択に依存しないqeb-adapt-vqeプロトコルの適応である。 我々は,e-QEB-ADAPT-VQEの性能をベンチマークするために,LiHとBeH$_2$の古典的な数値シミュレーションを行う。 我々は,EC-QEB-ADAPT-VQE が,UCCSD や GUCCSD などの標準固定型 UCC ans\"atze よりも,少なくとも$CNOT$s の精度で精度の高い ans\atze を構築することができることを示した。

Calculations of molecular spectral properties, like photodissociation rates and absorption bands, rely on knowledge of the excited state energies of the molecule of interest. Protocols based on the variational quantum eigensolver (VQE) are promising candidates to calculate such energies on emerging noisy intermediate scale quantum (NISQ) computers. The successful implementation of these protocols on NISQ computers, relies on ans\"atze that can accurately approximate the molecular states and that can be implemented by shallow quantum circuits. In this paper, we introduce the excited qubit-excitation-based adaptive (e-QEB-ADAPT)-VQE protocol to calculate molecular excited state energies. The e-QEB-ADAPT-VQE constructs efficient problem-tailored ans\"atze by iteratively appending evolutions of qubit excitation operators. The e-QEB-ADAPT-VQE is an adaptation of the QEB-ADAPT-VQE protocol, which is designed to be independent on the choice of an initial reference state. We perform classical numerical simulations for LiH and BeH$_2$ to benchmark the performance of the e-QEB-ADAPT-VQE. We demonstrate that the e-QEB-ADAPT-VQE can construct highly accurate ans\"atze that require at least an order of magnitude fewer $CNOT$s than standard fixed UCC ans\"atze, such as the UCCSD and the GUCCSD.
翻訳日:2023-03-26 23:40:45 公開日:2021-10-18
# 139 ghz 紫外位相同期ラマンレーザーによるペニングトラップ中の^9$be$^+$イオンの熱測定とサイドバンド冷却

139 GHz UV phase-locked Raman laser system for thermometry and sideband cooling of $^9$Be$^+$ ions in a Penning trap ( http://arxiv.org/abs/2106.13532v2 )

ライセンス: Link先を確認
Johannes Mielke, Julian Pick, Julia A. Coenders, Teresa Meiners, Malte Niemann, Juan M. Cornejo, Stefan Ulmer, Christian Ospelkaus(参考訳) 電気光学変調器を用いた4次サイドバンドによる基本赤外レーザーと、第2の基本赤外線レーザーに対する一方のサイドバンドの位相ロックとを変調して、2つの紫外レーザー源の位相ロックを示す。 その後の和周波発生と第二高調波発生は、周波数オフセットを紫外領域にうまく変換する。 139ghzの位相ロックは、低温ペニングトラップに閉じ込められた^9$be$^+$イオンの温度測定のための刺激ラマン遷移によって確認される。 この手法は、将来的には1つの^9$be$^+$イオンのサイドバンド冷却や、同調的な冷却スキーム、量子論理に基づくペニングトラップでの計測に使うことができる。

We demonstrate phase locking of two ultraviolet laser sources by modulating a fundamental infrared laser with 4th-order sidebands using an electro-optic modulator and phase locking of one sideband to a second fundamental infrared laser. Subsequent sum frequency generation and second harmonic generation successfully translates the frequency offset to the ultraviolet domain. The phase lock at 139 GHz is confirmed through stimulated Raman transitions for thermometry of $^9$Be$^+$ ions confined in a cryogenic Penning trap. This technique might be used for sideband cooling of single $^9$Be$^+$ ions as well as sympathetic cooling schemes and quantum logic based measurements in Penning traps in the future.
翻訳日:2023-03-25 14:08:04 公開日:2021-10-18
# 回路量子力学におけるオープンシステムの断熱性へのショートカット

Shortcuts to Adiabaticity for Open Systems in Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2107.08417v2 )

ライセンス: Link先を確認
Zelong Yin, Chunzhen Li, Jonathan Allcock, Yicong Zheng, Xiu Gu, Maochun Dai, Shengyu Zhang, Shuoming An(参考訳) STA(Shortcut to adiabaticity)は強力な量子制御法であり、低速な断熱力学の標的状態への迅速な進化を可能にする。 このような手法は量子技術で広く応用され、様々なstaプロトコルが閉じたシステムで実証されている。 しかしながら、オープン量子系に対するSTAの実現は、既存の提案で必要とされる複雑な制御のため、より大きな課題を提起している。 ここでは、2つの結合ボゾン振動子とトランスモン量子ビットからなる超伝導回路QEDシステムを用いて、オープン量子系に対するSTAの最初の実験例を示す。 逆ダイアバティック駆動パルスを適用することで、単一の損失モードの断熱的進化時間を800 nsから100 nsに短縮する。 さらに,複数のロスモードの高速・無条件平衡を実現するための最適制御プロトコルを提案し,実装する。 この結果は, オープン量子システムの動力学を加速する手段となり, バイオエンジニアリングや化学反応のダイナミクスなど, 物理的および学際的な関心を持つ高速オープンシステムプロトコルの設計に潜在的に応用できる。

Shortcuts to adiabaticity (STA) are powerful quantum control methods, allowing quick evolution into target states of otherwise slow adiabatic dynamics. Such methods have widespread applications in quantum technologies, and various STA protocols have been demonstrated in closed systems. However, realizing STA for open quantum systems has presented a greater challenge, due to complex controls required in existing proposals. Here we present the first experimental demonstration of STA for open quantum systems, using a superconducting circuit QED system consisting of two coupled bosonic oscillators and a transmon qubit. By applying a counterdiabatic driving pulse, we reduce the adiabatic evolution time of a single lossy mode from 800 ns to 100 ns. In addition, we propose and implement an optimal control protocol to achieve fast and qubit-unconditional equilibrium of multiple lossy modes. Our results pave the way for accelerating dynamics of open quantum systems and have potential applications in designing fast open-system protocols of physical and interdisciplinary interest, such as accelerating bioengineering and chemical reaction dynamics.
翻訳日:2023-03-21 23:24:31 公開日:2021-10-18
# 量子流体の動的不識別性と統計

Dynamical indistinguishability and statistics in quantum fluids ( http://arxiv.org/abs/2107.09995v2 )

ライセンス: Link先を確認
Alessio Zaccone and Kostya Trachenko(参考訳) 系が量子流体とみなすためには、量子統計効果に加えて量子力学効果を演算する必要がある。 ここでは, 量子統計効果が現れるための非探索的力学条件に対処し, 流体力学のガス状構造における粒子交換現象を, 固有時間スケールの動的過程として考察する。 その後, 粒子の識別可能性と関連する量子統計量の定量的評価を短時間で実施し, 長期間に出現することを提案する。 我々の予測は、量子流体における統計活性と統計非活性の遷移を体系的に探索することを可能にする。

For a system to qualify as a quantum fluid, quantum-statistical effects should operate in addition to quantum-mechanical ones. Here, we address the hitherto unexplored dynamical condition for the quantum-statistical effects to be manifested, and consider particle exchange events in the gaslike regime of fluid dynamics as a dynamical process with an intrinsic time scale. We subsequently propose a quantitative criterion of particle indistinguishability and associated quantum statistics to be inoperative at short time and emerge at long time. Verifiable experimentally, our predictions enable a systematic search for a transition between statistics-active and statistics-inactive regimes in quantum fluids.
翻訳日:2023-03-21 07:36:49 公開日:2021-10-18
# 結合二重量子ドットにおける同期コヒーレント電荷振動

Synchronized coherent charge oscillations in coupled double quantum dots ( http://arxiv.org/abs/2107.10218v2 )

ライセンス: Link先を確認
Eric Kleinherbers, Philipp Stegmann, J\"urgen K\"onig(参考訳) 二重量子ドットにおけるコヒーレント振動を電子輸送のフルカウント統計を用いて金属導体にトンネル結合した。 そのような2つの系がクーロン相互作用によって結合されている場合、相互作用依存振動周波数を持つ絡み合った系の総計6つの振動モードが存在する。 バイアス電圧をチューニングすることで、2つの量子ドットの電荷振動が反相同期となる6つのモードのうちの1つのみが一対化するようにデコヒーレンスを設計できる。 我々は、待ち時間分布と$g^{(2)}$-correlation関数を用いて、共通周波数と位相ロックを検出することを提案する。

We study coherent oscillations in double quantum dots tunnel-coupled to metallic leads by means of full counting statistics of electron transport. If two such systems are coupled by Coulomb interaction, there are in total six (instead of only two) oscillation modes of the entangled system with interaction-dependent oscillation frequencies. By tuning the bias voltage, one can engineer decoherence such that only one of the six modes, in which the charge oscillations in both double quantum dots become synchronized in antiphase, is singled out. We suggest to use waiting-time distributions and the $g^{(2)}$-correlation function to detect the common frequency and the phase locking.
翻訳日:2023-03-21 07:28:32 公開日:2021-10-18
# 古典的シミュレーション核磁気共鳴実験データを用いた分子構造の量子計算

Quantum computation of molecular structure using data from challenging-to-classically-simulate nuclear magnetic resonance experiments ( http://arxiv.org/abs/2109.02163v2 )

ライセンス: Link先を確認
Thomas E. O'Brien, Lev B. Ioffe, Yuan Su, David Fushman, Hartmut Neven, Ryan Babbush and Vadim Smelyanskiy(参考訳) 本稿では,核磁気共鳴(NMR)によるスピンスピン相関器の時間分解測定から分子核スピンハミルトニアンを推定するための量子アルゴリズムを提案する。 我々はハミルトニアンの異方性双極子項を学習することに集中し、いくつかの文脈において挑戦的で古典的にシミュレートされた力学を生成する。 量子コンピュータ上で対応する学習問題のヤコビアンとヘッセンを直接推定する能力を示し,ハミルトニアンパラメータの学習を可能にした。 雑音の多い近距離および将来のフォールトトレラント量子コンピュータ上でこの計算を行うアルゴリズムを開発した。 前者は局所スピンハミルトニアンの進化のみを必要とするため、初期の古典的超古典的量子応用として有望であると主張する。 本手法の指標として,膜に閉じ込められたタンパク質(ユビキチン)の例について検討した。 小さなスピンクラスターを分離し、そのような例で学習アルゴリズムの収束を示すとともに、双極子相互作用を抑制してエルゴードから非エルゴード相転移への学習可能性を調べる。 これらのクラスターの多体固有状態にわたって測定された多フラクタル次元のドロップと、学習コスト関数のヘシアン構造(退化から学習可能)の遷移との間には明確な対応がある。 我々の期待は、そのような量子計算が分子構造を解析するための新しいNMR技術の解釈と発展を可能にすることである。

We propose a quantum algorithm for inferring the molecular nuclear spin Hamiltonian from time-resolved measurements of spin-spin correlators, which can be obtained via nuclear magnetic resonance (NMR). We focus on learning the anisotropic dipolar term of the Hamiltonian, which generates dynamics that are challenging-to-classically-simulate in some contexts. We demonstrate the ability to directly estimate the Jacobian and Hessian of the corresponding learning problem on a quantum computer, allowing us to learn the Hamiltonian parameters. We develop algorithms for performing this computation on both noisy near-term and future fault-tolerant quantum computers. We argue that the former is promising as an early beyond-classical quantum application since it only requires evolution of a local spin Hamiltonian. We investigate the example of a protein (ubiquitin) confined in a membrane as a benchmark of our method. We isolate small spin clusters, demonstrate the convergence of our learning algorithm on one such example, and then investigate the learnability of these clusters as we cross the ergodic to non-ergodic phase transition by suppressing the dipolar interaction. We see a clear correspondence between a drop in the multifractal dimension measured across many-body eigenstates of these clusters, and a transition in the structure of the Hessian of the learning cost-function (from degenerate to learnable). Our hope is that such quantum computations might enable the interpretation and development of new NMR techniques for analyzing molecular structure.
翻訳日:2023-03-16 02:52:43 公開日:2021-10-18
# 非線形媒体のキャラクタリゼーションのための量子プローブ

Quantum probes for the characterization of nonlinear media ( http://arxiv.org/abs/2109.08058v2 )

ライセンス: Link先を確認
Alessandro Candeloro, Sholeh Razavian, Matteo Piccolini, Berihu Teklu, Stefano Olivares, and Matteo G. A. Paris(参考訳) h = \tilde{\lambda}\, (a + a^{\dagger})^{\zeta}$という形の相互作用ハミルトニアンを導く活性光媒体は、量子光学技術にとって重要な資源である。 本稿では, 量子プローブを用いた非線形媒質の特性を, 半古典的とは対照的に論じる。 特に,スクイーズドプローブが非線形カップリング $\tilde{\lambda}$ と非線形次 $\zeta$ の個別および合同推定をどのように改善するかについて検討した。 量子推定のツールを使用すると、次のように示します。 i) 2つのパラメータは互換性があり、すなわち、追加の量子ノイズなしで共同で推定することができる。 二 スクイズドプローブの使用は、プローブの固定総エネルギーにおける精度を向上させる。 iii) 低エネルギープローブでは、圧縮真空が最も便利な選択肢であり、エネルギーを増大させるために最適なスクイージング率を決定することができる。 四 最適化された量子プローブを用いて、半古典的コヒーレントプローブと比較して、2つのパラメータの個人および共同推定において、エネルギーによる対応する精度のスケーリングが向上する。 量子プローブは非線形媒体のキャラクタリゼーションの精度を高めるための資源であり、現在の技術による潜在的な応用を予見する。

Active optical media leading to interaction Hamiltonians of the form $ H = \tilde{\lambda}\, (a + a^{\dagger})^{\zeta}$ represent a crucial resource for quantum optical technology. In this paper, we address the characterization of those nonlinear media using quantum probes, as opposed to semiclassical ones. In particular, we investigate how squeezed probes may improve individual and joint estimation of the nonlinear coupling $\tilde{\lambda}$ and of the nonlinearity order $\zeta$. Upon using tools from quantum estimation, we show that: i) the two parameters are compatible, i.e. the may be jointly estimated without additional quantum noise; ii) the use of squeezed probes improves precision at fixed overall energy of the probe; iii) for low energy probes, squeezed vacuum represent the most convenient choice, whereas for increasing energy an optimal squeezing fraction may be determined; iv) using optimized quantum probes, the scaling of the corresponding precision with energy improves, both for individual and joint estimation of the two parameters, compared to semiclassical coherent probes. We conclude that quantum probes represent a resource to enhance precision in the characterization of nonlinear media, and foresee potential applications with current technology.
翻訳日:2023-03-14 20:59:21 公開日:2021-10-18
# 時間の基本的な方向のない統治--自然法則に関する最小限の特権主義

Governing Without A Fundamental Direction of Time: Minimal Primitivism about Laws of Nature ( http://arxiv.org/abs/2109.09226v2 )

ライセンス: Link先を確認
Eddy Keming Chen and Sheldon Goldstein(参考訳) 自然の法則に関するメタフィジカルな議論における大きな隔たりは、法律が単に物質の分布を記述していると考えるヒューミアンと、法律がそれを統治すると考える非ヒューミアンの間のものである。 メタフィジカルは物理理論の適切な定式化に要求を課すことができる。 統治の観点は、時間の基本的/本質的な方向を必要とすると仮定される: 統治するためには、法は動的でなければならない、宇宙の時間の基本的方向に従って、後の世界の状態を生成する。 本稿では,自然法則(MinP)に関する最小限の前提条件を提案する。 我々の見解では、法律は物理的可能性を制限することによって統治する。 我々の見解は、時間や動的生産の方向性に関する余分なコミットメントを取らずに、統治的な視点の本質を捉えている。 さらに、プライミティビズムのバージョンとして、我々の見解は普遍性、権限、配置の観点から法を減らしたり分析することを必要としない。 我々の見解は、最小作用の原理、過去の仮説、一般相対性理論のアインシュタイン方程式、さらにはウィーラー・ファインマン電気力学理論や量子力学のレトロコージカル理論で見られる議論の例を含む、基本的な法則の候補のいくつかを取り入れたものである。 支配を制約として理解することで、ミンプを受け入れる非ヒューミアンは、ヒューミアンが行うような様々な基本法を熟考する自由を持つ。

The Great Divide in metaphysical debates about laws of nature is between Humeans, who think that laws merely describe the distribution of matter, and non-Humeans, who think that laws govern it. The metaphysics can place demands on the proper formulations of physical theories. It is sometimes assumed that the governing view requires a fundamental / intrinsic direction of time: to govern, laws must be dynamical, producing later states of the world from earlier ones, in accord with the fundamental direction of time in the universe. In this paper, we propose a minimal primitivism about laws of nature (MinP) according to which there is no such requirement. On our view, laws govern by constraining the physical possibilities. Our view captures the essence of the governing view without taking on extraneous commitments about the direction of time or dynamic production. Moreover, as a version of primitivism, our view requires no reduction / analysis of laws in terms of universals, powers, or dispositions. Our view accommodates several potential candidates for fundamental laws, including the principle of least action, the Past Hypothesis, the Einstein equation of general relativity, and even controversial examples found in the Wheeler-Feynman theory of electrodynamics and retrocausal theories of quantum mechanics. By understanding governing as constraining, non-Humeans who accept MinP have the same freedom to contemplate a wide variety of candidate fundamental laws as Humeans do.
翻訳日:2023-03-14 07:26:05 公開日:2021-10-18
# 物質現象としてのアハロノフ・ボーム効果

The Aharonov Bohm effect as a material phenomenon ( http://arxiv.org/abs/2109.12438v2 )

ライセンス: Link先を確認
V. Rubaev (1) and L. Fedichkin (2) ((1) NIX, Zvezdny blvd. 19, Moscow 129085, Russia, (2) Valiev Institute of Physics and Technology, Russian Academy of Sciences, Nakhimovsky pr. 34, Moscow 117218, Russia)(参考訳) Aharonov-Bohm効果を観察する実験について述べる。 多数の点磁気双極子からなるソレノイドは、荷電粒子に作用するベクトルポテンシャルの源と考えられ、そのようなポテンシャルは非零ベクトルポテンシャルの領域においてゼロ強度の電磁場を持つ。 系全体の量子状態相の変化、すなわち粒子と双極子の集合の詳細な微視的解析により、ベクトルポテンシャルの作用の明らかな非局所性の起源が明らかとなり、相変化機構の局所性が示される。 超伝導シェルで遮蔽されたソレノイドを用いた実験の解析を行った。

An experiment to observe the Aharonov-Bohm effect is discussed. A solenoid which consists of a large number of point magnetic dipoles is considered as the source of a vector potential, which acts on a charged particle, and such potential has an electromagnetic field of zero strength in the region of a nonzero vector potential. A detailed microscopic analysis of the change in the quantum state phase of the entire system, namely, a particle and a set of dipoles, reveals the origin of the apparent nonlocality of the action of the vector potential, and shows the locality of the phase change mechanism. An analysis of an experiment with a solenoid shielded by a superconducting shell is given.
翻訳日:2023-03-13 18:57:42 公開日:2021-10-18
# 連続測定による導波路媒介量子ビットの長時間ベル状態

Long-time Bell states of waveguide-mediated qubits via continuous measurement ( http://arxiv.org/abs/2110.05309v2 )

ライセンス: Link先を確認
Huiping Zhan and Huatang Tan(参考訳) 遠い物体のベル状態の生成は、量子ネットワークを構築する上で重要である。 以前の研究では、光子計数やホモダイン検出のような系の環境における時間連続的な測定を利用して、遠隔キュービット間で過渡的あるいは断続的なベル状態が生成できることが示されている。 本稿では,連続光子計数とホモダイン検出による1次元導波路を介する2つの遠方量子ビットのベル状態の長期持続性を実現するための新しい手法を提案する。 どちらの場合も、ベル状態は長期体制において異なる初期状態に対して存在する。 特に、前者の場合、最初の光子が登録されると、ベル状態間の巡回ジャンプが生成され、後者の場合より興味深いのは、検出効率によらず、任意の定常ベル状態が達成可能であることである。

The generation of Bell states of distant objects is of importance for constructing quantum networks. Previous studies have revealed that transient or intermittent Bell states can be generated between remote qubits by exploiting time-continuous measurement on the environments of the systems, e.g., photon counting or homodyne detection. In this paper, we consider a new scheme for achieving long-time sustainable Bell states of two distant qubits mediated by a one-dimension waveguide via continuous photon counting and homodyne detection. In both of cases, different Bell states can be present for different initial states in the long-time regime. Specially, in the former case, we find that a cyclic jump among Bell states can be formed once the first photon is registered, and more interestingly in the latter case, any steady Bell state can be achieved independent of detection efficiency.
翻訳日:2023-03-11 19:19:23 公開日:2021-10-18
# 単一バルク波関数からのキラル中心電荷

Chiral central charge from a single bulk wave function ( http://arxiv.org/abs/2110.06932v2 )

ライセンス: Link先を確認
Isaac H. Kim, Bowen Shi, Kohtaro Kato, Victor V. Albert(参考訳) 2+1) 次元のガップ量子多体系は、その端に位相的に保護されたエネルギー電流を持つことができる。 この電流の大きさは、エッジの有効場理論に関連する温度とキラル中心電荷によって決定される。 我々は, トポロジ的絡み合いエントロピーと同様に, バルク内の多体基底波動関数によって完全に決定されるカイラル中心電荷の式を導出した。 我々の公式によれば、非ゼロキラル中心電荷は、局所的な積ベースで基底状態波関数が実数値化されないような位相的障害を引き起こす。

A $(2+1)$-dimensional gapped quantum many-body system can have a topologically protected energy current at its edge. The magnitude of this current is determined entirely by the temperature and the chiral central charge, a quantity associated with the effective field theory of the edge. We derive a formula for the chiral central charge that, akin to the topological entanglement entropy, is completely determined by the many-body ground state wave function in the bulk. According to our formula, nonzero chiral central charge gives rise to a topological obstruction that prevents the ground state wave function from being real-valued in any local product basis.
翻訳日:2023-03-11 14:23:44 公開日:2021-10-18
# スポークなPebbleゲーム

The Spooky Pebble Game ( http://arxiv.org/abs/2110.08973v1 )

ライセンス: Link先を確認
Niels Kornerup, Jonathan Sadun, David Soloveichik(参考訳) pebbleゲームは、計算の時間的トレードオフを研究するためによく使われる。 我々は、非古典的入力に対する任意の古典回路の量子シミュレーションにおけるこのトレードオフを探求するpebbleゲームを提案する。 ショアのアルゴリズムやグローバーの探索のような多くの量子アルゴリズムは、重ね合わせの入力に対する古典関数のシミュレーションを必要とするサブルーチンを含む。 この芸術の現在の状態は、ベネットの小石ゲームとトフォリのような普遍的可逆ゲートセットによる一般的な可逆シミュレーションを用いている。 既存の構成で使用されるアンシラ量子ビットの多くを、測定に基づくアン計算を用いて、より安価な古典的な制御ビットに置き換える。 私たちのpebbleゲームは、測定に基づく計算を推論するための自然なフレームワークを形成しており、pebbleゲームを使用するすべてのアルゴリズムの時間的複雑さの厳密な境界を証明します。 任意の$\epsilon \in (0,1)$に対して、$\mathcal{T}$ time と $\mathcal{S}$ space in $O(\frac{1}{\epsilon}\frac{\mathcal{T}^{1+\epsilon}}{\mathcal{S}^\epsilon})$time with $O(\frac{1}{\epsilon}\mathcal{S})$ qubits を用いる可逆な古典計算をシミュレートできるアルゴリズムを提案する。 より多くの量子ビットにアクセスすることで、$O(\frac{1}{\epsilon}\mathcal{T})$O(\mathcal{S}^{1-\epsilon}\mathcal{T}^\epsilon)$ qubitsで実行されるアルゴリズムを提示する。 これらの結果から,$o(\epsilon2^{1/\epsilon} \mathcal{s} (1+\log \frac{\mathcal{t}}{\mathcal{s}})$ qubits を使用する場合,$o(\frac{\mathcal{t}^{1+\epsilon}}{\mathcal{s}^\epsilon})$ time を必要とする bennett の構成よりも改善が見られた。 さらに,本論文はバリントンの定理と組み合わさって,一定数のアンシラ量子ビットを用いて量子入力のログ深さ回路を効率的に計算する一般的な方法を提案する。 また、ペブブリングアルゴリズムの最適構造と動的プログラミングからのバックトラックとの関係についても検討する。

Pebble games are commonly used to study space-time trade-offs in computation. We present a pebble game that explores this trade-off in quantum simulation of arbitrary classical circuits on non-classical inputs. Many quantum algorithms, such as Shor's algorithm and Grover's search, include subroutines that require simulation of classical functions on inputs in superposition. The current state of the art uses generic reversible simulation through Bennett's pebble game and universal reversible gate sets such as the Toffoli. Using measurement-based uncomputation, we replace many of the ancilla qubits used by existing constructions with classical control bits, which are cheaper. Our pebble game forms a natural framework for reasoning about measurement-based uncomputation, and we prove tight bounds on the time complexity of all algorithms that use our pebble game. For any $\epsilon \in (0,1)$, we present an algorithm that can simulate irreversible classical computation that uses $\mathcal{T}$ time and $\mathcal{S}$ space in $O(\frac{1}{\epsilon}\frac{\mathcal{T}^{1+\epsilon}}{\mathcal{S}^\epsilon})$ time with $O(\frac{1}{\epsilon}\mathcal{S})$ qubits. With access to more qubits we present algorithms that run in $O(\frac{1}{\epsilon}\mathcal{T})$ time with $O(\mathcal{S}^{1-\epsilon}\mathcal{T}^\epsilon)$ qubits. Both of these results show an improvement over Bennett's construction, which requires $O(\frac{\mathcal{T}^{1+\epsilon}}{\mathcal{S}^\epsilon})$ time when using $O(\epsilon2^{1/\epsilon} \mathcal{S} (1+\log \frac{\mathcal{T}}{\mathcal{S}}))$ qubits. Additionally the results in our paper combine with Barrington's theorem to provide a general method to efficiently compute any log-depth circuit on quantum inputs using a constant number of ancilla qubits. We also explore a connection between the optimal structure of our pebbling algorithms and backtracking from dynamic programming.
翻訳日:2023-03-11 04:32:49 公開日:2021-10-18
# 等温性へのショートカットにおける省エネルギーのための測地線経路

Geodesic path for the minimal energy cost in shortcuts to isothermality ( http://arxiv.org/abs/2110.09137v1 )

ライセンス: Link先を確認
Geng Li and Jin-Fu Chen and C. P. Sun and Hui Dong(参考訳) 等温性への近道は、システムを有限時間以内に平衡状態に制御し、制御の影響を迅速に評価するための駆動戦略である。 エネルギーコストを最小化するための最適なスキームを見つけることは、医薬品試験、生物選択、量子計算におけるこの戦略の応用において非常に重要である。 最適スキームの設計と制御パラメータの空間における測地経路の発見の等価性を証明する。 このような等価性は、エネルギーコストを減らすための最適制御を見つけるための体系的で普遍的なアプローチを可能にする。 本研究では,制御可能な調和ポテンシャルに閉じ込められたブラウン粒子の例を用いて,現在の方法を示す。

Shortcut to isothermality is a driving strategy to steer the system to its equilibrium states within finite time, and enables evaluating the impact of a control promptly. Finding optimal scheme to minimize the energy cost is of critical importance in applications of this strategy in pharmaceutical drug test, biological selection, and quantum computation. We prove the equivalence between designing the optimal scheme and finding the geodesic path in the space of control parameters. Such equivalence allows a systematic and universal approach to find the optimal control to reduce the energy cost. We demonstrate the current method with examples of a Brownian particle trapped in controllable harmonic potentials.
翻訳日:2023-03-11 04:28:55 公開日:2021-10-18
# 宇宙の波動関数と時間

Wave Functional of the Universe and Time ( http://arxiv.org/abs/2110.09135v1 )

ライセンス: Link先を確認
Natalia Gorobey, Alexander Lukyanenko, and A. V. Goltsev(参考訳) 宇宙の波動関数の概念に基づく重力の量子論のバージョンが提案されている。 物理波動関数を決定するために、最小作用の量子原理を対応する作用作用素の世俗方程式として定式化する。 その解である波動汎関数は、時空の一般共変変換の不変量である。 新しい定式化では、宇宙の進化の歴史は任意のラプスとシフト関数と共に座標時間で記述され、これはアインシュタインの重力の古典理論における一般共分散の原理の定式化に近いものである。 量子論の新しい定式化では、時間のような測地線に沿った標準時計によって測定される古典的測地時間の一般化である宇宙の進化時間の不変パラメータが定義される。

A version of the quantum theory of gravity based on the concept of the wave functional of the universe is proposed. To determine the physical wave functional, the quantum principle of least action is formulated as a secular equation for the corresponding action operator. Its solution, the wave functional, is an invariant of general covariant transformations of space-time. In the new formulation, the history of the evolution of the universe is described in terms of coordinate time together with arbitrary lapse and shift functions, which makes this description close to the formulation of the principle of general covariance in the classical theory of Einstein's gravity. In the new formulation of the quantum theory, an invariant parameter of the evolutionary time of the universe is defined, which is a generalization of the classical geodesic time, measured by a standard clock along time-like geodesics.
翻訳日:2023-03-11 04:28:44 公開日:2021-10-18
# キラル分子のエナンチオ選択的状態移動に対する環状3レベルパルス領域定理

Cyclic three-level-pulse-area theorem for enantioselective state transfer of chiral molecules ( http://arxiv.org/abs/2110.09031v1 )

ライセンス: Link先を確認
Yu Guo, Xun Gong, Songshan Ma, and Chuan-Cun Shu(参考訳) 3つの線形偏光マイクロ波パルスによって駆動されるキラル分子中のエナンチオ選択的状態移動(ESST)を探索するためのアルテタイパルモデルである環状3レベル系のパルス領域定理を導出した。 閉ループ励起を2つの異なる段階に分割することで、3つの制御場の振幅条件と位相条件の両方を得て、esstの高い忠実度を生成する。 原理の証明として、このパルス領域の定理をシクロヘキシルメタノール分子 (\text{c}_{7}\text{h}_{14}\text{o}$) に適用し、3つの回転状態が中心周波数共振状態とデチューン状態の両方の遷移双極子モーメントの$a$-type、$b$-type、$c$-type成分によって接続される。 その結果, 遷移周波数の振幅および位相条件を満たす3つのマイクロ波パルスを設計することにより, 逆手性エナンチオマーを異なるターゲット状態に移動させることができることがわかった。 対応する制御方式は、2段階間の時間遅延に対して堅牢である。 第2段階で使用される2つの制御場は、実用的用途に同時に適用すべきである。 この研究は、混合物中のエナンチオマーのキラリティを決定するポテンシャルを持つ量子制御の分野に、代替のパルス領域定理を貢献する。

We derive a pulse-area theorem for a cyclic three-level system, an archetypal model for exploring enantioselective state transfer (ESST) in chiral molecules driven by three linearly polarized microwave pulses. By dividing the closed-loop excitation into two separate stages, we obtain both amplitude and phase conditions of three control fields to generate high fidelity of ESST. As a proof of principle, we apply this pulse-area theorem to the cyclohexylmethanol molecules ($\text{C}_{7}\text{H}_{14}\text{O}$), for which three rotational states are connected by the $a$-type, $b$-type, and $c$-type components of the transition dipole moments in both center-frequency resonant and detuned conditions. Our results show that two enantiomers with opposite handedness can be transferred to different target states by designing three microwave pulses that satisfy the amplitude and phase conditions at the transition frequencies. The corresponding control schemes are robust against the time delays between the two stages. We suggest that the two control fields used in the second stage should be applied simultaneously for practical applications. This work contributes an alternative pulse-area theorem to the field of quantum control, which has the potential to determine the chirality of enantiomers in a mixture.
翻訳日:2023-03-11 04:27:29 公開日:2021-10-18
# ニオブ酸リチウムマイクロ共鳴器におけるスペクトル多重および超直交光子対

Spectrally multiplexed and ultrabright entangled photon pairs in a lithium niobate microresonator ( http://arxiv.org/abs/2110.08997v1 )

ライセンス: Link先を確認
Bo-Yu Xu, Li-Kun Chen, Jintian Lin, Lan-Tian Feng1, Rui Niu, Zhi-Yuan Zhou, Renhong Gao, Chun-Hua Dong, Guang-Can Guo, Qihuang Gong, Ya Cheng, Yun-Feng Xiao, and Xi-Feng Ren(参考訳) 多重化能力を持つオンチップの明るい量子ソースは、前例のないスケーラビリティと複雑性を持つ統合量子ネットワークの需要が非常に高い。 Here, we demonstrate an ultrabright and broadband biphoton quantum source generated in a lithium niobate microresonator system.Without introducing the conventional domain poling, the on-chip microdisk produces entangled photon pairs covering a broad bandwidth promised by natural phase matching in spontaneous parametric down conversion.Experimentally, the multiplexed photon pairs are characterized by $30\ \rm nm$ bandwidth limited by the filtering system, which can be furthered enlarged.Meanwhile, the generation rate reaches $5.13\ {\rm MHz}/\upmu \rm W$ with a coincidence-to-accidental ratio up to $804$. さらに、量子源は、ヘラルド単光子相関 $g_h^{(2)}(0)=0.0098\pm0.0021$ の顕著な純度を示し、 96.5\%\pm1.9\%$ の干渉可視性に優れたエネルギー時間絡み合いを示す。 このような通信帯域の量子源は、高次元の絡み合いや将来の統合量子情報システムへの道を開く。

On-chip bright quantum sources with multiplexing ability are extremely high in demand for the integrated quantum networks with unprecedented scalability and complexity. Here, we demonstrate an ultrabright and broadband biphoton quantum source generated in a lithium niobate microresonator system.Without introducing the conventional domain poling, the on-chip microdisk produces entangled photon pairs covering a broad bandwidth promised by natural phase matching in spontaneous parametric down conversion.Experimentally, the multiplexed photon pairs are characterized by $30\ \rm nm$ bandwidth limited by the filtering system, which can be furthered enlarged.Meanwhile, the generation rate reaches $5.13\ {\rm MHz}/\upmu \rm W$ with a coincidence-to-accidental ratio up to $804$.Besides, the quantum source manifests the prominent purity with heralded single photon correlation $g_H^{(2)}(0)=0.0098\pm0.0021$ and energy-time entanglement with excellent interference visibility of $96.5\%\pm1.9\%$. Such quantum sources at the telecommunication band pave the way for high-dimensional entanglement and future integrated quantum information systems.
翻訳日:2023-03-11 04:26:51 公開日:2021-10-18
# ドパント型量子ドットの2次元格子を用いた拡張フェルミ・ハバード模型の量子シミュレーション

Quantum Simulation of an Extended Fermi-Hubbard Model Using a 2D Lattice of Dopant-based Quantum Dots ( http://arxiv.org/abs/2110.08982v1 )

ライセンス: Link先を確認
Xiqiao Wang, Ehsan Khatami, Fan Fei, Jonathan Wyrick, Pradeep Namboodiri, Ranjit Kashid, Albert F. Rigosi, Garnett Bryant, Richard Silver(参考訳) ハバードモデル(Hubbard model)は、モット絶縁体や銅酸化物高温超伝導体のような凝縮物質系における重要な多体物理学を理解するための主要なモデルの一つである。 走査型トンネル顕微鏡(STM)を用いたシリコンの原子精密加工の最近の進歩は、単一および少数の量子ドットの原子間加工とドーパント系デバイスにおけるトンネルの原子スケール制御を可能にしている。 しかし、多成分デバイスの複雑な製造要件により、2次元(2次元)フェルミ・ハバード物理学をエミュレートすることは証明されていない。 本稿では,原子製造の最新技術を統合することでこれらの課題を克服し,シングル/fewドーパント量子ドットの3x3配列を用いた2次元拡張フェルミ・ハバード・ハミルトニアンのアナログ量子シミュレーションを実証する。 本研究では、平面内ゲートを用いた電子アンサンブルの低温量子輸送とチューニングを効率よく行い、電荷付加、トンネル結合、アレイ内の障害の影響など多体特性を特徴づける。 アレイ格子定数をサブnm精度で制御することにより、ホッピング振幅と長距離相互作用のチューニングを行い、モット絶縁から金属挙動への遷移の有限サイズの類似性を観測する。 測定温度を増加させることにより, 熱活性化ホッピングおよびハバードバンド形成が輸送スペクトルに及ぼす影響をシミュレーションする。 我々は、アナログ量子シミュレーションと数値シミュレーション結果を比較し、アレイ内のエネルギースペクトルと共鳴トンネルを理解するのに役立てる。 本研究で得られた結果は,強相関材料の拡張フェルミ・ハバード模型をシミュレートする新しい人工格子の出発点となる。

The Hubbard model is one of the primary models for understanding the essential many-body physics in condensed matter systems such as Mott insulators and cuprate high-Tc superconductors. Recent advances in atomically precise fabrication in silicon using scanning tunneling microscopy (STM) have made possible atom-by-atom fabrication of single and few-dopant quantum dots and atomic-scale control of tunneling in dopant-based devices. However, the complex fabrication requirements of multi-component devices have meant that emulating two-dimensional (2D) Fermi-Hubbard physics using these systems has not been demonstrated. Here, we overcome these challenges by integrating the latest developments in atomic fabrication and demonstrate the analog quantum simulation of a 2D extended Fermi-Hubbard Hamiltonian using STM-fabricated 3x3 arrays of single/few-dopant quantum dots. We demonstrate low-temperature quantum transport and tuning of the electron ensemble using in-plane gates as efficient probes to characterize the many-body properties, such as charge addition, tunnel coupling, and the impact of disorder within the array. By controlling the array lattice constants with sub-nm precision, we demonstrate tuning of the hopping amplitude and long-range interactions and observe the finite-size analogue of a transition from Mott insulating to metallic behavior in the array. By increasing the measurement temperature, we simulate the effect of thermally activated hopping and Hubbard band formation in transport spectroscopy. We compare the analog quantum simulations with numerically simulated results to help understand the energy spectrum and resonant tunneling within the array. The results demonstrated in this study serve as a launching point for a new class of engineered artificial lattices to simulate the extended Fermi-Hubbard model of strongly correlated materials.
翻訳日:2023-03-11 04:26:11 公開日:2021-10-18
# 二重障壁によるガッピングリンのトンネル効果

Tunneling Effect in Gapped Phosphorene through Double Barriers ( http://arxiv.org/abs/2110.09342v1 )

ライセンス: Link先を確認
Jilali Seffadi, Ilham Redouani, Youness Zahidi, Ahmed Jellal(参考訳) 二重障壁を通した質量項を持つホスホレン中の電荷キャリアの輸送特性について検討した。 エネルギースペクトルの解が得られ、x$-方向における障壁ポテンシャルと波動ベクトルに対する固有値の依存性が数値計算される。 行列移動法とともに境界条件を用いて,システムの伝達とコンダクタンスを決定する。 これらの2つの量は、アームチェア方向に沿った物理パラメータの関数として、その主な特性を研究することによって分析される。 以上の結果から, リンの高異方性特性と, グラフェンと対照的に正常に出現するクライントンネルの符号は認められなかった。 また, 伝送コンダクタンスは, 適切な条件下ではバリア幅の観点から振動挙動を示すことがわかった。

We study the transport properties of charge carriers in phosphorene with a mass term through double barriers. The solutions of the energy spectrum are obtained and the dependence of the eigenvalues on the barrier potentials and wave vectors in the $x$-direction is numerically computed. Using the boundary conditions together with the matrix transfer method, we determine transmission and the conductance of our system. These two quantities are analyzed by studying their main characteristics as a function of the physical parameters along the armchair direction. Our results show the highly anisotropic character of phosphorene and the no signature of Klein tunneling at normal incidence contrary to graphene. Moreover, it is found that the transmission and conductance display oscillatory behaviors in terms of the barrier width under suitable conditions.
翻訳日:2023-03-11 04:17:49 公開日:2021-10-18
# Augerのパーセル修飾と原子間クーロン崩壊

Purcell modification of Auger and interatomic Coulombic decay ( http://arxiv.org/abs/2110.09281v1 )

ライセンス: Link先を確認
Janine Franz, Stefan Yoshi Buhmann(参考訳) 励起二原子系は、異なる競合緩和過程によって崩壊することがある。 余剰エネルギーが十分に高い場合、システムは自発的な放出によって緩和するだけでなく、原子間クーロン崩壊(icd)やオージェ崩壊も行うことができる。 本研究では, マクロ量子電磁力学に基づいて, 同一の量子光学系に組み込むことにより, 速度の解析式を提供する。 自由空間の速度を比較することにより、どの減衰チャネルが緩和を支配するかを決定する原子特性を導出する。 本研究は,Purcell効果の精神において,各プロセスの励起伝播をマクロ体を介して変化させることにより,2つの支配的崩壊率の比を制御できることを示す。 各プロセスの特性長さスケールに効果の大きさを関連付けることができ、単純な近接面が一般的な2原子系に与える影響を詳細に分析し、キャビティが崩壊速度に与える影響を議論できる。 最終的に、我々の理論を2重励起HeNe-双対の例に適用する。

An excited two-atom system can decay via different competing relaxation processes. If the excess energy is sufficiently high the system may not only relax via spontaneous emission but can also undergo interatomic Coulombic decay (ICD) or even Auger decay. We provide analytical expressions for the rates by including them into the same quantum optical framework on the basis of macroscopic quantum electrodynamics. By comparing the rates in free space we derive the atomic properties determining which decay channel dominates the relaxation. We show that by modifying the excitation propagation of the respective process via macroscopic bodies, in the spirit of the Purcell effect, one can control the ratio between the two dominating decay rates. We can relate the magnitude of the effect to characteristic length scales of each process, analyse the impact of a simple close-by surface onto a general two-atom system in detail and discuss the effect of a cavity onto the decay rates. We finally apply our theory to the example of a doubly excited HeNe-dimer.
翻訳日:2023-03-11 04:17:35 公開日:2021-10-18
# 構成可能なセキュリティをもつ実用的連続可変量子鍵分布

Practical continuous-variable quantum key distribution with composable security ( http://arxiv.org/abs/2110.09262v1 )

ライセンス: Link先を確認
Nitin Jain, Hou-Man Chin, Hossein Mani, Cosmo Lupo, Dino Solar Nikolic, Arne Kordts, Stefano Pirandola, Thomas Brochmann Pedersen, Matthias Kolb, Bernhard \"Omer, Christoph Pacher, Tobias Gehring, and Ulrik L. Andersen(参考訳) 量子鍵分布(QKD)システムは、暗号アプリケーション(QKDシステムを使用する)が安全であることを確実にするために、普遍的な構成可能性の要件を満たす必要がある。 さらに、セキュリティ解析と鍵生成に責任を負う理論的証明は、実際に有限である分散量子状態の数$N$に対応するべきである。 コヒーレントな状態に基づく連続可変(CV)QKDは、通信インフラの統合に適した候補であるにもかかわらず、既存の証明がキー生成を成功させるためにかなり大きな$N$を必要とするため、構成可能性を示すことができなかった。 本稿では,これらの課題を克服し,n \lesssim 3.5\times10^8$コヒーレント状態の集団攻撃に対してセキュアな構成可能な鍵を生成できる最初のガウス変調コヒーレント状態cvqkdシステムについて報告する。 この進歩により、セキュリティ証明が新しく改善され、高速で低ノイズで高度に安定なシステム操作が可能となり、CVQKDの実装は実用性、性能、セキュリティにおいて、それぞれの異なる変数に対して大きな一歩を踏み出した。

A quantum key distribution (QKD) system must fulfill the requirement of universal composability to ensure that any cryptographic application (using the QKD system) is also secure. Furthermore, the theoretical proof responsible for security analysis and key generation should cater to the number $N$ of the distributed quantum states being finite in practice. Continuous-variable (CV) QKD based on coherent states, despite being a suitable candidate for integration in the telecom infrastructure, has so far been unable to demonstrate composability as existing proofs require a rather large $N$ for successful key generation. Here we report the first Gaussian-modulated coherent state CVQKD system that is able to overcome these challenges and can generate composable keys secure against collective attacks with $N \lesssim 3.5\times10^8$ coherent states. With this advance, possible due to novel improvements to the security proof and a fast, yet low-noise and highly stable system operation, CVQKD implementations take a significant step towards their discrete-variable counterparts in practicality, performance, and security.
翻訳日:2023-03-11 04:17:19 公開日:2021-10-18
# 非一様磁場中における相対論的ランダウ量子化とそのホワイトドワーフおよび量子情報への応用

Relativistic Landau quantization in non-uniform magnetic field and its applications to white dwarfs and quantum information ( http://arxiv.org/abs/2110.09543v1 )

ライセンス: Link先を確認
Srishty Aggarwal (IISc), Banibrata Mukhopadhyay (IISc), Gianluca Gregori (Oxford)(参考訳) 相対論的冷電子の「狭く」空間変化磁場の存在下での2次元運動について検討するが,磁気単極状態は存在しない。 一定の磁場の場合に生じるランダウ準位の縮退は、磁場が変化し、スピンアップおよびスピンダウン電子のエネルギー準位が磁場の変化の性質に応じて興味深い方法で整列するときに持ち上がることが判明した。 また、変化する磁場は正の角運動量からゼロの角運動量を持つランダウ電子準位を分割するが、正の角モーメントと負の角モーメントのレベルだけを分割できる定磁場とは対照的である。 非一様磁場におけるランダウ量子化の探索は、独自のベンチャーであり、凝縮物質から天体物理学、量子情報まで、分野における学際的な意味を持つ。 例えば、磁場が変化する磁化白色小星は、下層の縮退する電子ガスに影響を与えるローレンツ力とランダウ量子化と同時に関与し、チャンドラセカール質量限界の重大な違反を示し、空間的に成長する磁場の存在下での電子の量子速度の増加を示す。

We investigate the two-dimensional motion of relativistic cold electrons in the presence of `strictly' spatially varying magnetic fields satisfying, however, no magnetic monopole condition. We find that the degeneracy of Landau levels, which arises in the case of the constant magnetic field, lifts out when the field is variable and the energy levels of spin-up and spin-down electrons align in an interesting way depending on the nature of change of field. Also the varying magnetic field splits Landau levels of electrons with zero angular momentum from positive angular momentum, unlike the constant field which only can split the levels between positive and negative angular momenta. Exploring Landau quantization in non-uniform magnetic fields is a unique venture on its own and has interdisciplinary implications in the fields ranging from condensed matter to astrophysics to quantum information. As examples, we show magnetized white dwarfs, with varying magnetic fields, involved simultaneously with Lorentz force and Landau quantization affecting the underlying degenerate electron gas, exhibiting a significant violation of the Chandrasekhar mass-limit; and an increase in quantum speed of electrons in the presence of a spatially growing magnetic field.
翻訳日:2023-03-11 04:10:11 公開日:2021-10-18
# 超伝導量子ビットの非破壊光読み出し

Non-destructive optical readout of a superconducting qubit ( http://arxiv.org/abs/2110.09539v1 )

ライセンス: Link先を確認
Robert D. Delaney, Maxwell D. Urmey, Sarang Mittal, Benjamin M. Brubaker, Jonathan M. Kindem, Peter S. Burns, Cindy A. Regal and Konrad W. Lehnert(参考訳) 光で超伝導量子プロセッサをエンタングルすることで、セキュアな通信と分散量子コンピューティングの新しい手段が可能になる。 しかし、これらの電磁スペクトルの異なる状態間の量子信号の伝送は目覚ましい目標であり、超伝導量子ビットと電気光学変換器の相互作用は、超伝導体に対する光子の消耗による重要な課題である。 さらに、多くのリモート・エンタングルメントプロトコルは量子状態のアップコンバージョンの前と後の両方に複数のクビットゲートを必要とするため、理想的トランスデューサはキュービットの状態は変わらない:より正確には、クォービット上のトランスデューサからのバックアクションは最小限である。 ここでは,連続的に動作する電気光学トランスデューサによる超伝導トランスモン量子ビットの非破壊的光読み出しを実証する。 本研究で使用されるトランスデューサと回路QEDシステムのモジュラー特性は、光子からのキュービットの完全分離を可能にし、トランスデューサからのキュービットのバックアクションは、環境からの熱放射によって与えられるものよりも小さい。 トランスデューサの帯域幅の適度な改善とノイズの追加により、回路QEDで利用可能なツール群をフル活用して、超伝導量子ビットから光領域への非古典的な信号の転送を実証することができる。

Entangling superconducting quantum processors via light would enable new means of secure communication and distributed quantum computing. However, transducing quantum signals between these disparate regimes of the electromagnetic spectrum remains an outstanding goal, and interfacing superconducting qubits with electro-optic transducers presents significant challenges due to the deleterious effects of optical photons on superconductors. Moreover, many remote entanglement protocols require multiple qubit gates both preceding and following the upconversion of the quantum state, and thus an ideal transducer should leave the state of the qubit unchanged: more precisely, the backaction from the transducer on the qubit should be minimal. Here we demonstrate non-destructive optical readout of a superconducting transmon qubit via a continuously operated electro-optic transducer. The modular nature of the transducer and circuit QED system used in this work enable complete isolation of the qubit from optical photons, and the backaction on the qubit from the transducer is less than that imparted by thermal radiation from the environment. Moderate improvements in transducer bandwidth and added noise will enable us to leverage the full suite of tools available in circuit QED to demonstrate transduction of non-classical signals from a superconducting qubit to the optical domain.
翻訳日:2023-03-11 04:09:48 公開日:2021-10-18
# 非放射的過程に対するエネルギーギャップ則の単純一般化

A simple generalization of the energy gap law for nonradiative processes ( http://arxiv.org/abs/2110.09464v1 )

ライセンス: Link先を確認
Seogjoo J. Jang(参考訳) 50年以上にわたり,Englman と Jortner [Mol.] が開発したエレガントエネルギーギャップ法(EG法)が発展してきた。 Phys bf 18}, 145 (1970)] は初期状態と最終状態のエネルギー差に対する非放射遷移率のほぼ指数関数的依存性を理解しモデル化するための重要な理論である。 この研究は理論を再検討し、レート表現に関わる重要な仮定を明確にし、温度依存性と低周波モードの影響を無視できない場合の一般化を提供する。 低周波振動および/または溶媒化応答をオーミックスペクトル密度としてモデル化できる特定の例として、EG法則の簡単な一般化が提供される。 実験計算により、この一般化されたEG法則は元のEG法則よりも大幅に改善されることが示された。 元のEG法則と一般化されたEG法則は、電子移動理論のために開発された定常位相近似とも比較され、EGの任意の値に有効な単純な補間公式の可能性が示唆される。

For more than 50 years, an elegant energy gap (EG) law developed by Englman and Jortner [Mol. Phys. {\bf 18}, 145 (1970)] has served as a key theory to understand and model nearly exponential dependence of nonradiative transition rates on the difference of energy between the initial and final states. This work revisits the theory, clarifies key assumptions involved in the rate expression, and provides a generalization for the cases where the effects of temperature dependence and low frequency modes cannot be ignored. For a specific example where the low frequency vibrational and/or solvation responses can be modeled as an Ohmic spectral density, a simple generalization of the EG law is provided. Test calculations demonstrate that this generalized EG law brings significant improvement over the original EG law. Both the original and generalized EG laws are also compared with stationary phase approximations developed for electron transfer theory, which suggests the possibility of a simple interpolation formula valid for any value of EG.
翻訳日:2023-03-11 04:08:02 公開日:2021-10-18
# petrinet拡張によるmooc学習フローのモデル化

Modeling MOOC learnflow with Petri net extensions ( http://arxiv.org/abs/2111.04419v1 )

ライセンス: Link先を確認
Irina A. Lomazova, Alexey A. Mitsyuk, Aliya M. Sharipova(参考訳) 現代の高等教育はMOOC技術を利用する。 大規模オープンオンラインコース(MOOC)の教育プロセスを動的かつマルチエージェントなプロセスとしてモデル化することは,課題の1つである。 本稿では,学習フローモデリングの文脈におけるペトリネット拡張について検討する。 学習フローを古典的および有色ペトリネットでモデル化する方法が示されている。 これらの拡張は分散およびマルチエージェントプロセスのモデリングを容易にする。 しかし、既存のペトリネット拡張は、マルチコースプログラムと適応学習の文脈で教育プロセスをモデル化する能力を提供していない。 我々はMOOCにおけるeラーニングをモデル化するための参照データ付きemph{Petri nets (PNRDs)を提案する。 pnrdsは、教育プロセスのモデルを視覚的に、明確で、過負荷ではない形で表現できる。 さらに、PNRDは、MOOC教育プロセスにおけるマルチコースプログラムの側面と動的変化を示すことができる。 また,PNRDをプロジェクトベース学習におけるオンライン学生コラボレーションのモデル化に活用する方法を示す。

Modern higher education takes advantage of MOOC technology. Modeling an education process of Massive open online courses (MOOCs) as a dynamic and multi-agent process is one of the challenging tasks. In this paper, Petri net extensions are investigated in the context of the learnflow modeling. It is shown how a learnflow can be modeled with classical and Colored Petri nets. These extensions facilitate modeling distributed and multi-agent processes. However, existing Petri net extensions do not provide the ability to model an education process in the context of multi-course programs and adaptive learning. We propose \emph{Petri nets with reference data} (PNRDs) for modeling e-learning in MOOCs. PNRDs allow us to represent a model of the education process in a visual, clear and not overloaded form. Moreover, PNRDs enable us to display aspects of multi-course programs and dynamic changes in the MOOC education process. We also show how PNRDs can be used to model online student collaboration in project-based learning.
翻訳日:2023-03-11 04:00:46 公開日:2021-10-18
# ヒルベルト空間の最大長と最小運動量不確かさの表現

Hilbert space representation of maximal length and minimal momentum uncertainties ( http://arxiv.org/abs/2110.09926v1 )

ライセンス: Link先を確認
Kossi Amouzouvi, Benjamin A. Appiah, Lat\'evi M. Lawson and Abdel-Baset A. Mohamed(参考訳) perivolaropoulos は最近、最大長さ[phys.rev.95, 103523 (2017)]を含む位置変形ハイゼンベルク代数を提案した。 彼は、この長さスケールが宇宙粒子の地平線や宇宙トポロジーの文脈で自然に現れることを示した。 この研究に続いて、新しい変形代数を提案し、一般化された不確かさ原理から最大長さの不確かさとその対応する最小運動量不確かさを導出する。 また、対応するフーリエ変換とその逆表現も構成する。 最後に、この代数のn次元表現を提案する。

Perivolaropoulos has recently proposed a position-deformed Heisenberg algebra which includes a maximal length [Phys.Rev.95, 103523 (2017)]. He has shown that this length scale naturally emerges in the context of cosmological particle's horizon or cosmic topology. Following this work, we propose a new deformed algebra and derive the maximal length uncertainty and its corresponding minimal momentum uncertainty from the generalized uncertainty principle. We also construct the corresponding Fourier transform and its inverse representations. Finally, we propose n-dimensional representation of this algebra
翻訳日:2023-03-11 04:00:33 公開日:2021-10-18
# exascaleにおけるテンソルネットワーク回路シミュレーション

Tensor Network Circuit Simulation at Exascale ( http://arxiv.org/abs/2110.09894v1 )

ライセンス: Link先を確認
John Brennan, Momme Allalen, David Brayford, Kenneth Hanley, Luigi Iapichino, Lee J. O'Riordan, Myles Doyle, Niall Moran(参考訳) テンソルネットワーク法は量子回路のシミュレーションに極めて効果的である。 これは、大きな相互作用量子系の波動関数を効率的に表現し、操作する能力のためである。 テンソルネットワークシミュレーションをExascale計算プラットフォームに拡張する際の課題について述べるとともに,Exascaleでテンソルネットワークシミュレーションを行うQuantExを紹介した。

Tensor network methods are incredibly effective for simulating quantum circuits. This is due to their ability to efficiently represent and manipulate the wave-functions of large interacting quantum systems. We describe the challenges faced when scaling tensor network simulation approaches to Exascale compute platforms and introduce QuantEx, a framework for tensor network circuit simulation at Exascale.
翻訳日:2023-03-11 04:00:21 公開日:2021-10-18
# $\textit{Ab initio}$と、h-BN における $\text{C}_\text{2}\text{C}_\text{N}$ 炭素三量体欠陥の群理論的研究

$\textit{Ab initio}$ and group theoretical study of properties of the $\text{C}_\text{2}\text{C}_\text{N}$ carbon trimer defect in h-BN ( http://arxiv.org/abs/2110.09628v1 )

ライセンス: Link先を確認
Omid Golami, Kenneth Sharman, Roohollah Ghobadi, Stephen C. Wein, Hadi Zadeh-Haghighi, Claudia Gomes da Rocha, Dennis R. Salahub, and Christoph Simon(参考訳) 六方晶窒化ホウ素(h-BN)は、魅力的な光学特性とスピン特性を持つ光学活性欠陥をホストする可能性があるため、量子情報処理のための有望なプラットフォームである。 近年の研究では、炭素トリマーがh-BNの可視スペクトル範囲における単一光子放出の原因である可能性が示唆されている。 この理論研究において、群論と密度汎関数理論(dft)の計算を組み合わせることで、中性な$\text{c}_\text{2}\text{c}_\text{n}$ carbon trimer欠陥の性質を予測する。 我々は、この欠陥の多電子状態と、スピン軌道とスピンスピン相互作用によって支援される放射および非放射遷移を見いだす。 また、外部磁場に対するハミルトニアンと基底状態超微粒子相互作用についても検討する。 最後に,lindblad master方程式モデルを用いて,光学的に検出された磁気共鳴(odmr)信号と$g^2(\tau)$相関関数の予測を行った。 本研究は,量子ネットワークや量子センシングで使用される量子リピータなどの量子情報応用において重要な結果をもたらす。

Hexagonal boron nitride (h-BN) is a promising platform for quantum information processing due to its potential to host optically active defects with attractive optical and spin properties. Recent studies suggest that carbon trimers might be the defect responsible for single-photon emission in the visible spectral range in h-BN. In this theoretical study, we combine group theory together with density functional theory (DFT) calculations to predict the properties of the neutral $\text{C}_\text{2}\text{C}_\text{N}$ carbon trimer defect. We find the multi-electron states of this defect along with possible radiative and non-radiative transitions assisted by the spin-orbit and the spin-spin interactions. We also investigate the Hamiltonian for external magnetic field and ground-state hyperfine interactions. Lastly, we use the results of our investigation in a Lindblad master equation model to predict an optically detected magnetic resonance (ODMR) signal and the $g^2(\tau)$ correlation function. Our findings can have important outcomes in quantum information applications such as quantum repeaters used in quantum networks and quantum sensing.
翻訳日:2023-03-11 04:00:15 公開日:2021-10-18
# ハードウェア効率の良い量子リピータノードとしてのマルチセル量子メモリ

Multicell Atomic Quantum Memory as a Hardware-Efficient Quantum Repeater Node ( http://arxiv.org/abs/2110.09597v1 )

ライセンス: Link先を確認
Chang Li, Sheng Zhang, Yukai Wu, Nan Jiang, Yunfei Pu and Luming Duan(参考訳) スケーラブルな量子通信とネットワークのための重要なステップは、量子メモリを用いて原子-光子絡み合いの異なるセグメントを効率的に接続できる量子リピータノードを実現することである。 本稿では,単一アトミックアンサンブルを用いた量子リピータノードのコンパクトかつハードウェア効率の良い実現について報告する。 ミリ秒の寿命は、磁場誘起不均質拡大と原子運動誘起スピン波減衰を抑制した後、個々の記憶細胞で達成される。 これらの長寿命のマルチセルメモリセルに基づいて,2つの量子リピータセグメントにおける非同期エンタングルメント生成と,これら2つのリピータセグメントのオンデマンドエンタングルメント接続を実現する。 マルチセルアトミック量子メモリの別の応用として、個々のアドレス容量を持つランダムアクセス量子メモリを実装して、ヘラルド原子スピン波量子ビットの保存とオンデマンド検索をさらに実証する。 この研究は、大規模量子ネットワークにおける量子リピータの効率的な実現のための有望な構成要素を提供する。

For scalable quantum communication and networks, a key step is to realize a quantum repeater node that can efficiently connect different segments of atom-photon entanglement using quantum memories. We report a compact and hardware-efficient realization of a quantum repeater node using a single atomic ensemble for multicell quantum memories. Millisecond lifetime is achieved for individual memory cells after suppressing the magnetic-field-induced inhomogeneous broadening and the atomic-motion-induced spin-wave dephasing. Based on these long-lived multicell memory cells, we achieve heralded asynchronous entanglement generation in two quantum repeater segments one after another and then an on-demand entanglement connection of these two repeater segments. As another application of the multicell atomic quantum memory, we further demonstrate storage and on-demand retrieval of heralded atomic spin-wave qubits by implementing a random access quantum memory with individual addressing capacity. This work provides a promising constituent for efficient realization of quantum repeaters for large-scale quantum networks.
翻訳日:2023-03-11 03:59:25 公開日:2021-10-18
# 量子位相推定におけるコサインテーパウィンドウの効果

Effects of Cosine Tapering Window on Quantum Phase Estimation ( http://arxiv.org/abs/2110.09590v1 )

ライセンス: Link先を確認
Gumaro Rendon, Taku Izubuchi, Yuta Kikuchi(参考訳) スペクトル密度推定のための古典ウィンドウ法に触発された量子位相推定アルゴリズム(qpea)の改良を提案する。 この修正から、アルゴリズムの誤差率に関して立方的な改善を意味するコストの上限を得る。 コストの数値評価も改善を示している。 さらに, 同様の手法を用いて, QPEAを用いて, 先行境界よりも指数関数的に向上した地盤状態予測法について述べる。 期待されるスケーリング挙動を確認する数値試験も行われる。 これらの数値実験では格子チリングモデルを用いて実験を行った。 また,よく知られた摂動理論の結果を用いて,進化演算子の誤差ではなく,状態エラーに対するコストスケーリングをより適切に見積もる方法を示す。

We provide a modification to the quantum phase estimation algorithm (QPEA) inspired on classical windowing methods for spectral density estimation. From this modification we obtain an upper bound in the cost that implies a cubic improvement with respect to the algorithm's error rate. Numerical evaluation of the costs also demonstrates an improvement. Moreover, with similar techniques, we detail an iterative projective measurement method for ground state preparation that gives an exponential improvement over previous bounds using QPEA. Numerical tests that confirm the expected scaling behavior are also obtained. For these numerical tests we have used a Lattice Thirring model as testing ground. Using well-known perturbation theory results, we also show how to more appropriately estimate the cost scaling with respect to state error instead of evolution operator error.
翻訳日:2023-03-11 03:59:09 公開日:2021-10-18
# 非パラメトリック連続センサ登録

Nonparametric Continuous Sensor Registration ( http://arxiv.org/abs/2001.04286v4 )

ライセンス: Link先を確認
William Clark, Maani Ghaffari, and Anthony Bloch(参考訳) 本稿では,データを用いた連続関数の非パラメトリックジョイント意味と幾何学的表現を可能にする新しい数学的枠組みを開発した。 ジョイント埋め込みは、再生核ヒルベルト空間における過程を表現することによってモデル化される。 函数は、リー群の作用がそれらを整列する任意の滑らかな多様体上で定義される。 連続関数は、登録を特定の信号解像度とは独立にすることができる。 このフレームワークは完全に解析的であり、リーマン勾配とヘッセンの閉形式を導出する。 我々は、リー群が関数に等尺的に作用するより専門的で広く用いられるケースについて研究する。 本研究では,データ上で定義される2つの関数間の内積を最大化し,一方,剛体運動リー群の連続作用は対応するリー代数内の流れの積分によって捉えることにより解く。 低次元のケースは,提案手法の汎用性を示す数値的な例から導出される。 ユークリッド空間に作用する特殊ユークリッド群に対する高次元導出は、点雲登録と鳥眼図登録能力を示す。 RGB-Dカメラのためのこのフレームワークの実装は、最先端のロバストなビジュアルオドメトリーより優れ、テクスチャや構造に乏しい環境でよく機能する。

This paper develops a new mathematical framework that enables nonparametric joint semantic and geometric representation of continuous functions using data. The joint embedding is modeled by representing the processes in a reproducing kernel Hilbert space. The functions can be defined on arbitrary smooth manifolds where the action of a Lie group aligns them. The continuous functions allow the registration to be independent of a specific signal resolution. The framework is fully analytical with a closed-form derivation of the Riemannian gradient and Hessian. We study a more specialized but widely used case where the Lie group acts on functions isometrically. We solve the problem by maximizing the inner product between two functions defined over data, while the continuous action of the rigid body motion Lie group is captured through the integration of the flow in the corresponding Lie algebra. Low-dimensional cases are derived with numerical examples to show the generality of the proposed framework. The high-dimensional derivation for the special Euclidean group acting on the Euclidean space showcases the point cloud registration and bird's-eye view map registration abilities. An implementation of this framework for RGB-D cameras outperforms the state-of-the-art robust visual odometry and performs well in texture and structure-scarce environments.
翻訳日:2023-01-13 10:09:36 公開日:2021-10-18
# 文化意識訓練のための対話型シミュレーション

Dialogue-Based Simulation For Cultural Awareness Training ( http://arxiv.org/abs/2002.00223v2 )

ライセンス: Link先を確認
Sodiq Adewole, Erfaneh Gharavi, Benjamin Shpringer, Martin Bolger, Vaibhav Sharma, Sung Ming Yang, Donald E. Brown(参考訳) 文化的および対人的スキルトレーニングのために設計された既存のシミュレーションは、メニューオプション選択インタフェースで事前に定義された応答に依存する。 マルチチョイスインターフェースを使い、練習者の応答を制限することで、実際の状況でレッスンを適用する能力を制限することができる。 このシステムは単純な評価モデルも使用しており、訓練生の選択した選択肢は正しいか間違っているかを示す。 このモデルは、学習者の文化意識を改善するための適応的なフィードバックメカニズムを駆動する十分な情報をキャプチャできない可能性がある。 本稿では,文化認知訓練のための対話型シミュレーションの設計について述べる。 このシミュレーションは、米中合同による災害管理のシナリオを中心に構築された。 訓練生は中国人エージェントと現実的な対話を行うことができた。 応答は、異なる点において、異なるマルチラベル分類モデルによって評価される。 モデルは,我々のデータセットに基づいて,中国文化における文化意識に対する研修生の反応を評価する。 研修生はフィードバックを受け取り、彼らの反応の文化的適切さを知らせる。 この研究の成果は下記のとおりである。 一 対話型訓練シミュレーションシステムの設計、モデル化及び計算を改善する特徴に基づく評価モデル 二 現行自動音声認識(asr)システムからの出力は、手動転写の出力と同等の結果が得られた。 三 文化専門家として訓練された多段分類モデルにおいて、人間の注釈官が割り当てたスコアに匹敵する結果を与えたこと。

Existing simulations designed for cultural and interpersonal skill training rely on pre-defined responses with a menu option selection interface. Using a multiple-choice interface and restricting trainees' responses may limit the trainees' ability to apply the lessons in real life situations. This systems also uses a simplistic evaluation model, where trainees' selected options are marked as either correct or incorrect. This model may not capture sufficient information that could drive an adaptive feedback mechanism to improve trainees' cultural awareness. This paper describes the design of a dialogue-based simulation for cultural awareness training. The simulation, built around a disaster management scenario involving a joint coalition between the US and the Chinese armies. Trainees were able to engage in realistic dialogue with the Chinese agent. Their responses, at different points, get evaluated by different multi-label classification models. Based on training on our dataset, the models score the trainees' responses for cultural awareness in the Chinese culture. Trainees also get feedback that informs the cultural appropriateness of their responses. The result of this work showed the following; i) A feature-based evaluation model improves the design, modeling and computation of dialogue-based training simulation systems; ii) Output from current automatic speech recognition (ASR) systems gave comparable end results compared with the output from manual transcription; iii) A multi-label classification model trained as a cultural expert gave results which were comparable with scores assigned by human annotators.
翻訳日:2023-01-05 01:03:44 公開日:2021-10-18
# 逆損失を伴うCMDPにおける上位信頼度2次元強化学習

Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss ( http://arxiv.org/abs/2003.00660v3 )

ライセンス: Link先を確認
Shuang Qiu, Xiaohan Wei, Zhuoran Yang, Jieping Ye, Zhaoran Wang(参考訳) 本稿では,強化学習の安全性を確保する上で中心的な役割を果たすマルコフ決定過程(CMDP)のオンライン学習について考察する。 ここで、損失関数はエピソード毎に任意に変化し、各エピソードの最後に受信した損失と予算消費の両方を明らかにする。 これまでの研究は、マルコフ決定過程(MDPs)の遷移モデルが先行性として知られ、状態空間 $\mathcal{S}$ と作用空間 $\mathcal{A}$ の濃度に多項式的に依存する後悔境界を確立するという制限的な仮定の下でこの問題を解決する。 本研究では,遷移モデルから標本化した軌跡のみを必要とする,新しい 'emph{upper confidence primal-dual} アルゴリズムを提案する。 特に、提案アルゴリズムが、後悔と制約違反の両方の上限の$\widetilde{\mathcal{o}}(l|\mathcal{s}|\sqrt{|\mathcal{a}|t}) を達成することを証明し、ここで$l$は各エピソードの長さである。 本分析では,ラグランジュ乗算過程の新たな高確率ドリフト解析を,オンライン学習における「不確実性に直面した最適化」の力を実証した,高信頼強化学習の記念後悔分析に取り入れた。

We consider online learning for episodic stochastically constrained Markov decision processes (CMDPs), which plays a central role in ensuring the safety of reinforcement learning. Here the loss function can vary arbitrarily across the episodes, and both the loss received and the budget consumption are revealed at the end of each episode. Previous works solve this problem under the restrictive assumption that the transition model of the Markov decision processes (MDPs) is known a priori and establish regret bounds that depend polynomially on the cardinalities of the state space $\mathcal{S}$ and the action space $\mathcal{A}$. In this work, we propose a new \emph{upper confidence primal-dual} algorithm, which only requires the trajectories sampled from the transition model. In particular, we prove that the proposed algorithm achieves $\widetilde{\mathcal{O}}(L|\mathcal{S}|\sqrt{|\mathcal{A}|T})$ upper bounds of both the regret and the constraint violation, where $L$ is the length of each episode. Our analysis incorporates a new high-probability drift analysis of Lagrange multiplier processes into the celebrated regret analysis of upper confidence reinforcement learning, which demonstrates the power of "optimism in the face of uncertainty" in constrained online learning.
翻訳日:2022-12-27 04:39:23 公開日:2021-10-18
# 潜在空間におけるビジナル分布の定義の利点について

On the benefits of defining vicinal distributions in latent space ( http://arxiv.org/abs/2003.06566v4 )

ライセンス: Link先を確認
Puneet Mangla, Vedant Singh, Shreyas Jayant Havaldar, Vineeth N Balasubramanian(参考訳) ビシナルリスク最小化(VRM)の原則は、ディラック質量をビシナル関数に置き換える経験的リスク最小化(ERM)の亜種である。 適切なビジナル関数が選択された場合、VRMは一般化の観点からEMMより優れていることを示す強い数値的、理論的証拠がある。 ビシナル分布の一般的な選択であるMixup Training (MT)は、トレーニング例間の世界的な線形挙動を導入し、モデルの一般化性能を向上させる。 一般化とは別に、最近の研究では、混合訓練されたモデルが摂動/破壊の入力に対して比較的堅牢であり、同時に非混合モデルよりもキャリブレーションが優れていることが示されている。 本研究では,入力空間そのものではなく,生成モデルの潜在空間におけるミックスアップのようなビビナル分布を定義することの利点について検討する。 データの基礎となる潜在多様体を用いて、ミックスアップ画像をより良くサンプリングするための新しいアプローチである \textit{varmixup (variational mixup)} を提案する。 CIFAR-10, CIFAR-100, Tiny-ImageNet に関する実証研究により, VAE が学習した潜伏多様体の混合により訓練されたモデルは, 本質的に様々な入力の破損/摂動に対してより堅牢であり, 校正精度が著しく向上し, 局所的な損失景観がより顕著であることを示した。

The vicinal risk minimization (VRM) principle is an empirical risk minimization (ERM) variant that replaces Dirac masses with vicinal functions. There is strong numerical and theoretical evidence showing that VRM outperforms ERM in terms of generalization if appropriate vicinal functions are chosen. Mixup Training (MT), a popular choice of vicinal distribution, improves the generalization performance of models by introducing globally linear behavior in between training examples. Apart from generalization, recent works have shown that mixup trained models are relatively robust to input perturbations/corruptions and at the same time are calibrated better than their non-mixup counterparts. In this work, we investigate the benefits of defining these vicinal distributions like mixup in latent space of generative models rather than in input space itself. We propose a new approach - \textit{VarMixup (Variational Mixup)} - to better sample mixup images by using the latent manifold underlying the data. Our empirical studies on CIFAR-10, CIFAR-100, and Tiny-ImageNet demonstrate that models trained by performing mixup in the latent manifold learned by VAEs are inherently more robust to various input corruptions/perturbations, are significantly better calibrated, and exhibit more local-linear loss landscapes.
翻訳日:2022-12-23 19:53:51 公開日:2021-10-18
# Speak2Label: 大規模ドライバゲイズゾーン推定データセット作成にドメイン知識を使用する

Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver Gaze Zone Estimation Dataset ( http://arxiv.org/abs/2004.05973v4 )

ライセンス: Link先を確認
Shreya Ghosh, Abhinav Dhall, Garima Sharma, Sarthak Gupta, Nicu Sebe(参考訳) 人間の行動分析データのラベル付けは複雑で時間のかかる作業である。 本稿では,運転者視線ゾーン推定のための画像ベース視線行動データセットをラベル付けする完全自動手法を提案する。 データ記録パラダイムにドメイン知識を追加し、後に音声からテキストへの変換(stt)を使用してラベルを自動生成する。 我々のデータにおける被写体の照明や民族性の違いによるSTTプロセスのノイズを除去するために、音声周波数とエネルギーを解析する。 結果として得られたDGWデータセットには、夕方を含む1日の異なる時間に撮影された586の録音が含まれている。 大規模データセットには18-63歳の338人の被験者が含まれている。 異なる照明条件でデータを記録することにより、畳み込みニューラルネットワーク(cnn)において照明ロバスト層が提案される。 実験により,実環境に類似したデータセットの分散と,提案したCNNパイプラインの有効性が示された。 また、提案したDGWデータセット上で、我々のネットワークが学習した表現の識別性を示す目視予測タスクについても微調整を行う。 プロジェクトページ: https://sites.google.com/view/drivergazeprediction/home

Labelling of human behavior analysis data is a complex and time consuming task. In this paper, a fully automatic technique for labelling an image based gaze behavior dataset for driver gaze zone estimation is proposed. Domain knowledge is added to the data recording paradigm and later labels are generated in an automatic manner using Speech To Text conversion (STT). In order to remove the noise in the STT process due to different illumination and ethnicity of subjects in our data, the speech frequency and energy are analysed. The resultant Driver Gaze in the Wild (DGW) dataset contains 586 recordings, captured during different times of the day including evenings. The large scale dataset contains 338 subjects with an age range of 18-63 years. As the data is recorded in different lighting conditions, an illumination robust layer is proposed in the Convolutional Neural Network (CNN). The extensive experiments show the variance in the dataset resembling real-world conditions and the effectiveness of the proposed CNN pipeline. The proposed network is also fine-tuned for the eye gaze prediction task, which shows the discriminativeness of the representation learnt by our network on the proposed DGW dataset. Project Page: https://sites.google.com/view/drivergazeprediction/home
翻訳日:2022-12-14 00:10:09 公開日:2021-10-18
# 個性の創発

The Emergence of Individuality ( http://arxiv.org/abs/2006.05842v2 )

ライセンス: Link先を確認
Jiechuan Jiang and Zongqing Lu(参考訳) 個人性は、労働の分裂を誘発し、効率と生産性を向上させる人間社会において不可欠である。 同様に、マルチエージェント協調の鍵でもあるべきです。 個人性が他者とは別個であることに着想を得て,マルチエージェント強化学習(MARL)における個人性(EOI)の出現の簡易かつ効率的な方法を提案する。 EOIは、観察されたエージェントの確率分布を予測する確率的分類器を学習し、各エージェントが正しく分類器によって予測されるという本質的な報酬を与える。 内因性報酬は、エージェントが慣れ親しんだ観察を訪問することを奨励し、そのような観察によって分類器を学習することで、内因性報酬のシグナルが強くなり、エージェントがより識別しやすくなる。 内在的な報酬をさらに増やし、個性の発生を促進するために、2つの正規化剤が提案され、分類器の識別性が向上する。 一般的なMARLアルゴリズム上にEOIを実装した。 実験により、EOIは、様々なマルチエージェント協調シナリオにおいて、既存の手法を著しく上回ることを示す。

Individuality is essential in human society, which induces the division of labor and thus improves the efficiency and productivity. Similarly, it should also be the key to multi-agent cooperation. Inspired by that individuality is of being an individual separate from others, we propose a simple yet efficient method for the emergence of individuality (EOI) in multi-agent reinforcement learning (MARL). EOI learns a probabilistic classifier that predicts a probability distribution over agents given their observation and gives each agent an intrinsic reward of being correctly predicted by the classifier. The intrinsic reward encourages the agents to visit their own familiar observations, and learning the classifier by such observations makes the intrinsic reward signals stronger and the agents more identifiable. To further enhance the intrinsic reward and promote the emergence of individuality, two regularizers are proposed to increase the discriminability of the classifier. We implement EOI on top of popular MARL algorithms. Empirically, we show that EOI significantly outperforms existing methods in a variety of multi-agent cooperative scenarios.
翻訳日:2022-11-23 04:02:29 公開日:2021-10-18
# 特徴分布間の最適移動に基づくテクスチャ合成のための生成モデル

A Generative Model for Texture Synthesis based on Optimal Transport between Feature Distributions ( http://arxiv.org/abs/2007.03408v2 )

ライセンス: Link先を確認
Antoine Houdard and Arthur Leclaire and Nicolas Papadakis and Julien Rabin(参考訳) 局所特徴量の統計分布を制限する最適化によるテクスチャ合成のための汎用フレームワークであるGOTEXを提案する。 本モデルは既存のテクスチャモデルを含むが,特徴分布の比較が最適輸送距離に依存する場合に焦点を当てる。 これらの特徴が高次元空間に存在しても, 最適輸送の半二重定式化により, 様々な特徴の分布を制御できることを示す。 次に, 内凹最大化問題を標準確率勾配法で解くことのできるwasserstein生成モデルに対応するミニマックス最適化問題について検討した。 代替最適化アルゴリズムは、アプリケーション、特徴、アーキテクチャの観点から多用途であることが示されており、特に、異なる特徴セットを持つ高品質な合成テクスチャを作成できる。 我々は、事前に学習したVGGニューラルネットワークに対するパッチの分布や応答の分布を制限した結果を分析する。 パッチ表現は、より正確な方法で所望のテクスチャアスペクトを検索可能であることを示す。 また,最先端テクスチャ合成法との比較を行った。 パッチ特徴に基づくGOTEXモデルは、テクスチャインペイントやテクスチャ補間にも適応する。 最後に,我々のフレームワークを用いてフィードフォワードニューラルネットワークを学習し,任意の大きさの新しいテクスチャを非常に高速に合成する方法を示す。 実験結果と本論文の主流手法との比較により, GOTEXで学習した生成モデルとの関連が示された。

We propose GOTEX, a general framework for texture synthesis by optimization that constrains the statistical distribution of local features. While our model encompasses several existing texture models, we focus on the case where the comparison between feature distributions relies on optimal transport distances. We show that the semi-dual formulation of optimal transport allows to control the distribution of various possible features, even if these features live in a high-dimensional space. We then study the resulting minimax optimization problem, which corresponds to a Wasserstein generative model, for which the inner concave maximization problem can be solved with standard stochastic gradient methods. The alternate optimization algorithm is shown to be versatile in terms of applications, features and architecture; in particular it allows to produce high-quality synthesized textures with different sets of features. We analyze the results obtained by constraining the distribution of patches or the distribution of responses to a pre-learned VGG neural network. We show that the patch representation can retrieve the desired textural aspect in a more precise manner. We also provide a detailed comparison with state-of-the-art texture synthesis methods. The GOTEX model based on patch features is also adapted to texture inpainting and texture interpolation. Finally, we show how to use our framework to learn a feed-forward neural network that can synthesize on-the-fly new textures of arbitrary size in a very fast manner. Experimental results and comparisons with the mainstream methods from the literature illustrate the relevance of the generative models learned with GOTEX.
翻訳日:2022-11-19 03:29:42 公開日:2021-10-18
# 連合学習のための効率的なスパースセキュアアグリゲーション

Efficient Sparse Secure Aggregation for Federated Learning ( http://arxiv.org/abs/2007.14861v3 )

ライセンス: Link先を確認
Constance Beguier and Mathieu Andreux and Eric W. Tramel(参考訳) 連合学習は、センシティブなデータセットを持つ分散クライアント間で、機械学習モデルを共同でトレーニングすることを可能にする。 現実の環境では、このアプローチは高価なコミュニケーションとプライバシーの懸念によって妨げられている。 これらの課題はどちらもすでに個別に対処されており、結果として競合する最適化が実現している。 この記事では、それらを1回ずつ同時に取り組む。 より正確には、圧縮ベースのフェデレーション技術にシークレット共有を追加し、効率的なセキュアアグリゲーションプロトコルに適応可能なセキュリティレベルを与えます。 我々は、悪意のある敵に対するプライバシーと、その正しさを半正統な設定で証明する。 深層畳み込みネットワークの実験により、セキュアなプロトコルが通信コストの低い精度で達成できることが実証された。 セキュアアグリゲーションに関する以前の作業と比較すると,プロトコルの通信コストと計算コストは同等の精度で低い。

Federated Learning enables one to jointly train a machine learning model across distributed clients holding sensitive datasets. In real-world settings, this approach is hindered by expensive communication and privacy concerns. Both of these challenges have already been addressed individually, resulting in competing optimisations. In this article, we tackle them simultaneously for one of the first times. More precisely, we adapt compression-based federated techniques to additive secret sharing, leading to an efficient secure aggregation protocol, with an adaptable security level. We prove its privacy against malicious adversaries and its correctness in the semi-honest setting. Experiments on deep convolutional networks demonstrate that our secure protocol achieves high accuracy with low communication costs. Compared to prior works on secure aggregation, our protocol has a lower communication and computation costs for a similar accuracy.
翻訳日:2022-11-05 20:00:31 公開日:2021-10-18
# AIシステムの不完全知識による否定的副作用の回避

Avoiding Negative Side Effects due to Incomplete Knowledge of AI Systems ( http://arxiv.org/abs/2008.12146v3 )

ライセンス: Link先を確認
Sandhya Saisubramanian and Shlomo Zilberstein and Ece Kamar(参考訳) 現実世界で行動する自律エージェントは、しばしば環境の特定の側面を無視するモデルに基づいて動作します。 複雑な現実世界の設定のためのモデリングテクニックの実践的な制限のため、任意のモデル(手作りまたはマシンが取得した)の不完全性は避けられない。 そのモデルの忠実さが限られているため、エージェントのアクションは実行中に予期せぬ、望ましくない結果をもたらす可能性がある。 エージェントの行動によるこのようなネガティブな副作用を認識し回避する学習は、自律システムの安全性と信頼性を向上させるために不可欠である。 ネガティブな副作用の軽減は、aiシステムのデプロイの急速な成長と、その広範な社会的影響によって、注目を集めている新たな研究テーマである。 本稿は、様々な形態の負の副作用と、それらに対処する最近の研究成果について概説する。 否定的な副作用の重要な特徴を特定し,否定的な副作用を避けるための課題を強調し,その利点と限界を対比して最近開発されたアプローチについて議論する。 この記事は、今後の研究方向性に関するオープン質問と提案に関する議論で締めくくられている。

Autonomous agents acting in the real-world often operate based on models that ignore certain aspects of the environment. The incompleteness of any given model -- handcrafted or machine acquired -- is inevitable due to practical limitations of any modeling technique for complex real-world settings. Due to the limited fidelity of its model, an agent's actions may have unexpected, undesirable consequences during execution. Learning to recognize and avoid such negative side effects of an agent's actions is critical to improve the safety and reliability of autonomous systems. Mitigating negative side effects is an emerging research topic that is attracting increased attention due to the rapid growth in the deployment of AI systems and their broad societal impacts. This article provides a comprehensive overview of different forms of negative side effects and the recent research efforts to address them. We identify key characteristics of negative side effects, highlight the challenges in avoiding negative side effects, and discuss recently developed approaches, contrasting their benefits and limitations. The article concludes with a discussion of open questions and suggestions for future research directions.
翻訳日:2022-10-25 12:27:22 公開日:2021-10-18
# 単調確率一般化方程式に対する変分解法

Variance-Reduced Splitting Schemes for Monotone Stochastic Generalized Equations ( http://arxiv.org/abs/2008.11348v4 )

ライセンス: Link先を確認
Shisheng Cui and Uday V. Shanbhag(参考訳) 我々は、演算子を期待値にすることができる単調な包摂問題、凸確率最適化問題を仮定する問題のクラス、および確率変動不等式と平衡問題のサブクラスを考える。 分割スキームの直接適用は,各ステップにおける期待値マップによる問題解決の必要性により複雑である。 そこで本研究では,不確実性に対処する手法を提案する。 可変再生確率修正前方分割方式(vr-SMFBS)。 制約された設定では、地図を予測値のマップAと、トラクタブルリゾルダー付き最大モノトーンマップBに分解できる構造化された設定を考える。 提案手法は, 最適オラクル複雑性境界を達成しつつ, A.s. convergence guarantees, linear (strongly monotone A) and O(1/k) rate of convergence (monotone A) を備えることを示す。 モノトーン系におけるレートステートメントは最初のものとなり、モノトーン包含物にフィッツパトリックギャップ関数を活用することに依拠している。 さらに、このスキームはノイズに対するより弱いモーメント要件に依存しており、強いモノトーン状態においてオラクルに対する偏りのない要求を弱めることができる。 2段階確率的変分不等式問題のクラスに関する予備数値はこれらの知見を反映し、分散還元されたスキームが確率的近似スキームと平均平均近似アプローチより優れていることを示す。 決定論的収束率を達成することの利点は、解法計算が高価であるときにさらに有益になる。

We consider monotone inclusion problems where the operators may be expectation-valued, a class of problems that subsumes convex stochastic optimization problems as well as subclasses of stochastic variational inequality and equilibrium problems. A direct application of splitting schemes is complicated by the need to resolve problems with expectation-valued maps at each step, a concern that is addressed by using sampling. Accordingly, we propose an avenue for addressing uncertainty in the mapping: Variance-reduced stochastic modified forward-backward splitting scheme (vr-SMFBS). In constrained settings, we consider structured settings when the map can be decomposed into an expectation-valued map A and a maximal monotone map B with a tractable resolvent. We show that the proposed schemes are equipped with a.s. convergence guarantees, linear (strongly monotone A) and O(1/k) (monotone A) rates of convergence while achieving optimal oracle complexity bounds. The rate statements in monotone regimes appear to be amongst the first and rely on leveraging the Fitzpatrick gap function for monotone inclusions. Furthermore, the schemes rely on weaker moment requirements on noise and allow for weakening unbiasedness requirements on oracles in strongly monotone regimes. Preliminary numerics on a class of two-stage stochastic variational inequality problems reflect these findings and show that the variance-reduced schemes outperform stochastic approximation schemes and sample-average approximation approaches. The benefits of attaining deterministic rates of convergence become even more salient when resolvent computation is expensive.
翻訳日:2022-10-24 22:24:25 公開日:2021-10-18
# シェープレット変換を用いた橋梁構造モニタリングのためのデータ異常検出

Data Anomaly Detection for Structural Health Monitoring of Bridges using Shapelet Transform ( http://arxiv.org/abs/2009.00470v2 )

ライセンス: Link先を確認
Monica Arul and Ahsan Kareem(参考訳) センサー技術の普及に伴い、多くの構造健康モニタリング(SHM)システムが民間インフラを監視するためにデプロイされている。 継続的監視は、再構成やその他の構造変更のための意思決定支援システムを提供するのに役立つ構造に関する貴重な情報を提供する。 しかし、センサが厳しい環境条件にさらされると、SHMシステムによって測定されたデータは、故障や故障による複数の異常によって影響を受ける傾向にある。 時間とともに収集される大量の高次元データを考えると、異常を検出する機械学習手法を用いた研究はSHMコミュニティにとって大きな関心を集めている。 本稿では,比較的新しい時系列表現であるShapelet TransformとRandom Forest分類器を組み合わせることで,SHMデータの異常を自律的に識別する手法を提案する。 シェープレット変換は、時系列データの形状のみに基づく独自の時系列表現である。 各異常に特有の個々の特性を考慮して、この変換の適用により、任意の標準的な機械学習アルゴリズムと組み合わせて、手作業による介入なしに異常データを検出することができる、新しい形状に基づく特徴表現が得られる。 本研究では, 異常データからユニークな形状を識別し, これらの形状を用いて, SHMデータを局所的な形状空間に変換し, この変換されたデータに基づいて機械学習アルゴリズムを訓練し, 異常を識別する3つのステップからなる。 本手法の有効性は,中国の長大橋に設置したSHMシステムによる加速度データ中の異常の同定によって実証された。 その結果,SHMデータにおける複数のデータ異常を自動的に高精度に検出できることが示唆された。

With the wider availability of sensor technology, a number of Structural Health Monitoring (SHM) systems are deployed to monitor civil infrastructure. The continuous monitoring provides valuable information about the structure that can help in providing a decision support system for retrofits and other structural modifications. However, when the sensors are exposed to harsh environmental conditions, the data measured by the SHM systems tend to be affected by multiple anomalies caused by faulty or broken sensors. Given a deluge of high-dimensional data collected continuously over time, research into using machine learning methods to detect anomalies are a topic of great interest to the SHM community. This paper contributes to this effort by proposing the use of a relatively new time series representation named Shapelet Transform in combination with a Random Forest classifier to autonomously identify anomalies in SHM data. The shapelet transform is a unique time series representation that is solely based on the shape of the time series data. In consideration of the individual characteristics unique to every anomaly, the application of this transform yields a new shape-based feature representation that can be combined with any standard machine learning algorithm to detect anomalous data with no manual intervention. For the present study, the anomaly detection framework consists of three steps: identifying unique shapes from anomalous data, using these shapes to transform the SHM data into a local-shape space and training machine learning algorithm on this transformed data to identify anomalies. The efficacy of this method is demonstrated by the identification of anomalies in acceleration data from a SHM system installed on a long-span bridge in China. The results show that multiple data anomalies in SHM data can be automatically detected with high accuracy using the proposed method.
翻訳日:2022-10-23 07:46:10 公開日:2021-10-18
# VeRNAl:ファジィ塩基対ネットワークモチーフのためのRNAのマイニング

VeRNAl: Mining RNA Structures for Fuzzy Base Pairing Network Motifs ( http://arxiv.org/abs/2009.00664v3 )

ライセンス: Link先を確認
Carlos Oliver, Vincent Mallet, Pericles Philippopoulos, William L. Hamilton, Jerome Waldispuhl(参考訳) RNA 3Dモチーフは、構造と機能の関係を理解する上で重要な塩基対相互作用のネットワークとしてモデル化された、反復的なサブ構造である。 このようなモチーフを自動同定する作業は計算的に困難であり、RNAの構造生物学とネットワーク解析の分野で重要な課題である。 モチーフの発生時の構造的変動を制限し、サブ構造探索空間を狭めることにより、モチーフ問題の特殊なケースを解決する。 本稿では,モチーフ発見問題をグラフ表現学習およびクラスタリングタスクとして構成することにより,これらの制約を緩和する。 このフレーミングはグラフ表現の連続的な性質を利用して、RNAモチーフの柔軟性と可変性を効率的にモデル化する。 本稿では, 柔軟なRNAモチーフを復元するためのノード類似関数, クラスタリング手法, モチーフ構築アルゴリズムを提案する。 当社のツールであるVeRNAlは,ユーザが望むモチーフの柔軟性,充実度,サイズをカスタマイズできる。 本稿では,VeRNAlが既知のモチーフのクラスを検索・拡張し,新しいモチーフを提案する。

RNA 3D motifs are recurrent substructures, modelled as networks of base pair interactions, which are crucial for understanding structure-function relationships. The task of automatically identifying such motifs is computationally hard, and remains a key challenge in the field of RNA structural biology and network analysis. State of the art methods solve special cases of the motif problem by constraining the structural variability in occurrences of a motif, and narrowing the substructure search space. Here, we relax these constraints by posing the motif finding problem as a graph representation learning and clustering task. This framing takes advantage of the continuous nature of graph representations to model the flexibility and variability of RNA motifs in an efficient manner. We propose a set of node similarity functions, clustering methods, and motif construction algorithms to recover flexible RNA motifs. Our tool, VeRNAl can be easily customized by users to desired levels of motif flexibility, abundance and size. We show that VeRNAl is able to retrieve and expand known classes of motifs, as well as to propose novel motifs.
翻訳日:2022-10-23 02:02:31 公開日:2021-10-18
# OnsagerNet: 一般化したOnsager原則による安定性と解釈可能なダイナミクスの学習

OnsagerNet: Learning Stable and Interpretable Dynamics using a Generalized Onsager Principle ( http://arxiv.org/abs/2009.02327v3 )

ライセンス: Link先を確認
Haijun Yu, Xinyuan Tian, Weinan E and Qianxiao Li(参考訳) 一般化オンザガー原理に基づく物理過程からのサンプル軌道データを用いて,安定かつ物理的に解釈可能な力学モデルを学ぶための体系的手法を提案する。 学習力学は、自由エネルギー、拡散、保守運動、外力などの明確な物理構造情報を保持するニューラルネットワークによってパラメータ化される自律常微分方程式である。 低次元のスロー多様体を持つ高次元問題に対して、距離保存正規化を持つオートエンコーダを導入し、一般化されたオンサーガーダイナミクスを学ぶ低次元一般化座標を求める。 本手法は,通常の微分方程式を学習するためのベンチマーク問題に対して,既存の手法よりも明確な利点を示す。 この手法をレイリー・ベナード対流の研究に応用し、基礎となる力学の質的および定量的性質を捉えるローレンツ様低次元自律還元秩序モデルを学ぶ。 これは、強制散逸系のための減数次モデルを構築する一般的なアプローチを形成する。

We propose a systematic method for learning stable and physically interpretable dynamical models using sampled trajectory data from physical processes based on a generalized Onsager principle. The learned dynamics are autonomous ordinary differential equations parameterized by neural networks that retain clear physical structure information, such as free energy, diffusion, conservative motion and external forces. For high dimensional problems with a low dimensional slow manifold, an autoencoder with metric preserving regularization is introduced to find the low dimensional generalized coordinates on which we learn the generalized Onsager dynamics. Our method exhibits clear advantages over existing methods on benchmark problems for learning ordinary differential equations. We further apply this method to study Rayleigh-Benard convection and learn Lorenz-like low dimensional autonomous reduced order models that capture both qualitative and quantitative properties of the underlying dynamics. This forms a general approach to building reduced order models for forced dissipative systems.
翻訳日:2022-10-21 08:38:28 公開日:2021-10-18
# 論理知識を用いたニューラルネットワークの強化

Neural Networks Enhancement with Logical Knowledge ( http://arxiv.org/abs/2009.06087v2 )

ライセンス: Link先を確認
Alessandro Daniele, Luciano Serafini(参考訳) 近年、ニューラル・シンボリック統合フレームワーク、すなわち接続主義とシンボリックなアプローチを統合して両世界のベストを得るハイブリッドシステムへの関心が高まっている。 前回の研究では、ニューラルネットワークに事前の論理知識を注入するニューラルシンボリックアーキテクチャであるkenn(knowledge enhanced neural networks)を提案した。 この戦略の利点の1つは、節の重み、節の強さを表す学習可能なパラメータ、すなわちモデルが各節の最終的な予測への影響を学習できることである。 特別な場合として、トレーニングデータが制約に矛盾する場合、KENNはそれを無視することを学び、システムが間違った知識の存在に対して堅牢になる。 本稿では,関係データに対するKENNの拡張を提案する。 この新しい拡張を評価するために、私たちは、集合的分類のための標準データセットであるciteseer上で、異なる学習構成でテストしました。 その結果、kennは存在関係データにおいても基盤となるニューラルネットワークのパフォーマンスを向上させることができ、学習と論理を組み合わせる他の2つの注目すべき方法よりも優れていることがわかった。

In the recent past, there has been a growing interest in Neural-Symbolic Integration frameworks, i.e., hybrid systems that integrate connectionist and symbolic approaches to obtain the best of both worlds. In a previous work, we proposed KENN (Knowledge Enhanced Neural Networks), a Neural-Symbolic architecture that injects prior logical knowledge into a neural network by adding a new final layer which modifies the initial predictions accordingly to the knowledge. Among the advantages of this strategy, there is the inclusion of clause weights, learnable parameters that represent the strength of the clauses, meaning that the model can learn the impact of each clause on the final predictions. As a special case, if the training data contradicts a constraint, KENN learns to ignore it, making the system robust to the presence of wrong knowledge. In this paper, we propose an extension of KENN for relational data. To evaluate this new extension, we tested it with different learning configurations on Citeseer, a standard dataset for Collective Classification. The results show that KENN is capable of increasing the performances of the underlying neural network even in the presence relational data, outperforming other two notable methods that combine learning with logic.
翻訳日:2022-10-19 02:33:41 公開日:2021-10-18
# 分割3D CNN: 効率的なオンラインビデオ処理のための時間的スキップ接続

Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video Processing ( http://arxiv.org/abs/2009.14639v2 )

ライセンス: Link先を確認
Okan K\"op\"ukl\"u, Stefan H\"ormann, Fabian Herzog, Hakan Cevikalp, Gerhard Rigoll(参考訳) 3dカーネル(3d-cnns)を備えた畳み込みニューラルネットワークは、現在、ビデオフレーム内の時空間的特徴抽出の優位性から、ビデオ認識タスクにおける最先端の成果を達成している。 最先端の成果を次々に上回る3d-cnnアーキテクチャが成功している。 しかし、そのほとんどがオフラインで動作し、オンライン操作中にいくつかの深刻な障害を発生させるように設計されている。 まず、従来の3d-cnnは、その出力特性がクリップの最新のフレームではなく完全な入力クリップを表しているため、動的ではない。 第二に、それらは時間分解能保存ではない。 最後に、3D-CNNは、その柔軟性を制限する固定時間入力サイズで使用されるように制約されている。 これらの欠点に対処するために,ネットワークの中間ボリュームを分割し,将来の計算のために深さ(時間)次元に伝播させる3d-cnnsを提案する。 アクション分類では、ResNetモデルの分離バージョンでは、オンライン操作時の計算量が77-90%少なくなり、従来の3D-ResNetモデルよりもキネティクス600データセットの分類精度が約5%向上した。 さらに,複数の視覚タスクにアプローチをデプロイすることで,分解した3D-CNNの利点を実証した。

Convolutional Neural Networks with 3D kernels (3D-CNNs) currently achieve state-of-the-art results in video recognition tasks due to their supremacy in extracting spatiotemporal features within video frames. There have been many successful 3D-CNN architectures surpassing the state-of-the-art results successively. However, nearly all of them are designed to operate offline creating several serious handicaps during online operation. Firstly, conventional 3D-CNNs are not dynamic since their output features represent the complete input clip instead of the most recent frame in the clip. Secondly, they are not temporal resolution-preserving due to their inherent temporal downsampling. Lastly, 3D-CNNs are constrained to be used with fixed temporal input size limiting their flexibility. In order to address these drawbacks, we propose dissected 3D-CNNs, where the intermediate volumes of the network are dissected and propagated over depth (time) dimension for future calculations, substantially reducing the number of computations at online operation. For action classification, the dissected version of ResNet models performs 77-90% fewer computations at online operation while achieving ~5% better classification accuracy on the Kinetics-600 dataset than conventional 3D-ResNet models. Moreover, the advantages of dissected 3D-CNNs are demonstrated by deploying our approach onto several vision tasks, which consistently improved the performance.
翻訳日:2022-10-12 23:18:52 公開日:2021-10-18
# 修正点更新を伴うオンライン変分ベイを用いたタスク非依存連続学習

Task Agnostic Continual Learning Using Online Variational Bayes with Fixed-Point Updates ( http://arxiv.org/abs/2010.00373v2 )

ライセンス: Link先を確認
Chen Zeno, Itay Golan, Elad Hoffer and Daniel Soudry(参考訳) 背景: 破滅的な忘れは、学習中のデータ分布の変化に対するニューラルネットワークの悪名高い脆弱性である。 この現象は、現実の連続学習環境で学習エージェントを使用するための大きな障害であると考えられてきた。 継続的な学習研究の大きな団体は、トレーニング中にタスク境界が知られていると仮定している。 しかし、タスク境界が未知である、あるいは明確に定義されていない、タスク非依存のシナリオを考える作業はごくわずかである。 これに対する最適ベイズ解は、重み付け後部への難解なオンラインベイズ更新を必要とする。 コントリビューション:オンラインベイズのアップデートをできるだけ正確に近似することを目指しています。 そこで,多変量ガウスパラメトリック分布に対するオンライン変分ベイズ最適化問題に対する新しい不動点方程式を導出する。 これらの不動点方程式を反復することにより、固定されたアーキテクチャを用いて、外部メモリ(例えば、以前のデータにアクセスせずに)を使わずに、非定常データ分散を処理できる連続学習のためのアルゴリズム(FOO-VB)を得る。 提案手法(FOO-VB)はタスク非依存のシナリオにおいて既存の手法よりも優れていることを示す。 FOO-VB Pytorchの実装はオンラインで利用可能である。

Background: Catastrophic forgetting is the notorious vulnerability of neural networks to the changes in the data distribution during learning. This phenomenon has long been considered a major obstacle for using learning agents in realistic continual learning settings. A large body of continual learning research assumes that task boundaries are known during training. However, only a few works consider scenarios in which task boundaries are unknown or not well defined -- task agnostic scenarios. The optimal Bayesian solution for this requires an intractable online Bayes update to the weights posterior. Contributions: We aim to approximate the online Bayes update as accurately as possible. To do so, we derive novel fixed-point equations for the online variational Bayes optimization problem, for multivariate Gaussian parametric distributions. By iterating the posterior through these fixed-point equations, we obtain an algorithm (FOO-VB) for continual learning which can handle non-stationary data distribution using a fixed architecture and without using external memory (i.e. without access to previous data). We demonstrate that our method (FOO-VB) outperforms existing methods in task agnostic scenarios. FOO-VB Pytorch implementation will be available online.
翻訳日:2022-10-12 07:27:03 公開日:2021-10-18
# グラフ信号のデノイングとしてのグラフニューラルネットワーク

A Unified View on Graph Neural Networks as Graph Signal Denoising ( http://arxiv.org/abs/2010.01777v2 )

ライセンス: Link先を確認
Yao Ma, Xiaorui Liu, Tong Zhao, Yozen Liu, Jiliang Tang, Neil Shah(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データの学習表現において優位に立った。 単一のGNN層は通常、機能変換と機能集約操作で構成される。 前者は通常、フィードフォワードネットワークを使用して特徴を変換し、後者は変換された特徴をグラフ上に集約する。 最近の多くの研究で、集約操作において異なる設計のGNNモデルが提案されている。 本研究では,gcn,gat,ppnp,appnpを含む代表的なgnnモデル群における凝集過程を,滑らかな仮定でグラフの分別問題を解く(ほぼ)問題と見なすことができることを数学的に確立する。 このような統合されたビューは、さまざまな集約操作を理解するための新しい視点を提供するだけでなく、統一的なグラフニューラルネットワークフレームワークUGNNの開発も可能にします。 その可能性を示すために,UGNNから派生した新しいGNNモデルADA-UGNNをインスタンス化し,ノード間の適応スムーズなグラフを処理する。 包括的な実験はADA-UGNNの有効性を示す。

Graph Neural Networks (GNNs) have risen to prominence in learning representations for graph structured data. A single GNN layer typically consists of a feature transformation and a feature aggregation operation. The former normally uses feed-forward networks to transform features, while the latter aggregates the transformed features over the graph. Numerous recent works have proposed GNN models with different designs in the aggregation operation. In this work, we establish mathematically that the aggregation processes in a group of representative GNN models including GCN, GAT, PPNP, and APPNP can be regarded as (approximately) solving a graph denoising problem with a smoothness assumption. Such a unified view across GNNs not only provides a new perspective to understand a variety of aggregation operations but also enables us to develop a unified graph neural network framework UGNN. To demonstrate its promising potential, we instantiate a novel GNN model, ADA-UGNN, derived from UGNN, to handle graphs with adaptive smoothness across nodes. Comprehensive experiments show the effectiveness of ADA-UGNN.
翻訳日:2022-10-10 20:40:23 公開日:2021-10-18
# 時系列因果発見のための神経添加ベクター自己回帰モデル

Neural Additive Vector Autoregression Models for Causal Discovery in Time Series ( http://arxiv.org/abs/2010.09429v2 )

ライセンス: Link先を確認
Bart Bussmann, Jannes Nys, Steven Latr\'e(参考訳) 複雑な力学系における因果構造発見は多くの科学的領域において重要な課題である。 通常、(インターベンショナルな)実験のデータは限られているが、多くの観測時系列データセットが利用可能である。 時系列から因果構造を学ぶ現在の方法は、しばしば線形関係を仮定する。 したがって、変数間の非線形関係を含む現実的な設定では失敗する可能性がある。 非線形関係を発見できる因果構造学習のためのニューラルネットワークであるニューラル加算ベクトル自己回帰(NAVAR)モデルを提案する。 多変量時系列の時間発展から(付加的な)グランガー因果的影響を抽出するディープニューラルネットワークを訓練する。 本手法は、因果関係の明確な解釈を提供しながら、因果探索のための様々なベンチマークデータセットの最先端結果を実現する。

Causal structure discovery in complex dynamical systems is an important challenge for many scientific domains. Although data from (interventional) experiments is usually limited, large amounts of observational time series data sets are usually available. Current methods that learn causal structure from time series often assume linear relationships. Hence, they may fail in realistic settings that contain nonlinear relations between the variables. We propose Neural Additive Vector Autoregression (NAVAR) models, a neural approach to causal structure learning that can discover nonlinear relationships. We train deep neural networks that extract the (additive) Granger causal influences from the time evolution in multi-variate time series. The method achieves state-of-the-art results on various benchmark data sets for causal discovery, while providing clear interpretations of the mapped causal relations.
翻訳日:2022-10-05 22:34:20 公開日:2021-10-18
# SigNet: 無線信号分類のための新しいディープラーニングフレームワーク

SigNet: A Novel Deep Learning Framework for Radio Signal Classification ( http://arxiv.org/abs/2011.03525v2 )

ライセンス: Link先を確認
Zhuangzhi Chen, Hui Cui, Jingyang Xiang, Kunfeng Qiu, Liang Huang, Shilian Zheng, Shichuan Chen, Qi Xuan and Xiaoniu Yang(参考訳) 深層学習は特徴抽出能力とエンドツーエンドの学習機構によって多くの分野で大きな成功を収めており、近年では無線信号変調分類にも導入されている。 本稿では,signetと呼ばれる新しい深層学習フレームワークを提案する。s2m(signal-to-matrix)オペレータを用いて,まず最初の信号を正方形行列に変換する。 このモデルは1D畳み込み演算子を統合することでさらに加速され、SigNet2.0がアップグレードされた。 2つの信号データセットのシミュレーションは、signetとsignet2.0が多くのよく知られたベースラインを上回っていることを示している。 より興味深いことに、提案するモデルは、小さなトレーニングデータセットのみを提供する場合、小さなサンプル学習で非常によく振る舞う。 1\%のトレーニングデータが保持されている場合でも、比較的高い精度を達成できるが、データセットが小さくなれば、他のベースラインモデルの方がずっと早く効果を失う可能性がある。 このような結果から,ラベル付き信号データを得るのが困難な状況において,SigNet/SigNet2.0は極めて有用であることが示唆された。 モデルの出力特性の可視化により,我々のモデルが特徴超空間内で異なる変調種類の信号を分割できることが示される。

Deep learning methods achieve great success in many areas due to their powerful feature extraction capabilities and end-to-end training mechanism, and recently they are also introduced for radio signal modulation classification. In this paper, we propose a novel deep learning framework called SigNet, where a signal-to-matrix (S2M) operator is adopted to convert the original signal into a square matrix first and is co-trained with a follow-up CNN architecture for classification. This model is further accelerated by integrating 1D convolution operators, leading to the upgraded model SigNet2.0. The simulations on two signal datasets show that both SigNet and SigNet2.0 outperform a number of well-known baselines. More interestingly, our proposed models behave extremely well in small-sample learning when only a small training dataset is provided. They can achieve a relatively high accuracy even when 1\% training data are kept, while other baseline models may lose their effectiveness much more quickly as the datasets get smaller. Such result suggests that SigNet/SigNet2.0 could be extremely useful in the situations where labeled signal data are difficult to obtain. The visualization of the output features of our models demonstrates that our model can well divide different modulation types of signals in the feature hyper-space.
翻訳日:2022-10-02 06:33:30 公開日:2021-10-18
# 特性評価から効率的なクエリーを用いた分子の最適化

Optimizing Molecules using Efficient Queries from Property Evaluations ( http://arxiv.org/abs/2011.01921v2 )

ライセンス: Link先を確認
Samuel Hoffman, Vijil Chenthamarakshan, Kahini Wadhawan, Pin-Yu Chen, Payel Das(参考訳) 機械学習に基づく手法は、より望ましい特性を持つ既存の分子を最適化する可能性を示しており、新しい化学発見を加速するための重要なステップである。 本稿では,分子オートエンコーダからの潜伏埋め込みを利用した汎用クエリに基づく分子最適化フレームワークQMOを提案する。 QMOは、分子特性予測と評価指標のセットによって導かれる効率的なクエリに基づいて、入力分子の所望の特性を改善する。 類似性制約下での薬物類似性や溶解性のために小さな有機分子を最適化するベンチマークタスクにおいて,qmoは既存の手法を上回っている。 また、実世界の発見問題においても重要な2つの新しい課題に対して、QMOを用いた重要な特性改善を示す。 一 既存のSARS-CoV-2メインプロテアーゼ阻害剤の高結合親和性への最適化及び (ii)毒性低下に対する既知の抗菌ペプチドの改善。 QMOの結果は外部の検証と高い整合性を示し、設計制約による材料最適化問題を解決する効果的な方法を提案する。

Machine learning based methods have shown potential for optimizing existing molecules with more desirable properties, a critical step towards accelerating new chemical discovery. Here we propose QMO, a generic query-based molecule optimization framework that exploits latent embeddings from a molecule autoencoder. QMO improves the desired properties of an input molecule based on efficient queries, guided by a set of molecular property predictions and evaluation metrics. We show that QMO outperforms existing methods in the benchmark tasks of optimizing small organic molecules for drug-likeness and solubility under similarity constraints. We also demonstrate significant property improvement using QMO on two new and challenging tasks that are also important in real-world discovery problems: (i) optimizing existing potential SARS-CoV-2 Main Protease inhibitors toward higher binding affinity; and (ii) improving known antimicrobial peptides towards lower toxicity. Results from QMO show high consistency with external validations, suggesting effective means to facilitate material optimization problems with design constraints.
翻訳日:2022-09-30 06:14:16 公開日:2021-10-18
# コントラスト表現学習のための中心的局所画像混合

Center-wise Local Image Mixture For Contrastive Representation Learning ( http://arxiv.org/abs/2011.02697v3 )

ライセンス: Link先を確認
Hao Li, Xiaopeng Zhang, Hongkai Xiong(参考訳) インスタンス識別トレインに基づくコントラスト学習は、サンプル間の意味的類似性を考慮していない他のサンプルとアンカーサンプルの異なる変換を識別するモデルである。 本稿では,データセット内の他のサンプルからの正値を用いた新しいコントラスト学習手法であるCLIMを提案する。 これは、アンカーのローカルに類似したサンプルを検索し、対応するクラスタセンターに近いサンプルを選択することで実現されます。 選択されたサンプルは、スムーズな正規化として機能するデータ混合戦略を介してインスタンス化される。 結果として、CLIMは局所的な類似性とグローバルアグリゲーションの両方を堅牢な方法で奨励する。 さらに,emph{multi- resolution}拡張を導入し,その表現をスケール不変にすることができる。 ResNet-50に対する線形評価で75.5%のトップ1精度に達し、わずか1%のラベルで微調整すると59.3%のトップ1精度が得られる。

Contrastive learning based on instance discrimination trains model to discriminate different transformations of the anchor sample from other samples, which does not consider the semantic similarity among samples. This paper proposes a new kind of contrastive learning method, named CLIM, which uses positives from other samples in the dataset. This is achieved by searching local similar samples of the anchor, and selecting samples that are closer to the corresponding cluster center, which we denote as center-wise local image selection. The selected samples are instantiated via an data mixture strategy, which performs as a smoothing regularization. As a result, CLIM encourages both local similarity and global aggregation in a robust way, which we find is beneficial for feature representation. Besides, we introduce \emph{multi-resolution} augmentation, which enables the representation to be scale invariant. We reach 75.5% top-1 accuracy with linear evaluation over ResNet-50, and 59.3% top-1 accuracy when fine-tuned with only 1% labels.
翻訳日:2022-09-29 12:06:15 公開日:2021-10-18
# 適応クラスタリング変換器を用いた終端物体検出

End-to-End Object Detection with Adaptive Clustering Transformer ( http://arxiv.org/abs/2011.09315v2 )

ライセンス: Link先を確認
Minghang Zheng, Peng Gao, Renrui Zhang, Kunchang Li, Xiaogang Wang, Hongsheng Li, Hao Dong(参考訳) Transformer (DETR)によるエンドツーエンドオブジェクト検出は、Transformerでオブジェクト検出を行い、Faster-RCNNのような2段階オブジェクト検出と同等のパフォーマンスを実現する。 しかし、DETRは高解像度空間入力のため、トレーニングや推論に膨大な計算資源を必要とする。 本稿では,適応クラスタリング変換器(ACT)と呼ばれる新しい変圧器を提案し,高分解能入力の計算コストを削減する。 actクラスタ クエリ機能は、lsh(locality sensitive hashing)とap-proximateを使用して適応的に機能します。 act は自己アテンション内の二次 o(n2) の複雑さを o(nk) に還元し、k は各層内のプロトタイプの数である。 ACTは、トレーニングなしでオリジナルのセルフアテンションモジュールを置き換えるドロップインモジュールである。 ACTは精度と計算コスト(FLOP)のバランスが良い。 コードは、実験の複製と検証の容易さの補足として利用できる。 コードは \url{https://github.com/gaopengcuhk/SMCA-DETR/} でリリースされる。

End-to-end Object Detection with Transformer (DETR)proposes to perform object detection with Transformer and achieve comparable performance with two-stage object detection like Faster-RCNN. However, DETR needs huge computational resources for training and inference due to the high-resolution spatial input. In this paper, a novel variant of transformer named Adaptive Clustering Transformer(ACT) has been proposed to reduce the computation cost for high-resolution input. ACT cluster the query features adaptively using Locality Sensitive Hashing (LSH) and ap-proximate the query-key interaction using the prototype-key interaction. ACT can reduce the quadratic O(N2) complexity inside self-attention into O(NK) where K is the number of prototypes in each layer. ACT can be a drop-in module replacing the original self-attention module without any training. ACT achieves a good balance between accuracy and computation cost (FLOPs). The code is available as supplementary for the ease of experiment replication and verification. Code is released at \url{https://github.com/gaopengcuhk/SMCA-DETR/}
翻訳日:2022-09-24 04:29:57 公開日:2021-10-18
# mask-Net: 逆予測を用いた文脈認識不変特徴の学習(学習要約)

mask-Net: Learning Context Aware Invariant Features using Adversarial Forgetting (Student Abstract) ( http://arxiv.org/abs/2011.12979v5 )

ライセンス: Link先を確認
Hemant Yadav, Atul Anshuman Singh, Rachit Mittal, Sunayana Sitaram, Yi Yu, Rajiv Ratn Shah(参考訳) 例えば、Speech to Text (STT)のような堅牢なシステムのトレーニングには、大規模なデータセットが必要である。 望ましくないニュアサンスやバイアスのようなデータセットに存在する可変性は、一般的な表現を学ぶために大きなデータセットを必要とする理由である。 そこで本研究では,対向的無視(AF)を用いた不変性誘導手法を提案する。 STTタスクのアクセントのような不変性を学習するための最初の実験は、従来のモデルと比較して単語誤り率(WER)の点でより優れた一般化を実現する。 アウト・オブ・ディストリビューションおよびイン・ディストリビューションテストセットにおいて,絶対的な2.2%と1.3%の改善が観察された。

Training a robust system, e.g.,Speech to Text (STT), requires large datasets. Variability present in the dataset such as unwanted nuisances and biases are the reason for the need of large datasets to learn general representations. In this work, we propose a novel approach to induce invariance using adversarial forgetting (AF). Our initial experiments on learning invariant features such as accent on the STT task achieve better generalizations in terms of word error rate (WER) compared to the traditional models. We observe an absolute improvement of 2.2% and 1.3% on out-of-distribution and in-distribution test sets, respectively.
翻訳日:2022-09-21 03:32:49 公開日:2021-10-18
# 制御可能な環境における自己教師付き学習の分散検出性能の評価

Evaluation of Out-of-Distribution Detection Performance of Self-Supervised Learning in a Controllable Environment ( http://arxiv.org/abs/2011.13120v2 )

ライセンス: Link先を確認
Jeonghoon Park, Kyungmin Jo, Daehoon Gwak, Jimin Hong, Jaegul Choo, Edward Choi(参考訳) 自己教師付き学習(SSL)手法のアウト・オブ・ディストリビューション(OOD)検出性能を新しい評価フレームワークを用いて評価する。 従来の評価手法と異なり,提案手法は分布内サンプルからのOODサンプルの距離を調整している。 シミュレーションサンプル,画像,テキストを用いて,提案フレームワークの3つの異なる実装におけるOOD検出アルゴリズムの広範な組み合わせを評価する。 SSLメソッドは、すべての評価設定で改善されたOOD検出性能を一貫して示す。

We evaluate the out-of-distribution (OOD) detection performance of self-supervised learning (SSL) techniques with a new evaluation framework. Unlike the previous evaluation methods, the proposed framework adjusts the distance of OOD samples from the in-distribution samples. We evaluate an extensive combination of OOD detection algorithms on three different implementations of the proposed framework using simulated samples, images, and text. SSL methods consistently demonstrated the improved OOD detection performance in all evaluation settings.
翻訳日:2022-09-20 12:07:47 公開日:2021-10-18
# iotセンサアルゴリズムに基づくスマートホームにおけるヒューマンアクティビティ認識に関する調査--分類学、課題、深層学習の機会について

A Survey of Human Activity Recognition in Smart Homes Based on IoT Sensors Algorithms: Taxonomies, Challenges, and Opportunities with Deep Learning ( http://arxiv.org/abs/2111.04418v1 )

ライセンス: Link先を確認
Damien Bouchabou (1), Sao Mai Nguyen (1), Christophe Lohr (1), Benoit Leduc, Ioannis Kanellos (1) ((1) Lab-STICC_RAMBO, IMT Atlantique - INFO)(参考訳) モノのインターネット(IoT)技術の最近の進歩とセンサコストの削減により、スマートホームなどのスマート環境の開発が促進されている。 スマートホームは、特に高齢者や依存者の生活の質、自律性、健康を改善するための在宅支援サービスを提供することができる。 このようなサービスを提供するためには、スマートホームが住民の日常的な活動を理解する必要がある。 スマートホームにおける人間の活動を認識する技術は日々進歩している。 しかし、毎日新しい課題が生まれている。 本稿では,環境センサを用いたスマートホームにおける人間行動認識の分野における最近のアルゴリズム,研究,課題,分類について述べる。 さらに、スマートホームにおける活動認識は若い分野であるため、特定の問題や欠落、貢献が必要となる。 しかし、この分野の進歩を加速するための方向性、研究機会、解決策も提案する。

Recent advances in Internet of Things (IoT) technologies and the reduction in the cost of sensors have encouraged the development of smart environments, such as smart homes. Smart homes can offer home assistance services to improve the quality of life, autonomy and health of their residents, especially for the elderly and dependent. To provide such services, a smart home must be able to understand the daily activities of its residents. Techniques for recognizing human activity in smart homes are advancing daily. But new challenges are emerging every day. In this paper, we present recent algorithms, works, challenges and taxonomy of the field of human activity recognition in a smart home through ambient sensors. Moreover, since activity recognition in smart homes is a young field, we raise specific problems, missing and needed contributions. But also propose directions, research opportunities and solutions to accelerate advances in this field.
翻訳日:2021-11-14 15:47:16 公開日:2021-10-18
# Zombieデータセットの問題:データセットの非推奨化フレームワーク

The Problem of Zombie Datasets:A Framework For Deprecating Datasets ( http://arxiv.org/abs/2111.04424v1 )

ライセンス: Link先を確認
Frances Corry, Hamsini Sridharan, Alexandra Sasha Luccioni, Mike Ananny, Jason Schultz, Kate Crawford(参考訳) マシンラーニングデータセットが法的、倫理的、技術的理由から廃止されるが、広く使用されている場合はどうなりますか? 本稿では,ImageNet,8000万Tiny Images,MS-Celeb-1M,Duke MTMC,Brainwash,HRT Transgenderなどの著名な非推奨データセットの公開後処理について検討し,より一貫性のある倫理的かつ説明可能なデータセットの非推奨化の枠組みについて述べる。 先行研究に基づいて、データセットの非推奨に関する情報の一貫性、透明性、集中的なソーシングが欠如していることが分かり、これらのデータセットとそのデリバティブが論文に引用され、オンラインに流通し続けている。 死なないデータセット — いわゆる“zombieデータセット” – は、技術的、法的、倫理的な課題を引き起こして、製品レベルのシステムの設計に引き続き通知します。 この分析に基づいて,機械学習コミュニティが適用・実装可能な,リスクの考慮,影響の緩和,アピール機構,タイムライン,ポスト推奨プロトコル,パブリッシングチェックを含むデータセット非推奨フレームワークを提案する。 データシートとチェックリストに関する作業に基づいて、さらに2つのサンプルデータセットの非推奨シートを提供し、どのデータセットが非推奨になったかを追跡し、NeurIPSのような会場の公開プロトコルに組み込むことができる集中型リポジトリを提案する。

What happens when a machine learning dataset is deprecated for legal, ethical, or technical reasons, but continues to be widely used? In this paper, we examine the public afterlives of several prominent deprecated or redacted datasets, including ImageNet, 80 Million Tiny Images, MS-Celeb-1M, Duke MTMC, Brainwash, and HRT Transgender, in order to inform a framework for more consistent, ethical, and accountable dataset deprecation. Building on prior research, we find that there is a lack of consistency, transparency, and centralized sourcing of information on the deprecation of datasets, and as such, these datasets and their derivatives continue to be cited in papers and circulate online. These datasets that never die -- which we term "zombie datasets" -- continue to inform the design of production-level systems, causing technical, legal, and ethical challenges; in so doing, they risk perpetuating the harms that prompted their supposed withdrawal, including concerns around bias, discrimination, and privacy. Based on this analysis, we propose a Dataset Deprecation Framework that includes considerations of risk, mitigation of impact, appeal mechanisms, timeline, post-deprecation protocol, and publication checks that can be adapted and implemented by the machine learning community. Drawing on work on datasheets and checklists, we further offer two sample dataset deprecation sheets and propose a centralized repository that tracks which datasets have been deprecated and could be incorporated into the publication protocols of venues like NeurIPS.
翻訳日:2021-11-14 15:47:03 公開日:2021-10-18
# (参考訳) BERMo: ELMoから何を学ぶことができますか?

BERMo: What can BERT learn from ELMo? ( http://arxiv.org/abs/2110.15802v1 )

ライセンス: CC BY 4.0
Sangamesh Kodge and Kaushik Roy(参考訳) BERTのアーキテクチャ変更であるBERMoを提案し,表面・構文・意味言語の特徴の階層構造に基づいて予測を行う。 言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。 提案手法は,(1)各層が損失関数の勾配に直結しているため,下流タスクの勾配フローが向上し,(2)下流タスクに必要な浅層で学習した機能をもはやコピーする必要がなくなるため,代表パワーが向上する,という2つの利点がある。 さらに,ネットワーク内の各層に関連付けられた単一のスカラーパラメータが存在するため,パラメータのオーバーヘッドは無視できる。 SentEvalデータセットからの探索タスクの実験によると、我々のモデルはベースラインよりも4.65\%$精度が良く、セマンティックタスクでは平均2.67\%$が改善されている。 圧縮技術を適用すると、BERTモデルが一般的に分散するSST-2のような小さなデータセットを圧縮するための安定プルーニングが可能であることが分かる。 GLUEデータセットからMNLIおよびQQPタスクのベースラインよりも高速に1.67\times$と1.15\times$を収束する。 さらに,本手法により,QQPタスクに対するペナルティに基づくプルーニング手法のパラメータ効率が向上することを示した。

We propose BERMo, an architectural modification to BERT, which makes predictions based on a hierarchy of surface, syntactic and semantic language features. We use linear combination scheme proposed in Embeddings from Language Models (ELMo) to combine the scaled internal representations from different network depths. Our approach has two-fold benefits: (1) improved gradient flow for the downstream task as every layer has a direct connection to the gradients of the loss function and (2) increased representative power as the model no longer needs to copy the features learned in the shallower layer which are necessary for the downstream task. Further, our model has a negligible parameter overhead as there is a single scalar parameter associated with each layer in the network. Experiments on the probing task from SentEval dataset show that our model performs up to $4.65\%$ better in accuracy than the baseline with an average improvement of $2.67\%$ on the semantic tasks. When subject to compression techniques, we find that our model enables stable pruning for compressing small datasets like SST-2, where the BERT model commonly diverges. We observe that our approach converges $1.67\times$ and $1.15\times$ faster than the baseline on MNLI and QQP tasks from GLUE dataset. Moreover, our results show that our approach can obtain better parameter efficiency for penalty based pruning approaches on QQP task.
翻訳日:2021-11-07 14:59:09 公開日:2021-10-18
# (参考訳) フリーゲームにおけるゲーム再設計

Game Redesign in No-regret Game Playing ( http://arxiv.org/abs/2110.11763v1 )

ライセンス: CC BY 4.0
Yuzhe Ma, Young Wu, Xiaojin Zhu(参考訳) 本研究では,外部設計者が各ラウンドで支払関数を変更することができるが,元のゲームから逸脱する設計コストがかかるゲーム再設計問題について検討する。 プレイヤーは、制限されたフィードバックで変更したゲームを繰り返しプレイするために、非回帰学習アルゴリズムを適用する。 デザイナーの目標は (i) 特定のターゲットのアクションプロファイルを頻繁に行うよう、すべてのプレイヤーにインセンティブを与え、 (ii)少額の累積設計コストが発生する。 ターゲットアクションプロファイルがt-o(t)ラウンドで行われることを保証しつつ,o(t)累積設計コストのみを伴ってゲーム再設計アルゴリズムを提案する。 ゲームの再設計は、ポジティブなアプリケーションとネガティブなアプリケーションの両方を記述している: プレイヤーに、元のゲームのソリューションよりも優れた社会的厚生でターゲットアクションプロファイルを取るようインセンティブを与える好意的なデザイナー、または、ターゲットアクションプロファイルがプレイヤーに利益をもたらすが、プレイヤーには効果がない悪意のある攻撃者。 4つのクラシックゲームのシミュレーションにより,提案手法の有効性を確認した。

We study the game redesign problem in which an external designer has the ability to change the payoff function in each round, but incurs a design cost for deviating from the original game. The players apply no-regret learning algorithms to repeatedly play the changed games with limited feedback. The goals of the designer are to (i) incentivize all players to take a specific target action profile frequently; and (ii) incur small cumulative design cost. We present game redesign algorithms with the guarantee that the target action profile is played in T-o(T) rounds while incurring only o(T) cumulative design cost. Game redesign describes both positive and negative applications: a benevolent designer who incentivizes players to take a target action profile with better social welfare compared to the solution of the original game, or a malicious attacker whose target action profile benefits themselves but not the players. Simulations on four classic games confirm the effectiveness of our proposed redesign algorithms.
翻訳日:2021-11-01 08:25:40 公開日:2021-10-18
# (参考訳) SpecTNT:音楽オーディオのための時間周波数変換器

SpecTNT: a Time-Frequency Transformer for Music Audio ( http://arxiv.org/abs/2110.09127v1 )

ライセンス: CC BY 4.0
Wei-Tsung Lu, Ju-Chiang Wang, Minz Won, Keunwoo Choi and Xuchen Song(参考訳) トランスフォーマーは、自然言語処理やコンピュータビジョンで顕著な性能を示すことでミール分野で注目を集めている。 しかし、以前のオーディオ処理領域では、ほとんどの場合、RTNに似た機能を持つ時間的特徴集約器としてTransformerを使用していた。 本稿では,入力時間-周波数表現のスペクトル列と時間系列の両方をモデル化するトランスフォーマティブアーキテクチャであるspectntを提案する。 具体的には,Transformer-in-Transformer (TNT) アーキテクチャの新しいバリエーションを紹介する。 各SpecTNTブロックにおいて、スペクトル変換器は各フレームの周波数クラストークン(FCT)に周波数関連特徴を抽出する。 その後、FCTは線形に投影され、FCTから有用な情報を収集する時間埋め込み(TE)に追加される。 そして、テンポラリトランスがtesを処理して、タイム軸間で情報を交換する。 SpecTNTブロックを積み重ねることで、音楽信号の表現を学ぶためのSpecTNTモデルを構築する。 実験では、spectntは音楽のタギングや声のメロディ抽出における最先端のパフォーマンスを示し、コード認識における競争力を示す。 SpecTNTおよびその他の設計選択の有効性をアブレーション研究により検討した。

Transformers have drawn attention in the MIR field for their remarkable performance shown in natural language processing and computer vision. However, prior works in the audio processing domain mostly use Transformer as a temporal feature aggregator that acts similar to RNNs. In this paper, we propose SpecTNT, a Transformer-based architecture to model both spectral and temporal sequences of an input time-frequency representation. Specifically, we introduce a novel variant of the Transformer-in-Transformer (TNT) architecture. In each SpecTNT block, a spectral Transformer extracts frequency-related features into the frequency class token (FCT) for each frame. Later, the FCTs are linearly projected and added to the temporal embeddings (TEs), which aggregate useful information from the FCTs. Then, a temporal Transformer processes the TEs to exchange information across the time axis. By stacking the SpecTNT blocks, we build the SpecTNT model to learn the representation for music signals. In experiments, SpecTNT demonstrates state-of-the-art performance in music tagging and vocal melody extraction, and shows competitive performance for chord recognition. The effectiveness of SpecTNT and other design choices are further examined through ablation studies.
翻訳日:2021-11-01 08:06:13 公開日:2021-10-18
# (参考訳) 連続学習のための樹状自己組織化マップ

Dendritic Self-Organizing Maps for Continual Learning ( http://arxiv.org/abs/2110.13611v1 )

ライセンス: CC BY 4.0
Kosmas Pinitas, Spyridon Chavlis, Panayiota Poirazi(参考訳) 現在のディープラーニングアーキテクチャは、大規模で制御されたデータセットでトレーニングすると驚くべきパフォーマンスを示す。 しかし、新しいクラスを段階的に学ぶと、これらのアーキテクチャの予測能力は大幅に低下する。 これは、以前に見られたデータから得られた知識を忘れる傾向があるためである。 一方、自己組織化マップ(SOM)は制約付きk-平均を用いて入力空間をモデル化し、過去の知識を維持することができる。 本稿では,生物ニューロンにヒントを得たDendSOM(DendSOM)と呼ばれる新しいアルゴリズムを提案する。 DendSOMは、入力空間の特定の領域からパターンを抽出し、一組のヒット行列、一組のSOMを伴い、単位とラベルの関係を推定する。 入力パターンのベストマッチングユニットは、最大コサイン類似性ルールを用いて選択され、ポイントワイズ相互情報がクラス推論に使用される。 DendSOMは、重みのターゲット更新にラベルを使用しないため、教師なしの特徴抽出を行う。 従来のSOMや、Split-MNISTやSplit-CIFAR-10のようなベンチマークデータセット上での最先端の連続学習アルゴリズムよりも優れている。 我々は,SOMsの神経特性の取り込みが破滅的忘れの予防に役立つことを示唆する。

Current deep learning architectures show remarkable performance when trained in large-scale, controlled datasets. However, the predictive ability of these architectures significantly decreases when learning new classes incrementally. This is due to their inclination to forget the knowledge acquired from previously seen data, a phenomenon termed catastrophic-forgetting. On the other hand, Self-Organizing Maps (SOMs) can model the input space utilizing constrained k-means and thus maintain past knowledge. Here, we propose a novel algorithm inspired by biological neurons, termed Dendritic-Self-Organizing Map (DendSOM). DendSOM consists of a single layer of SOMs, which extract patterns from specific regions of the input space accompanied by a set of hit matrices, one per SOM, which estimate the association between units and labels. The best-matching unit of an input pattern is selected using the maximum cosine similarity rule, while the point-wise mutual information is employed for class inference. DendSOM performs unsupervised feature extraction as it does not use labels for targeted updating of the weights. It outperforms classical SOMs and several state-of-the-art continual learning algorithms on benchmark datasets, such as the Split-MNIST and Split-CIFAR-10. We propose that the incorporation of neuronal properties in SOMs may help remedy catastrophic forgetting.
翻訳日:2021-11-01 07:38:30 公開日:2021-10-18
# SCENIC:コンピュータビジョン研究などのためのJAXライブラリ

SCENIC: A JAX Library for Computer Vision Research and Beyond ( http://arxiv.org/abs/2110.11403v1 )

ライセンス: Link先を確認
Mostafa Dehghani and Alexey Gritsenko and Anurag Arnab and Matthias Minderer and Yi Tay(参考訳) ScenicはオープンソースのJAXライブラリで、コンピュータビジョン研究などのためのTransformerベースのモデルにフォーカスしている。 このツールキットの目的は、新しいビジョンアーキテクチャとモデルの迅速な実験、プロトタイピング、研究を促進することである。 さまざまなビジョンタスク(分類、セグメンテーション、検出など)をサポートし、gpu/tpuによるマルチホスト、マルチデバイス大規模トレーニングのサポートとともに、マルチモーダル問題への取り組みを容易にする。 Scenicはまた、幅広いモダリティにまたがる最先端の研究モデルの最適化実装も提供している。 ランドスケープは多くのプロジェクトや論文の出版に成功し、新しい研究アイデアの迅速なプロトタイピングと出版に最適な図書館として機能し続けている。

Scenic is an open-source JAX library with a focus on Transformer-based models for computer vision research and beyond. The goal of this toolkit is to facilitate rapid experimentation, prototyping, and research of new vision architectures and models. Scenic supports a diverse range of vision tasks (e.g., classification, segmentation, detection)and facilitates working on multi-modal problems, along with GPU/TPU support for multi-host, multi-device large-scale training. Scenic also offers optimized implementations of state-of-the-art research models spanning a wide range of modalities. Scenic has been successfully used for numerous projects and published papers and continues serving as the library of choice for quick prototyping and publication of new research ideas.
翻訳日:2021-10-31 08:52:19 公開日:2021-10-18
# 先進的なAI/MLを導入して投資家が成功するのを助ける:Vanguard Reinforcement Learning for Financial Goal Planning

Embracing advanced AI/ML to help investors achieve success: Vanguard Reinforcement Learning for Financial Goal Planning ( http://arxiv.org/abs/2110.12003v1 )

ライセンス: Link先を確認
Shareefuddin Mohammed, Rusty Bealer, Jason Cohen(参考訳) アドバイスと金融計画の世界では、正しい答えはめったにない。 従来のアルゴリズムは線形問題を解くのに成功してきたが、その成功はデータセットから適切な機能を選択することに依存することが多い。 強化学習は、適切な機能を選択することはほぼ不可能である複雑なデータセットで使用できる機械学習アプローチである。 本稿では,機械学習による財務予測,経済指標の予測,貯蓄戦略の作成について検討する。 目標ベースの金融計画のためのvanguard mlアルゴリズムは、顧客の財務的成功を支援するために、複数の目標と収入源にまたがる最適な貯蓄率を特定する深層強化学習に基づいている。 バンガード学習アルゴリズムは、市場指標と行動を特定するために訓練され、公式やルールで捉えるには複雑すぎるが、代わりに投資家の財務的成功軌道と投資成果をマルコフ決定プロセスとしてモデル化する。 強化学習は、アドバイザーやエンドインベスターの価値を創造し、効率性、パーソナライズされた計画、そしてカスタマイズされたソリューションを可能にするデータを生み出すのに利用できると信じています。

In the world of advice and financial planning, there is seldom one right answer. While traditional algorithms have been successful in solving linear problems, its success often depends on choosing the right features from a dataset, which can be a challenge for nuanced financial planning scenarios. Reinforcement learning is a machine learning approach that can be employed with complex data sets where picking the right features can be nearly impossible. In this paper, we will explore the use of machine learning for financial forecasting, predicting economic indicators, and creating a savings strategy. Vanguard ML algorithm for goals-based financial planning is based on deep reinforcement learning that identifies optimal savings rates across multiple goals and sources of income to help clients achieve financial success. Vanguard learning algorithms are trained to identify market indicators and behaviors too complex to capture with formulas and rules, instead, it works to model the financial success trajectory of investors and their investment outcomes as a Markov decision process. We believe that reinforcement learning can be used to create value for advisors and end-investors, creating efficiency, more personalized plans, and data to enable customized solutions.
翻訳日:2021-10-31 08:52:06 公開日:2021-10-18
# 多クラスシナリオにおけるジェネレーティブ・ディバーショナル・ネットワークを用いた軌道予測

Trajectory Prediction using Generative Adversarial Network in Multi-Class Scenarios ( http://arxiv.org/abs/2110.11401v1 )

ライセンス: Link先を確認
Shilun Li, Tracy Cai, Jiayi Li(参考訳) 交通機関の軌道予測は自動操縦にとって重要な課題である。 軌道予測に関するほとんどの以前の研究は、単一の種類の道路エージェントしか考慮していない。 シーケンス・ツー・シーケンス・モデルを用いて、観測経路から将来の経路を予測し、抽出されたラベル表現を従来の位置入力と組み合わせることで、クラス情報をモデルに組み込む。 我々はLSTMとトランスフォーマーエンコーダの両方を用いて実験を行い、Social GANで導入された生成的敵ネットワークを用いて交通エージェントのマルチモーダル動作を学習する。 我々は6種類の道路エージェントを含むStanford Droneデータセットでモデルをトレーニングし、異なるモデルコンポーネントがマルチクラスのシーンにおける予測性能に与える影響を評価する。

Predicting traffic agents' trajectories is an important task for auto-piloting. Most previous work on trajectory prediction only considers a single class of road agents. We use a sequence-to-sequence model to predict future paths from observed paths and we incorporate class information into the model by concatenating extracted label representations with traditional location inputs. We experiment with both LSTM and transformer encoders and we use generative adversarial network as introduced in Social GAN to learn the multi-modal behavior of traffic agents. We train our model on Stanford Drone dataset which includes 6 classes of road agents and evaluate the impact of different model components on the prediction performance in multi-class scenes.
翻訳日:2021-10-31 08:51:08 公開日:2021-10-18
# nnkグラフを用いた畳み込みニューラルネットワークにおけるチャネル冗長性と重なり

Channel redundancy and overlap in convolutional neural networks with channel-wise NNK graphs ( http://arxiv.org/abs/2110.11400v1 )

ライセンス: Link先を確認
David Bonet, Antonio Ortega, Javier Ruiz-Hidalgo, Sarath Shekkizhar(参考訳) 畳み込みニューラルネットワーク(CNN)の深い層における特徴空間は、しばしば非常に高次元で解釈が難しい。 しかし、畳み込み層は、異なる種類の入力によって活性化される複数のチャネルで構成されており、チャネルとそれらの相互関係を研究することによって、より多くの洞察が得られることを示唆している。 本稿では,まず,チャネル間重なりの定量化を可能にするcw-nnk回帰グラフを理論的に解析し,間接的にデータ表現多様体の固有次元を明らかにした。 チャネル間の冗長性は、トレーニング中の層深さと正規化レベルによって大きく変化している。 さらに,最終畳み込み層におけるチャネル重なりと一般化性能との間には相関関係があることを観察する。 実験結果から,これらの手法が深部表現の理解を深める可能性が示唆された。

Feature spaces in the deep layers of convolutional neural networks (CNNs) are often very high-dimensional and difficult to interpret. However, convolutional layers consist of multiple channels that are activated by different types of inputs, which suggests that more insights may be gained by studying the channels and how they relate to each other. In this paper, we first analyze theoretically channel-wise non-negative kernel (CW-NNK) regression graphs, which allow us to quantify the overlap between channels and, indirectly, the intrinsic dimension of the data representation manifold. We find that redundancy between channels is significant and varies with the layer depth and the level of regularization during training. Additionally, we observe that there is a correlation between channel overlap in the last convolutional layer and generalization performance. Our experimental results demonstrate that these techniques can lead to a better understanding of deep representations.
翻訳日:2021-10-31 08:50:38 公開日:2021-10-18
# (参考訳) emds-7 マルチオブジェクト検出評価のための環境微生物画像データセット第7版

EMDS-7: Environmental Microorganism Image Dataset Seventh Version for Multiple Object Detection Evaluation ( http://arxiv.org/abs/2110.07723v2 )

ライセンス: CC BY 4.0
Hechen Yang, Chen Li, Xin Zhao, Bencheng Cai, Jiawei Zhang, Pingli Ma, Peng Zhao, Ao Chen, Tao Jiang, Hongzan Sun, Yueyang Teng, Shouliang Qi, Tao Jiang and Marcin Grzegorzek(参考訳) 環境微生物画像データセット第7版(emds-7)は、オリジナルの環境微生物画像(ems)と対応するオブジェクトラベリングファイルを「.xml」フォーマットファイルに含む顕微鏡画像データセットである。 EMDS-7データセットは41種類のEMで構成され、合計で2365の画像と13216のラベル付きオブジェクトを持つ。 EMDS-7データベースは主にオブジェクト検出に焦点を当てている。 EMDS-7の有効性を証明するため,最も一般的なディープラーニング手法(Faster-RCNN, YOLOv3, YOLOv4, SSD, RetinaNet)と評価指標を選択する。 emds-7は非商用目的のために無償で公開されている。 https://github.com/yanghechen/emds-7

The Environmental Microorganism Image Dataset Seventh Version (EMDS-7) is a microscopic image data set, including the original Environmental Microorganism images (EMs) and the corresponding object labeling files in ".XML" format file. The EMDS-7 data set consists of 41 types of EMs, which has a total of 2365 images and 13216 labeled objects. The EMDS-7 database mainly focuses on the object detection. In order to prove the effectiveness of EMDS-7, we select the most commonly used deep learning methods (Faster-RCNN, YOLOv3, YOLOv4, SSD and RetinaNet) and evaluation indices for testing and evaluation. EMDS-7 is freely published for non-commercial purpose at: https://github.com/yanghechen/EMDS-7
翻訳日:2021-10-24 13:39:09 公開日:2021-10-18
# ソーシャルロボットがソーシャルな手がかりを処理して、いつユーザを助けるかを検出する

Enabling a Social Robot to Process Social Cues to Detect when to Help a User ( http://arxiv.org/abs/2110.11075v1 )

ライセンス: Link先を確認
Jason R. Wilson, Phyo Thuta Aung, Isabelle Boucher(参考訳) 社会支援ロボットは、ユーザーがいつ助けを求めているかを認識できることが重要である。 このようなロボットは、人間のニーズをリアルタイムで認識して、タイムリーな支援を提供できる必要がある。 本稿では,ロボットが支援を行うべきタイミングを社会的手がかりを用いて判断するアーキテクチャを提案する。 視線と言語モダリティのマルチモーダル融合アプローチに基づいて,ロボット支援legoビルディングタスクで収集したデータに基づいて,アーキテクチャを訓練し,評価する。 社会的手がかりにフォーカスすることで、アーキテクチャは与えられたタスクの特定の部分への最小限の依存関係を持ち、多くの異なるコンテキストに適用できます。 ソーシャルロボットをソーシャルキューを通じてユーザのニーズを認識することは、ユーザの行動や嗜好に適応するのに役立ち、それによってユーザエクスペリエンスが向上する。

It is important for socially assistive robots to be able to recognize when a user needs and wants help. Such robots need to be able to recognize human needs in a real-time manner so that they can provide timely assistance. We propose an architecture that uses social cues to determine when a robot should provide assistance. Based on a multimodal fusion approach upon eye gaze and language modalities, our architecture is trained and evaluated on data collected in a robot-assisted Lego building task. By focusing on social cues, our architecture has minimal dependencies on the specifics of a given task, enabling it to be applied in many different contexts. Enabling a social robot to recognize a user's needs through social cues can help it to adapt to user behaviors and preferences, which in turn will lead to improved user experiences.
翻訳日:2021-10-22 18:26:20 公開日:2021-10-18
# 電子商取引におけるリストレコメンデーションのための複数属性を用いたシーケンスモデリング

Sequential Modeling with Multiple Attributes for Watchlist Recommendation in E-Commerce ( http://arxiv.org/abs/2110.11072v1 )

ライセンス: Link先を確認
Uriel Singer, Haggai Roitman, Yotam Eshel, Alexander Nus, Ido Guy, Or Levi, Idan Hasson and Eliyahu Kiperwasser(参考訳) 電子商取引において、ウォッチリストは、ユーザーが時間とともにアイテムを追跡することを可能にし、主要な特徴として現れ、ユーザのショッピング旅行において重要な役割を果たす。 ウォッチリストアイテムは通常、時間とともに値が変化する可能性のある複数の属性(例えば、価格、量)を持つ。 多くのユーザーはwatchlistに何十ものアイテムを蓄積し、ショッピングの意図は時間とともに変化するので、あるコンテキストでトップリストアイテムを推薦することは価値がある。 本研究では,eコマースにおけるwatchlistの機能を調査し,新しいwatchlistレコメンデーションタスクを導入する。 私たちのゴールは、ユーザーが次にクリックするアイテムを予測することで、次に注目すべきウォッチリスト項目を優先順位付けすることです。 我々は、このタスクを特別なシーケンシャルなレコメンデーションタスクとみなし、その特性について論じる。 提案する提案モデルであるTrans2DはTransformerアーキテクチャ上に構築されており,複数項目属性を持つシーケンシャルデータから複雑な項目属性,属性属性,項目属性パターンを学習可能な,新たな拡張注意機構(Attention2D)を提案する。 ebayの大規模なwatchlistデータセットを使用して、提案モデルを評価し、複数の最先端ベースラインと比較し、その多くがこのタスクに適合していることを示した。

In e-commerce, the watchlist enables users to track items over time and has emerged as a primary feature, playing an important role in users' shopping journey. Watchlist items typically have multiple attributes whose values may change over time (e.g., price, quantity). Since many users accumulate dozens of items on their watchlist, and since shopping intents change over time, recommending the top watchlist items in a given context can be valuable. In this work, we study the watchlist functionality in e-commerce and introduce a novel watchlist recommendation task. Our goal is to prioritize which watchlist items the user should pay attention to next by predicting the next items the user will click. We cast this task as a specialized sequential recommendation task and discuss its characteristics. Our proposed recommendation model, Trans2D, is built on top of the Transformer architecture, where we further suggest a novel extended attention mechanism (Attention2D) that allows to learn complex item-item, attribute-attribute and item-attribute patterns from sequential-data with multiple item attributes. Using a large-scale watchlist dataset from eBay, we evaluate our proposed model, where we demonstrate its superiority compared to multiple state-of-the-art baselines, many of which are adapted for this task.
翻訳日:2021-10-22 18:18:55 公開日:2021-10-18
# rl4rs:強化学習に基づくレコメンダシステムのための実世界ベンチマーク

RL4RS: A Real-World Benchmark for Reinforcement Learning based Recommender System ( http://arxiv.org/abs/2110.11073v1 )

ライセンス: Link先を確認
Kai Wang, Zhene Zou, Qilin Deng, Yue Shang, Minghao Zhao, Runze Wu, Xudong Shen, Tangjie Lyu, Changjie Fan(参考訳) 強化学習に基づく推薦システム (RL-based RS) は,複数の収集データから適切なポリシを学習することを目的として,複数ステップの意思決定タスクに逐次レコメンデーションを投入する。 しかしながら、現在のRLベースのRSベンチマークは、人工的なRLデータセットや半シミュレートされたRSデータセットを含むため、一般的に大きな現実的なギャップがあり、トレーニングされたポリシーはシミュレーション環境で直接評価される。 現実の状況では、すべての推奨問題が強化学習問題に変換されるのに適しているわけではない。 従来の学術的なRL研究とは異なり、RSは外挿誤差と展開前に十分な検証が難しい。 本稿では,rl4rs(reinforcement learning for recommender systems)ベンチマークについて紹介する。rlアルゴリズムを訓練し評価するために,産業アプリケーションから収集された新しいリソースである。 これには、2つのデータセット、チューニングされたシミュレーション環境、関連するRLベースライン、データ理解ツール、および対実的なポリシー評価アルゴリズムが含まれる。 RL4RSスーツはhttps://github.com/fuxiAIlab/RL4RSで見ることができる。 rlベースのレコメンダシステムに加えて,強化学習とニューラルコンビネート最適化の研究にリソースが寄与することを期待している。

Reinforcement learning based recommender systems (RL-based RS) aims at learning a good policy from a batch of collected data, with casting sequential recommendation to multi-step decision-making tasks. However, current RL-based RS benchmarks commonly have a large reality gap, because they involve artificial RL datasets or semi-simulated RS datasets, and the trained policy is directly evaluated in the simulation environment. In real-world situations, not all recommendation problems are suitable to be transformed into reinforcement learning problems. Unlike previous academic RL researches, RL-based RS suffer from extrapolation error and the difficulties of being well validated before deployment. In this paper, we introduce the RL4RS (Reinforcement Learning for Recommender Systems) benchmark - a new resource fully collected from industrial applications to train and evaluate RL algorithms with special concerns on the above issues. It contains two datasets, tuned simulation environments, related advanced RL baselines, data understanding tools, and counterfactual policy evaluation algorithms. The RL4RS suit can be found at https://github.com/fuxiAIlab/RL4RS. In addition to the RL-based recommender systems, we expect the resource to contribute to research in reinforcement learning and neural combinatorial optimization.
翻訳日:2021-10-22 18:18:31 公開日:2021-10-18
# フェイクニュース記事の検出に関するシステムレビュー

A Systematic Review on the Detection of Fake News Articles ( http://arxiv.org/abs/2110.11240v1 )

ライセンス: Link先を確認
Nathaniel Hoy, Theodora Koulouri(参考訳) 偽ニュースや偽情報の拡散は、選挙の結果に影響を与えることや、新型コロナウイルス(COVID-19)のパンデミック対策への取り組みを妨げることなど、世界中の社会に脅威をもたらすと論じられている。 この脅威に対処するため、自然言語処理(NLP)アプローチが開発されている。 これらは、さまざまなデータセット、特徴抽出/選択技術、機械学習(ML)アルゴリズムを活用して、拡散前にフェイクニュースを検出する。 これらの手法は文書化されているが、この領域での有効性に関する証拠は少ない。 論文を体系的にレビューすることで、最もパフォーマンスの高い偽ニュース検出のアプローチを明確にし、既存のアプローチによる制限を特定し、これらを緩和する方法を提案する。 その結果,ニュースコンテンツとソーシャル機能の組み合わせを用いたアンサンブル手法が現在最も効果的であることが示された。 最後に、将来の研究は、汎用性の問題(一部は現在のデータセットの制限から生じる)、説明可能性、バイアスに対処するアプローチの開発に焦点を当てるべきである。

It has been argued that fake news and the spread of false information pose a threat to societies throughout the world, from influencing the results of elections to hindering the efforts to manage the COVID-19 pandemic. To combat this threat, a number of Natural Language Processing (NLP) approaches have been developed. These leverage a number of datasets, feature extraction/selection techniques and machine learning (ML) algorithms to detect fake news before it spreads. While these methods are well-documented, there is less evidence regarding their efficacy in this domain. By systematically reviewing the literature, this paper aims to delineate the approaches for fake news detection that are most performant, identify limitations with existing approaches, and suggest ways these can be mitigated. The analysis of the results indicates that Ensemble Methods using a combination of news content and socially-based features are currently the most effective. Finally, it is proposed that future research should focus on developing approaches that address generalisability issues (which, in part, arise from limitations with current datasets), explainability and bias.
翻訳日:2021-10-22 13:35:31 公開日:2021-10-18
# (参考訳) 胸部X線リブ抑制のためのGANによる逆絡学習

GAN-based disentanglement learning for chest X-ray rib suppression ( http://arxiv.org/abs/2110.09134v1 )

ライセンス: CC BY 4.0
Luyi Han, Yuanyuan Lyu, Cheng Peng, S.Kevin Zhou(参考訳) 臨床的証拠は、胸部X線(CXR)が肺疾患の診断の信頼性を向上させることを示している。 しかしながら、リブ抑制cxrの生成に関する以前のアプローチでは、詳細の保存とリブ残基の除去が課題となっている。 本稿では,非対位コンピュータ断層撮影(CT)画像に埋め込まれた解剖学的知識を活用することにより,リブ抑制学習フレームワークであるリブ抑制学習(RSGAN)を提案する。 本手法では,cxrとそれに対応するリブ抑制結果の強度差を特徴付けるために残差マップを用いる。 我々は,CXR領域の残像を構造的特徴とコントラスト的特徴に分解し,CTで計算したデジタル再構成ラジオグラフィー(DRR)からリブ構造を転送する。 さらに,リブ残基の抑制と詳細の保存に適応的損失を付加した。 我々は1,673個のCTボリュームと4つのベンチマークCXRデータセットに基づく広範囲な実験を行い、合計120K以上の画像を用いてそれを実証した。 (i)提案したRSGANは,最先端のリブ抑制法に比べて画質が優れている。 (ii)cxrとリブ抑制効果を組み合わせると,肺疾患の分類と結核領域の検出が改善する。

Clinical evidence has shown that rib-suppressed chest X-rays (CXRs) can improve the reliability of pulmonary disease diagnosis. However, previous approaches on generating rib-suppressed CXR face challenges in preserving details and eliminating rib residues. We hereby propose a GAN-based disentanglement learning framework called Rib Suppression GAN, or RSGAN, to perform rib suppression by utilizing the anatomical knowledge embedded in unpaired computed tomography (CT) images. In this approach, we employ a residual map to characterize the intensity difference between CXR and the corresponding rib-suppressed result. To predict the residual map in CXR domain, we disentangle the image into structure- and contrast-specific features and transfer the rib structural priors from digitally reconstructed radiographs (DRRs) computed by CT. Furthermore, we employ additional adaptive loss to suppress rib residue and preserve more details. We conduct extensive experiments based on 1,673 CT volumes, and four benchmarking CXR datasets, totaling over 120K images, to demonstrate that (i) our proposed RSGAN achieves superior image quality compared to the state-of-the-art rib suppression methods; (ii) combining CXR with our rib-suppressed result leads to better performance in lung disease classification and tuberculosis area detection.
翻訳日:2021-10-22 13:34:10 公開日:2021-10-18
# (参考訳) CT画像における身体部分回帰

Body Part Regression for CT Images ( http://arxiv.org/abs/2110.09148v1 )

ライセンス: CC BY-SA 4.0
Sarah Schuhegger(参考訳) 医療画像領域における最大の課題の1つは、ディープラーニングモデルを臨床に導入することである。 モデルは特定の身体領域で訓練されることが多いため、診療所へのロバストな移動は、未知の領域での偽陽性の予測を避けるためにアルゴリズムに適合する身体領域での画像の選択を必要とする。 手動で定義した画像メタデータが不十分で不正確であるため、自動体部認識は医学的深層学習モデルの普及と普及の鍵となる要素である。 この課題に対するいくつかのアプローチは過去に提示されてきたが、細粒度体部認識のためのロバストなアルゴリズムの構築と評価は依然として困難である。 医療用CT(CT)ボリュームの走査体範囲を判定するためには,これまで使い易い方法が存在しない。 本論文では、CTボリュームの自己教師付き身体部分回帰モデルを開発し、異種CT研究のコレクションに基づいて訓練する。 さらに, このアルゴリズムが医療モデルの病院への堅牢かつ信頼性の高い移行にどのように貢献するかを示す。 最後に、医療プラットフォームツールキットKaapanaに統合し、https://github.com/MIC-DKFZ/BodyPartRegressionでpythonパッケージとして提供することにより、開発手法の容易な適用が保証される。

One of the greatest challenges in the medical imaging domain is to successfully transfer deep learning models into clinical practice. Since models are often trained on a specific body region, a robust transfer into the clinic necessitates the selection of images with body regions that fit the algorithm to avoid false-positive predictions in unknown regions. Due to the insufficient and inaccurate nature of manually-defined imaging meta-data, automated body part recognition is a key ingredient towards the broad and reliable adoption of medical deep learning models. While some approaches to this task have been presented in the past, building and evaluating robust algorithms for fine-grained body part recognition remains challenging. So far, no easy-to-use method exists to determine the scanned body range of medical Computed Tomography (CT) volumes. In this thesis, a self-supervised body part regression model for CT volumes is developed and trained on a heterogeneous collection of CT studies. Furthermore, it is demonstrated how the algorithm can contribute to the robust and reliable transfer of medical models into the clinic. Finally, easy application of the developed method is ensured by integrating it into the medical platform toolkit Kaapana and providing it as a python package at https://github.com/MIC-DKFZ/BodyPartRegression .
翻訳日:2021-10-22 13:02:34 公開日:2021-10-18
# (参考訳) RLなし、シミュレーションなし:ナビゲートなしでナビゲートを学ぶ

No RL, No Simulation: Learning to Navigate without Navigating ( http://arxiv.org/abs/2110.09470v1 )

ライセンス: CC BY 4.0
Meera Hahn, Devendra Chaplot, Shubham Tulsiani, Mustafa Mukadam, James M. Rehg, Abhinav Gupta(参考訳) ナビゲーションポリシーを学習するためには、オンラインポリシーのインタラクションが必要であり、報酬のために地道な地図に依存するため、シミュレーション環境へのアクセスが必要である。 しかし,シミュレータの構築は費用がかかる(各シーンごとに手作業が必要)ため,実世界のロボットプラットフォームに学習方針を移す際の課題が生じる。 本稿では,画像ゴールナビゲーションの課題を解決するために,アクティブなインタラクション,地動地図,あるいは強化学習(RL)も本当に必要か,という簡単な疑問を提起する。 我々は,ローミングの受動的映像のみからナビゲートを学ぶための自己教師付きアプローチを提案する。 我々のアプローチであるNo RL,No Simulator (NRNS)はシンプルでスケーラブルだが、非常に効果的である。 NRNSはRLベースの定式化を著しく上回る。 NRNSをRLやシミュレーションを用いた将来の画像ベースのナビゲーションタスクの強力なベースラインとして提示する。

Most prior methods for learning navigation policies require access to simulation environments, as they need online policy interaction and rely on ground-truth maps for rewards. However, building simulators is expensive (requires manual effort for each and every scene) and creates challenges in transferring learned policies to robotic platforms in the real-world, due to the sim-to-real domain gap. In this paper, we pose a simple question: Do we really need active interaction, ground-truth maps or even reinforcement-learning (RL) in order to solve the image-goal navigation task? We propose a self-supervised approach to learn to navigate from only passive videos of roaming. Our approach, No RL, No Simulator (NRNS), is simple and scalable, yet highly effective. NRNS outperforms RL-based formulations by a significant margin. We present NRNS as a strong baseline for any future image-based navigation tasks that use RL or Simulation.
翻訳日:2021-10-22 12:04:48 公開日:2021-10-18
# (参考訳) 自己教師型事前学習とマルチタスクファインタニングによる音声表現学習

Speech Representation Learning Through Self-supervised Pretraining And Multi-task Finetuning ( http://arxiv.org/abs/2110.09930v1 )

ライセンス: CC BY 4.0
Yi-Chen Chen, Shu-wen Yang, Cheng-Kuang Lee, Simon See, Hung-yi Lee(参考訳) 音声表現学習は音声処理において重要な役割を果たす。 その中で,自己指導型学習(SSL)が重要な研究方向となっている。 音声処理の下流タスクにおいて,SSL事前学習モデルが優れた性能を発揮することが示されている。 一方、教師付きマルチタスク学習(MTL)は、コンピュータビジョン(CV)と自然言語処理(NLP)において有効であることが証明された別の表現学習パラダイムである。 しかし、音声処理において、教師付きMTLによって訓練された汎用表現学習モデルに関する体系的な研究はない。 本稿では,MTLの微調整によりSSLプリトレーニングをさらに改善できることを示す。 教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。

Speech representation learning plays a vital role in speech processing. Among them, self-supervised learning (SSL) has become an important research direction. It has been shown that an SSL pretraining model can achieve excellent performance in various downstream tasks of speech processing. On the other hand, supervised multi-task learning (MTL) is another representation learning paradigm, which has been proven effective in computer vision (CV) and natural language processing (NLP). However, there is no systematic research on the general representation learning model trained by supervised MTL in speech processing. In this paper, we show that MTL finetuning can further improve SSL pretraining. We analyze the generalizability of supervised MTL finetuning to examine if the speech representation learned by MTL finetuning can generalize to unseen new tasks.
翻訳日:2021-10-21 05:31:04 公開日:2021-10-18
# (参考訳) 認知能力の指標としての固有行動

Eigenbehaviour as an Indicator of Cognitive Abilities ( http://arxiv.org/abs/2110.09525v1 )

ライセンス: CC BY 4.0
Angela Botros, Narayan Sch\"utz, Christina R\"ocke, Robert Weibel, Mike Martin, Ren\'e M\"uri and Tobias Nef(参考訳) 機械学習アルゴリズムと医療アプリケーションにおけるビッグデータの利用の増加に伴い、デジタルバイオマーカーはこれらのアプリケーションの成功を確実にするための重要な機能となっている。 本稿では,高齢者の認知能力の長期連続モニタリングという,重要なユースケースの1つに注目する。 認知能力は、単独で生活する人々の長期モニタリングと臨床研究の結果の両方の要因である。 本研究では,非接触環境センサから得られる位置固有行動に基づく認知能力のための新しいデジタルバイオマーカーを提案する。 受動赤外線センサから得られる屋内位置情報を用いて、数週間の計測をカバーした位置行列を構築する。 この行列の固有ベクトルに基づいて、様々な使用固有ベクトルについて再構成誤差を算出する。 再構成誤差は、線形回帰を用いてベースラインで収集された認知能力スコアを予測するために用いられる。 さらに、支持ベクトル機械を用いて、正常と病的認知レベルの分類を行う。 予測性能は高いレベルの認知能力では強いが、低いレベルの認知能力では弱くなる。 正常と病理学的認知能力の分類は AUC = 0.94 で高い精度に達する。 無接触環境センサに基づく不明瞭な測定方法により、認知能力のデジタルバイオマーカーを容易に得ることができる。 再構成誤りの使用は、二項分類のための強力なデジタルバイオマーカーであり、より詳細な認識の個人間差の予測である。

With growing usage of machine learning algorithms and big data in health applications, digital biomarkers have become an important key feature to ensure the success of those applications. In this paper, we focus on one important use-case, the long-term continuous monitoring of the cognitive ability of older adults. The cognitive ability is a factor both for long-term monitoring of people living alone as well as an outcome in clinical studies. In this work, we propose a new digital biomarker for cognitive abilities based on location eigenbehaviour obtained from contactless ambient sensors. Indoor location information obtained from passive infrared sensors is used to build a location matrix covering several weeks of measurement. Based on the eigenvectors of this matrix, the reconstruction error is calculated for various numbers of used eigenvectors. The reconstruction error is used to predict cognitive ability scores collected at baseline, using linear regression. Additionally, classification of normal versus pathological cognition level is performed using a support-vector-machine. Prediction performance is strong for high levels of cognitive ability, but grows weaker for low levels of cognitive ability. Classification into normal versus pathological cognitive ability level reaches high accuracy with a AUC = 0.94. Due to the unobtrusive method of measurement based on contactless ambient sensors, this digital biomarker of cognitive ability is easily obtainable. The usage of the reconstruction error is a strong digital biomarker for the binary classification and, to a lesser extent, for more detailed prediction of interindividual differences in cognition.
翻訳日:2021-10-21 05:19:48 公開日:2021-10-18
# (参考訳) 全二重系における自己干渉モデリングのためのハイブリッド層ニューラルネットワークアーキテクチャ

Hybrid-Layers Neural Network Architectures for Modeling the Self-Interference in Full-Duplex Systems ( http://arxiv.org/abs/2110.09997v1 )

ライセンス: CC BY-SA 4.0
Mohamed Elsayed, Ahmad A. Aziz El-Banna, Octavia A. Dobre, Wanyi Shiu, and Peiwei Wang(参考訳) FD(Full-duplex)システムは、同一の周波数リソース上で情報を同時送信することで、第5世代の無線ネットワークに高いデータレートを提供するために導入された。 しかし、FDシステムの動作は自己干渉(SI)によって実質的に制限され、効率的なSIキャンセラがFDシステムの実現を可能にする。 通常、多項式ベースのキャンセル器はSIを緩和するために使用されるが、それでも高い複雑さに悩まされている。 本稿では,低複雑性でSIをキャンセルする2つの新しいハイブリッド層ニューラルネットワーク(NN)アーキテクチャを提案する。 第1のアーキテクチャはHCRNN(Hybrid-convolutional recurrent NN)、第2のアーキテクチャはHCRDNN(Hybrid-convolutional recurrent dense NN)と呼ばれる。 SIモデリングに高密度または再帰的な層を用いる最先端のNNとは対照的に、提案されたNNは、新しい方法で異なる隠れた層(例えば、畳み込み、再帰および/または高密度)を組み合わせて、SIを多項式や最先端のNNベースのキャンセラよりも低い計算複雑性でモデル化する。 ハイブリッドレイヤを使用することの背景にある重要なアイデアは、アーキテクチャで採用されるさまざまなレイヤの特性を活用するNNモデルを構築することだ。 より具体的には、HCRNNでは、ネットワークスケールを縮小して入力データの特徴を抽出するために畳み込み層を用いる。 さらに、畳み込み層の局所化特徴写像から入力信号の時間的挙動の学習を支援するために、繰り返し層を適用する。 HCRDNNでは、キャンセル性能と計算複雑性の最良の妥協を達成するために、追加の高密度層を利用して、NN設定を適用するための別の自由度を追加する。 複雑度解析と数値シミュレーションを行い,提案アーキテクチャの優位性を証明する。

Full-duplex (FD) systems have been introduced to provide high data rates for beyond fifth-generation wireless networks through simultaneous transmission of information over the same frequency resources. However, the operation of FD systems is practically limited by the self-interference (SI), and efficient SI cancelers are sought to make the FD systems realizable. Typically, polynomial-based cancelers are employed to mitigate the SI; nevertheless, they suffer from high complexity. This article proposes two novel hybrid-layers neural network (NN) architectures to cancel the SI with low complexity. The first architecture is referred to as hybrid-convolutional recurrent NN (HCRNN), whereas the second is termed as hybrid-convolutional recurrent dense NN (HCRDNN). In contrast to the state-of-the-art NNs that employ dense or recurrent layers for SI modeling, the proposed NNs exploit, in a novel manner, a combination of different hidden layers (e.g., convolutional, recurrent, and/or dense) in order to model the SI with lower computational complexity than the polynomial and the state-of-the-art NN-based cancelers. The key idea behind using hybrid layers is to build an NN model, which makes use of the characteristics of the different layers employed in its architecture. More specifically, in the HCRNN, a convolutional layer is employed to extract the input data features using a reduced network scale. Moreover, a recurrent layer is then applied to assist in learning the temporal behavior of the input signal from the localized feature map of the convolutional layer. In the HCRDNN, an additional dense layer is exploited to add another degree of freedom for adapting the NN settings in order to achieve the best compromise between the cancellation performance and computational complexity. Complexity analysis and numerical simulations are provided to prove the superiority of the proposed architectures.
翻訳日:2021-10-21 05:08:20 公開日:2021-10-18
# (参考訳) 3次元磁気共鳴画像の条件分解

Conditional De-Identification of 3D Magnetic Resonance Images ( http://arxiv.org/abs/2110.09927v1 )

ライセンス: CC BY 4.0
Lennart Alexander Van der Goten, Tobias Hepp, Zeynep Akata, Kevin Smith(参考訳) 医療画像データのプライバシー保護は困難である。 メタデータが削除されたとしても、顔のレンダリングと顔画像データベースにマッチする攻撃に対して、脳スキャンは脆弱である。 顔の一部の難読化や除去によって、診断スキャンを識別するソリューションが開発されている。 しかし、これらのソリューションは患者の身元を確実に隠すことができず、あるいは攻撃的であるため、さらなる分析を損なう。 本稿では,顔の特徴を除去する代わりに,顔の特徴をモデル化する新しい非識別手法を提案する。 我々のソリューションは条件付きマルチスケールGANアーキテクチャに依存しています。 患者のMRIスキャンを入力として、患者の脳に条件付けられた3Dボリュームを生成します。 提案手法は,下流の医療分析を損なうことなく,従来の手法よりもはるかにプライバシーを保護できることを実証する。 解析はoasis-3とadni corporaで行われた。

Privacy protection of medical image data is challenging. Even if metadata is removed, brain scans are vulnerable to attacks that match renderings of the face to facial image databases. Solutions have been developed to de-identify diagnostic scans by obfuscating or removing parts of the face. However, these solutions either fail to reliably hide the patient's identity or are so aggressive that they impair further analyses. We propose a new class of de-identification techniques that, instead of removing facial features, remodels them. Our solution relies on a conditional multi-scale GAN architecture. It takes a patient's MRI scan as input and generates a 3D volume conditioned on the patient's brain, which is preserved exactly, but where the face has been de-identified through remodeling. We demonstrate that our approach preserves privacy far better than existing techniques, without compromising downstream medical analyses. Analyses were run on the OASIS-3 and ADNI corpora.
翻訳日:2021-10-21 05:06:25 公開日:2021-10-18
# (参考訳) 広帯域・エントロピー対応深部ソフトビット量子化

Wideband and Entropy-Aware Deep Soft Bit Quantization ( http://arxiv.org/abs/2110.09541v1 )

ライセンス: CC BY 4.0
Marius Arvinte, Jonathan I. Tamir(参考訳) 近年,エンド・ツー・エンドの性能向上のために,デジタル通信システムにおける物理層処理にディープラーニングが適用されている。 本稿では,広帯域チャネル間のソフトビット量子化のための新しいディープラーニングソリューションを提案する。 提案手法は,損失関数に対する量子化およびエントロピー認識の強化によるエンドツーエンドの訓練を行い,音源符号化と併用して広帯域チャネル上でのほぼ最適圧縮ゲインを実現する。 提案手法を効果的に学習するために,固定された特徴空間量子化スキームが十分であることを示す。 トレーニング中に見つからなかったチャネル分布をテストすると,提案手法は従来の最先端手法と比較して,高SNR方式で最大10 \%の圧縮ゲインが得られる。 再現可能な研究を促進するため、我々の実装はhttps://github.com/utcsilab/wideband-llr-deepで公開されています。

Deep learning has been recently applied to physical layer processing in digital communication systems in order to improve end-to-end performance. In this work, we introduce a novel deep learning solution for soft bit quantization across wideband channels. Our method is trained end-to-end with quantization- and entropy-aware augmentations to the loss function and is used at inference in conjunction with source coding to achieve near-optimal compression gains over wideband channels. To efficiently train our method, we prove and verify that a fixed feature space quantization scheme is sufficient for efficient learning. When tested on channel distributions never seen during training, the proposed method achieves a compression gain of up to $10 \%$ in the high SNR regime versus previous state-of-the-art methods. To encourage reproducible research, our implementation is publicly available at https://github.com/utcsilab/wideband-llr-deep.
翻訳日:2021-10-21 04:46:38 公開日:2021-10-18
# (参考訳) BGaitR-Net:時間制約付き歩行認識モデルを用いた歩行系列再構成

BGaitR-Net: Occluded Gait Sequence reconstructionwith temporally constrained model for gait recognition ( http://arxiv.org/abs/2110.09564v1 )

ライセンス: CC BY 4.0
Somnath Sendhil Kumara, Pratik Chattopadhyaya, Lipo Wang(参考訳) 近年の計算資源と深層学習手法の進歩は、知的視覚に基づく監視アプリケーションの開発に大きく貢献している。 咬合の存在下での歩行認識は、この分野で難しい研究テーマの1つであり、研究者がこれまで提案してきた解決策は堅牢性が欠如しており、実用的な適用性を制限するいくつかの非現実的な制約にも依存している。 本稿では,入力列内のオクルードされたフレームを識別する新しいディープラーニングアルゴリズムを開発し,さらに,歩行列に存在する時空間情報を活用してこれらのオクルードされたフレームを再構築する。 本研究で採用されている多段階パイプラインは,キーポーズマッピング,咬合検出と再構成,最後に歩行認識からなる。 制約付きkmeansクラスタリングおよびグラフソートアルゴリズムを用いて、キーポーズマッピング及びオクルージョン検出フェーズを%で行う一方、双方向長短記憶を用いた歩行シーケンスに含まれる時空間情報とともに、前段のキーポーズ固有情報を用いてオクルードフレームの再構成を行う。 CASIA-B と OU-ISIR のデータを用いて,このオクルージョン再構成モデルを訓練し,双方向歩行再構成ネットワーク BGait-R-Net と呼ぶ。 LSTMモデルでは,歩行周期の周期パターンと時間的に一致したフレームを同時に保持しながら,咬合を再構成し,フレームを生成する。

Recent advancements in computational resources and Deep Learning methodologies has significantly benefited development of intelligent vision-based surveillance applications. Gait recognition in the presence of occlusion is one of the challenging research topics in this area, and the solutions proposed by researchers to date lack in robustness and also dependent of several unrealistic constraints, which limits their practical applicability. We improve the state-of-the-art by developing novel deep learning-based algorithms to identify the occluded frames in an input sequence and next reconstruct these occluded frames by exploiting the spatio-temporal information present in the gait sequence. The multi-stage pipeline adopted in this work consists of key pose mapping, occlusion detection and reconstruction, and finally gait recognition. While the key pose mapping and occlusion detection phases are done %using Constrained KMeans Clustering and via a graph sorting algorithm, reconstruction of occluded frames is done by fusing the key pose-specific information derived in the previous step along with the spatio-temporal information contained in a gait sequence using a Bi-Directional Long Short Time Memory. This occlusion reconstruction model has been trained using synthetically occluded CASIA-B and OU-ISIR data, and the trained model is termed as Bidirectional Gait Reconstruction Network BGait-R-Net. Our LSTM-based model reconstructs occlusion and generates frames that are temporally consistent with the periodic pattern of a gait cycle, while simultaneously preserving the body structure.
翻訳日:2021-10-21 04:35:25 公開日:2021-10-18
# (参考訳) NMTのための多言語ドメイン適応:言語とドメイン情報をアダプタで分離する

Multilingual Domain Adaptation for NMT: Decoupling Language and Domain Information with Adapters ( http://arxiv.org/abs/2110.09574v1 )

ライセンス: CC BY 4.0
Asa Cooper Stickland, Alexandre B\'erard, Vassilina Nikoulina(参考訳) アダプタ層は軽量で学習可能なユニットであり、トランスフォーマー層の間に挿入される。 最近の研究は、ニューラルネットワーク翻訳(NMT)にそのようなレイヤを使用して、トレーニング済みモデルを新しいドメインまたは言語ペアに適応させ、新しい設定(言語ペアまたはドメイン)毎に小さなパラメータセットのみをトレーニングする。 本研究では,機械翻訳の文脈で言語とドメインアダプタの構成性について検討する。 研究を目標としています 1)複数のドメインや言語へのパラメータ効率の同時適応(フルリソースシナリオ) 2) 並列データが特定の言語ペア(部分的リソースシナリオ)で使用できない領域における言語間転送。 部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば、欠落した言語の‘破滅的な忘れ方’をもたらす。 我々は、この問題を緩和し、言語間移動を最大化するためにアダプタを組み合わせる他の方法を研究する。 最適なアダプタの組み合わせにより、ドメイン内データを持たないソース言語に対して平均3~4BLEUの改善が得られる。 ドメイン内データを持たないターゲット言語の場合、アダプタとバックトランスレーションを組み合わせることで同様の改善を達成します。 追加資料はhttps://tinyurl.com/r66stbxjで入手できる。

Adapter layers are lightweight, learnable units inserted between transformer layers. Recent work explores using such layers for neural machine translation (NMT), to adapt pre-trained models to new domains or language pairs, training only a small set of parameters for each new setting (language pair or domain). In this work we study the compositionality of language and domain adapters in the context of Machine Translation. We aim to study, 1) parameter-efficient adaptation to multiple domains and languages simultaneously (full-resource scenario) and 2) cross-lingual transfer in domains where parallel data is unavailable for certain language pairs (partial-resource scenario). We find that in the partial resource scenario a naive combination of domain-specific and language-specific adapters often results in `catastrophic forgetting' of the missing languages. We study other ways to combine the adapters to alleviate this issue and maximize cross-lingual transfer. With our best adapter combinations, we obtain improvements of 3-4 BLEU on average for source languages that do not have in-domain data. For target languages without in-domain data, we achieve a similar improvement by combining adapters with back-translation. Supplementary material is available at https://tinyurl.com/r66stbxj
翻訳日:2021-10-21 04:15:47 公開日:2021-10-18
# (参考訳) 生成的対向ネットワークを用いた足音効果のニューラル合成

Neural Synthesis of Footsteps Sound Effects with Generative Adversarial Networks ( http://arxiv.org/abs/2110.09605v1 )

ライセンス: CC BY 4.0
Marco Comunit\`a, Huy Phan, Joshua D. Reiss(参考訳) フットステップはマルチメディアアプリケーションで最もユビキタスな音効果の一つである。 音響的特徴の理解とフットステップ音響効果の合成モデルの開発には,かなりの研究がある。 本稿では,本課題にニューラルシンセシスを適用した最初の試みを提案する。 GANアーキテクチャを2つ実装し、実際の録音結果と従来の6つの音声合成手法を比較した。 私たちのアーキテクチャは、記録されたサンプルよりも高いリアリズムスコアに達しました。

Footsteps are among the most ubiquitous sound effects in multimedia applications. There is substantial research into understanding the acoustic features and developing synthesis models for footstep sound effects. In this paper, we present a first attempt at adopting neural synthesis for this task. We implemented two GAN-based architectures and compared the results with real recordings as well as six traditional sound synthesis methods. Our architectures reached realism scores as high as recorded samples, showing encouraging results for the task at hand.
翻訳日:2021-10-21 03:25:08 公開日:2021-10-18
# (参考訳) 機械学習モデルを用いたCOVID-19臨床データの効率的な分析

Efficient Analysis of COVID-19 Clinical Data using Machine Learning Models ( http://arxiv.org/abs/2110.09606v1 )

ライセンス: CC0 1.0
Sarwan Ali, Yijing Zhou, Murray Patterson(参考訳) 新型コロナウイルス(covid-19)が世界中のほぼすべての地域に急速に拡散しているため、膨大なデータとケーススタディが利用可能になり、研究者はそのようなビッグデータを活用することで、これまでにないようなトレンドを見つけ、発見する機会を研究者に与えている。 このデータは多種多様であり、正確さ、不正確さ、不確かさ、欠如など、さまざまなレベルの検証性を持つため、そのようなデータから重要な情報を抽出することは困難である。 しかし、新型コロナウイルス(covid-19)の継続的な成長と進化に関するデータの効率的な分析は、ウイルスの拡散をコントロールし、緩和し、最終的に避けるために必要な適切な手段をリアルタイムで知らせる上で重要である。 機械学習ベースのアルゴリズムをこのビッグデータに適用することは、このようなデータに迅速にスケールし、多様性と異なるレベルの妥当性の存在下で関連する情報を抽出できるため、この目的を達成するための自然なアプローチである。 これは新型コロナウイルス、将来のパンデミック全般にとって重要である。 本稿では,臨床データ(分類属性)を固定長特徴ベクトル表現に簡単に符号化し,その表現から効率的な特徴選択を行うモデルを提案する。 このアプローチをcovid-19患者の2つの臨床データセットに適用し,分類目的で下流の異なる機械学習アルゴリズムを適用する。 効率的な特徴選択アルゴリズムにより,ほとんどの場合,予測精度が90%以上になることを示す。 また、情報ゲインを用いてデータセット内の異なる属性の重要性を計算した。 このことは、政策立案者が患者の結果にあまり意味のない複数のランダムな要因に注目するのではなく、この疾患を研究する目的のために特定の属性のみに焦点を合わせるのに役立つ。

Because of the rapid spread of COVID-19 to almost every part of the globe, huge volumes of data and case studies have been made available, providing researchers with a unique opportunity to find trends and make discoveries like never before, by leveraging such big data. This data is of many different varieties, and can be of different levels of veracity e.g., precise, imprecise, uncertain, and missing, making it challenging to extract important information from such data. Yet, efficient analyses of this continuously growing and evolving COVID-19 data is crucial to inform -- often in real-time -- the relevant measures needed for controlling, mitigating, and ultimately avoiding viral spread. Applying machine learning based algorithms to this big data is a natural approach to take to this aim, since they can quickly scale to such data, and extract the relevant information in the presence of variety and different levels of veracity. This is important for COVID-19, and for potential future pandemics in general. In this paper, we design a straightforward encoding of clinical data (on categorical attributes) into a fixed-length feature vector representation, and then propose a model that first performs efficient feature selection from such representation. We apply this approach on two clinical datasets of the COVID-19 patients and then apply different machine learning algorithms downstream for classification purposes. We show that with the efficient feature selection algorithm, we can achieve a prediction accuracy of more than 90\% in most cases. We also computed the importance of different attributes in the dataset using information gain. This can help the policy makers to focus on only certain attributes for the purposes of studying this disease rather than focusing on multiple random factors that may not be very informative to patient outcomes.
翻訳日:2021-10-21 03:14:39 公開日:2021-10-18
# (参考訳) ソースコード解析のための機械学習技術に関する調査

A Survey on Machine Learning Techniques for Source Code Analysis ( http://arxiv.org/abs/2110.09610v1 )

ライセンス: CC BY 4.0
Tushar Sharma, Maria Kechagia, Stefanos Georgiou, Rohit Tiwari, Federica Sarro(参考訳) コンテキスト: 機械学習技術の進歩は、テストや脆弱性検出などのソースコード分析を使用する無数のソフトウェアエンジニアリングタスクに、これらの技術を適用するように研究者に促した。 多くの研究が、現在の風景を理解するためにコミュニティに挑戦している。 目的: ソースコード解析のための応用機械学習の分野における現在の知識を要約すること。 方法: ソフトウェア工学タスクの12のカテゴリとそれに対応する機械学習技術,ツール,およびそれを解決するために適用されたデータセットについて検討する。 そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。 我々は,特定した研究の助けを借りて,観察と発見をまとめる。 結果: ソースコード解析タスクにおける機械学習技術の利用が一貫して増加していることが示唆された。 一般的に使用されるステップとタスク全体のワークフローを合成し、使用する機械学習技術を要約する。 さらに、このコンテキストで利用可能なデータセットとツールの包括的なリストを照合します。 最後に、標準データセットの可用性、再現性と複製性、ハードウェアリソースなど、この分野における認識された課題を要約する。

Context: The advancements in machine learning techniques have encouraged researchers to apply these techniques to a myriad of software engineering tasks that use source code analysis such as testing and vulnerabilities detection. A large number of studies poses challenges to the community to understand the current landscape. Objective: We aim to summarize the current knowledge in the area of applied machine learning for source code analysis. Method: We investigate studies belonging to twelve categories of software engineering tasks and corresponding machine learning techniques, tools, and datasets that have been applied to solve them. To do so, we carried out an extensive literature search and identified 364 primary studies published between 2002 and 2021. We summarize our observations and findings with the help of the identified studies. Results: Our findings suggest that the usage of machine learning techniques for source code analysis tasks is consistently increasing. We synthesize commonly used steps and the overall workflow for each task, and summarize the employed machine learning techniques. Additionally, we collate a comprehensive list of available datasets and tools useable in this context. Finally, we summarize the perceived challenges in this area that include availability of standard datasets, reproducibility and replicability, and hardware resources.
翻訳日:2021-10-21 03:01:00 公開日:2021-10-18
# (参考訳) 無限確率混合によるサンプリングと変分推論の補間

Interpolating between sampling and variational inference with infinite stochastic mixtures ( http://arxiv.org/abs/2110.09618v1 )

ライセンス: CC BY 4.0
Richard D. Lange, Ari Benjamin, Ralf M. Haefner, Xaq Pitkow(参考訳) サンプリングと変分推論(VI)は相補的な強度を持つ近似推論の方法の2つの大きなファミリーである。 サンプリング法は任意の確率分布の近似に優れるが、非効率である。 VI法は効率的であるが、確率分布が複雑であれば失敗する。 本稿では,サンプリングとviの強度のバランスをとる中間アルゴリズムを構築するためのフレームワークを開発した。 どちらも単純な成分分布の混合を用いて確率分布を近似し、サンプリングでは各成分がデルタ関数で確率的に選択され、標準VIではばらつきを最小化するために単一の成分が選択される。 サンプリングとviは混合分布上の最適化問題の特別な場合として出現し、中間近似は1つのパラメータを変化させることで生じる。 次に,混合を確率的に構築する変動パラメータ上の閉形式サンプリングダイナミクスを導出する。 最後に、計算予算が与えられたサンプリングとVIの最適妥協を選択する方法について論じる。 この研究は、サンプリングとVIの相補的な強みを組み合わせた、非常に柔軟で単純な推論手法の族への第一歩である。

Sampling and Variational Inference (VI) are two large families of methods for approximate inference with complementary strengths. Sampling methods excel at approximating arbitrary probability distributions, but can be inefficient. VI methods are efficient, but can fail when probability distributions are complex. Here, we develop a framework for constructing intermediate algorithms that balance the strengths of both sampling and VI. Both approximate a probability distribution using a mixture of simple component distributions: in sampling, each component is a delta-function and is chosen stochastically, while in standard VI a single component is chosen to minimize divergence. We show that sampling and VI emerge as special cases of an optimization problem over a mixing distribution, and intermediate approximations arise by varying a single parameter. We then derive closed-form sampling dynamics over variational parameters that stochastically build a mixture. Finally, we discuss how to select the optimal compromise between sampling and VI given a computational budget. This work is a first step towards a highly flexible yet simple family of inference methods that combines the complementary strengths of sampling and VI.
翻訳日:2021-10-21 02:59:53 公開日:2021-10-18
# (参考訳) SARS-CoV-2変数の効率的なクラスタリングのためのロバスト表現と効率的な特徴選択

Robust Representation and Efficient Feature Selection Allows for Effective Clustering of SARS-CoV-2 Variants ( http://arxiv.org/abs/2110.09622v1 )

ライセンス: CC0 1.0
Zahra Tayebi, Sarwan Ali, Murray Patterson(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、SARS-CoV-2ウイルス上の大量のゲノムデータが広範囲に利用可能になったことで、研究者はウイルス以前のどのウイルスよりも詳細なレベルでこの病気を分析する機会を得た。 ひとつは、新型コロナウイルスの感染拡大を制御するために、生物学者や政策立案者、その他の当局が適時かつ適切な判断を下すのに役立つことだ。 一方で、こうした研究は、将来のパンデミックの可能性をより効果的に扱うのに役立つだろう。 SARS-CoV-2ウイルスは異なる変種を含むため、それぞれ異なる変異を持ち、そのようなデータの解析は難しい課題となる。 sars-cov-2ゲノムの変異の多くは、スパイクタンパク質(s)をコードする比較的短い領域であるゲノム配列のスパイク領域において不釣り合いに起こることが知られている。 そこで本稿では,世界中で非常に高い速度で増加している既知の変異体の挙動を研究するために,スパイクタンパク質配列をクラスター化する手法を提案する。 まず,k-mers法を用いてスパイク列の固定長特徴ベクトル表現を生成する。 次に、適切な特徴選択により、異なる変種に基づいてスパイクシーケンスを効率的かつ効果的にクラスタ化できることを示す。 sars-cov-2スパイクシーケンスの公開セットを用いて,ハードクラスタリングとソフトクラスタリングの2つの手法を用いて,これらのシーケンスのクラスタリングを行い,特徴選択手法により,クラスタのf1スコアを高めることができることを示す。

The widespread availability of large amounts of genomic data on the SARS-CoV-2 virus, as a result of the COVID-19 pandemic, has created an opportunity for researchers to analyze the disease at a level of detail unlike any virus before it. One one had, this will help biologists, policy makers and other authorities to make timely and appropriate decisions to control the spread of the coronavirus. On the other hand, such studies will help to more effectively deal with any possible future pandemic. Since the SARS-CoV-2 virus contains different variants, each of them having different mutations, performing any analysis on such data becomes a difficult task. It is well known that much of the variation in the SARS-CoV-2 genome happens disproportionately in the spike region of the genome sequence -- the relatively short region which codes for the spike protein(s). Hence, in this paper, we propose an approach to cluster spike protein sequences in order to study the behavior of different known variants that are increasing at very high rate throughout the world. We use a k-mers based approach to first generate a fixed-length feature vector representation for the spike sequences. We then show that with the appropriate feature selection, we can efficiently and effectively cluster the spike sequences based on the different variants. Using a publicly available set of SARS-CoV-2 spike sequences, we perform clustering of these sequences using both hard and soft clustering methods and show that with our feature selection methods, we can achieve higher F1 scores for the clusters.
翻訳日:2021-10-21 02:36:01 公開日:2021-10-18
# (参考訳) メタエリアソナーリングのための資源の理想的分割

Ideal Partition of Resources for Metareasoning ( http://arxiv.org/abs/2110.09624v1 )

ライセンス: CC BY-SA 4.0
Eric Horvitz and John Breese(参考訳) 我々は,解を実行する前に,基礎レベルの問題解決の性質や程度をメタ推論することで,計算値の大幅な向上を実現することができる。 しかし、メタ推論に不当にコミットされているリソースは、ソリューションの実行には利用できない。 したがって、メタ推論や制御に適用したいリソースの一部を決定することは、ソリューションプランの実行よりも重要である。 近年,機械のメタレゾン化による資源消費抑制の重要性が注目されている。 問題に対する解決策の実行に資源を適用するのに対して、コストのかかる推論資源を計画計画に理想的に割り当てる問題である。 メタレゾン化時間と異なる問題クラスに対する実行時間の関係を探索するために, 原型メタレソン化分割モデルを訓練する。 最後に,機能解析の文脈におけるメタレゾニングの価値を検討する。

We can achieve significant gains in the value of computation by metareasoning about the nature or extent of base-level problem solving before executing a solution. However, resources that are irrevocably committed to metareasoning are not available for executing a solution. Thus, it is important to determine the portion of resources we wish to apply to metareasoning and control versus to the execution of a solution plan. Recent research on rational agency has highlighted the importance of limiting the consumption of resources by metareasoning machinery. We shall introduce the metareasoning-partition problem--the problem of ideally apportioning costly reasoning resources to planning a solution versus applying resource to executing a solution to a problem. We exercise prototypical metareasoning-partition models to probe the relationships between time allocated to metareasoning and to execution for different problem classes. Finally, we examine the value of metareasoning in the context of our functional analyses.
翻訳日:2021-10-21 02:24:05 公開日:2021-10-18
# (参考訳) 関係性ニューラルマルコフ確率場

Relational Neural Markov Random Fields ( http://arxiv.org/abs/2110.09647v1 )

ライセンス: CC BY 4.0
Yuqiao Chen, Sriraam Natarajan, Nicholas Ruozzi(参考訳) 統計的関係学習(SRL)モデルは、不確実性に対処しながら複雑なデータをモデル化する能力によって大きな注目を集めている。 しかし、これらのモデルのほとんどは、ポテンシャル関数が限られているため、離散領域に限定されている。 複雑なリレーショナルハイブリッドドメインの処理を可能にするリレーショナルニューラルネットワークマルコフランダムフィールド(RN-MRF)を導入する。 モデルの主な利点は、データ分散の仮定を最小限にし、ポテンシャルや関係ルールを通じて人間の知識をシームレスに可能にすることです。 そこで本研究では,ニューラルポテンシャルパラメータのトレーニングに重要なサンプリングを施した擬似的推定に基づく学習アルゴリズムを提案する。 画像処理やリレーショナルオブジェクトマッピングなど,さまざまな領域にわたる実証的評価は,神経以外の領域に対する効果を明らかに示している。

Statistical Relational Learning (SRL) models have attracted significant attention due to their ability to model complex data while handling uncertainty. However, most of these models have been limited to discrete domains due to their limited potential functions. We introduce Relational Neural Markov Random Fields (RN-MRFs) which allow for handling of complex relational hybrid domains. The key advantage of our model is that it makes minimal data distributional assumptions and can seamlessly allow for human knowledge through potentials or relational rules. We propose a maximum pseudolikelihood estimation-based learning algorithm with importance sampling for training the neural potential parameters. Our empirical evaluations across diverse domains such as image processing and relational object mapping, clearly demonstrate its effectiveness against non-neural counterparts.
翻訳日:2021-10-21 02:14:59 公開日:2021-10-18
# (参考訳) ROC曲線における$f$-divergenceとロス関数

The $f$-divergence and Loss Functions in ROC Curve ( http://arxiv.org/abs/2110.09651v1 )

ライセンス: CC BY 4.0
Song Liu(参考訳) 2つのデータ分布とテストスコア関数が与えられたとき、受信者動作特性(ROC)曲線は、そのようなスコアがいかに2つの分布を分離するかを示す。 しかし、ROC曲線は2つの分布の相違の尺度として使用できるか? 本稿では, テストスコアとしてデータ確率比を用いると, ROC曲線の弧長が2つのデータ分布の差を測る新しい$f$-divergenceを生じることを示す。 この弧長を変動目的と経験的サンプルを用いて近似すると、以前は未知の損失関数を持つ経験的リスク最小化につながる。 我々は,ラグランジュ双対目標を提案し,推定問題にカーネルモデルを導入する。 本研究では, この推定器の非パラメトリック収束率について検討し, 実アークタンジェント密度比関数の穏やかな平滑性条件下では, 収束率は$o_p(n^{-\beta/4})$ (\beta \in (0,1]$) であることを示した。

Given two data distributions and a test score function, the Receiver Operating Characteristic (ROC) curve shows how well such a score separates two distributions. However, can the ROC curve be used as a measure of discrepancy between two distributions? This paper shows that when the data likelihood ratio is used as the test score, the arc length of the ROC curve gives rise to a novel $f$-divergence measuring the differences between two data distributions. Approximating this arc length using a variational objective and empirical samples leads to empirical risk minimization with previously unknown loss functions. We provide a Lagrangian dual objective and introduce kernel models into the estimation problem. We study the non-parametric convergence rate of this estimator and show under mild smoothness conditions of the real arctangent density ratio function, the rate of convergence is $O_p(n^{-\beta/4})$ ($\beta \in (0,1]$ depends on the smoothness).
翻訳日:2021-10-21 02:01:28 公開日:2021-10-18
# ディープニューラルネットワークの最小マルチ層修正

Minimal Multi-Layer Modifications of Deep Neural Networks ( http://arxiv.org/abs/2110.09929v1 )

ライセンス: Link先を確認
Idan Refaeli and Guy Katz(参考訳) 近年、ディープニューラルネットワーク(DNN)はますます人気が高まっている。 しかし、多くの成功にもかかわらず、DNNは、自律運転、診断、空中衝突回避システムなどの安全上重要な設定において、不正で致命的なアウトプットを発生させる可能性がある。 テストや検証などを通じて、DNNのこのような誤動作を検出する作業が数多く行われているが、検出後にこれらのエラーを取り除くことにはあまり注意が払われていない。 ここでは、与えられたDNNに対して \textsc{3M-DNN} と呼ばれる新しいツールを提示する。 textsc{3M-DNN}で実装された新しい修復手順は、ネットワークの重みの修正を計算し、その振る舞いを補正し、バックエンドのブラックボックスDNN検証エンジンへの一連の呼び出しによってこの変更を最小化しようとする。 私たちの知る限りでは、複数のレイヤを同時に修正することでネットワークを修復できる最初の方法です。 これはネットワークをサブネットワークに分割し、各コンポーネントに単層補修技術を適用することで実現される。 我々は,幅広いベンチマークのセットを用いて,textsc{3M-DNN}ツールを評価し,有望な結果を得た。 データ可用性のステートメント: アーティファクトはEasyChair ID 60の下でAECに提出されます。

Deep neural networks (DNNs) have become increasingly popular in recent years. However, despite their many successes, DNNs may also err and produce incorrect and potentially fatal outputs in safety-critical settings, such as autonomous driving, medical diagnosis, and airborne collision avoidance systems. Much work has been put into detecting such erroneous behavior in DNNs, e.g., via testing or verification, but removing these errors after their detection has received lesser attention. We present here a new tool, called \textsc{3M-DNN}, for \emph{repairing} a given DNN, which is known to err on some set of inputs. The novel repair procedure implemented in \textsc{3M-DNN} computes a modification to the network's weights that corrects its behavior, and attempts to minimize this change via a sequence of calls to a backend, black-box DNN verification engine. To the best of our knowledge, our method is the first one that allows repairing the network by simultaneously modifying multiple layers. This is achieved by splitting the network into sub-networks, and applying a single-layer repairing technique to each component. We evaluated \textsc{3M-DNN} tool on an extensive set of benchmarks, obtaining promising results. Data Availability Statement: An artifact will be submitted to the AEC under EasyChair ID 60.
翻訳日:2021-10-20 15:10:38 公開日:2021-10-18
# 異なる録音装置の音響シーン分類における対向領域適応とペア例

Adversarial Domain Adaptation with Paired Examples for Acoustic Scene Classification on Different Recording Devices ( http://arxiv.org/abs/2110.09598v1 )

ライセンス: Link先を確認
Stanis{\l}aw Kacprzak and Konrad Kowalczyk(参考訳) 分類タスクでは、異なる領域にデータが収集されると分類精度が低下する。 この問題に対処するため,本稿では,ドメイン適応(DA)の敵対モデルとその音響シーン分類タスクへの影響について検討する。 研究されたモデルには、異なる損失関数を持つGAN(Generative Adversarial Network)と、2つの相互接続GANモデルからなるいわゆるサイクルGANが含まれる。 実験はDCASE20チャレンジタスク1Aデータセット上で行われ、異なるデバイス、すなわちソースとターゲットドメインの記録を使用して記録されたデータのペア例を利用することができる。 実験の結果,目標ドメイン装置の精度が66%向上するサイクルGANを用いて,最も優れたドメイン適応が得られ,ソースドメインの精度が66%低下した。 さらに, ペア化データを用いて, モデルトレーニングの計算コストを低減しつつ, より大きな未ペア化データセットを用いてトレーニングしたモデルに対して, 全体的な精度を向上させることができる。

In classification tasks, the classification accuracy diminishes when the data is gathered in different domains. To address this problem, in this paper, we investigate several adversarial models for domain adaptation (DA) and their effect on the acoustic scene classification task. The studied models include several types of generative adversarial networks (GAN), with different loss functions, and the so-called cycle GAN which consists of two interconnected GAN models. The experiments are performed on the DCASE20 challenge task 1A dataset, in which we can leverage the paired examples of data recorded using different devices, i.e., the source and target domain recordings. The results of performed experiments indicate that the best performing domain adaptation can be obtained using the cycle GAN, which achieves as much as 66% relative improvement in accuracy for the target domain device, while only 6\% relative decrease in accuracy on the source domain. In addition, by utilizing the paired data examples, we are able to improve the overall accuracy over the model trained using larger unpaired data set, while decreasing the computational cost of the model training.
翻訳日:2021-10-20 15:06:49 公開日:2021-10-18
# パーソナライズされた音声強調:新しいモデルと包括的評価

Personalized Speech Enhancement: New Models and Comprehensive Evaluation ( http://arxiv.org/abs/2110.09625v1 )

ライセンス: Link先を確認
Sefik Emre Eskimez, Takuya Yoshioka, Huaming Wang, Xiaofei Wang, Zhuo Chen, Xuedong Huang(参考訳) パーソナライズド音声強調(pse)モデルは、d-vectorのような話者埋め込みなどの追加のヒントを利用して、バックグラウンドノイズを除去し、音声をリアルタイムに干渉することにより、様々な音響シナリオにおけるオンラインビデオ会議システムの音声品質を向上させる。 本研究では,従来提案されていたVoiceFilterよりも優れた性能を実現する2つのPSEニューラルネットワークを提案する。 さらに,ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成する。 さらに,対象話者の過剰抑制(TSOS)問題を測定するための新しい指標を提案する。 また,音声認識バックエンドを用いたマルチタスクトレーニングを提案する。 その結果,提案モデルではベースラインモデルよりも音声認識精度,音声理解性,知覚品質が向上し,マルチタスクトレーニングでは音声認識精度の向上に加えて,tsos問題も軽減できることがわかった。

Personalized speech enhancement (PSE) models utilize additional cues, such as speaker embeddings like d-vectors, to remove background noise and interfering speech in real-time and thus improve the speech quality of online video conferencing systems for various acoustic scenarios. In this work, we propose two neural networks for PSE that achieve superior performance to the previously proposed VoiceFilter. In addition, we create test sets that capture a variety of scenarios that users can encounter during video conferencing. Furthermore, we propose a new metric to measure the target speaker over-suppression (TSOS) problem, which was not sufficiently investigated before despite its critical importance in deployment. Besides, we propose multi-task training with a speech recognition back-end. Our results show that the proposed models can yield better speech recognition accuracy, speech intelligibility, and perceptual quality than the baseline models, and the multi-task training can alleviate the TSOS issue in addition to improving the speech recognition accuracy.
翻訳日:2021-10-20 15:06:32 公開日:2021-10-18
# クープマン演算子近似の系ノルム正規化法

System Norm Regularization Methods for Koopman Operator Approximation ( http://arxiv.org/abs/2110.09658v1 )

ライセンス: Link先を確認
Steven Dahdah and James Richard Forbes(参考訳) データからクープマン作用素を近似することは、多くの昇降関数を考えるとき、数値的に難しい。 低次元のシステムでさえ不安定あるいは不調な結果が高次元のリフト空間に生じることがある。 本稿では,線形行列不等式制約付き凸最適化問題として,コップマン演算子を近似する2つの一般的な手法である拡張MDDとMDDの制御を行う。 ハード漸近安定性の制約とシステムノルム正則化は、近似クープマン作用素の数値条件付けを改善する方法と見なされる。 特に、$\mathcal{h}_\infty$ノルムは、クープマン作用素によって定義される線形システムの入出力ゲインをペナライズするための正規化として用いられる。 重み付け関数は、特定の周波数でシステムの利得をペナライズするために適用される。

Approximating the Koopman operator from data is numerically challenging when many lifting functions are considered. Even low-dimensional systems can yield unstable or ill-conditioned results in a high-dimensional lifted space. In this paper, Extended DMD and DMD with control, two popular methods for approximating the Koopman operator, are reformulated as convex optimization problems with linear matrix inequality constraints. Both hard asymptotic stability constraints and system norm regularizers are considered as methods to improve the numerical conditioning of the approximate Koopman operator. In particular, the $\mathcal{H}_\infty$ norm is used as a regularizer to penalize the input-output gain of the linear system defined by the Koopman operator. Weighting functions are then applied to penalize the system gain at particular frequencies.
翻訳日:2021-10-20 15:05:05 公開日:2021-10-18
# CycleFlow: サイクル損失による情報要因の浄化

CycleFlow: Purify Information Factors by Cycle Loss ( http://arxiv.org/abs/2110.09928v1 )

ライセンス: Link先を確認
Haoran Sun and Chen Chen and Lantian Li and Dong Wang(参考訳) SpeechFlowは情報ボトルネック(IB)に基づく強力な分解モデルであり,その有効性はいくつかの研究によって報告されている。 しかし、SpeechFlowの潜在的な問題は、IBチャネルが十分に設計されていない場合、結果の因子が適切に絡み合えないことである。 本研究では,この問題を解決するためにランダム因子置換とサイクル損失を組み合わせたCycleFlowモデルを提案する。 音声変換タスクの実験は、この単純な手法が個々の要因間の相互情報を効果的に低減し、IBベースのSpeechFlowよりも明らかに優れた変換を実現できることを示した。 CycleFlowは、音声編集の強力なツールとしても使える。 この使用法を感情知覚実験によって実証する。

SpeechFlow is a powerful factorization model based on information bottleneck (IB), and its effectiveness has been reported by several studies. A potential problem of SpeechFlow, however, is that if the IB channels are not well designed, the resultant factors cannot be well disentangled. In this study, we propose a CycleFlow model that combines random factor substitution and cycle loss to solve this problem. Experiments on voice conversion tasks demonstrate that this simple technique can effectively reduce mutual information among individual factors, and produce clearly better conversion than the IB-based SpeechFlow. CycleFlow can also be used as a powerful tool for speech editing. We demonstrate this usage by an emotion perception experiment.
翻訳日:2021-10-20 15:04:26 公開日:2021-10-18
# BEV-SGD:アグリゲーションに基づくビザンチン系攻撃者に対するフェデレーション学習のためのベストエフォート投票SGD

BEV-SGD: Best Effort Voting SGD for Analog Aggregation Based Federated Learning against Byzantine Attackers ( http://arxiv.org/abs/2110.09660v1 )

ライセンス: Link先を確認
Xin Fan, Yue Wang, Yan Huo, and Zhi Tian(参考訳) 有望な分散学習技術として、アナログアグリゲーションに基づくFLOA(Federated Learning over the Air)は、エッジコンピューティングパラダイムにおける通信効率とプライバシ提供を提供する。 全てのエッジデバイス(作業者)が共通に共有される時間周波数リソースを通じてパラメータサーバ(PS)にローカル更新を同時にアップロードすると、PSは個々のローカル更新よりも平均更新しか取得できない。 その結果、このような同時送信と集約方式は通信のレイテンシとコストを低減させるが、FLOAをビザンティン攻撃に脆弱にし、FLOA性能を低下させる。 ビザンチン耐性FLOAの設計には,既存のFLOA文献で広く使われているチャネル反転(CI)電力制御機構の解析から着手する。 我々の理論的分析は、CIは非攻撃シナリオで優れた学習性能を達成できるが、ビザンチン攻撃に対する防御能力の制限がうまく機能しないことを示している。 そこで我々は,確率勾配降下(SGD)と統合されたBEV電力制御政策という新しい防衛方式を提案する。 当社のbev-sgdは,全作業員が最大送信電力でローカルアップデートを送信できるようにすることで,ビザンチン攻撃に対するフローアの堅牢性を向上させる。 最強の攻撃状況下では、それぞれFLOAとCI、BEVの電力制御ポリシーの収束率が期待される。 速度比較の結果,bev-sgdは,実験シミュレーションにより検証された収束挙動において,ciに匹敵する値を示した。

As a promising distributed learning technology, analog aggregation based federated learning over the air (FLOA) provides high communication efficiency and privacy provisioning in edge computing paradigm. When all edge devices (workers) simultaneously upload their local updates to the parameter server (PS) through the commonly shared time-frequency resources, the PS can only obtain the averaged update rather than the individual local ones. As a result, such a concurrent transmission and aggregation scheme reduces the latency and costs of communication but makes FLOA vulnerable to Byzantine attacks which then degrade FLOA performance. For the design of Byzantine-resilient FLOA, this paper starts from analyzing the channel inversion (CI) power control mechanism that is widely used in existing FLOA literature. Our theoretical analysis indicates that although CI can achieve good learning performance in the non-attacking scenarios, it fails to work well with limited defensive capability to Byzantine attacks. Then, we propose a novel defending scheme called best effort voting (BEV) power control policy integrated with stochastic gradient descent (SGD). Our BEV-SGD improves the robustness of FLOA to Byzantine attacks, by allowing all the workers to send their local updates at their maximum transmit power. Under the strongest-attacking circumstance, we derive the expected convergence rates of FLOA with CI and BEV power control policies, respectively. The rate comparison reveals that our BEV-SGD outperforms its counterpart with CI in terms of better convergence behavior, which is verified by experimental simulations.
翻訳日:2021-10-20 15:04:13 公開日:2021-10-18
# GNN計算グラフを理解する: 協調計算、IO、メモリパースペクティブ

Understanding GNN Computational Graph: A Coordinated Computation, IO, and Memory Perspective ( http://arxiv.org/abs/2110.09524v1 )

ライセンス: Link先を確認
Hengrui Zhang, Zhongming Yu, Guohao Dai, Guyue Huang, Yufei Ding, Yuan Xie, Yu Wang(参考訳) グラフニューラルネットワーク(GNN)は、様々な領域で広く使われており、高度な計算グラフを持つGNNは、より高いレイテンシとメモリ消費をもたらす。 GNN計算グラフの最適化は、(1)冗長なニューラル演算子計算に悩まされる。 同じデータはグラフ構造を通じて伝播され、gnnで同じニューラルネットワーク操作を複数回実行し、総オペレータの92.4%を占める冗長な計算に繋がる。 2) 一貫性のないスレッドマッピング。 頂点中心演算子とエッジ中心演算子の効率的なスレッドマッピングスキームは異なる。 この矛盾は、メモリIOを減らす演算子融合を禁止している。 (3)過剰な中間データ。 通常推論と並行して実行されるGNNトレーニングでは、中間データを後方パスに格納し、総メモリ要求の91.9%を消費しなければならない。 これらの課題に対処するために,新しい協調計算,IO,メモリの観点からGNN計算グラフを最適化する設計を提案する。 伝搬前に演算子を再編成してニューラル演算を行い、冗長計算を除去する。 (2)融合のための統一スレッドマッピング。 本稿では,頂点演算子と辺中心演算子を統一したスレッドマッピング方式を提案する。 (3)中間データ再計算。 中間データは後方パス中に再計算され、全メモリ消費が減少する。 3つの典型的なGNNモデルの大規模な実験結果から、最先端のフレームワークよりも最大2.75倍のスピードアップ、6.89倍のメモリIO、7.73倍のメモリ消費を実現した。

Graph Neural Networks (GNNs) have been widely used in various domains, and GNNs with sophisticated computational graph lead to higher latency and larger memory consumption. Optimizing the GNN computational graph suffers from: (1) Redundant neural operator computation. The same data are propagated through the graph structure to perform the same neural operation multiple times in GNNs, leading to redundant computation which accounts for 92.4% of total operators. (2) Inconsistent thread mapping. Efficient thread mapping schemes for vertex-centric and edge-centric operators are different. This inconsistency prohibits operator fusion to reduce memory IO. (3) Excessive intermediate data. For GNN training which is usually performed concurrently with inference, intermediate data must be stored for the backward pass, consuming 91.9% of the total memory requirement. To tackle these challenges, we propose following designs to optimize the GNN computational graph from a novel coordinated computation, IO, and memory perspective: (1) Propagation-postponed operator reorganization. We reorganize operators to perform neural operations before the propagation, thus the redundant computation is eliminated. (2) Unified thread mapping for fusion. We propose a unified thread mapping scheme for both vertex- and edge-centric operators to enable fusion and reduce IO. (3) Intermediate data recomputation. Intermediate data are recomputed during the backward pass to reduce the total memory consumption. Extensive experimental results on three typical GNN models show that, we achieve up to 2.75x end-to-end speedup, 6.89x less memory IO, and 7.73x less memory consumption over state-of-the-art frameworks.
翻訳日:2021-10-20 14:34:16 公開日:2021-10-18
# ReLUを用いた深部ニューラルネットワークの置換不変性

Permutation Invariance of Deep Neural Networks with ReLUs ( http://arxiv.org/abs/2110.09578v1 )

ライセンス: Link先を確認
Diganta Mukhopadhyay (1), Kumar Madhukar (2), Mandayam Srivas (3) (Chennai Mathematical Institute (1), TCS Research (2))(参考訳) 侵入者との衝突を避けるために航空機が旋回しなければならない方向を示唆するために使用されるディープニューラルネットワーク(dnn)を考える。 非公式には、侵入者が左(右)から近づくと、自船に右(左)に曲がるように頼むと、そのようなネットワークはうまく機能する。 契約ブリッジのゲームでプレイヤーに割り当てられたカードの4つの入力を受け取り、どのチームがゲームに入札できるかを決定する別のネットワークを考えてみよう。 粗雑な言い方をすれば、パートナー(北と南、東と西)の手を交換しても、決定は変わらない。 しかし、例えば、北の手を東と交換すれば、それは変わるだろう。 この置換不変性は、入力層と出力層の特定の置換に対して、これらのネットワークの正しさと頑健性の中心である。 本稿では、ReLUをアクティベーション関数とするDNNにおける変分不変性を確立するための、音響的抽象化に基づく手法を提案する。 この手法は到達可能な状態の過剰な近似と安全な状態の最小化を計算し、この情報を前方と後方の両方の層に伝播する。 提案手法の目新しさは,前方伝播に有用なタイクラス解析と,後方伝播時の領域数の指数関数的ブローアップを回避したスケーラブルな2-ポリトープ近似法である。 実験により,ネットワークの2つのコピー上でのFFNN検証を用いて,置換不変性を2つのセーフティ特性として検証するアルゴリズムの効率性を示す。

Consider a deep neural network (DNN) that is being used to suggest the direction in which an aircraft must turn to avoid a possible collision with an intruder aircraft. Informally, such a network is well-behaved if it asks the own ship to turn right (left) when an intruder approaches from the left (right). Consider another network that takes four inputs -- the cards dealt to the players in a game of contract bridge -- and decides which team can bid game. Loosely speaking, if you exchange the hands of partners (north and south, or east and west), the decision would not change. However, it will change if, say, you exchange north's hand with east. This permutation invariance property, for certain permutations at input and output layers, is central to the correctness and robustness of these networks. This paper proposes a sound, abstraction-based technique to establish permutation invariance in DNNs with ReLU as the activation function. The technique computes an over-approximation of the reachable states, and an under-approximation of the safe states, and propagates this information across the layers, both forward and backward. The novelty of our approach lies in a useful tie-class analysis, that we introduce for forward propagation, and a scalable 2-polytope under-approximation method that escapes the exponential blow-up in the number of regions during backward propagation. An experimental comparison shows the efficiency of our algorithm over that of verifying permutation invariance as a two-safety property (using FFNN verification over two copies of the network).
翻訳日:2021-10-20 14:33:50 公開日:2021-10-18
# transfusion:3次元ポーズ推定のためのtransfusionとtransformerのクロスビュー融合

TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation ( http://arxiv.org/abs/2110.09554v1 )

ライセンス: Link先を確認
Haoyu Ma, Liangjian Chen, Deying Kong, Zhe Wang, Xingwei Liu, Hao Tang, Xiangyi Yan, Yusheng Xie, Shih-Yao Lin, Xiaohui Xie(参考訳) 各ビューにおける2次元のポーズの推定は、通常、マルチビューの3dポーズのキャリブレーションの最初のステップである。 しかし、2dポーズ検出器の性能は、咬合や斜め視角などの困難な状況に苦しむ。 これらの課題に対処するために、先行研究はエピポーラ幾何から異なる視点間のポイント・ツー・ポイント対応を導出し、対応を利用して予測ヒートマップや特徴表現をマージする。 ここでは、予測後マージ/校正の代わりに、異なる視点からの情報を統合して個々の2次元予測器を直接改善することを目的とした、多視点3次元ポーズ推定のためのトランスフォーマーフレームワークを導入する。 従来のマルチモーダルトランスフォーマーに触発されて、transfusionという統一トランスフォーマーアーキテクチャを設計し、現在のビューと隣り合うビューの両方からヒントを得る。 さらに,3次元位置情報をトランスモデルに符号化するためのエピポーラ場の概念を提案する。 エピポーラフィールドによって誘導される3D位置符号化は、異なるビューの画素間の対応を効率的に符号化する方法を提供する。 ヒト3.6mおよびスキー場における実験により,本手法はより効率的で,他の融合法と比較して一貫した改良が得られた。 具体的には、256 x 256の解像度で5Mパラメータしか持たないHuman 3.6Mで25.8mmMPJPEを達成する。

Estimating the 2D human poses in each view is typically the first step in calibrated multi-view 3D pose estimation. But the performance of 2D pose detectors suffers from challenging situations such as occlusions and oblique viewing angles. To address these challenges, previous works derive point-to-point correspondences between different views from epipolar geometry and utilize the correspondences to merge prediction heatmaps or feature representations. Instead of post-prediction merge/calibration, here we introduce a transformer framework for multi-view 3D pose estimation, aiming at directly improving individual 2D predictors by integrating information from different views. Inspired by previous multi-modal transformers, we design a unified transformer architecture, named TransFusion, to fuse cues from both current views and neighboring views. Moreover, we propose the concept of epipolar field to encode 3D positional information into the transformer model. The 3D position encoding guided by the epipolar field provides an efficient way of encoding correspondences between pixels of different views. Experiments on Human 3.6M and Ski-Pose show that our method is more efficient and has consistent improvements compared to other fusion methods. Specifically, we achieve 25.8 mm MPJPE on Human 3.6M with only 5M parameters on 256 x 256 resolution.
翻訳日:2021-10-20 14:08:14 公開日:2021-10-18
# ハンドオフ:covid-19脅威制御のためのハンドシェイクインタラクション検出とローカライズモデル

Hands Off: A Handshake Interaction Detection and Localization Model for COVID-19 Threat Control ( http://arxiv.org/abs/2110.09571v1 )

ライセンス: Link先を確認
A.S. Jameel Hassan and Suren Sritharan and Gihan Jayatilaka and Roshan I. Godaliyadda and Parakrama B. Ekanayake and Vijitha Herath and Janaka B. Ekanayake(参考訳) 新型コロナウイルス(COVID-19)の感染拡大は世界中の何百万人もの人々に影響を与え、拡大を続けている。 ウイルスの拡散を制御するための多くのステップのうち、社会的距離の確保は重要かつ効果的な実践であった。 しかし、近年の社会的距離違反の報告は、公共空間の安全を確保するために非侵入的検出技術の必要性を示唆している。 本論文では,シーン内の複数の人との現実的なシナリオの範囲内でのハンドシェイクインタラクションをリアルタイムに検出し,複数のインタラクションを1フレームで検出するモデルを提案する。 これは、複数人の設定でdyadicインタラクションローカライゼーションを実行する最初の作品である。 提案モデルの有効性を3200フレーム以上の2つの異なるデータセットで評価し,異なる環境におけるロバストなローカライゼーションモデルを実現する。 提案手法は,複数対人環境における最初のダイアディック・インタラクション・ローカライザであり,公共空間においてハンドシェイク・インタラクションを識別し,ウイルス感染の特定と軽減に利用することができる。

The COVID-19 outbreak has affected millions of people across the globe and is continuing to spread at a drastic scale. Out of the numerous steps taken to control the spread of the virus, social distancing has been a crucial and effective practice. However, recent reports of social distancing violations suggest the need for non-intrusive detection techniques to ensure safety in public spaces. In this paper, a real-time detection model is proposed to identify handshake interactions in a range of realistic scenarios with multiple people in the scene and also detect multiple interactions in a single frame. This is the first work that performs dyadic interaction localization in a multi-person setting. The efficacy of the proposed model was evaluated across two different datasets on more than 3200 frames, thus enabling a robust localization model in different environments. The proposed model is the first dyadic interaction localizer in a multi-person setting, which enables it to be used in public spaces to identify handshake interactions and thereby identify and mitigate COVID-19 transmission.
翻訳日:2021-10-20 14:07:51 公開日:2021-10-18
# 半教師付き領域適応のための動的特徴アライメント

Dynamic Feature Alignment for Semi-supervised Domain Adaptation ( http://arxiv.org/abs/2110.09641v1 )

ライセンス: Link先を確認
Yu Zhang, Gongbo Liang, Nathan Jacobs(参考訳) ドメイン適応に関するほとんどの研究は、対象ドメインのラベル付き例がない純粋に教師なしの設定に焦点を当てている。 しかし、多くの現実世界のシナリオでは、少量のラベル付きターゲットデータが利用可能であり、適応性を改善するために使用できる。 この半教師付き設定に対処し、動的特徴アライメントを用いてドメイン間の差とドメイン内差に対処することを提案する。 ミニバッチ内でソースとターゲットの機能を調整する従来のアプローチとは異なり、ターゲット機能を動的に更新された一連のクラスプロトタイプにアライメントすることを提案し、ダイバージェンスと擬似ラベルの最小化に使用する。 クラスプロトタイプに基づいて更新することで、クラスの不均衡による以前のアプローチで発生する問題を回避する。 広範なチューニングや敵対的なトレーニングを必要としないこのアプローチは、半教師ありドメイン適応の技術を著しく改善します。 本研究では、DomainNetとOffice-Homeという2つの標準データセットの定量的評価と性能分析を行う。

Most research on domain adaptation has focused on the purely unsupervised setting, where no labeled examples in the target domain are available. However, in many real-world scenarios, a small amount of labeled target data is available and can be used to improve adaptation. We address this semi-supervised setting and propose to use dynamic feature alignment to address both inter- and intra-domain discrepancy. Unlike previous approaches, which attempt to align source and target features within a mini-batch, we propose to align the target features to a set of dynamically updated class prototypes, which we use both for minimizing divergence and pseudo-labeling. By updating based on class prototypes, we avoid problems that arise in previous approaches due to class imbalances. Our approach, which doesn't require extensive tuning or adversarial training, significantly improves the state of the art for semi-supervised domain adaptation. We provide a quantitative evaluation on two standard datasets, DomainNet and Office-Home, and performance analysis.
翻訳日:2021-10-20 14:07:33 公開日:2021-10-18
# A-Optimal Active Learning

A-Optimal Active Learning ( http://arxiv.org/abs/2110.09585v1 )

ライセンス: Link先を確認
Tue Boesen, Eldad Haber(参考訳) 本稿では,アクティブラーニングの問題について議論する。 本稿では,不適切な問題の最適実験設計に基づくアプローチを示し,それを部分的に検出することでデータセットを最適にラベル付けし,深層ネットワークを訓練する方法を示す。 データセット上で異なる仮定を行う2つのアプローチを提案する。 1つは、事前分布に使用されるグラフラプラシアンの半教師付き学習問題のベイズ的解釈に基づいており、2つ目は、ラベルの回復に基づくバイアス項の推定を更新する頻繁なアプローチに基づいている。 このアプローチはラベルの推定や深層ネットワークのトレーニングに非常に効果的であることを実証する。

In this work we discuss the problem of active learning. We present an approach that is based on A-optimal experimental design of ill-posed problems and show how one can optimally label a data set by partially probing it, and use it to train a deep network. We present two approaches that make different assumptions on the data set. The first is based on a Bayesian interpretation of the semi-supervised learning problem with the graph Laplacian that is used for the prior distribution and the second is based on a frequentist approach, that updates the estimation of the bias term based on the recovery of the labels. We demonstrate that this approach can be highly efficient for estimating labels and training a deep network.
翻訳日:2021-10-20 14:03:47 公開日:2021-10-18
# jaccard indexのさらなる一般化

Further Generalizations of the Jaccard Index ( http://arxiv.org/abs/2110.09619v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 2つの集合の類似性を定量化することは、集合論を含むいくつかの理論および応用問題において特に興味深く有用な操作となる。 2つの集合の類似性を定量化するために、jaccardインデックスは最も多様な種類の問題で広く使われ、またそれぞれの一般化の動機にもなっている。 この指標のさらなる一般化には、集合の内部性のレベルも説明できる偶然指数への修正、連続ベクトル空間における集合の拡張、関連する集合要素に関連する重みの考慮、密度への一般化と一般的なスカラー場、およびランダム変数間の結合相互依存性の定量化などが含まれる。 また、2つ以上の集合を考慮に入れた興味深い可能性として、3つの集合間の連鎖のレベルを定量化できる指標の記述がある。 記述および提案された一般化のいくつかは、数値ケースの例に関して説明されている。 また、これらの指標は、モデリングアプローチやパターン認識活動におけるデータセットの分析と統合において重要な役割を果たす可能性がある。

Quantifying the similarity between two sets constitutes a particularly interesting and useful operation in several theoretical and applied problems involving set theory. Aimed at quantifying the similarity between two sets, the Jaccard index has been extensively used in the most diverse types of problems, also motivating respective generalizations. The present work addressew further generalizations of this index, including its modification into a coincidence index capable of accounting also for the level of interiority of the sets, an extension for sets in continuous vector spaces, the consideration of weights associated to the involved set elements, the generalization to densities and generic scalar fields, as well as a means to quantify the joint interdependence between random variables. The also interesting possibility to take into account more than two sets was also addressed, including the description of an index capable of quantifying the level of chaining between three sets. Several of the described and suggested generalizations have been illustrated with respect to numeric case examples. It is also posited that these indices can play an important role while analyzing and integrating datasets in modeling approaches and pattern recognition activities.
翻訳日:2021-10-20 14:03:35 公開日:2021-10-18
# 加法モデルデータへの決定木適用に関する注意物語--一般化下界について

A cautionary tale on fitting decision trees to data from additive models: generalization lower bounds ( http://arxiv.org/abs/2110.09626v1 )

ライセンス: Link先を確認
Yan Shuo Tan, Abhineet Agarwal, Bin Yu(参考訳) 決定木は高い意思決定が可能な解釈可能なモデルとして重要であり、ランダム森林や勾配上昇などのアンサンブル手法の構築ブロックとして重要である。 しかし、その統計的な性質はよく分かっていない。 最も引用された先行研究は、古典的な非パラメトリック回帰設定におけるCARTの点方向の整合性保証の導出に焦点を当てている。 我々は異なるアプローチを採り、異なる生成回帰モデルに関して決定木の一般化性能を研究することを提唱する。 これにより、アルゴリズムが新しいデータに一般化する(あるいはしない)という仮定を導出することで、実践者がいつ、どのようにこれらの手法を適用するかを導くことができます。 本稿では,低統計的複雑度と非パラメトリックな柔軟性を有するスパース加法生成モデルに焦点をあてる。 我々は,$c^1$成分関数を持つスパース加法モデルに適合する大クラス決定木アルゴリズムに対して,シャープな二乗誤差一般化を下限として証明する。 この境界は、そのような疎加法モデルを推定するミニマックス速度よりも驚くほど悪い。 この非効率性は、例えば階層的な縮小によって木に基づくアルゴリズムを改善する機会を示唆する観察である、各葉に対してのみ反応を平均化するときに、グローバルな構造を検出する能力の喪失によるものである。 これらの限界を証明するため,情報理論のサブ分野である決定木推定とレート歪曲理論の新たな関係を確立するため,新しい技術機械を開発した。

Decision trees are important both as interpretable models amenable to high-stakes decision-making, and as building blocks of ensemble methods such as random forests and gradient boosting. Their statistical properties, however, are not well understood. The most cited prior works have focused on deriving pointwise consistency guarantees for CART in a classical nonparametric regression setting. We take a different approach, and advocate studying the generalization performance of decision trees with respect to different generative regression models. This allows us to elicit their inductive bias, that is, the assumptions the algorithms make (or do not make) to generalize to new data, thereby guiding practitioners on when and how to apply these methods. In this paper, we focus on sparse additive generative models, which have both low statistical complexity and some nonparametric flexibility. We prove a sharp squared error generalization lower bound for a large class of decision tree algorithms fitted to sparse additive models with $C^1$ component functions. This bound is surprisingly much worse than the minimax rate for estimating such sparse additive models. The inefficiency is due not to greediness, but to the loss in power for detecting global structure when we average responses solely over each leaf, an observation that suggests opportunities to improve tree-based algorithms, for example, by hierarchical shrinkage. To prove these bounds, we develop new technical machinery, establishing a novel connection between decision tree estimation and rate-distortion theory, a sub-field of information theory.
翻訳日:2021-10-20 13:56:30 公開日:2021-10-18
# 高次元回帰と低次元埋め込みのための十分な次元縮小:チュートリアルとサーベイ

Sufficient Dimension Reduction for High-Dimensional Regression and Low-Dimensional Embedding: Tutorial and Survey ( http://arxiv.org/abs/2110.09620v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本論文は,SDR(Sufficient Dimension Reduction)の様々な方法に関するチュートリアルおよび調査論文である。 これらの手法を,統計的な高次元回帰視点と機械学習による次元低減手法の両方でカバーする。 まず, Sliced Inverse Regression (SIR), Sliced Average Variance Estimation (SAVE), contour regression, directional regression, principal Fitted Components (PFC), Likelihood Acquired Direction (LAD), graphical regression などの逆回帰手法を導入する。 次に,主ヘシアン方向(pHd),最小平均分散推定(MAVE),条件変数推定(CVE),深部SDR法などの前方回帰手法を紹介する。 最後に、教師なしおよび教師なし学習のためのカーネル次元削減(KDR)について説明する。 また, 教師付きKDRと教師付きPCAは等価であることを示す。

This is a tutorial and survey paper on various methods for Sufficient Dimension Reduction (SDR). We cover these methods with both statistical high-dimensional regression perspective and machine learning approach for dimensionality reduction. We start with introducing inverse regression methods including Sliced Inverse Regression (SIR), Sliced Average Variance Estimation (SAVE), contour regression, directional regression, Principal Fitted Components (PFC), Likelihood Acquired Direction (LAD), and graphical regression. Then, we introduce forward regression methods including Principal Hessian Directions (pHd), Minimum Average Variance Estimation (MAVE), Conditional Variance Estimation (CVE), and deep SDR methods. Finally, we explain Kernel Dimension Reduction (KDR) both for supervised and unsupervised learning. We also show that supervised KDR and supervised PCA are equivalent.
翻訳日:2021-10-20 13:51:36 公開日:2021-10-18
# 低資源多言語関係分類のためのデータブートストラップ法

A Data Bootstrapping Recipe for Low Resource Multilingual Relation Classification ( http://arxiv.org/abs/2110.09570v1 )

ライセンス: Link先を確認
Arijit Nag, Bidisha Samanta, Animesh Mukherjee, Niloy Ganguly, Soumen Chakrabarti(参考訳) 関係分類(しばしば「抽出」と呼ばれる)は、微調整された大きな言語モデルや評価のために信頼できるデータセットを必要とする。 インドの言語では、構文上、形態上は多様であり、英語のようなリソース豊富な言語とは異なるため、データ収集は困難である。 インド語の深い生成モデルに対する近年の関心にもかかわらず、関係分類は依然として公開データセットではあまり役に立たない。 IndoREは3つのインド語と英語で、21Kエンティティと関係付けされた金の文をタグ付けしたデータセットである。 マルチリンガルBERT (mBERT) ベースのシステムからスタートし、エンティティのスパン位置と型情報をキャプチャし、競合するモノリンガル関係の分類を提供する。 本システムを用いて,言語間の伝達機構を探索・比較する。 特に,高価な金インスタンスと翻訳された'シルバー'インスタンスの精度のトレードオフについて検討した。 将来の研究のためのデータセットをリリースします。

Relation classification (sometimes called 'extraction') requires trustworthy datasets for fine-tuning large language models, as well as for evaluation. Data collection is challenging for Indian languages, because they are syntactically and morphologically diverse, as well as different from resource-rich languages like English. Despite recent interest in deep generative models for Indian languages, relation classification is still not well served by public data sets. In response, we present IndoRE, a dataset with 21K entity and relation tagged gold sentences in three Indian languages, plus English. We start with a multilingual BERT (mBERT) based system that captures entity span positions and type information and provides competitive monolingual relation classification. Using this system, we explore and compare transfer mechanisms between languages. In particular, we study the accuracy efficiency tradeoff between expensive gold instances vs. translated and aligned 'silver' instances. We release the dataset for future research.
翻訳日:2021-10-20 13:51:17 公開日:2021-10-18
# チャンク方向の並べ替えと精細化による単調同時翻訳

Monotonic Simultaneous Translation with Chunk-wise Reordering and Refinement ( http://arxiv.org/abs/2110.09646v1 )

ライセンス: Link先を確認
HyoJung Han, Seokchan Ahn, Yoonjung Choi, Insoo Chung, Sangha Kim, Kyunghyun Cho(参考訳) 機械翻訳における最近の研究は、従来の全文翻訳コーパスでしばしば訓練されており、単語の順序が著しく異なる言語対を扱う場合、過度なレイテンシや非誤りな単語を予測する必要が生じる。 これは、翻訳される文の文法性を犠牲にしてほとんど単調翻訳を行う人間の同時翻訳者とは異なる。 そこで本研究では,単語アライメントと非自己回帰型ニューラルマシン翻訳を用いて,ソース文とターゲット文の単語/フレーズが単調に並べられるように,全文翻訳コーパスのターゲット側を並べ替え,洗練するアルゴリズムを提案する。 そして、この再注文されたコーパス上で、広く使用されるwait-k同時翻訳モデルを訓練する。 提案手法はBLEUのスコアを改良し,結果の翻訳により文の単調性が向上する。

Recent work in simultaneous machine translation is often trained with conventional full sentence translation corpora, leading to either excessive latency or necessity to anticipate as-yet-unarrived words, when dealing with a language pair whose word orders significantly differ. This is unlike human simultaneous interpreters who produce largely monotonic translations at the expense of the grammaticality of a sentence being translated. In this paper, we thus propose an algorithm to reorder and refine the target side of a full sentence translation corpus, so that the words/phrases between the source and target sentences are aligned largely monotonically, using word alignment and non-autoregressive neural machine translation. We then train a widely used wait-k simultaneous translation model on this reordered-and-refined corpus. The proposed approach improves BLEU scores and resulting translations exhibit enhanced monotonicity with source sentences.
翻訳日:2021-10-20 13:19:25 公開日:2021-10-18
# 経路正規化:並列ReLUネットワークにおける凸性と疎結合による正規化

Path Regularization: A Convexity and Sparsity Inducing Regularization for Parallel ReLU Networks ( http://arxiv.org/abs/2110.09548v1 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) いくつかの試みにもかかわらず、ディープニューラルネットワークの成功の背後にある基本的なメカニズムはまだ解明されていない。 そこで我々は,ディープニューラルネットワークのトレーニングにおいて,隠れ凸性を明らかにするための新しい分析フレームワークを提案する。 我々は、複数のreluサブネットワークを持つ並列アーキテクチャを検討し、その特殊なケースとして、多くの標準ディープアーキテクチャとresnetを含む。 そこで,経路正則化に関する学習問題は,高次元空間における単一凸最適化問題として適用可能であることを示す。 さらに,同値凸プログラムが群間隔誘導ノルムを介して正規化されることを証明した。 したがって、ReLUサブネットワークを用いた経路正規化並列アーキテクチャは、高次元における擬似特徴選択法とみなすことができる。 さらに、等価凸問題を大域的に最適化するために必要な計算複雑性は、データサンプルの数や特徴次元に関して多項式時間であることを示す。 そこで我々は,大域的最適性保証を持つ経路正規化深層reluネットワークの多項式時間学習精度を証明した。 また,この理論を裏付ける数値実験もいくつか実施する。

Despite several attempts, the fundamental mechanisms behind the success of deep neural networks still remain elusive. To this end, we introduce a novel analytic framework to unveil hidden convexity in training deep neural networks. We consider a parallel architecture with multiple ReLU sub-networks, which includes many standard deep architectures and ResNets as its special cases. We then show that the training problem with path regularization can be cast as a single convex optimization problem in a high-dimensional space. We further prove that the equivalent convex program is regularized via a group sparsity inducing norm. Thus, a path regularized parallel architecture with ReLU sub-networks can be viewed as a parsimonious feature selection method in high-dimensions. More importantly, we show that the computational complexity required to globally optimize the equivalent convex problem is polynomial-time with respect to the number of data samples and feature dimension. Therefore, we prove exact polynomial-time trainability for path regularized deep ReLU networks with global optimality guarantees. We also provide several numerical experiments corroborating our theory.
翻訳日:2021-10-20 13:18:40 公開日:2021-10-18
# ラベル記述パターンと分類誤差のキャラクタリゼーションへの応用

Label-Descriptive Patterns and their Application to Characterizing Classification Errors ( http://arxiv.org/abs/2110.09599v1 )

ライセンス: Link先を確認
Michael Hedderich, Jonas Fischer, Dietrich Klakow and Jilles Vreeken(参考訳) 最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。 これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。 本稿では,予測の正確性に応じて分割された入力データを簡潔に記述するパターン群をマイニングすることにより,任意の分類器に対してそれを可能にする手法を提案する。 これはより一般的なラベル記述問題の例であり、最小記述長原理を用いて定式化する。 優れたパターン集合を発見するために、我々は、効率的でハイパーパラメータフリーなPremiseアルゴリズムを提案する。このアルゴリズムは、合成データと実世界のデータの両方で広範な実験によって、実際に非常によく機能する。 2つの実世界のケーススタディを通して、Premiseが現代のNLP分類器による体系的誤りについて明確かつ実用的な洞察を与えることを確認した。

State-of-the-art deep learning methods achieve human-like performance on many tasks, but make errors nevertheless. Characterizing these errors in easily interpretable terms gives insight into whether a model is prone to making systematic errors, but also gives a way to act and improve the model. In this paper we propose a method that allows us to do so for arbitrary classifiers by mining a small set of patterns that together succinctly describe the input data that is partitioned according to correctness of prediction. We show this is an instance of the more general label description problem, which we formulate in terms of the Minimum Description Length principle. To discover good pattern sets we propose the efficient and hyperparameter-free Premise algorithm, which through an extensive set of experiments we show on both synthetic and real-world data performs very well in practice; unlike existing solutions it ably recovers ground truth patterns, even on highly imbalanced data over many unique items, or where patterns are only weakly associated to labels. Through two real-world case studies we confirm that Premise gives clear and actionable insight into the systematic errors made by modern NLP classifiers.
翻訳日:2021-10-20 13:16:15 公開日:2021-10-18
# sparse progressive distillation:pretrain-and-finetuneパラダイム下でのオーバーフィッティングの解決

Sparse Progressive Distillation: Resolving Overfitting under Pretrain-and-Finetune Paradigm ( http://arxiv.org/abs/2110.08190v2 )

ライセンス: Link先を確認
Shaoyi Huang, Dongkuan Xu, Ian E.H. Yen, Sung-en Chang, Bingbing Li, Shiyang Chen, Mimi Xie, Hang Liu, Caiwen Ding(参考訳) トランスフォーマーベースの言語モデルのフットプリント要求を減らすために、様々なプルーニング手法が提案されている。 従来の考え方では、プルーニングはモデル表現力を減らすため、元のモデルよりも過剰に適合するよりも不適合になりがちである。 しかし,モデルが下流タスクから学ばなければならない情報量を増やし,相対的なデータ不足を生じさせるため,微調整段階での刈り込みを行うと,刈り込みは過剰フィッティングのリスクを増大させる,という傾向が強い。 本稿では,先進的知識蒸留(KD)とスパースプルーニング(スパースプルーニング)を用いて,プレトレイン・アンド・ファネチューンパラダイムの下でのオーバーフィッティング問題に対処することを目的とする。 さらに, 学習率, 熟成, 蒸留の異なる戦略間の干渉を軽減するために, 3段階学習フレームワークを提案する。 オーバーフィッティングのリスクを減らすことが,プレトレイン・アンド・ファインチューンパラダイムの下での刈り込みの有効性を初めて示す。 GLUEベンチマークの複数のデータセットを用いた実験により,提案手法は,異なるプルーニング比の制約にまたがって,最先端の競合相手に対して高い競合的なプルーニング性能を達成できることを示した。

Various pruning approaches have been proposed to reduce the footprint requirements of Transformer-based language models. Conventional wisdom is that pruning reduces the model expressiveness and thus is more likely to underfit than overfit compared to the original model. However, under the trending pretrain-and-finetune paradigm, we argue that pruning increases the risk of overfitting if pruning was performed at the fine-tuning phase, as it increases the amount of information a model needs to learn from the downstream task, resulting in relative data deficiency. In this paper, we aim to address the overfitting issue under the pretrain-and-finetune paradigm to improve pruning performance via progressive knowledge distillation (KD) and sparse pruning. Furthermore, to mitigate the interference between different strategies of learning rate, pruning and distillation, we propose a three-stage learning framework. We show for the first time that reducing the risk of overfitting can help the effectiveness of pruning under the pretrain-and-finetune paradigm. Experiments on multiple datasets of GLUE benchmark show that our method achieves highly competitive pruning performance over the state-of-the-art competitors across different pruning ratio constraints.
翻訳日:2021-10-20 11:34:55 公開日:2021-10-18
# (参考訳) フェデレーションエッジコンピューティングのためのマルチエージェント強化ネットワークにおけるSim-to-Real転送

Sim-to-Real Transfer in Multi-agent Reinforcement Networking for Federated Edge Computing ( http://arxiv.org/abs/2110.08952v1 )

ライセンス: CC BY-SA 4.0
Pinyarash Pinyoanuntapong, Tagore Pothuneedi, Ravikumar Balakrishnan, Minwoo Lee, Chen Chen, Pu Wang(参考訳) 無線マルチホップエッジコンピューティングネットワーク(すなわちマルチホップfl)上でのフェデレーション学習(federated learning, fl)は、コスト効率の高い分散オンデバイスディープラーニングパラダイムである。 本稿では,マルチホップFLシステムの高速プロトタイピング,sim-to-realコード,知識伝達を可能にする,高忠実なLinuxベースシミュレータであるFedEdgeシミュレータを提案する。 FedEdgeシミュレータはハードウェア指向のFedEdge実験フレームワーク上に構築されており、リアルな物理層エミュレータを新たに拡張している。 このエミュレータはトレースベースのチャネルモデリングと動的リンクスケジューリングを利用して、シミュレータと物理的テストベッドの間の現実のギャップを最小限にする。 実験では,強化学習最適化マルチホップflにおいて,feededgeシミュレータの忠実度とsim-to-real知識伝達の優れた性能を示す。

Federated Learning (FL) over wireless multi-hop edge computing networks, i.e., multi-hop FL, is a cost-effective distributed on-device deep learning paradigm. This paper presents FedEdge simulator, a high-fidelity Linux-based simulator, which enables fast prototyping, sim-to-real code, and knowledge transfer for multi-hop FL systems. FedEdge simulator is built on top of the hardware-oriented FedEdge experimental framework with a new extension of the realistic physical layer emulator. This emulator exploits trace-based channel modeling and dynamic link scheduling to minimize the reality gap between the simulator and the physical testbed. Our initial experiments demonstrate the high fidelity of the FedEdge simulator and its superior performance on sim-to-real knowledge transfer in reinforcement learning-optimized multi-hop FL.
翻訳日:2021-10-20 07:28:41 公開日:2021-10-18
# (参考訳) 不確実性を考慮した半監督型ショットセグメンテーション

Uncertainty-Aware Semi-Supervised Few Shot Segmentation ( http://arxiv.org/abs/2110.08954v1 )

ライセンス: CC BY 4.0
Soopil Kim, Philip Chikontwe, Sang Hyun Park(参考訳) 少ないショットセグメンテーション(FSS)は、いくつかのアノテーション付きサポートサンプルを使用して、クエリ画像中の対象オブジェクトのピクセルレベルの分類を学習することを目的としている。 これは、ターゲットオブジェクトの外観のバリエーションと、限られた情報でクエリーとサポート画像の間の様々な視覚的な手がかりをモデル化する必要があるため、困難である。 この問題に対処するために,不確実性にガイドされた擬似ラベルリファインメントを備えたラベル付き画像から,新たなプロトタイプを活用する半教師付きFSS戦略を提案する。 ラベルのない画像から信頼できるプロトタイプを得るため、ニューラルネットワークをメタトレーニングし、セグメンテーションを共同で予測し、予測の不確かさを推定する。 我々は,疑似ラベル構築のための不確実度の高い予測を除外し,改良された疑似ラベルに基づく追加プロトタイプを得るために不確実性推定を用いる。 推論中、クエリのセグメンテーションは、クエリイメージの低レベル機能を含む、サポートとラベルなしイメージの両方のプロトタイプを使用して予測される。 我々のアプローチはエンドツーエンドであり、ラベルなしサンプルを使用するための追加のトレーニングを必要とせずに既存のアプローチを簡単に補うことができる。 PASCAL-$5^i$およびCOCO-$20^i$の大規模な実験により,我々のモデルは疑似ラベルを洗練するための信頼性の低い予測を効果的に除去し,最先端の性能を大幅に向上させることができることを示した。

Few shot segmentation (FSS) aims to learn pixel-level classification of a target object in a query image using only a few annotated support samples. This is challenging as it requires modeling appearance variations of target objects and the diverse visual cues between query and support images with limited information. To address this problem, we propose a semi-supervised FSS strategy that leverages additional prototypes from unlabeled images with uncertainty guided pseudo label refinement. To obtain reliable prototypes from unlabeled images, we meta-train a neural network to jointly predict segmentation and estimate the uncertainty of predictions. We employ the uncertainty estimates to exclude predictions with high degrees of uncertainty for pseudo label construction to obtain additional prototypes based on the refined pseudo labels. During inference, query segmentation is predicted using prototypes from both support and unlabeled images including low-level features of the query images. Our approach is end-to-end and can easily supplement existing approaches without the requirement of additional training to employ unlabeled samples. Extensive experiments on PASCAL-$5^i$ and COCO-$20^i$ demonstrate that our model can effectively remove unreliable predictions to refine pseudo labels and significantly improve upon state-of-the-art performances.
翻訳日:2021-10-20 07:17:17 公開日:2021-10-18
# (参考訳) 対向訓練による電力系統制御のための強化学習のロバスト性向上

Improving Robustness of Reinforcement Learning for Power System Control with Adversarial Training ( http://arxiv.org/abs/2110.08956v1 )

ライセンス: CC BY 4.0
Alexander Pan, Yongkyun (Daniel) Lee, Huan Zhang, Yize Chen, Yuanyuan Shi(参考訳) 再生可能エネルギーの増殖と本質的な断続性と確率性により、現在の電力システムは厳しい運用上の課題に直面している。 データ駆動による強化学習(RL)による意思決定アルゴリズムはクリーンエネルギーシステムを効率的に運用するためのソリューションを提供する。 rlアルゴリズムはモデルベースの制御モデルと比較して有望な性能を発揮するが、安全性クリティカルな物理システムにおけるrlの堅牢性に関する調査は限られている。 本研究では,電力系統制御のために提案された競争に勝る最先端のRLエージェントが,敵攻撃に対して脆弱であることを示す。 具体的には,攻撃方針を学習するために敵対的マルコフ決定プロセスを使用し,ホワイトボックスおよびブラックボックス攻撃設定下で,学習から複数の勝利エージェントを攻撃し,パワーネットワーク(l2rpn)チャレンジを実行することにより,攻撃の威力を示す。 次に,RLエージェントの攻撃に対する堅牢性を高め,実行不可能な運用上の決定を回避するために,敵の訓練を利用することを提案する。 我々の知る限り、我々の研究はグリッド制御RLアルゴリズムの脆弱性を初めて強調し、その堅牢性とセキュリティを改善するための効果的な防御スキームに貢献する。

Due to the proliferation of renewable energy and its intrinsic intermittency and stochasticity, current power systems face severe operational challenges. Data-driven decision-making algorithms from reinforcement learning (RL) offer a solution towards efficiently operating a clean energy system. Although RL algorithms achieve promising performance compared to model-based control models, there has been limited investigation of RL robustness in safety-critical physical systems. In this work, we first show that several competition-winning, state-of-the-art RL agents proposed for power system control are vulnerable to adversarial attacks. Specifically, we use an adversary Markov Decision Process to learn an attack policy, and demonstrate the potency of our attack by successfully attacking multiple winning agents from the Learning To Run a Power Network (L2RPN) challenge, under both white-box and black-box attack settings. We then propose to use adversarial training to increase the robustness of RL agent against attacks and avoid infeasible operational decisions. To the best of our knowledge, our work is the first to highlight the fragility of grid control RL algorithms, and contribute an effective defense scheme towards improving their robustness and security.
翻訳日:2021-10-20 07:03:51 公開日:2021-10-18
# (参考訳) SS-MAIL:自己監督型マルチエージェント模倣学習

SS-MAIL: Self-Supervised Multi-Agent Imitation Learning ( http://arxiv.org/abs/2110.08963v1 )

ライセンス: CC BY 4.0
Akshay Dharmavaram, Tejus Gupta, Jiachen Li, Katia P. Sycara(参考訳) マルチエージェント・エキスパート模倣の現在の展望は、行動クローニング(bc)と敵対的模倣学習(ail)の2つのアルゴリズムによって広く支配されている。 bcアプローチは、軌道生成問題の逐次的決定性を無視しているため、エラーの複合化に苦しむ。 さらに、マルチモーダルな振る舞いを効果的にモデル化することはできない。 AIL法は複合的なエラーやマルチモーダルなポリシートレーニングの問題を解決するが、トレーニングダイナミクスの不安定さに悩まされている。 本研究では,よりリッチな報酬関数を識別する新たな自己監督的損失を導入することで,この問題に対処する。 我々は,学習された潜伏相互作用グラフに基づいて,集中型ポリシーを学習するグラフベースのマルチエージェントアクタ批判アーキテクチャを訓練する。 提案手法は,実世界の予測タスクやカスタムデザインによる合成実験において,事前の最先端手法よりも優れていることを示す。 SS-MAILはコスト調整型見習い学習に理論的に関係があることを実証する。 さらに, 自己指導式を活用し, 生成する軌道長を段階的に増やし, サンプル効率を向上させる新しい教員強制型カリキュラム(軌道強制)を導入する。 ss-mailフレームワークは、ポリシトレーニングの安定化、報酬シェーピング機能の改善、マルチモーダルトラジェクタのモデリング機能を提供することで、マルチエージェント模倣能力を向上させる。

The current landscape of multi-agent expert imitation is broadly dominated by two families of algorithms - Behavioral Cloning (BC) and Adversarial Imitation Learning (AIL). BC approaches suffer from compounding errors, as they ignore the sequential decision-making nature of the trajectory generation problem. Furthermore, they cannot effectively model multi-modal behaviors. While AIL methods solve the issue of compounding errors and multi-modal policy training, they are plagued with instability in their training dynamics. In this work, we address this issue by introducing a novel self-supervised loss that encourages the discriminator to approximate a richer reward function. We employ our method to train a graph-based multi-agent actor-critic architecture that learns a centralized policy, conditioned on a learned latent interaction graph. We show that our method (SS-MAIL) outperforms prior state-of-the-art methods on real-world prediction tasks, as well as on custom-designed synthetic experiments. We prove that SS-MAIL is part of the family of AIL methods by providing a theoretical connection to cost-regularized apprenticeship learning. Moreover, we leverage the self-supervised formulation to introduce a novel teacher forcing-based curriculum (Trajectory Forcing) that improves sample efficiency by progressively increasing the length of the generated trajectory. The SS-MAIL framework improves multi-agent imitation capabilities by stabilizing the policy training, improving the reward shaping capabilities, as well as providing the ability for modeling multi-modal trajectories.
翻訳日:2021-10-20 06:49:47 公開日:2021-10-18
# (参考訳) 屋外環境における3次元4次元ランドマーク構築による高精度でロバストなオブジェクト指向SLAM

Accurate and Robust Object-oriented SLAM with 3D Quadric Landmark Construction in Outdoor Environment ( http://arxiv.org/abs/2110.08977v1 )

ライセンス: CC BY 4.0
Rui Tian, Yunzhou Zhang, Yonghui Feng, Linghao Yang, Zhenzhong Cao, Sonya Coleman, Dermot Kerr(参考訳) オブジェクト指向SLAMは自律走行とロボット工学で一般的な技術である。 本稿では,ロバストな2次ランドマーク表現を用いた立体視SLAMを提案する。 このシステムは、ディープラーニング検出、オブジェクト指向データアソシエーション、二重二次ランドマーク初期化、オブジェクトベースのポーズ最適化を含む4つのコンポーネントで構成されている。 最先端のquadric-based slamアルゴリズムは常に観測関連の問題に直面し、観測ノイズに敏感である。 そこで本研究では,観測ノイズに対するロバスト性を向上させるために,二次パラメータ法の分離に基づく二次初期化法を提案する。 十分なオブジェクトデータアソシエーションアルゴリズムと複数のキューによるオブジェクト指向最適化は、局所観測にロバストな高精度なオブジェクトポーズ推定を可能にする。 実験結果から, 提案システムは観測騒音に対してより頑健であり, 屋外環境での最先端手法よりも優れていた。 また,提案システムではリアルタイムな性能を示す。

Object-oriented SLAM is a popular technology in autonomous driving and robotics. In this paper, we propose a stereo visual SLAM with a robust quadric landmark representation method. The system consists of four components, including deep learning detection, object-oriented data association, dual quadric landmark initialization and object-based pose optimization. State-of-the-art quadric-based SLAM algorithms always face observation related problems and are sensitive to observation noise, which limits their application in outdoor scenes. To solve this problem, we propose a quadric initialization method based on the decoupling of the quadric parameters method, which improves the robustness to observation noise. The sufficient object data association algorithm and object-oriented optimization with multiple cues enables a highly accurate object pose estimation that is robust to local observations. Experimental results show that the proposed system is more robust to observation noise and significantly outperforms current state-of-the-art methods in outdoor environments. In addition, the proposed system demonstrates real-time performance.
翻訳日:2021-10-20 06:36:33 公開日:2021-10-18
# (参考訳) FEANet: RGB-Thermal Real-time Semantic Segmentationのための機能強化アテンションネットワーク

FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation ( http://arxiv.org/abs/2110.08988v1 )

ライセンス: CC BY 4.0
Fuqin Deng, Hua Feng, Mingjian Liang, Hongmin Wang, Yong Yang, Yuan Gao, Junfeng Chen, Junjie Hu, Xiyue Guo, and Tin Lun Lam(参考訳) セマンティックセグメンテーションのためのRGB-Thermal (RGB-T) 情報は近年広く研究されている。 しかし、既存のRGB-Tセマンティックセマンティックセグメンテーションは、通常、空間分解能を妥協してリアルタイムの推論速度を達成し、性能が低下する。 詳細な空間情報を抽出するため,rgb-tセマンティクスセグメンテーションタスクのための2段階特徴強調アテンションネットワーク(feanet)を提案する。 具体的には、チャネルビューと空間ビューの両方からマルチレベル特徴を発掘・拡張するための機能拡張注意モジュール(FEAM)を導入する。 提案する FEAM モジュールに特化して,FEANet は空間情報を保存し,融合した RGB-T 画像から高分解能な特徴に注目する。 都市景観データセットの大規模な実験により、我々のFEANetは、客観的な指標と主観的視覚比較(グローバルmAccでは+2.6%、グローバルmIoUでは+0.8%)の観点から、他の最先端(SOTA)RGB-T法よりも優れていることが示された。 480 x 640 RGB-Tテスト画像の場合、当社のFEANetはNVIDIA GeForce RTX 2080 Tiカード上でリアルタイムに実行できます。

The RGB-Thermal (RGB-T) information for semantic segmentation has been extensively explored in recent years. However, most existing RGB-T semantic segmentation usually compromises spatial resolution to achieve real-time inference speed, which leads to poor performance. To better extract detail spatial information, we propose a two-stage Feature-Enhanced Attention Network (FEANet) for the RGB-T semantic segmentation task. Specifically, we introduce a Feature-Enhanced Attention Module (FEAM) to excavate and enhance multi-level features from both the channel and spatial views. Benefited from the proposed FEAM module, our FEANet can preserve the spatial information and shift more attention to high-resolution features from the fused RGB-T images. Extensive experiments on the urban scene dataset demonstrate that our FEANet outperforms other state-of-the-art (SOTA) RGB-T methods in terms of objective metrics and subjective visual comparison (+2.6% in global mAcc and +0.8% in global mIoU). For the 480 x 640 RGB-T test images, our FEANet can run with a real-time speed on an NVIDIA GeForce RTX 2080 Ti card.
翻訳日:2021-10-20 06:24:31 公開日:2021-10-18
# (参考訳) 選択的推論による多次元多重変化点の統計的検証

Valid and Exact Statistical Inference for Multi-dimensional Multiple Change-Points by Selective Inference ( http://arxiv.org/abs/2110.08989v1 )

ライセンス: CC BY 4.0
Ryota Sugiyama, Hiroki Toda, Vo Nguyen Le Duy, Yu Inatsu, Ichiro Takeuchi(参考訳) 本稿では,多次元配列における変化点(CP)の統計的推測について検討する。 多次元配列からのCP検出では、位置を検出するだけでなく、変化が起こるコンポーネントのサブセットを特定することも望ましい。 このような問題に対していくつかのアルゴリズムが提案されているが、検出された位置や成分の統計的信頼性を評価するための正確な推測法は確立されていない。 本研究では,検出された変化の位置と成分の両方の統計的信頼性を保証する手法を提案する。 提案手法の有効性を,ゲノム異常の同定と人間の行動解析の問題点に適用することで実証する。

In this paper, we study statistical inference of change-points (CPs) in multi-dimensional sequence. In CP detection from a multi-dimensional sequence, it is often desirable not only to detect the location, but also to identify the subset of the components in which the change occurs. Several algorithms have been proposed for such problems, but no valid exact inference method has been established to evaluate the statistical reliability of the detected locations and components. In this study, we propose a method that can guarantee the statistical reliability of both the location and the components of the detected changes. We demonstrate the effectiveness of the proposed method by applying it to the problems of genomic abnormality identification and human behavior analysis.
翻訳日:2021-10-20 06:10:53 公開日:2021-10-18
# (参考訳) Wasserstein Barycenter の次元化

Dimensionality Reduction for Wasserstein Barycenter ( http://arxiv.org/abs/2110.08991v1 )

ライセンス: CC BY 4.0
Zachary Izzo, Sandeep Silwal, Samson Zhou(参考訳) wasserstein barycenterは、確率分布間の中心性の概念を捉えた幾何学的構成であり、機械学習に多くの応用がある。 しかし、近似的なバリーセンターを見つけるアルゴリズムの多くは、分布の基底空間の次元 $d$ に指数関数的に依存する。 この「次元の曲線」に対処するために,ワッサースタイン・バリセンター問題の次元性低減手法について検討した。 barycenter が $n$ の大きさのサポートに制限されている場合、ランダム化された次元の縮小は、その問題を $d$ と $k$ の両方に依存しない次元 $o(\log n)$ の空間にマッピングするのに使用され、縮小次元にある \emph{any} の解は元の空間における任意の小さな誤差までコストが保たれることを示した。 縮小次元の大きさの上限値と下限値とを一致させて,本手法が定数因子まで最適であることを示す。 また,wasserstein barycenter問題に対するコアセット構成も提供し,入力分布の数を大幅に減少させる。 コアセットはランダムなプロジェクションと組み合わせて使用することができ、計算時間をさらに改善することができる。 最後に, ソリューションの品質を維持しつつ, 次元減少によるスピードアップを検証した。

The Wasserstein barycenter is a geometric construct which captures the notion of centrality among probability distributions, and which has found many applications in machine learning. However, most algorithms for finding even an approximate barycenter suffer an exponential dependence on the dimension $d$ of the underlying space of the distributions. In order to cope with this "curse of dimensionality," we study dimensionality reduction techniques for the Wasserstein barycenter problem. When the barycenter is restricted to support of size $n$, we show that randomized dimensionality reduction can be used to map the problem to a space of dimension $O(\log n)$ independent of both $d$ and $k$, and that \emph{any} solution found in the reduced dimension will have its cost preserved up to arbitrary small error in the original space. We provide matching upper and lower bounds on the size of the reduced dimension, showing that our methods are optimal up to constant factors. We also provide a coreset construction for the Wasserstein barycenter problem that significantly decreases the number of input distributions. The coresets can be used in conjunction with random projections and thus further improve computation time. Lastly, our experimental results validate the speedup provided by dimensionality reduction while maintaining solution quality.
翻訳日:2021-10-20 06:09:44 公開日:2021-10-18
# (参考訳) NYU-VPR:ビュー方向とデータ匿名化の影響を考慮した長期視覚的位置認識ベンチマーク

NYU-VPR: Long-Term Visual Place Recognition Benchmark with View Direction and Data Anonymization Influences ( http://arxiv.org/abs/2110.09004v1 )

ライセンス: CC BY 4.0
Diwei Sheng, Yuxiang Chai, Xinru Li, Chen Feng, Jianzhe Lin, Claudio Silva, John-Ross Rizzo(参考訳) 視覚的位置認識(VPR)は、自律走行車両の局所化とマッピングだけでなく、視覚障害者のための補助ナビゲーションにも重要である。 大規模な長期VPRシステムを実現するには、いくつかの課題に取り組む必要がある。 まず、異なるアプリケーションでは、自動運転車のフロントビューや低視野の人々のためのサイドビューなど、異なるイメージビューの方向が必要になる可能性がある。 第二に、大都市圏のVPRは、VPRクエリやデータベース構築の前にデータ匿名化の必要性を訴える歩行者や車両の識別情報のイメージングによって、しばしばプライバシー上の懸念を引き起こす。 どちらの要因も、まだよく理解されていないVPRパフォーマンスのバリエーションにつながる可能性がある。 これらの影響を研究するため、ニューヨーク大学キャンパス近くの2km×2kmの領域に20万枚以上の画像を含むNYU-VPRデータセットを2016年中に公開した。 我々は,いくつかの一般的なvprアルゴリズムにおいて,データ匿名化の影響がほぼ無視できる一方で,サイドビューが現在のvpr法よりも著しく困難であることを示すベンチマーク結果を示す。

Visual place recognition (VPR) is critical in not only localization and mapping for autonomous driving vehicles, but also assistive navigation for the visually impaired population. To enable a long-term VPR system on a large scale, several challenges need to be addressed. First, different applications could require different image view directions, such as front views for self-driving cars while side views for the low vision people. Second, VPR in metropolitan scenes can often cause privacy concerns due to the imaging of pedestrian and vehicle identity information, calling for the need for data anonymization before VPR queries and database construction. Both factors could lead to VPR performance variations that are not well understood yet. To study their influences, we present the NYU-VPR dataset that contains more than 200,000 images over a 2km by 2km area near the New York University campus, taken within the whole year of 2016. We present benchmark results on several popular VPR algorithms showing that side views are significantly more challenging for current VPR methods while the influence of data anonymization is almost negligible, together with our hypothetical explanations and in-depth analysis.
翻訳日:2021-10-20 06:08:35 公開日:2021-10-18
# (参考訳) 注意ネットワークを用いた異常機能グリッドマップ認識

Abnormal Occupancy Grid Map Recognition using Attention Network ( http://arxiv.org/abs/2110.09047v1 )

ライセンス: CC BY 4.0
Fuqin Deng, Hua Feng, Mingjian Liang, Qi Feng, Ningbo Yi, Yong Yang, Yuan Gao, Junfeng Chen, and Tin Lun Lam(参考訳) 占有グリッドマップは、他の多くのシステムの性能がそれに依存するため、移動ロボットシステムにおける自律的な位置決めとナビゲーションの重要な構成要素である。 占有グリッドマップの品質を保証するために、研究者は長い間、面倒な手動認識を行わなければならなかった。 本研究は、残差ニューラルネットワークと新しいアテンション機構モジュールを用いた、自動異常占有グリッドマップ認識に焦点を当てる。 階層的特徴を生成するための残差ブロックを含む効果的なチャネルおよび空間残留SE(csRSE)アテンションモジュールを提案し,それに続いて,チャネルと空間経路に沿った十分な情報抽出のためのチャネルSE(cSE)ブロックと空間SE(sSE)ブロックを提案する。 占有グリッドマップの特性をさらに要約し,csrseアテンションモジュールを用いて実験を行うため,occupancy grid map dataset (ogmd) というデータセットを構築した。 このOGMDテストデータセットを用いて,提案した構造の変種を試験し,他の注意機構と比較した。 実験の結果,提案した注意ネットワークは,異常占有格子地図認識の精度96.23%で異常地図を推定できることがわかった。

The occupancy grid map is a critical component of autonomous positioning and navigation in the mobile robotic system, as many other systems' performance depends heavily on it. To guarantee the quality of the occupancy grid maps, researchers previously had to perform tedious manual recognition for a long time. This work focuses on automatic abnormal occupancy grid map recognition using the residual neural networks and a novel attention mechanism module. We propose an effective channel and spatial Residual SE(csRSE) attention module, which contains a residual block for producing hierarchical features, followed by both channel SE (cSE) block and spatial SE (sSE) block for the sufficient information extraction along the channel and spatial pathways. To further summarize the occupancy grid map characteristics and experiment with our csRSE attention modules, we constructed a dataset called occupancy grid map dataset (OGMD) for our experiments. On this OGMD test dataset, we tested few variants of our proposed structure and compared them with other attention mechanisms. Our experimental results show that the proposed attention network can infer the abnormal map with state-of-the-art (SOTA) accuracy of 96.23% for abnormal occupancy grid map recognition.
翻訳日:2021-10-20 05:56:59 公開日:2021-10-18
# (参考訳) 発見と選択:弱監視対象検出のための最適複数インスタンス学習を目指して

Discovery-and-Selection: Towards Optimal Multiple Instance Learning for Weakly Supervised Object Detection ( http://arxiv.org/abs/2110.09060v1 )

ライセンス: CC BY 4.0
Shiwei Zhang, Wei Ke, Lin Yang, Qixiang Ye, Xiaopeng Hong, Yihong Gong, Tong Zhang(参考訳) 弱教師付きオブジェクト検出(WSOD)は、画像カテゴリラベルの監督の下で、オブジェクト分類器を同時に学習し、オブジェクトの位置を推定する必要がある課題である。 WSODメソッドのメインラインは、イメージを例のバッグと見なす複数のインスタンス学習に根ざし、各バッグから正のインスタンスを選択して検出器を学習する。 しかし、検出器が物体全体ではなく物体の識別的な部分に収束するにつれ、大きな課題が生じる。 本稿では,局所ミニマに最適解が組み込まれているという仮説の下で,複数インスタンス学習(DS-MIL)と融合した探索・選択手法を提案する。 DS-MILを実装するために、注目モジュールは特徴マップによってより多くのコンテキスト情報をキャプチャし、トレーニング中により価値のある提案を収集できるように設計されている。 提案候補では、オブジェクト検出トレーニングのインフォメーションインスタンスを選択するように再ランクモジュールが設計されている。 評価実験の結果,DS-MIL の手法はベースラインを常に改善し,最先端の性能を報告できることがわかった。

Weakly supervised object detection (WSOD) is a challenging task that requires simultaneously learn object classifiers and estimate object locations under the supervision of image category labels. A major line of WSOD methods roots in multiple instance learning which regards images as bags of instance and selects positive instances from each bag to learn the detector. However, a grand challenge emerges when the detector inclines to converge to discriminative parts of objects rather than the whole objects. In this paper, under the hypothesis that optimal solutions are included in local minima, we propose a discoveryand-selection approach fused with multiple instance learning (DS-MIL), which finds rich local minima and select optimal solutions from multiple local minima. To implement DS-MIL, an attention module is designed so that more context information can be captured by feature maps and more valuable proposals can be collected during training. With proposal candidates, a re-rank module is designed to select informative instances for object detector training. Experimental results on commonly used benchmarks show that our proposed DS-MIL approach can consistently improve the baselines, reporting state-of-the-art performance.
翻訳日:2021-10-20 05:44:41 公開日:2021-10-18
# (参考訳) 長期カプセル内視鏡映像の時間分割のための教師なしショット境界検出

Unsupervised Shot Boundary Detection for Temporal Segmentation of Long Capsule Endoscopy Videos ( http://arxiv.org/abs/2110.09067v1 )

ライセンス: CC BY 4.0
Sodiq Adewole, Philip Fernandes, James Jablonski, Andrew Copland, Michael Porter, Sana Syed, Donald Brown(参考訳) 医師は、疾患や異常の消化管全体を検査するために、非侵襲的かつ非外科的処置としてカプセル内視鏡(ce)を使用する。 1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。 医師は診断する前に、ビデオ全体をレビューして分析し、異常や疾患を特定する必要がある。 このレビュータスクは非常に退屈で、時間がかかり、エラーを起こしやすい。 医師の最終的な診断に関係のある有用な内容は、単一のフレームでのみ取得できるが、小さな腸領域をカバーしているフレームは、最大で5万の可能性がある。 本稿では,医師のレビュー時間と労力を最小限に抑えるために,長期CEビデオを自動的に均一かつ識別可能なビデオセグメントに分割する,教師なしかつ効率的な時間分割手法を提案する。 しかし, 高次元フレーム特徴行列を用いた長期ビデオにおける時間境界探索は, 実際の臨床応用において計算的に禁止され, 実行不可能である。 そこで,ビデオ中の空間的情報と時間的情報を利用して,まず事前学習したCNNモデルを用いて高階フレームの特徴を抽出し,高次元フレーム特徴行列を投影し,低次元埋め込みを行った。 この1次元シーケンス埋め込みを用いて,pruned exact linear time (pelt) アルゴリズムを適用し,正規フレームから異常フレームへの遷移点を示す時間境界の探索を行った。 複数の実患者によるceビデオを用いて実験を行い,専門家が提供したラベルに対する複数のテストビデオで66\%のaucを達成した。

Physicians use Capsule Endoscopy (CE) as a non-invasive and non-surgical procedure to examine the entire gastrointestinal (GI) tract for diseases and abnormalities. A single CE examination could last between 8 to 11 hours generating up to 80,000 frames which is compiled as a video. Physicians have to review and analyze the entire video to identify abnormalities or diseases before making diagnosis. This review task can be very tedious, time consuming and prone to error. While only as little as a single frame may capture useful content that is relevant to the physicians' final diagnosis, frames covering the small bowel region alone could be as much as 50,000. To minimize physicians' review time and effort, this paper proposes a novel unsupervised and computationally efficient temporal segmentation method to automatically partition long CE videos into a homogeneous and identifiable video segments. However, the search for temporal boundaries in a long video using high dimensional frame-feature matrix is computationally prohibitive and impracticable for real clinical application. Therefore, leveraging both spatial and temporal information in the video, we first extracted high level frame features using a pretrained CNN model and then projected the high-dimensional frame-feature matrix to lower 1-dimensional embedding. Using this 1-dimensional sequence embedding, we applied the Pruned Exact Linear Time (PELT) algorithm to searched for temporal boundaries that indicates the transition points from normal to abnormal frames and vice-versa. We experimented with multiple real patients' CE videos and our model achieved an AUC of 66\% on multiple test videos against expert provided labels.
翻訳日:2021-10-20 05:23:58 公開日:2021-10-18
# (参考訳) 協調型知的輸送システムのための半同期階層型連合学習

Semi-asynchronous Hierarchical Federated Learning for Cooperative Intelligent Transportation Systems ( http://arxiv.org/abs/2110.09073v1 )

ライセンス: CC BY-SA 4.0
Qimei Chen and Zehua You and Hao Jiang(参考訳) C-ITS(Cooperative Intelligent Transport System)は、自動運転車や道路インフラの安全、効率、持続可能性、快適なサービスを提供するための有望なネットワークである。 しかし、C-ITSのコンポーネントは通常大量のデータを生成するため、データサイエンスを探索することは困難である。 現在、訓練された参加者の利益を共同で得るための魅力的なアプローチとして、連合学習が提案されている。 そこで本稿では,データセンシングによるクラウドモデルアグリゲーションを実現するために,c-itsのための半同期階層型階層型連合学習(shfl)フレームワークを提案する。 さらに,提案するshflの枠組みに基づき,共用エッジノードの関連付けと資源配分の問題も定式化し,異種道路車両のパーソナリティの防止と通信効率の向上を図る。 提案する混合整数非線形プログラミング (minlp) 問題に対処するために, 乗算器 (admm)-ブロック座標更新 (bcu) の分散交互方向法を提案する。 このアルゴリズムにより、トレーニング精度と送信遅延のトレードオフが導出された。 シミュレーションにより,提案アルゴリズムの利点を訓練のオーバーヘッドとモデル性能の観点から示す。

Cooperative Intelligent Transport System (C-ITS) is a promising network to provide safety, efficiency, sustainability, and comfortable services for automated vehicles and road infrastructures by taking advantages from participants. However, the components of C-ITS usually generate large amounts of data, which makes it difficult to explore data science. Currently, federated learning has been proposed as an appealing approach to allow users to cooperatively reap the benefits from trained participants. Therefore, in this paper, we propose a novel Semi-asynchronous Hierarchical Federated Learning (SHFL) framework for C-ITS that enables elastic edge to cloud model aggregation from data sensing. We further formulate a joint edge node association and resource allocation problem under the proposed SHFL framework to prevent personalities of heterogeneous road vehicles and achieve communication-efficiency. To deal with our proposed Mixed integer nonlinear programming (MINLP) problem, we introduce a distributed Alternating Direction Method of Multipliers (ADMM)-Block Coordinate Update (BCU) algorithm. With this algorithm, a tradeoff between training accuracy and transmission latency has been derived. Numerical results demonstrate the advantages of the proposed algorithm in terms of training overhead and model performance.
翻訳日:2021-10-20 05:07:18 公開日:2021-10-18
# (参考訳) 連合学習における全般的深部リークに向けて

Towards General Deep Leakage in Federated Learning ( http://arxiv.org/abs/2110.09074v1 )

ライセンス: CC BY 4.0
Jiahui Geng, Yongli Mou, Feifei Li, Qing Li, Oya Beyan, Stefan Decker, Chunming Rong(参考訳) 従来の中央トレーニングとは異なり、フェデレーション学習(fl)は、ユーザのプライバシを保護するためにローカルデータではなく、ローカルモデルを共有して集約することで、グローバルモデルのパフォーマンスを向上させる。 このトレーニングアプローチは安全に見えるが、ある研究では、攻撃者が共有勾配情報に基づいてプライベートデータを復元できることが示されている。 このオンザフライの再構築攻撃は、モデルトレーニングの開始時でも終了時でも、トレーニングのどの段階でも起こり得るため、深く研究されるべきである。 我々は、このレコンストラクション攻撃を幅広いシナリオに適用するための非現実的な仮定と制限を突破する。 本研究では,feedsgd と fedavg の使用シナリオに対応して,共有勾配や重み付けからトレーニングデータを再構成する手法を提案する。 バッチ内に重複ラベルがあってもラベルを復元するゼロショット手法を提案する。 ラベルと画像復元の関係について検討する。 また,バッチ画像が同一のラベルを持つ場合,その画像の融合として対応する画像が復元されることも確認した。 CIFAR-10 や ImageNet など,従来の画像ベンチマークによるアプローチの評価を行った。 バッチサイズ、画像品質、および我々のアプローチのラベル分布の適応性は、最先端のgradinversionのそれを超える。

Unlike traditional central training, federated learning (FL) improves the performance of the global model by sharing and aggregating local models rather than local data to protect the users' privacy. Although this training approach appears secure, some research has demonstrated that an attacker can still recover private data based on the shared gradient information. This on-the-fly reconstruction attack deserves to be studied in depth because it can occur at any stage of training, whether at the beginning or at the end of model training; no relevant dataset is required and no additional models need to be trained. We break through some unrealistic assumptions and limitations to apply this reconstruction attack in a broader range of scenarios. We propose methods that can reconstruct the training data from shared gradients or weights, corresponding to the FedSGD and FedAvg usage scenarios, respectively. We propose a zero-shot approach to restore labels even if there are duplicate labels in the batch. We study the relationship between the label and image restoration. We find that image restoration fails even if there is only one incorrectly inferred label in the batch; we also find that when batch images have the same label, the corresponding image is restored as a fusion of that class of images. Our approaches are evaluated on classic image benchmarks, including CIFAR-10 and ImageNet. The batch size, image quality, and the adaptability of the label distribution of our approach exceed those of GradInversion, the state-of-the-art.
翻訳日:2021-10-20 04:48:01 公開日:2021-10-18
# (参考訳) テンポラル翻訳による映像逆転例の転送性向上

Boosting the Transferability of Video Adversarial Examples via Temporal Translation ( http://arxiv.org/abs/2110.09075v1 )

ライセンス: CC BY 4.0
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) ディープラーニングに基づくビデオ認識モデルは目覚ましい成功を収めているが、クリーンなビデオサンプルに人間の知覚できない摂動を加えることで生じる敵の例には弱い。 最近の研究で示されているように、敵の例は転送可能であり、現実世界のアプリケーションではブラックボックス攻撃が可能である。 しかしながら、既存のほとんどの敵攻撃手法は、他のビデオモデルを攻撃する場合の転送性が劣る。 そこで本研究では,ビデオ認識モデルに対するブラックボックス攻撃に対するビデオ逆転例の転送可能性を高めることを提案する。 広汎な分析により、異なる映像認識モデルは異なる識別的時間パターンに依存しており、ビデオ対向例の移動性が低いことが判明した。 これにより,時間的変換ビデオクリップの対向的摂動を最適化する時間的翻訳攻撃手法を導入することができる。 翻訳ビデオ上の敵の例を生成することで、結果の敵の例は攻撃対象のホワイトボックスモデルに存在する時間パターンに敏感ではなく、よりよい転送が可能となる。 Kinetics-400 データセットと UCF-101 データセットの大規模な実験により,本手法がビデオ対向例の転送可能性を大幅に向上することを示した。 動画認識モデルに対する転送ベースの攻撃では、キネティクス400で平均61.56%、UCF-101で平均48.60%となる。

Although deep-learning based video recognition models have achieved remarkable success, they are vulnerable to adversarial examples that are generated by adding human-imperceptible perturbations on clean video samples. As indicated in recent studies, adversarial examples are transferable, which makes it feasible for black-box attacks in real-world applications. Nevertheless, most existing adversarial attack methods have poor transferability when attacking other video models and transfer-based attacks on video models are still unexplored. To this end, we propose to boost the transferability of video adversarial examples for black-box attacks on video recognition models. Through extensive analysis, we discover that different video recognition models rely on different discriminative temporal patterns, leading to the poor transferability of video adversarial examples. This motivates us to introduce a temporal translation attack method, which optimizes the adversarial perturbations over a set of temporal translated video clips. By generating adversarial examples over translated videos, the resulting adversarial examples are less sensitive to temporal patterns existed in the white-box model being attacked and thus can be better transferred. Extensive experiments on the Kinetics-400 dataset and the UCF-101 dataset demonstrate that our method can significantly boost the transferability of video adversarial examples. For transfer-based attack against video recognition models, it achieves a 61.56% average attack success rate on the Kinetics-400 and 48.60% on the UCF-101.
翻訳日:2021-10-20 04:35:15 公開日:2021-10-18
# (参考訳) ViraPart: ペルシアのASRおよびNLPタスクのためのテキストリファインメントフレームワーク

ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian ( http://arxiv.org/abs/2110.09086v1 )

ライセンス: CC BY 4.0
Narges Farokhshad, Milad Molazadeh, Saman Jamalabbasi, Hamed Babaei Giglou, Saeed Bibak(参考訳) ペルシア語は屈折型SOV言語である。 この事実はペルシア語をより不確実な言語にする。 しかし、zwnj認識、句読点復元、ペルシャのezafe構築などの技術を使用することで、より理解しやすく正確な言語につながります。 ペルシアのほとんどの作品において、これらの技法は個別に扱われている。 それにもかかわらず、ペルシア語のテキストの洗練には、これらすべてのタスクが必要であると信じています。 そこで本研究では,テキストの明確化に組込みparsbertを用いたvirapartフレームワークを提案する。 まず、分類手順の分類レイヤーに従って、ペルシャのBERT変種を使用した。 次に、モデル出力を組み合わせてcleartextを出力する。 提案したZWNJ認識モデル,句読点復元モデル,ペルシャ・エザフ構成モデルは,それぞれ96.90\%,92.13\%,98.50\%の平均F1マクロスコアを実行する。 実験の結果,提案手法はペルシャ語のテキストの洗練に非常に有効であることがわかった。

The Persian language is an inflectional SOV language. This fact makes Persian a more uncertain language. However, using techniques such as ZWNJ recognition, punctuation restoration, and Persian Ezafe construction will lead us to a more understandable and precise language. In most of the works in Persian, these techniques are addressed individually. Despite that, we believe that for text refinement in Persian, all of these tasks are necessary. In this work, we proposed a ViraPart framework that uses embedded ParsBERT in its core for text clarifications. First, used the BERT variant for Persian following by a classifier layer for classification procedures. Next, we combined models outputs to output cleartext. In the end, the proposed model for ZWNJ recognition, punctuation restoration, and Persian Ezafe construction performs the averaged F1 macro scores of 96.90\%, 92.13\%, and 98.50\%, respectively. Experimental results show that our proposed approach is very effective in text refinement for the Persian language.
翻訳日:2021-10-20 04:22:52 公開日:2021-10-18
# (参考訳) LDNet:合成音声のMOS予測における統一リスナー依存モデル

LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech ( http://arxiv.org/abs/2110.09103v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Erica Cooper, Junichi Yamagishi, Tomoki Toda(参考訳) 合成音声の主観評価を自動的に予測する効果的なアプローチは、人間の注釈付きスコアでリスニングテストデータセットでトレーニングすることだ。 データセット内の各音声サンプルは、複数のリスナーによって評価されるが、以前のほとんどの研究では、平均スコアのみをトレーニングターゲットとして使用していた。 本研究では,入力音声と聴取者の同一性から,聞き手が知覚する品質を予測する,平均評価スコア(MOS)予測のための統合フレームワークLDNetを提案する。 我々は、モデルアーキテクチャの設計選択を含む最近のLDモデリングの進歩を反映し、より安定した結果と効率的な計算を提供する2つの推論手法を提案する。 我々は,音声変換チャレンジ(VCC)2018ベンチマークと,新たに収集した大規模MOSデータセットの体系的な実験を行い,提案フレームワークの詳細な分析を行った。 その結果, 平均聴取者推定法は, 平均聴取者推定法よりも有効であることが示唆された。

An effective approach to automatically predict the subjective rating for synthetic speech is to train on a listening test dataset with human-annotated scores. Although each speech sample in the dataset is rated by several listeners, most previous works only used the mean score as the training target. In this work, we present LDNet, a unified framework for mean opinion score (MOS) prediction that predicts the listener-wise perceived quality given the input speech and the listener identity. We reflect recent advances in LD modeling, including design choices of the model architecture, and propose two inference methods that provide more stable results and efficient computation. We conduct systematic experiments on the voice conversion challenge (VCC) 2018 benchmark and a newly collected large-scale MOS dataset, providing an in-depth analysis of the proposed framework. Results show that the mean listener inference method is a better way to utilize the mean scores, whose effectiveness is more obvious when having more ratings per sample.
翻訳日:2021-10-20 04:11:36 公開日:2021-10-18
# (参考訳) 長いカプセル内視鏡映像における異常局在を弱めるグラフ畳み込みニューラルネットワーク

Graph Convolution Neural Network For Weakly Supervised Abnormality Localization In Long Capsule Endoscopy Videos ( http://arxiv.org/abs/2110.09110v1 )

ライセンス: CC BY 4.0
Sodiq Adewole, Philip Fernandes, James Jablonski, Andrew Copland, Michael Porter, Sana Syed, Donald Brown(参考訳) 長時間ビデオにおける時間的活動のローカライゼーションは重要な問題である。 長い無線カプセル内視鏡(WCE)ビデオのフレームレベルラベルを取得するコストは禁じられている。 本稿では,弱いビデオレベルラベルのみを用いた長時間WCEビデオの終端時間的異常局所化を提案する。 医師は、疾患や異常を診断するために、非外科的かつ非侵襲的に消化器全体を検査する方法としてカプセル内視鏡(ce)を使用する。 CEは従来の内視鏡手術に革命をもたらしたが、CE検査では最大8時間で10万フレームが生成される可能性がある。 医師は、関連する異常を捉えたフレームを特定するために、フレームごとにビデオ全体をレビューする必要がある。 これは、単に1フレームしか持たない場合もある。 この非常に高い冗長性を考えると、長いceビデオの分析は非常に退屈で時間がかかり、エラーも起こりやすい。 本稿では、弱いビデオラベルのみを用いて、長ビデオにおける興味の異常を捉えたターゲットフレームのエンドツーエンドローカライズのための新しいマルチステップ手法を提案する。 まず,映像を均一で均質で識別可能なセグメントに時間分割するための変化点検出手法を用いた時間分割の自動生成法を開発した。 次に,各映像セグメントの表現を学ぶために,グラフ畳み込みニューラルネットワーク(gcnn)を用いた。 弱いビデオセグメントラベルを用いて、少なくとも1つの異常フレームを含む場合、各ビデオセグメントが異常であると認識するようにGCNNモデルを訓練した。 最後に、トレーニングしたgcnnモデルのパラメータを利用して、ネットワークの最終層をテンポラリプール層に置き換え、各異常映像セグメント内の関連する異常フレームをローカライズした。 本手法は, グラフ分類タスクにおいて89.9\%, 異常フレーム位置決めタスクでは97.5\%の精度を達成した。

Temporal activity localization in long videos is an important problem. The cost of obtaining frame level label for long Wireless Capsule Endoscopy (WCE) videos is prohibitive. In this paper, we propose an end-to-end temporal abnormality localization for long WCE videos using only weak video level labels. Physicians use Capsule Endoscopy (CE) as a non-surgical and non-invasive method to examine the entire digestive tract in order to diagnose diseases or abnormalities. While CE has revolutionized traditional endoscopy procedures, a single CE examination could last up to 8 hours generating as much as 100,000 frames. Physicians must review the entire video, frame-by-frame, in order to identify the frames capturing relevant abnormality. This, sometimes could be as few as just a single frame. Given this very high level of redundancy, analyzing long CE videos can be very tedious, time consuming and also error prone. This paper presents a novel multi-step method for an end-to-end localization of target frames capturing abnormalities of interest in the long video using only weak video labels. First we developed an automatic temporal segmentation using change point detection technique to temporally segment the video into uniform, homogeneous and identifiable segments. Then we employed Graph Convolutional Neural Network (GCNN) to learn a representation of each video segment. Using weak video segment labels, we trained our GCNN model to recognize each video segment as abnormal if it contains at least a single abnormal frame. Finally, leveraging the parameters of the trained GCNN model, we replaced the final layer of the network with a temporal pool layer to localize the relevant abnormal frames within each abnormal video segment. Our method achieved an accuracy of 89.9\% on the graph classification task and a specificity of 97.5\% on the abnormal frames localization task.
翻訳日:2021-10-20 04:02:36 公開日:2021-10-18
# (参考訳) 署名ネットワークにおけるwikipediaメンバーシップデータセットの解析と未接続ノードの予測

Analyzing Wikipedia Membership Dataset and PredictingUnconnected Nodes in the Signed Networks ( http://arxiv.org/abs/2110.09111v1 )

ライセンス: CC BY 4.0
Zhihao Wu, Taoran Li, Ray Roman(参考訳) デジタルインタラクションの時代において、ソーシャルメディアに存在する対人関係は、オフラインに存在する全く同じ相互作用とは異なるかもしれない。 ここでは、Precison-Recall曲線とROCの下の領域を用いて、ソーシャルネットワーク内の2人の未接続の人々間の関係を予測する方法について検討する。 ソーシャル・ネットワークをサイン付きグラフとしてモデル化し、三進モデル、相対情報モデル、感情モデルを比較し、それらを用いてピアとピアの相互作用を予測する。 我々のモデルはランダムモデルよりもはるかに優れており、異なるケースで相互に補完することができる。

In the age of digital interaction, person-to-person relationships existing on social media may be different from the very same interactions that exist offline. Examining potential or spurious relationships between members in a social network is a fertile area of research for computer scientists -- here we examine how relationships can be predicted between two unconnected people in a social network by using area under Precison-Recall curve and ROC. Modeling the social network as a signed graph, we compare Triadic model,Latent Information model and Sentiment model and use them to predict peer to peer interactions, first using a plain signed network, and second using a signed network with comments as context. We see that our models are much better than random model and could complement each other in different cases.
翻訳日:2021-10-20 03:34:30 公開日:2021-10-18
# (参考訳) MVPポイントクラウド登録のための融合戦略を用いた深層モデル

Deep Models with Fusion Strategies for MVP Point Cloud Registration ( http://arxiv.org/abs/2110.09129v1 )

ライセンス: CC BY 4.0
Lifa Zhu, Changwei Lin, Dongrui Liu, Xin Li, Francisco G\'omez-Fern\'andez(参考訳) Multi-View partial (MVP) Challenge 2021のポイントクラウド登録の主な目標は、ポイントクラウドペアを整合させる厳格な変換を見積もることである。 このコンペティションのペアは、低重なり、非一様密度、制限のない回転、曖昧さという特性を持ち、登録作業に大きな課題となる。 本稿では,ROPNetとPreDATORの2つのディープラーニングモデルと,カスタマイズしたアンサンブル戦略を融合した登録タスクのソリューションを紹介する。 最後に,rot\_error,trans\_error,mseの指標で2.96546,0.02632,0.07808の計2位を達成した。

The main goal of point cloud registration in Multi-View Partial (MVP) Challenge 2021 is to estimate a rigid transformation to align a point cloud pair. The pairs in this competition have the characteristics of low overlap, non-uniform density, unrestricted rotations and ambiguity, which pose a huge challenge to the registration task. In this report, we introduce our solution to the registration task, which fuses two deep learning models: ROPNet and PREDATOR, with customized ensemble strategies. Finally, we achieved the second place in the registration track with 2.96546, 0.02632 and 0.07808 under the the metrics of Rot\_Error, Trans\_Error and MSE, respectively.
翻訳日:2021-10-20 03:23:21 公開日:2021-10-18
# (参考訳) AMR解析のためのグラフ予測の組込み

Ensembling Graph Predictions for AMR Parsing ( http://arxiv.org/abs/2110.09131v1 )

ライセンス: CC BY 4.0
Hoang Thanh Lam, Gabriele Picco, Yufang Hou, Young-Suk Lee, Lam M. Nguyen, Dzung T. Phan, Vanessa L\'opez, Ramon Fernandez Astudillo(参考訳) 多くの機械学習タスクでは、モデルはグラフのような構造データを予測するように訓練される。 例えば自然言語処理では、テキストを依存木や抽象的意味表現(AMR)グラフにパースすることが一般的である。 一方、アンサンブル法は、複数のモデルからの予測を組み合わせて、個々の予測よりも堅牢で正確である新しいモデルを作成する。 文献では,分類や回帰問題に対して多くのセンシング手法が提案されているが,アンサンブルグラフの予測は十分に研究されていない。 本研究では,グラフ予測の収集によって最も支持される最大のグラフをマイニングすることで,この問題を定式化する。 問題はnpハードであるため,最適解を近似する効率的なヒューリスティックアルゴリズムを提案する。 提案手法を検証するため,AMR解析問題の実験を行った。 実験の結果,提案手法は最先端のAMR解析器の強度を組み合わせることで,5つの標準ベンチマークデータセットのどのモデルよりも精度の高い新しい予測を作成できることがわかった。

In many machine learning tasks, models are trained to predict structure data such as graphs. For example, in natural language processing, it is very common to parse texts into dependency trees or abstract meaning representation (AMR) graphs. On the other hand, ensemble methods combine predictions from multiple models to create a new one that is more robust and accurate than individual predictions. In the literature, there are many ensembling techniques proposed for classification or regression problems, however, ensemble graph prediction has not been studied thoroughly. In this work, we formalize this problem as mining the largest graph that is the most supported by a collection of graph predictions. As the problem is NP-Hard, we propose an efficient heuristic algorithm to approximate the optimal solution. To validate our approach, we carried out experiments in AMR parsing problems. The experimental results demonstrate that the proposed approach can combine the strength of state-of-the-art AMR parsers to create new predictions that are more accurate than any individual models in five standard benchmark datasets.
翻訳日:2021-10-20 03:15:05 公開日:2021-10-18
# (参考訳) BEAMetrics: 言語生成評価評価のためのベンチマーク

BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation ( http://arxiv.org/abs/2110.09147v1 )

ライセンス: CC BY 4.0
Thomas Scialom and Felix Hill(参考訳) 自然言語処理(NLP)システムは、応答の分類よりもオープンなテキストを生成するように訓練されている。 これにより、コンテキストやヒューマンリファレンス応答によってシステム出力をスコアする機能である生成言語の評価メトリクスの研究が重要な意味を持つ。 しかし、異なるメトリクスは異なる強みとバイアスを持ち、人間の直観を他のタスクよりもよく反映する。 現在、代表的タスク全体にわたってメトリクスを比較し、分析し、評価する、シンプルで統一的な方法はありません。 ここでは、新しいメトリクス自体を評価しやすくするリソースであるBEAMetrics(Benchmark to Evaluate Automatic Metrics)について説明する。 BEAMetricsのユーザは、既存のメトリクスと新しいメトリクスを、さまざまなタスク、品質次元(頻度対コヒーレンス対情報性など)、言語で人間の判断と素早く比較することができます。 ジェネレーションの専門家が予想するとおり、beametricsは既存のメトリクス間のタスク依存的な違いを明らかにし、複雑な回答空間や一般的な知識への依存度が高いタスクのパフォーマンスを一貫して低下させる。 この分析は、現在の研究慣行に直面する重要な問題を浮き彫りにしていますが、BEAMetricsは、より良いメトリクスの研究を促進することで、その解決にも貢献しています。 BEAMetricsはMITライセンス下で利用可能である。

Natural language processing (NLP) systems are increasingly trained to generate open-ended text rather than classifying between responses. This makes research on evaluation metrics for generated language -- functions that score system output given the context and/or human reference responses -- of critical importance. However, different metrics have different strengths and biases, and reflect human intuitions better on some tasks than others. There is currently no simple, unified way to compare, analyse or evaluate metrics across a representative set of tasks. Here, we describe the Benchmark to Evaluate Automatic Metrics (BEAMetrics), a resource to make research into new metrics itself easier to evaluate. BEAMetrics users can quickly compare existing and new metrics with human judgements across a diverse set of tasks, quality dimensions (fluency vs. coherence vs. informativeness etc), and languages. As generation experts might predict, BEAMetrics reveals stark task-dependent differences between existing metrics, and consistently poor performance on tasks with complex answer spaces or high reliance on general knowledge. While this analysis highlights a critical issue facing current research practice, BEAMetrics also contribute to its resolution by facilitating research into better metrics -- particularly those that can account for the complex interaction between context and general knowledge inherent to many modern NLP applications. BEAMetrics is available under the MIT License: https://github.com/ThomasScialom/BEAMetrics
翻訳日:2021-10-20 02:58:21 公開日:2021-10-18
# (参考訳) 日々のニュース消費におけるメディアバイアスを効果的に識別・伝達する方法

How to Effectively Identify and Communicate Person-Targeting Media Bias in Daily News Consumption? ( http://arxiv.org/abs/2110.09151v1 )

ライセンス: CC BY 4.0
Felix Hamborg and Timo Spinde and Kim Heinser and Karsten Donnay and Bela Gipp(参考訳) スラムニュースは世論に強く影響を及ぼす。 これは政治や関連する問題についての報道に特に当てはまり、ニュースのバイアスが選挙やその他の集団的な決定に影響を及ぼす可能性があることが研究で示されている。 その重要性から、ニュース報道は長い間社会科学で研究され、それを説明するための包括的なモデルと、コンテンツ分析のような効果的かつ費用のかかる分析方法を生み出してきた。 本稿では,政策問題を報告したニュース記事において,個人を対象とする偏見を明らかにするために,コンテンツ分析のマニュアル手順を自動化したニュースレコメンデーションシステムを提案する。 大規模ユーザスタディでは,この学際研究の方向性について非常に有望な結果が得られた。 我々の推薦者は、個々のニュース記事に実際に存在している重要なフレームを検出し、明らかにする。 対照的に、先行作業はバイアスの視認性を高めるだけであり、例えば、左右のアウトレットを区別するなどである。 さらに,イベントの異なる設定のニュース記事の推薦が,バイアスに対する意識を著しく向上させることを示す。

Slanted news coverage strongly affects public opinion. This is especially true for coverage on politics and related issues, where studies have shown that bias in the news may influence elections and other collective decisions. Due to its viable importance, news coverage has long been studied in the social sciences, resulting in comprehensive models to describe it and effective yet costly methods to analyze it, such as content analysis. We present an in-progress system for news recommendation that is the first to automate the manual procedure of content analysis to reveal person-targeting biases in news articles reporting on policy issues. In a large-scale user study, we find very promising results regarding this interdisciplinary research direction. Our recommender detects and reveals substantial frames that are actually present in individual news articles. In contrast, prior work rather only facilitates the visibility of biases, e.g., by distinguishing left- and right-wing outlets. Further, our study shows that recommending news articles that differently frame an event significantly improves respondents' awareness of bias.
翻訳日:2021-10-20 02:32:31 公開日:2021-10-18
# (参考訳) ナノスケールシステムのためのリフティングDecPOMDP -- 研究の進展

Lifting DecPOMDPs for Nanoscale Systems -- A Work in Progress ( http://arxiv.org/abs/2110.09152v1 )

ライセンス: CC BY 4.0
Tanya Braun, Stefan Fischer, Florian Lau, Ralf M\"oller(参考訳) dnaベースのナノネットワークは、特に医学の分野で、幅広い有望なユースケースを持っている。 多数のエージェントセット、部分的に観測可能な確率的環境、そしてノイズの多い観測により、そのようなナノスケールシステムは分散化された部分観測可能なマルコフ決定過程(decpomdp)としてモデル化することができる。 エージェントセットが支配因子であるので、この論文は i)DecPOMDPを持ち上げ、エージェントセットを識別不能なエージェントセットに分割し、最悪のケーススペースを減らし、 (ii)ナノスケール医療システムを応用すること。 今後の作業は、解き放たれたDecPOMDPの解決と実装に変わります。

DNA-based nanonetworks have a wide range of promising use cases, especially in the field of medicine. With a large set of agents, a partially observable stochastic environment, and noisy observations, such nanoscale systems can be modelled as a decentralised, partially observable, Markov decision process (DecPOMDP). As the agent set is a dominating factor, this paper presents (i) lifted DecPOMDPs, partitioning the agent set into sets of indistinguishable agents, reducing the worst-case space required, and (ii) a nanoscale medical system as an application. Future work turns to solving and implementing lifted DecPOMDPs.
翻訳日:2021-10-20 02:03:49 公開日:2021-10-18
# (参考訳) newsalyze: ニュース記事における個人指向バイアスの効果的なコミュニケーション

Newsalyze: Effective Communication of Person-Targeting Biases in News Articles ( http://arxiv.org/abs/2110.09158v1 )

ライセンス: CC BY 4.0
Felix Hamborg and Kim Heinser and Anastasia Zhukova and Karsten Donnay and Bela Gipp(参考訳) メディアバイアスとその極端な形態、フェイクニュースは、世論に決定的に影響を及ぼす可能性がある。 特に政策問題について報告する場合、スランドニュースの報道は民主的な選挙など社会的な決定に強く影響を及ぼす可能性がある。 私たちの論文はこの問題に3つの貢献をしています。 まず,自然言語理解から最先端の手法を組み合わせたバイアス識別システムを提案する。 第2に,非専門家のニュース消費者にニュース記事のバイアスを伝えるために,バイアスに敏感な可視化を考案する。 第3に,私たちの主な貢献は,毎日のニュースの消費を近似する設定におけるバイアス認識を測定する大規模ユーザ調査です。 我々は, 可視化がバイアス認識に与える影響を計測するだけでなく, コンジョイントデザインを用いることで, 可視化の個々の構成要素に与える影響を特定できる。 バイアスに敏感な概観は、回答者のバイアス意識を強力かつ著しく高めます。 さらに,本手法は,個々のニュース記事に有意な偏りがあるため,同様に傾斜したニュース記事のグループを検出することを示唆する。 対照的に、レビューされた事前の作業は、例えば左と右のアウトレットを区別することによってバイアスの可視性を促進するだけである。

Media bias and its extreme form, fake news, can decisively affect public opinion. Especially when reporting on policy issues, slanted news coverage may strongly influence societal decisions, e.g., in democratic elections. Our paper makes three contributions to address this issue. First, we present a system for bias identification, which combines state-of-the-art methods from natural language understanding. Second, we devise bias-sensitive visualizations to communicate bias in news articles to non-expert news consumers. Third, our main contribution is a large-scale user study that measures bias-awareness in a setting that approximates daily news consumption, e.g., we present respondents with a news overview and individual articles. We not only measure the visualizations' effect on respondents' bias-awareness, but we can also pinpoint the effects on individual components of the visualizations by employing a conjoint design. Our bias-sensitive overviews strongly and significantly increase bias-awareness in respondents. Our study further suggests that our content-driven identification method detects groups of similarly slanted news articles due to substantial biases present in individual news articles. In contrast, the reviewed prior work rather only facilitates the visibility of biases, e.g., by distinguishing left- and right-wing outlets.
翻訳日:2021-10-20 01:49:45 公開日:2021-10-18
# (参考訳) AIによるファミラスアートの継続:条件付き敵対的ネットワークのアプローチ

Continuation of Famous Art with AI: A Conditional Adversarial Network Inpainting Approach ( http://arxiv.org/abs/2110.09170v1 )

ライセンス: CC BY 4.0
Jordan J. Bird(参考訳) 実際のアートワークにインスパイアされた画像合成の最先端技術の多くは、フィルターされたランダムノイズによって完全に生成されるか、スタイルの伝達にインスパイアされる。 本研究は,画像インペインティングを応用して,有名な美術品を継続し,コンディショナルGANで生成芸術を制作するものである。 過程の訓練段階では、画像の境界線が収穫され、中心だけが残る。 塗装されたganは、逆差と絶対差の損失を最小化することで、中心の作物から元の画像を再構築する学習を行う。 ネットワークがトレーニングされると、画像はトリミングではなく再サイズされ、ジェネレータへの入力として表示される。 学習プロセスの後、ジェネレータは元の部品の端から連続して新しい画像を生成する。 4766点の風景画(印象派とロマン主義)、1167点の浮世絵、4968点の抽象画のデータセットを用いて3つの実験を行った。 以上の結果から, 空や雲, 水, 陸(丘陵や山を含む), 草, 花などの景観だけでなく, 幾何学やテクスチャ(キャンバスやペンキなど)も, 実際の美術品を伸ばす際に, ジェネレータによって実現されていることがわかった。 また, 浮世絵実験では, 原画像が存在しない場合においても, テキストなどの特徴が, 入力画像内に未表示境界が存在するために生成されていることが観察された。

Much of the state-of-the-art in image synthesis inspired by real artwork are either entirely generative by filtered random noise or inspired by the transfer of style. This work explores the application of image inpainting to continue famous artworks and produce generative art with a Conditional GAN. During the training stage of the process, the borders of images are cropped, leaving only the centre. An inpainting GAN is then tasked with learning to reconstruct the original image from the centre crop by way of minimising both adversarial and absolute difference losses. Once the network is trained, images are then resized rather than cropped and presented as input to the generator. Following the learning process, the generator then creates new images by continuing from the edges of the original piece. Three experiments are performed with datasets of 4766 landscape paintings (impressionism and romanticism), 1167 Ukiyo-e works from the Japanese Edo period, and 4968 abstract artworks. Results show that geometry and texture (including canvas and paint) as well as scenery such as sky, clouds, water, land (including hills and mountains), grass, and flowers are implemented by the generator when extending real artworks. In the Ukiyo-e experiments, it was observed that features such as written text were generated even in cases where the original image did not have any, due to the presence of an unpainted border within the input image.
翻訳日:2021-10-20 01:24:31 公開日:2021-10-18
# (参考訳) 継承機能付きMDP抽象化

MDP Abstraction with Successor Features ( http://arxiv.org/abs/2110.09196v1 )

ライセンス: CC0 1.0
Dongge Han, Michael Wooldridge, Sebastian Tschiatschek(参考訳) 抽象化は知識とスキルの一般化において重要な役割を担い、効率的な学習と計画のサンプリングの鍵となる。 多くの複雑な問題に対して、まず抽象的な計画を作り、次に必要な低レベルの詳細を埋めてインスタンス化する。 このような抽象的な計画は、しばしば関連する新しい問題によく当てはまる。 我々は,エージェントが状態または時間的抽象化を行う強化学習の文脈で抽象について研究する。 時間的抽象化 オプションは、オプションポリシーの形式で時間的に拡張されたアクションを表す。 しかし、一般的に取得されたオプションポリシーは、状態空間や遷移ダイナミクスの変化のため、直接新しい環境に転送することはできない。 さらに、多くの既存の状態抽象化スキームは状態と時間的抽象化の相関を無視している。 本稿では,後継機能に基づく新しい抽象化スキームである後継抽象化を提案する。 これには、さまざまな環境にまたがる抽象オプションのエンコーディングとインスタンス化のためのアルゴリズムと、抽象オプションに基づいた状態抽象化メカニズムが含まれる。 我々の後継抽象化は、抽象オプションのエンコーディングとインスタンス化によって、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。 実証的には,一連のベンチマークタスクにおいて,技術ベースラインの関連状況と比較して,よりよい転送と性能向上を実現している。

Abstraction plays an important role for generalisation of knowledge and skills, and is key to sample efficient learning and planning. For many complex problems an abstract plan can be formed first, which is then instantiated by filling in the necessary low-level details. Often, such abstract plans generalize well to related new problems. We study abstraction in the context of reinforcement learning, in which agents may perform state or temporal abstractions. Temporal abstractions aka options represent temporally-extended actions in the form of option policies. However, typically acquired option policies cannot be directly transferred to new environments due to changes in the state space or transition dynamics. Furthermore, many existing state abstraction schemes ignore the correlation between state and temporal abstraction. In this work, we propose successor abstraction, a novel abstraction scheme building on successor features. This includes an algorithm for encoding and instantiation of abstract options across different environments, and a state abstraction mechanism based on the abstract options. Our successor abstraction allows us to learn abstract environment models with semantics that are transferable across different environments through encoding and instantiation of abstract options. Empirically, we achieve better transfer and improved performance on a set of benchmark tasks as compared to relevant state of the art baselines.
翻訳日:2021-10-20 01:10:30 公開日:2021-10-18
# (参考訳) リフテッド動的ジャンクションツリーアルゴリズムの完全性と複雑性について

On the Completness and Complexity of the Lifted Dynamic Junction Tree Algorithm ( http://arxiv.org/abs/2110.09197v1 )

ライセンス: CC BY 4.0
Marcel Gehrke(参考訳) lifted inferenceは多項式時間 w.r.t. ドメインサイズでの推論を可能にする。 解き上げられたアルゴリズムに対して、完全性は解き上げられた解を計算することが保証されるモデルクラスを調べる。 我々は,時間的昇降アルゴリズム,いわゆる昇降動的ジャンクションツリーアルゴリズム(LDJT)の最初の完全性と複雑性の解析に,私たちの知る限り貢献する。 LDJTは、時間を第一級市民として扱うために、いくつかの制約を導入する。 これらの制約から、持ち上げ可能なモデルのクラスを分析する。 さらに、LDJTは、命題時間推定アルゴリズムw.r.t.ドメインサイズと比較して複雑さの観点から多くの利点があることを示す。 したがって、LDJTは現実的な観点からだけでなく、理論的観点からも合理的に推論タスクを解くことができるモデルの数を推し進める。

Lifted inference allows to perform inference in polynomial time w.r.t. domain sizes. For a lifted algorithm, completeness investigates model classes for which the algorithm is guaranteed to compute a lifted solution. We contribute, to the best of our knowledge, the first completeness and complexity analysis for a temporal lifted algorithm, the so-called lifted dynamic junction tree algorithm (LDJT). To treat time as a first class citizen, LDJT introduces some constraints. Given these constraints, we analyse the classes of liftable models. Further, we show that LDJT has many advantages from a complexity point of view compared to a propositional temporal inference algorithm w.r.t. domain sizes. Therefore, LDJT advances the number of models for which inference tasks can be solved in reasonable time not only from a practically point of view, but also from a theoretical point of view.
翻訳日:2021-10-20 00:31:14 公開日:2021-10-18
# (参考訳) 自己注意による強い重力レンズの発見

Finding Strong Gravitational Lenses Through Self-Attention ( http://arxiv.org/abs/2110.09202v1 )

ライセンス: CC BY 4.0
Hareesh Thuruthipilly, Adam Zadrozny, and Agnieszka Pollo(参考訳) 今後の大規模調査では、現在よりも多くのオーダーのデータを分析することで、約10^5$の強い重力系が見つかると予想されている。 このシナリオでは、非自動化技術は非常に困難で時間がかかります。 我々は,強い重力レンズを求めるために,自己着眼原理に基づく新しい自動化アーキテクチャを提案する。 畳み込みニューラルネットワークに対する自己アテンションに基づくエンコーダモデルの利点を調査し,エンコーダモデルを解析して性能を最適化する。 ボローニャレンズチャレンジから重力レンズを識別するために,21個の自己注意型エンコーダモデルと4つの畳み込みニューラルネットワークを構築した。 各モデルは、18,000のシミュレートされたイメージを使用して個別にトレーニングされ、20000のイメージを使用してクロスバリデーションされ、100000のイメージを持つテストセットに適用される。 評価には,分類精度,受信機動作特性曲線(AUROC)以下の面積,TPR_0$スコア,TPR_{10}$スコアの4つの指標を用いた。 この課題に参加した自己注意型エンコーダモデルとCNNのパフォーマンスを比較した。 エンコーダモデルはCNNより優れており、ボローニャレンズチャレンジに参加したCNNモデルよりも高いマージンで$TPR_0$と$TPR_{10}$を上回りました。 AUROCでは、エンコーダモデルが上位のCNNモデルと等価であり、CNNの6分の1のパラメータしか使用していない。 セルフアテンションベースのモデルは、単純なcnnと比較して明らかな利点がある。 計算コストと複雑さが低く、現在使われている残留ニューラルネットワークと非常に競合するアーキテクチャとなっている。 さらに, エンコーダ層の導入により, CNN が持つ過度に適合する問題にも, 効果的なフィルタとして機能させることで対処できる。

The upcoming large scale surveys are expected to find approximately $10^5$ strong gravitational systems by analyzing data of many orders of magnitude than the current era. In this scenario, non-automated techniques will be highly challenging and time-consuming. We propose a new automated architecture based on the principle of self-attention to find strong gravitational lensing. The advantages of self-attention based encoder models over convolution neural networks are investigated and encoder models are analyzed to optimize performance. We constructed 21 self-attention based encoder models and four convolution neural networks trained to identify gravitational lenses from the Bologna Lens Challenge. Each model is trained separately using 18,000 simulated images, cross-validated using 2 000 images, and then applied to a test set with 100 000 images. We used four different metrics for evaluation: classification accuracy, the area under the receiver operating characteristic curve (AUROC), the $TPR_0$ score and the $TPR_{10}$ score. The performance of the self-attention based encoder models and CNN's participated in the challenge are compared. The encoder models performed better than the CNNs and surpassed the CNN models that participated in the bologna lens challenge by a high margin for the $TPR_0$ and $TPR_{10}$. In terms of the AUROC, the encoder models scored equivalent to the top CNN model by only using one-sixth parameters to that of the CNN. Self-Attention based models have a clear advantage compared to simpler CNNs. A low computational cost and complexity make it a highly competing architecture to currently used residual neural networks. Moreover, introducing the encoder layers can also tackle the over-fitting problem present in the CNN's by acting as effective filters.
翻訳日:2021-10-20 00:17:17 公開日:2021-10-18
# (参考訳) シンドロミックサーベイランスのための相関に基づく疾患パターンの発見

Correlation-based Discovery of Disease Patterns for Syndromic Surveillance ( http://arxiv.org/abs/2110.09208v1 )

ライセンス: CC BY 4.0
Michael Rapp and Moritz Kulessa and Eneldo Loza Menc\'ia and Johannes F\"urnkranz(参考訳) 早期発生の検出は感染症の封じ込めにおける重要な側面であり、感染した個体の同定と隔離を可能にして、より多くの個体に感染する。 感染の予期せぬ増加を検出する代わりに、シナドロミック監視は早期の症状を検知することを目的としており、アウトブレイクのよりタイムリーな開示を可能にしている。 しかし、これらの疾患パターンの定義は、多くの場合、初期の症状が多くの疾患で共有され、特定の疾患が感染の初期段階でいくつかの臨床像を持つため、しばしば困難である。 疫学者が信頼できる疾患パターンを定義する過程を支援するために,歴史データからそのようなパターンを発見するための新しいデータ駆動アプローチを提案する。 重要な考え方は、健康関連データソース内の指標と、各地域における感染の報告数との相関を考慮に入れることである。 実験評価では,いくつかの救急部門からのデータを用いて3つの感染症の疾患パターンを検索した。 以上の結果から,本手法は報告された感染症と相関するパターンを見出し,各疾患に関連する指標を同定できる可能性が示唆された。

Early outbreak detection is a key aspect in the containment of infectious diseases, as it enables the identification and isolation of infected individuals before the disease can spread to a larger population. Instead of detecting unexpected increases of infections by monitoring confirmed cases, syndromic surveillance aims at the detection of cases with early symptoms, which allows a more timely disclosure of outbreaks. However, the definition of these disease patterns is often challenging, as early symptoms are usually shared among many diseases and a particular disease can have several clinical pictures in the early phase of an infection. To support epidemiologists in the process of defining reliable disease patterns, we present a novel, data-driven approach to discover such patterns in historic data. The key idea is to take into account the correlation between indicators in a health-related data source and the reported number of infections in the respective geographic region. In an experimental evaluation, we use data from several emergency departments to discover disease patterns for three infectious diseases. Our results suggest that the proposed approach is able to find patterns that correlate with the reported infections and often identifies indicators that are related to the respective diseases.
翻訳日:2021-10-19 23:43:48 公開日:2021-10-18
# (参考訳) multi-objective swarm optimizer と multi-level histogram thresholding を用いたカラー画像分割

Color Image Segmentation Using Multi-Objective Swarm Optimizer and Multi-level Histogram Thresholding ( http://arxiv.org/abs/2110.09217v1 )

ライセンス: CC BY 4.0
Mohammadreza Naderi Boldaji, Samaneh Hosseini Semnani(参考訳) swarm intelligenceオプティマイザとコンピュータ処理能力の急速な発展により、より正確で安定したカラーイメージセグメンテーションのための総合的な手法を設計する機会が生まれる。 本稿では,色画像の3次元ヒストグラムに,ヒストグラム閾値法(カプールのエントロピー法と大津の手法)と異なる多目的群知能アルゴリズム(MOPSO,MOGWO,MSSA,MOALO)を組み合わせることで,教師なし画像セグメンテーションの新たな手法を提案する。 より正確には、この方法は、まず従来のしきい値化アルゴリズムの目的関数を結合して包括的目的関数を設計後、設計された目的関数の最適化中に最適なしきい値を見つけるために多目的オプティマイザを使用する。 また、3次元空間におけるベクトル目的関数を用いて、同じ閾値で画像色チャネル全体のセグメンテーションを同時に処理できる。 このベクトル目的関数を最適化するために、複数の目的関数を同時に最適化できる多目的Swarmオプティマイザを用いる。 そこで本手法では,カラーチャネルの目的関数(ベクトル目的関数)を同時に満たすしきい値を求めるために,チャネル間の依存性を検討する。 同じしきい値で色チャネル全体を分割することは、提案手法が他のしきい値アルゴリズムよりも画像のセグメンテーションに必要なしきい値が少ないという事実からも恩恵を受ける。 多くの画像を多くのリージョンに分割したい場合、非常に役立ちます。 主観的および客観的な結果から,カラー画像のヒストグラムを分離した従来のしきい値法よりも優れていることが示された。

Rapid developments in swarm intelligence optimizers and computer processing abilities make opportunities to design more accurate, stable, and comprehensive methods for color image segmentation. This paper presents a new way for unsupervised image segmentation by combining histogram thresholding methods (Kapur's entropy and Otsu's method) and different multi-objective swarm intelligence algorithms (MOPSO, MOGWO, MSSA, and MOALO) to thresholding 3D histogram of a color image. More precisely, this method first combines the objective function of traditional thresholding algorithms to design comprehensive objective functions then uses multi-objective optimizers to find the best thresholds during the optimization of designed objective functions. Also, our method uses a vector objective function in 3D space that could simultaneously handle the segmentation of entire image color channels with the same thresholds. To optimize this vector objective function, we employ multiobjective swarm optimizers that can optimize multiple objective functions at the same time. Therefore, our method considers dependencies between channels to find the thresholds that satisfy objective functions of color channels (which we name as vector objective function) simultaneously. Segmenting entire color channels with the same thresholds also benefits from the fact that our proposed method needs fewer thresholds to segment the image than other thresholding algorithms; thus, it requires less memory space to save thresholds. It helps a lot when we want to segment many images to many regions. The subjective and objective results show the superiority of this method to traditional thresholding methods that separately threshold histograms of a color image.
翻訳日:2021-10-19 23:26:46 公開日:2021-10-18
# (参考訳) 分散検出のための単層予測正規化最大確率

Single Layer Predictive Normalized Maximum Likelihood for Out-of-Distribution Detection ( http://arxiv.org/abs/2110.09246v1 )

ライセンス: CC BY 4.0
Koby Bibas, Meir Feder, Tal Hassner(参考訳) out-of-distribution (ood) サンプルの検出は、重要な安全システムのための機械学習ベースのモデルの開発に不可欠である。 OOD検出の一般的なアプローチは、実際のシナリオでは利用できないトレーニング中のOODサンプルへのアクセスを前提としている。 代わりに、テストされた入力に対して仮定を行わない {\em predict normalized maximum likelihood} (pnml) 学習者を利用する。 我々は,単層ニューラルネットワーク(NN)に対するpNMLの明示的な表現とその一般化誤差を導出する。 この学習者が一般化することを示す。 (i)試験ベクトルは、訓練データの経験的相関行列の大きな固有値に関連付けられた固有ベクトルにまたがる部分空間に存在するか。 (ii) テストサンプルは決定境界から遠く離れている。 さらに,前層に明示的なpNMLを用い,続いてソフトマックス関数を用いて,抽出したpNML後悔を事前訓練したディープNNに適用する方法を述べる。 deep nnに派生した後悔を適用するには、追加の調整可能なパラメータや余分なデータを必要としない。 CIFAR-100, CIFAR-10, SVHN, ImageNet-30 でトレーニングした DenseNet-100, ResNet-34, WideResNet-40 モデルを用いた74 OOD 検出ベンチマークのアプローチを広範に評価した。

Detecting out-of-distribution (OOD) samples is vital for developing machine learning based models for critical safety systems. Common approaches for OOD detection assume access to some OOD samples during training which may not be available in a real-life scenario. Instead, we utilize the {\em predictive normalized maximum likelihood} (pNML) learner, in which no assumptions are made on the tested input. We derive an explicit expression of the pNML and its generalization error, denoted as the {\em regret}, for a single layer neural network (NN). We show that this learner generalizes well when (i) the test vector resides in a subspace spanned by the eigenvectors associated with the large eigenvalues of the empirical correlation matrix of the training data, or (ii) the test sample is far from the decision boundary. Furthermore, we describe how to efficiently apply the derived pNML regret to any pretrained deep NN, by employing the explicit pNML for the last layer, followed by the softmax function. Applying the derived regret to deep NN requires neither additional tunable parameters nor extra data. We extensively evaluate our approach on 74 OOD detection benchmarks using DenseNet-100, ResNet-34, and WideResNet-40 models trained with CIFAR-100, CIFAR-10, SVHN, and ImageNet-30 showing a significant improvement of up to 15.6\% over recent leading methods.
翻訳日:2021-10-19 23:12:15 公開日:2021-10-18
# (参考訳) 低資源言語のための事前学習埋め込みを用いたインテント分類

Intent Classification Using Pre-Trained Embeddings For Low Resource Languages ( http://arxiv.org/abs/2110.09264v1 )

ライセンス: CC0 1.0
Hemant Yadav, Akshat Gupta, Sai Krishna Rallabandi, Alan W Black, Rajiv Ratn Shah(参考訳) 言語固有の音声認識(ASR)に依存しない音声言語理解(SLU)システムの構築は,言語処理において重要な課題である。 本稿では,低資源シナリオにおけるSLUを実現するために,事前学習した音響モデルを用いた比較研究を提案する。 具体的には,(1)電話(2)パンホン,(3)アロ埋め込みという,事前学習された普遍的電話デコーダであるallosaurusを用いて抽出した3種類の組込みを用いる。 これらの埋め込みは、話し言葉の意図を特定するのに使用される。 私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。 本システムでは,Sinhalaでは約2.11%,Tamilでは7.00%の精度でSOTA(State-of-the-art)の分類精度が向上し,英語での競争結果が得られる。 さらに,本研究では,意図ごとのトレーニング例数を用いて,パフォーマンスのスケールを定量的に分析する。

Building Spoken Language Understanding (SLU) systems that do not rely on language specific Automatic Speech Recognition (ASR) is an important yet less explored problem in language processing. In this paper, we present a comparative study aimed at employing a pre-trained acoustic model to perform SLU in low resource scenarios. Specifically, we use three different embeddings extracted using Allosaurus, a pre-trained universal phone decoder: (1) Phone (2) Panphone, and (3) Allo embeddings. These embeddings are then used in identifying the spoken intent. We perform experiments across three different languages: English, Sinhala, and Tamil each with different data sizes to simulate high, medium, and low resource scenarios. Our system improves on the state-of-the-art (SOTA) intent classification accuracy by approximately 2.11% for Sinhala and 7.00% for Tamil and achieves competitive results on English. Furthermore, we present a quantitative analysis of how the performance scales with the number of training examples used per intent.
翻訳日:2021-10-19 22:51:30 公開日:2021-10-18
# (参考訳) セマンティックレイアウト予測による画像出力向上

Boosting Image Outpainting with Semantic Layout Prediction ( http://arxiv.org/abs/2110.09267v1 )

ライセンス: CC BY 4.0
Ye Ma, Jin Ma, Min Zhou, Quan Chen, Tiezheng Ge, Yuning Jiang, Tong Lin(参考訳) 画像出力の目的は、画像電流境界を拡張し、既知の領域に基づいて新しい領域を生成することである。 従来の手法では、GAN(Generative Adversarial Network)を用いて現実的な画像を合成する。 しかし、明示的な意味表現の欠如は、露光領域が複雑で様々なオブジェクトを持つ場合、ぼやけや異常な画像画素につながる。 本研究では,アウトペインティングタスクを2段階に分解する。 まず、ganをトレーニングして、イメージドメインではなくセマンティックセグメンテーションドメインの領域を拡張する。 第二に、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するために別のganモデルを訓練する。 第1のモデルはサイズやクラスなどの低頻度なコンテキストに注目し、第2のモデルは色やテクスチャといった高頻度なコンテキストに注目します。 この設計により、我々の手法は意味的手がかりをより容易に扱えるようになり、複雑なシナリオにおいてよりうまく機能する。 各種データセットのフレームワークを評価し,定量的かつ定性的な分析を行う。 実験により,合理的に拡張されたセマンティクスレイアウトと画像を生成し,最先端モデルよりも優れることを示す。

The objective of image outpainting is to extend image current border and generate new regions based on known ones. Previous methods adopt generative adversarial networks (GANs) to synthesize realistic images. However, the lack of explicit semantic representation leads to blurry and abnormal image pixels when the outpainting areas are complex and with various objects. In this work, we decompose the outpainting task into two stages. Firstly, we train a GAN to extend regions in semantic segmentation domain instead of image domain. Secondly, another GAN model is trained to synthesize real images based on the extended semantic layouts. The first model focuses on low frequent context such as sizes, classes and other semantic cues while the second model focuses on high frequent context like color and texture. By this design, our approach can handle semantic clues more easily and hence works better in complex scenarios. We evaluate our framework on various datasets and make quantitative and qualitative analysis. Experiments demonstrate that our method generates reasonable extended semantic layouts and images, outperforming state-of-the-art models.
翻訳日:2021-10-19 22:43:33 公開日:2021-10-18
# (参考訳) pygrank: グラフノードのランキングのためのpythonパッケージ

pygrank: A Python Package for Graph Node Ranking ( http://arxiv.org/abs/2110.09274v1 )

ライセンス: CC BY 4.0
Emmanouil Krasanakis, Symeon Papadopoulos, Ioannis Kompatsiaris, Andreas Symeonidis(参考訳) ノードランキングアルゴリズムを定義し,実行し,評価するための,オープンソースのpythonパッケージであるpygrankを紹介する。 我々は,グラフフィルタ,ポストプロセッサ,測定器,ベンチマーク,オンラインチューニングなど,オブジェクト指向かつ広範囲にユニットテストされたアルゴリズムコンポーネントを提供する。 計算はnumpy、tensorflow、pytorchバックエンドに委譲でき、バックプロパゲーションパイプラインに適合する。 クラスは相互運用可能な複雑なアルゴリズムを定義するために結合することができる。 本稿では,パッケージと関連する代替品を比較し,その柔軟性と使いやすさをコード例と比較した。

We introduce pygrank, an open source Python package to define, run and evaluate node ranking algorithms. We provide object-oriented and extensively unit-tested algorithm components, such as graph filters, post-processors, measures, benchmarks and online tuning. Computations can be delegated to numpy, tensorflow or pytorch backends and fit in back-propagation pipelines. Classes can be combined to define interoperable complex algorithms. Within the context of this paper we compare the package with related alternatives and demonstrate its flexibility and ease of use with code examples.
翻訳日:2021-10-19 22:29:57 公開日:2021-10-18
# (参考訳) 高アンサンプデータからカラー画像と映像を復元するためのDCTに基づくテンソル補完手法

A DCT-based Tensor Completion Approach for Recovering Color Images and Videos from Highly Undersampled Data ( http://arxiv.org/abs/2110.09298v1 )

ライセンス: CC0 1.0
Chenjian Pan and Chen Ling and Hongjin He and Liqun Qi and Yanwei Xu(参考訳) 高度にアンサンプされたデータからカラー画像やビデオを復元することは、顔認識とコンピュータビジョンの基本的な課題である。 本稿では,カラー画像とビデオの多次元的な性質から,離散コサイン変換(DCT)の下でテンソルデータの空間性を効率的に探索できる新しいテンソル補完手法を提案する。 具体的には、2つのDCTベースのテンソル補完モデルと2つの実装可能なアルゴリズムを導入する。 1つ目は、DCTベースの重み付き核ノルム最小化モデルである。 2つ目はDCTベースの$p$-shrinking Tenor completion modelと呼ばれ、これはデータの低ランク化を促進するために$p$-shrinkageマッピングを利用する非凸モデルである。 さらに,基礎となる最適化モデルを解くための拡張ラグランジアンアルゴリズムを2つ提案する。 カラー画像やMRI画像のインペイントやビデオデータリカバリなどの数値実験により,提案手法は既存の多くのテンソル完成法,特に欠落データの比率が高い場合よりも優れた性能を示した。

Recovering color images and videos from highly undersampled data is a fundamental and challenging task in face recognition and computer vision. By the multi-dimensional nature of color images and videos, in this paper, we propose a novel tensor completion approach, which is able to efficiently explore the sparsity of tensor data under the discrete cosine transform (DCT). Specifically, we introduce two DCT-based tensor completion models as well as two implementable algorithms for their solutions. The first one is a DCT-based weighted nuclear norm minimization model. The second one is called DCT-based $p$-shrinking tensor completion model, which is a nonconvex model utilizing $p$-shrinkage mapping for promoting the low-rankness of data. Moreover, we accordingly propose two implementable augmented Lagrangian-based algorithms for solving the underlying optimization models. A series of numerical experiments including color and MRI image inpainting and video data recovery demonstrate that our proposed approach performs better than many existing state-of-the-art tensor completion methods, especially for the case when the ratio of missing data is high.
翻訳日:2021-10-19 22:24:06 公開日:2021-10-18
# (参考訳) モンテカルロシミュレーションによる微細構造進化の異常粒成長予測のためのニューラルメッセージパッシング

Neural message passing for predicting abnormal grain growth in Monte Carlo simulations of microstructural evolution ( http://arxiv.org/abs/2110.09326v1 )

ライセンス: CC BY 4.0
Ryan Cohn, Elizabeth Holm(参考訳) 異常な粒成長は、加工中の材料の特性を著しく変化させることができる。 このことは、同一の処理経路を施された種内飼料成分の特性と性能に大きな変化をもたらす可能性がある。 異常粒成長の理解と制御は, この現象の確率的性質により解明されている。 しかし、近年のディープラーニングの進歩は、この現象を理解するための従来の実験的および物理学的手法に代わる有望な代替手段を提供する。 ニューラルメッセージパッシングは、素材内の粒構造のグラフ表現を含む不規則な入力にディープラーニングを適用することができる。 本研究では,理想化システムにおける異常粒成長のモンテカルロシミュレーションの大規模データベースを生成する。 入力としてシステムの初期状態のみを用いて,これらのシミュレーションにおいて異常粒成長の発生を予測するためにメッセージパッシングニューラルネットワークを適用した。 コンピュータビジョンモデルは、比較のために同じタスクのために訓練される。 予備結果は, メッセージパッシング手法がコンピュータビジョン法を上回り, 75%の予測精度を達成したことを示す。 モンテカルロシミュレーションにおける不確実性の解析は、このプロジェクトの進行中の作業のロードマップを提供する。

Abnormal grain growth can significantly alter the properties of materials during processing. This can cause significant variation in the properties and performance of in-spec feedstock components subjected to identical processing paths. Understanding and controlling abnormal grain growth has proved to be elusive due to the stochastic nature of this phenomenon. However, recent advances in deep learning provide a promising alternative to traditional experimental and physics-based methods for understanding this phenomenon. Neural message passing allows deep learning to be applied to irregular inputs including graph representations of grain structures in a material. In this study we generate a large database of Monte Carlo simulations of abnormal grain growth in an idealized system. We apply message passing neural networks to predict the occurrence of abnormal grain growth in these simulations using only the initial state of the system as input. A computer vision model is also trained for the same task for comparison. The preliminary results indicate that the message passing approach outperforms the computer vision method and achieved 75% prediction accuracy, significantly better than random guessing. Analysis of the uncertainty in the Monte Carlo simulations provides a road map for ongoing work on this project.
翻訳日:2021-10-19 21:58:46 公開日:2021-10-18
# (参考訳) FMFCC-A:合成音声検出のための干渉マンダリンデータセット

FMFCC-A: A Challenging Mandarin Dataset for Synthetic Speech Detection ( http://arxiv.org/abs/2110.09441v1 )

ライセンス: CC BY 4.0
Zhenyu Zhang, Yewei Gu, Xiaowei Yi, Xianfeng Zhao(参考訳) tts(text-to-speech)やvc(voice conversion)技術の発展に伴い、合成音声の検出が劇的に進んでいる。 マンダリン TTS と VC 技術に対する合成音声検出モデルの開発を促進するため,我々は,マンダリンの挑戦的データセットを構築し,中国画像・グラフィックス協会(FMFCC-A)の最初のフェイクメディア法医学的課題の音声トラックを整理した。 このデータセットは、11のMandarin TTSシステムと2つのMandarin VCシステムによって生成される4万の合成マンダリン発話と、58人の話者から収集された1万の真正マンダリン発話を含む。 FMFCC-Aデータセットは、様々な未知の音声合成システムや音声後処理操作の下で合成されたマンダリン音声の検出の研究に使用されるトレーニング、開発、評価セットに分けられる。 fmfcc-aデータセットの構築について述べることに加えて、fmfcc-aデータセットの有用性と課題を示す2つのベースラインメソッドとfmfcc-aからの上位パフォーマンス提案について詳細な分析を行う。 FMFCC-Aデータセットが、合成音声検出のためのマンダリンデータセットの欠如のギャップを埋めることを期待している。

As increasing development of text-to-speech (TTS) and voice conversion (VC) technologies, the detection of synthetic speech has been suffered dramatically. In order to promote the development of synthetic speech detection model against Mandarin TTS and VC technologies, we have constructed a challenging Mandarin dataset and organized the accompanying audio track of the first fake media forensic challenge of China Society of Image and Graphics (FMFCC-A). The FMFCC-A dataset is by far the largest publicly-available Mandarin dataset for synthetic speech detection, which contains 40,000 synthesized Mandarin utterances that generated by 11 Mandarin TTS systems and two Mandarin VC systems, and 10,000 genuine Mandarin utterances collected from 58 speakers. The FMFCC-A dataset is divided into the training, development and evaluation sets, which are used for the research of detection of synthesized Mandarin speech under various previously unknown speech synthesis systems or audio post-processing operations. In addition to describing the construction of the FMFCC-A dataset, we provide a detailed analysis of two baseline methods and the top-performing submissions from the FMFCC-A, which illustrates the usefulness and challenge of FMFCC-A dataset. We hope that the FMFCC-A dataset can fill the gap of lack of Mandarin datasets for synthetic speech detection.
翻訳日:2021-10-19 21:44:58 公開日:2021-10-18
# セルレス大規模MIMOシステムの深層学習による電力制御

Deep Learning-Based Power Control for Uplink Cell-Free Massive MIMO Systems ( http://arxiv.org/abs/2110.09001v1 )

ライセンス: Link先を確認
Yongshun Zhang, Jiayi Zhang, Yu Jin, Stefano Buzzi, Bo Ai(参考訳) 本稿では、アップリンクセルレス大規模マルチインプットマルチアウトプット(CF mMIMO)システムにおいて、最大、最大、最大、最大、最大を最適化するためのディープラーニングに基づく電力制御手法の一般的なフレームワークを提案する。 教師あり学習を用いる代わりに,提案手法は教師なし学習に依存する。 より具体的には、ディープニューラルネットワーク(DNN)を使用して、フェーディング係数とパワー係数のマップを短時間で学習し、計算複雑性を低くする。 提案手法を用いたcf mmimoシステムのスペクトル効率は,max-min最適化の以前の最適化手法よりも優れており,max-sum-rate と max-product optimization の両方に適合する。

In this paper, a general framework for deep learning-based power control methods for max-min, max-product and max-sum-rate optimization in uplink cell-free massive multiple-input multiple-output (CF mMIMO) systems is proposed. Instead of using supervised learning, the proposed method relies on unsupervised learning, in which optimal power allocations are not required to be known, and thus has low training complexity. More specifically, a deep neural network (DNN) is trained to learn the map between fading coefficients and power coefficients within short time and with low computational complexity. It is interesting to note that the spectral efficiency of CF mMIMO systems with the proposed method outperforms previous optimization methods for max-min optimization and fits well for both max-sum-rate and max-product optimizations.
翻訳日:2021-10-19 21:31:33 公開日:2021-10-18
# 話者検証のための実付加マージンソフトマックス

Real Additive Margin Softmax for Speaker Verification ( http://arxiv.org/abs/2110.09116v1 )

ライセンス: Link先を確認
Lantian Li and Ruiqian Nai and Dong Wang(参考訳) 付加限界ソフトマックス(AM-Softmax)損失は、話者検証において顕著な性能をもたらした。 AM-Softmaxの振る舞いは、ターゲットロジットに重点を置くことでクラス内の変動を縮小し、それによってターゲットクラスと非ターゲットクラスのマージンが向上する。 本稿では,am-softmax損失の挙動を注意深く解析し,この損失が実際のmax-marginトレーニングを実践していないことを示す。 この観測に基づいて,ソフトマックストレーニングにおける真のマージン関数を含むリアルAM-Softmax損失を示す。 VoxCeleb1、SITW、CNCelebで行った実験では、補正されたAM-Softmaxの損失は元の損失よりも一貫して優れていた。 コードはhttps://gitlab.com/csltstu/sunineでリリースされた。

The additive margin softmax (AM-Softmax) loss has delivered remarkable performance in speaker verification. A supposed behavior of AM-Softmax is that it can shrink within-class variation by putting emphasis on target logits, which in turn improves margin between target and non-target classes. In this paper, we conduct a careful analysis on the behavior of AM-Softmax loss, and show that this loss does not implement real max-margin training. Based on this observation, we present a Real AM-Softmax loss which involves a true margin function in the softmax training. Experiments conducted on VoxCeleb1, SITW and CNCeleb demonstrated that the corrected AM-Softmax loss consistently outperforms the original one. The code has been released at https://gitlab.com/csltstu/sunine.
翻訳日:2021-10-19 21:29:53 公開日:2021-10-18
# 理論的保証付き多目的進化アルゴリズムによる結果の多様化

Result Diversification by Multi-objective Evolutionary Algorithms with Theoretical Guarantees ( http://arxiv.org/abs/2110.09332v1 )

ライセンス: Link先を確認
Chao Qian, Dan-Xuan Liu, Zhi-Hua Zhou(参考訳) 結果の多様化問題は、いくつかの制約を満たすとともに、高い「品質」と「多様性」のサブセットを選択することを目的としている。 ウェブベースの検索、文書要約、特徴選択など、様々な現実世界の人工知能アプリケーションに現れ、計算幾何学、データベース、ファイナンス、オペレーション研究など他の分野にも応用されている。 従来のアルゴリズムは主に欲求や局所探索に基づいている。 本稿では,二目的最大化問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA),すなわちGSEMOを用いて解くことを提案する。 我々はGSEMOが静的環境と動的環境の両方において(漸近的に)最適な理論的保証を達成できることを理論的に証明する。 濃度制約に対して、GSEMO は最適多項式時間近似比 1/2$ を達成することができる。 より一般的なマットロイドの制約に対して、GSEMO は漸近的に最適な多項式時間近似比 1/2-\epsilon/(4n)$ を達成することができる。 さらに、目的関数(すなわち品質と多様性の線形結合)が動的に変化するとき、GSEMOはこの近似比を多項式実行時間で維持することができ、ボロディンらによって提案された開問題に対処することができる。 これはまた、局所探索による動的最適化問題の解法よりもEAの優位性を示し、EAの突然変異演算子の動的変化に対する堅牢性を明らかにする。 web-based search, multi-label feature selection, document summarizationの応用実験では,静的および動的環境下でのgsemoの性能が最先端のアルゴリズム(すなわちgreedyアルゴリズムとローカル検索)よりも優れていることが示されている。

Given a ground set of items, the result diversification problem aims to select a subset with high "quality" and "diversity" while satisfying some constraints. It arises in various real-world artificial intelligence applications, such as web-based search, document summarization and feature selection, and also has applications in other areas, e.g., computational geometry, databases, finance and operations research. Previous algorithms are mainly based on greedy or local search. In this paper, we propose to reformulate the result diversification problem as a bi-objective maximization problem, and solve it by a multi-objective evolutionary algorithm (EA), i.e., the GSEMO. We theoretically prove that the GSEMO can achieve the (asymptotically) optimal theoretical guarantees under both static and dynamic environments. For cardinality constraints, the GSEMO can achieve the optimal polynomial-time approximation ratio, $1/2$. For more general matroid constraints, the GSEMO can achieve the asymptotically optimal polynomial-time approximation ratio, $1/2-\epsilon/(4n)$. Furthermore, when the objective function (i.e., a linear combination of quality and diversity) changes dynamically, the GSEMO can maintain this approximation ratio in polynomial running time, addressing the open question proposed by Borodin et al. This also theoretically shows the superiority of EAs over local search for solving dynamic optimization problems for the first time, and discloses the robustness of the mutation operator of EAs against dynamic changes. Experiments on the applications of web-based search, multi-label feature selection and document summarization show the superior performance of the GSEMO over the state-of-the-art algorithms (i.e., the greedy algorithm and local search) under both static and dynamic environments.
翻訳日:2021-10-19 21:29:39 公開日:2021-10-18
# (参考訳) GARCHモデルとニューラルネットワークを用いたセクタ変動予測性能

Sector Volatility Prediction Performance Using GARCH Models and Artificial Neural Networks ( http://arxiv.org/abs/2110.09489v1 )

ライセンス: CC BY 4.0
Curtis Nybo(参考訳) 近年、人工ニューラルネットワーク(ANN)はボラティリティ予測に成功しているが、一般的なGARCHモデルではなく、ANNをどこで使用するべきかについての文献が分かれている。 本研究の目的は、低, 中, 高ボラティリティプロファイルを有する株に適用した場合のANNおよびGARCHモデルのボラティリティ予測性能を比較することである。 このアプローチは、各ケースで使用するモデルを特定することを目的としている。 ボラティリティのプロファイルは、2005年から2020年まで米国株式市場の全株式をカバーする5つのセクターで構成されている。 3つのGARCH仕様と3つのANNアーキテクチャを各セクターで検討し、予測に最も適したモデルを選択した。 その結果,annモデルは低ボラティリティプロファイルの資産のボラティリティ予測に利用すべきであり,garchモデルは中高ボラティリティ資産のボラティリティ予測に使用するべきであることがわかった。

Recently artificial neural networks (ANNs) have seen success in volatility prediction, but the literature is divided on where an ANN should be used rather than the common GARCH model. The purpose of this study is to compare the volatility prediction performance of ANN and GARCH models when applied to stocks with low, medium, and high volatility profiles. This approach intends to identify which model should be used for each case. The volatility profiles comprise of five sectors that cover all stocks in the U.S stock market from 2005 to 2020. Three GARCH specifications and three ANN architectures are examined for each sector, where the most adequate model is chosen to move on to forecasting. The results indicate that the ANN model should be used for predicting volatility of assets with low volatility profiles, and GARCH models should be used when predicting volatility of medium and high volatility assets.
翻訳日:2021-10-19 21:28:41 公開日:2021-10-18
# Arjun: 効率的な独立支援計算手法とそのカウントとサンプリングへの応用

Arjun: An Efficient Independent Support Computation Technique and its Applications to Counting and Sampling ( http://arxiv.org/abs/2110.09026v1 )

ライセンス: Link先を確認
Mate Soos and Kuldeep S. Meel(参考訳) x$ と射影集合 $\mathcal{p} \subseteq x$ 上のブール式 $\varphi$ が与えられたとき、変数のサブセット $\mathcal{i}$ が$\mathcal{p}$ の独立サポートであるなら、2つの解が$\mathcal{i}$ に一致するなら、$\mathcal{p}$ についても同意する。 独立支持の概念は1901年にさかのぼる古典的な定義と関係しており、数十年にわたって研究されてきた。 近年,ハッシュに基づくカウント・サンプリング手法の独立サポートの重要性から,与えられた式に対する独立サポートを決定する計算問題の重要性が高まっている。 本稿では,実世界のベンチマークから生じる公式を処理可能な効率的でスケーラブルな独立サポート計算手法を考案する。 我々のアルゴリズムフレームワークはArjunと呼ばれ、暗黙的かつ明示的な定義可能性の概念を採用しており、ゲート識別技術と仮定に基づくフレームワークの密接な統合に基づいている。 我々は,arjun による art model counter approxmc4 と sampler unigen3 の強化により,性能が大幅に向上することを示す。 特に、Arjunで強化されたApproxMC4は1896年から387のベンチマークを数え、Arjunで強化されたUniGen3は319のベンチマークを同じ時間内に追加する。

Given a Boolean formula $\varphi$ over the set of variables $X$ and a projection set $\mathcal{P} \subseteq X$, a subset of variables $\mathcal{I}$ is independent support of $\mathcal{P}$ if two solutions agree on $\mathcal{I}$, then they also agree on $\mathcal{P}$. The notion of independent support is related to the classical notion of definability dating back to 1901, and have been studied over the decades. Recently, the computational problem of determining independent support for a given formula has attained importance owing to the crucial importance of independent support for hashing-based counting and sampling techniques. In this paper, we design an efficient and scalable independent support computation technique that can handle formulas arising from real-world benchmarks. Our algorithmic framework, called Arjun, employs implicit and explicit definability notions, and is based on a tight integration of gate-identification techniques and assumption-based framework. We demonstrate that augmenting the state of the art model counter ApproxMC4 and sampler UniGen3 with Arjun leads to significant performance improvements. In particular, ApproxMC4 augmented with Arjun counts 387 more benchmarks out of 1896 while UniGen3 augmented with Arjun samples 319 more benchmarks within the same time limit.
翻訳日:2021-10-19 21:06:38 公開日:2021-10-18
# 部分関数線形モデルのためのカーネルベース推定:ミニマックスレートとランダム化スケッチ

Kernel-based estimation for partially functional linear model: Minimax rates and randomized sketches ( http://arxiv.org/abs/2110.09042v1 )

ライセンス: Link先を確認
Shaogao Lv and Xin He and Junhui Wang(参考訳) 本稿では,すべての予測特徴が関数共変量と高次元スカラーベクトルからなる部分汎関数線形モデル(pflm)を考える。 無限次元再生核ヒルベルト空間上で、提案されたPFLMの推定は、関数ノルムと$\ell_1$-ノルムの2つの混合正規化を持つ最小二乗アプローチである。 本研究の主な課題は,PFLMのミニマックス速度を高次元設定で確立することであり,カーネルクラスの解析に経験的プロセス理論の様々な手法を用いて推定の最適ミニマックス速度を確立することである。 さらに,カーネル行列のランダム化スケッチに基づく効率的な数値アルゴリズムを提案する。 本手法と最適化戦略をサポートするため,いくつかの数値実験を行った。

This paper considers the partially functional linear model (PFLM) where all predictive features consist of a functional covariate and a high dimensional scalar vector. Over an infinite dimensional reproducing kernel Hilbert space, the proposed estimation for PFLM is a least square approach with two mixed regularizations of a function-norm and an $\ell_1$-norm. Our main task in this paper is to establish the minimax rates for PFLM under high dimensional setting, and the optimal minimax rates of estimation is established by using various techniques in empirical process theory for analyzing kernel classes. In addition, we propose an efficient numerical algorithm based on randomized sketches of the kernel matrix. Several numerical experiments are implemented to support our method and optimization strategy.
翻訳日:2021-10-19 21:06:08 公開日:2021-10-18
# 欠落データを用いた回帰 : ランダム森林に基づく手法の比較研究

Regression with Missing Data, a Comparison Study of TechniquesBased on Random Forests ( http://arxiv.org/abs/2110.09333v1 )

ライセンス: Link先を確認
Irving G\'omez-M\'endez and Emilien Joly(参考訳) 本稿では,サンプルの許容値に対処する新しいランダムフォレストアルゴリズムの実用的利点について述べる。 この研究の目的は、不足する値をランダムな森林で処理する様々なソリューションを比較し、新しいアルゴリズムの性能とアルゴリズムの複雑さを説明することである。 様々な値のメカニズム(mcar、mar、mnarなど)が考慮され、シミュレーションされている。 本稿では,2次誤差とバイアスオブユールアルゴリズムについて検討し,文献において最もよく使われている無作為な森林アルゴリズムと比較する。 特に,これらの手法を回帰と予測の両方に比較する。 この研究は、この新しいアルゴリズムの一貫性に関するGomez-Mendez and Joly (2020)の最初の論文に従う。

In this paper we present the practical benefits of a new random forest algorithm to deal withmissing values in the sample. The purpose of this work is to compare the different solutionsto deal with missing values with random forests and describe our new algorithm performanceas well as its algorithmic complexity. A variety of missing value mechanisms (such as MCAR,MAR, MNAR) are considered and simulated. We study the quadratic errors and the bias ofour algorithm and compare it to the most popular missing values random forests algorithms inthe literature. In particular, we compare those techniques for both a regression and predictionpurpose. This work follows a first paper Gomez-Mendez and Joly (2020) on the consistency ofthis new algorithm.
翻訳日:2021-10-19 21:05:55 公開日:2021-10-18
# 教師なし学習カルマンフィルタリング

Unsupervised Learned Kalman Filtering ( http://arxiv.org/abs/2110.09005v1 )

ライセンス: Link先を確認
Guy Revach, Nir Shlezinger, Timur Locher, Xiaoyong Ni, Ruud J. G. van Sloun, and Yonina C. Eldar(参考訳) 本稿では,最近提案された深層ニューラルネットワーク(DNN)支援システムであるKalmanNetを,モデルベースカルマンフィルタ(KF)の動作に準じたアーキテクチャで適用し,そのマッピングを教師なしの方法で学習する。 教師なし適応は、KFの次の観測を内部的に予測するKalmanNetのハイブリッドモデルベース/データ駆動アーキテクチャを活用することで達成される。 これらの内部機能は、システムの出力における状態推定よりも損失を計算するために使用される。 教師なし学習の能力により、隠れた状態を追跡するだけでなく、状態空間(SS)モデルのバリエーションに適応するためにもKalmanNetを使用することができる。 我々は、ノイズ統計が未知の場合、教師なしのKalmanNetが教師なしの学習でKalmanNetと同じような性能を達成することを数値的に示す。 また,事前学習したkalmannetを,教師なしの機能による追加データの提供なしにssモデルに変更できることを示した。

In this paper we adapt KalmanNet, which is a recently pro-posed deep neural network (DNN)-aided system whose architecture follows the operation of the model-based Kalman filter (KF), to learn its mapping in an unsupervised manner, i.e., without requiring ground-truth states. The unsupervised adaptation is achieved by exploiting the hybrid model-based/data-driven architecture of KalmanNet, which internally predicts the next observation as the KF does. These internal features are then used to compute the loss rather than the state estimate at the output of the system. With the capability of unsupervised learning, one can use KalmanNet not only to track the hidden state, but also to adapt to variations in the state space (SS) model. We numerically demonstrate that when the noise statistics are unknown, unsupervised KalmanNet achieves a similar performance to KalmanNet with supervised learning. We also show that we can adapt a pre-trained KalmanNet to changing SS models without providing additional data thanks to the unsupervised capabilities.
翻訳日:2021-10-19 20:56:50 公開日:2021-10-18
# 線形確率帯域はいつ攻撃可能か?

When Are Linear Stochastic Bandits Attackable? ( http://arxiv.org/abs/2110.09008v1 )

ライセンス: Link先を確認
Huazheng Wang, Haifeng Xu, Hongning Wang(参考訳) 我々は,線形確率的包帯に対する敵対的攻撃,レコメンデータシステム,オンライン広告,医療治療などにおいて,多くの重要な応用において逐次決定問題について検討する。 報酬を操作することで、敵はバンディットアルゴリズムの動作を制御することを目指す。 おそらく、まず最初に、いくつかの攻撃目標が達成できないことを示す。 これは文脈自由確率バンディットとは対照的であり、本質的には線形確率バンディットの腕間の相関によるものである。 本研究は,この観察に動機づけられ,$k$の線形バンディット環境の攻撃性について検討した。 まず,コンテキストベクトルの幾何学に基づく攻撃可能性の完全必要性と十分性について述べる。 次に,LinUCBとロバスト相除去に対する2段階攻撃法を提案する。 この方法はまず、現在の環境が攻撃可能かどうかを断定し、もしそうなら、アルゴリズムがサブ線形コストのみを使用して目標のアームを線形に引くように報酬を変更する。 数値実験により,提案手法の有効性とコスト効率がさらに検証された。

We study adversarial attacks on linear stochastic bandits, a sequential decision making problem with many important applications in recommender systems, online advertising, medical treatment, and etc. By manipulating the rewards, an adversary aims to control the behaviour of the bandit algorithm. Perhaps surprisingly, we first show that some attack goals can never be achieved. This is in sharp contrast to context-free stochastic bandits, and is intrinsically due to the correlation among arms in linear stochastic bandits. Motivated by this observation, this paper studies the attackability of a $k$-armed linear bandit environment. We first provide a full necessity and sufficiency characterization of attackability based on the geometry of the context vectors. We then propose a two-stage attack method against LinUCB and Robust Phase Elimination. The method first asserts whether the current environment is attackable, and if Yes, modifies the rewards to force the algorithm to pull a target arm linear times using only a sublinear cost. Numerical experiments further validate the effectiveness and cost-efficiency of the proposed method.
翻訳日:2021-10-19 20:56:31 公開日:2021-10-18
# データ駆動・可視化に基づく意思決定木を用いた大学ランキング改善のための戦略

Data Driven and Visualization based Strategization for University Rank Improvement using Decision Trees ( http://arxiv.org/abs/2110.09050v1 )

ライセンス: Link先を確認
Nishi Doshi and Samhitha Gundam and Bhaskar Chaudhury(参考訳) 高等教育機関の年次ランキング(HEIs)は世界的な現象であり、過去の研究では高等教育の景観に大きな影響を与えることが示されている。 このようなランキング制度の目標、方法論、成果に関する批判にもかかわらず、これまでの研究では、ほとんどの大学がランキング結果に注意を払っており、そのランク向上を楽しみにしている。 一般に、各ランキングフレームワークは独自のパラメータセットを使用し、個々のメトリクスのデータは、ランクを決定するために単一の最終スコアに凝縮され、複雑な多変量問題となる。 相当なリソースや努力、正確な計画が必要となるため、優れたランクを維持し、ランキングを上昇させることは難しい課題である。 本研究では、相関ヒートマップとボックスプロットを用いた探索データ分析(EDA)が、ランキングデータの幅広い傾向を理解するのにどのように役立つかを示すが、EDAに基づくランク改善の制度的決定は困難である。 本稿では,Decision Tree (DT) に基づくアルゴリズムを用いてランキングデータを分類し,データ可視化技術を用いてランク改善のための決定経路を求める。 確率推定にラプラス補正を用いると、解釈可能なDTモデルから得られる異なる決定経路に付随する確実性の量を定量化する。 提案手法は,HEIが改善の範囲を定量的に評価し,詳細な長期行動計画と適切な道路マップを作成するのに役立つ。

Annual ranking of higher educational institutes (HEIs) is a global phenomena and past research shows that they have significant impact on higher education landscape. In spite of criticisms regarding the goals, methodologies and outcomes of such ranking systems, previous studies reveal that most of the universities pay close attention to ranking results and look forward to improving their ranks. Generally, each ranking framework uses its own set of parameters and the data for individual metrics are condensed into a single final score for determining the rank thereby making it a complex multivariate problem. Maintaining a good rank and ascending in the rankings is a difficult task because it requires considerable resources, efforts and accurate planning. In this work, we show how exploratory data analysis (EDA) using correlation heatmaps and box plots can aid in understanding the broad trends in the ranking data, however it is challenging to make institutional decisions for rank improvements completely based on EDA. We present a novel idea of classifying the rankings data using Decision Tree (DT) based algorithms and retrieve decision paths for rank improvement using data visualization techniques. Using Laplace correction to the probability estimate, we quantify the amount of certainty attached with different decision paths obtained from interpretable DT models . The proposed methodology can aid HEIs to quantitatively asses the scope of improvement, adumbrate a fine-grained long-term action plan and prepare a suitable road-map.
翻訳日:2021-10-19 20:56:14 公開日:2021-10-18
# 二次最適化に基づく適応モーメントを用いた深層ニューラルネットワークの学習

Training Deep Neural Networks with Adaptive Momentum Inspired by the Quadratic Optimization ( http://arxiv.org/abs/2110.09057v1 )

ライセンス: Link先を確認
Tao Sun, Huaming Ling, Zuoqiang Shi, Dongsheng Li, Bao Wang(参考訳) 重い球運動量は、(確率的な)勾配に基づく機械学習最適化アルゴリズムの高速化に不可欠である。 既存の重い球運動量は通常、過度のチューニングに依存する均一なハイパーパラメータによって重み付けされる。 さらに、キャリブレーションされた固定ハイパーパラメータは最適性能に繋がらない。 本稿では,運動量関連ハイパーパラメータのチューニングの労力をなくすため,重球運動量の最適選択に触発された新しい適応運動量を提案する。 提案する適応重球運動量は,確率勾配降下 (sgd) とadamを改善できる。 新たに設計された適応運動量を持つSGDとAdamは、大きな学習率に対してより堅牢であり、より早く収束し、ベースラインよりも良く一般化する。 画像分類,言語モデリング,機械翻訳など,広範な機械学習ベンチマークにおいて,新たな適応運動量を用いてsgdとadamの効率を検証した。 最後に,提案する適応運動量を用いてsgdとadamの収束保証を提供する。

Heavy ball momentum is crucial in accelerating (stochastic) gradient-based optimization algorithms for machine learning. Existing heavy ball momentum is usually weighted by a uniform hyperparameter, which relies on excessive tuning. Moreover, the calibrated fixed hyperparameter may not lead to optimal performance. In this paper, to eliminate the effort for tuning the momentum-related hyperparameter, we propose a new adaptive momentum inspired by the optimal choice of the heavy ball momentum for quadratic optimization. Our proposed adaptive heavy ball momentum can improve stochastic gradient descent (SGD) and Adam. SGD and Adam with the newly designed adaptive momentum are more robust to large learning rates, converge faster, and generalize better than the baselines. We verify the efficiency of SGD and Adam with the new adaptive momentum on extensive machine learning benchmarks, including image classification, language modeling, and machine translation. Finally, we provide convergence guarantees for SGD and Adam with the proposed adaptive momentum.
翻訳日:2021-10-19 20:55:50 公開日:2021-10-18
# EmbRace: NLPニューラルネットワークの分散トレーニングのためのスパース通信の高速化

EmbRace: Accelerating Sparse Communication for Distributed Training of NLP Neural Networks ( http://arxiv.org/abs/2110.09132v1 )

ライセンス: Link先を確認
Shengwei Li, Zhiquan Lai, Dongsheng Li, Xiangyu Ye, Yabo Duan(参考訳) 分散データ並列トレーニングは自然言語処理(NLP)ニューラルネットワークモデルに広く利用されている。 しかし、NLPモデルの埋め込みテーブルは、パラメータの大部分を保持し、通信に劇的な空間性をもたらすため、分散トレーニングを効率的にスケールすることが大きな課題である。 現在の分散トレーニングフレームワークは、主に高密度モデルに重点を置いているが、NLPモデルの空間性を無視しているため、通信オーバーヘッドが大きくなり、スケーラビリティが比較的低い。 本稿では,分散NLPモデルトレーニングの疎通信を高速化する効率的な通信フレームワークであるEmbRaceを提案する。 EmbRaceは、AlltoAllとAllReduceを組み合わせて、NLPモデルにおける疎密なデータに対する通信オーバーヘッドを最適化する、スパシティ対応のハイブリッド通信を導入した。 embraceはさらに、モデル計算手順を最適化し、埋め込みの依存性を緩和し、優先キューで通信をスケジューリングすることで、計算とコミュニケーションを徹底的に重複させる2次元通信スケジューリングアプローチを導入している。 我々はPyTorchとHorovodに基づくEmbRaceを実装し、2つの高性能GPUクラスタ上で4つの代表NLPモデルを用いて包括的な評価を行う。 実験の結果、EmbRaceは4つの人気のある分散トレーニングベースラインのうち、16のGPUクラスタ上で最大30.66倍のスピードアップを達成した。

Distributed data-parallel training has been widely used for natural language processing (NLP) neural network models. However, the embedding tables in NLP models, holding a large portion of parameters and bringing dramatic sparsity in communication, make it a big challenge to efficiently scale the distributed training. Current distributed training frameworks mainly concentrate on dense models but neglect the sparsity of NLP models, resulting in significant communication overhead and relatively poor scalability. In this paper, we propose EmbRace, an efficient communication framework designed to accelerate sparse communication of distributed NLP model training. EmbRace introduces Sparsity-aware Hybrid Communication, which combines AlltoAll and AllReduce to optimize the communication overhead for sparse and dense data in NLP models. EmbRace further introduces a 2D Communication Scheduling approach to thoroughly overlap communication with computation by optimizing model computation procedure, relaxing the dependency of embeddings, and scheduling communication with a priority queue. We implement EmbRace based on PyTorch and Horovod, and conduct comprehensive evaluations with four representative NLP models on two high-performance GPU clusters. Experimental results show that EmbRace achieves up to 30.66X speedup on 16 GPUs clusters among four popular distributed training baselines.
翻訳日:2021-10-19 20:55:36 公開日:2021-10-18
# 状態空間制約はアルゴリズムタスクにおける微分可能なニューラルネットワークの一般化を改善する

State-Space Constraints Improve the Generalization of the Differentiable Neural Computer in some Algorithmic Tasks ( http://arxiv.org/abs/2110.09138v1 )

ライセンス: Link先を確認
Patrick Ofner and Roman Kern(参考訳) メモリ型ニューラルネットワーク(mann)はソートのようなアルゴリズム的なタスクを解決できる。 しかし、訓練段階では見られない入力シーケンスの長さに一般化しないことが多い。 そこで本研究では,ネットワークコントローラの状態空間を制約し,状態圧縮と状態正規化という,分散サイズの入力シーケンスへの一般化を改善する2つの手法を提案する。 両手法は, 特定の種類のMANN, 微分可能ニューラルネットワーク(DNC)の一般化能力を向上し, アルゴリズム上のステートフルかつステートレスな制御器と比較できることを示す。 さらに,両手法を組み合わせることで,事前学習したdncをより大きなメモリでポストホックに拡張できることを示す。 提案手法では,より短い入力シーケンスを用いてDNCを訓練し,計算資源を節約できる。 さらに、一般化の能力は状態空間のループ構造を伴うことが多く、これはアルゴリズムのループ構造に対応する可能性がある。

Memory-augmented neural networks (MANNs) can solve algorithmic tasks like sorting. However, they often do not generalize to lengths of input sequences not seen in the training phase. Therefore, we introduce two approaches constraining the state-space of the network controller to improve the generalization to out-of-distribution-sized input sequences: state compression and state regularization. We show that both approaches can improve the generalization capability of a particular type of MANN, the differentiable neural computer (DNC), and compare our approaches to a stateful and a stateless controller on a set of algorithmic tasks. Furthermore, we show that especially the combination of both approaches can enable a pre-trained DNC to be extended post hoc with a larger memory. Thus, our introduced approaches allow to train a DNC using shorter input sequences and thus save computational resources. Moreover, we observed that the capability for generalization is often accompanied by loop structures in the state-space, which could correspond to looping constructs in algorithms.
翻訳日:2021-10-19 20:55:15 公開日:2021-10-18
# イランにおけるグラフに基づく地域気候分類

Graph-based Local Climate Classification in Iran ( http://arxiv.org/abs/2110.09209v1 )

ライセンス: Link先を確認
Neda Akrami, Koorush Ziarati, and Soumyabrata Dev(参考訳) 本稿では,地域の気候に類似した地域を分類するグラフベースの新しい手法を提案する。 本稿では,提案手法をGPBM (Graph Partition Based Method) と呼ぶ。 提案手法は,現状の文学的手法の欠点を克服しようとするものである。 使用可能な変数の数に制限がなく、気候データの性質も保持している。 提案アルゴリズムの能力を説明するため,その性能を他の最先端の気候分類手法と比較した。 気候データは、イラン南部ファース州の24の総合観測所から収集される。 このデータには1951年から2017年までの7つの気候変数が含まれている。 その結果,提案手法は計算時間が少なく,より現実的な気候分類が可能となった。 気候分類の過程でより多くの情報を節約できるため、さらなるデータ分析において効率的である。 さらに,本手法を用いることで,季節変動をよりよく調査できる季節グラフを導入することができる。 我々の知る限りでは,提案手法は最初のグラフベースの気候分類システムである。

In this paper, we introduce a novel graph-based method to classify the regions with similar climate in a local area. We refer our proposed method as Graph Partition Based Method (GPBM). Our proposed method attempts to overcome the shortcomings of the current state-of-the-art methods in the literature. It has no limit on the number of variables that can be used and also preserves the nature of climate data. To illustrate the capability of our proposed algorithm, we benchmark its performance with other state-of-the-art climate classification techniques. The climate data is collected from 24 synoptic stations in Fars province in southern Iran. The data includes seven climate variables stored as time series from 1951 to 2017. Our results exhibit that our proposed method performs a more realistic climate classification with less computational time. It can save more information during the climate classification process and is therefore efficient in further data analysis. Furthermore, using our method, we can introduce seasonal graphs to better investigate seasonal climate changes. To the best of our knowledge, our proposed method is the first graph-based climate classification system.
翻訳日:2021-10-19 20:54:58 公開日:2021-10-18
# 点クラウド幾何圧縮のためのパッチベースディープオートエンコーダ

Patch-Based Deep Autoencoder for Point Cloud Geometry Compression ( http://arxiv.org/abs/2110.09109v1 )

ライセンス: Link先を確認
Kang You, Pan Gao(参考訳) ますます増加する3Dアプリケーションは、クラウドの圧縮を前例のないほど重要で必要としている。 本稿では,損失点のクラウド幾何圧縮に着目し,ディープラーニングを用いたパッチベースの圧縮プロセスを提案する。 ポイントクラウド全体の機能抽出と再構築を行う既存のポイントクラウド圧縮ネットワークとは異なり、ポイントクラウドをパッチに分割し、各パッチを個別に圧縮する。 復号処理では、最終的に圧縮されたパッチを完全な点クラウドに組み立てる。 さらに,パッチからパッチへの基準,すなわち局所再構成損失を最適化に利用してネットワークを訓練し,グローバル再構築の最適性を近似する。 提案手法は,特に低ビットレートでの速度歪み性能において,最先端の手法よりも優れる。 さらに,提案した圧縮処理は,入力と同じ数の点を生成することを保証できる。 この手法のネットワークモデルは、アップサンプリングのような他の点雲再構成問題にも容易に適用できる。

The ever-increasing 3D application makes the point cloud compression unprecedentedly important and needed. In this paper, we propose a patch-based compression process using deep learning, focusing on the lossy point cloud geometry compression. Unlike existing point cloud compression networks, which apply feature extraction and reconstruction on the entire point cloud, we divide the point cloud into patches and compress each patch independently. In the decoding process, we finally assemble the decompressed patches into a complete point cloud. In addition, we train our network by a patch-to-patch criterion, i.e., use the local reconstruction loss for optimization, to approximate the global reconstruction optimality. Our method outperforms the state-of-the-art in terms of rate-distortion performance, especially at low bitrates. Moreover, the compression process we proposed can guarantee to generate the same number of points as the input. The network model of this method can be easily applied to other point cloud reconstruction problems, such as upsampling.
翻訳日:2021-10-19 20:54:07 公開日:2021-10-18
# mtp:マルチハイポテーゼ追跡と誤差伝播の予測

MTP: Multi-Hypothesis Tracking and Prediction for Reduced Error Propagation ( http://arxiv.org/abs/2110.09481v1 )

ライセンス: Link先を確認
Xinshuo Weng and Boris Ivanovic and Marco Pavone(参考訳) 近年では、検出、追跡、他のエージェントの軌道予測、エゴエージェントの軌道計画など、標準的な知覚計画ロボット自律パイプラインの個々のモジュールの開発が著しく進展している。 それでも、特にカスケードエラーのキャラクタリゼーションと緩和の観点から、これらのコンポーネントの原則的な統合にはあまり注意が払われていない。 本稿では,追跡モジュールと予測モジュールの結合に着目し,カスケードエラーの問題に対処する。 まず,最先端のトラッキングと予測ツールを用いて,追跡に起因する重大なエラーが予測性能に与える影響を総合的に評価する。 KITTI と nuScenes のデータセットでは,トラックトラジェクトリを入力として消費する予測(実際は典型例)が,地上の真実を過去のトラジェクトリを入力として使用する理想的な設定と比較して,顕著な(たとえ桁違いであっても)性能低下を経験できることがわかった。 この問題に対処するために,多仮説追跡・予測フレームワークを提案する。 予測のために単一の追跡結果セットに頼るのではなく、複数の追跡結果セットを同時に考慮し、予測への入力として正確な追跡結果を含める可能性を高める。 このフレームワークは、nuScenesデータセットで標準の単一仮説追跡予測パイプラインの全体的な予測性能を最大34.2%向上させ、評価をアイデンティティスイッチとフラグメントを含む困難なシナリオに制限した場合、さらに大きな改善(最大70%)を行う。

Recently, there has been tremendous progress in developing each individual module of the standard perception-planning robot autonomy pipeline, including detection, tracking, prediction of other agents' trajectories, and ego-agent trajectory planning. Nevertheless, there has been less attention given to the principled integration of these components, particularly in terms of the characterization and mitigation of cascading errors. This paper addresses the problem of cascading errors by focusing on the coupling between the tracking and prediction modules. First, by using state-of-the-art tracking and prediction tools, we conduct a comprehensive experimental evaluation of how severely errors stemming from tracking can impact prediction performance. On the KITTI and nuScenes datasets, we find that predictions consuming tracked trajectories as inputs (the typical case in practice) can experience a significant (even order of magnitude) drop in performance in comparison to the idealized setting where ground truth past trajectories are used as inputs. To address this issue, we propose a multi-hypothesis tracking and prediction framework. Rather than relying on a single set of tracking results for prediction, our framework simultaneously reasons about multiple sets of tracking results, thereby increasing the likelihood of including accurate tracking results as inputs to prediction. We show that this framework improves overall prediction performance over the standard single-hypothesis tracking-prediction pipeline by up to 34.2% on the nuScenes dataset, with even more significant improvements (up to ~70%) when restricting the evaluation to challenging scenarios involving identity switches and fragments -- all with an acceptable computation overhead.
翻訳日:2021-10-19 20:52:51 公開日:2021-10-18
# (参考訳) ベイズ深層学習によるロバスト網膜症スクリーニングのための段階的クロスドメイン適応

Incremental Cross-Domain Adaptation for Robust Retinopathy Screening via Bayesian Deep Learning ( http://arxiv.org/abs/2110.09319v1 )

ライセンス: CC BY 4.0
Taimur Hassan and Bilal Hassan and Muhammad Usman Akram and Shahrukh Hashmi and Abdel Hakim Taguri and Naoufel Werghi(参考訳) 網膜症は、タイムリーに治療されないと、深刻な視覚障害や失明を引き起こす網膜疾患のグループである。 多くの研究者が、眼底および光コヒーレンス断層撮影(OCT)画像を通して網膜症を認識する自律システムを開発した。 しかし、これらのフレームワークの多くは従来の転写学習と微調整のアプローチを採用しており、正確な診断性能を得るためには十分な量のトレーニングデータが必要である。 そこで本研究では,任意の深層分類モデルを用いて10進法および眼底画像の異常網膜病理を段階的に学習できる新しい増分的クロスドメイン適応器を提案する。 さらに, 提案手法は, ベイジアン多目的関数を駆使して, 逐次学習中に学習した知識の保持を候補分類ネットワークに強制するだけでなく, 学習した病理組織の構造的, 意味的関係をネットワークが理解し, 疾患のカテゴリを新たに加えたことにより, 推論段階で効果的に認識できるようにする。 3つの異なるスキャナーで取得した6つの公開データセットで評価し、13の網膜の病理をスクリーニングし、全体的な精度とf1スコアを0.9826と0.9846で比較した。

Retinopathy represents a group of retinal diseases that, if not treated timely, can cause severe visual impairments or even blindness. Many researchers have developed autonomous systems to recognize retinopathy via fundus and optical coherence tomography (OCT) imagery. However, most of these frameworks employ conventional transfer learning and fine-tuning approaches, requiring a decent amount of well-annotated training data to produce accurate diagnostic performance. This paper presents a novel incremental cross-domain adaptation instrument that allows any deep classification model to progressively learn abnormal retinal pathologies in OCT and fundus imagery via few-shot training. Furthermore, unlike its competitors, the proposed instrument is driven via a Bayesian multi-objective function that not only enforces the candidate classification network to retain its prior learned knowledge during incremental training but also ensures that the network understands the structural and semantic relationships between previously learned pathologies and newly added disease categories to effectively recognize them at the inference stage. The proposed framework, evaluated on six public datasets acquired with three different scanners to screen thirteen retinal pathologies, outperforms the state-of-the-art competitors by achieving an overall accuracy and F1 score of 0.9826 and 0.9846, respectively.
翻訳日:2021-10-19 20:48:34 公開日:2021-10-18
# HDR+バースト復調法の解析と実装

An Analysis and Implementation of the HDR+ Burst Denoising Method ( http://arxiv.org/abs/2110.09354v1 )

ライセンス: Link先を確認
Antoine Monod, Julie Delon, Thomas Veit(参考訳) HDR+は2016年にGoogleが発表した画像処理パイプラインである。 その核となるのは、生画像のバーストを使って1つの高品質な画像を生成するデノイジングアルゴリズムである。 スマートフォンのカメラの汎用的なソリューションとして設計されているため、必ずしも標準の分別メトリクスの最大化ではなく、自然で視覚的なイメージの制作を目的としている。 本稿では,hdr+バースト雑音化アルゴリズムアーキテクチャとそのパラメータの影響について検討・解析する。 この発表では、インタラクティブなデモとともに、アルゴリズムのオープンソースPython実装を提供しています。

HDR+ is an image processing pipeline presented by Google in 2016. At its core lies a denoising algorithm that uses a burst of raw images to produce a single higher quality image. Since it is designed as a versatile solution for smartphone cameras, it does not necessarily aim for the maximization of standard denoising metrics, but rather for the production of natural, visually pleasing images. In this article, we specifically discuss and analyze the HDR+ burst denoising algorithm architecture and the impact of its various parameters. With this publication, we provide an open source Python implementation of the algorithm, along with an interactive demo.
翻訳日:2021-10-19 20:11:08 公開日:2021-10-18
# FAST3D:3次元物体検出のためのフローアウェア・セルフトライニング

FAST3D: Flow-Aware Self-Training for 3D Object Detectors ( http://arxiv.org/abs/2110.09355v1 )

ライセンス: Link先を確認
Christian Fruhwirth-Reisinger, Michael Opitz, Horst Possegger, Horst Bischof(参考訳) 自律運転の分野では、LiDARベースの3Dオブジェクト検出器における分散シフトを軽減するために、自己学習が広く適用されている。 これにより、環境が変わるたびに高価な高品質のラベル(地理的位置、センサーの設定、気象条件など)が不要になる。 しかし、最先端の自己学習アプローチは、自動運転データの時間的性質をほとんど無視する。 そこで本研究では,連続lidar点雲上の3次元物体検出器に対する教師なし領域適応を実現するフローアウェア自己学習手法を提案する。 疑似ラベルを確実に取得するために,シーンフローを利用して時間的検出を行う。 特に,フローベースマルチターゲットトラッカーを導入し,フローの整合性を利用してトラックのフィルタと精細化を行う。 出現した正確な擬似ラベルはモデル再トレーニングの基礎となる。 トレーニング済みのKITTIモデルから開始し、Waymo Open Datasetを試行して、我々のアプローチの有効性を実証する。 対象とするドメイン知識がなければ、我々の結果は最先端技術よりも大幅に改善される。

In the field of autonomous driving, self-training is widely applied to mitigate distribution shifts in LiDAR-based 3D object detectors. This eliminates the need for expensive, high-quality labels whenever the environment changes (e.g., geographic location, sensor setup, weather condition). State-of-the-art self-training approaches, however, mostly ignore the temporal nature of autonomous driving data. To address this issue, we propose a flow-aware self-training method that enables unsupervised domain adaptation for 3D object detectors on continuous LiDAR point clouds. In order to get reliable pseudo-labels, we leverage scene flow to propagate detections through time. In particular, we introduce a flow-based multi-target tracker, that exploits flow consistency to filter and refine resulting tracks. The emerged precise pseudo-labels then serve as a basis for model re-training. Starting with a pre-trained KITTI model, we conduct experiments on the challenging Waymo Open Dataset to demonstrate the effectiveness of our approach. Without any prior target domain knowledge, our results show a significant improvement over the state-of-the-art.
翻訳日:2021-10-19 20:10:57 公開日:2021-10-18
# NeuralBlox:ロバストボリュームマッピングのためのリアルタイム神経表現融合

NeuralBlox: Real-Time Neural Representation Fusion for Robust Volumetric Mapping ( http://arxiv.org/abs/2110.09415v1 )

ライセンス: Link先を確認
Stefan Lionar, Lukas Schmid, Cesar Cadena, Roland Siegwart, Andrei Cramariuc(参考訳) 本稿では,ニューラル暗黙表現の最近の進歩を活かした新しい3次元マッピング手法を提案する。 既存の最先端のニューラル暗示表現法は、オブジェクトレベルの再構成に限られており、新しいデータに対して漸進的に更新を行うことはできない。 本研究では,逐次的な部分的観測から大きなシーンの再構築を可能にする神経暗黙的表現を漸進的に構築し,更新するための融合戦略と訓練パイプラインを提案する。 任意の大きさのシーンを遅延符号のグリッドとして表現し、遅延空間で直接更新を行うことにより、CPU上でもインクリメンタルに構築された占有マップをリアルタイムで得ることを示す。 tsdfs(truncated signed distance fields)のような従来のアプローチと比較して、我々のマップ表現はノイズの多い入力に対してより優れたシーン完全性をもたらすのにかなり頑丈です。 提案手法の性能を実世界のデータセットで実験的に検証し,追加ポーズノイズの程度を検証した。

We present a novel 3D mapping method leveraging the recent progress in neural implicit representation for 3D reconstruction. Most existing state-of-the-art neural implicit representation methods are limited to object-level reconstructions and can not incrementally perform updates given new data. In this work, we propose a fusion strategy and training pipeline to incrementally build and update neural implicit representations that enable the reconstruction of large scenes from sequential partial observations. By representing an arbitrarily sized scene as a grid of latent codes and performing updates directly in latent space, we show that incrementally built occupancy maps can be obtained in real-time even on a CPU. Compared to traditional approaches such as Truncated Signed Distance Fields (TSDFs), our map representation is significantly more robust in yielding a better scene completeness given noisy inputs. We demonstrate the performance of our approach in thorough experimental validation on real-world datasets with varying degrees of added pose noise.
翻訳日:2021-10-19 20:10:25 公開日:2021-10-18
# (参考訳) 自然属性に基づくシフト検出

Natural Attribute-based Shift Detection ( http://arxiv.org/abs/2110.09276v1 )

ライセンス: CC BY 4.0
Jeonghoon Park, Jimin Hong, Radhika Dua, Daehoon Gwak, Yixuan Li, Jaegul Choo, Edward Choi(参考訳) ビジョン、言語、医療におけるディープネットワークの素晴らしいパフォーマンスにもかかわらず、トレーニングディストリビューションとは異なる分布のサンプルに対する予測不可能な振る舞いは、デプロイメントにおいて深刻な問題を引き起こします。 ニューラルネットワークに基づく分類器の信頼性を向上させるために,新たなタスクであるnas(natural attribute-based shift)検出を定義し,被験者の年齢や画像の明るさなどの自然属性によってトレーニング分布からシフトしたサンプルを検出する。 既存のデータセットに存在する自然属性を用いて,nas検出のための視覚,言語,医学におけるベンチマークデータセットを導入する。 さらに,NASデータセットに対する先行代表出力検出法(OOD)の広範な評価を行い,その性能の矛盾を観察する。 そこで本稿では,特徴空間におけるNASサンプルの位置と距離と信頼度に基づくOOD検出手法の性能の関係について分析する。 本分析に基づいて,NAS試料を3つのカテゴリに分割し,さらにトレーニング対象に簡単な修正を加えて,NAS試料を全カテゴリから検出できる改良型OOD検出法を提案する。

Despite the impressive performance of deep networks in vision, language, and healthcare, unpredictable behaviors on samples from the distribution different than the training distribution cause severe problems in deployment. For better reliability of neural-network-based classifiers, we define a new task, natural attribute-based shift (NAS) detection, to detect the samples shifted from the training distribution by some natural attribute such as age of subjects or brightness of images. Using the natural attributes present in existing datasets, we introduce benchmark datasets in vision, language, and medical for NAS detection. Further, we conduct an extensive evaluation of prior representative out-of-distribution (OOD) detection methods on NAS datasets and observe an inconsistency in their performance. To understand this, we provide an analysis on the relationship between the location of NAS samples in the feature space and the performance of distance- and confidence-based OOD detection methods. Based on the analysis, we split NAS samples into three categories and further suggest a simple modification to the training objective to obtain an improved OOD detection method that is capable of detecting samples from all NAS categories.
翻訳日:2021-10-19 20:07:22 公開日:2021-10-18
# (参考訳) X線溶接画像の符号に対する軽量かつ高精度な認識フレームワーク

A Lightweight and Accurate Recognition Framework for Signs of X-ray Weld Images ( http://arxiv.org/abs/2110.09278v1 )

ライセンス: CC BY 4.0
Moyun Liu, Jingming Xie, Jing Hao, Yang Zhang, Xuzhan Chen, Youping Chen(参考訳) x線画像は、品質検査業界におけるデバイスのセキュリティを確保するために一般的に使用される。 x線溶接画像に印刷された標識の認識は、製造業界のデジタルトレーサビリティシステムにおいて重要な役割を果たす。 しかし, 溶接画像では物体のスケールが大きく異なり, 良好な認識が得られにくい。 本稿では,溶接画像に対する畳み込みニューラルネットワーク(CNN)に基づく信号認識フレームワークを提案する。 提案するフレームワークは,まず画像のポーズを補正する浅い分類網を含む。 さらに,上記の課題に対処するために,新たな空間・チャネル拡張(sce)モジュールを提案する。 このモジュールはマルチスケールの機能を統合し、各機能ソースの重みを適応的に割り当てる。 SCEモジュールをベースとした狭帯域ネットワークは最終溶接情報認識のために設計されている。 フレームワークの実用性を高めるため、いくつかのパラメータと計算でフレームワークのアーキテクチャを慎重に設計します。 実験の結果,本フレームワークは分類段階では1.1ギガ浮動小数点演算(GFLOP)で99.7%,認識段階では90.0平均平均平均精度(mAP)が176.1フレーム/秒(FPS)で達成された。

X-ray images are commonly used to ensure the security of devices in quality inspection industry. The recognition of signs printed on X-ray weld images plays an essential role in digital traceability system of manufacturing industry. However, the scales of objects vary different greatly in weld images, and it hinders us to achieve satisfactory recognition. In this paper, we propose a signs recognition framework based on convolutional neural networks (CNNs) for weld images. The proposed framework firstly contains a shallow classification network for correcting the pose of images. Moreover, we present a novel spatial and channel enhancement (SCE) module to address the above scale problem. This module can integrate multi-scale features and adaptively assign weights for each feature source. Based on SCE module, a narrow network is designed for final weld information recognition. To enhance the practicability of our framework, we carefully design the architecture of framework with a few parameters and computations. Experimental results show that our framework achieves 99.7% accuracy with 1.1 giga floating-point of operations (GFLOPs) on classification stage, and 90.0 mean average precision (mAP) with 176.1 frames per second (FPS) on recognition stage.
翻訳日:2021-10-19 19:46:02 公開日:2021-10-18
# (参考訳) フェアツリー学習

Fair Tree Learning ( http://arxiv.org/abs/2110.09295v1 )

ライセンス: CC BY 4.0
Ant\'onio Pereira Barata, Cor J. Veenman(参考訳) 自動データ駆動意思決定におけるセンシティブなデータを扱う場合、重要な関心事は、偏りのあるデータから生じる性別や人種などのセンシティブな属性に対する識別を最小限に抑えながら、クラスラベルに対して高いパフォーマンスの予測器を学習することである。 分類性能と公正度を組み合わせた様々なハイブリッド最適化基準が存在する。 しかしながら、従来の分類モデルの性能測定の標準はROC-AUCであるが、現在の公正決定木法は、分類タスクと公平度測定の両方で一定の閾値を最適化するのみである。 さらに、現在のツリー学習フレームワークでは、複数のカテゴリや複数の機密属性に関して公平な扱いができない。 最後に、公正モデルのエンドユーザーは、特定の倫理的、法的、社会的ニーズに応じて公正さと分類性能のバランスをとることができるべきである。 本稿では,一様人口的平等というしきい値非依存の公平度尺度と,SCAFF - Splitting Criterion AUC for Fairness(公正のための分割基準AUC)と題する分割基準を,タグ付きおよび強化されたフレームワークに拡張した公正決定木学習に向けて提案することで,これらの欠点に対処する。 1) 分類器の性能と公平性は, しばしば任意に決定しきい値に依存するのではなく, 連続的に定義され, (2) 複数の機密属性を同時に活用し, その値が多カテゴリー化されうること, (3) 学習中, 避けられない性能・フェアネストレードオフが調整可能であること, の3つの利点がある。 実験では,SCAFFがクラスラベルに対して高い予測性能を達成し,二項・多分類・複数機密属性に対する低識別性を実証し,さらにその主張を裏付ける。

When dealing with sensitive data in automated data-driven decision-making, an important concern is to learn predictors with high performance towards a class label, whilst minimising for the discrimination towards some sensitive attribute, like gender or race, induced from biased data. Various hybrid optimisation criteria exist which combine classification performance with a fairness metric. However, while the threshold-free ROC-AUC is the standard for measuring traditional classification model performance, current fair decision tree methods only optimise for a fixed threshold on both the classification task as well as the fairness metric. Moreover, current tree learning frameworks do not allow for fair treatment with respect to multiple categories or multiple sensitive attributes. Lastly, the end-users of a fair model should be able to balance fairness and classification performance according to their specific ethical, legal, and societal needs. In this paper we address these shortcomings by proposing a threshold-independent fairness metric termed uniform demographic parity, and a derived splitting criterion entitled SCAFF -- Splitting Criterion AUC for Fairness -- towards fair decision tree learning, which extends to bagged and boosted frameworks. Compared to the state-of-the-art, our method provides three main advantages: (1) classifier performance and fairness are defined continuously instead of relying upon an, often arbitrary, decision threshold; (2) it leverages multiple sensitive attributes simultaneously, of which the values may be multicategorical; and (3) the unavoidable performance-fairness trade-off is tunable during learning. In our experiments, we demonstrate how SCAFF attains high predictive performance towards the class label and low discrimination with respect to binary, multicategorical, and multiple sensitive attributes, further substantiating our claims.
翻訳日:2021-10-19 19:30:37 公開日:2021-10-18
# (参考訳) 対照的自己教師付き学習における次元崩壊の理解

Understanding Dimensional Collapse in Contrastive Self-supervised Learning ( http://arxiv.org/abs/2110.09348v1 )

ライセンス: CC0 1.0
Li Jing, Pascal Vincent, Yann LeCun, Yuandong Tian(参考訳) 自己教師付き視覚表現学習は、人間のアノテーションに頼らずに有用な表現を学ぶことを目的としている。 共同埋め込みアプローチは、同じ画像の異なるビューからの埋め込みベクトル間の一致を最大化する。 全ての埋め込みベクトルが自明な定数解に崩壊するという崩壊問題の解法が提案されている。 これらの方法のうち、対照学習は負のサンプルペアによる崩壊を防ぐ。 次元崩壊(英語版)により、埋め込みベクトルは、利用可能な埋め込み空間全体ではなく、低次元の部分空間にまたがることになる。 ここでは, 次元的崩壊も対照的な学習で起こることを示す。 本稿では,次元の崩壊につながる対照的な学習において,遊びの力学に光を当てる。 この理論に触発されて,学習可能なプロジェクタに頼らずに表現空間を直接最適化するdirectclrと呼ばれる新しいコントラスト学習法を提案する。 実験の結果、DirectCLRはImageNet上でトレーニング可能な線形プロジェクタでSimCLRより優れています。

Self-supervised visual representation learning aims to learn useful representations without relying on human annotations. Joint embedding approach bases on maximizing the agreement between embedding vectors from different views of the same image. Various methods have been proposed to solve the collapsing problem where all embedding vectors collapse to a trivial constant solution. Among these methods, contrastive learning prevents collapse via negative sample pairs. It has been shown that non-contrastive methods suffer from a lesser collapse problem of a different nature: dimensional collapse, whereby the embedding vectors end up spanning a lower-dimensional subspace instead of the entire available embedding space. Here, we show that dimensional collapse also happens in contrastive learning. In this paper, we shed light on the dynamics at play in contrastive learning that leads to dimensional collapse. Inspired by our theory, we propose a novel contrastive learning method, called DirectCLR, which directly optimizes the representation space without relying on a trainable projector. Experiments show that DirectCLR outperforms SimCLR with a trainable linear projector on ImageNet.
翻訳日:2021-10-19 19:16:51 公開日:2021-10-18
# (参考訳) 二元および優先ベイズ最適化における効率的な探索

Efficient Exploration in Binary and Preferential Bayesian Optimization ( http://arxiv.org/abs/2110.09361v1 )

ライセンス: CC BY 4.0
Tristan Fauvel and Matthew Chalk(参考訳) ベイズ最適化(BO)は高価なブラックボックス関数を最適化する効果的な手法であり、エクスプロイト(最大値が予想されるパラメータを選択する)と探索(目的関数について不確実なパラメータを選択する)のトレードオフを求める。 実世界の多くの状況では、目的関数の直接測定は不可能であり、成功/失敗や対数比較のような二元計測のみが利用可能である。 この環境で効率的な探索を行うためには, BOアルゴリズムが, 不確実性, 目的関数の不確かさ, および, ノイズの多い観測から生じるアレタリック不確実性など, 異なる種類の不確実性を見分けることが重要である。 事実上、効率的な探査には前者だけが重要である。 そこで本研究では,2進および優先BOにおける最先端のヒューリスティックよりも高速で実装が容易な新しい獲得関数を提案する。 次に、これらの取得ルールをバッチ学習に一般化し、複数のクエリを同時に実行する。

Bayesian optimization (BO) is an effective approach to optimize expensive black-box functions, that seeks to trade-off between exploitation (selecting parameters where the maximum is likely) and exploration (selecting parameters where we are uncertain about the objective function). In many real-world situations, direct measurements of the objective function are not possible, and only binary measurements such as success/failure or pairwise comparisons are available. To perform efficient exploration in this setting, we show that it is important for BO algorithms to distinguish between different types of uncertainty: epistemic uncertainty, about the unknown objective function, and aleatoric uncertainty, which comes from noisy observations and cannot be reduced. In effect, only the former is important for efficient exploration. Based on this, we propose several new acquisition functions that outperform state-of-the-art heuristics in binary and preferential BO, while being fast to compute and easy to implement. We then generalize these acquisition rules to batch learning, where multiple queries are performed simultaneously.
翻訳日:2021-10-19 19:00:48 公開日:2021-10-18
# (参考訳) Ortho-Shot:Few-Shot学習のためのデータ拡張による低変位ランク正規化

Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation for Few-Shot Learning ( http://arxiv.org/abs/2110.09374v1 )

ライセンス: CC BY 4.0
Uche Osahor, Nasser M. Nasrabadi(参考訳) 少数ショット分類では、主な目標は、新しいクラスをうまく一般化したいくつかのサンプルから表現を学ぶことである。 本稿では,2重ブロックtoeplitz (dbt) 行列構造に基づく,数発分類器の畳み込み層に直交正規化を課す手法である,オルソショットと呼ばれる効率的な低変位ランク (ldr) 正規化戦略を提案する。 数ショット分類器の正規化畳み込み層は、数ショット学習に不可欠なモデル一般化とクラス内特徴埋め込みを強化する。 データ多様性の欠如は適切なモデル推論を阻害し、少数の学習者の新しいクラスへの分類精度を弱めている。 この点に関して、数発の分類器のパイプラインを分解し、サポート、クエリ、タスクデータの増大がネットワークの過度な適合を緩和することを確立した。 その結果,DBTベースの低ランク直交正規化器とデータ拡張戦略を組み合わせることで,数ショットの分類器の性能が著しく向上することを示した。 最先端と比較して約5倍の性能を持つminiImagenet、CIFAR-FS、Stanfordデータセットで実験を行った。

In few-shot classification, the primary goal is to learn representations from a few samples that generalize well for novel classes. In this paper, we propose an efficient low displacement rank (LDR) regularization strategy termed Ortho-Shot; a technique that imposes orthogonal regularization on the convolutional layers of a few-shot classifier, which is based on the doubly-block toeplitz (DBT) matrix structure. The regularized convolutional layers of the few-shot classifier enhances model generalization and intra-class feature embeddings that are crucial for few-shot learning. Overfitting is a typical issue for few-shot models, the lack of data diversity inhibits proper model inference which weakens the classification accuracy of few-shot learners to novel classes. In this regard, we broke down the pipeline of the few-shot classifier and established that the support, query and task data augmentation collectively alleviates overfitting in networks. With compelling results, we demonstrated that combining a DBT-based low-rank orthogonal regularizer with data augmentation strategies, significantly boosts the performance of a few-shot classifier. We perform our experiments on the miniImagenet, CIFAR-FS and Stanford datasets with performance values of about 5\% when compared to state-of-the-art
翻訳日:2021-10-19 18:39:18 公開日:2021-10-18
# 大規模並列ベイズ最適化へのポートフォリオアプローチ

A portfolio approach to massively parallel Bayesian optimization ( http://arxiv.org/abs/2110.09334v1 )

ライセンス: Link先を確認
Mickael Binois, Nicholson Collier (ANL), Jonathan Ozik (ANL)(参考訳) 最適化研究の実施時間を短縮する一つの方法は、一度に1回ではなく、並列に設計を評価することである。 高価な評価ブラックボックスでは、ベイズ最適化のバッチバージョンが提案されている。 それらはブラックボックスのサロゲートモデルを構築することで動作し、インフィル基準によって効率的に評価するデザインを選択することができる。 それでも、高いレベルの並列化が利用可能になると、数十回の並列評価で機能する戦略は制限され、特に、より多くの評価を選択するのが複雑になる。 ブラックボックスがうるさい場合にはさらに重要であり、より多くの評価と繰り返しの実験が必要である。 ここでは,大規模なバッチ処理をネイティブに処理し,探索/探索のトレードオフとポートフォリオ割り当てに着目したスケーラブルな戦略を提案する。 このアプローチを,モノおよび多目的最適化タスクにおける決定論的およびノイズ関数に関する関連する手法と比較する。 これらの実験は既存の方法と同等または優れた性能を示すが、桁違いに高速である。

One way to reduce the time of conducting optimization studies is to evaluate designs in parallel rather than just one-at-a-time. For expensive-to-evaluate black-boxes, batch versions of Bayesian optimization have been proposed. They work by building a surrogate model of the black-box that can be used to select the designs to evaluate efficiently via an infill criterion. Still, with higher levels of parallelization becoming available, the strategies that work for a few tens of parallel evaluations become limiting, in particular due to the complexity of selecting more evaluations. It is even more crucial when the black-box is noisy, necessitating more evaluations as well as repeating experiments. Here we propose a scalable strategy that can keep up with massive batching natively, focused on the exploration/exploitation trade-off and a portfolio allocation. We compare the approach with related methods on deterministic and noisy functions, for mono and multiobjective optimization tasks. These experiments show similar or better performance than existing methods, while being orders of magnitude faster.
翻訳日:2021-10-19 18:20:25 公開日:2021-10-18
# 近似組換えを用いた注意モデルの効率よい系列学習

Efficient Sequence Training of Attention Models using Approximative Recombination ( http://arxiv.org/abs/2110.09245v1 )

ライセンス: Link先を確認
Nils-Philipp Wynands and Wilfried Michel and Jan Rosendahl and Ralf Schl\"uter and Hermann Ney(参考訳) シーケンス判別訓練は、自動音声認識システムの性能を向上させるための優れたツールである。 しかし、実際には計算が困難である全ての可能な単語列に対して和を必要とする。 有限ラベル文脈を持つ現在の最先端システムは、ビームサーチから得られる関連する競合仮説のn-bestリストに和を限定することでこの問題を回避する。 本研究は,ビーム探索中に仮説の再結合を(近似的に)行うことを提案する。 近似によって生じる誤差を解析し, この手法を用いて計算量を大幅に増加させることなく, 有効ビームサイズを数桁増加させることができることを示した。 最後に,本手法は,librispeechタスクにおける注意に基づくエンコーダ・デコーダ音響モデルのシーケンス識別訓練を効果的に行うことができることを示した。

Sequence discriminative training is a great tool to improve the performance of an automatic speech recognition system. It does, however, necessitate a sum over all possible word sequences, which is intractable to compute in practice. Current state-of-the-art systems with unlimited label context circumvent this problem by limiting the summation to an n-best list of relevant competing hypotheses obtained from beam search. This work proposes to perform (approximative) recombinations of hypotheses during beam search, if they share a common local history. The error that is incurred by the approximation is analyzed and it is shown that using this technique the effective beam size can be increased by several orders of magnitude without significantly increasing the computational requirements. Lastly, it is shown that this technique can be used to effectively perform sequence discriminative training for attention-based encoder-decoder acoustic models on the LibriSpeech task.
翻訳日:2021-10-19 18:19:49 公開日:2021-10-18
# サブワード依存モデル尺度の自動学習

Automatic Learning of Subword Dependent Model Scales ( http://arxiv.org/abs/2110.09324v1 )

ライセンス: Link先を確認
Felix Meyer and Wilfried Michel and Mohammad Zeineldeen and Ralf Schl\"uter and Hermann Ney(参考訳) 最先端の自動音声認識システムの性能向上には,言語モデルや事前修正などの外部知識源を組み込むことが一般的である。 これは通常、各モデルごとに別々のスケーリングパラメータを使用して、ログ-線形モデルの組み合わせによって行われる。 一般的にこれらのパラメータは、いくつかの保留データに手動で最適化される。 本研究では,ニューラルネットワークモデルパラメータとよく似た,自動微分と確率勾配によるスケーリングパラメータの最適化を提案する。 librispeech(lbs)とswitchboard(swb)コーポラ(コーポラ)に対して,注意に基づくエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールが,手作業によるチューニングと同じくらい効果的に学習できることを示す。 さらに本手法を,手作業では調整できないサブワード依存モデル尺度に拡張し,LBSは7%,SWBは3%改善した。 また,スケールとモデルパラメータの協調トレーニングが可能であり,LBSでは6%の改善が見られた。

To improve the performance of state-of-the-art automatic speech recognition systems it is common practice to include external knowledge sources such as language models or prior corrections. This is usually done via log-linear model combination using separate scaling parameters for each model. Typically these parameters are manually optimized on some held-out data. In this work we propose to optimize these scaling parameters via automatic differentiation and stochastic gradient decent similar to the neural network model parameters. We show on the LibriSpeech (LBS) and Switchboard (SWB) corpora that the model scales for a combination of attentionbased encoder-decoder acoustic model and language model can be learned as effectively as with manual tuning. We further extend this approach to subword dependent model scales which could not be tuned manually which leads to 7% improvement on LBS and 3% on SWB. We also show that joint training of scales and model parameters is possible and gives additional 6% improvement on LBS.
翻訳日:2021-10-19 18:19:34 公開日:2021-10-18
# 非凸間隔正規化を用いた定常フレームレット変換に基づく塩と唐辛子ノイズ除去法

Salt and pepper noise removal method based on stationary Framelet transform with non-convex sparsity regularization ( http://arxiv.org/abs/2110.09113v1 )

ライセンス: Link先を確認
Yingpin Chen, Lingzhi Wang, Huiying Huang, Jianhua Song, Chaoqun Yu, Yanping Xu(参考訳) ソルトとペッパーのノイズ除去は画像処理において一般的な逆問題であり,高品質で画像情報を復元することを目的としている。 伝統的な塩分とコショウ分別法には2つの制限がある。 まず、ノイズ特性が正確に記述されないことが多い。 例えば、ノイズ位置情報は無視されることが多く、塩と唐辛子音の空間性はしばしばL1ノルムによって説明され、スパース変数を明確に説明できない。 第2に、従来の方法では、汚染された画像を復元された画像とノイズ部分とに分離し、不満足な滑らかな部分と詳細部分の像を復元する。 本研究では,雑音の位置を決定するためのノイズ検出手法を導入し,Lp準ノルムで表される非凸間隔正規化を用いてノイズの疎度を記述することにより,第1の制限に対処する。 静止フレームレット変換を伴う形態素成分分析フレームワークを用いて、処理された画像をマンガ、テクスチャ、ノイズ部品に分解し、第2の制限を解決する。 このフレームワークでは、パラメータの異なる静止フレームレット正規化が漫画やテクスチャ部品の復元を制御する。 このようにして、2つの部品は相互干渉を避けるために別々に回収される。 次に,乗算器の交互方向法 (ADMM) を用いて提案モデルの解法を提案する。 最後に,提案手法を検証し,現在最先端の復調法と比較する実験を行った。 実験の結果,提案手法は処理画像の細部を保存しつつ,塩と唐辛子ノイズを除去できることがわかった。

Salt and pepper noise removal is a common inverse problem in image processing, and it aims to restore image information with high quality. Traditional salt and pepper denoising methods have two limitations. First, noise characteristics are often not described accurately. For example, the noise location information is often ignored and the sparsity of the salt and pepper noise is often described by L1 norm, which cannot illustrate the sparse variables clearly. Second, conventional methods separate the contaminated image into a recovered image and a noise part, thus resulting in recovering an image with unsatisfied smooth parts and detail parts. In this study, we introduce a noise detection strategy to determine the position of the noise, and a non-convex sparsity regularization depicted by Lp quasi-norm is employed to describe the sparsity of the noise, thereby addressing the first limitation. The morphological component analysis framework with stationary Framelet transform is adopted to decompose the processed image into cartoon, texture, and noise parts to resolve the second limitation. In this framework, the stationary Framelet regularizations with different parameters control the restoration of the cartoon and texture parts. In this way, the two parts are recovered separately to avoid mutual interference. Then, the alternating direction method of multipliers (ADMM) is employed to solve the proposed model. Finally, experiments are conducted to verify the proposed method and compare it with some current state-of-the-art denoising methods. The experimental results show that the proposed method can remove salt and pepper noise while preserving the details of the processed image.
翻訳日:2021-10-19 18:12:44 公開日:2021-10-18
# (参考訳) データ異常の予測的説明について

On Predictive Explanation of Data Anomalies ( http://arxiv.org/abs/2110.09467v1 )

ライセンス: CC BY 4.0
Nikolaos Myrtakis, Ioannis Tsamardinos, Vassilis Christophides(参考訳) 異常(異常、新規性)を教師なしで検出するアルゴリズムが多数提案されている。 残念なことに、一般に、あるサンプル(記録)がなぜ異常であるとラベル付けされ、したがって根本原因を診断されるのかを理解することは自明ではない。 そこで本研究では, 検出モデルと, 少数の特徴量のみを用いる他のモデルとを近似した, 検出決定のための下記の縮小次元モデル手法を提案する。 その後、人間の理解のためにこの低次元空間でサンプルを視覚化することができる。 この目的のために,不均衡なデータセットの特徴選択に特化して設計されたサロゲートモデルを生成するAutoMLパイプラインであるProteusを開発した。 proteus surrogateモデルでは、トレーニングデータだけでなく、アウト・オブ・サンプル(unseen)データも説明できる。 言い換えると、プロテウスは教師なし検出器の決定面を近似して予測的な説明を生成する。 PROTEUSは、近似の品質の指標となるために、サンプル外予測性能の正確な見積もりを返すように設計されている。 計算実験により、プロテウスは、異なる種類の検出器の予測説明を生成し、その予測性能を確実に推定する。 いくつかのアドホック特徴量法とは異なり、プロテウスは高次元データに対して頑健である。

Numerous algorithms have been proposed for detecting anomalies (outliers, novelties) in an unsupervised manner. Unfortunately, it is not trivial, in general, to understand why a given sample (record) is labelled as an anomaly and thus diagnose its root causes. We propose the following reduced-dimensionality, surrogate model approach to explain detector decisions: approximate the detection model with another one that employs only a small subset of features. Subsequently, samples can be visualized in this low-dimensionality space for human understanding. To this end, we develop PROTEUS, an AutoML pipeline to produce the surrogate model, specifically designed for feature selection on imbalanced datasets. The PROTEUS surrogate model can not only explain the training data, but also the out-of-sample (unseen) data. In other words, PROTEUS produces predictive explanations by approximating the decision surface of an unsupervised detector. PROTEUS is designed to return an accurate estimate of out-of-sample predictive performance to serve as a metric of the quality of the approximation. Computational experiments confirm the efficacy of PROTEUS to produce predictive explanations for different families of detectors and to reliably estimate their predictive performance in unseen data. Unlike several ad-hoc feature importance methods, PROTEUS is robust to high-dimensional data.
翻訳日:2021-10-19 18:10:45 公開日:2021-10-18
# EMルーティングを用いたカプセルグラフニューラルネットワーク

Capsule Graph Neural Networks with EM Routing ( http://arxiv.org/abs/2110.09039v1 )

ライセンス: Link先を確認
Yu Lei, Jing Zhang(参考訳) グラフインスタンスを効果的に分類するには、グラフニューラルネットワークはグラフに存在する部分と全体の関係をキャプチャする能力を持つ必要がある。 カプセルは、実体の複雑な特性を表すニューロンのグループであり、従来の畳み込みニューラルネットワークにおいてその利点を示している。 本稿では,EMルーティング機構(CapsGNNEM)を用いて高品質なグラフ埋め込みを生成する新しいカプセルグラフニューラルネットワークを提案する。 多くの実世界のグラフデータセットにおける実験結果は、グラフ分類タスクにおいて、提案手法が9つの最先端モデルを上回ることを示している。

To effectively classify graph instances, graph neural networks need to have the capability to capture the part-whole relationship existing in a graph. A capsule is a group of neurons representing complicated properties of entities, which has shown its advantages in traditional convolutional neural networks. This paper proposed novel Capsule Graph Neural Networks that use the EM routing mechanism (CapsGNNEM) to generate high-quality graph embeddings. Experimental results on a number of real-world graph datasets demonstrate that the proposed CapsGNNEM outperforms nine state-of-the-art models in graph classification tasks.
翻訳日:2021-10-19 17:50:36 公開日:2021-10-18
# オンラインサイン識別:しきい値帯における誤り回数の最小化

Online Sign Identification: Minimization of the Number of Errors in Thresholding Bandits ( http://arxiv.org/abs/2110.09133v1 )

ライセンス: Link先を確認
Reda Ouhamma, R\'emy Degenne, Pierre Gaillard, Vianney Perchet(参考訳) 固定予算しきい値バンディット問題において、アルゴリズムは予算化されたサンプル数を異なる分布に順次割り当てる。 そして、各分布の平均が与えられた閾値よりも大きいか低いかを予測する。 本稿では,Frank-Wolfeアルゴリズムにインスパイアされたアルゴリズム群(既存のアルゴリズム群を含む)を導入し,その性能を網羅的かつ総合的に分析する。 これにより、幅広い種類の問題に対して新しい明示的アルゴリズムを構築することができ、その損失は非適応的なオラクルの小さな定数要素の範囲内である。 興味深いことに、私たちは、アダプティブメソッドが経験上、非適応オラクルよりも大幅に優れており、後悔の最小化のような標準的なオンライン学習設定では珍しい行動であると観察しました。 私たちはこの驚くべき現象を洞察に富んだおもちゃの問題に説明します。

In the fixed budget thresholding bandit problem, an algorithm sequentially allocates a budgeted number of samples to different distributions. It then predicts whether the mean of each distribution is larger or lower than a given threshold. We introduce a large family of algorithms (containing most existing relevant ones), inspired by the Frank-Wolfe algorithm, and provide a thorough yet generic analysis of their performance. This allowed us to construct new explicit algorithms, for a broad class of problems, whose losses are within a small constant factor of the non-adaptive oracle ones. Quite interestingly, we observed that adaptive methods empirically greatly out-perform non-adaptive oracles, an uncommon behavior in standard online learning settings, such as regret minimization. We explain this surprising phenomenon on an insightful toy problem.
翻訳日:2021-10-19 17:50:24 公開日:2021-10-18
# dnnにおける高速化バックプロパゲーション:メモリ付き近似外積

Speeding-Up Back-Propagation in DNN: Approximate Outer Product with Memory ( http://arxiv.org/abs/2110.09164v1 )

ライセンス: Link先を確認
Eduin E. Hernandez, Stefano Rini, Tolga M. Duman(参考訳) 本稿では,dnnトレーニングにおけるバックプロパゲーションの近似評価アルゴリズムについて検討し,メモリ付き外積勾配降下(mem-aop-gd)と呼ぶ。 Mem-AOP-GDアルゴリズムは、バックプロパゲーションを含む行列乗算に関わる外部積のサブセットのみを考慮し、確率勾配勾配の近似を実装する。 この近似の固有のバイアスを補正するために、アルゴリズムは近似に使われない外部積の蓄積を記憶に残している。 2つの設計パラメータの下で,提案アルゴリズムの性能をDNNトレーニング損失の観点から検討する。 (i)近似に用いる外積の数、及び (二)これらの外産品の選択に用いた政策 我々は,Mem-AOPGDにより計算複雑性と精度の大幅な改善が実際に達成できることを実験的に示した。

In this paper, an algorithm for approximate evaluation of back-propagation in DNN training is considered, which we term Approximate Outer Product Gradient Descent with Memory (Mem-AOP-GD). The Mem-AOP-GD algorithm implements an approximation of the stochastic gradient descent by considering only a subset of the outer products involved in the matrix multiplications that encompass backpropagation. In order to correct for the inherent bias in this approximation, the algorithm retains in memory an accumulation of the outer products that are not used in the approximation. We investigate the performance of the proposed algorithm in terms of DNN training loss under two design parameters: (i) the number of outer products used for the approximation, and (ii) the policy used to select such outer products. We experimentally show that significant improvements in computational complexity as well as accuracy can indeed be obtained through Mem-AOPGD.
翻訳日:2021-10-19 17:50:10 公開日:2021-10-18
# グラフ上の半教師付き学習のためのグラフパートナーニューラルネットワーク

Graph Partner Neural Networks for Semi-Supervised Learning on Graphs ( http://arxiv.org/abs/2110.09182v1 )

ライセンス: Link先を確認
Langzhang Liang, Cuiyun Gao, Shiyi Chen, Shishi Duan, Yu pan, Junjin Zheng, Lei Wang, Zenglin Xu(参考訳) グラフ畳み込みネットワーク(GCN)はグラフ構造化データを処理するのに強力であり、ノード分類、リンク予測、グラフ分類などのタスクで最先端のパフォーマンスを達成した。 しかし、深いGCNは、グラフの畳み込み操作を繰り返した後にノードの表現が区別できないという過度な問題に悩まされることは避けられない。 この問題に対処するために,パラメータ分割GCNとパラメータ共有MLPを組み合わせたグラフパートナーニューラルネットワーク(GPNN)を提案する。 提案するMLPパートナーが適切な滑らかさの恩恵を受けながら過度なスムース化に取り組む上での有効性を実証するための実証的および理論的証拠を提供する。 さらに,学習プロセスの過度な対応と制御のために,よく設計された一貫性の対比的損失とklの分岐損失を導入する。 さらに,グラフのエッジ全体の品質を向上させるためのグラフ拡張手法を提案する。 ほとんどのGCNは浅いアーキテクチャでのみ動作するが、GPNNはモデル深度を増大させることでより良い結果を得ることができる。 各種ノード分類タスクの実験により,GPNNの最先端性能が実証された。 また, オーバースムーシングへの取り組みと性能向上における各成分の寄与を検討するため, 広範なアブレーション研究を行った。

Graph Convolutional Networks (GCNs) are powerful for processing graph-structured data and have achieved state-of-the-art performance in several tasks such as node classification, link prediction, and graph classification. However, it is inevitable for deep GCNs to suffer from an over-smoothing issue that the representations of nodes will tend to be indistinguishable after repeated graph convolution operations. To address this problem, we propose the Graph Partner Neural Network (GPNN) which incorporates a de-parameterized GCN and a parameter-sharing MLP. We provide empirical and theoretical evidence to demonstrate the effectiveness of the proposed MLP partner on tackling over-smoothing while benefiting from appropriate smoothness. To further tackle over-smoothing and regulate the learning process, we introduce a well-designed consistency contrastive loss and KL divergence loss. Besides, we present a graph enhancement technique to improve the overall quality of edges in graphs. While most GCNs can work with shallow architecture only, GPNN can obtain better results through increasing model depth. Experiments on various node classification tasks have demonstrated the state-of-the-art performance of GPNN. Meanwhile, extensive ablation studies are conducted to investigate the contributions of each component in tackling over-smoothing and improving performance.
翻訳日:2021-10-19 17:49:56 公開日:2021-10-18
# ドメインの一般化を促進するためのドメイン特長の爆発

Exploiting Domain-Specific Features to Enhance Domain Generalization ( http://arxiv.org/abs/2110.09410v1 )

ライセンス: Link先を確認
Manh-Ha Bui, Toan Tran, Anh Tuan Tran, Dinh Phung(参考訳) ドメイン一般化(dg:domain generalization)とは、複数の観測されたソースドメインからモデルをトレーニングすることを目的としている。 一般化能力を得るために、従来のDGアプローチでは、ソース間でのドメイン不変情報を抽出して対象ドメインを一般化することに重点を置いているが、個々のドメインのラベルと強く相関する有用なドメイン固有情報は通常無視される。 本稿では,メタドメイン固有ドメイン不変量(メタドメイン固有ドメイン不変量)(mDSDI)を提案する。 私たちの重要な洞察は、統一フレームワークでドメイン不変機能とドメイン固有機能の両方を共同学習しながら、潜在空間の機能を分離することです。 ドメイン固有の表現は、ソースドメインから適応するためにメタ学習フレームワークによって最適化され、見えないドメインの堅牢な一般化を目標としている。 我々は,mDSDIがDGの最先端技術と競合する結果をもたらすことを実証的に示す。 生成したデータセットである background-Colored-MNIST によるさらなるアブレーション研究により、ドメイン固有性は必須であるという仮説が確定し、ドメイン不変性のみを使用する場合と比較してより良い結果が得られた。

Domain Generalization (DG) aims to train a model, from multiple observed source domains, in order to perform well on unseen target domains. To obtain the generalization capability, prior DG approaches have focused on extracting domain-invariant information across sources to generalize on target domains, while useful domain-specific information which strongly correlates with labels in individual domains and the generalization to target domains is usually ignored. In this paper, we propose meta-Domain Specific-Domain Invariant (mDSDI) - a novel theoretically sound framework that extends beyond the invariance view to further capture the usefulness of domain-specific information. Our key insight is to disentangle features in the latent space while jointly learning both domain-invariant and domain-specific features in a unified framework. The domain-specific representation is optimized through the meta-learning framework to adapt from source domains, targeting a robust generalization on unseen domains. We empirically show that mDSDI provides competitive results with state-of-the-art techniques in DG. A further ablation study with our generated dataset, Background-Colored-MNIST, confirms the hypothesis that domain-specific is essential, leading to better results when compared with only using domain-invariant.
翻訳日:2021-10-19 17:47:42 公開日:2021-10-18
# 構成的注意:検索と検索を遠ざける

Compositional Attention: Disentangling Search and Retrieval ( http://arxiv.org/abs/2110.09419v1 )

ライセンス: Link先を確認
Sarthak Mittal, Sharath Chandra Raparthy, Irina Rish, Yoshua Bengio and Guillaume Lajoie(参考訳) マルチヘッドキーバリューアテンションは、広く成功したTransformerモデルとそのバリエーションのバックボーンである。 このアテンション機構は、複数の並列キー値アテンションブロック(ヘッドと呼ばれる)を使用しており、それぞれが(1)クエリーキーインタラクションを介して集合から関連するエンティティを検索する、(2)検索する、(2)選択されたエンティティから値マトリックスを介して関連する特徴を抽出する、という2つの基本的な計算を行う。 重要なのは、標準注意ヘッドが検索と検索の間の厳格なマッピングを学ぶことだ。 この研究で最初に強調するのは、このペアリングの静的な性質についてである。 a)特定のタスクにおける冗長なパラメータの学習につながる、そして b)一般化を妨げる。 この問題を軽減するため,本研究では,標準の頭部構造に代えて構成的注意と呼ばれる新しい注意機構を提案する。 提案機構は,検索と検索を動的かつ柔軟かつコンテキストに依存した方法で構成し,クエリキーの組み合わせと値ペアリングのソフトコンペティションの段階を付加する。 数値実験の結果,分散環境を含む様々なタスクにおいて,マルチヘッドの標準的な注目度を上回っていることがわかった。 定性的な分析を通して、構成的注意が、必要な検索の種類に基づいて動的特殊化につながることを示す。 提案機構は,マルチヘッドアテンションを一般化し,検索と検索の独立スケーリングを可能にし,任意のネットワークアーキテクチャにおいて標準的なアテンションヘッドの代わりに容易に実装できる。

Multi-head, key-value attention is the backbone of the widely successful Transformer model and its variants. This attention mechanism uses multiple parallel key-value attention blocks (called heads), each performing two fundamental computations: (1) search - selection of a relevant entity from a set via query-key interactions, and (2) retrieval - extraction of relevant features from the selected entity via a value matrix. Importantly, standard attention heads learn a rigid mapping between search and retrieval. In this work, we first highlight how this static nature of the pairing can potentially: (a) lead to learning of redundant parameters in certain tasks, and (b) hinder generalization. To alleviate this problem, we propose a novel attention mechanism, called Compositional Attention, that replaces the standard head structure. The proposed mechanism disentangles search and retrieval and composes them in a dynamic, flexible and context-dependent manner through an additional soft competition stage between the query-key combination and value pairing. Through a series of numerical experiments, we show that it outperforms standard multi-head attention on a variety of tasks, including some out-of-distribution settings. Through our qualitative analysis, we demonstrate that Compositional Attention leads to dynamic specialization based on the type of retrieval needed. Our proposed mechanism generalizes multi-head attention, allows independent scaling of search and retrieval, and can easily be implemented in lieu of standard attention heads in any network architecture.
翻訳日:2021-10-19 17:47:20 公開日:2021-10-18
# 効率的なFew-Shot学習のためのバックボーン特徴分布の最大化

Squeezing Backbone Feature Distributions to the Max for Efficient Few-Shot Learning ( http://arxiv.org/abs/2110.09446v1 )

ライセンス: Link先を確認
Yuqing Hu, Vincent Gripon, St\'ephane Pateux(参考訳) ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。 過去数年間、事前学習された特徴抽出器を用いてしばしば達成される、以前に解決されたタスクで獲得した知識を転送するという共通の目的により、多くの方法が提案されてきた。 本稿では,ガウス分布に近づき,精度が向上する特徴ベクトルの処理を目的とした,新しい転送方式を提案する。 非ラベルテストサンプルがトレーニング中に使用可能なトランスダクティブな少数ショット学習の場合、さらに、達成したパフォーマンスをさらに高めるために、最適なトランスポートインスパイアアルゴリズムも導入する。 標準化されたビジョンベンチマークを用いて、様々なデータセット、バックボーンアーキテクチャ、少数ショット設定で最先端の精度を達成するための提案手法の能力を示す。

Few-shot classification is a challenging problem due to the uncertainty caused by using few labelled samples. In the past few years, many methods have been proposed with the common aim of transferring knowledge acquired on a previously solved task, what is often achieved by using a pretrained feature extractor. Following this vein, in this paper we propose a novel transfer-based method which aims at processing the feature vectors so that they become closer to Gaussian-like distributions, resulting in increased accuracy. In the case of transductive few-shot learning where unlabelled test samples are available during training, we also introduce an optimal-transport inspired algorithm to boost even further the achieved performance. Using standardized vision benchmarks, we show the ability of the proposed methodology to achieve state-of-the-art accuracy with various datasets, backbone architectures and few-shot settings.
翻訳日:2021-10-19 17:46:55 公開日:2021-10-18
# SPAP:新都市における電気自動車充電器の同時需要予測と計画

SPAP: Simultaneous Demand Prediction and Planning for Electric Vehicle Chargers in a New City ( http://arxiv.org/abs/2110.09452v1 )

ライセンス: Link先を確認
Yizong Wang, Dong Zhao, Yajie Ren, Desheng Zhang, and Huadong Ma(参考訳) 電気自動車(EV)の普及に力を入れている新都市では、充電需要が高い公共充電インフラを計画することが重要である。 しかし、運用データ不足によるEV充電器の実際の展開前に充電要求を予測することは困難であり、結果としてデッドロックが発生する。 直接のアイデアは、都市移動学習のパラダイムを活用して、ソースシティから知識を学び、それを利用して充電需要を予測し、一方、ターゲット都市における充電ステーションの場所と速度の遅い充電器の量を決定することである。 しかし、需要予測と充電器計画は互いに依存しており、各充電器計画における都市間の負の移動を排除するために予測モデルを再訓練する必要があるため、許容できない時間の複雑さが生じる。 そこで本研究では,マルチソースデータから識別的特徴を抽出し,都市間需要予測のための空間時空間都市ドメイン適応ネットワーク(AST-CDAN)に入力し,AST-CDANと充電器計画微調整アルゴリズムを反復的に活用して,新しいトランスファーイテレーティブ最適化(TIO)アルゴリズムを設計する。 中国3都市から収集した実世界のデータセットに関する大規模な実験により、SPAPの有効性と効率が検証された。 特にSPAPは、現実世界の充電器の展開と比較して、少なくとも72.5%の収益を上げている。

For a new city that is committed to promoting Electric Vehicles (EVs), it is significant to plan the public charging infrastructure where charging demands are high. However, it is difficult to predict charging demands before the actual deployment of EV chargers for lack of operational data, resulting in a deadlock. A direct idea is to leverage the urban transfer learning paradigm to learn the knowledge from a source city, then exploit it to predict charging demands, and meanwhile determine locations and amounts of slow/fast chargers for charging stations in the target city. However, the demand prediction and charger planning depend on each other, and it is required to re-train the prediction model to eliminate the negative transfer between cities for each varied charger plan, leading to the unacceptable time complexity. To this end, we propose the concept and an effective solution of Simultaneous Demand Prediction And Planning (SPAP): discriminative features are extracted from multi-source data, and fed into an Attention-based Spatial-Temporal City Domain Adaptation Network (AST-CDAN) for cross-city demand prediction; a novel Transfer Iterative Optimization (TIO) algorithm is designed for charger planning by iteratively utilizing AST-CDAN and a charger plan fine-tuning algorithm. Extensive experiments on real-world datasets collected from three cities in China validate the effectiveness and efficiency of SPAP. Specially, SPAP improves at most 72.5% revenue compared with the real-world charger deployment.
翻訳日:2021-10-19 17:46:41 公開日:2021-10-18
# Vega: DNNアクセラレーションとMRAMベースのステートリテンティブスリープモードによる認知ウェイクアップを備えたIoTエンドノード用の10コアSoC

Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode ( http://arxiv.org/abs/2110.09101v1 )

ライセンス: Link先を確認
Davide Rossi, Francesco Conti, Manuel Eggimann, Alfio Di Mauro, Giuseppe Tagliavini, Stefan Mach, Marco Guermandi, Antonio Pullini, Igor Loi, Jie Chen, Eric Flamand, Luca Benini(参考訳) インターネット・オブ・シング(Internet-of-Things)は、バッテリー寿命の長い超低消費電力常時オン機能を備えたエンドノードと、複雑で高速に進化するニアセンサー分析アルゴリズム(NSAAs)を扱うための高性能、エネルギー効率、極端な柔軟性を必要とする。 私たちは、モバイルDNN推論、1.6MBのステートリテンションSRAM、および4MBの非揮発性MRAMなどを含む、NSAAのフルリテンション認知睡眠モードから32.2 GOPS (@ 49.4 mW)ピークパフォーマンスまで、スケールアップ可能なIoTエンドノードSoCであるVegaを紹介します。 NSAAのパフォーマンスと柔軟性の要件を満たすため、SoCは10のRISC-Vコア、すなわちSoCとIO管理のためのコアと、マルチ精度SIMD整数と浮動小数点演算をサポートする9コアクラスタを備えている。 ベガは8ビットINT計算において615 GOPS/WのSoAリード効率を達成する(ハードウェアアクセラレーションによる8ビットDNN推論では1.3TOPS/Wとなる)。 浮動小数点 (FP) 演算では、それぞれ32ビットFPと16ビットFPで79と129のGFLOPS/WのSoAリード効率を達成する。 2つのプログラム可能な機械学習アクセラレーターは、それぞれ認知睡眠と活動状態のエネルギー効率を高める。

The Internet-of-Things requires end-nodes with ultra-low-power always-on capability for a long battery lifetime, as well as high performance, energy efficiency, and extreme flexibility to deal with complex and fast-evolving near-sensor analytics algorithms (NSAAs). We present Vega, an IoT end-node SoC capable of scaling from a 1.7 $\mathrm{\mu}$W fully retentive cognitive sleep mode up to 32.2 GOPS (@ 49.4 mW) peak performance on NSAAs, including mobile DNN inference, exploiting 1.6 MB of state-retentive SRAM, and 4 MB of non-volatile MRAM. To meet the performance and flexibility requirements of NSAAs, the SoC features 10 RISC-V cores: one core for SoC and IO management and a 9-cores cluster supporting multi-precision SIMD integer and floating-point computation. Vega achieves SoA-leading efficiency of 615 GOPS/W on 8-bit INT computation (boosted to 1.3TOPS/W for 8-bit DNN inference with hardware acceleration). On floating-point (FP) compuation, it achieves SoA-leading efficiency of 79 and 129 GFLOPS/W on 32- and 16-bit FP, respectively. Two programmable machine-learning (ML) accelerators boost energy efficiency in cognitive sleep and active states, respectively.
翻訳日:2021-10-19 17:43:14 公開日:2021-10-18
# Projected Model Counting: 独立したサポートを超えて

Projected Model Counting: Beyond Independent Support ( http://arxiv.org/abs/2110.09171v1 )

ライセンス: Link先を確認
Jiong Yang, Supratik Chakraborty, Kuldeep S. Meel(参考訳) 過去10年間、予測されたモデルカウントの実用技術への関心が高まっている。 しかし、著しい進歩にもかかわらず、パフォーマンス・スケーリングはこの分野のアキレスのヒールのままである。 現代のカウンターで使われる重要なアイデアは、射影集合の小さな部分集合、すなわち我々が射影したい元の変数の集合である \emph{independent support} 上に投影されたモデルを数えることである。 このアイデアはパフォーマンスのスケーリングに有効であるが、プロジェクションセットを超えて変数に投影されるモデルを数えることにメリットがあるかどうかという問題は検討されていない。 本稿では,この問題を考察し,直観に反し,射影集合を超えて変数を射影することは有益であることを示す。 二項化ニューラルネットワークの検証、情報フローの定量化、電力グリッドの信頼性などのアプリケーションでは、予測されたモデル数の上限が十分であることが多い。 いくつかの場合において、上界サポート (UBS) と呼ばれる変数の集合は、必ずしも射影集合の部分集合ではないが、UBS上に射影されたモデルを数えることは、真の射影されたモデル数の上界を保証する。 理論的には、UBSは最小の独立支持よりも指数的に小さくすることができる。 私たちの実験では、ubsベースの投影計数が独立したサポートベースの投影計数よりも効率的であると同時に、非常に高品質な境界が得られることが示されています。 広範な実験により、ubsベースの投影カウントは、最先端の独立サポートベースの投影モデルカウンタの範囲を超えた多くの問題インスタンスを解決できることが判明した。

The past decade has witnessed a surge of interest in practical techniques for projected model counting. Despite significant advancements, however, performance scaling remains the Achilles' heel of this field. A key idea used in modern counters is to count models projected on an \emph{independent support} that is often a small subset of the projection set, i.e. original set of variables on which we wanted to project. While this idea has been effective in scaling performance, the question of whether it can benefit to count models projected on variables beyond the projection set, has not been explored. In this paper, we study this question and show that contrary to intuition, it can be beneficial to project on variables beyond the projection set. In applications such as verification of binarized neural networks, quantification of information flow, reliability of power grids etc., a good upper bound of the projected model count often suffices. We show that in several such cases, we can identify a set of variables, called upper bound support (UBS), that is not necessarily a subset of the projection set, and yet counting models projected on UBS guarantees an upper bound of the true projected model count. Theoretically, a UBS can be exponentially smaller than the smallest independent support. Our experiments show that even otherwise, UBS-based projected counting can be more efficient than independent support-based projected counting, while yielding bounds of very high quality. Based on extensive experiments, we find that UBS-based projected counting can solve many problem instances that are beyond the reach of a state-of-the-art independent support-based projected model counter.
翻訳日:2021-10-19 17:42:41 公開日:2021-10-18
# 高階論理における抽象論の定式化

A Formalisation of Abstract Argumentation in Higher-Order Logic ( http://arxiv.org/abs/2110.09174v1 )

ライセンス: Link先を確認
Alexander Steen and David Fuenmayor(参考訳) 本稿では,古典高階論理へのエンコーディングに基づく抽象的議論フレームワークの表現手法を提案する。 対話型および自動推論ツールを用いた抽象的議論フレームワークのコンピュータ支援評価のための一様フレームワークを提供する。 これにより、メタ理論的特性の形式的分析と検証と、よく知られた議論意味論に関する拡張やラベルの柔軟な生成が可能になる。

We present an approach for representing abstract argumentation frameworks based on an encoding into classical higher-order logic. This provides a uniform framework for computer-assisted assessment of abstract argumentation frameworks using interactive and automated reasoning tools. This enables the formal analysis and verification of meta-theoretical properties as well as the flexible generation of extensions and labellings with respect to well-known argumentation semantics.
翻訳日:2021-10-19 17:42:16 公開日:2021-10-18
# (参考訳) FacialGAN: 合成顔におけるスタイル伝達と属性操作

FacialGAN: Style Transfer and Attribute Manipulation on Synthetic Faces ( http://arxiv.org/abs/2110.09425v1 )

ライセンス: CC0 1.0
Ricard Durall, Jireh Jam, Dominik Strassel, Moi Hoon Yap, Janis Keuper(参考訳) 顔画像操作は、顔の属性やスタイルの観点から、出力された顔が目的のターゲット方向に移動する生成タスクである。 近年の作品は、スタイル転送や属性翻訳といった様々な編集技術で大きな成功を収めている。 しかし、現在のアプローチは純粋スタイルの転送、あるいは制限された相互作用性を持つ事前定義された属性セットの翻訳に焦点を当てている。 この問題に対処するために,我々は,リッチなスタイル転送とインタラクティブな顔属性操作を同時に可能にする新しいフレームワークであるfaceganを提案する。 ソースイメージのアイデンティティを維持しながら、ターゲットイメージの多様なスタイルをソースイメージに転送します。 次に,セグメンテーションマスクの形状情報を組み込んで,顔属性の細かな操作を行う。 最後に、各タスクの損失を最適化するために、多目的学習戦略を導入する。 celebamask-hqをセマンティックマスクラベルとするceleba-hqデータセットの実験では,スタイル転送,属性操作,多様性,顔認証といった視覚的に魅力的な結果を生成する上で,モデルの能力を示す。 再現性を高めるために,顔の操作を行うインタラクティブなオープンソースツールと,モデルのPytorch実装を提供する。

Facial image manipulation is a generation task where the output face is shifted towards an intended target direction in terms of facial attribute and styles. Recent works have achieved great success in various editing techniques such as style transfer and attribute translation. However, current approaches are either focusing on pure style transfer, or on the translation of predefined sets of attributes with restricted interactivity. To address this issue, we propose FacialGAN, a novel framework enabling simultaneous rich style transfers and interactive facial attributes manipulation. While preserving the identity of a source image, we transfer the diverse styles of a target image to the source image. We then incorporate the geometry information of a segmentation mask to provide a fine-grained manipulation of facial attributes. Finally, a multi-objective learning strategy is introduced to optimize the loss of each specific tasks. Experiments on the CelebA-HQ dataset, with CelebAMask-HQ as semantic mask labels, show our model's capacity in producing visually compelling results in style transfer, attribute manipulation, diversity and face verification. For reproducibility, we provide an interactive open-source tool to perform facial manipulations, and the Pytorch implementation of the model.
翻訳日:2021-10-19 17:40:41 公開日:2021-10-18
# Sin指数回帰モデルによる残差終点予測

Predicting Rebar Endpoints using Sin Exponential Regression Model ( http://arxiv.org/abs/2110.08955v1 )

ライセンス: Link先を確認
Jong-Chan Park, Hye-Youn Lim, and Dae-Seong Kang(参考訳) 現在,レバー工場の加工工程における不良品製造時のレバー生産の損失率とキャリブレーションの時間と精度を最小化するために無人自動化研究が進められている。 本稿では、ylo(you only look once)v3に基づいて、機械ビジョンカメラに入力されるリバーエンドポイント画像の検出と追跡を行い、取得した座標のsin指数回帰を用いて予めリバーエンドポイントを予測する手法を提案する。 提案手法は,oppdet(object position prediction detection)モデルにおいて,rebarエンドポイントが遠方にあるフレーム位置に対する大きな予測誤差率の問題を解決し,sin指数回帰予測点において0.23~0.52%の誤差率を向上させた。

Currently, unmanned automation studies are underway to minimize the loss rate of rebar production and the time and accuracy of calibration when producing defective products in the cutting process of processing rebar factories. In this paper, we propose a method to detect and track rebar endpoint images entering the machine vision camera based on YOLO (You Only Look Once)v3, and to predict rebar endpoint in advance with sin exponential regression of acquired coordinates. The proposed method solves the problem of large prediction error rates for frame locations where rebar endpoints are far away in OPPDet (Object Position Prediction Detect) models, which prepredict rebar endpoints with improved results showing 0.23 to 0.52% less error rates at sin exponential regression prediction points.
翻訳日:2021-10-19 17:24:32 公開日:2021-10-18
# CMTR:可視赤外線人物識別用クロスモーダルトランス

CMTR: Cross-modality Transformer for Visible-infrared Person Re-identification ( http://arxiv.org/abs/2110.08994v1 )

ライセンス: Link先を確認
Tengfei Liang, Yi Jin, Yajun Gao, Wu Liu, Songhe Feng, Tao Wang, Yidong Li(参考訳) 可視赤外クロスモダリティ 人物再識別は、異種可視性と赤外線のモダリティの間で同一のアイデンティティの画像を検索し、一致させることを目的としている、挑戦的なreidタスクである。 したがって、このタスクのコアは、これらの2つのモードの間の大きなギャップを埋めることである。 既存の畳み込みニューラルネットワークベースの手法は、主にモダリティの情報認識不足の問題に直面しており、その性能を制限する識別的モダリティ不変埋め込みを学習できない。 そこで本稿では,これらの問題を解決するために,可視赤外人物再同定タスクのためのクロスモダリティトランスフォーマティブ(cmtr)を提案する。 具体的には、モダリティの特性を捉えるために、モダリティの情報をエンコードするためにトークン埋め込みと融合した新しいモダリティ埋め込みを設計する。 さらに,モダリティ埋め込みの表現を強化し,組込み分布のマッチングを調整するために,学習したモダリティ情報に基づくモダリティ認識強調損失を提案し,クラス間距離を削減し,クラス間距離を拡大する。 我々の知る限り、これはトランスフォーマーネットワークをモダリティ再識別タスクに適用する最初の作業である。 我々は、公開SYSU-MM01とRegDBデータセットに関する広範な実験を行い、提案したCMTRモデルの性能は既存のCNNベースの手法を大幅に上回っている。

Visible-infrared cross-modality person re-identification is a challenging ReID task, which aims to retrieve and match the same identity's images between the heterogeneous visible and infrared modalities. Thus, the core of this task is to bridge the huge gap between these two modalities. The existing convolutional neural network-based methods mainly face the problem of insufficient perception of modalities' information, and can not learn good discriminative modality-invariant embeddings for identities, which limits their performance. To solve these problems, we propose a cross-modality transformer-based method (CMTR) for the visible-infrared person re-identification task, which can explicitly mine the information of each modality and generate better discriminative features based on it. Specifically, to capture modalities' characteristics, we design the novel modality embeddings, which are fused with token embeddings to encode modalities' information. Furthermore, to enhance representation of modality embeddings and adjust matching embeddings' distribution, we propose a modality-aware enhancement loss based on the learned modalities' information, reducing intra-class distance and enlarging inter-class distance. To our knowledge, this is the first work of applying transformer network to the cross-modality re-identification task. We implement extensive experiments on the public SYSU-MM01 and RegDB datasets, and our proposed CMTR model's performance significantly surpasses existing outstanding CNN-based methods.
翻訳日:2021-10-19 17:22:58 公開日:2021-10-18
# 木点雲に基づくボクセル薄片を用いた高速木骨格抽出

Fast tree skeleton extraction using voxel thinning based on tree point cloud ( http://arxiv.org/abs/2110.09028v1 )

ライセンス: Link先を確認
Jingqian Sun, Pei Wang, Ronghao Li, Mei Zhou(参考訳) 樹木骨格は樹木構造解析、森林の在庫管理、生態系モニタリングにおいて重要な役割を担っている。 しかし、複雑な枝を持つ木点雲から骨格を抽出することは困難である。 本稿では, ボクセルの微細化に基づく自動かつ高速な木骨格抽出法 (FTSEM) を提案する。 本手法では,木葉の分類アルゴリズムを導入し,葉の干渉を減少させるために葉点をフィルタし,木質のボクセルを薄くして生の骨格を迅速に抽出し,切断点接続アルゴリズムを用いて骨格の接続性と完全性を向上させた。 実験は北京のハイディアンパークで行われ、24本の木をスキャンして処理し、木の骨格を得た。 グラフ探索アルゴリズム(GSA)は、同じデータセットに基づいて木の骨格を抽出するために用いられる。 GSA法と比較して、FTSEM法はより完全な木の骨格を得た。 そして、ランタイムと時間 per million points (tpmp) を用いてftsemメソッドの時間コストを評価する。 FTSEMのランタイムは1.0 sから13.0 s、GSAのランタイムは6.4 sから309.3 sである。 TPMPの平均値はFTSEMが1.8秒、GSAが22.3秒である。 実験の結果,提案手法は木骨格抽出において有効であり,頑健で高速であることが判明した。

Tree skeleton plays an important role in tree structure analysis, forest inventory and ecosystem monitoring. However, it is a challenge to extract a skeleton from a tree point cloud with complex branches. In this paper, an automatic and fast tree skeleton extraction method (FTSEM) based on voxel thinning is proposed. In this method, a wood-leaf classification algorithm was introduced to filter leaf points for the reduction of the leaf interference on tree skeleton generation, tree voxel thinning was adopted to extract raw tree skeleton quickly, and a breakpoint connection algorithm was used to improve the skeleton connectivity and completeness. Experiments were carried out in Haidian Park, Beijing, in which 24 trees were scanned and processed to obtain tree skeletons. The graph search algorithm (GSA) is used to extract tree skeletons based on the same datasets. Compared with GSA method, the FTSEM method obtained more complete tree skeletons. And the time cost of the FTSEM method is evaluated using the runtime and time per million points (TPMP). The runtime of FTSEM is from 1.0 s to 13.0 s, and the runtime of GSA is from 6.4 s to 309.3 s. The average value of TPMP is 1.8 s for FTSEM, and 22.3 s for GSA respectively. The experimental results demonstrate that the proposed method is feasible, robust, and fast with a good potential on tree skeleton extraction.
翻訳日:2021-10-19 17:22:31 公開日:2021-10-18
# 顔提示検出のための非対称モダリティ変換

Asymmetric Modality Translation For Face Presentation Attack Detection ( http://arxiv.org/abs/2110.09108v1 )

ライセンス: Link先を確認
Zhi Li, Haoliang Li, Xin Luo, Yongjian Hu, Kwok-Yan Lam, Alex C. Kot(参考訳) 顔提示攻撃検出(PAD)は、悪意のあるユーザによって顔認識システムが偽造されることを防ぎ、学術と産業の両方から大きな注目を集めている。 既存手法のほとんどは所望の性能をある程度達成できるが、クロスドメイン設定による顔提示攻撃検出の一般化問題(例えば、未発見のアタックの設定や照明の相違など)は未解決のままである。 本稿では,バイモダリティシナリオにおける顔提示攻撃検出のための非対称モダリティ変換に基づく新しいフレームワークを提案する。 本フレームワークでは,顔の2つのモダリティ画像間の接続を確立する。 具体的には、1つのモダリティの像が非対称なモダリティ変換器を介してもう1つのモダリティに変換され、対応するペア画像と融合する新しいモダリティ融合スキームを示す。 融合結果は、推論のための判別器への入力として供給される。 翻訳者の訓練は非対称なモダリティ翻訳損失によって監督される。 また、局所重力力パターン(PLGF)表現に基づく照明正規化モジュールを用いて、照明変動の影響を低減する。 我々は3つの公開データセットに対して広範な実験を行い、本手法が様々な種類の攻撃を検出するのに有効であることを示す。

Face presentation attack detection (PAD) is an essential measure to protect face recognition systems from being spoofed by malicious users and has attracted great attention from both academia and industry. Although most of the existing methods can achieve desired performance to some extent, the generalization issue of face presentation attack detection under cross-domain settings (e.g., the setting of unseen attacks and varying illumination) remains to be solved. In this paper, we propose a novel framework based on asymmetric modality translation for face presentation attack detection in bi-modality scenarios. Under the framework, we establish connections between two modality images of genuine faces. Specifically, a novel modality fusion scheme is presented that the image of one modality is translated to the other one through an asymmetric modality translator, then fused with its corresponding paired image. The fusion result is fed as the input to a discriminator for inference. The training of the translator is supervised by an asymmetric modality translation loss. Besides, an illumination normalization module based on Pattern of Local Gravitational Force (PLGF) representation is used to reduce the impact of illumination variation. We conduct extensive experiments on three public datasets, which validate that our method is effective in detecting various types of attacks and achieves state-of-the-art performance under different evaluation protocols.
翻訳日:2021-10-19 17:22:06 公開日:2021-10-18
# SynCoLFinGer: 合成接触レス指紋発生装置

SynCoLFinGer: Synthetic Contactless Fingerprint Generator ( http://arxiv.org/abs/2110.09144v1 )

ライセンス: Link先を確認
Jannis Priesnitz, Christian Rathgeb, Nicolas Buchmann, Christoph Busch(参考訳) 本稿では,SynCoLFinGerと呼ばれる接触のない指紋画像の合成法について述べる。 この目的のために、SFinGeアルゴリズムを用いて合成したリッジパターンに、被写体特性、環境影響に関する接触指紋画像の構成成分をモデル化し、適用する。 提案手法は1本の指に対応する異なる合成サンプルを生成でき、様々な品質の接触指紋画像を生成するためにパラメータ化することができる。 合成された非接触指紋と実際の指紋との類似性は、適応されたNFIQ 2.0アルゴリズムと最先端の非接触指紋認識システムを用いて生体試料品質を評価することにより確認する。

We present the first method for synthetic generation of contactless fingerprint images, referred to as SynCoLFinGer. To this end, the constituent components of contactless fingerprint images regarding capturing, subject characteristics, and environmental influences are modeled and applied to a synthetically generated ridge pattern using the SFinGe algorithm. The proposed method is able to generate different synthetic samples corresponding to a single finger and it can be parameterized to generate contactless fingerprint images of various quality levels. The resemblance of the synthetically generated contactless fingerprints to real fingerprints is confirmed by evaluating biometric sample quality using an adapted NFIQ 2.0 algorithm and biometric utility using a state-of-the-art contactless fingerprint recognition system.
翻訳日:2021-10-19 17:21:46 公開日:2021-10-18
# 対面アンチ・スプーフィングのための二段階特徴学習による遠方表現

Disentangled Representation with Dual-stage Feature Learning for Face Anti-spoofing ( http://arxiv.org/abs/2110.09157v1 )

ライセンス: Link先を確認
Yu-Chun Wang, Chien-Yi Wang, Shang-Hong Lai(参考訳) 顔認識は様々なセキュリティクリティカルなアプリケーションで広く使われているため、フェイスアンチスプーフィング(fas)の研究がますます注目を集めている。 テストデータ中の攻撃タイプがトレーニングデータと同じである場合、いくつかのFASメソッドは有望なパフォーマンスを実現している。 事前に定義されたspoof攻撃タイプへの過剰適合を防ぐために、より汎用的で識別的な特徴を学ぶことが不可欠である。 本稿では,無関係な特徴からspoof関連特徴を効率的に解き放つことができる,新しい二段階不等角表現学習法を提案する。 従来のfasディストレングルメントと一段階のアーキテクチャでは違い,デュアルステージのトレーニング設計ではトレーニングの安定性が向上し,目に見えない攻撃タイプを検出する機能を効果的にエンコードできることが判明した。 提案手法は,複数種類のFASベンチマークにおける最先端手法よりも精度が高いことを示す。

As face recognition is widely used in diverse security-critical applications, the study of face anti-spoofing (FAS) has attracted more and more attention. Several FAS methods have achieved promising performances if the attack types in the testing data are the same as training data, while the performance significantly degrades for unseen attack types. It is essential to learn more generalized and discriminative features to prevent overfitting to pre-defined spoof attack types. This paper proposes a novel dual-stage disentangled representation learning method that can efficiently untangle spoof-related features from irrelevant ones. Unlike previous FAS disentanglement works with one-stage architecture, we found that the dual-stage training design can improve the training stability and effectively encode the features to detect unseen attack types. Our experiments show that the proposed method provides superior accuracy than the state-of-the-art methods on several cross-type FAS benchmarks.
翻訳日:2021-10-19 17:19:28 公開日:2021-10-18
# サブビットニューラルネットワーク:バイナリニューラルネットワークの圧縮と高速化のための学習

Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks ( http://arxiv.org/abs/2110.09195v1 )

ライセンス: Link先を確認
Yikai Wang, Yi Yang, Fuchun Sun, Anbang Yao(参考訳) 低ビット量子化の分野では、トレーニングバイナリニューラルネットワーク(BNN)は、リソース制約されたデバイスへのディープモデルのデプロイを容易にする極端なソリューションであり、32ビット浮動小数点演算と比較して、ストレージコストが低く、ビット幅演算が大幅に安い。 本稿では,BNNの圧縮と高速化に適した新しいバイナリ量子化設計であるSub-bit Neural Networks(SNN)を紹介する。 SNNは経験的な観察にインスパイアされ、BNNモデルの畳み込み層で学んだバイナリカーネルがカーネルサブセットに分散されることが示されている。 その結果、既存の重み付けを1つずつ行う方法とは異なり、snsはカーネルアウェア最適化フレームワークで訓練され、きめ細かい畳み込み型カーネル空間でバイナリ量子化を利用する。 具体的には、カーネル空間の層固有のサブセットを生成するランダムサンプリングステップと、最適化によってこれらのバイナリカーネルのサブセットを調整する改良ステップとを含む。 ビジュアル認識ベンチマークの実験とFPGA上のハードウェア展開は、SNNの大きな可能性を検証する。 例えば、ImageNetでは、0.56ビット重みを持つResNet-18/ResNet-34のSNNは、従来のBNNよりも3.13/3.33倍の高速化と1.8倍の圧縮を実現している。 snnを重みとアクティベーションの両方を二元化するときにも有望な結果が得られる。 私たちのコードはhttps://github.com/yikaiw/snnで入手できる。

In the low-bit quantization field, training Binary Neural Networks (BNNs) is the extreme solution to ease the deployment of deep models on resource-constrained devices, having the lowest storage cost and significantly cheaper bit-wise operations compared to 32-bit floating-point counterparts. In this paper, we introduce Sub-bit Neural Networks (SNNs), a new type of binary quantization design tailored to compress and accelerate BNNs. SNNs are inspired by an empirical observation, showing that binary kernels learnt at convolutional layers of a BNN model are likely to be distributed over kernel subsets. As a result, unlike existing methods that binarize weights one by one, SNNs are trained with a kernel-aware optimization framework, which exploits binary quantization in the fine-grained convolutional kernel space. Specifically, our method includes a random sampling step generating layer-specific subsets of the kernel space, and a refinement step learning to adjust these subsets of binary kernels via optimization. Experiments on visual recognition benchmarks and the hardware deployment on FPGA validate the great potentials of SNNs. For instance, on ImageNet, SNNs of ResNet-18/ResNet-34 with 0.56-bit weights achieve 3.13/3.33 times runtime speed-up and 1.8 times compression over conventional BNNs with moderate drops in recognition accuracy. Promising results are also obtained when applying SNNs to binarize both weights and activations. Our code is available at https://github.com/yikaiw/SNN.
翻訳日:2021-10-19 17:19:12 公開日:2021-10-18
# 機械用ビデオ符号化:知的協調分析のためのコンパクトな視覚表現圧縮

Video Coding for Machine: Compact Visual Representation Compression for Intelligent Collaborative Analytics ( http://arxiv.org/abs/2110.09241v1 )

ライセンス: Link先を確認
Wenhan Yang, Haofeng Huang, Yueyu Hu, Ling-Yu Duan, Jiaying Liu(参考訳) Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジし、高精度マシンビジョンと完全忠実人間のビジョンの統一的な視点から、コンパクト性と効率を両立させようとしている。 本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。 vcmの開発は一般的なレート分散最適化に従い、キーモジュールやテクニックの分類が確立される。 従来の研究から、機械と人間の視覚タスクを扱う際に、スケーラブルな表現の性質をビットで明らかにしようとする研究はあったが、低ビットレートの表現の一般性、そしてそれに応じて様々な視覚分析タスクをどのようにサポートするかについては、稀な研究が残されている。 そこで本研究では,複数タスクから抽出したコンパクトな視覚的表現の能力を強化するために,解析分類問題に対する新しい視覚情報圧縮法について検討する。 タスク間の関係と圧縮に関する新しい視点を再検討する。 異なるマシンビジョンタスク間の転送可能性(例えば、ハイレベル意味論とミッドレベル幾何関係)を念頭に置いて、我々は、低ビットレートで複数のタスクを共同でサポートすることを目指している。 特に、画素から抽出されたニューラルネットワーク生成特徴と様々なマシンビジョン特徴/ラベル(シーンクラス、セグメンテーションラベルなど)の寸法差を狭めるために、コードブックハイパープライアは、ニューラルネットワーク生成特徴を圧縮するように設計されている。 実験で示したように、この超優先モデルでは、より正確に信号エントロピーを推定することで、異なるタスク間でコンパクトな特徴を抽象化する粒度をさらに調査できるため、特徴圧縮効率の向上が期待されている。

Video Coding for Machines (VCM) is committed to bridging to an extent separate research tracks of video/image compression and feature compression, and attempts to optimize compactness and efficiency jointly from a unified perspective of high accuracy machine vision and full fidelity human vision. In this paper, we summarize VCM methodology and philosophy based on existing academia and industrial efforts. The development of VCM follows a general rate-distortion optimization, and the categorization of key modules or techniques is established. From previous works, it is demonstrated that, although existing works attempt to reveal the nature of scalable representation in bits when dealing with machine and human vision tasks, there remains a rare study in the generality of low bit rate representation, and accordingly how to support a variety of visual analytic tasks. Therefore, we investigate a novel visual information compression for the analytics taxonomy problem to strengthen the capability of compact visual representations extracted from multiple tasks for visual analytics. A new perspective of task relationships versus compression is revisited. By keeping in mind the transferability among different machine vision tasks (e.g. high-level semantic and mid-level geometry-related), we aim to support multiple tasks jointly at low bit rates. In particular, to narrow the dimensionality gap between neural network generated features extracted from pixels and a variety of machine vision features/labels (e.g. scene class, segmentation labels), a codebook hyperprior is designed to compress the neural network-generated features. As demonstrated in our experiments, this new hyperprior model is expected to improve feature compression efficiency by estimating the signal entropy more accurately, which enables further investigation of the granularity of abstracting compact features among different tasks.
翻訳日:2021-10-19 17:18:44 公開日:2021-10-18
# ヒューマンメッシュ回復のためのMoCapデータの活用

Leveraging MoCap Data for Human Mesh Recovery ( http://arxiv.org/abs/2110.09243v1 )

ライセンス: Link先を確認
Fabien Baradel, Thibault Groueix, Philippe Weinzaepfel, Romain Br\'egier, Yannis Kalantidis, Gr\'egory Rogez(参考訳) 人体ポーズや画像やビデオからの形状回復のための最先端モデルのトレーニングには、それに対応するアノテーションを備えたデータセットが必要です。 本研究の目的は、3Dモーションキャプチャ(MoCap)データからのポーズを画像ベースおよびビデオベースのヒューマンメッシュリカバリ手法の改善に利用できるかどうかを検討することである。 MoCapデータから合成レンダリングを施した微調整画像ベースモデルでは,より多様なポーズやテクスチャ,背景を提供することで,パフォーマンスの向上が期待できる。 実際、モデルのバッチ正規化層を微調整するだけで大きな利益が得られることを示す。 さらに,ビデオにおけるmocapデータの利用について検討し,ポーズパラメータを直接レグレッションし,マスクモデリングによってトレーニングするトランスフォーマーモジュールであるposebertを紹介した。 シンプルで汎用的で、時間的情報を活用するビデオベースモデルに変換するために、最先端の画像ベースモデルの上にプラグインすることができる。 実験の結果,提案手法は3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB, AIST など,様々なデータセットの最先端性能に到達していることがわかった。 テストコードとモデルも近く提供される予定だ。

Training state-of-the-art models for human body pose and shape recovery from images or videos requires datasets with corresponding annotations that are really hard and expensive to obtain. Our goal in this paper is to study whether poses from 3D Motion Capture (MoCap) data can be used to improve image-based and video-based human mesh recovery methods. We find that fine-tune image-based models with synthetic renderings from MoCap data can increase their performance, by providing them with a wider variety of poses, textures and backgrounds. In fact, we show that simply fine-tuning the batch normalization layers of the model is enough to achieve large gains. We further study the use of MoCap data for video, and introduce PoseBERT, a transformer module that directly regresses the pose parameters and is trained via masked modeling. It is simple, generic and can be plugged on top of any state-of-the-art image-based model in order to transform it in a video-based model leveraging temporal information. Our experimental results show that the proposed approaches reach state-of-the-art performance on various datasets including 3DPW, MPI-INF-3DHP, MuPoTS-3D, MCB and AIST. Test code and models will be available soon.
翻訳日:2021-10-19 17:18:12 公開日:2021-10-18
# スカースデータを用いた汎用低ショット医用画像分割のための統一フレームワーク

A Unified Framework for Generalized Low-Shot Medical Image Segmentation with Scarce Data ( http://arxiv.org/abs/2110.09260v1 )

ライセンス: Link先を確認
Hengji Cui, Dong Wei, Kai Ma, Shi Gu, and Yefeng Zheng(参考訳) 医用画像分割はディープニューラルネットワーク(dnn)を用いて著しく進歩した。 しかし、DNNはトレーニングのために大量のデータとアノテーションを必要とすることが多く、どちらも入手が困難でコストがかかる。 本研究では,距離メトリック学習(dml)に基づく一般化された医療画像分割のための統一フレームワークを提案する。 大量のデータを想定しながら、アノテーションの欠如に対処する既存の方法とは異なり、我々のフレームワークは、稀な疾患に理想的な、両方の極端な不足に対処する。 DMLでは,各カテゴリの多モード混合表現を学習し,画素の深層埋め込みとカテゴリ表現との間の余弦距離に基づいて密接な予測を行う。 マルチモーダル表現は、オブジェクト間の類似性とクラス内変動を効果的に利用し、非常に限られたデータによるオーバーフィッティングを克服する。 また,多モード混合分布に対する適応混合係数を提案し,現在の入力に適したモードを適応的に強調する。 表現はfc層の重みとして暗黙的に埋め込まれ、コサイン距離は前方伝播によって効率的に計算できる。 脳MRIと腹部CTデータセットを用いた実験では,標準DNN(3D U-Net)法と古典登録(ANT)法に対する低ショットセグメンテーションにおいて,単一のトレーニングサンプルを用いた脳組織/腹部多臓器セグメンテーションの平均Dice係数を平均81%/69%とし,U-NetとANTsで52%/31%,72%/35%とした。

Medical image segmentation has achieved remarkable advancements using deep neural networks (DNNs). However, DNNs often need big amounts of data and annotations for training, both of which can be difficult and costly to obtain. In this work, we propose a unified framework for generalized low-shot (one- and few-shot) medical image segmentation based on distance metric learning (DML). Unlike most existing methods which only deal with the lack of annotations while assuming abundance of data, our framework works with extreme scarcity of both, which is ideal for rare diseases. Via DML, the framework learns a multimodal mixture representation for each category, and performs dense predictions based on cosine distances between the pixels' deep embeddings and the category representations. The multimodal representations effectively utilize the inter-subject similarities and intraclass variations to overcome overfitting due to extremely limited data. In addition, we propose adaptive mixing coefficients for the multimodal mixture distributions to adaptively emphasize the modes better suited to the current input. The representations are implicitly embedded as weights of the fc layer, such that the cosine distances can be computed efficiently via forward propagation. In our experiments on brain MRI and abdominal CT datasets, the proposed framework achieves superior performances for low-shot segmentation towards standard DNN-based (3D U-Net) and classical registration-based (ANTs) methods, e.g., achieving mean Dice coefficients of 81%/69% for brain tissue/abdominal multiorgan segmentation using a single training sample, as compared to 52%/31% and 72%/35% by the U-Net and ANTs, respectively.
翻訳日:2021-10-19 17:17:48 公開日:2021-10-18
# 自己スーパービジョンによる単一視点からの多面体画像の学習

Learning multiplane images from single views with self-supervision ( http://arxiv.org/abs/2110.09380v1 )

ライセンス: Link先を確認
Gustavo Sutter P. Carvalho, Diogo C. Luvizon, Antonio Joia, Andre G. C. Pacheco, Otavio A. B. Penatti(参考訳) すでにキャプチャされた画像から静的にノベルなビューを生成することは、コンピュータビジョンやグラフィックス、特に1つの入力画像が人や動くオブジェクトのような動的な部分を持っている場合、難しい作業である。 本稿では,自己スーパービジョンのための巡回学習戦略を通じて,単一画像から多面画像表現を学習できる新しいフレームワークであるcyclempiを提案することで,この問題に取り組む。 我々のフレームワークは、トレーニングのためにステレオデータを必要としないため、インターネットから大量のビジュアルデータでトレーニングすることが可能であり、非常に困難な場合であっても、より良い一般化能力が得られる。 本手法は, 監視のためにステレオデータを必要としないが, ゼロショットシナリオにおいて, 技術状況に匹敵するステレオデータセットの結果が得られる。 本手法をrealestate10kおよびmannequin challengeデータセットで評価し,places iiデータセットの質的評価を行った。

Generating static novel views from an already captured image is a hard task in computer vision and graphics, in particular when the single input image has dynamic parts such as persons or moving objects. In this paper, we tackle this problem by proposing a new framework, called CycleMPI, that is capable of learning a multiplane image representation from single images through a cyclic training strategy for self-supervision. Our framework does not require stereo data for training, therefore it can be trained with massive visual data from the Internet, resulting in a better generalization capability even for very challenging cases. Although our method does not require stereo data for supervision, it reaches results on stereo datasets comparable to the state of the art in a zero-shot scenario. We evaluated our method on RealEstate10K and Mannequin Challenge datasets for view synthesis and presented qualitative results on Places II dataset.
翻訳日:2021-10-19 17:17:16 公開日:2021-10-18
# HRFormer:密度予測のための高分解能トランス

HRFormer: High-Resolution Transformer for Dense Prediction ( http://arxiv.org/abs/2110.09408v1 )

ライセンス: Link先を確認
Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang(参考訳) 高分解能トランスフォーマ(hrt)は高密度予測タスクの高分解能表現を学習し,低分解能表現を生成し,高いメモリと計算コストを有するオリジナルビジョントランスとは対照的に,高分解能トランスフォーマ(hrt)を提案する。 高分解能畳み込みネットワーク(hrnet)で導入されたマルチレゾリューション並列設計と、小さな非オーバーラップ画像ウィンドウ上でセルフアテンションを実行するローカルウィンドウ自己アテンションを活用し、メモリと計算効率を向上させる。 さらに、オフ接続画像ウィンドウ間で情報交換を行うためにFFNに畳み込みを導入する。 例えば、HRTは、COCOのポーズ推定において、50\%$パラメータを減らし、30\%$FLOPsを減らし、Swin変換器を1.3$APで上回り、人間のポーズ推定とセマンティックセマンティックセグメンテーションタスクにおける高分解能トランスフォーマーの有効性を示す。 コードは、https://github.com/HRNet/HRFormer.comで入手できる。

We present a High-Resolution Transformer (HRT) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRT outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/HRNet/HRFormer.
翻訳日:2021-10-19 17:17:01 公開日:2021-10-18
# 内部特徴融合による自己教師付き単眼深度推定

Self-Supervised Monocular DepthEstimation with Internal Feature Fusion ( http://arxiv.org/abs/2110.09482v1 )

ライセンス: Link先を確認
Hang Zhou, David Greenwood, Sarah Taylor(参考訳) 深度推定のための自己教師あり学習は、監視のために画像列の幾何を使い、有望な結果を示す。 多くのコンピュータビジョンタスクと同様に、深度ネットワークの性能は画像から正確な空間的および意味的表現を学習する能力によって決定される。 したがって,深度推定のためにセマンティックセグメンテーションネットワークを利用するのは自然である。 本研究では, セマンティックセグメンテーションネットワークHRNetをベースとして, ダウン・アップサンプリング処理における意味情報の利用が可能な新しい深度推定ネットワークDIFFNetを提案する。 特徴融合と注意機構を適用することで,提案手法はkittiベンチマークにおける最先端の単眼深度推定法を上回っている。 また,本手法は高分解能トレーニングデータに大きな可能性を示す。 本稿では,標準ベンチマークから実証的に導出した難易度テストセットを確立することにより,さらなる拡張評価戦略を提案する。

Self-supervised learning for depth estimation uses geometry in image sequences for supervision and shows promising results. Like many computer vision tasks, depth network performance is determined by the capability to learn accurate spatial and semantic representations from images. Therefore, it is natural to exploit semantic segmentation networks for depth estimation. In this work, based on a well-developed semantic segmentation network HRNet, we propose a novel depth estimation networkDIFFNet, which can make use of semantic information in down and upsampling procedures. By applying feature fusion and an attention mechanism, our proposed method outperforms the state-of-the-art monocular depth estimation methods on the KITTI benchmark. Our method also demonstrates greater potential on higher resolution training data. We propose an additional extended evaluation strategy by establishing a test set of challenging cases, empirically derived from the standard benchmark.
翻訳日:2021-10-19 17:15:33 公開日:2021-10-18
# 深部画像を用いた教師なし画像融合

Unsupervised Image Fusion Using Deep Image Priors ( http://arxiv.org/abs/2110.09490v1 )

ライセンス: Link先を確認
Xudong Ma, Alin Achim, Paul Hill(参考訳) 最近、多くの研究者が画像融合に深層学習法を適用している。 しかし、これらの作業の多くは大量のトレーニングデータを必要とするか、事前訓練されたモデルやフレームワークに依存している。 これは必然的に、トレーニングデータの不足や、フレームワークと実際の問題とのミスマッチに直面する。 近年,Deep Image Prior(DIP)手法の公開により,画像復元が完全にトレーニングデータ無しで行えるようになった。 しかし、DIPの本来の設計は、マルチイメージ処理問題に一般化することは困難である。 本稿では,画像融合を逆問題として定式化しながら,新たな損失計算構造をDIPの枠組みで紹介する。 これにより、ディップの一般的なマルチセンサー/マルチフォーカス画像融合問題への拡張が可能になる。 次に,ディップの効果を改善するためのマルチチャネル手法を提案する。 最後に,複数の画像融合評価指標を用いて評価を行う。 その結果,従来の画像融合法とディープラーニング画像融合法を比較した。 提案手法は,様々な測定値に対して従来の手法を上回っている。 特に、医療画像に適用された場合、ほとんどの指標に最適な客観的結果をもたらすことが示される。

A significant number of researchers have recently applied deep learning methods to image fusion. However, most of these works either require a large amount of training data or depend on pre-trained models or frameworks. This inevitably encounters a shortage of training data or a mismatch between the framework and the actual problem. Recently, the publication of Deep Image Prior (DIP) method made it possible to do image restoration totally training-data-free. However, the original design of DIP is hard to be generalized to multi-image processing problems. This paper introduces a novel loss calculation structure, in the framework of DIP, while formulating image fusion as an inverse problem. This enables the extension of DIP to general multisensor/multifocus image fusion problems. Secondly, we propose a multi-channel approach to improve the effect of DIP. Finally, an evaluation is conducted using several commonly used image fusion assessment metrics. The results are compared with state-of-the-art traditional and deep learning image fusion methods. Our method outperforms previous techniques for a range of metrics. In particular, it is shown to provide the best objective results for most metrics when applied to medical images.
翻訳日:2021-10-19 17:15:19 公開日:2021-10-18
# 末梢血細胞分類のための深部CNN

Deep CNNs for Peripheral Blood Cell Classification ( http://arxiv.org/abs/2110.09508v1 )

ライセンス: Link先を確認
Ekta Gavas and Kaustubh Olpadkar(参考訳) 医療領域への機械学習技術の応用は、精度の必要なレベルと、微小エラーによる大きなリスクの発生のため、特に困難である。 これらのテクニックを血液学的診断のより複雑なサブドメインに応用することは、血液型を自動的に同定することで、血液学的疾患の検出に役立てることができる。 本稿では、顕微鏡下末梢血球画像データセットを用いた27種類の高頻度深層畳み込みニューラルネットワークアーキテクチャをベンチマークする。 このデータセットは公開されており、CellaVision DM96アナライザを用いて取得され、専門家の病理学者によって8種類の細胞タイプに識別される多くの正常末梢血細胞がある。 血液細胞分類のためのImageNetデータセットに事前トレーニングされた最先端画像分類モデルを微調整する。 学習中のデータ拡張手法を活用し,過剰フィッティングを回避し,一般化を実現する。 トップパフォーマンスモデルのアンサンブルは、過去の出版作品よりも大幅に改善され、99.51%の分類精度で最先端の結果が得られる。 本研究は、顕微鏡的末梢血球認識タスクのための標準ディープラーニングアーキテクチャに関する経験的ベースラインとベンチマークを提供する。

The application of machine learning techniques to the medical domain is especially challenging due to the required level of precision and the incurrence of huge risks of minute errors. Employing these techniques to a more complex subdomain of hematological diagnosis seems quite promising, with automatic identification of blood cell types, which can help in detection of hematologic disorders. In this paper, we benchmark 27 popular deep convolutional neural network architectures on the microscopic peripheral blood cell images dataset. The dataset is publicly available, with large number of normal peripheral blood cells acquired using the CellaVision DM96 analyzer and identified by expert pathologists into eight different cell types. We fine-tune the state-of-the-art image classification models pre-trained on the ImageNet dataset for blood cell classification. We exploit data augmentation techniques during training to avoid overfitting and achieve generalization. An ensemble of the top performing models obtains significant improvements over past published works, achieving the state-of-the-art results with a classification accuracy of 99.51%. Our work provides empirical baselines and benchmarks on standard deep-learning architectures for microscopic peripheral blood cell recognition task.
翻訳日:2021-10-19 17:15:05 公開日:2021-10-18
# (参考訳) Multi-Colorspace fused EfficientNet を用いた自然画像とコンピュータ画像の識別

Distinguishing Natural and Computer-Generated Images using Multi-Colorspace fused EfficientNet ( http://arxiv.org/abs/2110.09428v1 )

ライセンス: CC BY 4.0
Manjary P Gangan, Anoop K, and Lajish V L(参考訳) 自然画像とフォトリアリスティックなコンピュータ生成画像とを区別する問題は、自然画像とコンピュータグラフィックス、あるいは自然画像とgan画像を同時に扱うことである。 しかし,実世界の画像法医学的なシナリオでは,画像生成が未知な場合が多いため,画像生成のすべてのカテゴリを考慮することが極めて重要である。 我々は,自然画像と写真リアルなコンピュータ生成画像とを区別する問題を,自然,コンピュータグラフィックス,GAN画像を分類する3つの分類課題として,初めてアプローチした。 本研究では,各ネットワークが異なる色空間(RGB, LCH, HSV)で動作している移動学習手法に追従する3つの効率的なネットワークを並列に融合させることにより,多色空間融合効率ネットモデルを提案する。 我々のモデルは、精度、後処理に対する堅牢性、および他のデータセットに対する一般化性の観点から、ベースラインよりも優れています。 我々は、自然、コンピュータグラフィックス、GAN画像がいかに正確に区別できるかを理解するための心理物理学実験を行い、これらの画像、特にコンピュータ生成画像の分類が困難であることを観察し、タスクに必要な計算アルゴリズムの必要性を示す。 また、モデルの決定に寄与する健全な領域を理解するための視覚的説明を通じてモデルの振る舞いを分析し、モデルの強力な性質を示す説明の両方において、決定を有意に行うための類似性を観察できる領域マーキングの形式で、人間の手による説明と比較する。

The problem of distinguishing natural images from photo-realistic computer-generated ones either addresses natural images versus computer graphics or natural images versus GAN images, at a time. But in a real-world image forensic scenario, it is highly essential to consider all categories of image generation, since in most cases image generation is unknown. We, for the first time, to our best knowledge, approach the problem of distinguishing natural images from photo-realistic computer-generated images as a three-class classification task classifying natural, computer graphics, and GAN images. For the task, we propose a Multi-Colorspace fused EfficientNet model by parallelly fusing three EfficientNet networks that follow transfer learning methodology where each network operates in different colorspaces, RGB, LCH, and HSV, chosen after analyzing the efficacy of various colorspace transformations in this image forensics problem. Our model outperforms the baselines in terms of accuracy, robustness towards post-processing, and generalizability towards other datasets. We conduct psychophysics experiments to understand how accurately humans can distinguish natural, computer graphics, and GAN images where we could observe that humans find difficulty in classifying these images, particularly the computer-generated images, indicating the necessity of computational algorithms for the task. We also analyze the behavior of our model through visual explanations to understand salient regions that contribute to the model's decision making and compare with manual explanations provided by human participants in the form of region markings, where we could observe similarities in both the explanations indicating the powerful nature of our model to take the decisions meaningfully.
翻訳日:2021-10-19 17:10:14 公開日:2021-10-18
# 金融ドメインにおける自然言語処理を用いた顧客呼び出しの背後にある理由と動機の理解

Using Natural Language Processing to Understand Reasons and Motivators Behind Customer Calls in Financial Domain ( http://arxiv.org/abs/2110.09094v1 )

ライセンス: Link先を確認
Ankit Patil, Ankush Chopra, Sohom Ghosh, Vamshi Vadla(参考訳) このデジタル情報の豊富な時代において、顧客満足度は、あらゆるビジネスの成功の顕著な要因の1つとなっている。 顧客はほとんどすべてに対してワンクリックでソリューションを望んでいる。 オンラインでできることについて電話する必要がある場合、彼らは不満を抱く傾向があります。 さらに、入呼はあらゆるビジネスにとってコストの高いコンポーネントです。 したがって、顧客呼び出しの背後にある理由や動機を掘り起こせるフレームワークを開発することが不可欠である。 本稿では2つのモデルを提案する。 まず、注意に基づく2方向の短期記憶ネットワーク、続いて階層的クラスタリングにより、インバウンド呼び出しの書き起こしからこれらの理由を抽出する。 第二に、Support Vector MachinesとLogistic Regressionの確率に基づくアンサンブルモデルのセット。 これらの呼び出しにつながる要因を検出することができる。 大規模な評価はこれらのモデルの有効性を証明する。

In this era of abundant digital information, customer satisfaction has become one of the prominent factors in the success of any business. Customers want a one-click solution for almost everything. They tend to get unsatisfied if they have to call about something which they could have done online. Moreover, incoming calls are a high-cost component for any business. Thus, it is essential to develop a framework capable of mining the reasons and motivators behind customer calls. This paper proposes two models. Firstly, an attention-based stacked bidirectional Long Short Term Memory Network followed by Hierarchical Clustering for extracting these reasons from transcripts of inbound calls. Secondly, a set of ensemble models based on probabilities from Support Vector Machines and Logistic Regression. It is capable of detecting factors that led to these calls. Extensive evaluation proves the effectiveness of these models.
翻訳日:2021-10-19 16:42:14 公開日:2021-10-18
# アクセント認識のためのフランス語音声韻律の解析

Analysis of French Phonetic Idiosyncrasies for Accent Recognition ( http://arxiv.org/abs/2110.09179v1 )

ライセンス: Link先を確認
Pierre Berjon, Avishek Nag, and Soumyabrata Dev(参考訳) 音声認識システムはここ数十年で飛躍的な進歩を遂げた。 彼らは話者の発話を識別するために大きく発展してきた。 しかし,話者のニュアンスやアクセントを識別するためには,音声認識システムの改善の範囲がある。 特定の自然言語が少なくとも1つのアクセントを持つことは知られている。 同じ単語の音声構成にもかかわらず、異なるアクセントで発音される場合、音波は互いに異なる。 アクセントやイントネーションにおける発音の違いは、音声認識の最も一般的な問題の一つである。 言語に多くのアクセントがある場合、それぞれのアコースティックモデルを別々に作成する必要があります。 アクセントの正確な分類において,問題を体系的に解析する。 従来の機械学習手法と畳み込みニューラルネットワークを用いて,従来の手法ではこの問題を十分に解決できないことを示す。 音声信号のスペクトログラムを用いて,アクセント認識のための多クラス分類フレームワークを提案する。 本稿では,フランス語アクセントに注目した。 また,フランスの慣用句がスペクトルに与える影響を理解することによって,その限界を同定する。

Speech recognition systems have made tremendous progress since the last few decades. They have developed significantly in identifying the speech of the speaker. However, there is a scope of improvement in speech recognition systems in identifying the nuances and accents of a speaker. It is known that any specific natural language may possess at least one accent. Despite the identical word phonemic composition, if it is pronounced in different accents, we will have sound waves, which are different from each other. Differences in pronunciation, in accent and intonation of speech in general, create one of the most common problems of speech recognition. If there are a lot of accents in language we should create the acoustic model for each separately. We carry out a systematic analysis of the problem in the accurate classification of accents. We use traditional machine learning techniques and convolutional neural networks, and show that the classical techniques are not sufficiently efficient to solve this problem. Using spectrograms of speech signals, we propose a multi-class classification framework for accent recognition. In this paper, we focus our attention on the French accent. We also identify its limitation by understanding the impact of French idiosyncrasies on its spectrograms.
翻訳日:2021-10-19 16:42:04 公開日:2021-10-18
# アラビア語並列性コーパス2.0:拡張と分析

The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses ( http://arxiv.org/abs/2110.09216v1 )

ライセンス: Link先を確認
Bashar Alhafni, Nizar Habash, Houda Bouamor(参考訳) 自然言語処理(NLP)アプリケーションにおけるジェンダーバイアス、特に機械翻訳は注目されている。 この問題に関する多くの研究は、英語のnlpモデルとシステムにおけるジェンダーバイアスの緩和に焦点を当てている。 リソース不足、および/または形態学的にリッチな言語でのこの問題への対処は、主にデータセットとリソースの欠如によって、遅れている。 本稿では,1人ないし2人の対象ユーザ(Iおよび/またはYou)が関係する文脈において,ジェンダー識別と書き直しを行うための新しいコーパスを提案する。 アラビア語は形態学的に豊かな言語である。 コーパスには複数の並列成分があり、女性と男性による文法的性別の1人目と2人目の組み合わせ、英語とアラビア語の機械翻訳出力の4つがある。 このコーパスはhabash et al. (2019) の arabic parallel gender corpus (apgc v1.0) に拡張され、2人目のターゲットを追加し、6.5回以上の文の総数を増加させ、590万語以上に達する。 我々の新しいデータセットは、NLPアプリケーションをパーソナライズし、文法的な性別嗜好に基づいて正しい出力をユーザに提供できる性別識別、制御されたテキスト生成、編集後書き換えシステムの研究開発を支援する。 我々は、アラビア語並列性コーパス(apgc v2.0)を一般公開する。

Gender bias in natural language processing (NLP) applications, particularly machine translation, has been receiving increasing attention. Much of the research on this issue has focused on mitigating gender bias in English NLP models and systems. Addressing the problem in poorly resourced, and/or morphologically rich languages has lagged behind, largely due to the lack of datasets and resources. In this paper, we introduce a new corpus for gender identification and rewriting in contexts involving one or two target users (I and/or You) -- first and second grammatical persons with independent grammatical gender preferences. We focus on Arabic, a gender-marking morphologically rich language. The corpus has multiple parallel components: four combinations of 1st and 2nd person in feminine and masculine grammatical genders, as well as English, and English to Arabic machine translation output. This corpus expands on Habash et al. (2019)'s Arabic Parallel Gender Corpus (APGC v1.0) by adding second person targets as well as increasing the total number of sentences over 6.5 times, reaching over 590K words. Our new dataset will aid the research and development of gender identification, controlled text generation, and post-editing rewrite systems that could be used to personalize NLP applications and provide users with the correct outputs based on their grammatical gender preferences. We make the Arabic Parallel Gender Corpus (APGC v2.0) publicly available.
翻訳日:2021-10-19 16:41:50 公開日:2021-10-18
# 価値のアライメント: 形式的なアプローチ

Value alignment: a formal approach ( http://arxiv.org/abs/2110.09240v1 )

ライセンス: Link先を確認
Carles Sierra and Nardine Osman and Pablo Noriega and Jordi Sabater-Mir and Antoni Perell\'o(参考訳) 自律型AIシステムを管理するべき原則。 基本的に、システムの目標と振る舞いは人間の価値観と一致すべきである。 しかし、どのようにバリューアライメントを確保するか? 本稿では,まず,選好を通じて価値を表現する形式モデルと,価値集約を計算する方法,すなわちエージェント群に対する選好,あるいは値の集合に対する選好について述べる。 次に、値アライメントが定義され、与えられた値に関して与えられたノルムに対して、世界の将来の状態の選好をもたらすという増減を通じて計算される。 我々は、行動を支配する規範であるノルムに焦点をあて、与えられたシステムと与えられた値のアラインメントは、システムが従うノルムによって決定される。

principles that should govern autonomous AI systems. It essentially states that a system's goals and behaviour should be aligned with human values. But how to ensure value alignment? In this paper we first provide a formal model to represent values through preferences and ways to compute value aggregations; i.e. preferences with respect to a group of agents and/or preferences with respect to sets of values. Value alignment is then defined, and computed, for a given norm with respect to a given value through the increase/decrease that it results in the preferences of future states of the world. We focus on norms as it is norms that govern behaviour, and as such, the alignment of a given system with a given value will be dictated by the norms the system follows.
翻訳日:2021-10-19 16:38:46 公開日:2021-10-18
# 生成的対向ニューラルネットワークによる動的相互作用における非言語的社会的信号の予測

Forecasting Nonverbal Social Signals during Dyadic Interactions with Generative Adversarial Neural Networks ( http://arxiv.org/abs/2110.09378v1 )

ライセンス: Link先を確認
Nguyen Tan Viet Tuyen, Oya Celiktutan(参考訳) 私たちは、教育、医療、仕事、個人的利用など、私たちの日常生活の多くの面で、ソーシャルロボットが徐々に普及する未来に近づいています。 このような実践的な応用には、人間とロボットは、社会的相互作用が避けられない環境において協力する必要がある。 言語コミュニケーションと並行して、成功した社会的相互作用は、非言語的な知覚と、視線行動の観察やそれらの注意の追従といった行動メカニズムの相互作用と密接に結びついており、手のジェスチャーの形態と機能を調整する。 人間は本能的で適応的な方法で非言語コミュニケーションを行う。 ロボットが私たちの社会的景観で成功するためには、自律性のレベルが増大するにつれて、人間のような方法で社会的な相互作用を行う必要がある。 特に、非言語的ジェスチャーは、発話を強調したり、意図を示す能力を持つ社会ロボットを養うことが期待されている。 今回の研究は、社会的相互作用における人間の振る舞いをモデル化することに焦点を当て、特に、人間の非言語的社会的シグナルをダイアド的相互作用の間に予測することを目的としています。 このようなアプローチは、ロボットジェスチャにエンコードされたメッセージが、facileで透明な方法で相互作用するパートナーによって認識されることを確実にする。

We are approaching a future where social robots will progressively become widespread in many aspects of our daily lives, including education, healthcare, work, and personal use. All of such practical applications require that humans and robots collaborate in human environments, where social interaction is unavoidable. Along with verbal communication, successful social interaction is closely coupled with the interplay between nonverbal perception and action mechanisms, such as observation of gaze behaviour and following their attention, coordinating the form and function of hand gestures. Humans perform nonverbal communication in an instinctive and adaptive manner, with no effort. For robots to be successful in our social landscape, they should therefore engage in social interactions in a humanlike way, with increasing levels of autonomy. In particular, nonverbal gestures are expected to endow social robots with the capability of emphasizing their speech, or showing their intentions. Motivated by this, our research sheds a light on modeling human behaviors in social interactions, specifically, forecasting human nonverbal social signals during dyadic interactions, with an overarching goal of developing robotic interfaces that can learn to imitate human dyadic interactions. Such an approach will ensure the messages encoded in the robot gestures could be perceived by interacting partners in a facile and transparent manner, which could help improve the interacting partner perception and makes the social interaction outcomes enhanced.
翻訳日:2021-10-19 16:38:33 公開日:2021-10-18
# (参考訳) DBSegment: 深部脳構造の高速かつ堅牢なセグメンテーション -取得ドメイン間の輸送性の評価-

DBSegment: Fast and robust segmentation of deep brain structures -- Evaluation of transportability across acquisition domains ( http://arxiv.org/abs/2110.09473v1 )

ライセンス: CC BY-SA 4.0
Mehri Baniasadi, Mikkel V. Petersen, Jorge Goncalves, Andreas Horn, Vanja Vlasov, Frank Hertel, Andreas Husch(参考訳) 磁気共鳴画像から深部脳構造を分割することは、患者の診断、手術計画、研究に重要である。 現在の最先端ソリューションのほとんどはセグメンテーション・バイ・レジゲーションのアプローチに従っており、対象MRIは明確に定義されたセグメンテーションを持つテンプレートにマッピングされる。 しかし、登録ベースのパイプラインは時間がかかり、臨床使用が制限される。 本稿では、ディープラーニングを用いて、堅牢で効率的な深層脳セグメンテーションソリューションを提供する。 この方法は、すべてのMRI画像を同じ向きに適合させる前処理ステップと、nnU-Netフレームワークを使用した畳み込みニューラルネットワークで構成される。 研究と臨床の両方で合計14のデータセットを使用します。 これらのうち7つが訓練と検証に使われ、7つが独立したテストに残った。 我々は、登録ベースのアプローチから生成されたラベルを用いて、30の深層脳構造と脳マスクをセグメントするネットワークを訓練した。 ネットワークの一般化性を評価するため, 外部データセットの相互検証と広範囲なテストを行った。 さらに,異なる領域で結果を別々に評価することで,クロスドメイントランスポート性を評価した。 登録ベースのゴールド標準と比較して,独立したテストデータセットでの平均dscは 0.89$\pm$ 0.04 であった。 テストシステムでは,参照登録ベースパイプラインの計算時間は42分から1分に短縮した。 提案手法は高速で堅牢で,信頼性の高い一般化を行う。 他の脳構造の分節にまで拡張することができる。 このメソッドはGitHubで公開されており、便利なpipパッケージが提供されている。

Segmenting deep brain structures from magnetic resonance images is important for patient diagnosis, surgical planning, and research. Most current state-of-the-art solutions follow a segmentation-by-registration approach, where subject MRIs are mapped to a template with well-defined segmentations. However, registration-based pipelines are time-consuming, thus, limiting their clinical use. This paper uses deep learning to provide a robust and efficient deep brain segmentation solution. The method consists of a pre-processing step to conform all MRI images to the same orientation, followed by a convolutional neural network using the nnU-Net framework. We use a total of 14 datasets from both research and clinical collections. Of these, seven were used for training and validation and seven were retained for independent testing. We trained the network to segment 30 deep brain structures, as well as a brain mask, using labels generated from a registration-based approach. We evaluated the generalizability of the network by performing a leave-one-dataset-out cross-validation, and extensive testing on external datasets. Furthermore, we assessed cross-domain transportability by evaluating the results separately on different domains. We achieved an average DSC of 0.89 $\pm$ 0.04 on the independent testing datasets when compared to the registration-based gold standard. On our test system, the computation time decreased from 42 minutes for a reference registration-based pipeline to 1 minute. Our proposed method is fast, robust, and generalizes with high reliability. It can be extended to the segmentation of other brain structures. The method is publicly available on GitHub, as well as a pip package for convenient usage.
翻訳日:2021-10-19 16:28:59 公開日:2021-10-18
# (参考訳) 外挿にともなう高次元の学習

Learning in High Dimension Always Amounts to Extrapolation ( http://arxiv.org/abs/2110.09485v1 )

ライセンス: CC BY 4.0
Randall Balestriero, Jerome Pesenti, Yann LeCun(参考訳) 補間と外挿の概念は、ディープラーニングから関数近似まで様々な分野において基本である。 補間は、このサンプルが与えられたデータセットの凸包の内部または境界に落ちると、サンプル$x$ に対して行われる。 外挿は、凸殻の外側に$x$が落ちるときに起こる。 基本的な(ミス)概念の1つは、トレーニングデータを正しく補間できるため、最先端のアルゴリズムがうまく機能するということである。 第二の(ミス)概念は、補間はタスクやデータセットを通して起こり、実際には多くの直観や理論はその仮定に依存しているということである。 経験的かつ理論的にこれら2つの点を議論し、任意の高次元($100)データセットにおいて、補間は決して起こらないことを実証する。 これらの結果は、一般化性能の指標として、現在の補間/外挿定義の有効性に挑戦する。

The notion of interpolation and extrapolation is fundamental in various fields from deep learning to function approximation. Interpolation occurs for a sample $x$ whenever this sample falls inside or on the boundary of the given dataset's convex hull. Extrapolation occurs when $x$ falls outside of that convex hull. One fundamental (mis)conception is that state-of-the-art algorithms work so well because of their ability to correctly interpolate training data. A second (mis)conception is that interpolation happens throughout tasks and datasets, in fact, many intuitions and theories rely on that assumption. We empirically and theoretically argue against those two points and demonstrate that on any high-dimensional ($>$100) dataset, interpolation almost surely never happens. Those results challenge the validity of our current interpolation/extrapolation definition as an indicator of generalization performances.
翻訳日:2021-10-19 15:56:28 公開日:2021-10-18
# (参考訳) 最小$\ell_{1}$-norm補間器:正確な漸近性と多重降下

Minimum $\ell_{1}$-norm interpolators: Precise asymptotics and multiple descent ( http://arxiv.org/abs/2110.09502v1 )

ライセンス: CC BY 4.0
Yue Li, Yuting Wei(参考訳) 機械学習の研究の進化は、補間推定器(トレーニングエラーをゼロにするもの)が必ずしも有害ではないことを示唆する経験的証拠を観察する。 本稿では,最小値$\ell_{1}$-norm補間器の理論的理解を追求する。これは,複数の学習アルゴリズムが,過パラメータ化方式における低値$\ell_1$-norm解を好んでいるという観測から導かれる。 具体的には,ガウス設計下でのノイズ分散回帰モデルについて,線形スパース性および高次元漸近性に着目して考察する(特徴数とスパースレベルがサンプルサイズに比例するように)。 すなわち、最小の$\ell_1$-norm補間器の一般化リスクは、モデル容量を増加させるにつれて、複数の(おそらく2つ以上)降下相と上昇相となる。 この現象は、最小$\ell_1$-norm補間器の特別な構造と、過パラメータ化比とスパーシティの間の微妙な相互作用に起因し、最小$\ell_2$-norm補間器から幾何の基本的な区別を明らかにする。 我々の発見は、2つの未知の非線形方程式からなる2つのシステムによって制御されるリスク行動の正確な特徴に基づいている。

An evolving line of machine learning works observe empirical evidence that suggests interpolating estimators -- the ones that achieve zero training error -- may not necessarily be harmful. This paper pursues theoretical understanding for an important type of interpolators: the minimum $\ell_{1}$-norm interpolator, which is motivated by the observation that several learning algorithms favor low $\ell_1$-norm solutions in the over-parameterized regime. Concretely, we consider the noisy sparse regression model under Gaussian design, focusing on linear sparsity and high-dimensional asymptotics (so that both the number of features and the sparsity level scale proportionally with the sample size). We observe, and provide rigorous theoretical justification for, a curious multi-descent phenomenon; that is, the generalization risk of the minimum $\ell_1$-norm interpolator undergoes multiple (and possibly more than two) phases of descent and ascent as one increases the model capacity. This phenomenon stems from the special structure of the minimum $\ell_1$-norm interpolator as well as the delicate interplay between the over-parameterized ratio and the sparsity, thus unveiling a fundamental distinction in geometry from the minimum $\ell_2$-norm interpolator. Our finding is built upon an exact characterization of the risk behavior, which is governed by a system of two non-linear equations with two unknowns.
翻訳日:2021-10-19 15:43:59 公開日:2021-10-18
# ネットワークラッソを用いたマルチタスク学習へのベイズ的アプローチ

A Bayesian approach to multi-task learning with network lasso ( http://arxiv.org/abs/2110.09040v1 )

ライセンス: Link先を確認
Kaito Shimamura, Shuichi Kawano(参考訳) ネットワークラッソ(Network lasso)は、正規化最大度法を用いてマルチタスク学習問題を解決する方法である。 ネットワークラッソの特徴は、サンプル毎に異なるモデルを設定することである。 モデル間の関係は関係係数によって表される。 ネットワークラッソにおける重要な問題は、これらの関係係数に対して適切な値を提供することである。 本稿では,ネットワークラッソによるマルチタスク学習問題を解決するベイズ手法を提案する。 このアプローチにより、ベイズ推定により関係係数を客観的に決定できる。 本手法の有効性はシミュレーション研究と実データ解析で示される。

Network lasso is a method for solving a multi-task learning problem through the regularized maximum likelihood method. A characteristic of network lasso is setting a different model for each sample. The relationships among the models are represented by relational coefficients. A crucial issue in network lasso is to provide appropriate values for these relational coefficients. In this paper, we propose a Bayesian approach to solve multi-task learning problems by network lasso. This approach allows us to objectively determine the relational coefficients by Bayesian estimation. The effectiveness of the proposed method is shown in a simulation study and a real data analysis.
翻訳日:2021-10-19 15:37:39 公開日:2021-10-18
# UMAPツアーとディープニューラルネットの比較

Comparing Deep Neural Nets with UMAP Tour ( http://arxiv.org/abs/2110.09431v1 )

ライセンス: Link先を確認
Mingwei Li, Carlos Scheidegger(参考訳) ニューラルネットワークは人間に解釈されるべきである。 特に、レイヤで学んだ概念やレイヤ間の類似性への関心が高まっています。 本研究では、実世界のニューラルネットワークモデルの内部動作を、よく整列したインスタンスレベルの表現を用いて視覚的に検査し比較するためのツールであるumap tourを構築した。 可視化に使用される手法は、ニューラルネットワーク層間の新しい類似性尺度も含んでいる。 ビジュアルツールと類似度測定を用いて、最先端のモデルで学んだ概念と、GoogLeNetやResNetのようなそれらの相違点を見つける。

Neural networks should be interpretable to humans. In particular, there is a growing interest in concepts learned in a layer and similarity between layers. In this work, a tool, UMAP Tour, is built to visually inspect and compare internal behavior of real-world neural network models using well-aligned, instance-level representations. The method used in the visualization also implies a new similarity measure between neural network layers. Using the visual tool and the similarity measure, we find concepts learned in state-of-the-art models and dissimilarities between them, such as GoogLeNet and ResNet.
翻訳日:2021-10-19 15:34:02 公開日:2021-10-18
# (参考訳) アノニマススピーチを保護する:テキスト中のスタイリスティックインジケータを除去するための生成的adversarial network方法論

Protecting Anonymous Speech: A Generative Adversarial Network Methodology for Removing Stylistic Indicators in Text ( http://arxiv.org/abs/2110.09495v1 )

ライセンス: CC BY 4.0
Rishi Balakrishnan, Stephen Sloan and Anil Aswani(参考訳) インターネットユーザーは、ブログ、メール、ソーシャルメディアの投稿など、常にテキストの痕跡を残しているため、匿名で書き、抗議する能力は、人工知能が以前の研究のサンプルを与えられた場合、数百の候補の中から著者とテキストを一致させることができるため、侵食されている。 著者名匿名化に対する既存のアプローチは、著者名難読化(authorship obfuscation)とも呼ばれる。 難読化のアイデンティティにフォーカスする人でさえ、手動によるフィードバックを必要とし、元の文の一貫性を失うか、限られた著者のサブセットだけをうまく実行する。 本稿では,アイデンティティを保護し,匿名性,流動性,コンテンツ保存に対応する3つの異なる損失を最適化する生成的敵ネットワークを構築することにより,著者の匿名化に新たなアプローチを提案する。 完全自動方式は, コンテンツ保存や流布において他の手法と同等の結果を得るが, 匿名化においてはベースラインよりも優れていた。 さらに,オープンセットの文脈にうまく一般化し,これまでに遭遇したことのない著者の文章を匿名化することができる。

With Internet users constantly leaving a trail of text, whether through blogs, emails, or social media posts, the ability to write and protest anonymously is being eroded because artificial intelligence, when given a sample of previous work, can match text with its author out of hundreds of possible candidates. Existing approaches to authorship anonymization, also known as authorship obfuscation, often focus on protecting binary demographic attributes rather than identity as a whole. Even those that do focus on obfuscating identity require manual feedback, lose the coherence of the original sentence, or only perform well given a limited subset of authors. In this paper, we develop a new approach to authorship anonymization by constructing a generative adversarial network that protects identity and optimizes for three different losses corresponding to anonymity, fluency, and content preservation. Our fully automatic method achieves comparable results to other methods in terms of content preservation and fluency, but greatly outperforms baselines in regards to anonymization. Moreover, our approach is able to generalize well to an open-set context and anonymize sentences from authors it has not encountered before.
翻訳日:2021-10-19 15:28:21 公開日:2021-10-18
# MEMO: 適応と拡張によるテスト時間のロバスト性

MEMO: Test Time Robustness via Adaptation and Augmentation ( http://arxiv.org/abs/2110.09506v1 )

ライセンス: Link先を確認
Marvin Zhang, Sergey Levine, Chelsea Finn(参考訳) ディープニューラルネットワークは、分散テストポイントにおいて高い精度を達成できるが、多くのアプリケーションは、入力の予期せぬ摂動、ドメインの変化、あるいは他の分散シフトの源である場合でさえ、堅牢性を必要とする。 テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。 近年, テスト時間適応手法が提案されているが, 複数のテストポイントへのアクセスなど, 広く普及するのを防ぐ追加の仮定が導入されている。 本研究では,モデル学習過程を想定せず,テスト時に広く適用可能な手法を研究し,考案することを目的とする。 モデルが確率的かつ適応可能な任意のテスト設定で使用できる単純なアプローチを提案する。 テスト例を示した場合、データポイントで異なるデータ拡張を実行し、モデルの平均値(または限界値)のエントロピーを最小化し、モデルのパラメータを適応(すべて)する。 直感的には、この目的はモデルに対して、異なる拡張にまたがって同じ予測を行うことを奨励し、これらの拡張に符号化された不変性を強制すると同時に、その予測に対する信頼性を維持する。 本実験では,本手法がロバストなresnetモデルと視覚トランスフォーマーモデルを一貫して改善し,標準モデル評価よりも1~8%の精度向上を達成し,また,従来の拡張戦略や適応戦略を概ね上回っていることを実証する。 画像汚損(ImageNet-C)、共通オブジェクトの回帰(ImageNet-R)、ResNet-50モデルのうち、逆選択された自然例(ImageNet-A)について、最先端の結果を得る。

While deep neural networks can attain good accuracy on in-distribution test points, many applications require robustness even in the face of unexpected perturbations in the input, changes in the domain, or other sources of distribution shift. We study the problem of test time robustification, i.e., using the test input to improve model robustness. Recent prior works have proposed methods for test time adaptation, however, they each introduce additional assumptions, such as access to multiple test points, that prevent widespread adoption. In this work, we aim to study and devise methods that make no assumptions about the model training process and are broadly applicable at test time. We propose a simple approach that can be used in any test setting where the model is probabilistic and adaptable: when presented with a test example, perform different data augmentations on the data point, and then adapt (all of) the model parameters by minimizing the entropy of the model's average, or marginal, output distribution across the augmentations. Intuitively, this objective encourages the model to make the same prediction across different augmentations, thus enforcing the invariances encoded in these augmentations, while also maintaining confidence in its predictions. In our experiments, we demonstrate that this approach consistently improves robust ResNet and vision transformer models, achieving accuracy gains of 1-8% over standard model evaluation and also generally outperforming prior augmentation and adaptation strategies. We achieve state-of-the-art results for test shifts caused by image corruptions (ImageNet-C), renditions of common objects (ImageNet-R), and, among ResNet-50 models, adversarially chosen natural examples (ImageNet-A).
翻訳日:2021-10-19 15:12:41 公開日:2021-10-18
# 教師なしの微調整

Unsupervised Finetuning ( http://arxiv.org/abs/2110.09510v1 )

ライセンス: Link先を確認
Suichan Li and Dongdong Chen and Yinpeng Chen and Lu Yuan and Lei Zhang and Qi Chu and Bin Liu and Nenghai Yu(参考訳) 本稿では,よく知られた「教師なし微調整」の対称問題である「教師なし微調整」について述べる。 事前訓練されたモデルと小規模な未ラベルのターゲットデータにより、教師なし微調整は、ソースドメインから対象ドメインに事前訓練された表現を適応させることにより、より良い転送性能を得ることができる。 小規模のターゲットデータの低データ密度は教師なし学習には適さないため、事前学習された表現と対象領域での貧弱な表現の損傷につながるため、この問題は教師なしデータよりも難しい。 本稿では、微調整パラダイムを監督者から監督者へシフトさせる際には、ソースデータの重要性が指摘され、ソースデータとターゲットデータを教師なしの微調整に組み合わせる2つのシンプルかつ効果的な戦略が提案されている。 前者の戦略の動機は、事前訓練された表現空間を占有するために、少量のソースデータを追加して、ターゲットデータをより小さなコンパクトな空間に配置することであり、後者の戦略の動機は、データ密度を高め、よりコンパクトな表現を学ぶことである。 提案する ‘unsupervised finetuning' 戦略の有効性を示すために,複数のターゲットデータセットを対象とした広範囲な実験を行い,naive 戦略よりも優れた転送性能を示す。

This paper studies "unsupervised finetuning", the symmetrical problem of the well-known "supervised finetuning". Given a pretrained model and small-scale unlabeled target data, unsupervised finetuning is to adapt the representation pretrained from the source domain to the target domain so that better transfer performance can be obtained. This problem is more challenging than the supervised counterpart, as the low data density in the small-scale target data is not friendly for unsupervised learning, leading to the damage of the pretrained representation and poor representation in the target domain. In this paper, we find the source data is crucial when shifting the finetuning paradigm from supervise to unsupervise, and propose two simple and effective strategies to combine source and target data into unsupervised finetuning: "sparse source data replaying", and "data mixing". The motivation of the former strategy is to add a small portion of source data back to occupy their pretrained representation space and help push the target data to reside in a smaller compact space; and the motivation of the latter strategy is to increase the data density and help learn more compact representation. To demonstrate the effectiveness of our proposed ``unsupervised finetuning'' strategy, we conduct extensive experiments on multiple different target datasets, which show better transfer performance than the naive strategy.
翻訳日:2021-10-19 15:12:09 公開日:2021-10-18
# ディープラーニングを用いたfMRIからの自然画像再構成

Natural Image Reconstruction from fMRI using Deep Learning: A Survey ( http://arxiv.org/abs/2110.09006v1 )

ライセンス: Link先を確認
Zarina Rakhimberdina, Quentin Jodelet, Xin Liu, Tsuyoshi Murata(参考訳) 脳イメージング技術や機械学習ツールの出現により、人間の脳における視覚情報のエンコーディングを捉える計算モデルの構築に多くの努力が費やされてきた。 最も難しい課題の1つは、機能的磁気共鳴画像(fmri)による脳活動から知覚される自然画像の正確な再構成である。 本研究では,fMRIによる自然画像再構成のための最新の深層学習手法について検討する。 これらの手法をアーキテクチャ設計、ベンチマークデータセット、評価メトリクスの観点から検討し、標準化された評価メトリクスにまたがって公正な性能評価を行う。 最後に,既存研究の強みと限界,今後の方向性について考察する。

With the advent of brain imaging techniques and machine learning tools, much effort has been devoted to building computational models to capture the encoding of visual information in the human brain. One of the most challenging brain decoding tasks is the accurate reconstruction of the perceived natural images from brain activities measured by functional magnetic resonance imaging (fMRI). In this work, we survey the most recent deep learning methods for natural image reconstruction from fMRI. We examine these methods in terms of architectural design, benchmark datasets, and evaluation metrics and present a fair performance evaluation across standardized evaluation metrics. Finally, we discuss the strengths and limitations of existing studies and present potential future directions.
翻訳日:2021-10-19 15:11:21 公開日:2021-10-18
# 難解なセル分解による強化学習に基づく被覆経路計画

Reinforcement Learning-Based Coverage Path Planning with Implicit Cellular Decomposition ( http://arxiv.org/abs/2110.09018v1 )

ライセンス: Link先を確認
Javad Heydari and Olimpiya Saha and Viswanath Ganapathy(参考訳) 一般的な既知の環境における被覆経路計画はNPハードであることが示されている。 環境が未知になると、ロボットはその経路を計画するために、カバー中に構築されたオンラインマップ情報に頼る必要があるため、より困難になる。 重要な研究は、合理的な性能を達成するヒューリスティックまたは近似アルゴリズムの設計に焦点を当てている。 このようなアルゴリズムは、範囲やカバーコスト、例えばカバレッジ時間やエネルギー消費をカバーして、準最適性能を持つ。 本稿では,カバレッジ問題に関する体系的な分析を行い,それに基づいて,カバレッジ性能とコストのトレードオフを明示的に考慮した最適な停止時間問題として定式化する。 次に、強化学習(RL)技術を用いて問題を計算的に解くことを実証する。 この目的のために、RLアルゴリズムの適用を容易にし、解の効率を改善するための技術的および実践的な考察を提供する。 最後に,グリッド・ワールド環境とガゼボ・シミュレータを用いた実験を通じて,強化学習に基づくアルゴリズムが現実的未知の屋内環境を効率的にカバーし,現在のアートを上回っていることを示す。

Coverage path planning in a generic known environment is shown to be NP-hard. When the environment is unknown, it becomes more challenging as the robot is required to rely on its online map information built during coverage for planning its path. A significant research effort focuses on designing heuristic or approximate algorithms that achieve reasonable performance. Such algorithms have sub-optimal performance in terms of covering the area or the cost of coverage, e.g., coverage time or energy consumption. In this paper, we provide a systematic analysis of the coverage problem and formulate it as an optimal stopping time problem, where the trade-off between coverage performance and its cost is explicitly accounted for. Next, we demonstrate that reinforcement learning (RL) techniques can be leveraged to solve the problem computationally. To this end, we provide some technical and practical considerations to facilitate the application of the RL algorithms and improve the efficiency of the solutions. Finally, through experiments in grid world environments and Gazebo simulator, we show that reinforcement learning-based algorithms efficiently cover realistic unknown indoor environments, and outperform the current state of the art.
翻訳日:2021-10-19 15:04:11 公開日:2021-10-18
# Edge RewiringがNeuralに:ポリシグラディエントによるネットワークレジリエンス向上

Edge Rewiring Goes Neural: Boosting Network Resilience via Policy Gradient ( http://arxiv.org/abs/2110.09035v1 )

ライセンス: Link先を確認
Shanchao Yang, Kaili Ma, Baoxiang Wang, Hongyuan Zha(参考訳) ネットワークのレジリエンス向上は、自然災害や悪意のある攻撃からシステムを保護します。 これは一般的に新しいエッジを導入することで実現されるが、ノードが維持できる最大コネクション数を超える可能性がある。 多くの研究はリウィリングの次数保存操作に頼り、既存のエッジを$AC, BD$から新しいエッジを$AB, CD$に置き換える。 ネットワークユーティリティ損失、局所最適性、およびトランスダクティビティの3つの制限を残しながら、理論的および実践的な結果のためのこの技術に焦点を当てた研究の行程である。 本稿では,ResiNetを提案する。Regressed Learning(RL)ベースのフレームワークで,災害や攻撃に対する耐性ネットワークトポロジを発見する。 ResiNetは客観的非依存であり、目的関数に組み込むことでユーティリティのバランスをとることができる。 局所最適性は、通常、欲求アルゴリズムに見られるもので、累積レジリエンスゲインをステップワイズという逐次的な決定プロセスに投入することで解決される。 トランスダクティビティ(transductivity)は、各入力グラフに対して計算集約的な最適化を実行する必要があることを言及し、自動回帰置換不変な可変アクション空間を持つRLの変種によって持ち上げられる。 ResiNetは私たちの技術革新であるFiltration enhanced GNN(FireGNN)によって武装されています。 したがって、ResiNetは局所的な構造変化を捉え、その決定を連続グラフに適応させることが可能である。 広範な実験により、resinetは少数のリワイリング操作によって、既存のアプローチに比べて大きなマージンで、ユーティリティのバランスを保ちながら、複数のグラフでほぼ最適のレジリエンス向上を実現することが示されている。

Improving the resilience of a network protects the system from natural disasters and malicious attacks. This is typically achieved by introducing new edges, which however may reach beyond the maximum number of connections a node could sustain. Many studies then resort to the degree-preserving operation of rewiring, which swaps existing edges $AC, BD$ to new edges $AB, CD$. A significant line of studies focuses on this technique for theoretical and practical results while leaving three limitations: network utility loss, local optimality, and transductivity. In this paper, we propose ResiNet, a reinforcement learning (RL)-based framework to discover resilient network topologies against various disasters and attacks. ResiNet is objective agnostic which allows the utility to be balanced by incorporating it into the objective function. The local optimality, typically seen in greedy algorithms, is addressed by casting the cumulative resilience gain into a sequential decision process of step-wise rewiring. The transductivity, which refers to the necessity to run a computationally intensive optimization for each input graph, is lifted by our variant of RL with auto-regressive permutation-invariant variable action space. ResiNet is armed by our technical innovation, Filtration enhanced GNN (FireGNN), which distinguishes graphs with minor differences. It is thus possible for ResiNet to capture local structure changes and adapt its decision among consecutive graphs, which is known to be infeasible for GNN. Extensive experiments demonstrate that with a small number of rewiring operations, ResiNet achieves a near-optimal resilience gain on multiple graphs while balancing the utility, with a large margin compared to existing approaches.
翻訳日:2021-10-19 15:03:53 公開日:2021-10-18
# ジョブショップスケジューリング問題を解決する深層再帰エージェントを用いたアクター-クリティックアルゴリズム

An actor-critic algorithm with deep double recurrent agents to solve the job shop scheduling problem ( http://arxiv.org/abs/2110.09076v1 )

ライセンス: Link先を確認
Marta Monaci, Valerio Agasucci and Giorgio Grani(参考訳) 機械学習技術の統合や最適化による最適化の課題解決への関心が高まっている。 本研究では,ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。 目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学ぶことができる、欲張りのようなヒューリスティックを構築することである。 高速なスケジューリング手法の必要性はよく知られており、交通から医療に至るまで、多くの領域で発生する。 我々はjsspをマルコフ決定プロセスとしてモデル化し,強化学習の有効性を生かして問題を解決した。 エージェントが行う行動は,状態値関数に関する政策的考察の影響を受け,アクター批判的手法を採用する。 この手順はjsspの困難な性質を考慮に入れるために適用され、状態とアクション空間は各インスタンスに対してだけでなく、各決定の後にも変化する。 入力中のジョブ数と操作数の変化に対処するため,我々は,特殊なタイプのディープニューラルネットワークであるインシデントlstmモデルを用いてエージェントをモデル化した。 実験により、アルゴリズムは短時間で良い解に到達し、学習ベースの方法論から新しい欲求的ヒューリスティックを生成できることが証明された。 ベンチマークは商用のソルバcplexと比較して生成されている。 予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。

There is a growing interest in integrating machine learning techniques and optimization to solve challenging optimization problems. In this work, we propose a deep reinforcement learning methodology for the job shop scheduling problem (JSSP). The aim is to build up a greedy-like heuristic able to learn on some distribution of JSSP instances, different in the number of jobs and machines. The need for fast scheduling methods is well known, and it arises in many areas, from transportation to healthcare. We model the JSSP as a Markov Decision Process and then we exploit the efficacy of reinforcement learning to solve the problem. We adopt an actor-critic scheme, where the action taken by the agent is influenced by policy considerations on the state-value function. The procedures are adapted to take into account the challenging nature of JSSP, where the state and the action space change not only for every instance but also after each decision. To tackle the variability in the number of jobs and operations in the input, we modeled the agent using two incident LSTM models, a special type of deep neural network. Experiments show the algorithm reaches good solutions in a short time, proving that is possible to generate new greedy heuristics just from learning-based methodologies. Benchmarks have been generated in comparison with the commercial solver CPLEX. As expected, the model can generalize, to some extent, to larger problems or instances originated by a different distribution from the one used in training.
翻訳日:2021-10-19 15:03:18 公開日:2021-10-18
# コールドスタートシーケンシャルレコメンデーションを学ぶための学習

Learning to Learn a Cold-start Sequential Recommender ( http://arxiv.org/abs/2110.09083v1 )

ライセンス: Link先を確認
Xiaowen Huang, Jitao Sang, Jian Yu, Changsheng Xu(参考訳) コールドスタート勧告は、現代のオンラインアプリケーションにおいて緊急の問題である。 行動が文字通り、可能な限り正確なレコメンデーションと疎結合なユーザーに提供することを目的としている。 広く使われている行列分解のような多くのデータ駆動アルゴリズムは、データスパース性のために性能が劣る。 この研究は、ユーザのコールドスタートレコメンデーション問題を解決するためにメタラーニングの考え方を採用する。 metacsrと呼ばれるメタラーニングベースのコールドスタートシーケンシャルレコメンデーションフレームワークを提案する。3つの主なコンポーネントは、インタラクショングラフ上で情報拡散を通じてより良いユーザ/テーマ埋め込みを学ぶためのディフュージョンレコメンデーション、振る舞いシーケンスの一時的な依存関係をキャプチャするシーケンシャルレコメンデーション、以前のユーザの転送可能な知識を抽出、伝達し、新規ユーザのために適切な初期化を学ぶメタラーナである。 MetaCSRは、通常のユーザの動作から共通パターンを学習し、初期化を最適化する機能を備えており、モデルが1ないし数回の勾配更新後に新しいユーザに迅速に適応し、最適なパフォーマンスを実現する。 広く使われている3つのデータセットに対する大規模な定量的実験は、ユーザコールドスタート問題に対処するメタCSRの顕著な性能を示している。 一方、一連の定性的解析は、提案されたメタCSRが優れた一般化を持つことを示す。

The cold-start recommendation is an urgent problem in contemporary online applications. It aims to provide users whose behaviors are literally sparse with as accurate recommendations as possible. Many data-driven algorithms, such as the widely used matrix factorization, underperform because of data sparseness. This work adopts the idea of meta-learning to solve the user's cold-start recommendation problem. We propose a meta-learning based cold-start sequential recommendation framework called metaCSR, including three main components: Diffusion Representer for learning better user/item embedding through information diffusion on the interaction graph; Sequential Recommender for capturing temporal dependencies of behavior sequences; Meta Learner for extracting and propagating transferable knowledge of prior users and learning a good initialization for new users. metaCSR holds the ability to learn the common patterns from regular users' behaviors and optimize the initialization so that the model can quickly adapt to new users after one or a few gradient updates to achieve optimal performance. The extensive quantitative experiments on three widely-used datasets show the remarkable performance of metaCSR in dealing with user cold-start problem. Meanwhile, a series of qualitative analysis demonstrates that the proposed metaCSR has good generalization.
翻訳日:2021-10-19 15:02:54 公開日:2021-10-18
# 畳み込みニューラルネットワークの次元性低減手法

A Dimensionality Reduction Approach for Convolutional Neural Networks ( http://arxiv.org/abs/2110.09163v1 )

ライセンス: Link先を確認
Laura Meneghetti and Nicola Demo and Gianluigi Rozza(参考訳) 本稿では, アクティブ部分空間や固有直交分解などの古典的モデルオーダー削減手法をディープニューラルネットワークに適用することに焦点を当てた。 本稿では,上記の次元性低減手法と,多項式カオス展開やフィードフォワードニューラルネットワークといった入出力マッピングを組み合わせることで,事前学習したネットワークの層数を削減する汎用手法を提案する。 既存の畳み込みニューラルネットワークのアーキテクチャを圧縮する必要性は、特定のストレージ制約のある組み込みシステムへの応用によって動機付けられる。 実験の結果, 得られたネットは, メモリ割り当てを節約しながら, 元の畳み込みニューラルネットワークと同様の精度が得られることがわかった。

The focus of this paper is the application of classical model order reduction techniques, such as Active Subspaces and Proper Orthogonal Decomposition, to Deep Neural Networks. We propose a generic methodology to reduce the number of layers of a pre-trained network by combining the aforementioned techniques for dimensionality reduction with input-output mappings, such as Polynomial Chaos Expansion and Feedforward Neural Networks. The necessity of compressing the architecture of an existing Convolutional Neural Network is motivated by its application in embedded systems with specific storage constraints. Our experiment shows that the reduced nets obtained can achieve a level of accuracy similar to the original Convolutional Neural Network under examination, while saving in memory allocation.
翻訳日:2021-10-19 15:01:54 公開日:2021-10-18
# energon:動的スパース注意を用いた変圧器の効率的な高速化に向けて

Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention ( http://arxiv.org/abs/2110.09310v1 )

ライセンス: Link先を確認
Zhe Zhou and Junlin Liu and Zhenyu Gu and Guangyu Sun(参考訳) 近年、トランスフォーマーモデルは自然言語処理(nlp)に革命をもたらし、コンピュータビジョン(cv)タスクでも有望な性能を示している。 その効果にもかかわらず、トランスフォーマーの注意操作は複雑なデータ移動と二次計算の複雑さのために加速しにくく、リソース制約のあるエッジコンピューティングプラットフォームでのリアルタイム推論を禁止している。 この課題に対処するために,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。 注意結果がいくつかの重要なクエリキーペアのみに依存するという観測から,実行時にそのペアを動的に識別するマルチラウンドフィルタリングアルゴリズムを提案する。 各フィルタリングラウンドに低ビット幅を採用し、注意段階の高精度テンソルのみを用いて、全体的な複雑さを低減する。 この方法では、計算コストを無視できる精度損失で大幅に軽減する。 より低レイテンシでエネルギー効率のよいアルゴリズムを実現するために,Energonコプロセッサアーキテクチャを提案する。 実験パイプラインと特別な最適化により、性能が向上し、消費電力が減少する。 nlpとcvのベンチマークでの広範な実験により、energonは161\times$と8.4\times$ geo-mean speedup、最大10^4\times$と10^3\times$ energy reductionをintel xeon 5220 cpuとnvidia v100 gpuと比較した。 最先端の注目アクセラレータSpAttenや$A^3$と比較して、Energonは1.7\times、1.25\times$ Speedup、1.6 \times、1.1.5\times$高エネルギー効率を実現している。

In recent years, transformer models have revolutionized Natural Language Processing (NLP) and also show promising performance on Computer Vision (CV) tasks. Despite their effectiveness, transformers' attention operations are hard to accelerate due to complicated data movement and quadratic computational complexity, prohibiting the real-time inference on resource-constrained edge-computing platforms. To tackle this challenge, we propose Energon, an algorithm-architecture co-design approach that accelerates various transformers using dynamic sparse attention. With the observation that attention results only depend on a few important query-key pairs, we propose a multi-round filtering algorithm to dynamically identify such pairs at runtime. We adopt low bitwidth in each filtering round and only use high-precision tensors in the attention stage to reduce overall complexity. By this means, we significantly mitigate the computational cost with negligible accuracy loss. To enable such an algorithm with lower latency and better energy-efficiency, we also propose an Energon co-processor architecture. Elaborated pipelines and specialized optimizations jointly boost the performance and reduce power consumption. Extensive experiments on both NLP and CV benchmarks demonstrate that Energon achieves $161\times$ and $8.4\times$ geo-mean speedup and up to $10^4\times$ and $10^3\times$ energy reduction compared with Intel Xeon 5220 CPU and NVIDIA V100 GPU. Compared to state-of-the-art attention accelerators SpAtten and $A^3$, Energon also achieves $1.7\times, 1.25\times$ speedup and $1.6 \times, 1.5\times $ higher energy efficiency.
翻訳日:2021-10-19 15:01:41 公開日:2021-10-18
# (参考訳) ガウス過程と確率的条件生成学習を用いた機械学習モデルによる液体燃料特性の予測

Prediction of liquid fuel properties using machine learning models with Gaussian processes and probabilistic conditional generative learning ( http://arxiv.org/abs/2110.09360v1 )

ライセンス: CC BY 4.0
Rodolfo S. M. Freitas, \'Agatha P. F. Lima, Cheng Chen, Fernando A. Rochinha, Daniel Mira, Xi Jiang(参考訳) 代替燃料の利用には, 様々な圧力および温度条件における複合混合物の燃料特性の精密決定が不可欠である。 本研究の目的は、代替燃料の物理特性を予測するためにクロージャ方程式として機能する安価な計算機械学習モデルを構築することである。 これらのモデルは、MDシミュレーションのデータベースや、データ融合忠実度アプローチによる実験的な測定を用いて訓練することができる。 ここではガウス過程(GP)と確率的生成モデルを採用する。 GPは補助的モデルを構築するための非パラメトリックベイズ的アプローチとして人気がある。 生成モデルは、同じ意図で使用されるディープニューラルネットワークの能力を示している。 この研究では、ML分析は特定の性質、すなわち燃料密度に焦点を当てるが、他の物理化学的性質にも拡張することができる。 本研究では,マルチ忠実度データを扱うMLモデルの汎用性について検討する。 その結果,MLモデルでは,幅広い圧力および温度条件の燃料特性を正確に予測できることがわかった。

Accurate determination of fuel properties of complex mixtures over a wide range of pressure and temperature conditions is essential to utilizing alternative fuels. The present work aims to construct cheap-to-compute machine learning (ML) models to act as closure equations for predicting the physical properties of alternative fuels. Those models can be trained using the database from MD simulations and/or experimental measurements in a data-fusion-fidelity approach. Here, Gaussian Process (GP) and probabilistic generative models are adopted. GP is a popular non-parametric Bayesian approach to build surrogate models mainly due to its capacity to handle the aleatory and epistemic uncertainties. Generative models have shown the ability of deep neural networks employed with the same intent. In this work, ML analysis is focused on a particular property, the fuel density, but it can also be extended to other physicochemical properties. This study explores the versatility of the ML models to handle multi-fidelity data. The results show that ML models can predict accurately the fuel properties of a wide range of pressure and temperature conditions.
翻訳日:2021-10-19 14:58:12 公開日:2021-10-18
# 非定常MDPにおける最適政策最適化の有効性

Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs ( http://arxiv.org/abs/2110.08984v1 )

ライセンス: Link先を確認
Han Zhong, Zhuoran Yang, Zhaoran Wang Csaba Szepesv\'ari(参考訳) 非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)について検討した。 この設定では、報酬関数と遷移核は、与えられた特徴写像に対して線形であり、それぞれのパラメータの変動が特定の変動予算を超えない限り、時間とともに変化することが許される。 線形関数近似を用いた楽観的ポリシー最適化アルゴリズムである,$\underline{\text{p}}$eriodically $\underline{\text{r}}$estarted $\underline{\text{o}}$ptimistic $\underline{\text{p}}$olicy $\underline{\text{o}}$ptimization algorithm (PROPO)を提案する。 PROPOはスライディングウインドウに基づく政策評価と周期的再起動に基づく政策改善の2つのメカニズムを特徴としている。 また,スライディングウインドウの手法を利用するだけで,値イテレーションアルゴリズムを提案する。 提案手法の動的上界と,提案手法の(近距離)最適性を示す最小最小下界のマッチングを定式化する。 私たちの知る限り、propoは非定常性を扱う最初の有効なポリシー最適化アルゴリズムです。

We study episodic reinforcement learning (RL) in non-stationary linear kernel Markov decision processes (MDPs). In this setting, both the reward function and the transition kernel are linear with respect to the given feature maps and are allowed to vary over time, as long as their respective parameter variations do not exceed certain variation budgets. We propose the $\underline{\text{p}}$eriodically $\underline{\text{r}}$estarted $\underline{\text{o}}$ptimistic $\underline{\text{p}}$olicy $\underline{\text{o}}$ptimization algorithm (PROPO), which is an optimistic policy optimization algorithm with linear function approximation. PROPO features two mechanisms: sliding-window-based policy evaluation and periodic-restart-based policy improvement, which are tailored for policy optimization in a non-stationary environment. In addition, only utilizing the technique of sliding window, we propose a value-iteration algorithm. We establish dynamic upper bounds for the proposed methods and a matching minimax lower bound which shows the (near-) optimality of the proposed methods. To our best knowledge, PROPO is the first provably efficient policy optimization algorithm that handles non-stationarity.
翻訳日:2021-10-19 14:36:00 公開日:2021-10-18
# メタラーニングのためのプロトタイプ指向集合表現の学習

Learning Prototype-oriented Set Representations for Meta-Learning ( http://arxiv.org/abs/2110.09140v1 )

ライセンス: Link先を確認
Dandan Guo, Long Tian, Minghe Zhang, Mingyuan Zhou, Hongyuan Zha(参考訳) 集合構造データからの学習は、集合入力を扱うために一連の要約ネットワークを導入し、近年注目を集めている基本的な問題である。 実際、多くのメタ学習問題はセット入力タスクとして扱うことができる。 既存の要約ネットワークの多くは、置換不変性を強制するために入力セットの異なるアーキテクチャを設計することを目的としている。 しかし、メタ分布における異なる集合が密接に関連し、ある統計的性質を共有する場合において、注意が払われている。 本稿では,各集合をグローバルプロトタイプの集合上の分布として捉え,既存のサマリーネットワークを改善するための新しい最適輸送(ot)方式を提案する。 グローバルプロトタイプ上での分布を学習するために、そのot距離をデータポイント上の経験的分布まで最小化し、サマリーネットワークを改善する自然な教師なしの方法を提供する。 我々のプラグイン・アンド・プレイ・フレームワークは多くのメタ学習問題に適用できるので、少数ショットの分類や暗黙のメタ生成モデリングの事例にも当てはまる。 広範な実験により,既存のサマリネットワークにおいて,集合からより強力なサマリ統計を学習し,メトリクスベースのマイナショット分類および生成モデリングアプリケーションにうまく統合できることが示され,集合入力およびメタラーニング問題に対処する有望なツールが提供された。

Learning from set-structured data is a fundamental problem that has recently attracted increasing attention, where a series of summary networks are introduced to deal with the set input. In fact, many meta-learning problems can be treated as set-input tasks. Most existing summary networks aim to design different architectures for the input set in order to enforce permutation invariance. However, scant attention has been paid to the common cases where different sets in a meta-distribution are closely related and share certain statistical properties. Viewing each set as a distribution over a set of global prototypes, this paper provides a novel optimal transport (OT) based way to improve existing summary networks. To learn the distribution over the global prototypes, we minimize its OT distance to the set empirical distribution over data points, providing a natural unsupervised way to improve the summary network. Since our plug-and-play framework can be applied to many meta-learning problems, we further instantiate it to the cases of few-shot classification and implicit meta generative modeling. Extensive experiments demonstrate that our framework significantly improves the existing summary networks on learning more powerful summary statistics from sets and can be successfully integrated into metric-based few-shot classification and generative modeling applications, providing a promising tool for addressing set-input and meta-learning problems.
翻訳日:2021-10-19 14:35:34 公開日:2021-10-18
# RKHS-SHAP:カーネルメソッドの共有値

RKHS-SHAP: Shapley Values for Kernel Methods ( http://arxiv.org/abs/2110.09167v1 )

ライセンス: Link先を確認
Siu Lun Chau, Javier Gonzalez, Dino Sejdinovic(参考訳) カーネルメソッドの機能帰属はしばしばヒューリスティックであり、予測ごとに個別化されない。 この問題に対処するため、我々は、線形モデル、ツリーアンサンブル、ディープネットワークなど、これまでさまざまな機械学習モデル解釈タスクに適用されてきた連立ゲーム理論フレームワークであるShapley値の概念に目を向ける。 関数的観点からShapley値を分析することにより,カーネル平均分布埋め込みを用いて,\emph{Interventional} と \emph{Observational Shapley値の両方を効率的に計算できるカーネルマシンの属性法である \textsc{RKHS-SHAP} を提案する。 理論的には、この手法は局所摂動に関して頑健であり、解釈可能性に関してしばしば見過ごされるデシデラタムである。 さらに,一般的な経験的リスク最小化フレームワークに適用可能な \emph{shapley regulariser} を提案する。 そこで本研究では,Shapley正規化によって,与えられた特徴の変動に頑健な学習と,感性のある特徴のShapley値を制御する公平な学習を可能にした。

Feature attribution for kernel methods is often heuristic and not individualised for each prediction. To address this, we turn to the concept of Shapley values, a coalition game theoretical framework that has previously been applied to different machine learning model interpretation tasks, such as linear models, tree ensembles and deep networks. By analysing Shapley values from a functional perspective, we propose \textsc{RKHS-SHAP}, an attribution method for kernel machines that can efficiently compute both \emph{Interventional} and \emph{Observational Shapley values} using kernel mean embeddings of distributions. We show theoretically that our method is robust with respect to local perturbations - a key yet often overlooked desideratum for interpretability. Further, we propose \emph{Shapley regulariser}, applicable to a general empirical risk minimisation framework, allowing learning while controlling the level of specific feature's contributions to the model. We demonstrate that the Shapley regulariser enables learning which is robust to covariate shift of a given feature and fair learning which controls the Shapley values of sensitive features.
翻訳日:2021-10-19 14:35:11 公開日:2021-10-18
# 位相正規化データ埋め込み

Topologically Regularized Data Embeddings ( http://arxiv.org/abs/2110.09193v1 )

ライセンス: Link先を確認
Robin Vandaele, Bo Kang, Jefrey Lijffijt, Tijl De Bie, Yvan Saeys(参考訳) 教師なし特徴学習はしばしば、複雑なデータの構造をキャプチャする低次元埋め込みを見つける。 専門的なトポロジカルな知識が利用できるタスクでは、これを学習した表現に組み込むことで、より高い品質の埋め込みにつながる可能性がある。 例えば、与えられた数のクラスタにデータを組み込む場合や、モデル上で直接データ分布を導出することを妨げるノイズに適応する場合には、これがより効果的に学習される場合があります。 しかし、異なる事前位相知識を埋め込みに統合するための一般的なツールが欠如している。 微分可能位相層は,事前定義された位相モデルへの埋め込みを(再)形作ることができるが,表現学習には2つの重要な制限がある。 まず、現在示唆されている位相的損失は、クラスタやフレアのような単純なモデルを自然な方法で表現できない。 第二に、これらの損失は、学習に有用なデータの構造的情報(例えば近隣情報)をすべて無視する。 これらの制約を克服するために、新しいトポロジカルな損失のセットを導入し、トポロジカルにデータ埋め込みを正規化し、自然に指定されたモデルを表現する方法として使用することを提案する。 我々は、高次元単細胞データのモデリングからグラフ埋め込みまで、このアプローチの有用性と汎用性を強調する合成データおよび実データに関する徹底的な実験を含む。

Unsupervised feature learning often finds low-dimensional embeddings that capture the structure of complex data. For tasks for which expert prior topological knowledge is available, incorporating this into the learned representation may lead to higher quality embeddings. For example, this may help one to embed the data into a given number of clusters, or to accommodate for noise that prevents one from deriving the distribution of the data over the model directly, which can then be learned more effectively. However, a general tool for integrating different prior topological knowledge into embeddings is lacking. Although differentiable topology layers have been recently developed that can (re)shape embeddings into prespecified topological models, they have two important limitations for representation learning, which we address in this paper. First, the currently suggested topological losses fail to represent simple models such as clusters and flares in a natural manner. Second, these losses neglect all original structural (such as neighborhood) information in the data that is useful for learning. We overcome these limitations by introducing a new set of topological losses, and proposing their usage as a way for topologically regularizing data embeddings to naturally represent a prespecified model. We include thorough experiments on synthetic and real data that highlight the usefulness and versatility of this approach, with applications ranging from modeling high-dimensional single cell data, to graph embedding.
翻訳日:2021-10-19 14:34:48 公開日:2021-10-18
# 連続最適化によるベイズネットワーク構造学習に向けて

Towards Federated Bayesian Network Structure Learning with Continuous Optimization ( http://arxiv.org/abs/2110.09356v1 )

ライセンス: Link先を確認
Ignavier Ng, Kun Zhang(参考訳) 伝統的に、ベイズネットワーク構造学習は、すべてのデータが収集される中央のサイトで行われることが多い。 しかし実際には、データはベイズネットワークを集合的に学習しようとする異なるパーティ(企業、デバイスなど)に分散されるが、プライバシやセキュリティ上の懸念からデータに関連する情報を開示する意思はない。 本研究では,異なるパーティ間で水平に分割されたデータからベイズネットワークの構造を推定するクロスサイロフェデレーション学習手法を提案する。 最適化過程においてモデルパラメータのみを交換できるように,乗算器(admm)の交互方向法を用いて,連続最適化に基づく分散構造学習手法を開発した。 線形ケースと非線形ケースの両方に適用することで,このアプローチの柔軟性を実証する。 合成データと実データを用いた実験の結果,クライアント数が比較的多く,サンプルサイズが制限された場合には,他の手法よりも性能が向上することが示されている。

Traditionally, Bayesian network structure learning is often carried out at a central site, in which all data is gathered. However, in practice, data may be distributed across different parties (e.g., companies, devices) who intend to collectively learn a Bayesian network, but are not willing to disclose information related to their data owing to privacy or security concerns. In this work, we present a cross-silo federated learning approach to estimate the structure of Bayesian network from data that is horizontally partitioned across different parties. We develop a distributed structure learning method based on continuous optimization, using the alternating direction method of multipliers (ADMM), such that only the model parameters have to be exchanged during the optimization process. We demonstrate the flexibility of our approach by adopting it for both linear and nonlinear cases. Experimental results on synthetic and real datasets show that it achieves an improved performance over the other methods, especially when there is a relatively large number of clients and each has a limited sample size.
翻訳日:2021-10-19 14:34:26 公開日:2021-10-18
# 非パラメトリック混合モデルによるカーネルクラスタリングの回復保証

Recovery Guarantees for Kernel-based Clustering under Non-parametric Mixture Models ( http://arxiv.org/abs/2110.09476v1 )

ライセンス: Link先を確認
Leena Chennuru Vankadara, Sebastian Bordt, Ulrike von Luxburg, Debarghya Ghoshdastidar(参考訳) カーネルベースのクラスタリングはユビキタスだが、データ生成プロセスにおいて強い構造的前提を考える設定以外には、驚くほど少ない統計的な保証が存在する。 本研究では,非パラメトリック混合モデルにおけるカーネルベースのクラスタリングアルゴリズムの統計的性能を調べることにより,このギャップを埋めるための一歩を踏み出す。 これらのアルゴリズムが根底にある真のクラスタリングを継続的に回復できる必要十分かつ十分な分離性条件を提供する。 本分析は,カーネルクラスタリング手法がコンポーネント分布の形式に関する構造的仮定を伴わない保証を提供する。 さらに,カーネルベースのデータクラスタリングとカーネル密度ベースのクラスタリングとの間に重要な等価性を確立する。 これにより、非パラメトリック混合モデルのカーネルベース推定器の整合性を保証することができる。 この接続は理論的な意味合いとともに、クラスタリングの文脈でガウスカーネルの帯域幅を体系的に選択するなど、実用的な意味を持つ可能性がある。

Despite the ubiquity of kernel-based clustering, surprisingly few statistical guarantees exist beyond settings that consider strong structural assumptions on the data generation process. In this work, we take a step towards bridging this gap by studying the statistical performance of kernel-based clustering algorithms under non-parametric mixture models. We provide necessary and sufficient separability conditions under which these algorithms can consistently recover the underlying true clustering. Our analysis provides guarantees for kernel clustering approaches without structural assumptions on the form of the component distributions. Additionally, we establish a key equivalence between kernel-based data-clustering and kernel density-based clustering. This enables us to provide consistency guarantees for kernel-based estimators of non-parametric mixture models. Along with theoretical implications, this connection could have practical implications, including in the systematic choice of the bandwidth of the Gaussian kernel in the context of clustering.
翻訳日:2021-10-19 14:34:10 公開日:2021-10-18
# 証明可能な階層型メタ強化学習

Provable Hierarchy-Based Meta-Reinforcement Learning ( http://arxiv.org/abs/2110.09507v1 )

ライセンス: Link先を確認
Kurtland Chua, Qi Lei, Jason D. Lee(参考訳) 階層的強化学習(HRL)は、複雑なモジュラー動作の抽出可能な学習方法として広く関心を集めている。 しかしながら、既存の作業では、エキスパート構成階層へのアクセスを想定するか、証明可能な保証なしで階層学習ヒューリスティックを使用するかのどちらかである。 このギャップに対処するために、学習者が下流タスクで使用するメタトレーニング中に潜在階層構造を学習するメタRL設定でHRLを解析する。 遷移ダイナミクスに自然な階層構造が埋め込まれた表的な設定を考える。 教師付きメタラーニング理論と同様に、我々は、扱いやすい楽観主義に基づくアルゴリズムとともに、この自然な階層のサンプル効率の回復を保証する「多様性条件」を提供する。 さらに,学習者に対して,回収した階層を用いてメタテストタスクを解くための後悔の限度を与える。 我々の境界は、時間的・状態/行動的抽象化のようなHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。

Hierarchical reinforcement learning (HRL) has seen widespread interest as an approach to tractable learning of complex modular behaviors. However, existing work either assume access to expert-constructed hierarchies, or use hierarchy-learning heuristics with no provable guarantees. To address this gap, we analyze HRL in the meta-RL setting, where a learner learns latent hierarchical structure during meta-training for use in a downstream task. We consider a tabular setting where natural hierarchical structure is embedded in the transition dynamics. Analogous to supervised meta-learning theory, we provide "diversity conditions" which, together with a tractable optimism-based algorithm, guarantee sample-efficient recovery of this natural hierarchy. Furthermore, we provide regret bounds on a learner using the recovered hierarchy to solve a meta-test task. Our bounds incorporate common notions in HRL literature such as temporal and state/action abstractions, suggesting that our setting and analysis capture important features of HRL in practice.
翻訳日:2021-10-19 14:33:57 公開日:2021-10-18
# ノイズラベルによる学習を改善する自己監督機能

Demystifying How Self-Supervised Features Improve Training from Noisy Labels ( http://arxiv.org/abs/2110.09022v1 )

ライセンス: Link先を確認
Hao Cheng, Zhaowei Zhu, Xing Sun, Yang Liu(参考訳) 自己教師付き学習(SSL)の進歩は、研究者がノイズラベルによる学習など他のタスクにSSLを適用する動機となっている。 近年の文献では、ssl機能に基づく手法がノイズラベルを用いた学習性能を著しく向上させることが示唆されている。 それでも、SSL機能がノイズの多いラベルからのトレーニングに(そしてどのように)役立つのかは理解されていない。 本稿では,理論的解析と数値実験の両方を用いてラベルノイズに対する自己教師機能の効果について検討する。 その結果,SSLから事前学習した品質エンコーダでは,クロスエントロピー損失によって訓練された単純な線形層が対称ラベルノイズに対して理論的に堅牢であることがわかった。 さらに、SSL機能から抽出した知識が過度に適合する問題を緩和する方法についての洞察を提供する。 私たちの研究は、自己教師型学習の観点からノイズの多いラベルによる学習をより深く理解し、さらなる研究のガイドラインとして役立つことを願っています。 コードはgithub.com/UCSC-REAL/SelfSup_NoisyLabelで入手できる。

The advancement of self-supervised learning (SSL) motivates researchers to apply SSL on other tasks such as learning with noisy labels. Recent literature indicates that methods built on SSL features can substantially improve the performance of learning with noisy labels. Nonetheless, the deeper reasons why (and how) SSL features benefit the training from noisy labels are less understood. In this paper, we study why and how self-supervised features help networks resist label noise using both theoretical analyses and numerical experiments. Our result shows that, given a quality encoder pre-trained from SSL, a simple linear layer trained by the cross-entropy loss is theoretically robust to symmetric label noise. Further, we provide insights for how knowledge distilled from SSL features can alleviate the over-fitting problem. We hope our work provides a better understanding for learning with noisy labels from the perspective of self-supervised learning and can potentially serve as a guideline for further research. Code is available at github.com/UCSC-REAL/SelfSup_NoisyLabel.
翻訳日:2021-10-19 14:30:51 公開日:2021-10-18
# 摂動オプティマイザを用いた微分レンダリング

Differentiable Rendering with Perturbed Optimizers ( http://arxiv.org/abs/2110.09107v1 )

ライセンス: Link先を確認
Quentin Le Lidec, Ivan Laptev, Cordelia Schmid, Justin Carpentier(参考訳) 2d画像投影から3dシーンを推論することは、コンピュータビジョンの重要な問題の1つだ。 この逆で不適切な問題の解は、通常、観測された画像データを説明するモデルの探索を伴う。 特に、画像は観察されたシーンの性質と画像形成過程の両方に依存する。 したがって、画像の説明に最適化技術を用いる場合、3Dシーンを画像に投影するための微分可能関数を設計することが重要である。 微分可能レンダリングに対する以前のアプローチは、通常、微分不可能操作を滑らかな近似で置き換え、その後の3次元推定に影響を与える。 本稿では,より一般的な手法を採用し,ランダム化最適化のプリズムと摂動最適化の関連する概念を通して微分可能レンダラについて検討する。 特に,よく知られた微分可能レンダラとランダムに平滑化されたオプティマイザとのリンクを強調し,微分可能な摂動レンダラを導入する。 また、摂動オプティマイザに固有の計算負荷を軽減する分散低減機構を提案し、レンダリングプロセスの平滑化パラメータを自動的に調整する適応スキームを導入する。 本手法を3次元シーン再構成に適用し,6次元ポーズ推定と3次元メッシュ再構成の課題にその利点を示す。 強力な監視信号として使用できる情報的勾配を提供することにより、滑らかな勾配近似を用いた最先端の代替品と比較してより正確な解を得るための摂動レンダラーの利点を実証する。

Reasoning about 3D scenes from their 2D image projections is one of the core problems in computer vision. Solutions to this inverse and ill-posed problem typically involve a search for models that best explain observed image data. Notably, images depend both on the properties of observed scenes and on the process of image formation. Hence, if optimization techniques should be used to explain images, it is crucial to design differentiable functions for the projection of 3D scenes into images, also known as differentiable rendering. Previous approaches to differentiable rendering typically replace non-differentiable operations by smooth approximations, impacting the subsequent 3D estimation. In this paper, we take a more general approach and study differentiable renderers through the prism of randomized optimization and the related notion of perturbed optimizers. In particular, our work highlights the link between some well-known differentiable renderer formulations and randomly smoothed optimizers, and introduces differentiable perturbed renderers. We also propose a variance reduction mechanism to alleviate the computational burden inherent to perturbed optimizers and introduce an adaptive scheme to automatically adjust the smoothing parameters of the rendering process. We apply our method to 3D scene reconstruction and demonstrate its advantages on the tasks of 6D pose estimation and 3D mesh reconstruction. By providing informative gradients that can be used as a strong supervisory signal, we demonstrate the benefits of perturbed renderers to obtain more accurate solutions when compared to the state-of-the-art alternatives using smooth gradient approximations.
翻訳日:2021-10-19 14:30:33 公開日:2021-10-18
# 年齢層間での表情認識のためのドメイン一般化

Domain Generalisation for Apparent Emotional Facial Expression Recognition across Age-Groups ( http://arxiv.org/abs/2110.09168v1 )

ライセンス: Link先を確認
Rafael Poyiadzi, Jie Shen, Stavros Petridis, Yujiang Wang, and Maja Pantic(参考訳) 感情的な表情認識は近年,多くの研究が注目されている。 しかし、ほとんどのアプローチは年齢差を無視し、すべての年齢のジェネリックモデルを訓練する。 本研究では,異なる年齢群を用いた表情認識モデルの訓練効果について検討した。 そこで本研究では,異なる年齢層にまたがる顔画像から感情的表情認識の文脈における領域一般化について検討する。 まず、複数のドメイン一般化アルゴリズムをドメイン外一般化に基づいて比較し、クラス条件型ドメイン逆ニューラルネットワーク(cdann)アルゴリズムが最適な性能を有することを観察する。 次に,訓練中に用いた年齢集団の多様さと年齢集団の多様さが年齢集団の一般化に及ぼす影響について検討し,訓練対象年齢集団の増加が年齢集団の表情認識能力を高める傾向にあることを示した。 また,訓練中の年齢集団の排除は,近隣年齢集団のパフォーマンスに影響を及ぼす傾向がみられた。

Apparent emotional facial expression recognition has attracted a lot of research attention recently. However, the majority of approaches ignore age differences and train a generic model for all ages. In this work, we study the effect of using different age-groups for training apparent emotional facial expression recognition models. To this end, we study Domain Generalisation in the context of apparent emotional facial expression recognition from facial imagery across different age groups. We first compare several domain generalisation algorithms on the basis of out-of-domain-generalisation, and observe that the Class-Conditional Domain-Adversarial Neural Networks (CDANN) algorithm has the best performance. We then study the effect of variety and number of age-groups used during training on generalisation to unseen age-groups and observe that an increase in the number of training age-groups tends to increase the apparent emotional facial expression recognition performance on unseen age-groups. We also show that exclusion of an age-group during training tends to affect more the performance of the neighbouring age groups.
翻訳日:2021-10-19 14:30:08 公開日:2021-10-18
# 異なるサイズの半規則メッシュのためのメッシュ畳み込みオートエンコーダ

Mesh Convolutional Autoencoder for Semi-Regular Meshes of Different Sizes ( http://arxiv.org/abs/2110.09401v1 )

ライセンス: Link先を確認
Sara Hahner and Jochen Garcle(参考訳) 変形する3次元表面メッシュの解析は、低次元埋め込みを用いて基礎となるダイナミクスを可視化するため、オートエンコーダによって加速される。 しかし、最先端のメッシュ畳み込みオートエンコーダは、オートエンコーダが処理するすべての入力メッシュを固定接続する必要がある。 これはスペクトル畳み込み層を使用するか、メッシュ依存プーリング操作を使用するためである。 したがって、学習可能なデータセットの種類は限られており、学習した知識を同様の振る舞いを示す他のデータセットに転送することはできない。 これを解決するために、曲面の離散化を、局所的に正規接続を持ち、メッシュが階層的な半規則メッシュに変換する。 これにより、同じ空間畳み込みフィルタを局所的に適用し、任意の半規則メッシュに適用可能なプーリング演算子を定義することができる。 我々は、同じメッシュオートエンコーダを異なるデータセットに適用し、再構築エラーは、各メッシュに対して個別にトレーニングする必要がある最先端モデルのエラーよりも50%以上低い。 さらに,メッシュの異なるクラスでトレーニングされたオートエンコーダを用いて,未知のメッシュシーケンスの基盤となるダイナミクスを可視化する。

The analysis of deforming 3D surface meshes is accelerated by autoencoders since the low-dimensional embeddings can be used to visualize underlying dynamics. But, state-of-the-art mesh convolutional autoencoders require a fixed connectivity of all input meshes handled by the autoencoder. This is due to either the use of spectral convolutional layers or mesh dependent pooling operations. Therefore, the types of datasets that one can study are limited and the learned knowledge cannot be transferred to other datasets that exhibit similar behavior. To address this, we transform the discretization of the surfaces to semi-regular meshes that have a locally regular connectivity and whose meshing is hierarchical. This allows us to apply the same spatial convolutional filters to the local neighborhoods and to define a pooling operator that can be applied to every semi-regular mesh. We apply the same mesh autoencoder to different datasets and our reconstruction error is more than 50% lower than the error from state-of-the-art models, which have to be trained for every mesh separately. Additionally, we visualize the underlying dynamics of unseen mesh sequences with an autoencoder trained on different classes of meshes.
翻訳日:2021-10-19 14:29:53 公開日:2021-10-18
# (参考訳) スマートホーム環境における音声からの認知状態の測定

Measuring Cognitive Status from Speech in a Smart Home Environment ( http://arxiv.org/abs/2110.09421v1 )

ライセンス: CC BY 4.0
Kathleen C. Fraser and Majid Komeili(参考訳) 人口は高齢化しており、テクノロジーに精通している。 国連は、2050年までに世界の6人に1人が65歳以上になると予測している(2019年には11人に1人)。 一方、スマートフォンを持っている65人以上のアメリカ人の比率は2013年から2017年にかけて24ポイント上昇し、大多数は自宅にインターネットを持っている。 スマートデバイスとスマートホームテクノロジーは、人々の年齢、後年独立して生きる能力、そしてケアの輪との相互作用を変革する大きな可能性を秘めている。 認知的健康は、高齢者の自立と幸福の鍵となる要素であり、スマートホームは、継続的な、控えめな方法で認知状態を測定する多くの機会を提供する。 本稿では,認知的健康の計測手段としての音声に着目した。 既存の認知評価手法は、スマートホーム音声認識技術によって対処できるいくつかの制限に悩まされている。 興味のある読者のための有用なオープンソースソフトウェアツールボックスへのポインタを含む、音声からの認知状態測定に関する簡単なチュートリアルから始める。 次に,認知的健康度測定のための能動的および受動的スマートホーム音声センシングに関するパイロット研究から得られた予備的結果の概要を述べるとともに,この領域における次の仕事の波について,技術的および倫理的障壁を克服するための提言と挑戦をまとめる。

The population is aging, and becoming more tech-savvy. The United Nations predicts that by 2050, one in six people in the world will be over age 65 (up from one in 11 in 2019), and this increases to one in four in Europe and Northern America. Meanwhile, the proportion of American adults over 65 who own a smartphone has risen 24 percentage points from 2013-2017, and the majority have Internet in their homes. Smart devices and smart home technology have profound potential to transform how people age, their ability to live independently in later years, and their interactions with their circle of care. Cognitive health is a key component to independence and well-being in old age, and smart homes present many opportunities to measure cognitive status in a continuous, unobtrusive manner. In this article, we focus on speech as a measurement instrument for cognitive health. Existing methods of cognitive assessment suffer from a number of limitations that could be addressed through smart home speech sensing technologies. We begin with a brief tutorial on measuring cognitive status from speech, including some pointers to useful open-source software toolboxes for the interested reader. We then present an overview of the preliminary results from pilot studies on active and passive smart home speech sensing for the measurement of cognitive health, and conclude with some recommendations and challenge statements for the next wave of work in this area, to help overcome both technical and ethical barriers to success.
翻訳日:2021-10-19 14:29:07 公開日:2021-10-18
# ランダムバイナリネットワーク内のすべてを見つける

Finding Everything within Random Binary Networks ( http://arxiv.org/abs/2110.08996v1 )

ライセンス: Link先を確認
Kartik Sreenivasan, Shashank Rajput, Jy-yong Sohn and Dimitris Papailiopoulos(参考訳) ramanujan et al. (2020) による最近の研究は、十分に過小評価されたランダムニューラルネットワークには、いくつかの予測タスクで最先端の精度を達成する訓練されていないサブネットワークが含まれているという重要な実証的証拠を提供している。 理論的な研究の続行は、わずかに過度にパラメータ化されたニューラルネットワークが、一般的に使用される連続的な値のランダム初期化は、実際に任意のターゲットネットワークを近似するために切断できることを証明することによって、これらの発見を正当化する。 本研究では、これらのランダムな重みの振幅が重要でないことを示す。 任意の対象ネットワークは、対象ネットワークより広く深い多対数因子である2元$\{\pm1\}$重みのランダムネットワークを単に刈り取ることによって、任意の精度で近似可能であることが証明される。

A recent work by Ramanujan et al. (2020) provides significant empirical evidence that sufficiently overparameterized, random neural networks contain untrained subnetworks that achieve state-of-the-art accuracy on several predictive tasks. A follow-up line of theoretical work provides justification of these findings by proving that slightly overparameterized neural networks, with commonly used continuous-valued random initializations can indeed be pruned to approximate any target network. In this work, we show that the amplitude of those random weights does not even matter. We prove that any target network can be approximated up to arbitrary accuracy by simply pruning a random network of binary $\{\pm1\}$ weights that is only a polylogarithmic factor wider and deeper than the target network.
翻訳日:2021-10-19 14:14:46 公開日:2021-10-18
# 証拠蓄積クラスタリングを用いた耐雑音アンサンブル学習

Noise-Resilient Ensemble Learning using Evidence Accumulation Clustering ( http://arxiv.org/abs/2110.09212v1 )

ライセンス: Link先を確認
Ga\"elle Candel, David Naccache(参考訳) Ensemble Learningメソッドは同じタスクを実行する複数のアルゴリズムを組み合わせて、優れた品質のグループを構築する。 これらのシステムは、ネットワークの各ピアまたはマシンが1つのアルゴリズムをホストし、その結果をそのピアに伝達する分散セットアップによく適合する。 アンサンブル学習法は,アンサンブルの冗長性により,複数のピアが存在しないことで自然に回復する。 しかし、ネットワークが破損し、ピアの予測精度が変化し、アンサンブル品質に悪影響を及ぼす可能性がある。 本稿では,雑音耐性アンサンブル分類法を提案する。 このアプローチは、アンサンブルの分類に適応したエビデンス蓄積クラスタリングにインスパイアされている。 我々はこれを、4つのマルチクラスデータセット上の単純投票モデルと比較した。 モデルでは高い反発性を示し、非常に高い騒音下で予測を回復することができた。 さらに,本手法はエビデンス蓄積クラスタリングに基づくため,分類器と異なるラベル定義を組み合わせられるため,非常に柔軟な手法である。

Ensemble Learning methods combine multiple algorithms performing the same task to build a group with superior quality. These systems are well adapted to the distributed setup, where each peer or machine of the network hosts one algorithm and communicate its results to its peers. Ensemble learning methods are naturally resilient to the absence of several peers thanks to the ensemble redundancy. However, the network can be corrupted, altering the prediction accuracy of a peer, which has a deleterious effect on the ensemble quality. In this paper, we propose a noise-resilient ensemble classification method, which helps to improve accuracy and correct random errors. The approach is inspired by Evidence Accumulation Clustering , adapted to classification ensembles. We compared it to the naive voter model over four multi-class datasets. Our model showed a greater resilience, allowing us to recover prediction under a very high noise level. In addition as the method is based on the evidence accumulation clustering, our method is highly flexible as it can combines classifiers with different label definitions.
翻訳日:2021-10-19 14:12:45 公開日:2021-10-18
# イントラクションフリーグラフミックスアップ

Intrusion-Free Graph Mixup ( http://arxiv.org/abs/2110.09344v1 )

ライセンス: Link先を確認
Hongyu Guo and Yongyi Mao(参考訳) グラフニューラルネットワーク(GNN)の一般化を改善するために,単純かつ効果的な補間ベース正規化手法を提案する。 視覚とテキストのためのMixup regularizerの最近の進歩を利用して、ランダムなサンプルペアとそのラベルを補間して、トレーニング用の合成サンプルを作成する。 グリッド形式や線形列形式を持つ画像や自然文とは異なり、グラフは任意の構造とトポロジを持ち、グラフの意味情報において重要な役割を果たす。 したがって、グラフから1つのエッジを削除または追加しても、その意味を劇的に変えることができる。 これは、ランダムグラフペアを混合することで、自然に同じ構造であるが異なるラベルを持つグラフを作成でき、多様体の侵入問題を引き起こすため、グラフ入力の補間が非常に難しい。 この障害に対処するために,グラフ上のミックスアップのための最初の入力混合スキーマを提案する。 理論的には、混合戦略が混合グラフからソースグラフを回復できることを証明し、混合グラフが多様体侵入自由であることを保証する。 また,本手法はグラフ分類学習を効果的に規則化し,一般的なグラフ拡張ベースラインよりも優れた予測精度が得られることを示す。

We present a simple and yet effective interpolation-based regularization technique to improve the generalization of Graph Neural Networks (GNNs). We leverage the recent advances in Mixup regularizer for vision and text, where random sample pairs and their labels are interpolated to create synthetic samples for training. Unlike images or natural sentences, which embrace a grid or linear sequence format, graphs have arbitrary structure and topology, which play a vital role on the semantic information of a graph. Consequently, even simply deleting or adding one edge from a graph can dramatically change its semantic meanings. This makes interpolating graph inputs very challenging because mixing random graph pairs may naturally create graphs with identical structure but with different labels, causing the manifold intrusion issue. To cope with this obstacle, we propose the first input mixing schema for Mixup on graph. We theoretically prove that our mixing strategy can recover the source graphs from the mixed graph, and guarantees that the mixed graphs are manifold intrusion free. We also empirically show that our method can effectively regularize the graph classification learning, resulting in superior predictive accuracy over popular graph augmentation baselines.
翻訳日:2021-10-19 14:12:29 公開日:2021-10-18
# ハイパーグラフ世界モデルにおける最適経路を用いたゴール予測計画

Goal Agnostic Planning using Maximum Likelihood Paths in Hypergraph World Models ( http://arxiv.org/abs/2110.09442v1 )

ライセンス: Link先を確認
Christopher Robinson(参考訳) 本稿では,ハイパーグラフに基づく機械学習アルゴリズム,データ構造駆動型メンテナンス手法,およびDijkstraのアルゴリズムの確率的応用に基づく計画アルゴリズムを提案する。 これらを組み合わせて、従来の機械学習と従来の人工知能の両方の利点を組み込んだ、自律学習エージェントのための目標に依存しない自動計画エンジンを形成する。 このアルゴリズムが問題空間内の最適解、数学的に有界な学習性能を判定し、学習曲線、目標達成率、抽象と不確実性に対する応答の明確な予測を時間を通して解析する数学的モデルを提供する。 性能を検証するために,複合階層型ドメインを含む3つの古型計画問題に対してエージェントを適用し,分析で明らかな特性を示す経験的知見を強調する。

In this paper, we present a hypergraph--based machine learning algorithm, a datastructure--driven maintenance method, and a planning algorithm based on a probabilistic application of Dijkstra's algorithm. Together, these form a goal agnostic automated planning engine for an autonomous learning agent which incorporates beneficial properties of both classical Machine Learning and traditional Artificial Intelligence. We prove that the algorithm determines optimal solutions within the problem space, mathematically bound learning performance, and supply a mathematical model analyzing system state progression through time yielding explicit predictions for learning curves, goal achievement rates, and response to abstractions and uncertainty. To validate performance, we exhibit results from applying the agent to three archetypal planning problems, including composite hierarchical domains, and highlight empirical findings which illustrate properties elucidated in the analysis.
翻訳日:2021-10-19 14:12:09 公開日:2021-10-18
# 一言で言えば、人間はこれに求めた: 時間的仕様に従うための潜在目標

In a Nutshell, the Human Asked for This: Latent Goals for Following Temporal Specifications ( http://arxiv.org/abs/2110.09461v1 )

ライセンス: Link先を確認
Borja G. Le\'on, Murray Shanahan, Francesco Belardinelli(参考訳) 深部強化学習(DRL)を用いて,時間論理(TL)で表されるマルチタスク命令を満足させることを目標とするエージェント構築の問題に対処する。 近年の研究では、深層学習アーキテクチャがDRLエージェントにTLのOODタスクを解くための重要な特徴であることを示す。 しかし、パフォーマンスに関する研究はまだ限られている。 本研究では,tlで表される安全対応タスクを一般化する際に,リレーショナルレイヤやソフトアテンション機構,階層構成などの一般化機構を含む様々な最先端(sota)アーキテクチャを分析する。 最も重要なのは、人間の指示と環境からの現在の観察の両方から、エージェントに現在の目標の潜在表現を誘導する新しいディープラーニングアーキテクチャを提案することである。 提案した構成をSOTAアーキテクチャに適用すると,OOD環境で新しいタスクを実行する際の性能が大幅に向上することがわかった。

We address the problem of building agents whose goal is to satisfy out-of distribution (OOD) multi-task instructions expressed in temporal logic (TL) by using deep reinforcement learning (DRL). Recent works provided evidence that the deep learning architecture is a key feature when teaching a DRL agent to solve OOD tasks in TL. Yet, the studies on their performance are still limited. In this work, we analyse various state-of-the-art (SOTA) architectures that include generalisation mechanisms such as relational layers, the soft-attention mechanism, or hierarchical configurations, when generalising safety-aware tasks expressed in TL. Most importantly, we present a novel deep learning architecture that induces agents to generate latent representations of their current goal given both the human instruction and the current observation from the environment. We find that applying our proposed configuration to SOTA architectures yields significantly stronger performance when executing new tasks in OOD environments.
翻訳日:2021-10-19 14:11:53 公開日:2021-10-18
# (参考訳) sentimentarcs: sotaトランスフォーマーがナラティブアークを見つけるのに苦労する時系列の自己教師付き感情分析法

SentimentArcs: A Novel Method for Self-Supervised Sentiment Analysis of Time Series Shows SOTA Transformers Can Struggle Finding Narrative Arcs ( http://arxiv.org/abs/2110.09454v1 )

ライセンス: CC BY 4.0
Jon Chun(参考訳) SOTA TransformerとDNNの短いテキスト感情分類器はIMDBの映画レビューのような狭い領域で97%の精度を報告している。 従来のモデルがベンチマークを過小評価し、異なるまたはそれ以上のオープンドメインテキストに一般化するため、実世界のパフォーマンスは大幅に低下する。 本稿では、従来の教師付き感情分析の主な2つの制約、限定ラベル付きトレーニングデータセットと低一般化に対処する、新しい自己教師付き時系列感情分析手法であるSentimentArcsを紹介する。 多様なモデルの大規模なアンサンブルは、自己教師付き学習のための合成基底真理を提供する。 新しいメトリクスは、すべての可能なコーパスをまたいで徹底的な検索を共同で最適化する:モデルの組み合わせ。 コーパスとモデルの両方に対する共同最適化は一般化問題を解く。 単純な視覚化は物語の時間構造を利用するので、ドメインの専門家はトレンドを素早く見つけ、重要な特徴を特定し、数百の弧と数百万のデータポイントの異常に注意する。 我々の知る限り、これは時系列感情分析のための初めての自己指導的手法であり、長文物語における実世界のモデルパフォーマンスを直接比較した最大の調査である。

SOTA Transformer and DNN short text sentiment classifiers report over 97% accuracy on narrow domains like IMDB movie reviews. Real-world performance is significantly lower because traditional models overfit benchmarks and generalize poorly to different or more open domain texts. This paper introduces SentimentArcs, a new self-supervised time series sentiment analysis methodology that addresses the two main limitations of traditional supervised sentiment analysis: limited labeled training datasets and poor generalization. A large ensemble of diverse models provides a synthetic ground truth for self-supervised learning. Novel metrics jointly optimize an exhaustive search across every possible corpus:model combination. The joint optimization over both the corpus and model solves the generalization problem. Simple visualizations exploit the temporal structure in narratives so domain experts can quickly spot trends, identify key features, and note anomalies over hundreds of arcs and millions of data points. To our knowledge, this is the first self-supervised method for time series sentiment analysis and the largest survey directly comparing real-world model performance on long-form narratives.
翻訳日:2021-10-19 14:10:31 公開日:2021-10-18
# deep transfer learning & beyond - 情報システム研究におけるトランスフォーマー言語モデル

Deep Transfer Learning & Beyond: Transformer Language Models in Information Systems Research ( http://arxiv.org/abs/2110.08975v1 )

ライセンス: Link先を確認
Ross Gruetzemacher, David Paradice(参考訳) AIはビジネスを変革するための手段として広く考えられているが、この変革のスコープに対する現在の認識はミオピックかもしれない。 トランスフォーマー言語モデル(tlms)を含む自然言語処理の最近の進歩は、ai駆動のビジネスと社会的なトランスフォーメーションの潜在的な道のりを示しており、現在の予測範囲を超えている。 本稿では,この最近の進歩とテキストマイニングを活用した最近の文献について概説し,これらの新しい手法から研究がどのような効果を得られるのかを概説する。 既存のis文献のレビューから,サブオプティカルテキストマイニング技術が普及しており,さらに高度なtlmがテキストデータに関する研究に応用され,新たなis研究トピックが実現され,研究コミュニティにさらなる価値がもたらされることが明らかとなった。 これらの技術は、非常に強力なカスタムシステムの開発を容易にし、その性能が幅広いタスクやアプリケーションのために既存の方法よりも優れているため、これは可能である。 さらに、多言語言語モデルは、複数の言語の研究のために高品質なテキスト分析を可能にする。 また、言語ユーザインタフェースのような、将来の研究にさらに大きな可能性をもたらす、is研究の新たな道筋も特定しています。

AI is widely thought to be poised to transform business, yet current perceptions of the scope of this transformation may be myopic. Recent progress in natural language processing involving transformer language models (TLMs) offers a potential avenue for AI-driven business and societal transformation that is beyond the scope of what most currently foresee. We review this recent progress as well as recent literature utilizing text mining in top IS journals to develop an outline for how future IS research can benefit from these new techniques. Our review of existing IS literature reveals that suboptimal text mining techniques are prevalent and that the more advanced TLMs could be applied to enhance and increase IS research involving text data, and to enable new IS research topics, thus creating more value for the research community. This is possible because these techniques make it easier to develop very powerful custom systems and their performance is superior to existing methods for a wide range of tasks and applications. Further, multilingual language models make possible higher quality text analytics for research in multiple languages. We also identify new avenues for IS research, like language user interfaces, that may offer even greater potential for future IS research.
翻訳日:2021-10-19 14:07:23 公開日:2021-10-18
# hate withmohの廃止:ヒンディー語-英語コード切り換え言語におけるヘイトスピーチ検出

Ceasing hate withMoH: Hate Speech Detection in Hindi-English Code-Switched Language ( http://arxiv.org/abs/2110.09393v1 )

ライセンス: Link先を確認
Arushi Sharma, Anubha Kabra, Minni Jain(参考訳) ソーシャルメディアは、人々が世界中で意見を聞くための基盤になっている。 匿名性機能による自由感の高まりにより、オンラインでの社会的礼儀を無視し、深刻な結果に直面することなく他人を攻撃し、必然的にヘイトスピーチを広めることができる。 オンラインコンテンツをふるいにかけ、憎しみの拡散を相殺する現在の措置は十分ではない。 この要因の1つは、ソーシャルメディアにおける地域言語の普及と、言語フレキシブルなヘイトスピーチ検出器のpaucityである。 本研究はヒンズー語-英語コード切り換え言語におけるヘイトスピーチの分析に焦点を当てている。 本手法は,正確なテキスト表現を捉える変換手法を提案する。 データの構造を包含し、既存のアルゴリズムで使用するために、ヒンディー語で「愛」を意味するMoHまたはMap Only Hindiを開発した。 mohパイプラインは、ローマ語からデヴァナガリ・ヒンディー語への翻訳、ローマ語のヒンディー語の知識ベースから成り立っている。 最後に、微調整されたMultilingual BertとMulil言語モデルを採用している。 我々は,3つのデータセットの定量的実験を行い,精度,リコール,F1測定値を用いて評価を行った。 最初の実験では、MoHは古典的な機械学習モデルを用いてテキストのパフォーマンスをマッピングし、F1スコアの平均13%の増加を示した。 2つ目は、提案された作品のスコアとベースラインモデルのスコアを比較し、パフォーマンスを6%向上させる。 最後に,提案したMoH技術に,既存の翻訳ライブラリを用いて様々なデータシミュレーションを行った。 ここでは、MoHは残りの15%を上回ります。 以上の結果から,3つのデータセットにおける最先端スコアの大幅な改善が示された。

Social media has become a bedrock for people to voice their opinions worldwide. Due to the greater sense of freedom with the anonymity feature, it is possible to disregard social etiquette online and attack others without facing severe consequences, inevitably propagating hate speech. The current measures to sift the online content and offset the hatred spread do not go far enough. One factor contributing to this is the prevalence of regional languages in social media and the paucity of language flexible hate speech detectors. The proposed work focuses on analyzing hate speech in Hindi-English code-switched language. Our method explores transformation techniques to capture precise text representation. To contain the structure of data and yet use it with existing algorithms, we developed MoH or Map Only Hindi, which means "Love" in Hindi. MoH pipeline consists of language identification, Roman to Devanagari Hindi transliteration using a knowledge base of Roman Hindi words. Finally, it employs the fine-tuned Multilingual Bert and MuRIL language models. We conducted several quantitative experiment studies on three datasets and evaluated performance using Precision, Recall, and F1 metrics. The first experiment studies MoH mapped text's performance with classical machine learning models and shows an average increase of 13% in F1 scores. The second compares the proposed work's scores with those of the baseline models and offers a rise in performance by 6%. Finally, the third reaches the proposed MoH technique with various data simulations using the existing transliteration library. Here, MoH outperforms the rest by 15%. Our results demonstrate a significant improvement in the state-of-the-art scores on all three datasets.
翻訳日:2021-10-19 14:07:00 公開日:2021-10-18
# normformer: 余分な正規化によるトランスプレトレーニングの改善

NormFormer: Improved Transformer Pretraining with Extra Normalization ( http://arxiv.org/abs/2110.09456v1 )

ライセンス: Link先を確認
Sam Shleifer, Jason Weston, Myle Ott(参考訳) プリトレーニング中、プレレイヤーノルムトランスフォーマーは勾配等級のミスマッチに苦しめられ、初期層の勾配は後段の層よりもはるかに大きい。 提案するノルムフォーマーアーキテクチャでは,各レイヤに3つの正規化操作を付加する。自己注意後のレイヤノルム,自己注意アウトプットのヘッドワイズスケーリング,第1の完全接続層後のレイヤノルムである。 余分な操作は計算コスト(+0.4%のパラメータ増加)を伴いますが、125万から270億のパラメータを持つ因果的言語モデルとマスク付き言語モデルの両方において、事前トレーニングのパープレキシティとダウンストリームタスクパフォーマンスを改善します。 例えば、最強の1.3Bパラメーターベースラインの上にNormFormerを追加すると、同じ計算予算で同等のパープレキシティが24%速くなり、0.27パープレキシティがより良く収束する。 このモデルはGPT3-Large (1.3B)ゼロショット性能を60%高速化した。 マスク付き言語モデリングでは、normformerは平均で1.9%改善されている。 normformerモデルのトレーニングコードはfairseq https://github.com/pytorch/fairseq/tree/main/examples/normformerで利用可能である。

During pretraining, the Pre-LayerNorm transformer suffers from a gradient magnitude mismatch: gradients at early layers are much larger than at later layers. These issues can be alleviated by our proposed NormFormer architecture, which adds three normalization operations to each layer: a Layer Norm after self attention, head-wise scaling of self-attention outputs, and a Layer Norm after the first fully connected layer. The extra operations incur negligible compute cost (+0.4% parameter increase), but improve pretraining perplexity and downstream task performance for both causal and masked language models ranging from 125 Million to 2.7 Billion parameters. For example, adding NormFormer on top of our strongest 1.3B parameter baseline can reach equal perplexity 24% faster, or converge 0.27 perplexity better in the same compute budget. This model reaches GPT3-Large (1.3B) zero shot performance 60% faster. For masked language modeling, NormFormer improves fine-tuned GLUE performance by 1.9% on average. Code to train NormFormer models is available in fairseq https://github.com/pytorch/fairseq/tree/main/examples/normformer .
翻訳日:2021-10-19 14:06:33 公開日:2021-10-18
# 変圧器に基づくコード混合テキストにおける文脈ヘイト音声検出

Contextual Hate Speech Detection in Code Mixed Text using Transformer Based Approaches ( http://arxiv.org/abs/2110.09338v1 )

ライセンス: Link先を確認
Ravindra Nayak and Raviraj Joshi(参考訳) 過去、ソーシャルメディアプラットフォームは、人々がより広いオーディエンスとつながり、コミュニケーションするのを助けてきた。 しかし、これはまた、サイバーいじめの劇的な増加につながった。 ソーシャルメディアプラットフォームの健全性を維持するためにはヘイトスピーチの検出と抑制が不可欠である。 また、これらのプラットフォームでは複数の言語を含むコード混合テキストが頻繁に使用される。 そこで本稿では,廃Twitterのコード混在テキストにおけるヘイトスピーチ検出の自動化手法を提案する。 具体的には、英語とヒンディー語の混成テキストとトランスフォーマーベースのアプローチに焦点を当てる。 通常のアプローチでは、テキストを個別に分析するが、親ツイートの形でコンテンツテキストも活用する。 我々は,多言語BERTとIndic-BERTの性能を,シングルエンコーダとデュアルエンコーダ設定で評価する。 最初のアプローチは、セパレータトークンを使用してターゲットテキストとコンテキストテキストを結合し、BERTモデルから単一の表現を取得することである。 2つ目のアプローチは、2つのテキストを独立に双対 bert エンコーダを使ってエンコードし、対応する表現を平均化する。 独立表現を用いたデュアルエンコーダ方式により性能が向上することを示す。 また、簡単なアンサンブル法を用いてパフォーマンスをさらに向上する。 これらの手法を用いて,HASOC 2021 ICHCL符号混成データセットにおいて,最高のF1スコアの73.07%を達成できた。

In the recent past, social media platforms have helped people in connecting and communicating to a wider audience. But this has also led to a drastic increase in cyberbullying. It is essential to detect and curb hate speech to keep the sanity of social media platforms. Also, code mixed text containing more than one language is frequently used on these platforms. We, therefore, propose automated techniques for hate speech detection in code mixed text from scraped Twitter. We specifically focus on code mixed English-Hindi text and transformer-based approaches. While regular approaches analyze the text independently, we also make use of content text in the form of parent tweets. We try to evaluate the performances of multilingual BERT and Indic-BERT in single-encoder and dual-encoder settings. The first approach is to concatenate the target text and context text using a separator token and get a single representation from the BERT model. The second approach encodes the two texts independently using a dual BERT encoder and the corresponding representations are averaged. We show that the dual-encoder approach using independent representations yields better performance. We also employ simple ensemble methods to further improve the performance. Using these methods we were able to achieve the best F1 score of 73.07% on the HASOC 2021 ICHCL code mixed data set.
翻訳日:2021-10-19 13:59:46 公開日:2021-10-18
# StyleNeRF:高解像度画像合成のためのスタイルベース3Dアウェアジェネレータ

StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis ( http://arxiv.org/abs/2110.08985v1 )

ライセンス: Link先を確認
Jiatao Gu, Lingjie Liu, Peng Wang and Christian Theobalt(参考訳) 本研究では,非構造化2次元画像で訓練可能な高画質画像合成のための3次元認識生成モデルであるstylenerfを提案する。 既存のアプローチでは、細部で高精細な画像を合成できないか、3D非一貫性のアーティファクトを生成できない。 さらに、スタイル属性や明示的な3Dカメラのポーズをコントロールできないものも多い。 StyleNeRFは、前述の課題、すなわち高解像度画像生成のためのレンダリング効率の改善と3D整合性に取り組むために、ニューラルネットワーク(NeRF)をスタイルベースのジェネレータに統合する。 ボリュームレンダリングを行い、低解像度の特徴マップを作成し、2次元のアップサンプリングを段階的に適用し、最初の問題に対処する。 2次元アップサンプリングによる不整合を軽減するため,より優れたアップサンプリングと新たな正規化損失を含む複数の設計を提案する。 これらの設計により、StyleNeRFは高解像度画像をインタラクティブレートで合成でき、高品質な3D一貫性を保っている。 StyleNeRFはまた、カメラのポーズと異なるレベルのスタイルのコントロールを可能にし、見えないビューに一般化することができる。 ズームイン・アンド・アウト、スタイルミキシング、インバージョン、セマンティック編集など、困難なタスクもサポートする。

We propose StyleNeRF, a 3D-aware generative model for photo-realistic high-resolution image synthesis with high multi-view consistency, which can be trained on unstructured 2D images. Existing approaches either cannot synthesize high-resolution images with fine details or yield noticeable 3D-inconsistent artifacts. In addition, many of them lack control over style attributes and explicit 3D camera poses. StyleNeRF integrates the neural radiance field (NeRF) into a style-based generator to tackle the aforementioned challenges, i.e., improving rendering efficiency and 3D consistency for high-resolution image generation. We perform volume rendering only to produce a low-resolution feature map and progressively apply upsampling in 2D to address the first issue. To mitigate the inconsistencies caused by 2D upsampling, we propose multiple designs, including a better upsampler and a new regularization loss. With these designs, StyleNeRF can synthesize high-resolution images at interactive rates while preserving 3D consistency at high quality. StyleNeRF also enables control of camera poses and different levels of styles, which can generalize to unseen views. It also supports challenging tasks, including zoom-in and-out, style mixing, inversion, and semantic editing.
翻訳日:2021-10-19 13:59:28 公開日:2021-10-18
# 小学校理科の質問に対する回答のランク付け

Ranking Facts for Explaining Answers to Elementary Science Questions ( http://arxiv.org/abs/2110.09036v1 )

ライセンス: Link先を確認
Jennifer D'Souza and Isaiah Onando Mulang' and Soeren Auer(参考訳) 複数選択試験では、学生は通常4つの選択の中から1つの答えを選択し、なぜその選択をしたのかを説明することができる。 学生は自然言語の質問を理解するのが得意で、ドメインの知識に基づいて、様々な関連する事実にまたがって「点をつなげる」ことで簡単に質問の答えを推測することができる。 小学校理科の質問応答における自動推論を考慮し,人間公認事実から解答の説明を生成する新しい課題に対処する。 そこで本研究では,ドメインをターゲットとした手作り機能を活用した機能豊富なサポートベクトルマシンの実用的拡張性について検討する。 説明は、WorldTree corpus内の5000近い候補事実の人間による注釈付きセットから作成されます。 本研究の目的は, 事実候補に対する質問の正解に対する説明の有効事実について, より優れたマッチングを得ることである。 この目的のために、我々の機能は包括的言語的・意味的統一パラダイムを提供する。 機械学習の問題は事実の優先順序であり、ポイントワイド回帰とペアワイド学習を比較検討する。 本研究は,(1)2つの選好順序付け手法を体系的に比較するケーススタディ,(2)BERTに基づくリグレードモデルの変種を克服する実用的なアプローチ,(3)人間工学的特徴により,タスクの解釈可能な機械学習モデルとなっている。

In multiple-choice exams, students select one answer from among typically four choices and can explain why they made that particular choice. Students are good at understanding natural language questions and based on their domain knowledge can easily infer the question's answer by 'connecting the dots' across various pertinent facts. Considering automated reasoning for elementary science question answering, we address the novel task of generating explanations for answers from human-authored facts. For this, we examine the practically scalable framework of feature-rich support vector machines leveraging domain-targeted, hand-crafted features. Explanations are created from a human-annotated set of nearly 5,000 candidate facts in the WorldTree corpus. Our aim is to obtain better matches for valid facts of an explanation for the correct answer of a question over the available fact candidates. To this end, our features offer a comprehensive linguistic and semantic unification paradigm. The machine learning problem is the preference ordering of facts, for which we test pointwise regression versus pairwise learning-to-rank. Our contributions are: (1) a case study in which two preference ordering approaches are systematically compared; (2) it is a practically competent approach that can outperform some variants of BERT-based reranking models; and (3) the human-engineered features make it an interpretable machine learning model for the task.
翻訳日:2021-10-19 13:59:08 公開日:2021-10-18
# (参考訳) グラフ上のベルトラミ流と神経拡散

Beltrami Flow and Neural Diffusion on Graphs ( http://arxiv.org/abs/2110.09443v1 )

ライセンス: CC BY 4.0
Benjamin Paul Chamberlain, James Rowbottom, Davide Eynard, Francesco Di Giovanni, Xiaowen Dong, Michael M Bronstein(参考訳) 我々は,非ユークリッド拡散PDEである離散ベルトラミ流に基づく新しいグラフニューラルネットワークのクラスを提案する。 本モデルでは,ノードの特徴をグラフトポロジから導出した位置エンコーディングを補足し,ベルトラミ流によって共同で進化させ,連続的な特徴学習とトポロジの進化をもたらす。 得られたモデルは、多くの人気のあるグラフニューラルネットワークを一般化し、いくつかのベンチマークで最先端の結果を得る。

We propose a novel class of graph neural networks based on the discretised Beltrami flow, a non-Euclidean diffusion PDE. In our model, node features are supplemented with positional encodings derived from the graph topology and jointly evolved by the Beltrami flow, producing simultaneously continuous feature learning and topology evolution. The resulting model generalises many popular graph neural networks and achieves state-of-the-art results on several benchmarks.
翻訳日:2021-10-19 13:56:46 公開日:2021-10-18
# 世界モデルによる目標の発見と達成

Discovering and Achieving Goals via World Models ( http://arxiv.org/abs/2110.09514v1 )

ライセンス: Link先を確認
Russell Mendonca, Oleh Rybkin, Kostas Daniilidis, Danijar Hafner, Deepak Pathak(参考訳) 人工エージェントは、何の監督もなく複雑な視覚環境において、様々なタスクをいかにして解決するか? 我々はこの問題を,新たな目標の発見と,それらを確実に達成するための学習という2つの問題に分解する。 我々は、画像入力から世界モデルを学習し、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する、これらに対する統一的なソリューションであるLatent Explorer Achiever(LEXA)を紹介する。 以前に訪れた州に到達して探索する以前の方法とは異なり、探検家は予見によって目に見えない驚くべき州を発見することを計画している。 教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。 LEXAは、以前のベンチマークと4つの標準的なロボット操作とロコモーションドメインにまたがる合計40のテストタスクを備えた新しい挑戦的なベンチマークの両方において、教師なしの目標達成に対する従来のアプローチを大幅に上回っている。 LEXAはさらに、シーケンス内の複数のオブジェクトとの相互作用を必要とする目標を達成する。 最後に、LEXAのスケーラビリティと汎用性を示すために、4つの異なる環境にまたがる1つの汎用エージェントを訓練する。 コードとビデオ: https://orybkin.github.io/lexa/

How can artificial agents learn to solve many diverse tasks in complex visual environments in the absence of any supervision? We decompose this question into two problems: discovering new goals and learning to reliably achieve them. We introduce Latent Explorer Achiever (LEXA), a unified solution to these that learns a world model from image inputs and uses it to train an explorer and an achiever policy from imagined rollouts. Unlike prior methods that explore by reaching previously visited states, the explorer plans to discover unseen surprising states through foresight, which are then used as diverse targets for the achiever to practice. After the unsupervised phase, LEXA solves tasks specified as goal images zero-shot without any additional learning. LEXA substantially outperforms previous approaches to unsupervised goal-reaching, both on prior benchmarks and on a new challenging benchmark with a total of 40 test tasks spanning across four standard robotic manipulation and locomotion domains. LEXA further achieves goals that require interacting with multiple objects in sequence. Finally, to demonstrate the scalability and generality of LEXA, we train a single general agent across four distinct environments. Code and videos at https://orybkin.github.io/lexa/
翻訳日:2021-10-19 13:31:14 公開日:2021-10-18
# 私の顔で私を判断しない : 非同期求人ビデオインタビューにおけるマルチモーダルニューラル表現からの感性情報除去のための間接的敵対的アプローチ

Don't Judge Me by My Face : An Indirect Adversarial Approach to Remove Sensitive Information From Multimodal Neural Representation in Asynchronous Job Video Interviews ( http://arxiv.org/abs/2110.09424v1 )

ライセンス: Link先を確認
L\'eo Hemamou, Arthur Guillon, Jean-Claude Martin and Chlo\'e Clavel(参考訳) se of machine learning for automatic analysis of job interview videoは最近、関心が高まっている。 候補者の性別や民族性などのセンシティブな情報に関する公正なアウトプットの主張にもかかわらず、現在のアプローチでは、偏見のない意思決定の証拠となることはめったにない。 近年,ニューラルネットワークの潜在表現からセンシティブな情報を効果的に除去する方法が実証されている。 しかし、これらの方法は明確にラベル付けされた保護された変数(例えば、性別)の使用に依存しており、一部の国(例えばフランス)でのリクルートの文脈では収集できない。 本稿では,ニューラルネットワークの潜伏表現からセンシティブな情報を取り除き,センシティブな変数を収集する必要がない新しい敵対的手法を提案する。 インタビューのほんの数フレームだけを使用して、モデルの内層における求人面接に関連する候補者の顔を見つけることができないようにモデルを訓練する。 これにより、これらのレイヤから関連するプライベートな情報を削除できます。 公開データセットの標準ベースラインに対する我々のアプローチと、性別や民族のアノテーションを比較し、本ネットワークからセンシティブな情報を効果的に除去することを示した。 さらに,本手法は,ビデオジョブ面接の文脈において,マルチモーダルフェア表現を得るための敵手法を初めて応用した手法である。 要旨は,求職者の対等性を考慮した面接ビデオの自動処理方式の公平性の向上をめざしたものである。

se of machine learning for automatic analysis of job interview videos has recently seen increased interest. Despite claims of fair output regarding sensitive information such as gender or ethnicity of the candidates, the current approaches rarely provide proof of unbiased decision-making, or that sensitive information is not used. Recently, adversarial methods have been proved to effectively remove sensitive information from the latent representation of neural networks. However, these methods rely on the use of explicitly labeled protected variables (e.g. gender), which cannot be collected in the context of recruiting in some countries (e.g. France). In this article, we propose a new adversarial approach to remove sensitive information from the latent representation of neural networks without the need to collect any sensitive variable. Using only a few frames of the interview, we train our model to not be able to find the face of the candidate related to the job interview in the inner layers of the model. This, in turn, allows us to remove relevant private information from these layers. Comparing our approach to a standard baseline on a public dataset with gender and ethnicity annotations, we show that it effectively removes sensitive information from the main network. Moreover, to the best of our knowledge, this is the first application of adversarial techniques for obtaining a multimodal fair representation in the context of video job interviews. In summary, our contributions aim at improving fairness of the upcoming automatic systems processing videos of job interviews for equality in job selection.
翻訳日:2021-10-19 13:28:08 公開日:2021-10-18
# アクティブ機械学習による品質保証--自動車産業におけるバーチャルカーレンダリングを事例として

Utilizing Active Machine Learning for Quality Assurance: A Case Study of Virtual Car Renderings in the Automotive Industry ( http://arxiv.org/abs/2110.09023v1 )

ライセンス: Link先を確認
Patrick Hemmer, Niklas K\"uhl, Jakob Sch\"offer(参考訳) 自動車モデルのコンピュータ生成画像は、自動車メーカーの広告コンセプトに欠かせない部分となっている。 例えば、自動車設定装置で使用されており、顧客は自分の好みに応じてオンラインで車を設定することができる。 しかし、車種が複雑化しているため、人間主導の品質保証は大量視覚検査に追随する課題に直面している。 多くの視覚検査タスクへの機械学習の適用は大きな成功を収めているが、大規模なラベル付きデータセットの必要性は、実際にこのようなシステムを使用する上での中心的な障壁である。 本稿では,性能を損なうことなく仮想車レンダリングの欠陥を特定するためにラベル付きインスタンスを著しく少なくする,アクティブな機械学習ベースの品質保証システムを提案する。 このシステムをドイツの自動車メーカーに導入することにより、起動困難を克服し、検査工程の効率を向上し、経済的優位性を実現することができる。

Computer-generated imagery of car models has become an indispensable part of car manufacturers' advertisement concepts. They are for instance used in car configurators to offer customers the possibility to configure their car online according to their personal preferences. However, human-led quality assurance faces the challenge to keep up with high-volume visual inspections due to the car models' increasing complexity. Even though the application of machine learning to many visual inspection tasks has demonstrated great success, its need for large labeled data sets remains a central barrier to using such systems in practice. In this paper, we propose an active machine learning-based quality assurance system that requires significantly fewer labeled instances to identify defective virtual car renderings without compromising performance. By employing our system at a German automotive manufacturer, start-up difficulties can be overcome, the inspection process efficiency can be increased, and thus economic advantages can be realized.
翻訳日:2021-10-19 13:26:15 公開日:2021-10-18
# ニューロシンボリックフォワード推論

Neuro-Symbolic Forward Reasoning ( http://arxiv.org/abs/2110.09383v1 )

ライセンス: Link先を確認
Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting(参考訳) 推論は人間の知能の重要な部分であり、人工知能研究において長年の目標であった。 近年のディープラーニングの成功により、深層学習システムによる推論、すなわちニューロシンボリックAIが主要な関心分野となっている。 本稿では,一階述語論理を用いた可変フォワードチェインを用いたタスク推論手法であるNuro-Symbolic Forward Reasoner (NSFR)を提案する。 重要なのは、微分可能な前方連鎖推論とオブジェクト中心(深層)学習を組み合わせることだ。 微分可能前方連鎖推論は論理的含意をスムーズに計算し、すなわち与えられた事実や規則から微分可能な方法で新しい事実を推論する。 オブジェクト中心学習アプローチは、オブジェクトの観点から生の入力を表現に分解する。 これにより、生入力から前方連鎖推論を実行するための一貫したフレームワークを提供することができます。 NSFRは生の入力を対象中心の表現に分解し、確率的基底原子に変換し、最終的に重み付けされた推論規則を用いて微分可能な前方鎖推論を行う。 我々は,オブジェクト中心推論データセット,2次元カンディンスキーパターン,および3次元clevr-hansに関する包括的評価を行い,提案手法の有効性と利点を示した。

Reasoning is an essential part of human intelligence and thus has been a long-standing goal in artificial intelligence research. With the recent success of deep learning, incorporating reasoning with deep learning systems, i.e., neuro-symbolic AI has become a major field of interest. We propose the Neuro-Symbolic Forward Reasoner (NSFR), a new approach for reasoning tasks taking advantage of differentiable forward-chaining using first-order logic. The key idea is to combine differentiable forward-chaining reasoning with object-centric (deep) learning. Differentiable forward-chaining reasoning computes logical entailments smoothly, i.e., it deduces new facts from given facts and rules in a differentiable manner. The object-centric learning approach factorizes raw inputs into representations in terms of objects. Thus, it allows us to provide a consistent framework to perform the forward-chaining inference from raw inputs. NSFR factorizes the raw inputs into the object-centric representations, converts them into probabilistic ground atoms, and finally performs differentiable forward-chaining inference using weighted rules for inference. Our comprehensive experimental evaluations on object-centric reasoning data sets, 2D Kandinsky patterns and 3D CLEVR-Hans, and a variety of tasks show the effectiveness and advantage of our approach.
翻訳日:2021-10-19 13:26:01 公開日:2021-10-18
# TLDR:次元化のための双対学習

TLDR: Twin Learning for Dimensionality Reduction ( http://arxiv.org/abs/2110.09455v1 )

ライセンス: Link先を確認
Yannis Kalantidis, Carlos Lassance, Jon Almazan, Diane Larlus(参考訳) 次元性還元法は、初期空間のいくつかの性質、通常「近傍」の概念が保存されている低次元空間を学習する教師なしのアプローチである。 それらは、視覚化、圧縮、インデックス化、検索など、さまざまなタスクの重要なコンポーネントである。 全く異なる目的のために、自己教師付き視覚表現学習は、手作り画像変換のセットなど、人工的に生成された歪みに不変性をエンコードするモデルを学習することによって、伝達可能な表現関数を生成することが示されている。 大規模なk-NNグラフや複雑な最適化ソルバ上での伝搬を必要とする多様体学習法とは異なり、自己教師型学習アプローチはよりシンプルでスケーラブルな学習フレームワークに依存している。 本稿では,この2つのアプローチを,多様体学習の角度から統一し,バーロウ双生児の単純自己教師付き学習フレームワークを手による歪みの適切なセットを定義するのが困難か不可能かの条件に移植する汎用入力空間の次元性低減法tldrを提案する。 学習セットからペアを構築するために最寄りの近傍を用いて,自己教師付き文献から借用した冗長性低減損失を用いて,ペア間で不変な表現を生成するエンコーダを学習する。 TLDRは、簡単に実装し、訓練し、幅広い適用性を持つ方法であり、高度に近似できるオフライン近傍の計算ステップと、対比、固有分解、および煩雑な最適化解決のために負のサンプルをマイニングする必要のない簡単な学習プロセスから構成される。 128次元のPCAをTLDRに置き換えることで、GeM-APの性能を4%向上させ、その性能を16倍の次元で維持することができる。

Dimensionality reduction methods are unsupervised approaches which learn low-dimensional spaces where some properties of the initial space, typically the notion of "neighborhood", are preserved. They are a crucial component of diverse tasks like visualization, compression, indexing, and retrieval. Aiming for a totally different goal, self-supervised visual representation learning has been shown to produce transferable representation functions by learning models that encode invariance to artificially created distortions, e.g. a set of hand-crafted image transformations. Unlike manifold learning methods that usually require propagation on large k-NN graphs or complicated optimization solvers, self-supervised learning approaches rely on simpler and more scalable frameworks for learning. In this paper, we unify these two families of approaches from the angle of manifold learning and propose TLDR, a dimensionality reduction method for generic input spaces that is porting the simple self-supervised learning framework of Barlow Twins to a setting where it is hard or impossible to define an appropriate set of distortions by hand. We propose to use nearest neighbors to build pairs from a training set and a redundancy reduction loss borrowed from the self-supervised literature to learn an encoder that produces representations invariant across such pairs. TLDR is a method that is simple, easy to implement and train, and of broad applicability; it consists of an offline nearest neighbor computation step that can be highly approximated, and a straightforward learning process that does not require mining negative samples to contrast, eigendecompositions, or cumbersome optimization solvers. By replacing PCA with TLDR, we are able to increase the performance of GeM-AP by 4% mAP for 128 dimensions, and to retain its performance with 16x fewer dimensions.
翻訳日:2021-10-19 13:25:00 公開日:2021-10-18
# 最適等式分類器の学習

Learning Optimal Conformal Classifiers ( http://arxiv.org/abs/2110.09192v1 )

ライセンス: Link先を確認
David Stutz, Krishnamurthy (Dj) Dvijotham, Ali Taylan Cemgil, Arnaud Doucet(参考訳) 現代のディープラーニングベースの分類器は、テストデータに対して非常に高い精度を示すが、特に医療診断などの高度なAIアプリケーションにおいて、安全なデプロイメントを保証するには不十分である。 通常、予測は信頼できる不確実性推定や正式な保証なしで得られる。 整形予測(CP)は、分類器の確率推定を用いて、真のクラスを含む信頼度をユーザ特定確率で予測する。 しかし、訓練後の別の処理ステップとしてCPを使用すると、基礎となるモデルが信頼セットの予測に適応しない。 そこで本稿では,コンフォーマルラッパーを用いたトレーニングモデルを用いて,トレーニング中のcpを識別する手法について検討する。 コンフォメーショントレーニング (ConfTr) では, トレーニング中のミニバッチ上でのコンフォメーションの「シミュレート」を行う。 平均信頼度セットサイズ(非効率性)を小さくすることで,最新のCP手法よりも高い精度で分類できることを示す。 さらに、テスト時に予測される信頼セットを"形作る"ことが可能であり、標準CPでは難しい。 いくつかのデータセットを用いた実験では、ConfTrはクラス間で非効率性がどのように分散されているかに影響を与え、CPの保証を維持しながら、含んでいるクラスの観点から信頼度セットの構成を導くことができる。

Modern deep learning based classifiers show very high accuracy on test data but this does not provide sufficient guarantees for safe deployment, especially in high-stake AI applications such as medical diagnosis. Usually, predictions are obtained without a reliable uncertainty estimate or a formal guarantee. Conformal prediction (CP) addresses these issues by using the classifier's probability estimates to predict confidence sets containing the true class with a user-specified probability. However, using CP as a separate processing step after training prevents the underlying model from adapting to the prediction of confidence sets. Thus, this paper explores strategies to differentiate through CP during training with the goal of training model with the conformal wrapper end-to-end. In our approach, conformal training (ConfTr), we specifically "simulate" conformalization on mini-batches during training. We show that CT outperforms state-of-the-art CP methods for classification by reducing the average confidence set size (inefficiency). Moreover, it allows to "shape" the confidence sets predicted at test time, which is difficult for standard CP. On experiments with several datasets, we show ConfTr can influence how inefficiency is distributed across classes, or guide the composition of confidence sets in terms of the included classes, while retaining the guarantees offered by CP.
翻訳日:2021-10-19 13:23:48 公開日:2021-10-18
# 自己監督型表現学習 : 導入,進歩,課題

Self-Supervised Representation Learning: Introduction, Advances and Challenges ( http://arxiv.org/abs/2110.09327v1 )

ライセンス: Link先を確認
Linus Ericsson, Henry Gouk, Chen Change Loy, and Timothy M. Hospedales(参考訳) 自己教師付き表現学習手法は,大規模な注釈付きデータセットを必要とせず,強力な機能学習を提供することを目的としている。 これらの手法は近年急速に進歩し、画像、ビデオ、音声、テキスト、グラフなど、さまざまなデータモダリティにわたって、完全に教師付き事前学習の選択肢を上回っている。 本稿では、この活気ある領域について、鍵となる概念、アプローチの4つの主要なファミリーと関連する技術の状態、そして、データの多様性に自己監督手法を適用する方法について紹介する。 さらに,ワークフローや表現転送性,計算コストといった実用的考察についても論じる。 最後に, 将来の作業に豊かな基盤を提供する分野における, オープンな課題について調査する。

Self-supervised representation learning methods aim to provide powerful deep feature learning without the requirement of large annotated datasets, thus alleviating the annotation bottleneck that is one of the main barriers to practical deployment of deep learning today. These methods have advanced rapidly in recent years, with their efficacy approaching and sometimes surpassing fully supervised pre-training alternatives across a variety of data modalities including image, video, sound, text and graphs. This article introduces this vibrant area including key concepts, the four main families of approach and associated state of the art, and how self-supervised methods are applied to diverse modalities of data. We further discuss practical considerations including workflows, representation transferability, and compute cost. Finally, we survey the major open challenges in the field that provide fertile ground for future work.
翻訳日:2021-10-19 13:23:27 公開日:2021-10-18
# 生成データによるロバスト性の向上

Improving Robustness using Generated Data ( http://arxiv.org/abs/2110.09468v1 )

ライセンス: Link先を確認
Sven Gowal, Sylvestre-Alvise Rebuffi, Olivia Wiles, Florian Stimberg, Dan Andrei Calian, Timothy Mann(参考訳) 最近の研究は、堅牢なトレーニングは標準分類に必要なデータセットよりもはるかに大きなデータセットを必要とすると主張している。 CIFAR-10とCIFAR-100では、オリジナルのトレーニングセットのデータのみに基づいてトレーニングされたモデルと、"80 Million Tiny Images"データセット(TI-80M)から抽出された追加データでトレーニングされたモデルの間に、大きな堅牢な精度のギャップが生じる。 本稿では,オリジナルトレーニングセットのみにトレーニングされた生成モデルを用いて,オリジナルトレーニングセットのサイズを人工的に向上し,対向ロバスト性を向上させる方法について検討する。 生成したデータを追加することでロバスト性を向上できる十分な条件を特定し、実データを追加するモデルに対するロバスト-精度ギャップを著しく低減できることを示す。 驚くべきことに、非現実的ランダムデータ(ガウスサンプリングによって生成される)を付加してもロバスト性は向上する。 我々は, CIFAR-10, CIFAR-100, SVHN, TinyImageNetにおける, $\ell_\infty$ と $\ell_2$ の標準有界摂動に対して, $\epsilon = 8/255$ と $\epsilon = 128/255$ をそれぞれ評価した。 従来の最先端手法に比べてロバスト精度が大幅に向上した。 標準値$\ell_\infty$ $\epsilon = 8/255$に対して、我々のモデルはCIFAR-10とCIFAR-100でそれぞれ66.10%と33.49%の堅牢な精度を達成する(+8.96%、+3.29%)。 CIFAR-10(+3.81%)では、$\ell_2$ 標準束縛されたサイズ $\epsilon = 128/255$に対して、我々のモデルは78.31%に達する。 これらの結果は、外部データを使用する以前の作業の多くを上回ります。

Recent work argues that robust training requires substantially larger datasets than those required for standard classification. On CIFAR-10 and CIFAR-100, this translates into a sizable robust-accuracy gap between models trained solely on data from the original training set and those trained with additional data extracted from the "80 Million Tiny Images" dataset (TI-80M). In this paper, we explore how generative models trained solely on the original training set can be leveraged to artificially increase the size of the original training set and improve adversarial robustness to $\ell_p$ norm-bounded perturbations. We identify the sufficient conditions under which incorporating additional generated data can improve robustness, and demonstrate that it is possible to significantly reduce the robust-accuracy gap to models trained with additional real data. Surprisingly, we even show that even the addition of non-realistic random data (generated by Gaussian sampling) can improve robustness. We evaluate our approach on CIFAR-10, CIFAR-100, SVHN and TinyImageNet against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $\epsilon = 8/255$ and $\epsilon = 128/255$, respectively. We show large absolute improvements in robust accuracy compared to previous state-of-the-art methods. Against $\ell_\infty$ norm-bounded perturbations of size $\epsilon = 8/255$, our models achieve 66.10% and 33.49% robust accuracy on CIFAR-10 and CIFAR-100, respectively (improving upon the state-of-the-art by +8.96% and +3.29%). Against $\ell_2$ norm-bounded perturbations of size $\epsilon = 128/255$, our model achieves 78.31% on CIFAR-10 (+3.81%). These results beat most prior works that use external data.
翻訳日:2021-10-19 13:23:12 公開日:2021-10-18
# (参考訳) P-Tuning v2: Prompt Tuningは、スケールやタスク全体にわたって微調整できる

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks ( http://arxiv.org/abs/2110.07602v2 )

ライセンス: CC BY 4.0
Xiao Liu, Kaixuan Ji, Yicheng Fu, Zhengxiao Du, Zhilin Yang, Jie Tang(参考訳) 言語モデルで連続的なプロンプトのみをチューニングするプロンプトチューニングは、トレーニング時のタスク単位のストレージとメモリ使用量を大幅に削減する。 しかし、NLUの文脈では、先行研究により、プロンプトチューニングは通常のサイズの事前訓練モデルではうまく機能しないことが明らかになった。 また,既存のプロンプトチューニング手法ではハードシーケンスタグ付けタスクを処理できないこと,普遍性の欠如が確認された。 本稿では,最適化されたプロンプトチューニングが,幅広いモデルスケールとnluタスクにおいて普遍的に有効であることを示す。 0.1\%-3\%のチューニングパラメータしか持たないが、微調整の性能に合致する。 p-tuning v2 は新しい手法ではなく、nlu に最適化・適合したプレフィックスチューニング \cite{li2021prefix} のバージョンである。 P-Tuning v2の普遍性と単純性を考えると、これはファインチューニングの代替となり、将来の研究の強力なベースラインとなると信じている。

Prompt tuning, which only tunes continuous prompts with a frozen language model, substantially reduces per-task storage and memory usage at training. However, in the context of NLU, prior work reveals that prompt tuning does not perform well for normal-sized pre-trained models. We also find that existing methods of prompt tuning cannot handle hard sequence tagging tasks, indicating a lack of universality. We present a novel empirical finding that properly optimized prompt tuning can be universally effective across a wide range of model scales and NLU tasks. It matches the performance of fine-tuning while having only 0.1\%-3\% tuned parameters. Our method P-Tuning v2 is not a new method, but a version of prefix-tuning \cite{li2021prefix} optimized and adapted for NLU. Given the universality and simplicity of P-Tuning v2, we believe it can serve as an alternative to fine-tuning and a strong baseline for future research.
翻訳日:2021-10-19 12:59:40 公開日:2021-10-18
# (参考訳) NeRS: 野生でのスパークビュー3次元再構成のためのニューラルリフレクタンス表面

NeRS: Neural Reflectance Surfaces for Sparse-view 3D Reconstruction in the Wild ( http://arxiv.org/abs/2110.07604v3 )

ライセンス: CC BY-SA 4.0
Jason Y. Zhang, Gengshan Yang, Shubham Tulsiani, Deva Ramanan(参考訳) 最近の歴史では、Neural Radiance Fields (NeRF)を通じて一般化された幾何学と放射の暗黙的な表現を探求する研究が著しく増えている。 このような作品は、基本的には(単純に)占有力の体積表現に基づいており、半透明な物体や大気汚染物質を含む多様なシーン構造をモデル化することができる。 しかし、現実世界のシーンの大部分はよく定義された表面で構成されているため、ニューラルリフレクタンス・サーフェス(Neural Reflectance Surfaces, NeRS)と呼ばれる暗黙的なモデルの表面アナログを導入する。 NeRSは、球に微分される閉じた表面の神経形状の表現を学び、水密な再構成を保証する。 さらに重要なことは、表面のパラメータ化により、NeRSは視野依存的な外観を環境照明、拡散色(アルベド)、および特異な「輝き」に分解する双方向表面反射関数(BRDF)を学習することができることである。 最後に、人工的なシーンで結果を図示したり、ラボ内で操作する代わりに、オンラインマーケットプレースから商品を販売するために、マルチビュー画像の新しいデータセットを組み立てます。 このような「野生の」マルチビュー画像セットは、未知/粗いカメラ推定を持つ少数のビューを含む多くの課題を提起する。 このようなデータから学習可能な表面ベースニューラル再構成は,体積的ニューラルレンダリングに基づく再構成よりも優れていることを示す。 私たちはNeRSが、現実世界の形状、素材、照明のスケーラブルで高品質なライブラリを構築するための第一歩になることを期待しています。 コードとビデオビジュアライゼーションを備えたプロジェクトページはhttps://jasonyzhang.com/ners.com/nersにある。

Recent history has seen a tremendous growth of work exploring implicit representations of geometry and radiance, popularized through Neural Radiance Fields (NeRF). Such works are fundamentally based on a (implicit) volumetric representation of occupancy, allowing them to model diverse scene structure including translucent objects and atmospheric obscurants. But because the vast majority of real-world scenes are composed of well-defined surfaces, we introduce a surface analog of such implicit models called Neural Reflectance Surfaces (NeRS). NeRS learns a neural shape representation of a closed surface that is diffeomorphic to a sphere, guaranteeing water-tight reconstructions. Even more importantly, surface parameterizations allow NeRS to learn (neural) bidirectional surface reflectance functions (BRDFs) that factorize view-dependent appearance into environmental illumination, diffuse color (albedo), and specular "shininess." Finally, rather than illustrating our results on synthetic scenes or controlled in-the-lab capture, we assemble a novel dataset of multi-view images from online marketplaces for selling goods. Such "in-the-wild" multi-view image sets pose a number of challenges, including a small number of views with unknown/rough camera estimates. We demonstrate that surface-based neural reconstructions enable learning from such data, outperforming volumetric neural rendering-based reconstructions. We hope that NeRS serves as a first step toward building scalable, high-quality libraries of real-world shape, materials, and illumination. The project page with code and video visualizations can be found at https://jasonyzhang.com/ners.
翻訳日:2021-10-19 12:43:05 公開日:2021-10-18
# (参考訳) 無注意キーワードスポッティング

Attention-Free Keyword Spotting ( http://arxiv.org/abs/2110.07749v2 )

ライセンス: CC BY-SA 4.0
Mashrur M. Morshed, Ahmad Omar Ahsan(参考訳) 現在、注意に基づくモデルはキーワードスポッティング問題領域で大きな成功を収めている。 しかし,近年の深層学習の進歩を踏まえて,自己認識が音声キーワード認識において本当に不可能かどうかが問題となっている。 そこで我々は,キーワードスポッティングタスクにおいて,視覚タスクにおけるトランスフォーマの代替品として従来示されていたゲート型mlpの使用法を検討する。 我々は,google speech command v2-35データセットに対する我々のアプローチを検証し,自己注意の明確な使用なしに,最先端技術に匹敵するパフォーマンスを得ることができることを示す。

Till now, attention-based models have been used with great success in the keyword spotting problem domain. However, in light of recent advances in deep learning, the question arises whether self-attention is truly irreplaceable for recognizing speech keywords. We thus explore the usage of gated MLPs -- previously shown to be alternatives to transformers in vision tasks -- for the keyword spotting task. We verify our approach on the Google Speech Commands V2-35 dataset and show that it is possible to obtain performance comparable to the state of the art without any apparent usage of self-attention.
翻訳日:2021-10-19 12:21:56 公開日:2021-10-18
# (参考訳) 未知の対応による低ランク行列復元

Low-rank Matrix Recovery With Unknown Correspondence ( http://arxiv.org/abs/2110.07959v2 )

ライセンス: CC BY 4.0
Zhiwei Tang, Tsung-Hui Chang, Xiaojing Ye, Hongyuan Zha(参考訳) 観測行列が $M_o=[A,\tilde P B]$ ならば、$\tilde P$ は未知の置換行列であり、基礎となる行列が $M=[A,B]$ である。 このような問題は、例えばプライバシー上の懸念から、異種データが利用され、それらの間の対応が不明な多くのアプリケーションで一般的に発生する。 我々は、M$の回復のために証明不可能な非漸近誤差を伴い、M$の適切な低ランク条件下で核ノルム最小化問題を解くことで、M$を回復可能であることを示す。 我々は,この組合せ問題を連続的ミニマックス最適化問題として再キャストし,max-oracle による近位勾配を用いて解くアルゴリズム $\text{m}^3\text{o}$ (min-max 最適化による行列リカバリ)を提案する。 また、$\text{m}^3\text{o}$ は、$m_o$ のエントリが不足しているより一般的なシナリオにも適用できます。 シミュレーションデータ、MovieLens 100Kデータセット、Yale Bデータベースの実験によると、$\text{M}^3\text{O}$は、いくつかのベースラインで最先端のパフォーマンスを実現し、高精度で地上の真実対応を回復できる。

We study a matrix recovery problem with unknown correspondence: given the observation matrix $M_o=[A,\tilde P B]$, where $\tilde P$ is an unknown permutation matrix, we aim to recover the underlying matrix $M=[A,B]$. Such problem commonly arises in many applications where heterogeneous data are utilized and the correspondence among them are unknown, e.g., due to privacy concerns. We show that it is possible to recover $M$ via solving a nuclear norm minimization problem under a proper low-rank condition on $M$, with provable non-asymptotic error bound for the recovery of $M$. We propose an algorithm, $\text{M}^3\text{O}$ (Matrix recovery via Min-Max Optimization) which recasts this combinatorial problem as a continuous minimax optimization problem and solves it by proximal gradient with a Max-Oracle. $\text{M}^3\text{O}$ can also be applied to a more general scenario where we have missing entries in $M_o$ and multiple groups of data with distinct unknown correspondence. Experiments on simulated data, the MovieLens 100K dataset and Yale B database show that $\text{M}^3\text{O}$ achieves state-of-the-art performance over several baselines and can recover the ground-truth correspondence with high accuracy.
翻訳日:2021-10-19 12:11:43 公開日:2021-10-18
# PTQ-SL: サブレイヤワイズ後量子化の探索

PTQ-SL: Exploring the Sub-layerwise Post-training Quantization ( http://arxiv.org/abs/2110.07809v2 )

ライセンス: Link先を確認
Zhihang Yuan, Yiqi Chen, Chenhao Xue, Chenguang Zhang, Qiankun Wang, Guangyu Sun(参考訳) ネットワーク量子化は畳み込みニューラルネットワークを圧縮する強力な技術である。 量子化の粒度は、ネットワーク量子化の性能に影響を与える重みのスケーリング要素を共有する方法を決定する。 既存のアプローチのほとんどは、畳み込み層の量子化のために層状またはチャネル的にスケーリング係数を共有する。 チャネルワイド量子化と層ワイド量子化は様々な用途で広く利用されている。 しかし、他の量子化の粒度はまれである。 本稿では,複数の入力チャネルと出力チャネルにまたがるスケーリング係数を共有するサブレイヤの粒度について検討する。 サブレイヤー粒度(ptq-sl)における高効率後トレーニング量子化法を提案する。 次に,様々な粒度を体系的に実験し,量子化ニューラルネットワークの予測精度と粒度との相関が強いことを観測した。 さらに,チャネルの位置の調整により,サブ層量子化の性能が向上することが判明した。 そこで本研究では,サブ層量子化のためのチャネルを並べ替える手法を提案する。 実験により、適切なチャネル再順序付けを伴うサブレイヤーワイズ量子化がチャネルワイズ量子化を上回ることを証明した。

Network quantization is a powerful technique to compress convolutional neural networks. The quantization granularity determines how to share the scaling factors in weights, which affects the performance of network quantization. Most existing approaches share the scaling factors layerwisely or channelwisely for quantization of convolutional layers. Channelwise quantization and layerwise quantization have been widely used in various applications. However, other quantization granularities are rarely explored. In this paper, we will explore the sub-layerwise granularity that shares the scaling factor across multiple input and output channels. We propose an efficient post-training quantization method in sub-layerwise granularity (PTQ-SL). Then we systematically experiment on various granularities and observe that the prediction accuracy of the quantized neural network has a strong correlation with the granularity. Moreover, we find that adjusting the position of the channels can improve the performance of sub-layerwise quantization. Therefore, we propose a method to reorder the channels for sub-layerwise quantization. The experiments demonstrate that the sub-layerwise quantization with appropriate channel reordering can outperform the channelwise quantization.
翻訳日:2021-10-19 11:24:14 公開日:2021-10-18
# magnet: 再訓練を行わないディープジェネレーティブネットワーク多様体からの均一サンプリング

MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining ( http://arxiv.org/abs/2110.08009v2 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk(参考訳) Deep Generative Networks (DGNs) は、GAN(Generative Adversarial Networks)、VAE(VAEs)、およびデータ多様体の近似やその多様体上のデータ分布に広く利用されている。 しかし、トレーニングサンプルは、例えば、celebaデータセットの笑顔の顔の比率やffhqの黒髪の個人の割合など、経験的データ分散において、好み、コスト、利便性に基づいて得られることが多い。 これらの矛盾は、公正性、データ拡張、異常検出、ドメイン適応など、はるかに大きな可能性を持つトレーニングされたDGNからのサンプリングによって再現される。 これに反応して、DGNが訓練された場合、学習多様体上に一様に分布するサンプルを生成する、微分幾何学に基づくサンプル(MaGNET)を開発する。 本手法は, トレーニング集合分布によらず, 多様体上の一様分布を生成できることを理論的および実証的に証明する。 さまざまなデータセットやDGNでさまざまな実験を行います。 FFHQデータセットでトレーニングされた最先端のStyleGAN2では、MaGNETによる一様サンプリングが分布精度を4.1%と3.0%増加させ、ラベルや再トレーニングを必要とせずに性別バイアスを41.2%減少させる。

Deep Generative Networks (DGNs) are extensively employed in Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and their variants to approximate the data manifold, and data distribution on that manifold. However, training samples are often obtained based on preferences, costs, or convenience producing artifacts in the empirical data distribution e.g., the large fraction of smiling faces in the CelebA dataset or the large fraction of dark-haired individuals in FFHQ. These inconsistencies will be reproduced when sampling from the trained DGN, which has far-reaching potential implications for fairness, data augmentation, anomaly detection, domain adaptation, and beyond. In response, we develop a differential geometry based sampler -- coined MaGNET -- that, given any trained DGN, produces samples that are uniformly distributed on the learned manifold. We prove theoretically and empirically that our technique produces a uniform distribution on the manifold regardless of the training set distribution. We perform a range of experiments on various datasets and DGNs. One of them considers the state-of-the-art StyleGAN2 trained on FFHQ dataset, where uniform sampling via MaGNET increases distribution precision and recall by 4.1% & 3.0% and decreases gender bias by 41.2%, without requiring labels or retraining.
翻訳日:2021-10-19 11:23:58 公開日:2021-10-18
# FlexConv: 異なるカーネルサイズを持つ継続的カーネルの畳み込み

FlexConv: Continuous Kernel Convolutions with Differentiable Kernel Sizes ( http://arxiv.org/abs/2110.08059v2 )

ライセンス: Link先を確認
David W. Romero, Robert-Jan Bruintjes, Jakub M. Tomczak, Erik J. Bekkers, Mark Hoogendoorn, Jan C. van Gemert(参考訳) 畳み込みニューラルネットワーク(CNN)を設計する場合、トレーニング前に畳み込みカーネルのサイズを選択する必要がある。 最近の研究によると、CNNは異なるレイヤの異なるカーネルサイズから恩恵を受けているが、実際にはすべての組み合わせを探索することは不可能である。 より効率的なアプローチは、トレーニング中にカーネルサイズを学ぶことだ。 しかし、カーネルサイズを学ぶ既存の作品は帯域幅が限られている。 これらのアプローチは、拡張によってカーネルをスケールし、記述できる詳細は限られている。 本稿では,学習可能なカーネルサイズの高い帯域幅畳み込みカーネルを一定のパラメータコストで学習可能な,新しい畳み込み演算flexconvを提案する。 FlexNetsは、プーリングを使わずに長期的な依存関係をモデル化し、いくつかのシーケンシャルなデータセットで最先端のパフォーマンスを達成し、学んだカーネルサイズで最近の成果を上回り、画像ベンチマークデータセット上でずっと深いResNetsと競合する。 さらに、flexnetsはトレーニング中に見られるものよりも高い解像度でデプロイできる。 エイリアシングを避けるために,カーネルの周波数を解析的に制御できる新しいカーネルパラメータ化を提案する。 我々の新しいカーネルパラメタライゼーションは、既存のパラメタライゼーションよりも高い記述力と高速な収束速度を示している。 これにより、分類精度が大幅に向上する。

When designing Convolutional Neural Networks (CNNs), one must select the size of the convolutional kernels before training. Recent works show CNNs benefit from different kernel sizes at different layers, but exploring all possible combinations is unfeasible in practice. A more efficient approach is to learn the kernel size during training. However, existing works that learn the kernel size have a limited bandwidth. These approaches scale kernels by dilation, and thus the detail they can describe is limited. In this work, we propose FlexConv, a novel convolutional operation with which high bandwidth convolutional kernels of learnable kernel size can be learned at a fixed parameter cost. FlexNets model long-term dependencies without the use of pooling, achieve state-of-the-art performance on several sequential datasets, outperform recent works with learned kernel sizes, and are competitive with much deeper ResNets on image benchmark datasets. Additionally, FlexNets can be deployed at higher resolutions than those seen during training. To avoid aliasing, we propose a novel kernel parameterization with which the frequency of the kernels can be analytically controlled. Our novel kernel parameterization shows higher descriptive power and faster convergence speed than existing parameterizations. This leads to important improvements in classification accuracy.
翻訳日:2021-10-19 11:23:30 公開日:2021-10-18
# 量子アニーリングを用いたミラーリングダブルラウンドロビントーナメントにおける大破れ最小化問題の解法

Solving Large Break Minimization Problems in a Mirrored Double Round-robin Tournament Using Quantum Annealing ( http://arxiv.org/abs/2110.07239v2 )

ライセンス: Link先を確認
Michiya Kuramata, Ryota Katsuki, Kazuhide Nakata(参考訳) 量子アニール(QA)は、物流、スケジューリング、ファイナンスに多くの応用がある組合せ最適化問題に適用できるため、注目されている。 近年,それらを用いた組合せ最適化問題を解く研究が加速されている。 しかし、研究者たちは実用的な組合せ最適化問題を見つけるのに苦労しており、量子アニーラーは他の数学的最適化解法よりも優れている。 さらに、量子アニーラーの性能を、gurobiやcplexのような最も洗練された数学的最適化解法の一つと比較する研究はごくわずかである。 そこで本研究では,ミラーリングラウンドロビントーナメント(MDRRT)におけるブレーク最小化問題において,QAが解法よりも優れた性能を示した。 また,変数間の疎相互作用と制約のない問題に対するQAの望ましい性能についても説明する。 本稿では,MDRRTにおけるブレーク最小化問題を4正規グラフとして表現できることを実証する。 計算実験により,最新の量子アニーラーD-WaveAdvantageと高度な数学的最適化解法であるGurobiを用いて,QA法と2整数プログラミング法を用いてこの問題を解く。 さらに,解の質と計算時間を比較する。 QAは20チームでの問題に対して0.05秒で正確なソリューションを決定できた。 36チームの場合、整数プログラミング法が目的関数値に達するのに84.8秒かかり、これは0.05秒の量子アニールによって得られた。 これらの結果は, MDRRTにおけるブレーク最小化問題を, 実用的な最適化問題にQAを適用した例として提示するだけでなく, QAによって効果的に解ける問題を見つけるためにも貢献する。

Quantum annealing (QA) has gained considerable attention because it can be applied to combinatorial optimization problems, which have numerous applications in logistics, scheduling, and finance. In recent years, research on solving practical combinatorial optimization problems using them has accelerated. However, researchers struggle to find practical combinatorial optimization problems, for which quantum annealers outperform other mathematical optimization solvers. Moreover, there are only a few studies that compare the performance of quantum annealers with one of the most sophisticated mathematical optimization solvers, such as Gurobi and CPLEX. In our study, we determine that QA demonstrates better performance than the solvers in the break minimization problem in a mirrored double round-robin tournament (MDRRT). We also explain the desirable performance of QA for the sparse interaction between variables and a problem without constraints. In this process, we demonstrate that the break minimization problem in an MDRRT can be expressed as a 4-regular graph. Through computational experiments, we solve this problem using our QA approach and two-integer programming approaches, which were performed using the latest quantum annealer D-Wave Advantage, and the sophisticated mathematical optimization solver, Gurobi, respectively. Further, we compare the quality of the solutions and the computational time. QA was able to determine the exact solution in 0.05 seconds for problems with 20 teams, which is a practical size. In the case of 36 teams, it took 84.8 s for the integer programming method to reach the objective function value, which was obtained by the quantum annealer in 0.05 s. These results not only present the break minimization problem in an MDRRT as an example of applying QA to practical optimization problems, but also contribute to find problems that can be effectively solved by QA.
翻訳日:2021-10-19 11:22:39 公開日:2021-10-18
# IPAに基づく言語間テキスト合成の再検討

Revisiting IPA-based Cross-lingual Text-to-speech ( http://arxiv.org/abs/2110.07187v2 )

ライセンス: Link先を確認
Haitong Zhang, Haoyue Zhan, Yang Zhang, Xinyuan Yu, Yue Lin(参考訳) International Phonetic Alphabet (IPA) は、言語間音声クローニング(CLVC)を実現するために、TTS (inter-lingual text-to-speech) で広く使われている。 しかし、IPA自体が言語間TTSで検討されている。 本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。 実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。 さらに、言語単位の話者を含むデータセットを使用してIPAベースのTSシステムを構築すると、言語単位のIPAとトーン/ストレスシンボルが話者情報を漏洩する可能性があるため、CL VCが失敗する可能性がある。 さらに,学習データセットにおける話者の異なる組み合わせを実験し,cl vcのパフォーマンスに対する話者数の影響について検討した。

International Phonetic Alphabet (IPA) has been widely used in cross-lingual text-to-speech (TTS) to achieve cross-lingual voice cloning (CL VC). However, IPA itself has been understudied in cross-lingual TTS. In this paper, we report some empirical findings of building a cross-lingual TTS model using IPA as inputs. Experiments show that the way to process the IPA and suprasegmental sequence has a negligible impact on the CL VC performance. Furthermore, we find that using a dataset including one speaker per language to build an IPA-based TTS system would fail CL VC since the language-unique IPA and tone/stress symbols could leak the speaker information. In addition, we experiment with different combinations of speakers in the training dataset to further investigate the effect of the number of speakers on the CL VC performance.
翻訳日:2021-10-19 11:22:12 公開日:2021-10-18
# CIRASA視覚分析プラットフォームのための天文学的情報源探索サービス

Astronomical source finding services for the CIRASA visual analytic platform ( http://arxiv.org/abs/2110.08211v2 )

ライセンス: Link先を確認
S. Riggi, C. Bordiu, F. Vitello, G. Tudisco, E. Sciacca, D. Magro, R. Sortino, C. Pino, M. Molinaro, M. Benedettini, S.Leurini, F. Bufano, M. Raciti, U. Becciani(参考訳) データ処理、アーカイブ、分析、可視化の革新的発展は、現在、Square Kilometre Array(SKA)やその前駆体のような次世代の電波天文学施設で期待されるデータデルージュを扱うには避けられない。 この文脈では、ソース抽出と分析アルゴリズムをデータ可視化ツールに統合することで、大規模な調査のカタログ作成プロセスを大幅に改善し、スピードアップし、天文学者の生産性を高め、出版時間を短縮することができる。 そこで我々は,CAESARソースファインダ,ViaLactea Visual Analytic(VLVA),Knowledge Base(VLKB)といった最先端のツールを統合した,高度なソース発見と分類のためのビジュアル解析プラットフォーム(CIRASA)を開発している。 本稿では,実装されたソース検索サービスに着目し,プロジェクト目標とプラットフォームアーキテクチャについて述べる。

Innovative developments in data processing, archiving, analysis, and visualization are nowadays unavoidable to deal with the data deluge expected in next-generation facilities for radio astronomy, such as the Square Kilometre Array (SKA) and its precursors. In this context, the integration of source extraction and analysis algorithms into data visualization tools could significantly improve and speed up the cataloguing process of large area surveys, boosting astronomer productivity and shortening publication time. To this aim, we are developing a visual analytic platform (CIRASA) for advanced source finding and classification, integrating state-of-the-art tools, such as the CAESAR source finder, the ViaLactea Visual Analytic (VLVA) and Knowledge Base (VLKB). In this work, we present the project objectives and the platform architecture, focusing on the implemented source finding services.
翻訳日:2021-10-19 11:21:58 公開日:2021-10-18