このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211215となっている論文です。

PDF登録状況(公開日: 20211215)

TitleAuthorsAbstract論文公表日・翻訳日
# 計測誤差を緩和するハイブリッド量子古典的手法

A hybrid quantum-classical approach to mitigating measurement errors ( http://arxiv.org/abs/2003.12314v4 )

ライセンス: Link先を確認
Hyeokjea Kwon, Joonwoo Bae(参考訳) 情報処理においてノイズの多い中間スケーラブル量子(nisq)デバイスが適用される場合、多成分量子状態の準備、操作、測定を行うすべてのステージには、一般的に検証が難しい様々なノイズが含まれている。 本研究では、未知の量子ノイズに対処するためのスキームを提案し、nisqデバイスによる測定読み出しの誤りを軽減するために使用できることを示す。 測定におけるノイズの種類を特定する量子検出器トモグラフィーは回避できる。 このスキームはシングルキュービット演算のみを適用し、測定読み出しや2キュービットゲートよりも比較的高精度である。 その後、測定結果と共に古典的な後処理を行う。 このスキームは、NISQデバイスを用いた量子アルゴリズム(Bernstein-VaziraniアルゴリズムとIBMQ YorktownとIBMQ essexにおける量子振幅推定アルゴリズム)で実装されている。 NISQデバイスを用いた両アルゴリズムについて,測定結果の統計量の増大について述べる。

When noisy intermediate scalable quantum (NISQ) devices are applied in information processing, all of the stages through preparation, manipulation, and measurement of multipartite qubit states contain various types of noise that are generally hard to be verified in practice. In this work, we present a scheme to deal with unknown quantum noise and show that it can be used to mitigate errors in measurement readout with NISQ devices. Quantum detector tomography that identifies a type of noise in a measurement can be circumvented. The scheme applies single-qubit operations only, that are with relatively higher precision than measurement readout or two-qubit gates. A classical post-processing is then performed with measurement outcomes. The scheme is implemented in quantum algorithms with NISQ devices: the Bernstein-Vazirani algorithm and a quantum amplitude estimation algorithm in IBMQ yorktown and IBMQ essex. The enhancement in the statistics of the measurement outcomes is presented for both of the algorithms with NISQ devices.
翻訳日:2023-05-27 18:32:45 公開日:2021-12-15
# 非同期励起量子ビットからの分散絡み合い生成

Distributed entanglement generation from asynchronously excited qubits ( http://arxiv.org/abs/2005.01991v2 )

ライセンス: Link先を確認
Tiantian Huan, Rigui Zhou, Hou Ian(参考訳) GHZ状態の生成は、複数のキュービットの同時励起を要求する。 そのような状態の特異性は他の絡み合い状態に含まれない非零分散絡み合いに反映される。 共振共振器を介して3つの超伝導量子ビットを励起する最善の方法について検討し、その間に分散した絡み合いの発生を時間制御可能な方法で高次に得られるようにした。 この絡み合いを定量化する非負測度は、二次系の進化の時間関数として導かれる。 この尺度は静的に保たないが、周期的に同じ最大値が得られる。 クビット共振器結合が変化すると、そのピーク値が1つのクビットに最大結合強度を増すことにより単調に向上する。 ピークからピークの回復期間は、結合が不均一になり、クォービット励起が0.35の相対比で非同期になるときに最大になる。 本研究は,マルチキュービットシステムの時間制御における非同期励起の役割を実証する。

The generation of GHZ states calls for simultaneous excitation of multiple qubits. The peculiarity of such states is reflected in their nonzero distributed entanglement which is not contained in other entangled states. We study the optimal way to excite three superconducting qubits through a common cavity resonator in a circuit such that the generation of distributed entanglement among them could be obtained at the highest degree in a time-controllable way. A non-negative measure quantifying this entanglement is derived as a time function of the quadripartite system evolution. We find that this measure does not stay static but obtains the same maximum periodically. When the qubit-resonator couplings are allowed to vary, its peak value is enhanced monotonically by increasing the greatest coupling strength to one of the qubits. The period of its peak to peak revival maximizes when the couplings become inhomogeneous, thus qubit excitation becoming asynchronous, at a relative ratio of 0.35. The study demonstrates the role of asynchronous excitations for time-controlling multi-qubit systems, in particular in extending entanglement time.
翻訳日:2023-05-21 03:09:19 公開日:2021-12-15
# fftw3による相対論的schr\"odinger方程式:量子fdtdの拡張

The Relativistic Schr\"odinger Equation through FFTW3: An Extension of quantumfdtd ( http://arxiv.org/abs/2006.16935v2 )

ライセンス: Link先を確認
Rafael L. Delgado and Sebastian Steinbei{\ss}er and Michael Strickland and Johannes H. Weber(参考訳) 時間非依存の3次元シュリンガー方程式を解くために、時間依存のシュリンガー方程式を想像時間に変換することができ、並列化された反復法を用いて非常に大きな格子上の完全な3次元固有状態と固有値を得る。 非相対論的Schr\"odinger方程式の場合、このアルゴリズムを実装したquantumfdtdと呼ばれる公開コードが存在する。 本稿では, (a)相対論的schr\"odinger方程式の場合を含むように量子fdtd符号を拡張し、 (b)非相対論的ケースに対してFFTに基づく2つの最適化された運動エネルギー項を加える。 FFTWライブラリが提供する並列化高速フーリエ変換(FFT)アルゴリズムを用いて、新しい運動エネルギー項(2つの非相対論的および1つの相対論的)を計算する。 この論文で公開された量子fdtd v3コードは、新しいFFTベースのスキームに加えて、明示的な有限差分スキームをサポートするバージョン2と後方互換性がある。 最後に、元のコードは拡張され、任意の外部ファイルベースのポテンシャルと、ソリューションから異なるパリティ固有状態を投影するオプションをサポートする。 ここでは、quantumfdtd v3の実装の詳細、新しい3つの運動エネルギー項の比較とテスト、コードドキュメントを提供する。

In order to solve the time-independent three-dimensional Schr\"odinger equation, one can transform the time-dependent Schr\"odinger equation to imaginary time and use a parallelized iterative method to obtain the full three-dimensional eigenstates and eigenvalues on very large lattices. In the case of the non-relativistic Schr\"odinger equation, there exists a publicly available code called quantumfdtd which implements this algorithm. In this paper, we (a) extend the quantumfdtd code to include the case of the relativistic Schr\"odinger equation and (b) add two optimized FFT-based kinetic energy terms for non-relativistic cases. The new kinetic energy terms (two non-relativistic and one relativistic) are computed using the parallelized Fast Fourier Transform (FFT) algorithm provided by the FFTW library. The resulting quantumfdtd v3 code, which is publicly released with this paper, is backwards compatible with version 2, supporting explicit finite differences schemes in addition to the new FFT-based schemes. Finally, the original code has been extended so that it supports arbitrary external file-based potentials and the option to project out distinct parity eigenstates from the solutions. Herein, we provide details of the quantumfdtd v3 implementation, comparisons and tests of the three new kinetic energy terms, and code documentation.
翻訳日:2023-05-12 01:16:39 公開日:2021-12-15
# 超伝導回路コンパニオン-実例による紹介

The superconducting circuit companion -- an introduction with worked examples ( http://arxiv.org/abs/2103.01225v2 )

ライセンス: Link先を確認
S. E. Rasmussen, K. S. Christensen, S. P. Pedersen, L. B. Kristensen, T. B{\ae}kkegaard, N. J. S. Loft, and N. T. Zinner(参考訳) 本チュートリアルは,超伝導量子ビットの回路解析,すなわち超伝導回路における2レベルシステムに関する入門的な処理を行うことを目的とする。 また、そのような量子ビット間のカップリングや、マイクロ波駆動とこれらのカップリングがシングルキュービットゲートと2キュービットゲートでどのように使用できるか、またシステムのダイナミクスを計算する際にノイズを含む方法についても触れている。 また,高次元超伝導quditについて考察する。 このチュートリアルは、フィールドの経験が限られ、あるいは全くない新しい研究者を対象としているが、物理学の学士号を持つ人なら誰でもアクセスできるはずである。 チュートリアルでは、回路ダイアグラムから量子化されたハミルトニアンで終わる量子回路解析で使われる基本的な方法を紹介し、最低レベルに切り下げることができる。 議論のすべての基本的なテクニックの例を示し、チュートリアルの後半では、量子情報アプリケーションに最もよく使用される回路について論じる。 これには、単一キュービットの動作例と、マルチキュービット演算を可能にする結合方法の分析方法の例が含まれる。 いくつかの詳細な付録で、我々は興味ある読者により大きな回路設計を扱うためのより高度な技術を紹介する。

This tutorial aims at giving an introductory treatment of the circuit analysis of superconducting qubits, i.e., two-level systems in superconducting circuits. It also touches upon couplings between such qubits and how microwave driving and these couplings can be used for single- and two-qubit gates, as well as how to include noise when calculating the dynamics of the system. We also discuss higher-dimensional superconducting qudits. The tutorial is intended for new researchers with limited or no experience with the field but should be accessible to anyone with a bachelor's degree in physics. The tutorial introduces the basic methods used in quantum circuit analysis, starting from a circuit diagram and ending with a quantized Hamiltonian, that may be truncated to the lowest levels. We provide examples of all the basic techniques throughout the discussion, while in the last part of the tutorial we discuss several of the most commonly used circuits for quantum-information applications. This includes both worked examples of single qubits and examples of how to analyze the coupling methods that allow multiqubit operations. In several detailed appendices, we provide the interested reader with an introduction to more advanced techniques for handling larger circuit designs.
翻訳日:2023-04-09 14:25:40 公開日:2021-12-15
# 2元最適化のための量子インスパイアヒューリスティックソルバのベンチマーク

Benchmark of quantum-inspired heuristic solvers for quadratic unconstrained binary optimization ( http://arxiv.org/abs/2104.14096v3 )

ライセンス: Link先を確認
Hiroki Oshiyama and Masayuki Ohzeki(参考訳) 近年、量子アニーリングに触発され、制約のないバイナリ二次計画問題に特化した多くの解法が開発されている。 これらの解法のさらなる改良と適用には,様々な問題に対する性能の違いを明らかにすることが重要である。 本研究では,D-Wave Hybrid Solver Service (HSS), Toshiba Simulated Bifurcation Machine (SBM), Fujitsu DigitalAnnealer (DA),simulated annealing on a personal computerの4つの2次非拘束バイナリ最適化問題の解法の性能をベンチマークした。 ベンチマークに用いた問題は、MQLibの実際の問題、ランダムな不等式 3-SAT(NAE 3-SAT) のSAT-UNSAT 相転移点のインスタンス、およびIsing spin glass Sherrington-Kirkpatrick (SK) モデルである。 MQLibインスタンスでは、HSSパフォーマンスが1位、NAE 3-SATではDAパフォーマンスが1位、SKモデルではSBMパフォーマンスが1位だった。 これらの結果は、これらの解法の強みと弱みを理解するのに役立つかもしれない。

Recently, inspired by quantum annealing, many solvers specialized for unconstrained binary quadratic programming problems have been developed. For further improvement and application of these solvers, it is important to clarify the differences in their performance for various types of problems. In this study, the performance of four quadratic unconstrained binary optimization problem solvers, namely D-Wave Hybrid Solver Service (HSS), Toshiba Simulated Bifurcation Machine (SBM), Fujitsu DigitalAnnealer (DA), and simulated annealing on a personal computer, was benchmarked. The problems used for benchmarking were instances of real problems in MQLib, instances of the SAT-UNSAT phase transition point of random not-all-equal 3-SAT(NAE 3-SAT), and the Ising spin glass Sherrington-Kirkpatrick (SK) model. Concerning MQLib instances, the HSS performance ranked first; for NAE 3-SAT, DA performance ranked first; and regarding the SK model, SBM performance ranked first. These results may help understand the strengths and weaknesses of these solvers.
翻訳日:2023-04-02 02:25:00 公開日:2021-12-15
# オープン量子系のダイナミクス I, 振動と減衰

Dynamics of Open Quantum Systems I, Oscillation and Decay ( http://arxiv.org/abs/2105.00015v2 )

ライセンス: Link先を確認
Marco Merkli(参考訳) 我々は,有限次元量子系のダイナミクスを,貯水池である$\rm r$と接触して解析する枠組みを開発した。 フルで対話的な$\rm SR$ dynamicsはユニタリです。 貯水池には定常状態があるが、それ以外は散逸ダイナミクスがある。 フルダイナミックスの主要な部分を特定し、$\rm SR$結合定数の小さな値に対して近似し、すべての時間に対して$t\ge 0$に対して一様である。 主部は明らかに振動する部分と崩壊する部分からなる。 システム進化の減少は、常にマルコフ的であることを示す。 技術的な斬新さは、モーア理論に基づく$\rm SR$Dynamicsのジェネレータのスペクトル特性とダイナミクスの関係を詳細に分析したものである。 我々は、ほとんど正則性のない$\rm SR$相互作用を許す、つまり、貯水池相関関数の崩壊は時間内に多項式でなければならず、これまで要求されていた指数減衰を改善する。 本研究は、$\rm SR$動力学の発振特性と崩壊特性の原因となる構造的および技術的材料を蒸留する。 共著[27]では、非相互作用ボソンの空間的に無限に広がる熱浴に線形に結合された$n$-レベル系の具体例に形式化を適用する。

We develop a framework to analyze the dynamics of a finite-dimensional quantum system $\rm S$ in contact with a reservoir $\rm R$. The full, interacting $\rm SR$ dynamics is unitary. The reservoir has a stationary state but otherwise dissipative dynamics. We identify a main part of the full dynamics, which approximates it for small values of the $\rm SR$ coupling constant, uniformly for all times $t\ge 0$. The main part consists of explicit oscillating and decaying parts. We show that the reduced system evolution is Markovian for all times. The technical novelty is a detailed analysis of the link between the dynamics and the spectral properties of the generator of the $\rm SR$ dynamics, based on Mourre theory. We allow for $\rm SR$ interactions with little regularity, meaning that the decay of the reservoir correlation function only needs to be polynomial in time, improving on the previously required exponential decay. In this work we distill the structural and technical ingredients causing the characteristic features of oscillation and decay of the $\rm SR$ dynamics. In the companion paper [27] we apply the formalism to the concrete case of an $N$-level system linearly coupled to a spatially infinitely extended thermal bath of non-interacting Bosons.
翻訳日:2023-04-01 23:44:12 公開日:2021-12-15
# 角分解弾性散乱による量子共鳴中のファノ干渉

Fano interference in quantum resonances from angle-resolved elastic scattering ( http://arxiv.org/abs/2105.05959v2 )

ライセンス: Link先を確認
Prerna Paliwal, Alexander Blech, Christiane P. Koch, Edvardas Narevicius(参考訳) 非対称スペクトル線形状は、準束縛状態と状態連続体との干渉の指標である。 このような線形状は、例えば光電離や分子散乱におけるフェッシュバッハ共鳴など、多チャンネル系でよく知られている。 一方、共鳴単一チャネル散乱では、部分波の直交性によりそのような干渉の符号が消える可能性がある。 ここで,断面の角依存性を探索することで,単一チャネル形状共振においても非対称なファノプロファイルを顕在化できることを示す。 本研究では,準安定ヘリウム分子と重水素分子間の弾性衝突における共鳴プロファイルのピーク値の変化を観測し,全量子散乱計算による理論的予測とよく一致した。 部分波干渉のモデル記述を用いて、共振器と背景のコントリビューションをアンタングルし、実験結果からファノのような特性に寄与する相対位相を抽出することができる。

Asymmetric spectral line shapes are a hallmark of interference of a quasi-bound state with a continuum of states. Such line shapes are well known for multichannel systems, for example, in photoionization or Feshbach resonances in molecular scattering. On the other hand, in resonant single channel scattering, the signature of such interference may disappear due to the orthogonality of partial waves. Here, we show that probing the angular dependence of the cross section allows us to unveil asymmetric Fano profiles also in a single channel shape resonance. We observe a shift in the peak of the resonance profile in the elastic collisions between metastable helium and deuterium molecules with detection angle, in excellent agreement with theoretical predictions from full quantum scattering calculations. Using a model description for the partial wave interference, we can disentangle the resonant and background contributions and extract the relative phase responsible for the characteristic Fano-like profiles from our experimental measurements.
翻訳日:2023-03-31 08:35:04 公開日:2021-12-15
# 単一巨大原子における空間非局所誘起非マルコフ型EIT

Spatial Non-Locality Induced Non-Markovian EIT in a Single Giant Atom ( http://arxiv.org/abs/2106.05020v2 )

ライセンス: Link先を確認
Yuting Zhu and Rebing Wu and Shibei Xue(参考訳) 最近の実験では、電磁気誘起透過(eit)は巨大原子で観測されたが、透過スペクトルからは見当たらなかった。 このレターでは、異例のEITが巨大原子に存在することを示し、なぜこれまで観測されていないのかを示す。 これらの既存の著作と異なり、この手紙は実空間法と非慣習的 eit を観察するための時間遅れマスター方程式を含む一貫した理論を提示している。 この現象は、最近の研究のように半古典的な方法では正しく記述できない量子効果であることがわかった。 この理論は、2つの隣接するカップリング点間の時間遅延が原子の緩和時間に匹敵するときに観測できることを示しており、将来の実験観測に不可欠である。 この新たな現象は、宇宙の立位波に伝播する磁場を物理的に強制する巨大原子の非局所性や、時間的遅延を示す原子によって引き起こされる。 量子情報処理に非局所的なシステムを適用するための枠組みを確立する。

In recent experiments, electromagnetically induced transparency (EIT) were observed with giant atoms, but nothing unconventional were found from the transmission spectra. In this letter, we show that unconventional EIT does exist in giant atoms, and indicate why it has not been observed so far. Different from these existing works, this letter presents a consistent theory including a real space method and a time delayed master equation for observing unconventional EIT. We discover that this phenomenon is a quantum effect which cannot be correctly described in a semi-classical way as those in recent works. Our theory shows that it can be observed when the time delay between two neighboring coupling points is comparable to the relaxation time of the atom, which is crucial for a future experimental observation. This new phenomenon results from inherent non-locality of the giant atom, which physically forces propagating fields to be standing waves in space and the atom exhibiting retardations in time. Our theory establishes a framework for application of nonlocal systems to quantum information processing.
翻訳日:2023-03-27 04:30:18 公開日:2021-12-15
# マジック状態の安定化子ランクにおける上界の改善

Improved upper bounds on the stabilizer rank of magic states ( http://arxiv.org/abs/2106.07740v2 )

ライセンス: Link先を確認
Hammam Qassim, Hakop Pashayan, David Gosset(参考訳) 本研究では,clifford と t gates からなる量子回路の強力なシミュレーションのために,最近の古典的アルゴリズムのランタイムを改善した。 この改善は、マジック状態$|t\rangle=\sqrt{2}^{-1}(|0\rangle+e^{i\pi/4}|1\rangle)$の安定化子ランクに、大きな$m$の制限で新しい上限を設定することによって得られる。 特に、$|T\rangle^{\otimes m}$が、少なくとも$O(2^{\alpha m})$安定化状態の重ね合わせとして正確に表現できることが示され、$\alpha\leq 0.3963$は、既知の最高の有界な$\alpha \leq 0.463$で改善される。 これは既知の手法を通じて、古典的なアルゴリズムで、$n$-qubit Clifford + T circuit $U$ の出力確率を、ランタイム $\mathrm{poly}(n,m)2^{\alpha m}$ を用いて与えられた逆多項式相対誤差に$m$ の T ゲートの使用で近似する。 また、対称積状態の安定化次数である ||\psi\rangle^{\otimes m}$ より一般的には、クリフォードゲートからなる回路に対する強いシミュレーションアルゴリズムと、実行時$\text{poly}(n,m) 2^{m/2}$を持つ任意の(固定された)シングルキュービット$z$-rotationゲートの$m$インスタンスを得る。 特定の特性を持つ線形コードを構築することにより,上界をさらに改善する手法を提案する。

In this work we improve the runtime of recent classical algorithms for strong simulation of quantum circuits composed of Clifford and T gates. The improvement is obtained by establishing a new upper bound on the stabilizer rank of $m$ copies of the magic state $|T\rangle=\sqrt{2}^{-1}(|0\rangle+e^{i\pi/4}|1\rangle)$ in the limit of large $m$. In particular, we show that $|T\rangle^{\otimes m}$ can be exactly expressed as a superposition of at most $O(2^{\alpha m})$ stabilizer states, where $\alpha\leq 0.3963$, improving on the best previously known bound $\alpha \leq 0.463$. This furnishes, via known techniques, a classical algorithm which approximates output probabilities of an $n$-qubit Clifford + T circuit $U$ with $m$ uses of the T gate to within a given inverse polynomial relative error using a runtime $\mathrm{poly}(n,m)2^{\alpha m}$. We also provide improved upper bounds on the stabilizer rank of symmetric product states $|\psi\rangle^{\otimes m}$ more generally; as a consequence we obtain a strong simulation algorithm for circuits consisting of Clifford gates and $m$ instances of any (fixed) single-qubit $Z$-rotation gate with runtime $\text{poly}(n,m) 2^{m/2}$. We suggest a method to further improve the upper bounds by constructing linear codes with certain properties.
翻訳日:2023-03-26 17:29:52 公開日:2021-12-15
# マルチマーク頂点探索のためのハイパーキューブにおけるラカダシカル量子ウォーク

Lackadaisical quantum walk in the hypercube to search for multiple marked vertices ( http://arxiv.org/abs/2108.09399v2 )

ライセンス: Link先を確認
Luciano S. de Souza and Jonathan H. A. de Carvalho and Tiago A. E. Ferreira(参考訳) グラフの各頂点に自己ループを追加することで、ループレスアルゴリズムよりも量子ウォークアルゴリズムの性能が向上する。 多くの研究が量子ウォークにアプローチし、1つのマークされた頂点を探す。 本稿では,複数頂点を探索する自己ループを用いたハイパーキューブにおける量子ウォーキングに関するいくつかの問題について実験的に検討する。 まずループレスハイパーキューブにおける量子ウォークについて検討する。 隣の頂点も増幅され、システムエネルギーの約1/2ドルのエネルギーが集中していることがわかった。 1つのマークされた頂点に対して$l$の最適値は、複数のマークされた頂点に対して最適でないことを示す。 複数のマークされた頂点を検索するために、$l = (n/n)\cdot k$ の新しい値を定義する。 次に、この新しい値である$l$を使用して、複数のマークされた頂点を非隣接的に検索し、成功の確率が1ドルに近いことを示す。 また、隣接するいくつかのマークされた頂点の探索を解析し、成功確率が近隣のマークされた頂点の密度に直接比例することを示すために、$l$の新しい値を用いる。 また、隣人がマークされている場合、少なくとも1つの非隣接マークされた頂点がある場合、成功の確率は1ドル近くになることも示しています。 その結果、ハイパーキューブの量子ウォークがいくつかのマークされた頂点を探索する自己ループ値は、$l = (n / N) \cdot k $であることがわかった。

Adding self-loops at each vertex of a graph improves the performance of quantum walks algorithms over loopless algorithms. Many works approach quantum walks to search for a single marked vertex. In this article, we experimentally address several problems related to quantum walk in the hypercube with self-loops to search for multiple marked vertices. We first investigate the quantum walk in the loopless hypercube. We saw that neighbor vertices are also amplified and that approximately $1/2$ of the system energy is concentrated in them. We show that the optimal value of $l$ for a single marked vertex is not optimal for multiple marked vertices. We define a new value of $l = (n/N)\cdot k$ to search multiple marked vertices. Next, we use this new value of $l$ found to analyze the search for multiple marked vertices non-adjacent and show that the probability of success is close to $1$. We also use the new value of $l$ found to analyze the search for several marked vertices that are adjacent and show that the probability of success is directly proportional to the density of marked vertices in the neighborhood. We also show that, in the case where neighbors are marked, if there is at least one non-adjacent marked vertex, the probability of success increases to close to $1$. The results found show that the self-loop value for the quantum walk in the hypercube to search for several marked vertices is $l = (n / N) \cdot k $.
翻訳日:2023-03-17 22:54:15 公開日:2021-12-15
# 多次元量子力学シミュレーションのための関数テンソル・トレイン・チェビシェフ法

Functional Tensor-Train Chebyshev Method for Multidimensional Quantum Dynamics Simulations ( http://arxiv.org/abs/2109.08985v2 )

ライセンス: Link先を確認
Micheline B. Soley, Paul Bergold, Alex A. Gorodetsky, Victor S. Batista(参考訳) 多次元量子力学の効率的なシミュレーションの方法は、陽子の再配置や電子配置など、量子効果が重要である化学系の理論的研究に不可欠である。 本稿では,核量子動力学シミュレーションのための関数型テンソル・トレイン・チェビシェフ法(fttc)を提案する。 FTTCは本質的にはチェビシェフの伝播スキームであり、連続的なアナログテンソル-トレイン形式で表される。 我々は,水素結合DNA塩基対の50次元モデルにおいて,プロトン量子力学のシミュレーションに応用したFTTCの機能を示す。

Methods for efficient simulations of multidimensional quantum dynamics are essential for theoretical studies of chemical systems where quantum effects are important, such as those involving rearrangements of protons or electronic configurations. Here, we introduce the functional tensor-train Chebyshev (FTTC) method for rigorous nuclear quantum dynamics simulations. FTTC is essentially the Chebyshev propagation scheme applied to the initial state, represented in continuous analogue tensor-train format. We demonstrate the capabilities of FTTC as applied to simulations of proton quantum dynamics in a 50-dimensional model of hydrogen-bonded DNA base pairs.
翻訳日:2023-03-14 09:13:35 公開日:2021-12-15
# 開放量子系に対する一般化遷移性量子駆動

Generalized transitionless quantum driving for open quantum systems ( http://arxiv.org/abs/2109.11695v2 )

ライセンス: Link先を確認
Alan C. Santos, Marcelo S. Sarandy(参考訳) オープン量子系における遷移のない量子駆動の一般的なアプローチが紹介される。 時間局所マスター方程式に対する断熱進化の仮定の下で、オープンシステムシナリオにおいて断熱性への近道を実装するのに必要な一般化されたトランジッションのないリンドブラジアンを導出する。 一般的な反ダイアバティック・リンドブラジアンは相自由性の説明を得ており、これはダイナミクス全体にわたって自由パラメータの集合へと変換される。 次に,g. vacantiらによって導入された無遷移リンドブラジアンを,我々の一般的なアプローチによってどのように回復できるかについて議論する。 [New J. Phys. 16, 053017 (2014)] 次に、オープンシステムにおける標準トランジットレス量子駆動によって提供される時間依存マスター方程式と同じダイナミクスを提供する時間依存マスター方程式を設計する方法を示す。 提案手法は,adphasing法とbit-phase-flip法におけるlandau-zener hamiltonian法の両方に適用し,その結果を示す。

A general approach for transitionless quantum driving in open quantum systems is introduced. Under the assumption of adiabatic evolution for time-local master equations, we derive the generalized transitionless Lindbladian required to implement a shortcut to adiabaticity in an open system scenario. The general counter-diabatic Lindbladian obtained accounts for a phase freedom, which translates into a set of free parameters throughout the dynamics. We then discuss how our generalized approach allows us to recover the transitionless Lindbladian introduced by G. Vacanti et al. [New J. Phys. 16, 053017 (2014)]. We then show how to engineer time-independent master equations that provide the same dynamics as the time-dependent master equation provided by the standard transitionless quantum driving in open systems. We illustrate our results by applying them both to the adiabatic Deutsch algorithm under dephasing and to the Landau-Zener Hamiltonian under bit-phase-flip.
翻訳日:2023-03-13 21:06:16 公開日:2021-12-15
# NetQASM -- 量子インターネットにおけるハイブリッド量子古典プログラムのための低レベル命令セットアーキテクチャ

NetQASM -- A low-level instruction set architecture for hybrid quantum-classical programs in a quantum internet ( http://arxiv.org/abs/2111.09823v2 )

ライセンス: Link先を確認
Axel Dahlberg, Bart van der Vecht, Carlo Delle Donne, Matthew Skrzypczyk, Ingmar te Raa, Wojciech Kozlowski, Stephanie Wehner(参考訳) 量子インターネットアプリケーションのための低レベル命令セットアーキテクチャであるnetqasmを紹介する。 NetQASMは汎用的でプラットフォームに依存しない拡張可能な命令セットで、ローカル量子ゲート、強力な古典論理、リモートエンタングルメント生成のための量子ネットワーク操作をサポートする。 さらにnetqasmは、アプリケーション層における古典論理と通信と物理層での量子演算との密結合を可能にする。 これにより、量子ネットワークアプリケーションは高レベルのプラットフォームに依存しないソフトウェアでプログラムできるが、他のQASMの変種では利用できない。 我々はNetQASMコードをオンラインで作成、解析、エンコード、実行するための一連のツールでNetQASMを実装しています。 当社のツールにはPythonの高レベルSDKが含まれており、量子インターネット用のアプリケーションを簡単にプログラミングできる。 当社のSDKは,既存の量子シミュレータであるNetSquidとSimulaQronを利用することで,家庭で使用することができる。

We introduce NetQASM, a low-level instruction set architecture for quantum internet applications. NetQASM is a universal, platform-independent and extendable instruction set with support for local quantum gates, powerful classical logic and quantum networking operations for remote entanglement generation. Furthermore, NetQASM allows for close integration of classical logic and communication at the application layer with quantum operations at the physical layer. This enables quantum network applications to be programmed in high-level platform-independent software, which is not possible using any other QASM variants. We implement NetQASM in a series of tools to write, parse, encode and run NetQASM code, which are available online. Our tools include a higher-level SDK in Python, which allows an easy way of programming applications for a quantum internet. Our SDK can be used at home by making use of our existing quantum simulators, NetSquid and SimulaQron, and will also provide a public interface to hardware released on a future iteration of Quantum Network Explorer.
翻訳日:2023-03-07 12:27:15 公開日:2021-12-15
# 量子計算の優位性は文脈性を意味する

Quantum computational advantage implies contextuality ( http://arxiv.org/abs/2112.00024v2 )

ライセンス: Link先を確認
Farid Shahandeh(参考訳) 量子コンピュータ上で効率的に解ける全ての問題のクラスと多項式時間における確率論的古典アルゴリズムを用いて解けるクラスとの分離は、量子アルゴリズムの一般化された文脈性を意味することを示す。 この結果はgottesman-knill定理のバージョンを特別な場合として仮定する。

We show that a separation between the class of all problems that can efficiently be solved on a quantum computer and those solvable using probabilistic classical algorithms in polynomial time implies the generalized contextuality of quantum algorithms. Our result subsumes versions of Gottesman-Knill theorem as special cases.
翻訳日:2023-03-06 06:51:21 公開日:2021-12-15
# 対称化ホログラフィックエントロピーコーン

The Symmetrized Holographic Entropy Cone ( http://arxiv.org/abs/2112.03862v2 )

ライセンス: Link先を確認
Matteo Fadel, Sergio Hern\'andez-Cuenca(参考訳) ホログラフィックエントロピーコーン(HEC)は、ホログラフィーにおいて幾何バルク双対を持つ量子状態の絡み合い構造を特徴付ける。 その内在的な複雑さのため、これまでHECを少なくとも$n=5$のパーティー数で完全に特徴づけることしかできなかった。 より大きな n$ に対して、hec に関する我々の知識は不完全ではない:その極端な要素についてはほとんど何も知られていない。 ここでは、HECを自然な下次元部分空間に投影する対称性化手順を導入する。 対称化の際、その極値構造が一般の$n$ に対して示す性質を推測することができる。 さらに、この対称性を量子エントロピー円錐に適用することにより、ホログラフィックエントロピーの典型性を定量化することができる。

The holographic entropy cone (HEC) characterizes the entanglement structure of quantum states which admit geometric bulk duals in holography. Due to its intrinsic complexity, to date it has only been possible to completely characterize the HEC for at most $n=5$ numbers of parties. For larger $n$, our knowledge of the HEC falls short of incomplete: almost nothing is known about its extremal elements. Here, we introduce a symmetrization procedure that projects the HEC onto a natural lower dimensional subspace. Upon symmetrization, we are able to deduce properties that its extremal structure exhibits for general $n$. Further, by applying this symmetrization to the quantum entropy cone, we are able to quantify the typicality of holographic entropies, which we find to be exponentially rare quantum entropies in the number of parties.
翻訳日:2023-03-05 07:40:17 公開日:2021-12-15
# 分子ダイマーの吸収スペクトル解析のためのガウス過程回帰

Gaussian Process Regression for Absorption Spectra Analysis of Molecular Dimers ( http://arxiv.org/abs/2112.07590v2 )

ライセンス: Link先を確認
Farhad Taher-Ghahramani and Fulu Zheng and Alexander Eisfeld(参考訳) 一般的な課題は分光からシステムパラメータを決定することである。そこでは、所望のパラメータに依存する計算されたスペクトルと実験スペクトルを比較する。 本稿では,Gaussian Process Regression(GPR)から数値計算のパラメータを選択する機械学習技術に基づくアプローチについて議論する。 このアプローチは、最適パラメータ集合に迅速に収束するだけでなく、完全なパラメータ空間に関する情報も提供し、例えば、数値スペクトルが実験値と整合した拡張パラメータ領域を特定できる。 我々は有機分子のダイマーの例と考え,特にモノマー間の相互作用と相互配向の抽出を目標としている。 実際、GPRは量子化学法を用いてこれらのパラメータの直接計算と一致する信頼性の高い結果を与える。

A common task is the determination of system parameters from spectroscopy, where one compares the experimental spectrum with calculated spectra, that depend on the desired parameters. Here we discuss an approach based on a machine learning technique, where the parameters for the numerical calculations are chosen from Gaussian Process Regression (GPR). This approach does not only quickly converge to an optimal parameter set, but in addition provides information about the complete parameter space, which allows for example to identify extended parameter regions where numerical spectra are consistent with the experimental one. We consider as example dimers of organic molecules and aim at extracting in particular the interaction between the monomers, and their mutual orientation. We find that indeed the GPR gives reliable results which are in agreement with direct calculations of these parameters using quantum chemical methods.
翻訳日:2023-03-04 14:03:29 公開日:2021-12-15
# リレーショナル量子力学はファクトか? もしそうなら、誰が? Di BiagioとRovelliのBruknerとPienaarへのコメント

Is Relational Quantum Mechanics about Facts? If So, Whose? A Reply to Di Biagio and Rovelli's Comment on Brukner and Pienaar ( http://arxiv.org/abs/2112.07830v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) BruknerとPienaarはRovelliのRelational Quantum Mechanicsを批判し、Di Biagioとともに、後者に答えた。 私の見解では、その回答が明確化を必要とするいくつかの場所を指摘します。

Brukner and Pienaar have critiqued the Relational Quantum Mechanics of Rovelli, and together with Di Biagio, the latter has replied. I point out a few places where, in my view, that reply needs clarification.
翻訳日:2023-03-04 12:09:38 公開日:2021-12-15
# レーザーリソグラフィーによるミクロンワイド超伝導ナノワイヤ単光子検出器

Laser-lithographically written micron-wide superconducting nanowire single-photon detectors ( http://arxiv.org/abs/2112.07976v1 )

ライセンス: Link先を確認
Maximilian Protte, Varun B. Verma, Jan Philipp H\"opker, Richard P. Mirin, Sae Woo Nam, Tim J. Bartley(参考訳) シリコン基板上にレーザーリソグラフィを用いたマイクロn広帯域のtungsten超伝導ナノワイヤ単光子検出器の作製を実証する。 電線幅0.59$\mu$mから1.43$\mu$mの飽和内部検出効率を1550nmの照明下で示す。 我々は直線線と蛇行構造の両方を実証する。 単一光子の感度は最大4mmのデバイスで示される。 レーザーリソグラフィーで書かれた装置は、電線幅の飽和した内部効率を約1$\mu$mで維持しながら、広い領域を高速かつ容易に構成することができる。

We demonstrate the fabrication of micron-wide tungsten silicide superconducting nanowire single-photon detectors on a silicon substrate using laser lithography. We show saturated internal detection efficiencies with wire widths from 0.59$\mu$m to 1.43$\mu$m under illumination at 1550nm. We demonstrate both straight wires, as well as meandered structures. Single-photon sensitivity is shown in devices up to 4mm in length. Laser-lithographically written devices allow for fast and easy structuring of large areas while maintaining a saturated internal efficiency for wire width around 1$\mu$m.
翻訳日:2023-03-04 12:07:32 公開日:2021-12-15
# 信頼度を考慮した多元的忠実度推定の理論

Theory of versatile fidelity estimation with confidence ( http://arxiv.org/abs/2112.07947v1 )

ライセンス: Link先を確認
Akshay Seshadri, Martin Ringbauer, Thomas Monz, Stephen Becker(参考訳) 量子情報タスクでは、目標状態による忠実度の推定が重要である。 多くの忠実度推定手法は,その推定に適した測定方法を示す。 対照的に,実験者が便利な測定設定を選択できる手法を提案する。 第一の焦点は、任意の測定設定に対して、ほぼ最小の最適信頼区間を持つ推定器を構成する方法である。 本手法は, 理論と数値の組合せにより, 実験不完全性に対するロバスト性, 競合的サンプル複雑性, 正確な推定値など, 様々な望ましい性質を示す。 提案手法を,最大確率推定法とそれに伴うプロファイル推定法,半定義型プログラミングに基づく手法,および一般的な直接忠実度推定法と比較した。

Estimating the fidelity with a target state is important in quantum information tasks. Many fidelity estimation techniques present a suitable measurement scheme to perform the estimation. In contrast, we present techniques that allow the experimentalist to choose a convenient measurement setting. Our primary focus lies on a method that constructs an estimator with nearly minimax optimal confidence interval for any specified measurement setting. We demonstrate, through a combination of theoretical and numerical results, various desirable properties for the method: robustness against experimental imperfections, competitive sample complexity, and accurate estimates in practice. We compare this method with Maximum Likelihood Estimation and the associated Profile Likelihood method, a Semi-Definite Programming based approach, as well as a popular direct fidelity estimation technique.
翻訳日:2023-03-04 12:07:22 公開日:2021-12-15
# Groverのアルゴリズムに基づく認証された複数パーティ量子鍵合意プロトコル

Authenticated Multiparty Quantum Key Agreement Protocol Based on Grover's Algorithm ( http://arxiv.org/abs/2112.07929v1 )

ライセンス: Link先を確認
Xin Zhang, Ning Wang, Song Lin(参考訳) 量子鍵合意プロトコルでは、一部の攻撃者は法的参加者を偽装して交渉プロセスに参加し、容易に合意鍵を盗むことができる。 これは、ほとんどの量子鍵合意プロトコルでは見過ごされ、安全性を損なう。 本稿では,量子探索アルゴリズムに基づく認証されたマルチパーティ量子鍵合意プロトコルを提案する。 本プロトコルでは,従来のハッシュ関数と識別情報を組み合わせることで,検索アルゴリズムの特性に応じた認証操作を設計する。 さらに,プロトコルが一般的な攻撃や偽装攻撃に対して安全であることを証明する,詳細なセキュリティ分析を行う。 一方,情報伝達に使用される単一粒子と単粒子計測は,既存の技術で実現可能なプロトコルである。

In the quantum key agreement protocols, some attackers can impersonate legal participant to participate in the negotiation process and steal the agreement key easily. This is often overlooked for most quantum key agreement protocols, which makes them insecure. In this paper, an authenticated multiparty quantum key agreement protocol based on quantum search algorithm is proposed. In the protocol, combining classical hash function with identity information, the authentication operation conforming to the characteristics of search algorithm is designed. In addition, we give a detailed security analysis, which proves that the protocol is secure against common attacks and impersonation attacks. Meanwhile, single particles, which are used as information carries, and single-particle measurement make our protocol feasible with existing technology.
翻訳日:2023-03-04 12:07:11 公開日:2021-12-15
# 信頼度を考慮した不確かさ推定

Versatile fidelity estimation with confidence ( http://arxiv.org/abs/2112.07925v1 )

ライセンス: Link先を確認
Akshay Seshadri, Martin Ringbauer, Rainer Blatt, Thomas Monz, Stephen Becker(参考訳) 量子デバイスがより複雑になり、これらのデバイスに対する要求がより要求されるようになるにつれ、そのようなデバイスの性能をスケーラブルで信頼性の高い方法で検証できることが不可欠である。 この課題の基本的な課題は、実験的に準備された量子状態が望ましい状態にどの程度近いかを定量化することである。 本稿では,任意の測定プロトコルと互換性のある量子状態忠実度推定器を構築する方法を提案する。 本手法は,この推定器に信頼区間を与え,特定測定プロトコルにほぼ最適であることが保証される。 本手法は, 高精度な測定手法として, 推定に必要な測定結果の数と競合する。 本手法は,トラップイオン量子コンピュータによるシミュレーションと実験データを用いて実証し,その結果を最先端技術と比較する。 本手法は,エンタングルメント証人などの観測可能な観測器の期待値を推定するために容易に拡張することができる。

As quantum devices become more complex and the requirements on these devices become more demanding, it is crucial to be able to verify the performance of such devices in a scalable and reliable fashion. A cornerstone task in this challenge is quantifying how close an experimentally prepared quantum state is to the desired one. Here we present a method to construct an estimator for the quantum state fidelity that is compatible with any measurement protocol. Our method provides a confidence interval on this estimator that is guaranteed to be nearly minimax optimal for the specified measurement protocol. For a well-chosen measurement scheme, our method is competitive in the number of measurement outcomes required for estimation. We demonstrate our method using simulations and experimental data from a trapped-ion quantum computer and compare the results to state-of-the-art techniques. Our method can be easily extended to estimate the expectation value of any observable, such as entanglement witnesses.
翻訳日:2023-03-04 12:07:01 公開日:2021-12-15
# トラス最適化問題に対する新規二成分粒子群最適化

Novelty-Driven Binary Particle Swarm Optimisation for Truss Optimisation Problems ( http://arxiv.org/abs/2112.07875v1 )

ライセンス: Link先を確認
Hirad Assimi, Frank Neumann, Markus Wagner, Xiaodong Li(参考訳) トラスのトポロジー最適化は、異なる最適設計を特定することで、実践者が好みに基づいて最適な設計を選択することができる組合せ的および多様問題として定式化することができる。 2レベル最適化はトトラス最適化に成功し、トポロジとサイズをそれぞれ上層と下層で考慮した。 トポロジ探索空間を厳密に解析し、小さな問題に対するランダム性を取り除くために正確な列挙を導入する。 また,より大きな問題に対する新規な二成分粒子群最適化を提案し,新規性を最大化することにより,上層における新しい設計の発見を行う。 下位レベルでは、信頼性の高い進化的オプティマイザを用いて、問題のレイアウト設定に対処する。 我々は、設計者がコードの制約に関して離散的な集合からバーのサイズを選択する必要があるトラス最適化問題インスタンスを考える。 実験の結果,我々のアプローチは最先端の手法よりも優れており,複数の高品質なソリューションが得られた。

Topology optimisation of trusses can be formulated as a combinatorial and multi-modal problem in which locating distinct optimal designs allows practitioners to choose the best design based on their preferences. Bilevel optimisation has been successfully applied to truss optimisation to consider topology and sizing in upper and lower levels, respectively. We introduce exact enumeration to rigorously analyse the topology search space and remove randomness for small problems. We also propose novelty-driven binary particle swarm optimisation for bigger problems to discover new designs at the upper level by maximising novelty. For the lower level, we employ a reliable evolutionary optimiser to tackle the layout configuration aspect of the problem. We consider truss optimisation problem instances where designers need to select the size of bars from a discrete set with respect to practice code constraints. Our experimental investigations show that our approach outperforms the current state-of-the-art methods and it obtains multiple high-quality solutions.
翻訳日:2023-03-04 12:06:22 公開日:2021-12-15
# 拡張ジョナサン-プレニオ-knight法による熱運動中の2つの捕捉イオンの絡み合いの発生

Generation of entanglement for two trapped ions in thermal motion with an extended Jonathan--Plenio--Knight method ( http://arxiv.org/abs/2112.07855v1 )

ライセンス: Link先を確認
Hiroo Azuma(参考訳) イオン量子コンピュータのためのジョナサン,プレニオ,ナイトの光シフト誘起量子ゲートの拡張について検討した。 そこで,本手法では,各イオンにレーザー場を割り当てることで2つのイオン間の絡み合いを発生させ,それらのレーザー場は周波数は等しいが位相差は$\pi$である。 このプロセスでは,2つの冷イオンの最大絡み合い状態,すなわち,中心モードフォノンの数が0に等しい操作時間を調整する。 しかし,熱揺らぎのためにフォノンが存在する場合,本方式では最大絡み合い状態は生成できない。 この問題を克服するために,イオンとフォノンモードに最適化されたユニタリ変換を適用することで,単一フォノンが存在する場合に高い忠実度でベル状態を得る方法を検討する。 具体例では、この最適補正により、熱平衡における平均フォノン数が最大で 0.200$ となる条件で、0.95$ のベル状態を取得することができる。 我々の提案のスイッチングレートは、CiracやZollerの量子ゲートよりも高い。

We investigate an extension of Jonathan, Plenio, and Knight's light-shift-induced quantum gate for a trapped ion quantum computer. In our method, we generate entanglement between two ions by illuminating each of them simultaneously with its own allocated laser field, where these laser fields are equal in frequency but have a phase difference of $\pi$. In this process, we adjust an operation time to obtain the maximally entangled state of the two cold ions, that is to say, the number of centre-of-mass mode phonons is equal to zero. However, our scheme cannot generate the maximally entangled state if the phonons exist because of thermal fluctuation. To overcome this problem, we examine how to gain the Bell state with high fidelity for the case where a single phonon exists with applying the optimized unitary transformation to the ion and the phonon mode. In our concrete example, this optimum correction allows us to acquire the Bell state with fidelity $0.95$ on condition that the mean phonon number in thermal equilibrium is equal to $0.200$ at most. The switching rate of our proposal is higher than that of Cirac and Zoller's quantum gate.
翻訳日:2023-03-04 12:05:20 公開日:2021-12-15
# 核スピンアンサンブルの非エルミートハミルトニアンによる混合状態

Mixed states driven by Non-Hermitian Hamiltonians of a nuclear spin ensemble ( http://arxiv.org/abs/2112.08169v1 )

ライセンス: Link先を確認
D. Cius, A. Consuelo-Leal, A. G. Araujo-Ferreira and R. Auccaise(参考訳) 非エルミート・ハミルトニアン作用素の枠組みを適用して、貯水池の影響下での非相互作用スピンアンサンブルの量子力学の研究を行った。 理論的には、2レベルモデルでは量子スピン系とブロッホベクトルを記述し、動的進化を確立する。 実験的に、スピン$I=1/2$のリン酸(^{31}$P)原子核は2レベル系を表すために使用され、磁化進化を測定し、理論予測と比較する。 室温では、周波数パルスと磁場の不均一性(または未知の縦方向のゆらぎ)の複合ダイナミクスは、z$軸に沿って初期量子状態を変換し、ダイナミクスの終わりに混合状態へと駆動する。 実験では, 理論予測 (>98\%) と比較して高い精度を示し, 高温領域における非エルミート理論の妥当性と有効性を確認した。

We study the quantum dynamics of a non-interacting spin ensemble under the effect of a reservoir by applying the framework of the non-Hermitian Hamiltonian operators. Theoretically, the two-level model describes the quantum spin system and the Bloch vector to establish the dynamical evolution. Experimentally, phosphorous ($^{31}$P) nuclei with spin $I=1/2$ are used to represent the two-level system and the magnetization evolution is measured and used to compare with the theoretical prediction. At room temperature, the composite dynamics of the radio-frequency pulse plus field inhomogeneities (or unknown longitudinal fluctuations) along the $z$-axis transform the initial quantum state and drives it into a mixed state at the end of the dynamics. The experimental setup shows a higher accuracy when compared with the theoretical prediction (>98\%), ensuring the relevance and effectiveness of the non-Hermitian theory at a high-temperature regime.
翻訳日:2023-03-04 11:59:50 公開日:2021-12-15
# ジグザグ型境界を持つ管および層におけるディラック作用素スペクトル

Dirac operator spectrum in tubes and layers with a zigzag type boundary ( http://arxiv.org/abs/2112.08109v1 )

ライセンス: Link先を確認
Pavel Exner and Markus Holzmann(参考訳) ディラック作用素に対する幾何的非自明な$\mathbb{R}^2$ と $\mathbb{R}^3$ の管や層がジグザグ型境界でディラック作用素の対応する性質を用いて導出される。

We derive a number of spectral results for Dirac operators in geometrically nontrivial regions in $\mathbb{R}^2$ and $\mathbb{R}^3$ of tube or layer shapes with a zigzag type boundary using the corresponding properties of the Dirichlet Laplacian.
翻訳日:2023-03-04 11:58:04 公開日:2021-12-15
# オープンシステムの準正規モードの正規化、直交性および完全性:電磁気学の場合

Normalization, orthogonality and completeness of quasinormal modes of open systems: the case of electromagnetism ( http://arxiv.org/abs/2112.08103v1 )

ライセンス: Link先を確認
C. Sauvan, T. Wu, R. Zarouf, E. A. Muljarov, P. Lalanne(参考訳) 共振系による電磁波の散乱は準正規モード(QNM)の励起、すなわち系の固有モードによって決定される。 このレビューでは、散乱体の表現を励起QNMの重ね合わせとして、正規化、直交、完全性という3つの基本的な概念を扱う。 直交性と正規化は任意の入射波に対するqnm励起強度の直接評価を可能にする。 完全性は散乱場をqnm基底に忠実に拡張できることを保証している。 これらの概念は非保存的(非エルミート的)な系では非自明であり、70年代の初期研究から多くの理論的発展を導いてきた。 しかし、近年の業績により、特に新参者にとって、広く散在する文学から容易には把握できない。 単純共振系におけるQNM基底の完全性に関する初期の研究で得られた基礎的な成果を振り返り、最近の正規化に関する成果と議論を概観し、どの状況下でQNM基底が完成しているかを明らかにし、複雑な座標変換によるQNM正規化の概念を強調した。

The scattering of electromagnetic waves by resonant systems is determined by the excitation of quasinormal modes (QNMs), i.e., the eigenmodes of the system. This Review addresses three fundamental concepts in relation with the representation of the scattered field as a superposition of the excited QNMs: normalization, orthogonality, and completeness. Orthogonality and normalization enable a straightforward assessment of the QNM excitation strength for any incident wave. Completeness guaranties that the scattered field can be faithfully expanded into the QNM basis. These concepts are non-trivial for non-conservative (non-Hermitian) systems and have driven many theoretical developments since initial studies in the 70's. Yet, owing to recent achievements, they are not easily grasped from the extensive and scattered literature, especially for newcomers in the field. After recalling fundamental results obtained in early studies on the completeness of the QNM basis for simple resonant systems, we review recent achievements and debates on the normalization, clarify under which circumstances the QNM basis is complete, and highlight the concept of QNM regularization with complex coordinate transform.
翻訳日:2023-03-04 11:57:53 公開日:2021-12-15
# 原子・イオン-原子軌道における原子・イオンの交感冷却機構

A New Mechanism for Sympathetic Cooling of Atoms and Ions in Atomic and Ion-Atomic Traps ( http://arxiv.org/abs/2112.08081v1 )

ライセンス: Link先を確認
V.S. Melezhik(参考訳) フェルミ気体とボソニック原子の緩衝ガスの交感神経冷却は、フェルミ系の量子縮退を達成する効率的な方法である。 しかし、この方法でイオンを最近まで冷却しようとする試みは、電磁ポールトラップにおける除去不能なイオン「マイクロモーション」のために効果が無かったため、多くのホットプロジェクトのコールドアトムイオンシステムによる実現が妨げられた。 本研究では, イオンの交感神経冷却のための新しい効率的な方法を提案する。この手法は, 原子イオン閉じ込め共鳴 (cirs) [v.s. melezhik, phys. rev. a103, 53109 (2021)] 領域におけるコールドバッファ原子の利用を目的としている。 しかし, 原子イオンCIR近傍では, マイクロモーションによる同調冷却の破壊効果が抑制されることが示唆された。 ここで、原子とイオンの密接な衝突の共鳴ブロックは「マイクロモーション」によってその加熱にも抵抗する。 本稿では,Li-Yb$^+$およびLi-Yb閉じ込め系を例に,原子イオンおよび原子-原子閉じ込め衝突におけるCIR周囲の交感冷却の効果について検討した。 このアプローチでは、冷たい光原子に対するシュル=オディンガー方程式は、衝突中のより高温の重イオンや原子に対する古典的なハミルトン方程式と同時に統合される。 我々は, ハイブリッド原子イオントラップにおいて, 低温原子によるイオンの交感冷却が可能となる原子イオンCIR近傍の領域を発見した。 また,原子CIRを用いて,原子トラップにおける交感神経冷却の効率を向上できることを示した。

Sympathetic cooling of a Fermi gas with a buffer gas of bosonic atoms is an efficient way to achieve quantum degeneracy in Fermi systems. However, all attempts to use this method for cooling ions until recently were ineffective because of the unremovable ion `"micromotion" in electromagnetic Paul traps, which prevents the realization of a number of hot projects with cold atom-ion systems. In this regard, we propose a new efficient method for sympathetic cooling of ions: the use for this purpose of cold buffer atoms in the region of atom-ion confinement-induced resonances (CIRs) [V.S. Melezhik, Phys. Rev. A103, 53109 (2021)]. We show that the destructive effect of "micromotion" on its sympathetic cooling can, however, be suppressed in the vicinity of the atom-ion CIR. Here, the resonant blocking of a close collision of an atom with an ion also resists its heating due to "micromotion". We investigate the effect of sympathetic cooling around CIRs in atom-ion, and atom-atom confined collisions within the quantum-quasiclassical approach using the Li-Yb$^+$ and Li-Yb confined systems as an example. In this approach, the Schr\"odinger equation for a cold light atom is integrated simultaneously with the classical Hamilton equations for a hotter heavy-ion or atom during a collision. We have found the region near the atom-ion CIR where the sympathetic cooling of the ion by cold atoms is possible in a hybrid atom-ion trap. We also show that it is possible to improve the efficiency of sympathetic cooling in atomic traps by using atomic CIRs.
翻訳日:2023-03-04 11:57:33 公開日:2021-12-15
# 一次元のあらゆるもの

Anyons in One Dimension ( http://arxiv.org/abs/2112.08021v1 )

ライセンス: Link先を確認
Martin Greiter(参考訳) 私は1次元の分数統計を非技術的に説明します。 周期境界条件を持つ系では、エノンの交叉は常に一方向であり、エノンによって獲得された分数相$\theta$ は、相対モーメントの間隔の分数シフト、${\delta p =2\pi\hbar/l\, (|\theta|/\pi+n)} をもたらす。 分数シフト $\theta/\pi$ は、単一粒子のモータタであるにもかかわらず相互作用する正の量子数であり、したがって非負整数 $n$ は一般にはそうではない。

I give a non-technical account of fractional statistics in one dimension. In systems with periodic boundary conditions, the crossing of anyons is always uni-directional, and the fractional phase $\theta$ acquired by the anyons gives rise to fractional shifts in the spacings of the relative momenta, ${\Delta p =2\pi\hbar/L\, (|\theta|/\pi+n)}$. The fractional shift $\theta/\pi$ is a good quantum number of interacting anyons, even though the single particle momenta, and hence the non-negative integers $n$, are generally not.
翻訳日:2023-03-04 11:57:02 公開日:2021-12-15
# 量子実験と精密測定のためのナノスケールねじり散逸希釈

Nanoscale torsional dissipation dilution for quantum experiments and precision measurement ( http://arxiv.org/abs/2112.08350v1 )

ライセンス: Link先を確認
Jon R. Pratt, Aman R. Agrawal, Charles A. Condos, Christian M. Pluchar, Stephan Schlamminger, and Dalziel J. Wilson(参考訳) トーション共振器は,ナノスケールひずみによる大きな消散希釈を経験できることを示すとともに,単純なトーションリボンが自然にソフトクランプであることを示すトーションバランスコミュニティからの1世紀前の理論との関連性を示す。 ナノメカニクスのコミュニティにおける一般的な信念を乱すことで、量子実験とナノメカニカル共振器による精密測定の戦略を再考する。 例えば, 変位を監視する光学レバー法を再検討し, ひずみナノビームの回転をキャビティや干渉安定性を使わずに, 基本ねじれモードのゼロ点運動よりも小さなインプレシションで解決できることを見出した。 また, 歪んだねじりリボンを, Q$ の係数を変えることなく, 質量積載できることがわかった。 この方法では、局所重力場のマイクロ$g$ゆらぎに共振周波数が敏感なチップスケールのねじりバランスを設計する。 これら2つの進歩は、Si$_3$N$_4$ナノビームの幅と厚さの比が10^4$と認識され、ねじりモードが幅と厚さの比が2乗であるようにスケーリングする$Q$、最大10^8$と$Q$周波数の製品が10^{13}$ Hzである、という認識である。

We show that torsion resonators can experience massive dissipation dilution due to nanoscale strain, and draw a connection to a century-old theory from the torsion balance community which suggests that a simple torsion ribbon is naturally soft-clamped. By disrupting a commonly held belief in the nanomechanics community, our findings invite a rethinking of strategies towards quantum experiments and precision measurement with nanomechanical resonators. For example, we revisit the optical lever technique for monitoring displacement, and find that the rotation of a strained nanobeam can be resolved with an imprecision smaller than the zero-point motion of its fundamental torsional mode, without the use of a cavity or interferometric stability. We also find that a strained torsion ribbon can be mass-loaded without changing its $Q$ factor. We use this strategy to engineer a chip-scale torsion balance whose resonance frequency is sensitive to micro-$g$ fluctuations of the local gravitational field. Enabling both these advances is the fabrication of high-stress Si$_3$N$_4$ nanobeams with width-to-thickness ratios of $10^4$ and the recognition that their torsional modes have $Q$ factors scaling as their width-to-thickness ratio squared, yielding $Q$ factors as high as $10^8$ and $Q$-frequency products as high as $10^{13}$ Hz.
翻訳日:2023-03-04 11:49:46 公開日:2021-12-15
# Digitized-Counterdiabatic Quantum Algorithmによるポートフォリオ最適化

Portfolio Optimization with Digitized-Counterdiabatic Quantum Algorithms ( http://arxiv.org/abs/2112.08347v1 )

ライセンス: Link先を確認
N. N. Hegade, P. Chandarana, K. Paul, X. Chen, F. Albarr\'an-Arriagada, and E. Solano(参考訳) 我々は、NISQ時代の産業応用における量子優位性にアプローチするための先進パラダイムとして、デジタルカウンテルダイアバティック量子コンピューティングを考える。 我々は,この概念を離散平均分散ポートフォリオ最適化問題に応用し,主要なファイナンスアプリケーションにおいてその有用性を示す。 本解析は, 近似逆ダイアバティック法を導入すると, 結果のディジタル量子アルゴリズムの成功確率が大幅に向上することを示す。 これらの線に沿って、QAOAやDC-QAOAといった変分量子アルゴリズムによる手法の性能向上について論じる。

We consider digitized-counterdiabatic quantum computing as an advanced paradigm to approach quantum advantage for industrial applications in the NISQ era. We apply this concept to investigate a discrete mean-variance portfolio optimization problem, showing its usefulness in a key finance application. Our analysis shows a drastic improvement in the success probabilities of the resulting digital quantum algorithm when approximate counterdiabatic techniques are introduced. Along these lines, we discuss the enhanced performance of our methods over variational quantum algorithms like QAOA and DC-QAOA.
翻訳日:2023-03-04 11:49:14 公開日:2021-12-15
# 米国における早期COVID-19政策介入に関する郡レベルデータのクラウドソーシング:技術報告

Crowdsourcing County-Level Data on Early COVID-19 Policy Interventions in the United States: Technical Report ( http://arxiv.org/abs/2112.08279v1 )

ライセンス: Link先を確認
Jacob Ritchie, Mark Whiting, Sorathan Chaturapruek, J.D. Zamfirescu-Pereira, Madhav Marathe, Achla Marathe, Stephen Eubank, Michael S. Bernstein(参考訳) 2020年4月からは、ボランティアと有料のクラウドソーシングの両方を用いて、米国でのCOVID-19パンデミックに対応するために実施された非医薬品介入(NPI)に関する郡レベルのデータを収集しました。 本稿では,データ収集過程を文書化し,その結果を要約し,オープンデータの有用性を高め,今後のクラウドソーシングデータ収集活動の設計について報告する。

Beginning in April 2020, we gathered partial county-level data on non-pharmaceutical interventions (NPIs) implemented in response to the COVID-19 pandemic in the United States, using both volunteer and paid crowdsourcing. In this report, we document the data collection process and summarize our results, to increase the utility of our open data and inform the design of future rapid crowdsourcing data collection efforts.
翻訳日:2023-03-04 11:48:13 公開日:2021-12-15
# 量子平均力ギブス状態の数値評価とロバスト性

Numerical evaluation and robustness of the quantum mean force Gibbs state ( http://arxiv.org/abs/2112.08254v1 )

ライセンス: Link先を確認
Yiu-Fung Chiu, Aidan Strathearn, Jonathan Keeling(参考訳) 本稿では,貯水池に強く結合した量子系に対する平均力のハミルトニアンギブス状態を決定する数値的手法を提案する。 この方法は,TEMPO(Time Evolving Matrix Product Operator)アルゴリズムを仮想時間伝搬に適用する。 一般化スピンボーソンモデルの実時間および虚時伝播を比較することにより、hmf gibbs状態が定常状態を正しく予測できることを確認する。 数値力学は強結合におけるポーラロンマスター方程式と一致することを示す。 クビット間の貯水池による絡み合いを探索することにより, 仮想時間TEMPO手法の可能性を示す。

We introduce a numerical method to determine the Hamiltonian of Mean Force (HMF) Gibbs state for a quantum system strongly coupled to a reservoir. The method adapts the Time Evolving Matrix Product Operator (TEMPO) algorithm to imaginary time propagation. By comparing the real-time and imaginary-time propagation for a generalized spin-boson model, we confirm that the HMF Gibbs state correctly predicts the steady state. We show that the numerical dynamics match the polaron master equation at strong coupling. We illustrate the potential of the imaginary-time TEMPO approach by exploring reservoir-induced entanglement between qubits.
翻訳日:2023-03-04 11:47:39 公開日:2021-12-15
# ハイブリッド量子系における普遍干渉に基づくガウス演算の構成

Universal interference-based construction of Gaussian operations in hybrid quantum systems ( http://arxiv.org/abs/2112.08208v1 )

ライセンス: Link先を確認
Mengzhen Zhang, Shoumik Chowdhury, Liang Jiang(参考訳) ビームスプリッター演算は、ボソニックモードで符号化された量子情報を処理するための必須資源である。 しかし、ハイブリッド量子システムでは、様々な実験的不完全性のため、2つの異なるボソニックモード間で信頼性の高いビームスプリッターを実装することは困難である。 ビームスプリッターがなければ、ボソニックモード間の任意のガウス演算を実現することは、非常に非自明あるいは実現不可能となる。 本研究では,ビームスプリッタを必要とせず,多モードハイブリッドボソニックシステムにおけるガウス演算のための干渉に基づく新しいプロトコルを開発する。 具体的には、与えられた汎用多モードガウスユニタリカプラに対して、ボソニックモードの所望の部分集合上でガウス演算を構築する普遍的なスキームを示し、与えられたカプラの複数の利用だけを単一モードガウスユニタリでインターリーブする。 この結果は,量子情報科学に不可欠な操作を効率的に構築し,ボゾン系の基本物性から導出する。 提案手法は,特定のエッジケースを除いて,既存のプラットフォームやカウンタに広く適用可能である。 本稿では,本研究の干渉型構成に付随する本質的不変構造を用いて,これらのエッジケースを同定・処理するための体系的アプローチを提案する。

Beam-splitter operations are an indispensable resource for processing quantum information encoded in bosonic modes. However, in hybrid quantum systems, it can be challenging to implement reliable beam-splitters between two distinct bosonic modes due to various experimental imperfections. Without beam-splitters, realizing arbitrary Gaussian operations between bosonic modes can become highly non-trivial or even infeasible. In this work, we develop novel interference-based protocols for engineering Gaussian operations in multi-mode hybrid bosonic systems without requiring beam-splitters. Specifically, for a given generic multi-mode Gaussian unitary coupler, we demonstrate a universal scheme for constructing Gaussian operations on a desired subset of bosonic modes, requiring only multiple uses of the given coupler interleaved with single-mode Gaussian unitaries. Our results provide efficient construction of operations crucial to quantum information science and are derived from fundamental physical properties of bosonic systems. The proposed scheme is thus widely applicable to existing platforms and couplers, with the exception of certain edge cases. We introduce a systematic approach to identify and treat these edge cases by utilizing a novel intrinsically invariant structure associated with our interference-based construction.
翻訳日:2023-03-04 11:47:31 公開日:2021-12-15
# 量子化qcdのスペクトル:$s(1080)$ゲージ理論におけるグルーボール

The spectrum of qubitized QCD: glueballs in a $S(1080)$ gauge theory ( http://arxiv.org/abs/2112.08482v1 )

ライセンス: Link先を確認
Andrei Alexandru, Paulo F. Bedaque, Ruair\'i Brett, Henry Lamm(参考訳) QCDの量子シミュレーションは無限次元グルーオン場のデジタル化を必要とする。 最小のキュービット数でこれを行うためのスキームが望ましい。 我々は、その離散部分群 $s(1080)$ を通じて、$su(3)$ゲージ理論の実用的なデジタル化を示す。 a\approx 0.08$ fm までの古典的シミュレーションを可能にする修正された作用を用いて、低次グルーボールスペクトルは、複数の格子間隔でパーセント精度で計算され、su(3)$結果の連続限界に外挿することが示される。 これは、このデジタル化方式がQCDの精度量子シミュレーションに十分であることを示している。

Quantum simulations of QCD require digitization of the infinite-dimensional gluon field. Schemes for doing this with the minimum amount of qubits are desirable. We present a practical digitization for $SU(3)$ gauge theories via its discrete subgroup $S(1080)$. Using a modified action that allows classical simulations down to $a\approx 0.08$ fm, the low-lying glueball spectrum is computed with percent-level precision at multiple lattice spacings and shown to extrapolate to the continuum limit $SU(3)$ results. This suggests that this digitization scheme is sufficient for precision quantum simulations of QCD.
翻訳日:2023-03-04 11:40:28 公開日:2021-12-15
# ポテンシャルの量子起源について

On the quantum origin of potentials ( http://arxiv.org/abs/2112.08461v1 )

ライセンス: Link先を確認
Saurya Das and Sourav Sur(参考訳) 量子粒子の動力学はその波動関数によって制御され、それが対象となる古典ポテンシャルによって決定される。 しかし、波動関数自体が量子ポテンシャルを誘導し、粒子は古典ポテンシャルと量子ポテンシャルの和を「見る」ので、2つを分離する方法はない。 したがって、原理上、観測されたポテンシャルの一部または全体は量子ポテンシャルに起因する可能性がある。 この可能性を調べ、意味を議論する。

The dynamics of a quantum particle is governed by its wavefunction, which in turn is determined by the classical potential to which it is subjected. However the wavefunction itself induces a quantum potential, the particle `sees' the sum of the classical and quantum potentials, and there is no way to separate the two. Therefore in principle, part or whole of an observed potential may be attributable to a quantum potential. We examine this possibility and discuss implications.
翻訳日:2023-03-04 11:40:17 公開日:2021-12-15
# オフライン量子強化機械学習のためのカーネル行列補完

Kernel Matrix Completion for Offline Quantum-Enhanced Machine Learning ( http://arxiv.org/abs/2112.08449v1 )

ライセンス: Link先を確認
Annie Naveh, Imogen Fitzgerald, Anna Phan, Andrew Lockwood, and Travis L. Scholten(参考訳) 量子カーネルによる古典的機械学習(ML)アルゴリズムの強化は、量子機械学習(QML)における急速に成長する研究トピックである。 古典的および量子的両方のカーネルを使用する上で重要な課題は、MLワークフローが新しいカーネル値を計算する必要がある新しい観察を取得することに関わることである。 新しい観測結果が生成された場所と量子コンピュータの間のデータの転送には時間遅延が伴うため、この遅延はqmlアルゴリズムを使用するための時間スケールを超える可能性がある。 本研究では,古典的(和グラフに基づく)行列補完アルゴリズムを用いて,量子カーネル行列を拡張して新しいデータを組み込む方法を示す。 完全完了に必要な最小のサンプル複雑性は行列のランクに依存する。 私たちはそれを経験的に示します a) 最小サンプルの複雑さが満たされた場合、このアルゴリズムを用いて量子カーネル行列を完成させることができる。 (b)有限サンプリングノイズの存在下において、完了の誤りは優雅に劣化し、 (c) 量子カーネル行列のランクは、カーネルを生成する量子特徴写像の表現可能性に弱に依存する。 さらに、実世界の産業関連データセットでは、最小サンプルの複雑さが到達していない場合でも、完了誤差は良好に振る舞う。

Enhancing classical machine learning (ML) algorithms through quantum kernels is a rapidly growing research topic in quantum machine learning (QML). A key challenge in using kernels -- both classical and quantum -- is that ML workflows involve acquiring new observations, for which new kernel values need to be calculated. Transferring data back-and-forth between where the new observations are generated & a quantum computer incurs a time delay; this delay may exceed the timescales relevant for using the QML algorithm in the first place. In this work, we show quantum kernel matrices can be extended to incorporate new data using a classical (chordal-graph-based) matrix completion algorithm. The minimal sample complexity needed for perfect completion is dependent on matrix rank. We empirically show that (a) quantum kernel matrices can be completed using this algorithm when the minimal sample complexity is met, (b) the error of the completion degrades gracefully in the presence of finite-sampling noise, and (c) the rank of quantum kernel matrices depends weakly on the expressibility of the quantum feature map generating the kernel. Further, on a real-world, industrially-relevant data set, the completion error behaves gracefully even when the minimal sample complexity is not reached.
翻訳日:2023-03-04 11:40:10 公開日:2021-12-15
# スクイージング作用素の遷移行列要素のコヒーレントかつ非コヒーレントな重ね合わせ

Coherent and incoherent superposition of transition matrix elements of the squeezing operator ( http://arxiv.org/abs/2112.08430v1 )

ライセンス: Link先を確認
Sandor Varro(参考訳) 本研究では,高調波発振器の数固有状態(電磁放射の量子化モード)間のスクイージング演算子の一般行列要素について考察する。 これらの行列要素は、Popov と Perelomov (1969) によって、高調波発振器のパラメトリック励起の徹底的な解析において初めて使われた。 彼らは超越関数、関連するルジャンドル関数の観点から行列要素を表現した。 本稿では,これらの行列要素が古典的なゲゲンバウアー多項式によっても表現できることを示す。 この新しい表現により、閉解析形式におけるこれらの行列要素のコヒーレントかつ非コヒーレントな重ね合わせを決定できる。 例として、(強い)コヒーレント場または(プランクボース光子数分布を持つ)黒体放射成分によって誘導される「荷電粒子+電磁放射」系の多光子遷移を記述する。 正確な結果は半古典的な結果と比較される。 熱場と相互作用する場合、半古典的結果(ガウスの確率場振幅)はレイリー=ジャンス極限でのみ許容される近似となるが、ヴィーンの極限では完全に失敗する。

We discuss the general matrix elements of the squeezing operator between number eigenstates of a harmonic oscillator (which may also represent a quantized mode of the electromagnetic radiation). These matrix elements have first been used by Popov and Perelomov (1969) long ago, in their thorough analysis of the parametric excitation of harmonic oscillators. They expressed the matrix elements in terms of transcendental functions, the associated Legendre functions. In the present paper we will show that these matrix elements can also be expressed by the classical Gegenbauer polynomials. This new expression makes it possible to determine coherent and incoherent superpositions of these matrix elements in closed analytic forms. As an application, we describe multiphoton transitions in the system "charged particle + electromagnetic radiation", induced by a (strong) coherent field or by a black-body radiation component (with a Planck-Bose photon number distribution). The exact results are compared with the semi-classical ones. We will show that in case of interaction with a thermal field, the semi-classical result (with a Gaussian stochastic field amplitude) yields an acceptable approximation only in the Rayleigh-Jeans limit, however, in the Wien limit it completely fails.
翻訳日:2023-03-04 11:39:51 公開日:2021-12-15
# 2つの量子ビット測定の不整合性の実験的決定

Experimentally determining the incompatibility of two qubit measurements ( http://arxiv.org/abs/2112.08408v1 )

ライセンス: Link先を確認
Andrea Smirne, Simone Cialdi, Daniele Cipriani, Claudio Carmeli, Alessandro Toigo, Bassano Vacchini(参考訳) 2つの量子ビット測定の非互換性を評価するための実験手順を記述・実現する。 この実験は、ある部分的な中間情報に基づいてどちらの測定も使用される状態判別タスクで構成される。 タスクの成功統計は、その非互換性の堅牢性によって定量化されるため、2つの測定の非互換性の量に対する上限を与える。 広範に偏りがありうる量子ビットの測定のために、実験の準備を適切に調整することで、この上限をロバスト性の実値と一致させることができる。 この事実を,光子の偏光度に量子状態が符号化され,測定の最終射影段階の振幅,位相,純度に対する制御により不整合性が直接アクセスされる光学装置で実証する。 そこで本研究では,最近提案されている量子不整合検出法の実現可能性を確立した。

We describe and realize an experimental procedure for assessing the incompatibility of two qubit measurements. The experiment consists in a state discrimination task where either measurement is used according to some partial intermediate information. The success statistics of the task provides an upper bound for the amount of incompatibility of the two measurements, as it is quantified by means of their incompatibility robustness. For a broad class of unbiased and possibly noisy qubit measurements, one can make this upper bound coincide with the true value of the robustness by suitably tuning the preparation of the experiment. We demonstrate this fact in an optical setup, where the qubit states are encoded into the photons' polarization degrees of freedom, and incompatibility is directly accessed by virtue of a refined control on the amplitude, phase and purity of the final projection stage of the measurements. Our work thus establishes the practical feasibility of a recently proposed method for the detection of quantum incompatibility.
翻訳日:2023-03-04 11:39:28 公開日:2021-12-15
# 結び目と絡み目

Knots and entanglement ( http://arxiv.org/abs/2112.08398v1 )

ライセンス: Link先を確認
Jin-Long Huang, John McGreevy, Bowen Shi(参考訳) 絡み合うブートストラップアプローチを (3+1)-次元に拡張する。 3+1次元液体トポロジカル秩序の結び付き励起とループのエキゾチック融合過程について検討した。 2+1)次元の以前の研究と同様に、基底状態エンタングルメントエントロピー上の2つの公理から様々な超選択セクターと融合空間を定義する。 特に、結び目に関連する融合空間を同定する。 我々は情報凸集合を没入領域と呼ばれる新しい種類の領域に一般化し、この新しい文脈に様々な定理を奨励する。 例えば、結び目多重性の具体的な計算は、トレフォイル結び目の結び目補集合が量子情報を格納できることを示している。 我々は、トーラス結び目とフラックスのスパイラル融合の一貫性関係を理解することができるスパイラル写像を定義する。

We extend the entanglement bootstrap approach to (3+1)-dimensions. We study knotted excitations of (3+1)-dimensional liquid topological orders and exotic fusion processes of loops. As in previous work in (2+1)-dimensions, we define a variety of superselection sectors and fusion spaces from two axioms on the ground state entanglement entropy. In particular, we identify fusion spaces associated with knots. We generalize the information convex set to a new class of regions called immersed regions, promoting various theorems to this new context. Examples from solvable models are provided; for instance, a concrete calculation of knot multiplicity shows that the knot complement of a trefoil knot can store quantum information. We define spiral maps that allow us to understand consistency relations for torus knots as well as spiral fusions of fluxes.
翻訳日:2023-03-04 11:39:14 公開日:2021-12-15
# 私が見ているものが見えるか? マルチメディアコンテンツ自動分析の能力と限界

Do You See What I See? Capabilities and Limits of Automated Multimedia Content Analysis ( http://arxiv.org/abs/2201.11105v1 )

ライセンス: Link先を確認
Carey Shenkman, Dhanaraj Thakur, Emma Llans\'o(参考訳) オンラインのユーザー生成コンテンツの増加は、近年、自動コンテンツ分析ツールの研究と投資の拡大につながっている。 新型コロナウイルス(covid-19)のパンデミックで、自動コンテンツ分析の精査が加速している。ソーシャルネットワーキングサービスが、モデレーションスタッフの対人作業から健康リスクに関する懸念から、これらのツールへの依存度を高めているためだ。 同時に、表現の自由とプライバシーを保護しながらコンテンツモデレーションを改善する方法については、世界中の重要な政策論争がある。 これらの議論を進めるためには、自動コンテンツ分析ツールの潜在的な役割を理解する必要がある。 本稿では,オンラインマルチメディアコンテンツを解析するためのツールの機能と限界を説明し,その限界を考慮せず,大規模にツールを使用する潜在的なリスクを強調する。 マッチングモデルとコンピュータ予測モデルという2つの主要なツールカテゴリに焦点を当てている。 マッチングモデルには暗号的および知覚的ハッシュがあり、ユーザ生成コンテンツと既存のおよび既知のコンテンツを比較する。 予測モデル(コンピュータビジョンやコンピュータオーディションを含む)は、新しい、あるいは以前未知のコンテンツの特徴を特定することを目的とした機械学習技術である。

The ever-increasing amount of user-generated content online has led, in recent years, to an expansion in research and investment in automated content analysis tools. Scrutiny of automated content analysis has accelerated during the COVID-19 pandemic, as social networking services have placed a greater reliance on these tools due to concerns about health risks to their moderation staff from in-person work. At the same time, there are important policy debates around the world about how to improve content moderation while protecting free expression and privacy. In order to advance these debates, we need to understand the potential role of automated content analysis tools. This paper explains the capabilities and limitations of tools for analyzing online multimedia content and highlights the potential risks of using these tools at scale without accounting for their limitations. It focuses on two main categories of tools: matching models and computer prediction models. Matching models include cryptographic and perceptual hashing, which compare user-generated content with existing and known content. Predictive models (including computer vision and computer audition) are machine learning techniques that aim to identify characteristics of new or previously unknown content.
翻訳日:2023-03-04 11:32:26 公開日:2021-12-15
# データセット特性に関する不均衡データ分類に適した再サンプリング戦略の選択

Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties ( http://arxiv.org/abs/2201.07932v1 )

ライセンス: Link先を確認
Mohamed S. Kraiem, Fernando S\'anchez-Hern\'andez and Mar\'ia N. Moreno-Garc\'ia(参考訳) 医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。 この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。 したがって、予測モデルは信頼できないが、全体のモデルの精度は許容できる。 オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。 しかし、それらの効果は、不均衡比、データセットのサイズ、寸法、クラス間の重なりや境界の例といったデータ固有の特性に主に関係するいくつかの要因に依存する。 本研究は、異なるアプリケーション領域の40のデータセットを含む包括的比較研究を通して、これらの要因の影響を分析した。 その目的は、その特性に基づいて任意のデータセットの最適な再サンプリング戦略を自動的に選択するためのモデルを得ることである。 これらのモデルは、幅広い条件をカバーする非常に多様なデータセットから引き起こされるため、幅広い値を考慮して同時に複数の因子をチェックすることができる。 これは、特性の個々の分析に焦点を当てたり、少数の値をカバーする多くの研究とは異なる。 さらに、不均衡なデータ分類のために特別に設計された新しい措置を含む、8つの異なるパフォーマンス指標によって評価される基本的な再サンプリング戦略と先進的な再サンプリング戦略の両方を包含する。 提案の一般的な性質は、ドメインに関係なく最も適切なメソッドを選択することを可能にし、ターゲットデータに有効な特別な用途のテクニックの探索を避ける。

In many application domains such as medicine, information retrieval, cybersecurity, social media, etc., datasets used for inducing classification models often have an unequal distribution of the instances of each class. This situation, known as imbalanced data classification, causes low predictive performance for the minority class examples. Thus, the prediction model is unreliable although the overall model accuracy can be acceptable. Oversampling and undersampling techniques are well-known strategies to deal with this problem by balancing the number of examples of each class. However, their effectiveness depends on several factors mainly related to data intrinsic characteristics, such as imbalance ratio, dataset size and dimensionality, overlapping between classes or borderline examples. In this work, the impact of these factors is analyzed through a comprehensive comparative study involving 40 datasets from different application areas. The objective is to obtain models for automatic selection of the best resampling strategy for any dataset based on its characteristics. These models allow us to check several factors simultaneously considering a wide range of values since they are induced from very varied datasets that cover a broad spectrum of conditions. This differs from most studies that focus on the individual analysis of the characteristics or cover a small range of values. In addition, the study encompasses both basic and advanced resampling strategies that are evaluated by means of eight different performance metrics, including new measures specifically designed for imbalanced data classification. The general nature of the proposal allows the choice of the most appropriate method regardless of the domain, avoiding the search for special purpose techniques that could be valid for the target data.
翻訳日:2023-03-04 11:31:36 公開日:2021-12-15
# グローバルオーディオストリーミングプラットフォームのためのベストプライバシ実践勧告

Best Privacy Practice Recommendations for Global Audio Streaming Platforms ( http://arxiv.org/abs/2112.11198v1 )

ライセンス: Link先を確認
Annette Stawsky, Kang-Yu Wang, Ye In Kim, Dong Hyuk Shin(参考訳) Spoon Radioは急速に成長しているグローバルオーディオストリーミングプラットフォームで、現在韓国、米国、日本、中東、北アフリカで運用されている。 プラットフォームは、ユーザーのプライバシーへのコミットメントが重要な競争要因であると信じている。 そのため同社は、現在運用されている地域での既存のプライバシー規制に準拠するだけでなく、これらの規制やユーザーからの期待に合わせた進化を期待することを目指している。 そのためにspoon radioは、新しい市場への拡大を継続する準備を整えたい、と願っている。 データプラクティスの進化を知らせる取り組みの一環として、スプーンラジオはcmuのプライバシー工学プログラムに接触し、2021年の秋学期を通じて2人の修士課程生がスプーンラジオ職員と協力するcapstoneプロジェクトを支援した。 本報告では,このコラボレーションから得られたベストプラクティスを要約する。 これらのベストプラクティスは、現在スプーンラジオによって実装または実施されているプラクティスと、将来スプーンラジオのプラクティスを知らせる上で役立つであろうより意欲的な推奨の組み合わせです。 本報告では,データ収集,データストレージ,データ利用,最後にデータ破壊という,データライフサイクルの4つの段階について,ベストプラクティスレコメンデーションを整理する。 コンテンツモデレーション(コンテンツモデレーション)は、Spoon Radioなどのプラットフォームが表現の自由の促進や、適用法を遵守し、関連する文化的価値を尊重する安全で尊敬すべき環境の創出など、考慮事項を整理する必要がある分野である。

Spoon Radio is a rapidly growing global audio streaming platform which currently operates in South Korea, the United States, Japan as well as the Middle East and North Africa. The platform believes that its commitment to user privacy is an important competitive factor. As such, it aims to not just comply with existing privacy regulations in regions where it operates today but to also ensure that it anticipates likely evolution to these regulations and of user expectations. In doing so, Spoon Radio wants to ensure it is well prepared to continue its expansion into new markets. As part of an effort to inform the evolution of its data practices, Spoon Radio reached out to the Privacy Engineering Program at CMU and sponsored a capstone project in which two master's students in the Program worked with Spoon Radio personnel over the course of the 2021 Fall Semester. The present report summarizes best practice recommendations that have emerged from this collaboration. These best practices are a combination of practices that are already implemented or in the process of being implemented by Spoon Radio today as well as more aspirational recommendations, which are expected to help inform Spoon Radio's practices in the future. In this report, best practice recommendations are organized around four stages of the data life cycle: data collection, data storage, data usage, and finally data destruction. A separate section is devoted to content moderation, an area where platforms such as Spoon Radio need to reconcile considerations such as promoting freedom of expression with the need to create a safe and respectful environment that complies with applicable laws and respects relevant cultural values.
翻訳日:2023-03-04 11:31:12 公開日:2021-12-15
# ピアレビュー出版のためのネットワークベースのブロックチェーンエコシステム

A Network based Blockchain ecosystem for peer review publication ( http://arxiv.org/abs/2112.11189v1 )

ライセンス: Link先を確認
Omid Fatahi Valilai(参考訳) 新興技術としてのブロックチェーンは多くの伝統的なエコシステムやビジネスモデルを変えてきた。 出版レビューシステムは、トランスフォーメーションの興味深いテーマの1つです。 早急な批判に加えて、従来の出版レビューのモデルは、トランスフォーメーションを必要とします。 本稿では,出版レビューシステムにおける文献レビューの最大の欠点について検討した。 文献におけるブロックチェーン技術の能力と変換能力を調査し、ネットワークベースのブロックチェーンエコシステムを提案する。 このエコシステムは、出版レビュープロセスにおいて著者、レビュアー、その他の利害関係者に対して、分散的で透明で効果的なコラボレーションメカニズムを提供する。 エコシステムの主な利点は、すべてのステークホルダーのコミットと出版における彼らの貢献を認識することです。 さらに、エコシステムは、そのトークンモデルで将来の引用で出版された評判からステークホルダーに利益をもたらす。 提案するエコシステムのアーキテクチャは,出版内容の管理と利害関係者への共有を支援する。 さらに、利害関係者間のプロセスのガバナンスのためのスマートコントラクトの設定も可能になる。 トークントランザクションを満足させるために、トークントランザクションブロックチェーンモデルを使用する。 エコシステムにおけるレイヤの機能と詳細は、出版レビューエコシステムの新しいパラダイムについて論じられている。

Blockchain as an emerging technology has transformed many traditional and conventional ecosystems and business models. Publication review system is one of the interesting subjects for transformation. The conventional models of publication review besides the urgent criticisms necessitates a transformation. This paper has investigated the most dominant shortcomings of literature review of publication review systems. Investigating the capabilities of Blockchain technology in the literature and its transformative capabilities, a network based Blockchain ecosystem is proposed. The ecosystem is providing a decentralized, transparent, and effective collaboration mechanisms for authors, reviewers, and other stakeholders in publication review processes. The main advantage of the ecosystem is committing the of all stakeholders and recognizing their contributions in a publication. Moreover, the ecosystem profits the stakeholders from the resulted reputation of the publication in future citations with its token model. The architecture of the proposed ecosystem supports the management of publication contents and sharing it for stakeholders. Moreover, it enables the configuration of smart contracts for governance of processes among stakeholders. It uses a token transaction Blockchain model to fulfill the token transactions. The capabilities and details of layers in the ecosystem has been discussed addressing the new paradigm of publication review ecosystem.
翻訳日:2023-03-04 11:30:42 公開日:2021-12-15
# 多層構造モデルによる一点相互作用の実現条件

Conditions for realizing one-point interactions from a multi-layer structure model ( http://arxiv.org/abs/2112.08510v1 )

ライセンス: Link先を確認
Alexander V. Zolotaryuk and Yaroslav Zolotaryuk(参考訳) N$平行な均質層からなるヘテロ構造を、その幅が$l_1, \ldots , l_N$を0に縮めるように極限で研究する。 問題は一次元で調べられ、シュルンディンガー方程式の断片的定数ポテンシャルは、それぞれ$l_1, \ldots , V_N$ の関数として、強度 $V_1, \ldots , l_N$ で与えられる。 キーポイントは、一点相互作用の族を l_1, \ldots , l_n$ で実現する関数 $v_1(l_1), \ldots , v_n(l_n)$ 上の条件の導出である。 多層構造を経由する量子粒子の非零トンネル化が起こる系のパラメータ値を決定する解であるスクイーズド構造に対する方程式の存在が示され、経路に依存する。 このトンネルは、分岐が適切にキャンセルされた結果として現れる。

A heterostructure composed of $N$ parallel homogeneous layers is studied in the limit as their widths $l_1, \ldots , l_N$ shrink to zero. The problem is investigated in one dimension and the piecewise constant potential in the Schr\"{o}dinger equation is given by the strengths $V_1, \ldots , V_N$ as functions of $l_1, \ldots , l_N$, respectively. The key point is the derivation of the conditions on the functions $V_1(l_1), \ldots , V_N(l_N)$ for realizing a family of one-point interactions as $l_1, \ldots , l_N$ tend to zero along available paths in the $N$-dimensional space. The existence of equations for a squeezed structure, the solution of which determines the system parameter values, under which the non-zero tunneling of quantum particles through a multi-layer structure occurs, is shown to exist and depend on the paths. This tunneling appears as a result of an appropriate cancellation of divergences.
翻訳日:2023-03-04 11:30:10 公開日:2021-12-15
# スペクトル密度推定による平均ケース加速度

Average-case Acceleration Through Spectral Density Estimation ( http://arxiv.org/abs/2002.04756v6 )

ライセンス: Link先を確認
Fabian Pedregosa, Damien Scieur(参考訳) 本研究では,この解析で最適となる確率2次問題と導出アルゴリズムの平均ケース解析のためのフレームワークを開発する。 これにより、ヘッセンの固有値分布のモデルが与えられたとき、加速度を達成する新しいクラスの方法が得られる。 我々は, 均一性, マルテンコ・パストゥル, 指数分布の明示的アルゴリズムを開発した。 これらの方法は運動量に基づくアルゴリズムであり、その超パラメータはヘッセンの最小特異値を知ることなく推定できるが、ネステロフ加速やポリア運動量のような古典的加速法とは対照的である。 二次回帰問題およびロジスティック回帰問題に関する経験的ベンチマークを通じて,提案手法が古典的(ワーストケース)加速法よりも向上するレジームを同定する。

We develop a framework for the average-case analysis of random quadratic problems and derive algorithms that are optimal under this analysis. This yields a new class of methods that achieve acceleration given a model of the Hessian's eigenvalue distribution. We develop explicit algorithms for the uniform, Marchenko-Pastur, and exponential distributions. These methods are momentum-based algorithms, whose hyper-parameters can be estimated without knowledge of the Hessian's smallest singular value, in contrast with classical accelerated methods like Nesterov acceleration and Polyak momentum. Through empirical benchmarks on quadratic and logistic regression problems, we identify regimes in which the the proposed methods improve over classical (worst-case) accelerated methods.
翻訳日:2023-01-01 20:30:41 公開日:2021-12-15
# メタラーニングによるインクリメンタル物体検出

Incremental Object Detection via Meta-Learning ( http://arxiv.org/abs/2003.08798v3 )

ライセンス: Link先を確認
K J Joseph, Jathushan Rajasegaran, Salman Khan, Fahad Shahbaz Khan, Vineeth N Balasubramanian(参考訳) 現実世界では、新しいクラスのオブジェクトインスタンスがオブジェクト検出器によって継続的に遭遇することがある。 このようなシナリオに既存のオブジェクト検出器を適用すると、古いクラスの性能は著しく低下する。 この制限に対処するためのいくつかの取り組みが報告されており、これらは全て破滅的な忘れ物を避けるために知識蒸留の変種を適用している。 蒸留は以前の学習を維持するのに役立つが、インクリメンタル学習にとって重要な要件である新しいタスクへの迅速な適応性を妨げることに注意する。 本稿では,インクリメンタルタスク間の情報を最適に共有するように,モデル勾配を再構成することを学ぶメタラーニング手法を提案する。 これにより、メタ学習のグラデーションプリコンディショニングによるシームレスな情報転送が保証される。 既存のメタ学習法と比較して,本手法はタスク非依存であり,オブジェクト検出のための高容量モデルに新たなクラスやスケールを段階的に追加することができる。 我々はPASCAL-VOCとMS COCOデータセットで定義された様々な漸進的な学習環境に対してアプローチを評価する。

In a real-world setting, object instances from new classes can be continuously encountered by object detectors. When existing object detectors are applied to such scenarios, their performance on old classes deteriorates significantly. A few efforts have been reported to address this limitation, all of which apply variants of knowledge distillation to avoid catastrophic forgetting. We note that although distillation helps to retain previous learning, it obstructs fast adaptability to new tasks, which is a critical requirement for incremental learning. In this pursuit, we propose a meta-learning approach that learns to reshape model gradients, such that information across incremental tasks is optimally shared. This ensures a seamless information transfer via a meta-learned gradient preconditioning that minimizes forgetting and maximizes knowledge transfer. In comparison to existing meta-learning methods, our approach is task-agnostic, allows incremental addition of new-classes and scales to high-capacity models for object detection. We evaluate our approach on a variety of incremental learning settings defined on PASCAL-VOC and MS COCO datasets, where our approach performs favourably well against state-of-the-art methods.
翻訳日:2022-12-22 20:29:34 公開日:2021-12-15
# 人間注文からの翻訳の非単調後自動編集学習

Learning Non-Monotonic Automatic Post-Editing of Translations from Human Orderings ( http://arxiv.org/abs/2004.14120v2 )

ライセンス: Link先を確認
Ant\'onio G\'ois, Kyunghyun Cho, Andr\'e Martins(参考訳) 最近のニューラルマシン翻訳の研究は、左から右への世代に代わるフレキシブルな生成順序を探求している。 しかし、非単調モデルのトレーニングは、新しい複雑さをもたらす。同じ最終結果に到達する順序の組み合わせの爆発がある場合、良い順序を探す方法? また、これらの自動注文は、人間の翻訳者の実際の行動とどのように比較されますか? 現在のモデルは、手動で構築したバイアスに依存するか、あるいは自分自身ですべての可能性を調べるために残されている。 本稿では,ヒトのポストエディターが生成した注文を解析し,それらを自動後編集システムのトレーニングに利用する。 得られたシステムと、左から右へ、ランダムな後編集を訓練したシステムを比較した。 人間は左から右にほぼ順応する傾向があるが、句読点や動詞を訂正することから始めることを好む興味深い偏差がある。

Recent research in neural machine translation has explored flexible generation orders, as an alternative to left-to-right generation. However, training non-monotonic models brings a new complication: how to search for a good ordering when there is a combinatorial explosion of orderings arriving at the same final result? Also, how do these automatic orderings compare with the actual behaviour of human translators? Current models rely on manually built biases or are left to explore all possibilities on their own. In this paper, we analyze the orderings produced by human post-editors and use them to train an automatic post-editing system. We compare the resulting system with those trained with left-to-right and random post-editing orderings. We observe that humans tend to follow a nearly left-to-right order, but with interesting deviations, such as preferring to start by correcting punctuation or verbs.
翻訳日:2022-12-08 10:08:03 公開日:2021-12-15
# RetinaFaceMask:COVID-19パンデミックの制御を支援する1段階顔マスク検出器

RetinaFaceMask: A Single Stage Face Mask Detector for Assisting Control of the COVID-19 Pandemic ( http://arxiv.org/abs/2005.03950v3 )

ライセンス: Link先を確認
Xinqi Fan, Mingjie Jiang(参考訳) コロナウイルス2019は世界に大きな影響を与えた。 感染防止策の1つは、公共の場でマスクを着用することである。 特定の公共サービスプロバイダは、マスクを適切に着用する場合のみ、クライアントにサービスを使用するように要求する。 しかし、顔マスクの自動検出に関する研究はごくわずかである。 本稿では,初の高性能単一ステージマスク検出器であるRetinaFaceMaskを提案する。 まず,既存の研究がマスク着用状態と誤着用状態とを区別しないという課題を解決するため,これらのアノテーションを含む新しいデータセットを構築した。 第2に,顔マスク装着状態に関連する識別特徴の学習に焦点をあてたコンテキストアテンションモジュールを提案する。 第3に、同様のタスクから学習することで、人間の能力向上にヒントを得て、顔検出タスクから知識を移した。 アブレーション研究は提案モデルの利点を示した。 公開および新データセットの実験結果から,本モデルの最先端性能が示された。

Coronavirus 2019 has made a significant impact on the world. One effective strategy to prevent infection for people is to wear masks in public places. Certain public service providers require clients to use their services only if they properly wear masks. There are, however, only a few research studies on automatic face mask detection. In this paper, we proposed RetinaFaceMask, the first high-performance single stage face mask detector. First, to solve the issue that existing studies did not distinguish between correct and incorrect mask wearing states, we established a new dataset containing these annotations. Second, we proposed a context attention module to focus on learning discriminated features associated with face mask wearing states. Third, we transferred the knowledge from the face detection task, inspired by how humans improve their ability via learning from similar tasks. Ablation studies showed the advantages of the proposed model. Experimental findings on both the public and new datasets demonstrated the state-of-the-art performance of our model.
翻訳日:2022-12-05 12:41:44 公開日:2021-12-15
# 標的特性を有する無機結晶の一般逆設計のための可逆結晶表現

An invertible crystallographic representation for general inverse design of inorganic crystals with targeted properties ( http://arxiv.org/abs/2005.07609v3 )

ライセンス: Link先を確認
Zekun Ren, Siyu Isaac Parker Tian, Juhwan Noh, Felipe Oviedo, Guangzong Xing, Jiali Li, Qiaohao Liang, Ruiming Zhu, Armin G.Aberle, Shijing Sun, Xiaonan Wang, Yi Liu, Qianxiao Li, Senthilnath Jayavelu, Kedar Hippalgaonkar, Yousung Jung, Tonio Buonassisi(参考訳) 一般的な逆設計を実現することで、ユーザ定義プロパティを持つ新しい素材の発見を大幅に加速することができる。 しかし、最先端の生成モデルは特定の組成や結晶構造に限られる傾向がある。 本稿では、実空間と相互空間の両方で結晶を符号化する一般化非可逆表現と、変分オートエンコーダ(VAE)による特性構造潜在空間を特徴とする、一般逆設計(与えられた要素や結晶構造に限らず)が可能なフレームワークを提案する。 3つの設計ケースでは、ユーザが定義した形成エネルギー、バンドギャップ、熱電力(te)パワーファクタ、およびそれらの組み合わせを備えた142個の新しい結晶を生成する。 トレーニングデータベースに存在しないこれらの生成結晶は、第一原理計算によって検証される。 成功率(第一原理評価対象結晶数/設計結晶数)は7.1%から38.9%である。 これらの結果は、生成モデルを用いた特性駆動一般逆設計への大きな一歩であるが、実験合成と組み合わせた実用上の課題は残る。

Realizing general inverse design could greatly accelerate the discovery of new materials with user-defined properties. However, state-of-the-art generative models tend to be limited to a specific composition or crystal structure. Herein, we present a framework capable of general inverse design (not limited to a given set of elements or crystal structures), featuring a generalized invertible representation that encodes crystals in both real and reciprocal space, and a property-structured latent space from a variational autoencoder (VAE). In three design cases, the framework generates 142 new crystals with user-defined formation energies, bandgap, thermoelectric (TE) power factor, and combinations thereof. These generated crystals, absent in the training database, are validated by first-principles calculations. The success rates (number of first-principles-validated target-satisfying crystals/number of designed crystals) ranges between 7.1% and 38.9%. These results represent a significant step toward property-driven general inverse design using generative models, although practical challenges remain when coupled with experimental synthesis.
翻訳日:2022-12-02 23:54:14 公開日:2021-12-15
# グラフニューラルネットワーク応用におけるグローバル構造情報の影響

The Impact of Global Structural Information in Graph Neural Networks Applications ( http://arxiv.org/abs/2006.03814v2 )

ライセンス: Link先を確認
Davide Buffelli, Fabio Vandin(参考訳) グラフニューラルネットワーク(GNN)はグラフ構造に依存して,各ノードが近隣からの情報を組み合わせて表現を更新する集約戦略を定義する。 GNNの既知の制限は、レイヤーの数が増えるにつれて情報がスムーズになり、ノードの埋め込みが識別不能になり、パフォーマンスに悪影響を及ぼすことである。 そのため、実用的なGNNモデルでは、グラフ構造を各ノードの周辺に限定した小さな近傍でのみ活用する。 必然的に、実用的なGNNは、グラフのグローバル構造に応じて情報をキャプチャしない。 GNNの限界と表現性を研究する研究はいくつかあるが、グラフ構造化データに対する実践的な応用がグローバルな構造的知識を必要とするかどうかという問題は未解決のままである。 本研究では,複数のGNNモデルに対してグローバル情報へのアクセスを提供し,下流の性能に与える影響を観察することにより,この問題に実証的に対処する。 以上の結果から,グローバル情報はグラフ関連タスクに有意なメリットをもたらすことが示唆された。 さらに、検討された全てのタスクにおいて平均的精度を5%以上向上させる新しい正規化戦略を同定する。

Graph Neural Networks (GNNs) rely on the graph structure to define an aggregation strategy where each node updates its representation by combining information from its neighbours. A known limitation of GNNs is that, as the number of layers increases, information gets smoothed and squashed and node embeddings become indistinguishable, negatively affecting performance. Therefore, practical GNN models employ few layers and only leverage the graph structure in terms of limited, small neighbourhoods around each node. Inevitably, practical GNNs do not capture information depending on the global structure of the graph. While there have been several works studying the limitations and expressivity of GNNs, the question of whether practical applications on graph structured data require global structural knowledge or not, remains unanswered. In this work, we empirically address this question by giving access to global information to several GNN models, and observing the impact it has on downstream performance. Our results show that global information can in fact provide significant benefits for common graph-related tasks. We further identify a novel regularization strategy that leads to an average accuracy improvement of more than 5% on all considered tasks.
翻訳日:2022-11-24 21:24:07 公開日:2021-12-15
# 多層補助網を用いた深ベイズ回帰のための不確実性認識ベース

Uncertainty-Aware (UNA) Bases for Deep Bayesian Regression Using Multi-Headed Auxiliary Networks ( http://arxiv.org/abs/2006.11695v4 )

ライセンス: Link先を確認
Sujay Thakur, Cooper Lorsung, Yaniv Yacoby, Finale Doshi-Velez, Weiwei Pan(参考訳) ニューラルリニアモデル(nlm)は、データから特徴を学習し、それらの特徴に対してベイズ線形回帰を行うことで予測的不確実性を生み出す深いベイズモデルである。 その人気にもかかわらず、これらのモデルの予測的不確かさを体系的に評価する研究はほとんどない。 本研究は,nlmsの従来のトレーニング手順が,分布外入力の不確かさを著しく過小評価していること,それゆえ,リスクに敏感なアプリケーションではナイーブにデプロイできないことを実証する。 この動作の根本原因を特定し,下流タスクに有用な予測不確実性を捉える新しいトレーニングフレームワークを提案する。

Neural Linear Models (NLM) are deep Bayesian models that produce predictive uncertainties by learning features from the data and then performing Bayesian linear regression over these features. Despite their popularity, few works have focused on methodically evaluating the predictive uncertainties of these models. In this work, we demonstrate that traditional training procedures for NLMs drastically underestimate uncertainty on out-of-distribution inputs, and that they therefore cannot be naively deployed in risk-sensitive applications. We identify the underlying reasons for this behavior and propose a novel training framework that captures useful predictive uncertainties for downstream tasks.
翻訳日:2022-11-18 11:28:49 公開日:2021-12-15
# 教師付き分類のための一般化最大エントロピー

Generalized Maximum Entropy for Supervised Classification ( http://arxiv.org/abs/2007.05447v3 )

ライセンス: Link先を確認
Santiago Mazuelas, Yuan Shen, and Aritz P\'erez(参考訳) 最大エントロピー原理は、特定の期待の制約を満たすもののエントロピーを最大化する分布を用いて事象の確率を評価することを提唱している。 このような原理は、ミニマックスアプローチに対応する任意の決定問題に対して一般化することができる。 本稿では,最小リスク分類器(MRC)につながる一般化最大エントロピー原理に基づいて,教師付き分類の枠組みを確立する。 我々は,一般エントロピー関数のためのmrcを決定する学習手法を開発し,凸最適化による性能保証を提供する。 さらに,提案手法と既存の分類手法との関係について述べるとともに,提案手法と従来手法との比較によりMDCの性能を定量化する。

The maximum entropy principle advocates to evaluate events' probabilities using a distribution that maximizes entropy among those that satisfy certain expectations' constraints. Such principle can be generalized for arbitrary decision problems where it corresponds to minimax approaches. This paper establishes a framework for supervised classification based on the generalized maximum entropy principle that leads to minimax risk classifiers (MRCs). We develop learning techniques that determine MRCs for general entropy functions and provide performance guarantees by means of convex optimization. In addition, we describe the relationship of the presented techniques with existing classification methods, and quantify MRCs performance in comparison with the proposed bounds and conventional methods.
翻訳日:2022-11-11 21:15:39 公開日:2021-12-15
# 固体スマートコントラクトにおけるガス消費量のプロファイリング

Profiling Gas Consumption in Solidity Smart Contracts ( http://arxiv.org/abs/2008.05449v3 )

ライセンス: Link先を確認
Andrea Di Sorbo, Sonia Laudanna, Anna Vacca, Corrado A. Visaggio, Gerardo Canfora(参考訳) 現在、分散台帳技術、すなわちdapps上で動作するアプリケーションがますます多く開発されている。 dAppsのビジネスロジックは通常、一般的なEthereumを含むさまざまなブロックチェーンプラットフォームでスマートコントラクトを記述するためのプログラミング言語であるSolidityを通じて開発されたスマートコントラクト内で実装される。 ethereumでは、スマートコントラクトはマイナのマシン上で動作し、ガスはそのようなコンピューティングリソースを補償する実行費用に相当する。 しかし、スマートコントラクトのデプロイと実行コストは、開発者が行う実装選択に依存します。 設計上の不適切な選択は、必要以上に高いガス消費をもたらす可能性がある。 本稿では, (i)スマートコントラクトのデプロイメントやトランザクションコストに影響を与える19の固形コードの臭いを識別する。 (ii)34名を対象にした調査により,臭気との関連性を評価する。 これらの臭いに加えて,ガス消費の観点から,スマートコントラクトのコード品質を静的に評価するための指標セットであるGasMetを提案する。 2,186のスマートコントラクトを含む実験では、提案されたメトリクスがデプロイメントコストと直接関連していることが示されている。 私たちのスイートのメトリクスは、最適化が必要なソースコードセグメントをより簡単に特定するために使用できます。

Nowadays, more and more applications are developed for running on a distributed ledger technology, namely dApps. The business logic of dApps is usually implemented within smart contracts developed through Solidity, a programming language for writing smart contracts on different blockchain platforms, including the popular Ethereum. In Ethereum, the smart contracts run on the machines of miners and the gas corresponds to the execution fee compensating such computing resources. However, the deployment and execution costs of a smart contract depend on the implementation choices done by developers. Unappropriated design choices could lead to higher gas consumption than necessary. In this paper, we (i) identify a set of 19 Solidity code smells affecting the deployment and transaction costs of a smart contract, and (ii) assess the relevance of such smells through a survey involving 34 participants. On top of these smells, we propose GasMet, a suite of metrics for statically evaluating the code quality of a smart contract from the gas consumption perspective. An experiment involving 2,186 smart contracts demonstrates that the proposed metrics have direct associations with deployment costs. The metrics in our suite can be used for more easily identifying source code segments that need optimizations.
翻訳日:2022-10-31 05:50:44 公開日:2021-12-15
# MTHetGNN:多変量時系列予測のための不均一グラフ埋め込みフレームワーク

MTHetGNN: A Heterogeneous Graph Embedding Framework for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2008.08617v4 )

ライセンス: Link先を確認
Yueyang Wang, Ziheng Duan, Yida Huang, Haoyan Xu, Jie Feng, Anni Ren(参考訳) 過去の時系列を分析して将来の傾向を予測する多変量時系列予測は、意思決定に効果的に役立つ。 MTSの静的、動的、予測可能、潜時関係を含む変数間の複雑な関係は、MSSのより多くの特徴をマイニングすることを可能にする。 複雑な関係のモデリングは、潜在依存を特徴付けるだけでなく、時間依存のモデリングにも不可欠であるだけでなく、mts予測タスクにおいて大きな課題をもたらす。 しかし、既存の手法は主にMSS変数間の特定の関係をモデル化することに焦点を当てている。 本稿では,異種グラフニューラルネットワーク(MTHetGNN)を用いた多変量時系列予測と呼ばれる新しいエンドツーエンドディープラーニングモデルを提案する。 変数間の複雑な関係を特徴付けるために、関係埋め込みモジュールはmthetgnnで設計され、各変数はグラフノードと見なされ、各エッジは特定の静的または動的関係を表す。 一方、時系列特徴抽出のために時間的埋め込みモジュールが導入され、様々な知覚スケールの畳み込みニューラルネットワーク(cnn)フィルタが含まれる。 最後に、2つのモジュールによって生成される複雑な構造情報を扱うために、不均一グラフ埋め込みモジュールが採用される。 提案するmthetgnnの評価には,実世界の3つのベンチマークデータセットが使用されている。 総合実験により, MTHetGNN は MTS 予測タスクにおいて最先端の結果を達成することが示された。

Multivariate time series forecasting, which analyzes historical time series to predict future trends, can effectively help decision-making. Complex relations among variables in MTS, including static, dynamic, predictable, and latent relations, have made it possible to mining more features of MTS. Modeling complex relations are not only essential in characterizing latent dependency as well as modeling temporal dependence but also brings great challenges in the MTS forecasting task. However, existing methods mainly focus on modeling certain relations among MTS variables. In this paper, we propose a novel end-to-end deep learning model, termed Multivariate Time Series Forecasting via Heterogeneous Graph Neural Networks (MTHetGNN). To characterize complex relations among variables, a relation embedding module is designed in MTHetGNN, where each variable is regarded as a graph node, and each type of edge represents a specific static or dynamic relationship. Meanwhile, a temporal embedding module is introduced for time series features extraction, where involving convolutional neural network (CNN) filters with different perception scales. Finally, a heterogeneous graph embedding module is adopted to handle the complex structural information generated by the two modules. Three benchmark datasets from the real world are used to evaluate the proposed MTHetGNN. The comprehensive experiments show that MTHetGNN achieves state-of-the-art results in the MTS forecasting task.
翻訳日:2022-10-27 08:49:36 公開日:2021-12-15
# SAIL: 自己拡張グラフコントラスト学習

SAIL: Self-Augmented Graph Contrastive Learning ( http://arxiv.org/abs/2009.00934v2 )

ライセンス: Link先を確認
Lu Yu, Shichao Pei, Lizhong Ding, Jun Zhou, Longfei Li, Chuxu Zhang, Xiangliang Zhang(参考訳) 本稿では,教師なしシナリオに対するグラフニューラルネットワーク(GNN)を用いたノード表現の学習について検討する。 具体的には,教師信号が適切に定義されていない場合,GNNの非定常性能に関する理論的解析を導出し,実験的な実演を行う。 GNNの性能はノードの特徴の滑らかさとグラフ構造の局所性の両方に依存する。 グラフトポロジーとノード特徴によって測定されるノード近接の差を円滑にするために,我々はsail - a novel \underline{s}elf-\underline{a}ugmented graph contrast\underline{i}ve \underline{l}earning framework を提案し,2つの補完的自己蒸留正規化モジュール \emph{i.e.},intra-およびinter-graph knowledge distillationを用いた。 各種グラフアプリケーションにおけるSAILの競合性能を実演する。 単一のGNNレイヤであっても、SAILは、最先端のベースラインと比較して、さまざまなベンチマークデータセット上で一貫して、あるいはさらに優れたパフォーマンスを実現している。

This paper studies learning node representations with graph neural networks (GNNs) for unsupervised scenario. Specifically, we derive a theoretical analysis and provide an empirical demonstration about the non-steady performance of GNNs over different graph datasets, when the supervision signals are not appropriately defined. The performance of GNNs depends on both the node feature smoothness and the locality of graph structure. To smooth the discrepancy of node proximity measured by graph topology and node feature, we proposed SAIL - a novel \underline{S}elf-\underline{A}ugmented graph contrast\underline{i}ve \underline{L}earning framework, with two complementary self-distilling regularization modules, \emph{i.e.}, intra- and inter-graph knowledge distillation. We demonstrate the competitive performance of SAIL on a variety of graph applications. Even with a single GNN layer, SAIL has consistently competitive or even better performance on various benchmark datasets, comparing with state-of-the-art baselines.
翻訳日:2022-10-22 18:45:23 公開日:2021-12-15
# ガウスコプラによるオンライン欠落値計算と変化点検出

Online Missing Value Imputation and Change Point Detection with the Gaussian Copula ( http://arxiv.org/abs/2009.12326v2 )

ライセンス: Link先を確認
Yuxuan Zhao, Eric Landgrebe, Eliot Shekhtman and Madeleine Udell(参考訳) バリューインプテーションの欠如は、現実世界のデータサイエンスワークフローにとって不可欠である。 計算方法自体が時間の経過とともに進化できる必要があるため、オンライン環境での計算は困難である。 実用的なアプリケーションでは、インプテーションアルゴリズムは、真のデータ分布にマッチするインプットを生成し、順序変数、ブール変数、連続変数を含む混合型のデータを処理し、大規模なデータセットにスケールする必要がある。 本研究では,gaussian copulaを用いた混合データのための新しいオンラインインプテーションアルゴリズムを開発した。 オンラインgaussian copulaモデルはすべてのデシデラタを満たしている:そのインプットは、混合データにおいてもデータ分布にマッチし、ストリーミングデータが分散している場合の精度と、特に大規模データセットでの速度(桁違いまで)によってオフラインデータよりも改善される。 オンラインデータにcopulaモデルを適合させることにより,多変量依存構造の変化点を欠落値で検出する新しい手法を提案する。 合成および実世界のデータによる実験結果により,提案手法の有効性が検証された。

Missing value imputation is crucial for real-world data science workflows. Imputation is harder in the online setting, as it requires the imputation method itself to be able to evolve over time. For practical applications, imputation algorithms should produce imputations that match the true data distribution, handle data of mixed types, including ordinal, boolean, and continuous variables, and scale to large datasets. In this work we develop a new online imputation algorithm for mixed data using the Gaussian copula. The online Gaussian copula model meets all the desiderata: its imputations match the data distribution even for mixed data, improve over its offline counterpart on the accuracy when the streaming data has a changing distribution, and on the speed (up to an order of magnitude) especially on large scale datasets. By fitting the copula model to online data, we also provide a new method to detect change points in the multivariate dependence structure with missing values. Experimental results on synthetic and real world data validate the performance of the proposed methods.
翻訳日:2022-10-14 22:32:05 公開日:2021-12-15
# 補助コーデックネットワークに基づく標準互換画像圧縮フレームワークの強化

Enhanced Standard Compatible Image Compression Framework based on Auxiliary Codec Networks ( http://arxiv.org/abs/2009.14754v2 )

ライセンス: Link先を確認
Hanbin Son, Taeoh Kim, Hyeongmin Lee, Sangyoun Lee(参考訳) 画像圧縮性能を向上させるため、最近のディープニューラルネットワークに基づく研究は、学習可能なコーデック、ポストプロセッシングネットワーク、コンパクト表現ネットワークの3つのカテゴリに分けられる。 学習可能なコーデックは、従来の圧縮モジュールを超えるエンドツーエンドの学習のために設計されている。 後処理ネットワークはサンプルベース学習を用いて復号化画像の品質を高める。 コンパクト表現ネットワークは、デコードされた画像の品質を維持しつつ、入力画像の容量を小さくしてビットレートを低減する。 しかし、これらのアプローチは既存のコーデックと互換性がなく、コーディング効率を上げるのに最適ではない。 特に、コーデックの不正確な考慮から、コンパクト表現ネットワークを用いた先行研究において最適な学習を達成することは困難である。 本稿では,Auxiliary Codec Networks (ACN) に基づく,新しい標準互換画像圧縮フレームワークを提案する。 ACNは既存のコーデックの画像劣化操作を模倣するように設計されており、コンパクトな表現ネットワークにより正確な勾配を提供する。 したがって、コンパクト表現と後処理ネットワークを効果的かつ最適に学習することができる。 JPEGおよび高効率ビデオ符号化(HEVC)標準に基づく提案フレームワークは、既存の画像圧縮アルゴリズムを標準互換で大幅に上回っていることを示す。

To enhance image compression performance, recent deep neural network-based research can be divided into three categories: a learnable codec, a postprocessing network, and a compact representation network. The learnable codec has been designed for an end-to-end learning beyond the conventional compression modules. The postprocessing network increases the quality of decoded images using an example-based learning. The compact representation network is learned to reduce the capacity of an input image to reduce the bitrate while keeping the quality of the decoded image. However, these approaches are not compatible with the existing codecs or not optimal to increase the coding efficiency. Specifically, it is difficult to achieve optimal learning in the previous studies using the compact representation network, due to the inaccurate consideration of the codecs. In this paper, we propose a novel standard compatible image compression framework based on Auxiliary Codec Networks (ACNs). ACNs are designed to imitate image degradation operations of the existing codec, which delivers more accurate gradients to the compact representation network. Therefore, the compact representation and the postprocessing networks can be learned effectively and optimally. We demonstrate that our proposed framework based on JPEG and High Efficiency Video Coding (HEVC) standard substantially outperforms existing image compression algorithms in a standard compatible manner.
翻訳日:2022-10-13 00:22:35 公開日:2021-12-15
# 価値関数の入力政策について--政策表現と拡張価値関数近似器

What About Inputing Policy in Value Function: Policy Representation and Policy-extended Value Function Approximator ( http://arxiv.org/abs/2010.09536v4 )

ライセンス: Link先を確認
Hongyao Tang, Zhaopeng Meng, Jianye Hao, Chen Chen, Daniel Graves, Dong Li, Changmin Yu, Hangyu Mao, Wulong Liu, Yaodong Yang, Wenyuan Tao, Li Wang(参考訳) 強化学習(RL)におけるポリシ拡張値関数近似器(PeVFA)について検討し、従来の値関数近似器(VFA)を拡張して、状態(および行動)だけでなく明示的なポリシー表現を入力とする。 このような拡張により、PeVFAは同時に複数のポリシーの値を保存することができ、例えばポリシー間の「emph{value generalization」という魅力的な特性をもたらす。 一般化政策イテレーション(GPI)に基づく価値一般化を正式に分析する。 理論的および経験的レンズから、PeVFAが提供する一般化値推定は、連続ポリシーの真値に対する初期近似誤差を低くし、GPI中の連続値近似を改善することが期待できることを示す。 以上の知見に基づいて、政策改善経路に沿った価値一般化を利用するPeVFAを用いたGPIの新たな形式を導入する。 さらに、政策ネットワークパラメータや状態-作用ペアから効果的な政策埋め込みを学習するためのいくつかのアプローチを提供するRLポリシーの表現学習フレームワークを提案する。 実験では,複数のOpenAI Gym連続制御タスクにおいて,PeVFAが提供する価値一般化と政策表現学習の有効性を評価した。 アルゴリズム実装の代表的な例として、PPO(Proximal Policy Optimization)は、GPIとPeVFAのパラダイムの下で再実装され、ほとんどの環境でそのバニラに対して約40%の性能改善が達成される。

We study Policy-extended Value Function Approximator (PeVFA) in Reinforcement Learning (RL), which extends conventional value function approximator (VFA) to take as input not only the state (and action) but also an explicit policy representation. Such an extension enables PeVFA to preserve values of multiple policies at the same time and brings an appealing characteristic, i.e., \emph{value generalization among policies}. We formally analyze the value generalization under Generalized Policy Iteration (GPI). From theoretical and empirical lens, we show that generalized value estimates offered by PeVFA may have lower initial approximation error to true values of successive policies, which is expected to improve consecutive value approximation during GPI. Based on above clues, we introduce a new form of GPI with PeVFA which leverages the value generalization along policy improvement path. Moreover, we propose a representation learning framework for RL policy, providing several approaches to learn effective policy embeddings from policy network parameters or state-action pairs. In our experiments, we evaluate the efficacy of value generalization offered by PeVFA and policy representation learning in several OpenAI Gym continuous control tasks. For a representative instance of algorithm implementation, Proximal Policy Optimization (PPO) re-implemented under the paradigm of GPI with PeVFA achieves about 40\% performance improvement on its vanilla counterpart in most environments.
翻訳日:2022-10-05 20:47:39 公開日:2021-12-15
# 分割連続関数における学習サブパターン

Learning Sub-Patterns in Piecewise Continuous Functions ( http://arxiv.org/abs/2010.15571v4 )

ライセンス: Link先を確認
Anastasis Kratsios, Behnoosh Zamanlooy(参考訳) ほとんどの確率的勾配降下アルゴリズムは、パラメータで下位微分可能なニューラルネットワークを最適化することができるが、これはニューラルネットワークの活性化関数が、ニューラルネットワークモデルの一様近似容量を連続関数に制限する連続性を示す必要があることを意味する。 本稿では,入力空間の異なる部分で定義された異なるサブパターンから不連続が生じる場合に焦点を当てる。 そこで本研究では,ネットワークの唯一かつ戦略的に配置された不連続単位を通る勾配更新を回避し,分離した2段階の手順で学習可能な新しい不連続深層ニューラルネットワークモデルを提案する。 我々は、有界連続関数空間におけるアーキテクチャの近似保証と、ここで紹介した断片連続関数空間における普遍近似保証を提供する。 本稿では,不連続な深層学習モデルのための新しい半教師付き2段階学習手法を提案し,その有効性を理論的に裏付ける。 提案手法を用いて学習したモデルの性能を実世界の財務データと合成データセットの両方で実験的に評価した。

Most stochastic gradient descent algorithms can optimize neural networks that are sub-differentiable in their parameters; however, this implies that the neural network's activation function must exhibit a degree of continuity which limits the neural network model's uniform approximation capacity to continuous functions. This paper focuses on the case where the discontinuities arise from distinct sub-patterns, each defined on different parts of the input space. We propose a new discontinuous deep neural network model trainable via a decoupled two-step procedure that avoids passing gradient updates through the network's only and strategically placed, discontinuous unit. We provide approximation guarantees for our architecture in the space of bounded continuous functions and universal approximation guarantees in the space of piecewise continuous functions which we introduced herein. We present a novel semi-supervised two-step training procedure for our discontinuous deep learning model, tailored to its structure, and we provide theoretical support for its effectiveness. The performance of our model and trained with the propose procedure is evaluated experimentally on both real-world financial datasets and synthetic datasets.
翻訳日:2022-10-01 22:02:21 公開日:2021-12-15
# (参考訳) メディアEval 2021における脳波パイロットサブタスクの概要:メディアの記憶可能性を予測する

Overview of the EEG Pilot Subtask at MediaEval 2021: Predicting Media Memorability ( http://arxiv.org/abs/2201.00620v1 )

ライセンス: CC BY 4.0
Lorin Sweeney, Ana Matran-Fernandez, Sebastian Halder, Alba G. Seco de Herrera, Alan Smeaton and Graham Healy(参考訳) MediaEval'2021におけるMemorability-EEGパイロットサブタスクの目的は、脳波データの有用性を強調することでビデオの記憶可能性を予測するコンテキストにおいて、ニューラルネットワーク(単独または他のデータソースと組み合わせて)の使用への関心を促進することである。 作成したデータセットは、被験者の脳波記録から抽出された特徴で構成され、Predicting Media Memorability subtask 1のビデオのサブセットを視聴する。 この実証パイロットは、興味のある研究者に、事前のドメイン知識なしで神経信号をどのように利用できるかの感覚を与え、将来の記憶可能性タスクでそれを実現できる。 このデータセットは、ビデオの記憶可能性を予測するための新しい機械学習と処理戦略の探索を支援するとともに、記憶可能性に関する学際的関心を高め、新しいEEG-コンピュータビジョンアプローチへの扉を開くことができる。

The aim of the Memorability-EEG pilot subtask at MediaEval'2021 is to promote interest in the use of neural signals -- either alone or in combination with other data sources -- in the context of predicting video memorability by highlighting the utility of EEG data. The dataset created consists of pre-extracted features from EEG recordings of subjects while watching a subset of videos from Predicting Media Memorability subtask 1. This demonstration pilot gives interested researchers a sense of how neural signals can be used without any prior domain knowledge, and enables them to do so in a future memorability task. The dataset can be used to support the exploration of novel machine learning and processing strategies for predicting video memorability, while potentially increasing interdisciplinary interest in the subject of memorability, and opening the door to new combined EEG-computer vision approaches.
翻訳日:2022-01-09 17:17:38 公開日:2021-12-15
# (参考訳) 生成モデルを用いた強化学習のための量子アルゴリズム

Quantum Algorithms for Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2112.08451v1 )

ライセンス: CC BY 4.0
Daochen Wang, Aarthi Sundaram, Robin Kothari, Ashish Kapoor, Martin Roetteler(参考訳) 強化学習は、エージェントがその累積報酬を最大化する環境とどのように相互作用すべきかを研究する。 この問題を抽象的に研究する標準的な方法は、エージェントが環境から必要とするサンプル数を問うことで、$\gamma$-discounted Markov decision process (MDP) の最適なポリシーを学ぶことである。 このようなMDPに対して、アルゴリズムが量子重ね合わせの環境からサンプルにアクセスできると仮定して、最適なポリシー(\pi^*$)、最適な値関数(v^*$)、最適な$Q$-function(q^*$)を近似する量子アルゴリズムを設計する。 この仮定は、例えば、環境がビデオゲームや他のプログラムである場合、環境のシミュレータが存在するときに正当化される。 私たちの量子アルゴリズムは、値の反復に触発され、近似精度(\epsilon$)とmdpの2つの主要なパラメータ(有効時間軸(\frac{1}{1-\gamma}$)と作用空間のサイズ(a$)で、最も考えられる古典的サンプルの複雑さよりも2倍のスピードアップを達成します。 さらに,$q^*$ を計算するための量子アルゴリズムは,一致する量子下限を証明すれば最適であることを示す。

Reinforcement learning studies how an agent should interact with an environment to maximize its cumulative reward. A standard way to study this question abstractly is to ask how many samples an agent needs from the environment to learn an optimal policy for a $\gamma$-discounted Markov decision process (MDP). For such an MDP, we design quantum algorithms that approximate an optimal policy ($\pi^*$), the optimal value function ($v^*$), and the optimal $Q$-function ($q^*$), assuming the algorithms can access samples from the environment in quantum superposition. This assumption is justified whenever there exists a simulator for the environment; for example, if the environment is a video game or some other program. Our quantum algorithms, inspired by value iteration, achieve quadratic speedups over the best-possible classical sample complexities in the approximation accuracy ($\epsilon$) and two main parameters of the MDP: the effective time horizon ($\frac{1}{1-\gamma}$) and the size of the action space ($A$). Moreover, we show that our quantum algorithm for computing $q^*$ is optimal by proving a matching quantum lower bound.
翻訳日:2021-12-26 14:13:47 公開日:2021-12-15
# 機能的残基同定のためのグラフ表現におけるタンパク質動的情報の符号化

Encoding protein dynamic information in graph representation for functional residue identification ( http://arxiv.org/abs/2112.12033v1 )

ライセンス: Link先を確認
Yuan Chiang, Wei-Han Hui, Shu-Wei Chang(参考訳) タンパク質機能予測の最近の進歩は、タンパク質の構造的・トポロジー的特徴と分子機能との相関をグラフベースで実現する。 しかし、生体内のタンパク質は静的ではなく、機能目的のためにコンフォメーションを変化させる動的分子である。 ここでは, 動的に相関する残基対間のエッジを連結することにより, ネイティブタンパク質コンホメーションと拡張タンパク質グラフに正規モード解析を適用する。 マルチラベル関数分類タスクでは,この動的インフォームド表現に基づく顕著な性能向上を示す。 提案したグラフニューラルネットワークであるProDARは、残基レベルのアノテーションの解釈可能性と一般化性を高め、タンパク質の構造的ニュアンスを強く反映する。 我々は,hMTH1,ニトロホリン,SARS-CoV-2受容体結合ドメインのクラス活性化マップを比較し,グラフ表現における動的情報の重要性を明らかにする。 本モデルでは,タンパク質のダイナミックフィンガープリントの学習に成功し,タンパク質機能に関する分子的知見を提供する。

Recent advances in protein function prediction exploit graph-based deep learning approaches to correlate the structural and topological features of proteins with their molecular functions. However, proteins in vivo are not static but dynamic molecules that alter conformation for functional purposes. Here we apply normal mode analysis to native protein conformations and augment protein graphs by connecting edges between dynamically correlated residue pairs. In the multilabel function classification task, our method demonstrates a remarkable performance gain based on this dynamics-informed representation. The proposed graph neural network, ProDAR, increases the interpretability and generalizability of residue-level annotations and robustly reflects structural nuance in proteins. We elucidate the importance of dynamic information in graph representation by comparing class activation maps for the hMTH1, nitrophorin, and SARS-CoV-2 receptor binding domain. Our model successfully learns the dynamic fingerprints of proteins and provides molecular insights into protein functions, with vast untapped potential for broad biotechnology and pharmaceutical applications.
翻訳日:2021-12-26 13:21:39 公開日:2021-12-15
# 能動的学習を用いたテキストアノテーションによる品質向上の試み

Assisted Text Annotation Using Active Learning to Achieve High Quality with Little Effort ( http://arxiv.org/abs/2112.11914v1 )

ライセンス: Link先を確認
Franziska Weeber and Felix Hamborg and Karsten Donnay and Bela Gipp(参考訳) 特にディープラーニング技術の普及以降、大量の注釈付きデータがこれまで以上に重要になっている。 しかし、手動アノテーションはコストがかかる。 研究者は、手動のアノテーションだけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案し、アノテーションのコストと労力を強く削減する。 そこで本研究では,アクティブラーニング(AL)アプローチと事前学習言語モデルを組み合わせて,テキスト文書中のアノテーションカテゴリを半自動同定する。 本研究の方向性を強調するために,ニュース記事中のフレームを識別するタスクにおけるアプローチを評価する。 予備的な結果から,ALを用いると,これらの複雑で微妙なフレームの正確な分類のためのアノテーションの数が大幅に減少することがわかった。 フレーミングデータセットでは、完全なデータセットでトレーニングされたモデルと同じパフォーマンスに達するために、ALアプローチはアノテーションの16.3%しか必要としない。

Large amounts of annotated data have become more important than ever, especially since the rise of deep learning techniques. However, manual annotations are costly. We propose a tool that enables researchers to create large, high-quality, annotated datasets with only a few manual annotations, thus strongly reducing annotation cost and effort. For this purpose, we combine an active learning (AL) approach with a pre-trained language model to semi-automatically identify annotation categories in the given text documents. To highlight our research direction's potential, we evaluate the approach on the task of identifying frames in news articles. Our preliminary results show that employing AL strongly reduces the number of annotations for correct classification of even these complex and subtle frames. On the framing dataset, the AL approach needs only 16.3\% of the annotations to reach the same performance as a model trained on the full dataset.
翻訳日:2021-12-26 12:45:41 公開日:2021-12-15
# 解釈可能な知識のトレース:因果関係を持つ単純で効率的な学生モデル

Interpretable Knowledge Tracing: Simple and Efficient Student Modeling with Causal Relations ( http://arxiv.org/abs/2112.11209v1 )

ライセンス: Link先を確認
Sein Minn, Jill-Jenn Vie, Koh Takeuchi, Hisashi Kashima, Feida Zhu(参考訳) 知能学習システムは、将来の学習環境において極めて重要になっている。 知識追跡(KT)はそのシステムの重要な部分です。 生徒の熟練度を推定し、成績を予測してカリキュラムを調整することである。 ディープラーニングベースのKTモデルは、従来のモデルと比較して大きな予測性能を示している。 しかし、認知理論に関連する数万のパラメータから心理的に有意義な説明を抽出することは困難である。 学生のパフォーマンス予測において高い精度を達成する方法はいくつかあるが、診断と予測の推論は学習科学においてより重要である。 kt問題には観察可能な特徴がほとんどないため,機械学習とデータマイニング手法を用いて,学生の反応データから有意義な潜伏特徴を抽出する。 本研究では,スキル習得,能力プロファイル(スキル間での学習),難易度という,3つの有意義な潜在機能に依存するシンプルなモデルである解釈可能な知識追跡(IKT)を提案する。 iktの将来の学生成績予測は、木製ナイーブベイズ分類器(tan)を用いて行われるため、深層学習に基づく学習モデルよりも容易に説明できる。 IKTはまた、大量のパラメータを必要とすることなく、ディープラーニングベースの学生モデルよりも優れた生徒パフォーマンス予測を示す。 学生のパフォーマンス予測への貢献を検討するために,各特徴についてアブレーション研究を行う。 このように、IKTは現実世界の教育システムにおいて、因果推論を用いた適応的でパーソナライズされた指示を提供する大きな可能性を秘めている。

Intelligent Tutoring Systems have become critically important in future learning environments. Knowledge Tracing (KT) is a crucial part of that system. It is about inferring the skill mastery of students and predicting their performance to adjust the curriculum accordingly. Deep Learning-based KT models have shown significant predictive performance compared with traditional models. However, it is difficult to extract psychologically meaningful explanations from the tens of thousands of parameters in neural networks, that would relate to cognitive theory. There are several ways to achieve high accuracy in student performance prediction but diagnostic and prognostic reasoning is more critical in learning sciences. Since KT problem has few observable features (problem ID and student's correctness at each practice), we extract meaningful latent features from students' response data by using machine learning and data mining techniques. In this work, we present Interpretable Knowledge Tracing (IKT), a simple model that relies on three meaningful latent features: individual skill mastery, ability profile (learning transfer across skills), and problem difficulty. IKT's prediction of future student performance is made using a Tree-Augmented Naive Bayes Classifier (TAN), therefore its predictions are easier to explain than deep learning-based student models. IKT also shows better student performance prediction than deep learning-based student models without requiring a huge amount of parameters. We conduct ablation studies on each feature to examine their contribution to student performance prediction. Thus, IKT has great potential for providing adaptive and personalized instructions with causal reasoning in real-world educational systems.
翻訳日:2021-12-26 12:45:26 公開日:2021-12-15
# (参考訳) eコマースのための製品自動複写

Automatic Product Copywriting for E-Commerce ( http://arxiv.org/abs/2112.11915v1 )

ライセンス: CC BY 4.0
Xueying Zhang, Yanyan Zou, Hainan Zhang, Jing Zhou, Shiliang Diao, Jiajia Chen, Zhuoye Ding, Zhen He, Xueqi He, Yun Xiao, Bo Long, Han Yu, Lingfei Wu(参考訳) 商品のコピーライティングは、Eコマースレコメンデーションプラットフォームの重要なコンポーネントである。 ユーザの興味を惹きつけるとともに,テキスト記述による製品特性の強調によるユーザエクスペリエンスの向上を目指す。 本稿では、JD.comのeコマース製品レコメンデーションプラットフォームにAPCG(Automatic Product Copywriting Generation)システムを導入した経験を報告する。 主な構成要素は2つある。 1) インハウスプラットフォームからの数百万のトレーニングデータに基づいて,トランスフォーマー・ポインターネットワークと事前学習されたシーケンス・ツー・シーケンスモデルから構築した自然言語生成 2) 自動評価と人体検診の両方に基づく複写品質管理を行う。 選択されたドメインでは、モデルがトレーニングされ、更新されたトレーニングデータで毎日更新される。 さらにこのモデルは、ライブブロードキャストプラットフォームのリアルタイムライティングアシスタントツールとしても使用しています。 APCGシステムは2021年2月からJD.comに配備されている。 sep 2021では、製品記述が2.53万回生成され、年間平均クリックスルー率 (ctr) とコンバージョン率 (cvr) がそれぞれ4.22%、ベースラインが3.61%改善されている。 本システムで蓄積したGross Merchandise Volume (GMV)は,2021年2月に比べて213.42%改善されている。

Product copywriting is a critical component of e-commerce recommendation platforms. It aims to attract users' interest and improve user experience by highlighting product characteristics with textual descriptions. In this paper, we report our experience deploying the proposed Automatic Product Copywriting Generation (APCG) system into the JD.com e-commerce product recommendation platform. It consists of two main components: 1) natural language generation, which is built from a transformer-pointer network and a pre-trained sequence-to-sequence model based on millions of training data from our in-house platform; and 2) copywriting quality control, which is based on both automatic evaluation and human screening. For selected domains, the models are trained and updated daily with the updated training data. In addition, the model is also used as a real-time writing assistant tool on our live broadcast platform. The APCG system has been deployed in JD.com since Feb 2021. By Sep 2021, it has generated 2.53 million product descriptions, and improved the overall averaged click-through rate (CTR) and the Conversion Rate (CVR) by 4.22% and 3.61%, compared to baselines, respectively on a year-on-year basis. The accumulated Gross Merchandise Volume (GMV) made by our system is improved by 213.42%, compared to the number in Feb 2021.
翻訳日:2021-12-26 12:41:45 公開日:2021-12-15
# リプシッツ回転を持つ LTB 曲線は正則である

LTB curves with Lipschitz turn are par-regular ( http://arxiv.org/abs/2112.09567v1 )

ライセンス: Link先を確認
Etienne Le Quentrec (AMU), Lo\"ic Mazo (UNISTRA), \'Etienne Baudrier (UNISTRA), Mohamed Tajine (UNISTRA)(参考訳) デジタル化プロセス中にトポロジを保存することは、最初の重要な要件である。 この目的のために、Digital Geometryでは、形状境界が正則であると仮定するのは古典的である。 パリレギュラリティは正のリーチを持つか、リプシッツ微分を持つ曲線のクラスc 1,1に属することが証明された。 最近我々は、局所的な曲がり角を持つ多角形を含むより大きいクラスを使うことを提案した。 この技術報告の目的は、ターンの概念(つまり積分曲率)のみを用いて、局所的なターンバウンド曲線のクラス内のパーレギュラー曲線のクラスを定義することである。 より正確には、前回の記事では、パーレギュラー曲線が局所的なターンバウンドであることを既に証明している。 ちなみにこの証明は、部分正則曲線の回転がその長さのリプシッツ函数であることを示す。 この後者の性質を検証する曲線のクラスをリプシッツ回転を持つ曲線と呼ぶ。 この技術的報告では、逆アサーションが証明される: リプシッツターンを持つ局所的なターンバウンド曲線は正則である。 同値性は Theorem 3.1 で記述され、逆アサーションは Lemma 3.2 で証明される。 第1節では、パリティの定義と正のリーチを持つ集合の定義を思い出す。 第2節では、局所的に曲がる曲線とリプシッツ回転を持つ曲線の概念を述べる。 後者の節を通して、いくつかの中間段階 (Lemmas 2.3 と 2.11) がそれらの関連する概念の導入の直後に証明される。 最後のセクション(第3節)は、概念の等価性の証明に捧げられている。

Preserving the topology during a digitization process is a requirement of first importance. To this end, it is classical in Digital Geometry to assume the shape borders to be par-regular. Par-regularity was proved to be equivalent to having positive reach or to belong to the class C 1,1 of curves with Lipschitz derivative. Recently, we proposed to use a larger class that encompasses polygons with obtuse angles, the locally turn-bounded curves. The aim of this technical report is to define the class of par-regular curves inside the class of locally turn-bounded curves using only the notion of turn, that is of integral curvature. To be more precise, in a previous article, we have already proved that par-regular curves are locally turn-bounded. Incidentally this proof lead us to show that the turn of par-regular curves is a Lipschitz function of their length. We call the class of curves verifying this latter property the curves with Lipschitz turn. In this technical report, we prove the converse assertion : locally turn-bounded curves with Lipschitz turn are par-regular. The equivalence is stated in Theorem 3.1 and the converse assertion is proved in Lemma 3.2. In section 1, we recall the definition of par-regularity and equivalently of sets with positive reach. In section 2, we present the notions of curves locally turn-bounded and of curves with Lipschitz turn. Throughout this latter section, some of intermediate steps (Lemmas 2.3 and 2.11) are proved just after the introduction of their related notions. The last section (section 3) is dedicated to the proof of the equivalence of the notions.
翻訳日:2021-12-20 15:43:41 公開日:2021-12-15
# 脳-コンピュータインタフェースのための信頼度を考慮した主語間伝達学習

Confidence-Aware Subject-to-Subject Transfer Learning for Brain-Computer Interface ( http://arxiv.org/abs/2112.09243v1 )

ライセンス: Link先を確認
Dong-Kyun Han, Serkan Musellim, Dong-Young Kim(参考訳) 脳波(EEG)のイントラオブジェクト間変動は脳-コンピュータインターフェース(BCI)の実用化を困難にしている。 一般に、BCIシステムは、システムが使用されるたびにモデルをチューニングするためにキャリブレーション手順を必要とする。 この問題はbciにとって大きな障害として認識されており、それを克服するために、転送学習(tl)に基づくアプローチが最近登場している。 しかし、多くのbciパラダイムはラベルを最初に示し、次に「画像」を測定する構造で構成されており、制御シグナルを含まないデータを含むソースサブジェクトの負の効果は、サブジェクトからサブジェクトへのtlプロセスにおいて無視されている。 本研究の目的は,被写体から被写体へのtlトレーニングに悪影響を与えると思われる被写体を,可能な限り多くの被写体のデータを用いて排除する方法を提案することである。 本稿では,tl訓練のための高信頼課題のみを用いたbciフレームワークを提案する。 本手法では,深層ニューラルネットワークがtlプロセスに有用な対象を選択し,小損失トリックに基づく共学習アルゴリズムを用いて雑音領域を除外する。 我々は,2つの公開データセット(2020年の国際BCIコンペティショントラック4とOpenBMIデータセット)上で,一括検証実験を行った。 実験の結果,BCI の一般化性能は,低損失の被験者を選別する自信認識型 TL により向上した。

The inter/intra-subject variability of electroencephalography (EEG) makes the practical use of the brain-computer interface (BCI) difficult. In general, the BCI system requires a calibration procedure to tune the model every time the system is used. This problem is recognized as a major obstacle to BCI, and to overcome it, approaches based on transfer learning (TL) have recently emerged. However, many BCI paradigms are limited in that they consist of a structure that shows labels first and then measures "imagery", the negative effects of source subjects containing data that do not contain control signals have been ignored in many cases of the subject-to-subject TL process. The main purpose of this paper is to propose a method of excluding subjects that are expected to have a negative impact on subject-to-subject TL training, which generally uses data from as many subjects as possible. In this paper, we proposed a BCI framework using only high-confidence subjects for TL training. In our framework, a deep neural network selects useful subjects for the TL process and excludes noisy subjects, using a co-teaching algorithm based on the small-loss trick. We experimented with leave-one-subject-out validation on two public datasets (2020 international BCI competition track 4 and OpenBMI dataset). Our experimental results showed that confidence-aware TL, which selects subjects with small loss instances, improves the generalization performance of BCI.
翻訳日:2021-12-20 13:59:11 公開日:2021-12-15
# CPPE-5:医療用パーソナル防護機器データセット

CPPE-5: Medical Personal Protective Equipment Dataset ( http://arxiv.org/abs/2112.09569v1 )

ライセンス: Link先を確認
Rishit Dagli and Ali Mustufa Shaikh(参考訳) 今回我々は,医療用個人用保護具の下位分類について,pascal voc,imagenet,microsoft coco,openimagesなど,他の一般的なデータセットでは不可能であるcppe - 5(medical personal protective equipment)という新たな挑戦的データセットを提案する。 このデータセットでトレーニングされたモデルが複雑なシーンで実用的なシナリオで使用できるようにするために、我々のデータセットは、主に、それぞれのシーンに複数のオブジェクトを含む複雑なシーンを示す画像を含む。 できるだけ多くの非iconicイメージを取得し、この領域の他の既存のデータセットと異なり、すべてのイメージが実際のイメージであることを保証する。 データセットには5つのオブジェクトカテゴリ(カバー、フェイスシールド、手袋、マスク、ゴーグル)が含まれており、各イメージにはバウンディングボックスとポジティブラベルがアノテートされています。 我々は、他の一般的な広範カテゴリのデータセットと比較して、データセットの詳細な分析と、個人の防護機器に焦点を当てたデータセットを提示するが、現在、そのような公開データセットは存在しない。 最後に,性能解析を行い,ベースラインモデルと最先端モデルとの比較を行った。 私たちのコード、データ、トレーニングされたモデルは、https://git.io/cppe5-datasetで利用可能です。

We present a new challenging dataset, CPPE - 5 (Medical Personal Protective Equipment), with the goal to allow the study of subordinate categorization of medical personal protective equipments, which is not possible with other popular data sets that focus on broad level categories (such as PASCAL VOC, ImageNet, Microsoft COCO, OpenImages, etc). To make it easy for models trained on this dataset to be used in practical scenarios in complex scenes, our dataset mainly contains images that show complex scenes with several objects in each scene in their natural context. The image collection for this dataset focusing on: obtaining as many non-iconic images as possible and making sure all the images are real-life images unlike other existing datasets in this area. Our dataset includes 5 object categories (coveralls, face shield, gloves, mask, and goggles) and each image is annotated with a set of bounding boxes and positive labels. We present a detailed analysis of the dataset in comparison to other popular broad category datasets as well as datasets focusing on personal protective equipments, we also find that at present there exist no such publicly available datasets. Finally we also analyze performance and compare model complexities on baseline and state-of-the-art models for bounding box results. Our code, data, and trained models are available at https://git.io/cppe5-dataset .
翻訳日:2021-12-20 13:20:10 公開日:2021-12-15
# (参考訳) マルチジョブフェデレーション学習による効率的なデバイススケジューリング

Efficient Device Scheduling with Multi-Job Federated Learning ( http://arxiv.org/abs/2112.05928v2 )

ライセンス: CC BY 4.0
Chendi Zhou, Ji Liu, Juncheng Jia, Jingbo Zhou, Yang Zhou, Huaiyu Dai, Dejing Dou(参考訳) 近年、エンドユーザーの複数の(エッジ)デバイスで大量の分散データを目撃しているが、分散データの集約は法律や規制によって機械学習ジョブでは依然として困難である。 フェデレートラーニング(FL)は、センシティブな生データを共有せずに分散データを扱うための効果的なアプローチとして現れ、グローバル機械学習モデルを協調的にトレーニングする。 flのサーバは、トレーニングプロセス中にデバイスを選択(およびスケジュール)する必要がある。 しかしながら、flを用いた複数ジョブ用のデバイスのスケジューリングは、依然として重要かつオープンな問題である。 本稿では,複数のジョブの並列トレーニングプロセスを実現するための,新しいマルチジョブFLフレームワークを提案する。 フレームワークはシステムモデルと2つのスケジューリング方法で構成される。 システムモデルでは、複数のジョブの並列トレーニングプロセスを提案し、多様なジョブのトレーニングプロセスにおいて、様々なデバイスのトレーニング時間とデータフェアネスに基づいてコストモデルを構築する。 コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。 複数のジョブとデータセットで広範な実験を行う。 実験の結果,提案手法はトレーニング時間(最大8.67倍)と精度(最大44.6%)において,ベースラインアプローチよりも有意に優れていた。

Recent years have witnessed a large amount of decentralized data in multiple (edge) devices of end-users, while the aggregation of the decentralized data remains difficult for machine learning jobs due to laws or regulations. Federated Learning (FL) emerges as an effective approach to handling decentralized data without sharing the sensitive raw data, while collaboratively training global machine learning models. The servers in FL need to select (and schedule) devices during the training process. However, the scheduling of devices for multiple jobs with FL remains a critical and open problem. In this paper, we propose a novel multi-job FL framework to enable the parallel training process of multiple jobs. The framework consists of a system model and two scheduling methods. In the system model, we propose a parallel training process of multiple jobs, and construct a cost model based on the training time and the data fairness of various devices during the training process of diverse jobs. We propose a reinforcement learning-based method and a Bayesian optimization-based method to schedule devices for multiple jobs while minimizing the cost. We conduct extensive experimentation with multiple jobs and datasets. The experimental results show that our proposed approaches significantly outperform baseline approaches in terms of training time (up to 8.67 times faster) and accuracy (up to 44.6% higher).
翻訳日:2021-12-18 14:07:25 公開日:2021-12-15
# (参考訳) 運用環境におけるディープラーニングモデルのデプロイのためのレスポンシブ並列化アーキテクチャ

Responsive parallelized architecture for deploying deep learning models in production environments ( http://arxiv.org/abs/2112.08933v1 )

ライセンス: CC BY 4.0
Nikhil Verma and Krishna Prasad(参考訳) リクルーターは、カリキュラムのビザ文書を閲覧することで、求職者の候補を簡単にショートリストできる。 非構造化文書 CV は候補ポートフォリオを保持し、詳細をリストアップするエンティティを命名する。 本研究の目的は、階層化されたラベルアテンションネットワークを用いてCVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。

Recruiters can easily shortlist candidates for jobs via viewing their curriculum vitae document. Unstructured document CV beholds candidates portfolio and named entities listing details. The main aim of this study is to design and propose a web oriented, highly responsive, computational pipeline that systematically predicts CV entities using hierarchically refined label attention networks.
翻訳日:2021-12-18 11:35:29 公開日:2021-12-15
# (参考訳) SanMove: セルフアテンションネットワークによる次のロケーションレコメンデーション

SanMove: Next Location Recommendation via Self-Attention Network ( http://arxiv.org/abs/2112.09076v1 )

ライセンス: CC BY 4.0
Huifeng Li, Bin Wang, Sulei Zhu, Yanyan Xu(参考訳) 現在、next location recommendationは位置情報ベースのソーシャルネットワークアプリケーションやサービスにおいて重要な役割を担っている。 Although many methods have been proposed to solve this problem, three important challenges have not been well addressed so far: (1) most existing methods are based on recurrent network, which is time-consuming to train long sequences due to not allowing for full parallelism; (2) personalized preferences generally are not considered reasonably; (3) existing methods rarely systematically studied how to efficiently utilize various auxiliary information (e.g., user ID and timestamp) in trajectory data and the spatio-temporal relations among non-consecutive locations. このような課題に対処するために,ユーザの長期的・短期的な移動パターンをキャプチャして次の位置を予測する,自己注意型ネットワークモデルであるSanMoveを提案する。 具体的には、SanMoveは長期優先学習モジュールを導入し、自己認識モジュールを使用して、ユーザのパーソナライズされた位置選好を表現できる、長期的なモビリティパターンをキャプチャする。 一方、SanMoveは時空間誘導非侵襲的自己注意(STNOVA)を使用して、補助情報を利用して短期的な嗜好を学習する。 実世界の2つのデータセットでSanMoveを評価し、SanMoveは最先端のRNNベースの予測モデルよりも高速であるだけでなく、次の位置予測のベースラインよりも優れていることを示す。

Currently, next location recommendation plays a vital role in location-based social network applications and services. Although many methods have been proposed to solve this problem, three important challenges have not been well addressed so far: (1) most existing methods are based on recurrent network, which is time-consuming to train long sequences due to not allowing for full parallelism; (2) personalized preferences generally are not considered reasonably; (3) existing methods rarely systematically studied how to efficiently utilize various auxiliary information (e.g., user ID and timestamp) in trajectory data and the spatio-temporal relations among non-consecutive locations. To address the above challenges, we propose a novel method named SanMove, a self-attention network based model, to predict the next location via capturing the long- and short-term mobility patterns of users. Specifically, SanMove introduces a long-term preference learning module, and it uses a self-attention module to capture the users long-term mobility pattern which can represent personalized location preferences of users. Meanwhile, SanMove uses a spatial-temporal guided non-invasive self-attention (STNOVA) to exploit auxiliary information to learn short-term preferences. We evaluate SanMove with two real-world datasets, and demonstrate SanMove is not only faster than the state-of-the-art RNN-based predict model but also outperforms the baselines for next location prediction.
翻訳日:2021-12-18 11:23:09 公開日:2021-12-15
# (参考訳) 強化学習における一般化のための特徴認識型反復モジュール

Feature-Attending Recurrent Modules for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2112.08369v1 )

ライセンス: CC BY 4.0
Wilka Carvalho, Andrew Lampinen, Kyriacos Nikiforou, Felix Hill, Murray Shanahan(参考訳) 深部強化学習(Deep RL)は近年,一般化のためのアルゴリズムの開発において大きな進歩を遂げている。 しかし、ほとんどのアルゴリズムは単一の一般化設定をターゲットにしている。 本研究では,3つの異なるタスク構造における一般化について検討する。 a) 定期的に発生する物体の動きの空間的及び時間的構成からなる作業 (b)定期的に発生する3dオブジェクトに対する積極的な知覚及びナビゲーションからなるタスク c) 定期的に発生するオブジェクト構成のシーケンス上で目標情報を記憶するタスク。 タスク補完は常に、タスク指向の知覚と振舞いの繰り返しセグメントを組み合わせて行われる。 繰り返し発生するタスクセグメントをキャプチャする表現を発見できれば,エージェントはタスク構造内で一般化できる,という仮説を立てる。 私たちのタスクでは、個々のオブジェクトの動きを認識する表現、3dオブジェクトへのナビゲーション、オブジェクト構成をナビゲートする表現に対応しています。 認知科学から着想を得て,エージェントの経験の反復的な部分の表現を「知覚的スキーマ」と呼ぶ。 本稿では,複数の比較的小さなリカレントモジュールにまたがって知覚スキーマが分散される状態表現を学習するFeature Attending Recurrent Modules (FARM)を提案する。 FARMと空間的注意を生かした繰り返しアーキテクチャを比較し,空間的位置の重み付き平均値に対する観測特性の低減を図る。 実験の結果,我々の研究する多様なオブジェクト中心ドメインにまたがって,farmの汎用性が向上することが示唆された。

Deep reinforcement learning (Deep RL) has recently seen significant progress in developing algorithms for generalization. However, most algorithms target a single type of generalization setting. In this work, we study generalization across three disparate task structures: (a) tasks composed of spatial and temporal compositions of regularly occurring object motions; (b) tasks composed of active perception of and navigation towards regularly occurring 3D objects; and (c) tasks composed of remembering goal-information over sequences of regularly occurring object-configurations. These diverse task structures all share an underlying idea of compositionality: task completion always involves combining recurring segments of task-oriented perception and behavior. We hypothesize that an agent can generalize within a task structure if it can discover representations that capture these recurring task-segments. For our tasks, this corresponds to representations for recognizing individual object motions, for navigation towards 3D objects, and for navigating through object-configurations. Taking inspiration from cognitive science, we term representations for recurring segments of an agent's experience, "perceptual schemas". We propose Feature Attending Recurrent Modules (FARM), which learns a state representation where perceptual schemas are distributed across multiple, relatively small recurrent modules. We compare FARM to recurrent architectures that leverage spatial attention, which reduces observation features to a weighted average over spatial positions. Our experiments indicate that our feature-attention mechanism better enables FARM to generalize across the diverse object-centric domains we study.
翻訳日:2021-12-18 11:11:11 公開日:2021-12-15
# (参考訳) 不確実性下における幾何学設計のための深部生成モデル

Deep Generative Models for Geometric Design Under Uncertainty ( http://arxiv.org/abs/2112.08919v1 )

ライセンス: CC BY 4.0
Wei (Wayne) Chen, Doksoo Lee, Wei Chen(参考訳) 深層生成モデルは、幾何設計最適化を大幅に改善するコンパクトで表現豊かな設計表現を学習する効果を実証してきた。 しかし、これらのモデルは製造や製造による不確実性を考慮していない。 このような不確実性を定量化する過去の研究は、しばしば幾何学的変動を単純化するが、"現実世界"の不確実性とその設計性能への影響は、高次元性のために定量化が難しい。 本稿では,不確実性フレームワークに基づくジェネレーティブ・アドバイサル・ネットワーク・ベース・デザイン(GAN-DUF)を提案する。このモデルには,名目(理想)設計のコンパクトな表現と,名目設計の条件付き分布を同時に学習する深層生成モデルが含まれている。 2つの実世界のエンジニアリング設計例でそのフレームワークを実演し、製造後の優れた性能を持つソリューションを見つける能力を示した。

Deep generative models have demonstrated effectiveness in learning compact and expressive design representations that significantly improve geometric design optimization. However, these models do not consider the uncertainty introduced by manufacturing or fabrication. Past work that quantifies such uncertainty often makes simplified assumptions on geometric variations, while the "real-world" uncertainty and its impact on design performance are difficult to quantify due to the high dimensionality. To address this issue, we propose a Generative Adversarial Network-based Design under Uncertainty Framework (GAN-DUF), which contains a deep generative model that simultaneously learns a compact representation of nominal (ideal) designs and the conditional distribution of fabricated designs given any nominal design. We demonstrated the framework on two real-world engineering design examples and showed its capability of finding the solution that possesses better performances after fabrication.
翻訳日:2021-12-18 10:49:37 公開日:2021-12-15
# (参考訳) dsgpt: eコマースにおけるテキスト生成用トランスフォーマーのドメイン固有生成事前学習と要約

DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text Generation in E-commerce Title and Review Summarization ( http://arxiv.org/abs/2112.08414v1 )

ライセンス: CC BY 4.0
Xueying Zhang, Yunjiang Jiang, Yue Shang, Zhaomeng Cheng, Chi Zhang, Xiaochuan Fan, Yun Xiao, Bo Long(参考訳) テキスト生成のための新しいドメイン固有生成前訓練法(DS-GPT)を提案し,それをEコマースモバイルディスプレイ上での製品タイトルと要約問題に適用し,まず,入力と出力を組み合わせて微調整タスクに適合するデコーダのみのトランスフォーマアーキテクチャを採用する。 第2に,関連する領域における少量の事前学習データのみの利用が強力であることを実証する。 WikipediaやCommonCrawlのような一般的なコーパスから言語モデルを事前トレーニングするには、膨大な時間とリソースのコミットメントが必要です。 ourdsgptは限定データセットである chinese short textsummarization dataset (lcsts) で事前トレーニングされている。 第3に、当社のモデルは製品関連の人間ラベルデータを必要としない。 タイトル要約タスクでは、アートの状態は、追加のバックグラウンド知識トレーニングと予測ステージを使用する。 対照的に、我々のモデルは、パブリックなTaobao.comdatasetを微調整した後、この知識を包括的に捉え、他の手法よりも大幅に改善する。 要約タスクをレビューするために、JD.comの社内データセットを使用し、微調整の柔軟性に欠ける標準的な機械翻訳手法に類似した改善を観察する。 提案する作業は、テキスト生成タスクを幅広く行うために、単に他のドメインに拡張することができる。

We propose a novel domain-specific generative pre-training (DS-GPT) method for text generation and apply it to the product titleand review summarization problems on E-commerce mobile display.First, we adopt a decoder-only transformer architecture, which fitswell for fine-tuning tasks by combining input and output all to-gether. Second, we demonstrate utilizing only small amount of pre-training data in related domains is powerful. Pre-training a languagemodel from a general corpus such as Wikipedia or the CommonCrawl requires tremendous time and resource commitment, andcan be wasteful if the downstream tasks are limited in variety. OurDSGPT is pre-trained on a limited dataset, the Chinese short textsummarization dataset (LCSTS). Third, our model does not requireproduct-related human-labeled data. For title summarization task,the state of art explicitly uses additional background knowledgein training and predicting stages. In contrast, our model implic-itly captures this knowledge and achieves significant improvementover other methods, after fine-tuning on the public Taobao.comdataset. For review summarization task, we utilize JD.com in-housedataset, and observe similar improvement over standard machinetranslation methods which lack the flexibility of fine-tuning. Ourproposed work can be simply extended to other domains for a widerange of text generation tasks.
翻訳日:2021-12-18 10:38:04 公開日:2021-12-15
# (参考訳) 都市域における歩行者の快適性評価のための位置エンコードGAN

Positional Encoding Augmented GAN for the Assessment of Wind Flow for Pedestrian Comfort in Urban Areas ( http://arxiv.org/abs/2112.08447v1 )

ライセンス: CC BY 4.0
Henrik H{\o}iness, Kristoffer Gjerde, Luca Oggiano, Knut Erik Teigen Giljarhus and Massimiliano Ruocco(参考訳) 計算流体力学(CFD)法による風流の近似には時間を要する。 風の流れを観察しながらプロトタイプをインタラクティブに設計するためのツールを作成するには、よりシンプルなモデルをシミュレートする必要がある。 詳細な計算結果をもたらす数値近似を実行する代わりに、ディープラーニングのデータ駆動手法は、わずかな時間で同様の結果を与えることができるかもしれない。 本研究は,cfdを用いた3次元流れ場計算から,建物足跡の2次元画像から画像への変換に基づく問題への課題を再現し,歩行者高さレベルの流れ場を予測する。 U-Netオートエンコーダ[3]と同様に,様々な領域における画像と画像の翻訳タスクの最先端を表現した Pix2Pix [1] や CycleGAN [2] などの生成敵ネットワーク (GAN) の利用について検討する。 モデルはデータセットの基盤となる分布をデータ駆動の方法で学習することができ、モデルがcfdからレイノルズ平均のnavier-stokes(rans)方程式を学ぶのに役立ちます。 高さ情報の有無に関わらず,様々な3次元ブラフ型建築物のシミュレーションデータセットを試作した。 さらに, モデル選択のための画像の質的, 定量的な評価を行い, CFDによるシミュレーションとの比較を行った。 入力に位置データを加えることで、異なるアーキテクチャにそのような情報を注入するための汎用フレームワークを提案することにより、より正確な結果が得られることを示す。 さらに, 注意機構とスペクトル正規化を適用し, モデル性能が向上し, 安定したトレーニングが容易になることを示す。

Approximating wind flows using computational fluid dynamics (CFD) methods can be time-consuming. Creating a tool for interactively designing prototypes while observing the wind flow change requires simpler models to simulate faster. Instead of running numerical approximations resulting in detailed calculations, data-driven methods in deep learning might be able to give similar results in a fraction of the time. This work rephrases the problem from computing 3D flow fields using CFD to a 2D image-to-image translation-based problem on the building footprints to predict the flow field at pedestrian height level. We investigate the use of generative adversarial networks (GAN), such as Pix2Pix [1] and CycleGAN [2] representing state-of-the-art for image-to-image translation task in various domains as well as U-Net autoencoder [3]. The models can learn the underlying distribution of a dataset in a data-driven manner, which we argue can help the model learn the underlying Reynolds-averaged Navier-Stokes (RANS) equations from CFD. We experiment on novel simulated datasets on various three-dimensional bluff-shaped buildings with and without height information. Moreover, we present an extensive qualitative and quantitative evaluation of the generated images for a selection of models and compare their performance with the simulations delivered by CFD. We then show that adding positional data to the input can produce more accurate results by proposing a general framework for injecting such information on the different architectures. Furthermore, we show that the models performances improve by applying attention mechanisms and spectral normalization to facilitate stable training.
翻訳日:2021-12-18 10:28:28 公開日:2021-12-15
# (参考訳) 環境科学における倫理的、責任ある、信頼できる人工知能の必要性

The Need for Ethical, Responsible, and Trustworthy Artificial Intelligence for Environmental Sciences ( http://arxiv.org/abs/2112.08453v1 )

ライセンス: CC BY-SA 4.0
Amy McGovern and Imme Ebert-Uphoff and David John Gagne II and Ann Bostrom(参考訳) 環境科学のあらゆる側面における人工知能(AI)と機械学習(ML)の手法の利用の増加を考えると、我々はAIの倫理的かつ責任ある利用について議論を始めることが不可欠である。 実際、AIが導入された他のドメインから多くを学ぶことができるが、多くの場合、刑事司法制度におけるハードコーディングの人種的偏見や金融システムによる経済的不平等の増加など、意図しない社会的結果をもたらす。 一般的な誤解は、ほとんどのデータが観測結果から来ているように、環境科学はAIが使われているときに意図しない結果に免疫を持ち、AIアルゴリズムは、しばしば客観的と見なされる数学的公式に基づいているということである。 この記事では、その逆を議論する。 具体例を用いて、環境科学においてAIが同様の結果をもたらす多くの方法を実証する。 本稿は、この方向における議論と研究の取り組みを刺激する。 コミュニティとして、AIの導入を通じて、他のドメインで犯された予測可能な間違いを繰り返すことは避けるべきです。 実際、適切な予防措置をとれば、AIは気候と環境の不正を減らすのに役立つ素晴らしいツールになり得る。 主に天気や気候の例に焦点を当てているが、結論は環境科学に広く当てはまる。

Given the growing use of Artificial Intelligence (AI) and machine learning (ML) methods across all aspects of environmental sciences, it is imperative that we initiate a discussion about the ethical and responsible use of AI. In fact, much can be learned from other domains where AI was introduced, often with the best of intentions, yet often led to unintended societal consequences, such as hard coding racial bias in the criminal justice system or increasing economic inequality through the financial system. A common misconception is that the environmental sciences are immune to such unintended consequences when AI is being used, as most data come from observations, and AI algorithms are based on mathematical formulas, which are often seen as objective. In this article, we argue the opposite can be the case. Using specific examples, we demonstrate many ways in which the use of AI can introduce similar consequences in the environmental sciences. This article will stimulate discussion and research efforts in this direction. As a community, we should avoid repeating any foreseeable mistakes made in other domains through the introduction of AI. In fact, with proper precautions, AI can be a great tool to help {\it reduce} climate and environmental injustice. We primarily focus on weather and climate examples but the conclusions apply broadly across the environmental sciences.
翻訳日:2021-12-18 10:03:45 公開日:2021-12-15
# (参考訳) ErAConD : 文法的誤り訂正のための誤り注釈付き会話対話データセット

ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical Error Correction ( http://arxiv.org/abs/2112.08466v1 )

ライセンス: CC BY 4.0
Xun Yuan, Derek Pham, Sam Davidson, Zhou Yu(参考訳) 現在利用可能な文法的誤り訂正(GEC)データセットは、よく書かれたテキストを使用してコンパイルされ、これらのデータセットの適用性は、非公式な書き込みやダイアログなどの他のドメインに制限される。 本稿では,オープンドメインチャットボットの会話から抽出された新しい並行GCCデータセットを提案する。 データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整し、モデル精度が16ポイント向上した。 GECモデルでは、偽陽性が言語学習者に深刻な混乱をもたらす可能性があるため、モデル精度がGECタスクのリコールよりも重要であると考えられるため、これは特に重要である。 また,理解性への影響を認識してエラーをランク付けし,データセットの再現性と拡張性を両立させる,詳細なアノテーションスキームを提案する。 実験の結果,会話シナリオにおけるGECモデルの性能向上におけるデータの有効性が示された。

Currently available grammatical error correction (GEC) datasets are compiled using well-formed written text, limiting the applicability of these datasets to other domains such as informal writing and dialog. In this paper, we present a novel parallel GEC dataset drawn from open-domain chatbot conversations; this dataset is, to our knowledge, the first GEC dataset targeted to a conversational setting. To demonstrate the utility of the dataset, we use our annotated data to fine-tune a state-of-the-art GEC model, resulting in a 16 point increase in model precision. This is of particular importance in a GEC model, as model precision is considered more important than recall in GEC tasks since false positives could lead to serious confusion in language learners. We also present a detailed annotation scheme which ranks errors by perceived impact on comprehensibility, making our dataset both reproducible and extensible. Experimental results show the effectiveness of our data in improving GEC model performance in conversational scenario.
翻訳日:2021-12-18 09:44:26 公開日:2021-12-15
# (参考訳) プログレッシブ量子による外部抵抗の獲得:高速アルゴリズムと理論的研究

Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms and Theoretical Studies ( http://arxiv.org/abs/2112.08471v1 )

ライセンス: CC BY 4.0
Yiyuan She, Zhifeng Wang, Jiahui Shen(参考訳) 異常値はビッグデータアプリケーションで広く発生し、統計的な推定や推論に重大な影響を与える可能性がある。 本稿では,任意に与えられた損失関数を頑健化するために,異常耐性推定の枠組みを導入する。 トリミング法と密接な関係を持ち、全てのサンプルに対して明示的なアウトライジング性パラメータを含み、計算、理論、パラメータチューニングを容易にする。 非凸性と非滑らかさの問題に取り組むため、実装の容易さと高速収束性を保証するスケーラブルなアルゴリズムを開発した。 特に、通常のデータセットにおいて、データ再サンプリング数が大幅に削減されるように、出発点の要件を緩和するための新しい手法を提案する。 統計処理と計算処理の併用により,M推定を超える漸近解析が可能である。 得られた抵抗推定器は、必ずしも大域的あるいは局所的に最適ではないが、低次元と高次元の両方で最小値の最適性を楽しむ。 回帰、分類、ニューラルネットワークの実験では、グロス異常の発生において提案手法の優れた性能を示す。

Outliers widely occur in big-data applications and may severely affect statistical estimation and inference. In this paper, a framework of outlier-resistant estimation is introduced to robustify an arbitrarily given loss function. It has a close connection to the method of trimming and includes explicit outlyingness parameters for all samples, which in turn facilitates computation, theory, and parameter tuning. To tackle the issues of nonconvexity and nonsmoothness, we develop scalable algorithms with implementation ease and guaranteed fast convergence. In particular, a new technique is proposed to alleviate the requirement on the starting point such that on regular datasets, the number of data resamplings can be substantially reduced. Based on combined statistical and computational treatments, we are able to perform nonasymptotic analysis beyond M-estimation. The obtained resistant estimators, though not necessarily globally or even locally optimal, enjoy minimax rate optimality in both low dimensions and high dimensions. Experiments in regression, classification, and neural networks show excellent performance of the proposed methodology at the occurrence of gross outliers.
翻訳日:2021-12-18 09:36:41 公開日:2021-12-15
# (参考訳) ラベル誘導型グループ化アルゴリズムによるテキストマイニング

Text Mining Through Label Induction Grouping Algorithm Based Method ( http://arxiv.org/abs/2112.08486v1 )

ライセンス: CC BY 4.0
Gulshan Saleem, Nisar Ahmed, Usman Qamar(参考訳) 情報検索手法の主な焦点は、コスト効率の良い正確かつ効率的な結果を提供することである。 lingO (Label induction Grouping Algorithm) は、品質クラスタの形で検索結果を提供することを目的としたクラスタリングアルゴリズムであるが、いくつかの制限がある。 本稿では,より有意義な結果の達成と,アルゴリズム全体の性能向上に焦点をあてる。 lingOは、Latent Semantic Indexing(LSI)技術によるクラスタラベル誘導と、Vector Space Model(VSM)を用いたクラスタコンテンツ発見の2つの主要なステップで動作する。 lingOは、クラスタコンテンツ発見にVSMを使用するため、VSMをLSIに置き換えてクラスタコンテンツ発見を行い、LSIをOkapi BM25で使用することの可能性を分析する。 次のタスクは、修正されたメソッドの結果をlingoオリジナルメソッドと比較することです。 この研究は5つの異なるテキストベースのデータセットに適用され、各メソッドに対してより信頼性の高い結果を得る。 その結果,LSIをコンテンツディスカバリに使用する場合,lingOの方が40~50%よい結果が得られた。 VSMの代わりにLSI(LSI+Okapi BM25)のスコアリング法としてOkapi BM25を用いた理論的証拠から、VSMとLSIの結果を比較すると、スケーラビリティと性能の点でクラスタ生成性が向上する。

The main focus of information retrieval methods is to provide accurate and efficient results which are cost-effective too. LINGO (Label Induction Grouping Algorithm) is a clustering algorithm that aims to provide search results in form of quality clusters but also has a few limitations. In this paper, our focus is based on achieving results that are more meaningful and improving the overall performance of the algorithm. LINGO works on two main steps; Cluster Label Induction by using Latent Semantic Indexing technique (LSI) and Cluster content discovery by using the Vector Space Model (VSM). As LINGO uses VSM in cluster content discovery, our task is to replace VSM with LSI for cluster content discovery and to analyze the feasibility of using LSI with Okapi BM25. The next task is to compare the results of a modified method with the LINGO original method. The research is applied to five different text-based data sets to get more reliable results for every method. Research results show that LINGO produces 40-50% better results when using LSI for content Discovery. From theoretical evidence using Okapi BM25 for scoring method in LSI (LSI+Okapi BM25) for cluster content discovery instead of VSM, also results in better clusters generation in terms of scalability and performance when compares to both VSM and LSI's Results.
翻訳日:2021-12-18 09:35:36 公開日:2021-12-15
# (参考訳) 情報密度の大きい人間言語は通信速度を増大させるが、会話の可読度は低下する

Human Languages with Greater Information Density Increase Communication Speed, but Decrease Conversation Breadth ( http://arxiv.org/abs/2112.08491v1 )

ライセンス: CC BY 4.0
Pedro Aceves and James A. Evans(参考訳) 言語は、人間の情報を伝達し、協調を達成する主要な媒体である。 最も重要な言語機能の1つは、会話を通じてメッセージが通信できるように世界を分類することである。 人間の言語が、色、音、数、移動、時間、空間、人的活動、性別、身体部分、生物学といった意味領域内の情報のエンコーディングにおいてどのように変化するかは分かっていないが、意味情報のグローバルな構造と人間のコミュニケーションへの影響についてはほとんど分かっていない。 大規模計算,人工知能技術,および15の分野(宗教,経済学,医学,エンターテイメント,政治,技術など)にわたる大規模並列コーパスを用いて,999の言語において,言語の情報・意味密度のかなりの変動と,人間のコミュニケーションと協調に対するそれらの影響を示す。 先行研究とは対照的に,高濃度言語は低密度言語に比べてより高速に情報を伝達できることを実証する。 そして、14言語に9000以上の実生活会話、140言語に90,000のウィキペディア記事を用いて、より密集した言語、会話、記事において特定のトピックを議論する方法がより多く存在することを示します。 これらの結果は、言語構造が会話の性質と質感を形作ることを示し、グループ、組織、市場、社会の行動に重要な影響を及ぼすことを示唆する、ヒトのコミュニケーションチャネルにおける重要な変動の源である。

Language is the primary medium through which human information is communicated and coordination is achieved. One of the most important language functions is to categorize the world so messages can be communicated through conversation. While we know a great deal about how human languages vary in their encoding of information within semantic domains such as color, sound, number, locomotion, time, space, human activities, gender, body parts and biology, little is known about the global structure of semantic information and its effect on human communication. Using large-scale computation, artificial intelligence techniques, and massive, parallel corpora across 15 subject areas--including religion, economics, medicine, entertainment, politics, and technology--in 999 languages, here we show substantial variation in the information and semantic density of languages and their consequences for human communication and coordination. In contrast to prior work, we demonstrate that higher density languages communicate information much more quickly relative to lower density languages. Then, using over 9,000 real-life conversations across 14 languages and 90,000 Wikipedia articles across 140 languages, we show that because there are more ways to discuss any given topic in denser languages, conversations and articles retrace and cycle over a narrower conceptual terrain. These results demonstrate an important source of variation across the human communicative channel, suggesting that the structure of language shapes the nature and texture of conversation, with important consequences for the behavior of groups, organizations, markets, and societies.
翻訳日:2021-12-18 09:28:08 公開日:2021-12-15
# (参考訳) 一様ランダムアサインメントとリワード最大化を組み合わせたリワードとのトレードオフ統計解析のための適応実験アルゴリズム

Algorithms for Adaptive Experiments that Trade-off Statistical Analysis with Reward: Combining Uniform Random Assignment and Reward Maximization ( http://arxiv.org/abs/2112.08507v1 )

ライセンス: CC BY 4.0
Jacob Nogas, Tong Li, Fernando J. Yanez, Arghavan Modiri, Nina Deliu, Ben Prystawski, Sofia S. Villar, Anna Rafferty, Joseph J. Williams(参考訳) トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは、報酬を最大化することで、より多くの参加者をより効果的な腕に割り当てるためにデータが使用されるという適応的な実験に使用できる。 このような割当て戦略は、腕がないときの腕の違いを特定する統計的仮説テストのリスクを増大させ、真に腕があるときの腕の違いを結論付けない。 本稿では,統計的解析における一様ランダム化の利点と,トンプソンサンプリング(TS)による報酬最大化の利点を組み合わせた2つのアルゴリズムを探索する2本腕実験のシミュレーションを提案する。 まずTop-Two Thompson Samplingは、一定量の均一なランダムアロケーション(UR)を時間とともに均等に拡大する。 第2に、TS PostDiff (Posterior Probability of Difference)と呼ばれる新しいヒューリスティックアルゴリズム。 TS PostDiff は TS と UR を混合するためにベイズ的アプローチをとる: UR の割り当てによって参加者が割り振られる確率は、2つの腕の差が '小さい' (あるしきい値以下) であるという後続の確率である。 TS PostDiff法は複数の効果サイズに対して良好に動作し,真の効果サイズを推測したチューニングを必要としないことがわかった。

Multi-armed bandit algorithms like Thompson Sampling can be used to conduct adaptive experiments, in which maximizing reward means that data is used to progressively assign more participants to more effective arms. Such assignment strategies increase the risk of statistical hypothesis tests identifying a difference between arms when there is not one, and failing to conclude there is a difference in arms when there truly is one. We present simulations for 2-arm experiments that explore two algorithms that combine the benefits of uniform randomization for statistical analysis, with the benefits of reward maximization achieved by Thompson Sampling (TS). First, Top-Two Thompson Sampling adds a fixed amount of uniform random allocation (UR) spread evenly over time. Second, a novel heuristic algorithm, called TS PostDiff (Posterior Probability of Difference). TS PostDiff takes a Bayesian approach to mixing TS and UR: the probability a participant is assigned using UR allocation is the posterior probability that the difference between two arms is `small' (below a certain threshold), allowing for more UR exploration when there is little or no reward to be gained. We find that TS PostDiff method performs well across multiple effect sizes, and thus does not require tuning based on a guess for the true effect size.
翻訳日:2021-12-18 09:11:19 公開日:2021-12-15
# (参考訳) DocAMR:多文AMR表現と評価

DocAMR: Multi-Sentence AMR Representation and Evaluation ( http://arxiv.org/abs/2112.08513v1 )

ライセンス: CC BY-SA 4.0
Tahira Naseem, Austin Blodgett, Sadhana Kumaravel, Tim O'Gorman, Young-Suk Lee, Jeffrey Flanigan, Ram\'on Fernandez Astudillo, Radu Florian, Salim Roukos, Nathan Schneider(参考訳) 英文を抽象意味表現(abstract meaning representation, amr)グラフに解析することに関する広範な研究にもかかわらず、統一グラフ表現への全文書解析は明確な表現と評価を欠いている。 先行研究の超知覚レベルのコリファレンスアノテーションを生かして,統一グラフ表現を導出する単純なアルゴリズムを導入し,過剰なマージによる情報損失の落とし穴や,過度なマージによる一貫性の欠如を回避した。 次に、Smatchメトリックの改善について記述し、文書レベルのグラフの比較に使いやすくし、最高の文書レベルのAMRパーサを再評価する。 また,上位のamrパーサとコリファレンスレゾリューションシステムを組み合わせたパイプラインアプローチを提案し,今後の研究に強力なベースラインを提供する。

Despite extensive research on parsing of English sentences into Abstraction Meaning Representation (AMR) graphs, which are compared to gold graphs via the Smatch metric, full-document parsing into a unified graph representation lacks well-defined representation and evaluation. Taking advantage of a super-sentential level of coreference annotation from previous work, we introduce a simple algorithm for deriving a unified graph representation, avoiding the pitfalls of information loss from over-merging and lack of coherence from under-merging. Next, we describe improvements to the Smatch metric to make it tractable for comparing document-level graphs, and use it to re-evaluate the best published document-level AMR parser. We also present a pipeline approach combining the top performing AMR parser and coreference resolution systems, providing a strong baseline for future research.
翻訳日:2021-12-18 08:56:25 公開日:2021-12-15
# (参考訳) 推論による不変性

Invariance Through Inference ( http://arxiv.org/abs/2112.08526v1 )

ライセンス: CC BY 4.0
Takuma Yoneda, Ge Yang, Matthew R. Walter, Bradly Stadie(参考訳) Invariance through Inference(推論による不変性)と呼ばれる一般的なアプローチを導入し、未知の知覚変化を持つデプロイ環境におけるエージェントのテスト時間性能を改善する。 補間による不変の視覚特徴を生成する代わりに、推論による不変性は、デプロイメント時の適応を教師なしの学習問題に変える。 これは、ペア化されたデータに頼ることなく、エージェントの以前の経験に遅延した機能の分布を一致させようとする単純なアルゴリズムをデプロイすることで実現される。 単純ではあるが、このアイデアは、カメラのポーズや照明条件の変更など、デプロイメント時の報酬にアクセスできることなく、様々な適応シナリオを驚くほど改善することを示している。 画像に基づく観察を行うロボット環境である challenge distractor control suite で結果が示された。

We introduce a general approach, called Invariance through Inference, for improving the test-time performance of an agent in deployment environments with unknown perceptual variations. Instead of producing invariant visual features through interpolation, invariance through inference turns adaptation at deployment-time into an unsupervised learning problem. This is achieved in practice by deploying a straightforward algorithm that tries to match the distribution of latent features to the agent's prior experience, without relying on paired data. Although simple, we show that this idea leads to surprising improvements on a variety of adaptation scenarios without access to deployment-time rewards, including changes in camera poses and lighting conditions. Results are presented on challenging distractor control suite, a robotics environment with image-based observations.
翻訳日:2021-12-18 08:43:36 公開日:2021-12-15
# 実生実生Dブレーンモデル

Breeding realistic D-brane models ( http://arxiv.org/abs/2112.08391v1 )

ライセンス: Link先を確認
Gregory J. Loges, Gary Shiu(参考訳) 交差ブレーンは、様々な望ましい特性を持つ弦理論から粒子物理モデルを構築するための有用なメカニズムを提供する。 このようなモデルの景観は巨大であり、最も現象学的に興味深い地域に向かうことは、潜在的に困難である。 機械学習技術は、多数の一貫性と現象学的に望ましいモデルを構築するのに有効である。 本研究では,自然選択を模倣して集団を最適な解へと進化させる遺伝的アルゴリズムを用いて,一貫したD-ブレーンモデルを見つけるという問題を述べる。 4次元の${\cal n}=1$ 超対称型iiaオリエンティフォールドと交差するd6-ブレーンに対して、$\mathcal{o}(10^6)$一意で完全一貫性のあるモデルを簡単に構築でき、探索環境とハイパーパラメータの公平な選択により、得られたモデルの$\mathcal{o}(30\%)$が所望の標準模型ゲージ群因子を含むことを実証する。 大きさのサンプルを持つことで、標準モデルゲージ係数の制限なしに、ブレーンモデルと交差する際の予備的なランドスケープ統計を引き出すことができる。

Intersecting branes provide a useful mechanism to construct particle physics models from string theory with a wide variety of desirable characteristics. The landscape of such models can be enormous, and navigating towards regions which are most phenomenologically interesting is potentially challenging. Machine learning techniques can be used to efficiently construct large numbers of consistent and phenomenologically desirable models. In this work we phrase the problem of finding consistent intersecting D-brane models in terms of genetic algorithms, which mimic natural selection to evolve a population collectively towards optimal solutions. For a four-dimensional ${\cal N}=1$ supersymmetric type IIA orientifold with intersecting D6-branes, we demonstrate that $\mathcal{O}(10^6)$ unique, fully consistent models can be easily constructed, and, by a judicious choice of search environment and hyper-parameters, $\mathcal{O}(30\%)$ of the found models contain the desired Standard Model gauge group factor. Having a sizable sample allows us to draw some preliminary landscape statistics of intersecting brane models both with and without the restriction of having the Standard Model gauge factor.
翻訳日:2021-12-17 16:58:29 公開日:2021-12-15
# 多変量時系列天文学データにおける異常のリアルタイム検出

Real-time Detection of Anomalies in Multivariate Time Series of Astronomical Data ( http://arxiv.org/abs/2112.08415v1 )

ライセンス: Link先を確認
Daniel Muthukrishna, Kaisey S. Mandel, Michelle Lochner, Sara Webb, Gautham Narayan(参考訳) 天文学の過渡現象は、様々な時間スケールで一時的に明るくなり、宇宙論や天文学で最も重要な発見に繋がる恒星である。 これらの過渡現象のいくつかは超新星と呼ばれる恒星の爆発的な死であり、その他は希少でエキゾチックで全く新しい種類の恒星爆発である。 新しい天文学的なスカイサーベイは、かつてない数のマルチ波長のトランジェントを観測し、新しい興味深いトランジェントを視覚的に識別する標準的なアプローチを作成している。 この要求を満たすために, 高速かつ自動で過渡光曲線をリアルタイムに検出する2つの新しい手法を提案する。 どちらの方法も、既知の過渡数の光曲線を正確にモデル化できるなら、モデル予測からの逸脱はおそらく異常である、という単純な考え方に基づいている。 第1のアプローチは、時間的畳み込みネットワーク(tcns)を使用して構築された確率的ニューラルネットワークであり、第2のアプローチは、過渡の解釈可能なベイズパラメトリックモデルである。 ニューラルネットワークの柔軟性は、多くの回帰タスクにそのような強力なツールを与える特性であり、パラメトリックモデルと比較して異常検出にはあまり適さないことを示す。

Astronomical transients are stellar objects that become temporarily brighter on various timescales and have led to some of the most significant discoveries in cosmology and astronomy. Some of these transients are the explosive deaths of stars known as supernovae while others are rare, exotic, or entirely new kinds of exciting stellar explosions. New astronomical sky surveys are observing unprecedented numbers of multi-wavelength transients, making standard approaches of visually identifying new and interesting transients infeasible. To meet this demand, we present two novel methods that aim to quickly and automatically detect anomalous transient light curves in real-time. Both methods are based on the simple idea that if the light curves from a known population of transients can be accurately modelled, any deviations from model predictions are likely anomalies. The first approach is a probabilistic neural network built using Temporal Convolutional Networks (TCNs) and the second is an interpretable Bayesian parametric model of a transient. We show that the flexibility of neural networks, the attribute that makes them such a powerful tool for many regression tasks, is what makes them less suitable for anomaly detection when compared with our parametric model.
翻訳日:2021-12-17 16:58:05 公開日:2021-12-15
# ニューラルネットワークを用いた潮流モデル

Neural Network-based Power Flow Model ( http://arxiv.org/abs/2112.08418v1 )

ライセンス: Link先を確認
Thuan Pham, Xingpeng Li(参考訳) 電力フロー解析は電力系統網内の電力の流れを評価するために用いられる。 電力フロー計算は、各バスの電圧大きさ/位相角や各分岐のアクティブ/反応性電力フローなどのシステムの定常変数を決定するために用いられる。 DC電力フローモデルは、電力産業で広く使われている一般的な線形電力フローモデルである。 高速で頑健であるが、いくつかのクリティカルトランスミッションラインで不正確なラインフロー結果をもたらす可能性がある。 この欠点は、歴史的グリッドプロファイルを利用するデータ駆動方式によって部分的に解決できる。 本稿では,ニューラルネットワーク(NN)モデルを用いて,過去の電力システムデータを用いて電力フローの予測を行う。 トレーニングプロセスは時間がかかりますが、一度トレーニングすれば、ラインフローを見積もるのは非常に早いのです。 提案したNNベース電力フローモデルと従来の直流電力フローモデルとの総合的な性能解析を行った。 提案したNNベース電力フローモデルでは,直流電力フローモデルよりも高速かつ高精度に解を見つけることができる。

Power flow analysis is used to evaluate the flow of electricity in the power system network. Power flow calculation is used to determine the steady-state variables of the system, such as the voltage magnitude /phase angle of each bus and the active/reactive power flow on each branch. The DC power flow model is a popular linear power flow model that is widely used in the power industry. Although it is fast and robust, it may lead to inaccurate line flow results for some critical transmission lines. This drawback can be partially addressed by data-driven methods that take advantage of historical grid profiles. In this paper, a neural network (NN) model is trained to predict power flow results using historical power system data. Although the training process may take time, once trained, it is very fast to estimate line flows. A comprehensive performance analysis between the proposed NN-based power flow model and the traditional DC power flow model is conducted. It can be concluded that the proposed NN-based power flow model can find solutions quickly and more accurately than DC power flow model.
翻訳日:2021-12-17 16:57:44 公開日:2021-12-15
# ELight: 生活改善を伴う高効率フォトニックインメモリニューロコンピューティングの実現

ELight: Enabling Efficient Photonic In-Memory Neurocomputing with Life Enhancement ( http://arxiv.org/abs/2112.08512v1 )

ライセンス: Link先を確認
Hanqing Zhu, Jiaqi Gu, Chenghao Feng, Mingjie Liu, Zixuan Jiang, Ray T. Chen, and David Z. Pan(参考訳) 近年の光位相変化材料(PCM)の進歩により、フォトニックインメモリニューロコンピューティングは、ほぼゼロに近い静的電力消費、時間差、コンパクトフットプリントを備えた光ニューラルネットワーク(ONN)設計において、その優位性を示している。 しかし、フォトニックテンソルコアは、単一コアスケールの制限により大きな行列乗算を実装するために、大規模なハードウェア再利用を必要とする。 その結果、大量のPCM書き込みが深刻な動的パワーをもたらし、書き込み持続時間に制限のある脆弱なPCMを圧倒する。 本研究では,効率良く信頼性の高い光インメモリニューロコンピューティングのための書き込み作業全体の最小化を目的とした,相乗的最適化フレームワークelightを提案する。 まず,重み付きブロック間の類似性を促進するためのライトアウェアトレーニングを提案し,冗長な書き込みを除去してプログラミング作業を削減するポストトレーニング最適化手法と組み合わせる。 実験の結果、elightは書き込み数と動的パワーの合計を20倍以上削減できることがわかった。 ELightによって、フォトニックインメモリのニューロコンピューティングは、保存された精度、長寿命のオーダー、プログラミングエネルギーの低い機械学習における実行可能な応用に向けて前進する。

With the recent advances in optical phase change material (PCM), photonic in-memory neurocomputing has demonstrated its superiority in optical neural network (ONN) designs with near-zero static power consumption, time-of-light latency, and compact footprint. However, photonic tensor cores require massive hardware reuse to implement large matrix multiplication due to the limited single-core scale. The resultant large number of PCM writes leads to serious dynamic power and overwhelms the fragile PCM with limited write endurance. In this work, we propose a synergistic optimization framework, ELight, to minimize the overall write efforts for efficient and reliable optical in-memory neurocomputing. We first propose write-aware training to encourage the similarity among weight blocks, and combine it with a post-training optimization method to reduce programming efforts by eliminating redundant writes. Experiments show that ELight can achieve over 20X reduction in the total number of writes and dynamic power with comparable accuracy. With our ELight, photonic in-memory neurocomputing will step forward towards viable applications in machine learning with preserved accuracy, order-of-magnitude longer lifetime, and lower programming energy.
翻訳日:2021-12-17 16:57:30 公開日:2021-12-15
# 量子モデル学習エージェント:機械学習による量子システムの特性化

Quantum Model Learning Agent: characterisation of quantum systems through machine learning ( http://arxiv.org/abs/2112.08409v1 )

ライセンス: Link先を確認
Brian Flynn, Antonio Andreas Gentile, Nathan Wiebe, Raffaele Santagati, Anthony Laing(参考訳) 実際の量子系の正確なモデルはその振る舞いを研究するために重要であるが、経験的に蒸留することは困難である。 本稿では,量子モデル学習エージェント (QMLA) を用いて,対象システムのハミルトン的記述をリバースエンジニアリングするアルゴリズムについて報告する。 シミュレーション実験でQMLAの性能を検証し、候補ハミルトンモデルの設計のためのいくつかのメカニズムを実証し、同時に研究中のシステムを管理する物理的相互作用の性質に関する多くの仮説を楽しませた。 qmlaは、限定された事前情報を提供し、実験的なセットアップを制御する場合に、ほとんどのインスタンスで真のモデルを特定することが示される。 我々のプロトコルは、Ising、Heisenberg、Hubbardといったモデルファミリーを並列に探索し、システムダイナミクスを最もよく記述するファミリーを確実に特定することができる。 我々は,新しい仮説モデルを作成するための遺伝的アルゴリズムを組み込んで,大規模モデル空間で動作するqmlaを実演する。 次世代に伝播する機能を持つモデルの選定は、一般的にチェスやフットボールなどの競技者の評価に使用されるelo rating schemeにインスパイアされた客観的な機能に基づいている。 実モデルと比較すると,F_1$-score $\geq 0.88$のモデルが見出され,真モデルが72%のケースで正確に識別され,25万ドルを超える潜在的なモデルが探索される。 ターゲットシステムで実際に発生する相互作用をテストすることで、QMLAは基礎物理学の探索と量子デバイスのキャリブレーションとキャリブレーションの両方に有効なツールである。

Accurate models of real quantum systems are important for investigating their behaviour, yet are difficult to distill empirically. Here, we report an algorithm -- the Quantum Model Learning Agent (QMLA) -- to reverse engineer Hamiltonian descriptions of a target system. We test the performance of QMLA on a number of simulated experiments, demonstrating several mechanisms for the design of candidate Hamiltonian models and simultaneously entertaining numerous hypotheses about the nature of the physical interactions governing the system under study. QMLA is shown to identify the true model in the majority of instances, when provided with limited a priori information, and control of the experimental setup. Our protocol can explore Ising, Heisenberg and Hubbard families of models in parallel, reliably identifying the family which best describes the system dynamics. We demonstrate QMLA operating on large model spaces by incorporating a genetic algorithm to formulate new hypothetical models. The selection of models whose features propagate to the next generation is based upon an objective function inspired by the Elo rating scheme, typically used to rate competitors in games such as chess and football. In all instances, our protocol finds models that exhibit $F_1$-score $\geq 0.88$ when compared with the true model, and it precisely identifies the true model in 72% of cases, whilst exploring a space of over $250,000$ potential models. By testing which interactions actually occur in the target system, QMLA is a viable tool for both the exploration of fundamental physics and the characterisation and calibration of quantum devices.
翻訳日:2021-12-17 16:27:09 公開日:2021-12-15
# スピンドル振動のキャラクタリゼーションによる白箱SVMフレームワークとそのSwarm-based Optimization for Supervision of Toothed Milling Cutter

A White-Box SVM Framework and its Swarm-Based Optimization for Supervision of Toothed Milling Cutter through Characterization of Spindle Vibrations ( http://arxiv.org/abs/2112.08421v1 )

ライセンス: Link先を確認
Tejas Y. Deo, Abhishek D. Patange, Sujit S. Pardeshi, R. Jegadeeshwaran, Apoorva N. Khairnar, Hrushikesh S. Khade(参考訳) 本稿では, 実時間スピンドル振動のキャラクタリゼーションにより, 歯削カッターの監視を行うためのWhite-Box Support vector Machine(SVM)フレームワークとそのSwarmベースの最適化について述べる。 アクセラレーションの時間領域応答と統計的特徴から, プロセス内工具の摩耗(側面・鼻の摩耗, クレーター・ノッチの摩耗, エッジフラクチャー)による振動の異常モーメントについて検討した。 特徴選択のために決定木を用いた再帰的特徴除去法(rfecv)が実装されている。 さらに、ツールヘルスモニタリングのための標準svmの能力と、swarmベースのアルゴリズムの適用による最適化が検討されている。 5つのメタヒューリスティックアルゴリズム(エレファント・ハーディング最適化、モザイク・バタフライ最適化、ハリス・ホークス最適化、スライム・モールドアルゴリズム、モス探索アルゴリズム)の性能比較分析を行った。 ツール条件監視における機械学習モデルの性能に関する洞察を提供するグローバルおよびローカル表現を考慮したホワイトボックスアプローチが提案されている。

In this paper, a white-Box support vector machine (SVM) framework and its swarm-based optimization is presented for supervision of toothed milling cutter through characterization of real-time spindle vibrations. The anomalous moments of vibration evolved due to in-process tool failures (i.e., flank and nose wear, crater and notch wear, edge fracture) have been investigated through time-domain response of acceleration and statistical features. The Recursive Feature Elimination with Cross-Validation (RFECV) with decision trees as the estimator has been implemented for feature selection. Further, the competence of standard SVM has been examined for tool health monitoring followed by its optimization through application of swarm based algorithms. The comparative analysis of performance of five meta-heuristic algorithms (Elephant Herding Optimization, Monarch Butterfly Optimization, Harris Hawks Optimization, Slime Mould Algorithm, and Moth Search Algorithm) has been carried out. The white-box approach has been presented considering global and local representation that provides insight into the performance of machine learning models in tool condition monitoring.
翻訳日:2021-12-17 16:26:39 公開日:2021-12-15
# データ駆動モデリングのための動的システムの構造の活用

Leveraging the structure of dynamical systems for data-driven modeling ( http://arxiv.org/abs/2112.08458v1 )

ライセンス: Link先を確認
Alessandro Bucci, Onofrio Semeraro, Alexandre Allauzen, Sergio Chibbaro and Lionel Mathelin(参考訳) 複雑なシステムの時間的挙動の信頼できる予測は、多くの科学分野において必要である。 しかし、この強い関心はモデリングの問題によって妨げられている: しばしば、考慮中の系の物理を記述する支配方程式はアクセスできないか、またはそれらの解は予測時間制約と相容れない計算時間を必要とするかもしれない。 今日では、複雑なシステムを汎用的な機能形式で近似し、利用可能な観測からニヒロに知らせることが、近年の膨大な科学的研究によって示されているように、一般的な慣行となっている。 ディープニューラルネットワークに基づく多くの成功例がすでに利用可能であるが、モデルの一般化可能性や保証のマージンはしばしば見過ごされている。 本稿では,長期記憶ニューラルネットワークについて考察し,トレーニングセットとその構造が長期予測の品質に与える影響を徹底的に検討する。 エルゴディック理論を応用して、物理系の忠実なモデルを保証する事前計算に十分なデータの量を分析する。 本稿では,システムの不変性と基礎となるアトラクタの構造に基づいて,学習セットのインフォームドデザインが学習モデルを大幅に改善し,アクティブラーニングの文脈における研究の道筋を開く方法を示す。 さらに、メモリ対応モデルに依存する場合のメモリ初期化の非自明な効果を図示する。 本研究は,複雑な力学系の効率的なデータ駆動モデリングに必要なデータ量と選択について,エビデンスに基づくグッドプラクティスを提案する。

The reliable prediction of the temporal behavior of complex systems is required in numerous scientific fields. This strong interest is however hindered by modeling issues: often, the governing equations describing the physics of the system under consideration are not accessible or, when known, their solution might require a computational time incompatible with the prediction time constraints. Nowadays, approximating complex systems at hand in a generic functional format and informing it ex nihilo from available observations has become a common practice, as illustrated by the enormous amount of scientific work appeared in the last years. Numerous successful examples based on deep neural networks are already available, although generalizability of the models and margins of guarantee are often overlooked. Here, we consider Long-Short Term Memory neural networks and thoroughly investigate the impact of the training set and its structure on the quality of the long-term prediction. Leveraging ergodic theory, we analyze the amount of data sufficient for a priori guaranteeing a faithful model of the physical system. We show how an informed design of the training set, based on invariants of the system and the structure of the underlying attractor, significantly improves the resulting models, opening up avenues for research within the context of active learning. Further, the non-trivial effects of the memory initializations when relying on memory-capable models will be illustrated. Our findings provide evidence-based good-practice on the amount and the choice of data required for an effective data-driven modeling of any complex dynamical system.
翻訳日:2021-12-17 16:26:15 公開日:2021-12-15
# OptABC: 機械学習アルゴリズムのための最適ハイパーパラメータチューニングアプローチ

OptABC: an Optimal Hyperparameter Tuning Approach for Machine Learning Algorithms ( http://arxiv.org/abs/2112.08511v1 )

ライセンス: Link先を確認
Leila Zahedi, Farid Ghareh Mohammadi, M. Hadi Amini(参考訳) 機械学習アルゴリズムにおけるハイパーパラメータチューニングは、問題の大規模な性質のために計算的に難しいタスクである。 超パラメータチューニングのための効率的な戦略を開発するためには、Swarmインテリジェンスアルゴリズムを使用することが期待できる。 人工ビーコロニー(ABC)最適化はこの目的のために有望かつ効率的な最適化アルゴリズムである。 しかし、いくつかのケースでは、ABCは解の初期人口や高価な目的関数が不足しているため、収束速度や実行時間が遅い。 これらの問題に対処するため、ABCアルゴリズムがほぼ最適解への高速収束を支援するために、新しいアルゴリズムであるOptABCが提案されている。 optabcは、異なる機械学習モデルのハイパーパラメータをチューニングするために、人工蜂コロニーアルゴリズム、k平均クラスタリング、欲望アルゴリズム、および反対ベースの学習戦略を統合する。 optabcはこれらの技術を用いて初期人口を多様化させ、精度を著しく低下させることなく収束能力を高める。 提案手法の性能を検証するために,従来の最先端手法との比較を行った。 実験の結果,OptABCの有効性が文献の既存手法と比較された。

Hyperparameter tuning in machine learning algorithms is a computationally challenging task due to the large-scale nature of the problem. In order to develop an efficient strategy for hyper-parameter tuning, one promising solution is to use swarm intelligence algorithms. Artificial Bee Colony (ABC) optimization lends itself as a promising and efficient optimization algorithm for this purpose. However, in some cases, ABC can suffer from a slow convergence rate or execution time due to the poor initial population of solutions and expensive objective functions. To address these concerns, a novel algorithm, OptABC, is proposed to help ABC algorithm in faster convergence toward a near-optimum solution. OptABC integrates artificial bee colony algorithm, K-Means clustering, greedy algorithm, and opposition-based learning strategy for tuning the hyper-parameters of different machine learning models. OptABC employs these techniques in an attempt to diversify the initial population, and hence enhance the convergence ability without significantly decreasing the accuracy. In order to validate the performance of the proposed method, we compare the results with previous state-of-the-art approaches. Experimental results demonstrate the effectiveness of the OptABC compared to existing approaches in the literature.
翻訳日:2021-12-17 16:25:50 公開日:2021-12-15
# FLoRA:フェデレートラーニングのためのシングルショットハイパーパラメータ最適化

FLoRA: Single-shot Hyper-parameter Optimization for Federated Learning ( http://arxiv.org/abs/2112.08524v1 )

ライセンス: Link先を確認
Yi Zhou, Parikshit Ram, Theodoros Salonidis, Nathalie Baracaldo, Horst Samulowitz, Heiko Ludwig(参考訳) フェデレートラーニング(FL-HPO)におけるハイパーパラメータ最適化(HPO)の未探索問題に対処する。 本稿では,FL文献でよく取り上げられる確率的勾配降下/神経ネットワークに加えて,表型データや勾配促進訓練アルゴリズムのユースケースに対処できるFL-HPOソリューションフレームワークであるFederated Loss suRface Aggregation (FLoRA)を紹介する。 このフレームワークは、まず***single** FLトレーニングで使用される優れたハイパーパラメータのセットを特定することで、単発FL-HPOを可能にする。 これにより、HPOなしのFLトレーニングと比較して、FL-HPOソリューションを最小限の通信オーバーヘッドで実現できる。 我々は7つのopenmlデータセット上の勾配強化決定木に対するフローラの実証評価を行い, fl-hpoトレーニングに関わる参加者数の増加に対するロバスト性について検討した。

We address the relatively unexplored problem of hyper-parameter optimization (HPO) for federated learning (FL-HPO). We introduce Federated Loss suRface Aggregation (FLoRA), the first FL-HPO solution framework that can address use cases of tabular data and gradient boosting training algorithms in addition to stochastic gradient descent/neural networks commonly addressed in the FL literature. The framework enables single-shot FL-HPO, by first identifying a good set of hyper-parameters that are used in a **single** FL training. Thus, it enables FL-HPO solutions with minimal additional communication overhead compared to FL training without HPO. Our empirical evaluation of FLoRA for Gradient Boosted Decision Trees on seven OpenML data sets demonstrates significant model accuracy improvements over the considered baseline, and robustness to increasing number of parties involved in FL-HPO training.
翻訳日:2021-12-17 16:25:33 公開日:2021-12-15
# 強力なディープスパイクニューラルネットワークへの残差学習の進展

Advancing Residual Learning towards Powerful Deep Spiking Neural Networks ( http://arxiv.org/abs/2112.08954v1 )

ライセンス: Link先を確認
Yifan Hu, Yujie Wu, Lei Deng, Guoqi Li(参考訳) ニューロモルフィックコンピューティングの急速な進歩にもかかわらず、スパイキングニューラルネットワーク(SNN)の能力不足と表現力不足により、実際には適用範囲が厳しく制限されている。 残存学習とショートカットはディープニューラルネットワークのトレーニングに重要なアプローチとして証明されているが、スパイクベースのコミュニケーションと時空間ダイナミクスの特性にその適用性を評価することは滅多になかった。 本稿では,この無視が,従来の残差SNNにおける障害情報流とそれに伴う劣化問題を引き起こすことを最初に確認する。 次に,CIFAR-10上の482層,ImageNet上の104層など,直接訓練されたSNNの深さを大幅に拡張できる新しいSNN指向残差ブロックMS-ResNetを提案する。 フレームベースとニューロモルフィックの両方のデータセットにおけるms-resnetの有効性を検証し、ms-resnet104はimagenetにおいて76.02%の精度で優れた結果を得た。 大いなるエネルギー効率は、入力サンプルを分類するには平均1つのスパイクのみが必要であることも観察されている。 当社の強力でスケーラブルなモデルは,SNNのさらなる探索に強力なサポートを提供すると思います。

Despite the rapid progress of neuromorphic computing, inadequate capacity and insufficient representation power of spiking neural networks (SNNs) severely restrict their application scope in practice. Residual learning and shortcuts have been evidenced as an important approach for training deep neural networks, but rarely did previous work assess their applicability to the characteristics of spike-based communication and spatiotemporal dynamics. In this paper, we first identify that this negligence leads to impeded information flow and accompanying degradation problem in previous residual SNNs. Then we propose a novel SNN-oriented residual block, MS-ResNet, which is able to significantly extend the depth of directly trained SNNs, e.g. up to 482 layers on CIFAR-10 and 104 layers on ImageNet, without observing any slight degradation problem. We validate the effectiveness of MS-ResNet on both frame-based and neuromorphic datasets, and MS-ResNet104 achieves a superior result of 76.02% accuracy on ImageNet, the first time in the domain of directly trained SNNs. Great energy efficiency is also observed that on average only one spike per neuron is needed to classify an input sample. We believe our powerful and scalable models will provide a strong support for further exploration of SNNs.
翻訳日:2021-12-17 16:22:59 公開日:2021-12-15
# 教師なし意味情報を用いたDense Video Captioning

Dense Video Captioning Using Unsupervised Semantic Information ( http://arxiv.org/abs/2112.08455v1 )

ライセンス: Link先を確認
Valter Estevam and Rayson Laroca and Helio Pedrini and David Menotti(参考訳) 複雑なイベント(例えば、数分)を単純なイベント(例えば、数秒)に分解し、これらの単純なイベントを複数の複雑なイベント間で共有するという前提に基づいて、教師なしのセマンティックな視覚情報を学ぶ方法を提案する。 長い映像を短いフレームに分割し,その潜在表現を3次元畳み込みニューラルネットワークで抽出した。 クラスタリング手法は、視覚的コードブックを生成する表現をグループ化する(すなわち、長いビデオは、クラスタラベルによって与えられる整数列で表現される)。 コードブックエントリの共起確率行列を符号化して高密度表現を学習する。 この表現は,視覚的特徴しか持たないシナリオにおいて,高密度映像キャプションタスクの性能をいかに活用できるかを実証する。 このアプローチにより, bi-modal transformer (bmt) 法における音声信号の置き換えと, 同等の性能の時間的提案が可能となった。 さらに,視覚特徴のみを探索する手法やマルチモーダル手法との競合性能と比較して,視覚信号をバニラトランス方式で記述子に結合し,キャプションにおける最先端性能を実現する。 私たちのコードはhttps://github.com/valterlej/dvcusiで入手できます。

We introduce a method to learn unsupervised semantic visual information based on the premise that complex events (e.g., minutes) can be decomposed into simpler events (e.g., a few seconds), and that these simple events are shared across several complex events. We split a long video into short frame sequences to extract their latent representation with three-dimensional convolutional neural networks. A clustering method is used to group representations producing a visual codebook (i.e., a long video is represented by a sequence of integers given by the cluster labels). A dense representation is learned by encoding the co-occurrence probability matrix for the codebook entries. We demonstrate how this representation can leverage the performance of the dense video captioning task in a scenario with only visual features. As a result of this approach, we are able to replace the audio signal in the Bi-Modal Transformer (BMT) method and produce temporal proposals with comparable performance. Furthermore, we concatenate the visual signal with our descriptor in a vanilla transformer method to achieve state-of-the-art performance in captioning compared to the methods that explore only visual features, as well as a competitive performance with multi-modal methods. Our code is available at https://github.com/valterlej/dvcusi.
翻訳日:2021-12-17 15:53:49 公開日:2021-12-15
# 視覚分類のための近距離近傍の再考

Rethinking Nearest Neighbors for Visual Classification ( http://arxiv.org/abs/2112.08459v1 )

ライセンス: Link先を確認
Menglin Jia, Bor-Chun Chen, Zuxuan Wu, Claire Cardie, Serge Belongie, Ser-Nam Lim(参考訳) ニューラルネットワーク分類器は、現在の視覚分類の"pre-train then fine-tune"パラダイムのデファクト選択となっている。 本稿では,先進学習時代の古典的モデルフリー学習手法であるk$-Nearest-Neighbor (k-NN)分類器を,現代のニューラルネットワークに基づくアプローチの拡張として検討する。 遅延学習方法として、k-NNは、テスト画像とトップk隣人の距離をトレーニングセットで集約する。 我々は, 教師付き手法と自己指導型手法のどちらによっても生成される事前学習された視覚表現を持つk-NNを2段階に分けて導入する。 2) k-NN予測分布と拡張分類器の分布を線形に補間する。 そこで本研究では,k-NN統合の汎用性と柔軟性について,(1)k-NNが標準的な線形分類器よりも優れ,競争的な結果が得られることを示す。 2)k-NNを組み込むことはパラメトリック分類器の動作が悪く,/または低データ体制下では特に有益である。 これらの発見によって、コンピュータビジョンにおける深層学習、古典的手法の役割が再考されることを願っている。 私たちのコードは、https://github.com/KMnP/nn-revisit.comで利用可能です。

Neural network classifiers have become the de-facto choice for current "pre-train then fine-tune" paradigms of visual classification. In this paper, we investigate $k$-Nearest-Neighbor (k-NN) classifiers, a classical model-free learning method from the pre-deep learning era, as an augmentation to modern neural network based approaches. As a lazy learning method, k-NN simply aggregates the distance between the test image and top-k neighbors in a training set. We adopt k-NN with pre-trained visual representations produced by either supervised or self-supervised methods in two steps: (1) Leverage k-NN predicted probabilities as indications for easy \vs~hard examples during training. (2) Linearly interpolate the k-NN predicted distribution with that of the augmented classifier. Via extensive experiments on a wide range of classification tasks, our study reveals the generality and flexibility of k-NN integration with additional insights: (1) k-NN achieves competitive results, sometimes even outperforming a standard linear classifier. (2) Incorporating k-NN is especially beneficial for tasks where parametric classifiers perform poorly and / or in low-data regimes. We hope these discoveries will encourage people to rethink the role of pre-deep learning, classical methods in computer vision. Our code is available at: https://github.com/KMnP/nn-revisit.
翻訳日:2021-12-17 15:53:25 公開日:2021-12-15
# torch.fx: Pythonのディープラーニングのための実用的なプログラムキャプチャと変換

torch.fx: Practical Program Capture and Transformation for Deep Learning in Python ( http://arxiv.org/abs/2112.08429v1 )

ライセンス: Link先を確認
James K. Reed (Facebook AI), Zachary DeVito (Facebook AI), Horace He (Facebook AI), Ansley Ussery (Facebook AI), Jason Ansel (Facebook AI)(参考訳) 現代のディープラーニングフレームワークは、Pythonに組み込まれた命令型で熱心な実行プログラミングインターフェースを提供し、生産的な開発エクスペリエンスを提供します。 しかし、ディープラーニングの実践者は、パフォーマンス最適化、可視化、分析、ハードウェア統合のためのプログラム構造をキャプチャして変換する必要があることがある。 深層学習に使用されるプログラムキャプチャと変換の異なる設計について検討する。 長い尾ではなく典型的なディープラーニングのユースケースのために設計することで、プログラムのキャプチャと変換のためのシンプルなフレームワークを構築することができる。 我々は、Pythonで完全に書かれ、ML実践者による高い開発者の生産性のために最適化されたPyTorch用のプログラムキャプチャと変換ライブラリである torch.fx にこの原則を適用した。 torch.fxが以前PyTorchエコシステムでアクセスできなかったワークフローをどのように実現しているかを示すケーススタディを示す。

Modern deep learning frameworks provide imperative, eager execution programming interfaces embedded in Python to provide a productive development experience. However, deep learning practitioners sometimes need to capture and transform program structure for performance optimization, visualization, analysis, and hardware integration. We study the different designs for program capture and transformation used in deep learning. By designing for typical deep learning use cases rather than long tail ones, it is possible to create a simpler framework for program capture and transformation. We apply this principle in torch.fx, a program capture and transformation library for PyTorch written entirely in Python and optimized for high developer productivity by ML practitioners. We present case studies showing how torch.fx enables workflows previously inaccessible in the PyTorch ecosystem.
翻訳日:2021-12-17 15:46:15 公開日:2021-12-15
# 教師付き言語モデルファインチューニングのためのSoftTriple Lossの適用

Applying SoftTriple Loss for Supervised Language Model Fine Tuning ( http://arxiv.org/abs/2112.08462v1 )

ライセンス: Link先を確認
Witold Sosnowski, Anna Wroblewska and Piotr Gawrysiak(参考訳) クロスエントロピーとソフトトリプルの損失に基づく学習済み言語モデルの分類性能を向上させるために,新たな損失関数TripleEntropyを導入する。 この損失関数は、クロスエントロピー損失で微調整されたロバータベースラインモデルを約0.02%2.29%改善することができる。 一般的なデータセットの詳細なテストは、着実に伸びていることを示している。 トレーニングデータセットのサンプルが少ないほど、利得は高く、小規模データセットでは 0.78%、中規模では 0.86%、大規模では 0.20%、超大規模では 0.04% である。

We introduce a new loss function TripleEntropy, to improve classification performance for fine-tuning general knowledge pre-trained language models based on cross-entropy and SoftTriple loss. This loss function can improve the robust RoBERTa baseline model fine-tuned with cross-entropy loss by about (0.02% - 2.29%). Thorough tests on popular datasets indicate a steady gain. The fewer samples in the training dataset, the higher gain -- thus, for small-sized dataset it is 0.78%, for medium-sized -- 0.86% for large -- 0.20% and for extra-large 0.04%.
翻訳日:2021-12-17 15:14:08 公開日:2021-12-15
# Penn-Helsinkiによる現代英語の構文解析 : 最初の解析結果と解析

Penn-Helsinki Parsed Corpus of Early Modern English: First Parsing Results and Analysis ( http://arxiv.org/abs/2112.08532v1 )

ライセンス: Link先を確認
Seth Kulick, Neville Ryant, Beatrice Santorini(参考訳) 本稿では,現代英語のPenn-Helsinki Parsed Corpus(PPCEME)の構文変化研究のための重要な資料である190万語木バンクについて,最初の解析結果を示す。 我々は,penn treebankよりも大きく,多種多様な関数タグを含む,パースを困難にするppcemeの重要な特徴について述べる。 本稿では,バークレー・ニューラル・パーサの修正版とgabbard et al (2006) の機能タグ・リカバリのアプローチを用いて,本コーパスの結果を示す。 その単純さにもかかわらず、このアプローチは驚くほどうまく機能し、言語応用(例えば、興味のある構文構造を探す)をサポートするのに十分な精度で元の構造を復元できることを示唆している。 しかし、関数タグのサブセット(例えば、直接発話を示すタグ)については、追加作業が必要であり、このアプローチのさらなる限界について検討する。 その結果得られたパーサーは、正確なパースツリーの追加により構文変化の研究に有用性を持つ111億語のコーパスである初期の英語書籍をオンラインで解析するために使用される。

We present the first parsing results on the Penn-Helsinki Parsed Corpus of Early Modern English (PPCEME), a 1.9 million word treebank that is an important resource for research in syntactic change. We describe key features of PPCEME that make it challenging for parsing, including a larger and more varied set of function tags than in the Penn Treebank. We present results for this corpus using a modified version of the Berkeley Neural Parser and the approach to function tag recovery of Gabbard et al (2006). Despite its simplicity, this approach works surprisingly well, suggesting it is possible to recover the original structure with sufficient accuracy to support linguistic applications (e.g., searching for syntactic structures of interest). However, for a subset of function tags (e.g., the tag indicating direct speech), additional work is needed, and we discuss some further limits of this approach. The resulting parser will be used to parse Early English Books Online, a 1.1 billion word corpus whose utility for the study of syntactic change will be greatly increased with the addition of accurate parse trees.
翻訳日:2021-12-17 15:13:54 公開日:2021-12-15
# AGMI:グラフニューラルネットワークを用いた薬物反応予測のための注意誘導マルチオミクス統合

AGMI: Attention-Guided Multi-omics Integration for Drug Response Prediction with Graph Neural Networks ( http://arxiv.org/abs/2112.08366v1 )

ライセンス: Link先を確認
Feng Ruiwei, Xie Yufeng, Lai Minshan, Chen Danny, Cao Ji, Wu Jian(参考訳) 正確な薬物反応予測(DRP)は、精密医療において重要な課題である。 本稿では、まず各セルラインに対してマルチエッジグラフ(meg)を構築し、次にグラフエッジアウェアネットワーク(genet)と呼ばれる新しい構造を用いて、マルチオミクス機能を集約して薬物応答を予測するdrpのための注意誘導型マルチオミクス統合(agmi)手法を提案する。 今回のagmiアプローチは,gnnを用いたdrpの遺伝子制約に基づくマルチオミクス統合と全ゲノム統合を初めて検討した。 CCLEとGDSCデータセットの実証実験により、AGMIは4つの指標で最先端のDRP法を8.3%--34.2%上回っていることがわかった。 私たちのデータとコードはhttps://github.com/yivan-wyygdsg/agmiで入手できます。

Accurate drug response prediction (DRP) is a crucial yet challenging task in precision medicine. This paper presents a novel Attention-Guided Multi-omics Integration (AGMI) approach for DRP, which first constructs a Multi-edge Graph (MeG) for each cell line, and then aggregates multi-omics features to predict drug response using a novel structure, called Graph edge-aware Network (GeNet). For the first time, our AGMI approach explores gene constraint based multi-omics integration for DRP with the whole-genome using GNNs. Empirical experiments on the CCLE and GDSC datasets show that our AGMI largely outperforms state-of-the-art DRP methods by 8.3%--34.2% on four metrics. Our data and code are available at https://github.com/yivan-WYYGDSG/AGMI.
翻訳日:2021-12-17 14:56:45 公開日:2021-12-15
# CNNモデルを用いた COVID-19 心電図の分類

COVID-19 Electrocardiograms Classification using CNN Models ( http://arxiv.org/abs/2112.08931v1 )

ライセンス: Link先を確認
Ismail Shahin, Ali Bou Nassif, Mohamed Bader Alsabek(参考訳) 新型コロナウイルス(COVID-19)の周期的な増加と流行、多くの国が影響を受けており、世界中の科学者、研究者、医師が手掛けた膨大な量の研究が続けられている。 疾患の予防接種に取り組むには,迅速な介入が不可欠である。 人工知能(AI)の実装は、ディープラーニングアルゴリズムの基本を適用することで、デジタルヘルス地区に多大な貢献をしている。 本研究では,心電図(ECG)データとディープラーニングアルゴリズム,特に畳み込みニューラルネットワーク(CNN)モデルを統合することで,新型コロナウイルスを自動的に診断する手法を提案する。 vgg16, vgg19, inceptionresnetv2, inceptionv3, resnet50, densenet201などのcnnモデルが提案されている。 VGG16モデルは、85.92%の精度で他のモデルよりも優れていた。 この結果,VGG16モデルに対するグリッド探索ハイパーパラメータ最適化手法の排他的利用に加えて,使用データセットの小型化によるVGG16モデルと比較して,他のモデルに比べて比較的精度が低いことが示された。 さらに,本研究では,データセットをさらに拡張し,適切なハイパーパラメータ最適化手法を適用することにより,全モデルの精度を向上させる可能性を秘めている。

With the periodic rise and fall of COVID-19 and numerous countries being affected by its ramifications, there has been a tremendous amount of work that has been done by scientists, researchers, and doctors all over the world. Prompt intervention is keenly needed to tackle the unconscionable dissemination of the disease. The implementation of Artificial Intelligence (AI) has made a significant contribution to the digital health district by applying the fundamentals of deep learning algorithms. In this study, a novel approach is proposed to automatically diagnose the COVID-19 by the utilization of Electrocardiogram (ECG) data with the integration of deep learning algorithms, specifically the Convolutional Neural Network (CNN) models. Several CNN models have been utilized in this proposed framework, including VGG16, VGG19, InceptionResnetv2, InceptionV3, Resnet50, and Densenet201. The VGG16 model has outperformed the rest of the models, with an accuracy of 85.92%. Our results show a relatively low accuracy in the rest of the models compared to the VGG16 model, which is due to the small size of the utilized dataset, in addition to the exclusive utilization of the Grid search hyperparameters optimization approach for the VGG16 model only. Moreover, our results are preparatory, and there is a possibility to enhance the accuracy of all models by further expanding the dataset and adapting a suitable hyperparameters optimization technique.
翻訳日:2021-12-17 14:55:41 公開日:2021-12-15
# Insta-VAX: ソーシャルメディアにおける抗ワクチン・誤情報ポスト検出のためのマルチモーダルベンチマーク

Insta-VAX: A Multimodal Benchmark for Anti-Vaccine and Misinformation Posts Detection on Social Media ( http://arxiv.org/abs/2112.08470v1 )

ライセンス: Link先を確認
Mingyang Zhou, Mahasweta Chakraborti, Sijia Qian, Zhou Yu, Jingwen Zhang(参考訳) 誤情報の投稿を含むソーシャルメディア上での反ワクチン投稿の共有は、混乱を生じさせ、ワクチンに対する大衆の信頼を低下させ、ワクチンの嫌悪感と抵抗に繋がる。 近年、オンラインネットワークにおける様々な言語的、視覚的形態の予防接種ポストが急速に増加し、効果的なコンテンツモデレーションとトラッキングに大きな課題が持ち上がっている。 ワクチン情報を理解するためにテキスト情報を活用するというこれまでの取り組みを拡張し、ヒトワクチンに関連するinstagram投稿64,957本からなる、新しいマルチモーダルデータセットinsta-vaxを提案する。 このデータセットに2人の専門家が検証したクラウドソースのアノテーション手順を適用した。 次に,最先端のNLPおよびコンピュータビジョン分類器を用いて,ポストが予防接種的態度を示すか,誤情報を含むかを検出する。 大規模な実験と分析により、マルチモーダルモデルは、ユニモーダルモデルよりも正確にポストを分類できるが、特に視覚的文脈理解と外部知識協調において改善が必要であることが示された。 データセットと分類器は、ワクチン誤情報問題に対処する社会科学および公衆衛生活動のためのワクチン議論の監視と追跡に貢献する。

Sharing of anti-vaccine posts on social media, including misinformation posts, has been shown to create confusion and reduce the publics confidence in vaccines, leading to vaccine hesitancy and resistance. Recent years have witnessed the fast rise of such anti-vaccine posts in a variety of linguistic and visual forms in online networks, posing a great challenge for effective content moderation and tracking. Extending previous work on leveraging textual information to understand vaccine information, this paper presents Insta-VAX, a new multi-modal dataset consisting of a sample of 64,957 Instagram posts related to human vaccines. We applied a crowdsourced annotation procedure verified by two trained expert judges to this dataset. We then bench-marked several state-of-the-art NLP and computer vision classifiers to detect whether the posts show anti-vaccine attitude and whether they contain misinformation. Extensive experiments and analyses demonstrate the multimodal models can classify the posts more accurately than the uni-modal models, but still need improvement especially on visual context understanding and external knowledge cooperation. The dataset and classifiers contribute to monitoring and tracking of vaccine discussions for social scientific and public health efforts in combating the problem of vaccine misinformation.
翻訳日:2021-12-17 14:31:41 公開日:2021-12-15
# 垂直的フェデレーション学習のためのデータ評価:情報理論的アプローチ

Data Valuation for Vertical Federated Learning: An Information-Theoretic Approach ( http://arxiv.org/abs/2112.08364v1 )

ライセンス: Link先を確認
Xiao Han and Leye Wang and Junjie Wu(参考訳) フェデレーテッド・ラーニング(FL)は、現実のAIアプリケーションに対して、プライバシー保護と法規制の方法でサードパーティのデータコラボレーションを可能にする、有望な機械学習パラダイムである。 当事者のデータを評価する方法は重要な問題ですが、FLの問題です。 文献では、データのバリュエーションは与えられたタスクに対して特定のモデルを実行することに依存するか、あるいは単にタスクとは無関係である。 この作業はギャップを埋め、垂直FLタスクのための最初のプライバシ保存、タスク固有だがモデルフリーなデータ評価手法である‘emph{FedValue}’を提案する。 特に、FedValueは、ゲーム理論の観点から複数のパーティのデータ値を評価するために、Shapley-CMIと呼ばれる新しい情報理論メトリックを組み込んでいる。 さらに、サーバ支援型フェデレーション計算機構は、Shapley-CMIを計算し、一方、各パーティがデータ漏洩から保護されるように設計されている。 また,実際にShapley-CMI計算を高速化する手法を提案する。 6つのオープンデータセットに関する広範な実験は、垂直flタスクのデータバリュエーションに対するfeedvalueの有効性と効率を検証する。 特に、モデルフリー計量としてのShapley-CMIは、良好な性能を持つモデルのアンサンブルの実行に依存する測度と互換性がある。

Federated learning (FL) is a promising machine learning paradigm that enables cross-party data collaboration for real-world AI applications in a privacy-preserving and law-regulated way. How to valuate parties' data is a critical but challenging FL issue. In the literature, data valuation either relies on running specific models for a given task or is just task irrelevant; however, it is often requisite for party selection given a specific task when FL models have not been determined yet. This work thus fills the gap and proposes \emph{FedValue}, to our best knowledge, the first privacy-preserving, task-specific but model-free data valuation method for vertical FL tasks. Specifically, FedValue incorporates a novel information-theoretic metric termed Shapley-CMI to assess data values of multiple parties from a game-theoretic perspective. Moreover, a novel server-aided federated computation mechanism is designed to compute Shapley-CMI and meanwhile protects each party from data leakage. We also propose several techniques to accelerate Shapley-CMI computation in practice. Extensive experiments on six open datasets validate the effectiveness and efficiency of FedValue for data valuation of vertical FL tasks. In particular, Shapley-CMI as a model-free metric performs comparably with the measures that depend on running an ensemble of well-performing models.
翻訳日:2021-12-17 14:22:27 公開日:2021-12-15
# StyleMC: マルチチャネルベースの高速テキストガイド画像生成と操作

StyleMC: Multi-Channel Based Fast Text-Guided Image Generation and Manipulation ( http://arxiv.org/abs/2112.08493v1 )

ライセンス: Link先を確認
Umut Kocasari, Alara Dirik, Mert Tiftikci and Pinar Yanardag(参考訳) 意味属性を操作するためにganの潜在空間で意味のある方向を見つけるには、通常、大量のラベル付きデータが必要である。 最近の研究は、コントラスト言語-画像事前学習(CLIP)の力を利用して、この制限を克服することを目的としている。 有望だが、これらの手法は所望の操作を達成するのに数時間の事前処理やトレーニングを必要とする。 本稿では,テキスト駆動画像生成と操作を高速かつ効率的に行うStyleMCを提案する。 StyleMCはCLIPベースの損失とアイデンティティ損失を使用して、他の属性に大きな影響を及ぼすことなく、単一のテキストプロンプトを介してイメージを操作する。 以前の作業とは異なり、stylemcはテキスト毎のプロンプトで安定したグローバル方向を見つけるのにほんの数秒のトレーニングしか必要とせず、プロンプトエンジニアリングは必要とせず、プレトレーニングされたstylegan2モデルでも使用できる。 提案手法の有効性を実証し,最先端手法と比較する。 私たちのコードはhttp://catlab-team.github.io/stylemc.orgで参照できます。

Discovering meaningful directions in the latent space of GANs to manipulate semantic attributes typically requires large amounts of labeled data. Recent work aims to overcome this limitation by leveraging the power of Contrastive Language-Image Pre-training (CLIP), a joint text-image model. While promising, these methods require several hours of preprocessing or training to achieve the desired manipulations. In this paper, we present StyleMC, a fast and efficient method for text-driven image generation and manipulation. StyleMC uses a CLIP-based loss and an identity loss to manipulate images via a single text prompt without significantly affecting other attributes. Unlike prior work, StyleMC requires only a few seconds of training per text prompt to find stable global directions, does not require prompt engineering and can be used with any pre-trained StyleGAN2 model. We demonstrate the effectiveness of our method and compare it to state-of-the-art methods. Our code can be found at http://catlab-team.github.io/stylemc.
翻訳日:2021-12-17 14:17:50 公開日:2021-12-15
# 低アクセス環境における家庭用電力消費量の予測

Predicting Levels of Household Electricity Consumption in Low-Access Settings ( http://arxiv.org/abs/2112.08497v1 )

ライセンス: Link先を確認
Simone Fobi, Joel Mugyenyi, Nathaniel J. Williams, Vijay Modi and Jay Taneja(参考訳) 低所得環境では、電力事業者にとって最も重要な情報は、顧客が期待する消費である。 電力消費のアセスメントは、家庭のかなりの一部がまだ電気接続を持っていない環境では難しい。 このような設定では、予測される消費の絶対レベルは月5-100 kWhまで変化し、これらの顧客の間で高いばらつきをもたらす。 低消費者の割合が高消費者よりもはるかに少ない場合、貴重資源は危険にさらされる。 これは、建物の消費を予測しようとする低所得の環境において、総合的な管理区域ではなく、この種の研究である。 我々は、ケニアの2万人の電力利用者(ケニアの住宅顧客の0.01%)のユーティリティ料金のサンプルを用いて、電力化前の衛星画像から畳み込みニューラルネットワーク(cnn)を訓練する。 これは、新しい建物のセグメンテーションアプローチを使用して、コストのかかる衛星画像の膨大な量を活用して、希少で高価な顧客データを最大限に活用する2段階のアプローチで実現されている。 本手法は, 建物レベルでの競争精度を向上し, 消費変動の課題に対処できることを示す。 この研究は、建物の特徴と環境がどちらも消費水準を予測する上で重要であることを示している。 また、夜間照明や国勢調査データを含む低分解能地理空間データセットをトレーニングプロセスに加えることも検討した。 この結果は、ケニアの個別構造レベルでの粒度の予測を通じて、既にサイトの選択や配信レベルの計画に役立っているが、他の国に拡張できない理由はない。

In low-income settings, the most critical piece of information for electric utilities is the anticipated consumption of a customer. Electricity consumption assessment is difficult to do in settings where a significant fraction of households do not yet have an electricity connection. In such settings the absolute levels of anticipated consumption can range from 5-100 kWh/month, leading to high variability amongst these customers. Precious resources are at stake if a significant fraction of low consumers are connected over those with higher consumption. This is the first study of it's kind in low-income settings that attempts to predict a building's consumption and not that of an aggregate administrative area. We train a Convolutional Neural Network (CNN) over pre-electrification daytime satellite imagery with a sample of utility bills from 20,000 geo-referenced electricity customers in Kenya (0.01% of Kenya's residential customers). This is made possible with a two-stage approach that uses a novel building segmentation approach to leverage much larger volumes of no-cost satellite imagery to make the most of scarce and expensive customer data. Our method shows that competitive accuracies can be achieved at the building level, addressing the challenge of consumption variability. This work shows that the building's characteristics and it's surrounding context are both important in predicting consumption levels. We also evaluate the addition of lower resolution geospatial datasets into the training process, including nighttime lights and census-derived data. The results are already helping inform site selection and distribution-level planning, through granular predictions at the level of individual structures in Kenya and there is no reason this cannot be extended to other countries.
翻訳日:2021-12-17 14:17:31 公開日:2021-12-15
# 潜伏共同設立者の時系列における因果祖先グラフの特徴

Characterization of causal ancestral graphs for time series with latent confounders ( http://arxiv.org/abs/2112.08417v1 )

ライセンス: Link先を確認
Andreas Gerhardus(参考訳) 有向極大祖先グラフを一般化し,非オブザーブ変数を含む多変量時系列の有限個の正規サンプリングおよび正規サブサンプリング時間ステップ間の時間遅れ特有の因果関係と非依存を表現するためのグラフィカルモデルのクラスを導入する。 われわれはこれらのグラフを完全に特徴付け、それまで文献で考慮されていたもの以上の制約を課していることを示す。 これにより、追加の仮定を課すことなく、より強力な因果推論が可能になる。 さらに、有向部分祖先グラフの一般化において、新しいタイプのグラフのマルコフ同値クラスのグラフィカル表現を導入し、これらが現在の最先端因果探索アルゴリズムが学習するものよりも有益であることを示す。 また,観測回数を増やすことで得られた追加情報も分析する。

Generalizing directed maximal ancestral graphs, we introduce a class of graphical models for representing time lag specific causal relationships and independencies among finitely many regularly sampled and regularly subsampled time steps of multivariate time series with unobserved variables. We completely characterize these graphs and show that they entail constraints beyond those that have previously been considered in the literature. This allows for stronger causal inferences without having imposed additional assumptions. In generalization of directed partial ancestral graphs we further introduce a graphical representation of Markov equivalence classes of the novel type of graphs and show that these are more informative than what current state-of-the-art causal discovery algorithms learn. We also analyze the additional information gained by increasing the number of observed time steps.
翻訳日:2021-12-17 13:47:31 公開日:2021-12-15
# 動的拡張グラフモデルを用いた生涯生成モデル

Lifelong Generative Modelling Using Dynamic Expansion Graph Model ( http://arxiv.org/abs/2112.08370v1 )

ライセンス: Link先を確認
Fei Ye and Adrian G. Bors(参考訳) 変分オートエンコーダ(VAE)は、連続したタスクを学習する際に、劣化したパフォーマンスに悩まされる。 これは破滅的な忘れによって引き起こされる。 知識喪失に対処するために、VAEは生成的リプレイ(GR)メカニズムまたは拡張ネットワークアーキテクチャ(ENA)のいずれかを使用している。 本稿では,共同GR法とENA法を併用したVAEの忘れ行動について,負の辺縁対数線上の上限を導出することにより検討する。 この理論分析は、VAEが生涯学習中に学んだ知識を忘れる方法についての新しい洞察を与える。 この分析は、ENAフレームワークの下でモデル混合を考える際に達成される最高のパフォーマンスを示しており、コンポーネントの数に制限はない。 しかし、ENAベースのアプローチでは過剰な数のパラメータを必要とする可能性がある。 そこで我々は,新しい動的拡張グラフモデル(DEGM)を提案する。 degmは、以前のタスクからネットワークが既に学んだ情報と比較すると、新しいデータベースの新規性に応じて、そのアーキテクチャを拡張する。 DEGMトレーニングは知識構造化を最適化し、過去および最近では学習されたタスクに対応する共同確率表現を特徴付ける。 我々は,DEGMが各タスクに最適な性能を保証し,必要なパラメータ数を最小化できることを実証する。 Supplementary Materials (SM)とソースコードはhttps://github.com/dtuzi123/Expansion-Graph-Modelで入手できる。

Variational Autoencoders (VAEs) suffer from degenerated performance, when learning several successive tasks. This is caused by catastrophic forgetting. In order to address the knowledge loss, VAEs are using either Generative Replay (GR) mechanisms or Expanding Network Architectures (ENA). In this paper we study the forgetting behaviour of VAEs using a joint GR and ENA methodology, by deriving an upper bound on the negative marginal log-likelihood. This theoretical analysis provides new insights into how VAEs forget the previously learnt knowledge during lifelong learning. The analysis indicates the best performance achieved when considering model mixtures, under the ENA framework, where there are no restrictions on the number of components. However, an ENA-based approach may require an excessive number of parameters. This motivates us to propose a novel Dynamic Expansion Graph Model (DEGM). DEGM expands its architecture, according to the novelty associated with each new databases, when compared to the information already learnt by the network from previous tasks. DEGM training optimizes knowledge structuring, characterizing the joint probabilistic representations corresponding to the past and more recently learned tasks. We demonstrate that DEGM guarantees optimal performance for each task while also minimizing the required number of parameters. Supplementary materials (SM) and source code are available in https://github.com/dtuzi123/Expansion-Graph-Model.
翻訳日:2021-12-17 13:43:24 公開日:2021-12-15
# 問合せ型要約のためのニューラルモデル探索

Exploring Neural Models for Query-Focused Summarization ( http://arxiv.org/abs/2112.07637v2 )

ライセンス: Link先を確認
Jesse Vig, Alexander R. Fabbri, Wojciech Kry\'sci\'nski, Chien-Sheng Wu, Wenhao Liu(参考訳) クエリ中心の要約(qfs)は、特定の関心のある質問に答える要約を作成し、ユーザー制御とパーソナライゼーションの強化を可能にすることを目的としている。 QMSumやAQuaMuSeといった最近リリースされたデータセットは、QFSの研究活動を促進する一方で、適用可能なモデリング手法の広い領域に関する包括的な研究は欠如している。 本稿では,2段階抽出法とエンド・ツー・エンドモデルという2つの方法の一般クラスを考慮した,qfsに対する神経アプローチの系統的探索を行う。 これらのカテゴリにおいて,QMSumデータセットの最先端性能を最大3.38 ROUGE-1,3.72 ROUGE-2,3.28 ROUGE-Lのマージンで達成する既存手法と2つのモデル拡張について検討する。 定量的実験を通じて、異なるモデル構成間のトレードオフを強調し、要約タスク間の伝達能力を検討する。 コードとチェックポイントは、https://github.com/salesforce/query-focused-sum.comで公開されている。

Query-focused summarization (QFS) aims to produce summaries that answer particular questions of interest, enabling greater user control and personalization. While recently released datasets, such as QMSum or AQuaMuSe, facilitate research efforts in QFS, the field lacks a comprehensive study of the broad space of applicable modeling methods. In this paper we conduct a systematic exploration of neural approaches to QFS, considering two general classes of methods: two-stage extractive-abstractive solutions and end-to-end models. Within those categories, we investigate existing methods and present two model extensions that achieve state-of-the-art performance on the QMSum dataset by a margin of up to 3.38 ROUGE-1, 3.72 ROUGE-2, and 3.28 ROUGE-L. Through quantitative experiments we highlight the trade-offs between different model configurations and explore the transfer abilities between summarization tasks. Code and checkpoints are made publicly available: https://github.com/salesforce/query-focused-sum.
翻訳日:2021-12-17 11:54:54 公開日:2021-12-15
# (参考訳) ネットワークグラフに基づくニューラルアーキテクチャ探索

Network Graph Based Neural Architecture Search ( http://arxiv.org/abs/2112.07805v1 )

ライセンス: CC BY 4.0
Zhenhan Huang, Chunheng Jiang, Pin-Yu Chen and Jianxi Gao(参考訳) ニューラルアーキテクチャサーチはアーキテクチャ設計の自動化を可能にする。 その成功にもかかわらず、計算コストが高く、望ましいアーキテクチャの設計方法に関する洞察を与えていない。 本稿では,対応するグラフを書き換えてニューラルネットワークを探索し,グラフ特性によるアーキテクチャ性能の予測を行う,新しいニューラルネットワーク探索手法を提案する。 グラフ空間全体にわたって機械学習を実行せず、予測アーキテクチャ性能を用いてアーキテクチャを探索するため、探索プロセスは極めて効率的である。 グラフベースの検索は望ましいアーキテクチャを合理的に予測できると考えている。 さらに、アーキテクチャのパフォーマンスを予測するのに効果的なグラフプロパティも見つけます。 本研究は,ニューラルアーキテクチャを探索する新しい手法を提案し,ニューラルアーキテクチャの設計に関する洞察を提供する。

Neural architecture search enables automation of architecture design. Despite its success, it is computationally costly and does not provide an insight on how to design a desirable architecture. Here we propose a new way of searching neural network where we search neural architecture by rewiring the corresponding graph and predict the architecture performance by graph properties. Because we do not perform machine learning over the entire graph space and use predicted architecture performance to search architecture, the searching process is remarkably efficient. We find graph based search can give a reasonably good prediction of desirable architecture. In addition, we find graph properties that are effective to predict architecture performance. Our work proposes a new way of searching neural architecture and provides insights on neural architecture design.
翻訳日:2021-12-17 04:09:43 公開日:2021-12-15
# (参考訳) 表現アライメントによる特徴伝達の理解

Understanding Feature Transfer Through Representation Alignment ( http://arxiv.org/abs/2112.07806v1 )

ライセンス: CC BY 4.0
Ehsan Imani, Wei Hu, Martha White(参考訳) ランダム化されたラベルとは対照的にデータセットの真のラベルを使ったトレーニングは、より高速な最適化とより良い一般化につながる。 この違いは、自然データセットにおける入力とラベルのアライメントの概念に起因する。 異なるアーキテクチャを持つニューラルネットワークのトレーニングと、ランダムあるいは真のラベル上のオプティマイザは、隠れた表現とトレーニングラベルの間の同じ関係を強制するので、ニューラルネットワーク表現が転送に成功している理由が分かる。 まず、アライメント特徴が遷移を促進し、古典的な合成伝達問題において、アライメントが類似および異種タスクへの正負の伝達決定因子であることを示す。 次に、さまざまなニューラルネットワークアーキテクチャを調査し、それを見つけます。 (a)アライメントは様々なアーキテクチャとオプティマイザにまたがって出現し、深さからより多くのアライメントが生じる (b)出力に近い層でアライメントが増加すること、及び (c)既存の高性能深部CNNは高レベルのアライメントを示す。

Training with the true labels of a dataset as opposed to randomized labels leads to faster optimization and better generalization. This difference is attributed to a notion of alignment between inputs and labels in natural datasets. We find that training neural networks with different architectures and optimizers on random or true labels enforces the same relationship between the hidden representations and the training labels, elucidating why neural network representations have been so successful for transfer. We first highlight why aligned features promote transfer and show in a classic synthetic transfer problem that alignment is the determining factor for positive and negative transfer to similar and dissimilar tasks. We then investigate a variety of neural network architectures and find that (a) alignment emerges across a variety of different architectures and optimizers, with more alignment arising from depth (b) alignment increases for layers closer to the output and (c) existing high-performance deep CNNs exhibit high levels of alignment.
翻訳日:2021-12-17 03:56:58 公開日:2021-12-15
# (参考訳) クラス不均衡画像を用いた深層学習技術による雑草認識

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery ( http://arxiv.org/abs/2112.07819v1 )

ライセンス: CC BY 4.0
A S M Mahmudul Hasan and Ferdous Sohel and Dean Diepeveen and Hamid Laga and Michael G.K. Jones(参考訳) ほとんどの雑草は、高価値作物に必要な栄養素を競うことで農業生産性に悪影響を及ぼす。 大規模な作付け地では手作業による雑草は実用的ではない。 農作物の自動雑草管理システムを開発するための研究が数多く行われている。 このプロセスでは、主要なタスクの1つは、画像から雑草を認識することである。 しかし、雑草認識は難しい課題である。 雑草や作物は色、食感、形状に類似しており、画像記録時の画像条件、地理的、気象条件によりさらに悪化する可能性があるためである。 高度な機械学習技術は、画像から雑草を認識するために使用できる。 本稿では,VGG16,ResNet-50,Inception-V3,Inception-ResNet-v2,MobileNetV2の5つの最先端ディープニューラルネットワークを調査し,雑草認識の性能評価を行った。 いくつかの実験的な設定と複数のデータセットの組み合わせを使用しました。 特に,より小さなデータセットを複数組み合わせ,データ拡張によるクラス不均衡を緩和し,このデータセットをディープニューラルネットワークのベンチマークに用いた大きな雑草クロップデータセットを構築した。 作物や雑草のデータセットの画像を用いて,特徴を抽出し,微調整するための事前訓練した重みを保存し,伝達学習技術の利用について検討した。 vgg16は他の大規模データセットよりも優れており、resnet-50は大規模データセットの他のディープネットワークよりも優れていた。

Most weed species can adversely impact agricultural productivity by competing for nutrients required by high-value crops. Manual weeding is not practical for large cropping areas. Many studies have been undertaken to develop automatic weed management systems for agricultural crops. In this process, one of the major tasks is to recognise the weeds from images. However, weed recognition is a challenging task. It is because weed and crop plants can be similar in colour, texture and shape which can be exacerbated further by the imaging conditions, geographic or weather conditions when the images are recorded. Advanced machine learning techniques can be used to recognise weeds from imagery. In this paper, we have investigated five state-of-the-art deep neural networks, namely VGG16, ResNet-50, Inception-V3, Inception-ResNet-v2 and MobileNetV2, and evaluated their performance for weed recognition. We have used several experimental settings and multiple dataset combinations. In particular, we constructed a large weed-crop dataset by combining several smaller datasets, mitigating class imbalance by data augmentation, and using this dataset in benchmarking the deep neural networks. We investigated the use of transfer learning techniques by preserving the pre-trained weights for extracting the features and fine-tuning them using the images of crop and weed datasets. We found that VGG16 performed better than others on small-scale datasets, while ResNet-50 performed better than other deep networks on the large combined dataset.
翻訳日:2021-12-17 03:34:45 公開日:2021-12-15
# (参考訳) 形式的文書に対する任意クエリを用いた値検索

Value Retrieval with Arbitrary Queries for Form-like Documents ( http://arxiv.org/abs/2112.07820v1 )

ライセンス: CC BY 4.0
Mingfei Gao, Le Xue, Chetan Ramaiah, Chen Xing, Ran Xu, Caiming Xiong(参考訳) 本稿では,フォームライクな文書に対する任意のクエリを用いた値検索を提案する。 フィールドアイテムの固定セットにのみ対処する従来の手法とは異なり,本手法は,フォームのレイアウトやセマンティクスの理解に基づいて任意のクエリのターゲット値を予測する。 モデル性能をさらに向上するために,大規模モデル事前学習における文書理解を改善するシンプルな文書言語モデリング(simpleDLM)戦略を提案する。 実験結果から,本手法はベースラインを著しく上回り,従来の手法と比較して,F1スコアあたり17倍程度の性能向上を実現していることがわかった。 コードは公開される予定だ。

We propose value retrieval with arbitrary queries for form-like documents to reduce human effort of processing forms. Unlike previous methods that only address a fixed set of field items, our method predicts target value for an arbitrary query based on the understanding of layout and semantics of a form. To further boost model performance, we propose a simple document language modeling (simpleDLM) strategy to improve document understanding on large-scale model pre-training. Experimental results show that our method outperforms our baselines significantly and the simpleDLM further improves our performance on value retrieval by around 17\% F1 score compared with the state-of-the-art pre-training method. Code will be made publicly available.
翻訳日:2021-12-17 03:17:59 公開日:2021-12-15
# (参考訳) CentSmoothie:薬物と薬物の相互作用を予測するためのハイパーグラフニューラルネットワーク

CentSmoothie: Central-Smoothing Hypergraph Neural Networks for Predicting Drug-Drug Interactions ( http://arxiv.org/abs/2112.07837v1 )

ライセンス: CC BY 4.0
Duc Anh Nguyen, Canh Hao Nguyen, and Hiroshi Mamitsuka(参考訳) 薬物-薬物相互作用の予測は、薬物情報と多くの対の既知の副作用を用いて、一対の薬物の副作用(望ましくない結果)を予測する問題である。 この問題は、DDIグラフ内の各一対のノードの予測ラベル(すなわち副作用)として定式化することができ、そのノードは薬物であり、エッジは既知のラベルと相互作用する薬物である。 この問題の最先端の方法はグラフニューラルネットワーク(GNN)であり、グラフの近傍情報を利用してノード表現を学習する。 しかし、DDIには副作用の性質から複雑な関係を持つラベルが多数存在する。 GNNは、しばしばラベル関係を反映せず、稀なラベルの難易度において最高の性能を得られない1ホットベクトルとしてラベルを固定する。 本稿では,DDIを3つのハイパーエッジを持つハイパーグラフとして定式化し,薬物のノードが2個,ラベルのノードが1個である。 次に、ノードとラベルの表現を完全に学習するハイパーグラフニューラルネットワークであるCentSmoothieを紹介します。 我々はシミュレーションと実際のデータセットにおけるCentSmoothieの性能上の利点を実証的に示す。

Predicting drug-drug interactions (DDI) is the problem of predicting side effects (unwanted outcomes) of a pair of drugs using drug information and known side effects of many pairs. This problem can be formulated as predicting labels (i.e. side effects) for each pair of nodes in a DDI graph, of which nodes are drugs and edges are interacting drugs with known labels. State-of-the-art methods for this problem are graph neural networks (GNNs), which leverage neighborhood information in the graph to learn node representations. For DDI, however, there are many labels with complicated relationships due to the nature of side effects. Usual GNNs often fix labels as one-hot vectors that do not reflect label relationships and potentially do not obtain the highest performance in the difficult cases of infrequent labels. In this paper, we formulate DDI as a hypergraph where each hyperedge is a triple: two nodes for drugs and one node for a label. We then present CentSmoothie, a hypergraph neural network that learns representations of nodes and labels altogether with a novel central-smoothing formulation. We empirically demonstrate the performance advantages of CentSmoothie in simulations as well as real datasets.
翻訳日:2021-12-17 03:10:42 公開日:2021-12-15
# (参考訳) LoSAC:フェデレーション最適化のための効率的な局所確率平均制御法

LoSAC: An Efficient Local Stochastic Average Control Method for Federated Optimization ( http://arxiv.org/abs/2112.07839v1 )

ライセンス: CC BY 4.0
Huiming Chen, Huandong Wang, Quanming Yao, Yong Li, Depeng Jin, Qiang Yang(参考訳) フェデレーション最適化(FedOpt)は、多数の分散クライアントにわたる学習モデルを協調的にトレーニングすることを目的としたもので、フェデレーション学習には不可欠である。 FedOptの主な関心事は、モデルのばらつきと通信効率に起因し、パフォーマンスに大きな影響を及ぼす可能性がある。 本論文では、異種分散データからより効率的に学習するための新しい手法、すなわちLoSACを提案する。 その重要なアルゴリズム的洞察は、通常のローカルモデル更新後のグローバルフル勾配の推定値をローカルに更新することである。 これにより、LoSACはクライアントの情報をよりコンパクトな方法でリフレッシュすることができる。 特に,LoSACの収束結果について検討した。 さらに、LoSACのボーナスは、最新の技術であるDeep Leakage Gradients (DLG)から情報漏洩を保護する能力である。 最後に、実験は、最先端のFedOptアルゴリズムと比較してLoSACの優位性を検証した。 具体的には、LoSACは平均で100\%以上の通信効率を著しく向上させ、モデルの分散問題を緩和し、DLGに対する防御能力と同等にする。

Federated optimization (FedOpt), which targets at collaboratively training a learning model across a large number of distributed clients, is vital for federated learning. The primary concerns in FedOpt can be attributed to the model divergence and communication efficiency, which significantly affect the performance. In this paper, we propose a new method, i.e., LoSAC, to learn from heterogeneous distributed data more efficiently. Its key algorithmic insight is to locally update the estimate for the global full gradient after {each} regular local model update. Thus, LoSAC can keep clients' information refreshed in a more compact way. In particular, we have studied the convergence result for LoSAC. Besides, the bonus of LoSAC is the ability to defend the information leakage from the recent technique Deep Leakage Gradients (DLG). Finally, experiments have verified the superiority of LoSAC comparing with state-of-the-art FedOpt algorithms. Specifically, LoSAC significantly improves communication efficiency by more than $100\%$ on average, mitigates the model divergence problem and equips with the defense ability against DLG.
翻訳日:2021-12-17 02:54:17 公開日:2021-12-15
# (参考訳) データセットを修正してモデルを修正する

Fix your Models by Fixing your Datasets ( http://arxiv.org/abs/2112.07844v1 )

ライセンス: CC BY 4.0
Atindriyo Sanyal, Vikram Chatterji, Nidhi Vyas, Ben Epstein, Nikita Demir, Anthony Corletti(参考訳) 基礎となるトレーニングデータの品質は、より一般化した高性能な機械学習モデルを構築する上で非常に重要です。 しかし、現在の機械学習(ML)ツールは、データ品質を改善するための合理化されたプロセスを欠いている。 したがって、データ品質の洞察を得て、エラーを反復的に抽出して、ダウンストリームのユースケースを最も代表するデータセットを取得することは、いまだにアドホックな手作業です。 このデータツーリングのギャップに対処するためには、データ中心のテクニックによって純粋に改善されたMLワークフローを構築する必要があります。 より具体的には,(1)データセットにノイズや誤りのあるサンプルを見つけるための体系的枠組みを導入し,(2)トレーニングに含まれる場合,最大モデルの性能向上をもたらす最も有益なサンプルを特定する。 当社のフレームワークが2つのFortune 500企業のプライベートエンタープライズデータセットとパブリックで有効であることを示し、この作業が、よりインテリジェントなデータディスカバリとプルーニングを行うためのMLチームの基盤となると確信しています。

The quality of underlying training data is very crucial for building performant machine learning models with wider generalizabilty. However, current machine learning (ML) tools lack streamlined processes for improving the data quality. So, getting data quality insights and iteratively pruning the errors to obtain a dataset which is most representative of downstream use cases is still an ad-hoc manual process. Our work addresses this data tooling gap, required to build improved ML workflows purely through data-centric techniques. More specifically, we introduce a systematic framework for (1) finding noisy or mislabelled samples in the dataset and, (2) identifying the most informative samples, which when included in training would provide maximal model performance lift. We demonstrate the efficacy of our framework on public as well as private enterprise datasets of two Fortune 500 companies, and are confident this work will form the basis for ML teams to perform more intelligent data discovery and pruning.
翻訳日:2021-12-17 02:12:52 公開日:2021-12-15
# (参考訳) 臨界特性を持つ非同期ゲームにおける確率論理ゲート

Probabilistic Logic Gate in Asynchronous Game of Life with Critical Property ( http://arxiv.org/abs/2112.07846v1 )

ライセンス: CC BY 4.0
Yukio-Pegio Gunji, Yoshihiko Ohzawa and Terutaka Tanaka(参考訳) メタヒューリスティック・自己組織化臨界(SOC)は、摂動環境下での堅牢な計算に寄与する。 臨界状態のコンピュータシステムにおける論理ゲートの実装は、メタヒューリスティックスとsocの役割を研究する興味深い方法の1つである。 本稿では,セルラーオートマトン,ゲーム・オブ・ライフ(GL)の動作を非同期に更新し,非同期GLを用いて確率論理ゲートを実装する。 我々は、非同期 gl が位相遷移を示し、1 の状態の密度が臨界点での力則とともに減衰し、臨界点における系が非同期 gl において最も計算可能性が高いことを見出した。 高い性能を示す非同期GLに AND と OR ゲートを実装した。 論理ゲートの操作には調律摂動が重要な役割を果たしているため,確率的論理ゲートの操作と摂動の干渉を明らかにした。

Metaheuristic and self-organizing criticality (SOC) could contribute to robust computation under perturbed environments. Implementing a logic gate in a computing system in a critical state is one of the intriguing ways to study the role of metaheuristics and SOCs. Here, we study the behavior of cellular automaton, game of life (GL), in asynchronous updating and implement probabilistic logic gates by using asynchronous GL. We find that asynchronous GL shows a phase transition, that the density of the state of 1 decays with the power law at the critical point, and that systems at the critical point have the most computability in asynchronous GL. We implement AND and OR gates in asynchronous GL with criticality, which shows good performance. Since tuning perturbations play an essential role in operating logic gates, our study reveals the interference between manipulation and perturbation in probabilistic logic gates.
翻訳日:2021-12-17 02:07:27 公開日:2021-12-15
# (参考訳) 確率ゲームにおける分散q-learningの有限サンプル解析

Finite-Sample Analysis of Decentralized Q-Learning for Stochastic Games ( http://arxiv.org/abs/2112.07859v1 )

ライセンス: CC BY 4.0
Zuguang Gao, Qianqian Ma, Tamer Ba\c{s}ar, John R. Birge(参考訳) 確率ゲームでの学習はマルチエージェント強化学習 (marl) において最も一般的かつ基本的な設定である。 本稿では,非漸近的体制における確率ゲームにおける分散マルルについて考察する。 特に,完全分散型q-ラーニングアルゴリズムの有限サンプル複雑性を,一般サム確率ゲーム (sgs) の重要なクラスにおいて確立する。 我々は,各エージェントが報酬や他のエージェントの行動を観察できない完全分散型MARLの実践的かつ挑戦的な設定に焦点を当てる。 実際、各エージェントは、他の意思決定者の存在に完全に従わない。 表型および線形関数近似の場合も検討されている。 表形式では,分散q-learningアルゴリズムのサンプル複雑性を分析し,マルコフ完全平衡(nash平衡)に収束する。 線形関数近似を用いて、結果は線形近似平衡(私たちが提案する新しい平衡の概念)への収束であり、これは各エージェントのポリシーが線型空間内の(他のエージェントへの)最良の応答であることを示すものである。 両方の設定で結果を示す数値実験も提供されている。

Learning in stochastic games is arguably the most standard and fundamental setting in multi-agent reinforcement learning (MARL). In this paper, we consider decentralized MARL in stochastic games in the non-asymptotic regime. In particular, we establish the finite-sample complexity of fully decentralized Q-learning algorithms in a significant class of general-sum stochastic games (SGs) - weakly acyclic SGs, which includes the common cooperative MARL setting with an identical reward to all agents (a Markov team problem) as a special case. We focus on the practical while challenging setting of fully decentralized MARL, where neither the rewards nor the actions of other agents can be observed by each agent. In fact, each agent is completely oblivious to the presence of other decision makers. Both the tabular and the linear function approximation cases have been considered. In the tabular setting, we analyze the sample complexity for the decentralized Q-learning algorithm to converge to a Markov perfect equilibrium (Nash equilibrium). With linear function approximation, the results are for convergence to a linear approximated equilibrium - a new notion of equilibrium that we propose - which describes that each agent's policy is a best reply (to other agents) within a linear space. Numerical experiments are also provided for both settings to demonstrate the results.
翻訳日:2021-12-17 01:50:30 公開日:2021-12-15
# (参考訳) Interscript: エラーフィードバックによるスクリプトのインタラクティブ学習のためのデータセット

Interscript: A dataset for interactive learning of scripts through error feedback ( http://arxiv.org/abs/2112.07867v1 )

ライセンス: CC BY 4.0
Niket Tandon, Aman Madaan, Peter Clark, Keisuke Sakaguchi, Yiming Yang(参考訳) エンドユーザは、人間の言語の構造的複雑さを無視して、デプロイされた構造化予測モデルが一貫性のない出力を生成する場合、どのようにフィードバックを提供できるか? これは、最近、合成または制約された設定が進歩し、新しいトピックであり、次の大きな飛躍は、実世界の設定におけるモデルのテストとチューニングである。 我々は、複雑な日常的なタスクを生成するデプロイモデルのユーザフィードバックを含む新しいデータセット、Interscriptを提案する。 Interscriptには8,466のデータポイント -- 入力はおそらく誤ったスクリプトであり、ユーザのフィードバックであり、出力は修正されたスクリプトである。 対話型学習の最先端を飛躍的に前進させる2つのユースケースを仮定する。 データセットは、https://github.com/allenai/interscript.com/で入手できる。

How can an end-user provide feedback if a deployed structured prediction model generates inconsistent output, ignoring the structural complexity of human language? This is an emerging topic with recent progress in synthetic or constrained settings, and the next big leap would require testing and tuning models in real-world settings. We present a new dataset, Interscript, containing user feedback on a deployed model that generates complex everyday tasks. Interscript contains 8,466 data points -- the input is a possibly erroneous script and a user feedback, and the output is a modified script. We posit two use-cases of \ours that might significantly advance the state-of-the-art in interactive learning. The dataset is available at: https://github.com/allenai/interscript.
翻訳日:2021-12-17 01:48:46 公開日:2021-12-15
# (参考訳) 社会的バイアス検出のための事前訓練型言語モデルのための少数ショットインストラクションプロンプト

Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases ( http://arxiv.org/abs/2112.07868v1 )

ライセンス: CC BY 4.0
Shrimai Prabhumoye, Rafal Kocielnik, Mohammad Shoeybi, Anima Anandkumar, Bryan Catanzaro(参考訳) テキスト中の社会的バイアスの検出は、ニュアンス、主観性、高品質のラベル付きデータセットの取得が困難であること、特に社会的バイアスと社会の進化性を考慮すると困難である。 これらの課題に対処するために,あらかじめ訓練された言語モデル(LM)をプロンプトする数ショットの命令ベース手法を提案する。 埋め込みスペースでラベル付けされるクエリに最も近い小さなサポートリポジトリからラベルバランスのよい例をいくつか選択する。 次に、ラベル付き例のこのサブセット、分類すべきクエリテキスト、バイアスの定義からなる命令をLMに提供し、意思決定を促す。 数発の文脈で使用される大きなlmsは、微粒度モデルとよく似た、時には優れた精度で、異なる種類の微粒度バイアスを検出できることを実証する。 最大530Bパラメータモデルは、より小さなモデルに比べて社会的バイアスを検出するのに著しく効果的である(他のモデルと比較して、AUCメトリックは少なくとも20%改善されている)。 また、ラベル付きリポジトリを100サンプルまで削減した数ショット設定で高いAUC(ドロップ数は5%未満)を維持している。 事前訓練された大規模な言語モデルにより、新しいバイアス検出器の構築がより簡単かつ迅速に行える。

Detecting social bias in text is challenging due to nuance, subjectivity, and difficulty in obtaining good quality labeled datasets at scale, especially given the evolving nature of social biases and society. To address these challenges, we propose a few-shot instruction-based method for prompting pre-trained language models (LMs). We select a few label-balanced exemplars from a small support repository that are closest to the query to be labeled in the embedding space. We then provide the LM with instruction that consists of this subset of labeled exemplars, the query text to be classified, a definition of bias, and prompt it to make a decision. We demonstrate that large LMs used in a few-shot context can detect different types of fine-grained biases with similar and sometimes superior accuracy to fine-tuned models. We observe that the largest 530B parameter model is significantly more effective in detecting social bias compared to smaller models (achieving at least 20% improvement in AUC metric compared to other models). It also maintains a high AUC (dropping less than 5%) in a few-shot setting with a labeled repository reduced to as few as 100 samples. Large pretrained language models thus make it easier and quicker to build new bias detectors.
翻訳日:2021-12-17 01:39:49 公開日:2021-12-15
# (参考訳) AMRをSPARQLに変換する学習

Learning to Transpile AMR into SPARQL ( http://arxiv.org/abs/2112.07877v1 )

ライセンス: CC BY-SA 4.0
Mihaela Bornea, Ramon Fernandez Astudillo, Tahira Naseem, Nandana Mihindukulasooriya, Ibrahim Abdelaziz, Pavan Kapanipathi, Radu Florian, Salim Roukos(参考訳) 本稿では,AMR(Abstract Meaning Representation)をSPARQL for Knowledge Base Question Answering (KBQA)に変換する遷移ベースシステムを提案する。 これにより、抽象問題の一部を強力な事前訓練されたセマンティックパーサに委譲し、少量のペアデータによるトランスパイリングを学習することができる。 我々は、AMRとSPARQLの構造に関する最近の研究から出発するが、一連のルールを適用するのではなく、BARTモデルにこれらの関係を選択的に利用するように教える。 さらに、AMRを明示的に符号化するのではなく、BARTの注意機構におけるパーサ状態をエンコードする。 結果は単純で、決定のためのテキストを提供し、LC-QuAD (F1 53.4) におけるAMRベースのKBQAの最近の進歩を上回り、QALD (F1 30.8) と一致する。

We propose a transition-based system to transpile Abstract Meaning Representation (AMR) into SPARQL for Knowledge Base Question Answering (KBQA). This allows to delegate part of the abstraction problem to a strongly pre-trained semantic parser, while learning transpiling with small amount of paired data. We departure from recent work relating AMR and SPARQL constructs, but rather than applying a set of rules, we teach the BART model to selectively use these relations. Further, we avoid explicitly encoding AMR but rather encode the parser state in the attention mechanism of BART, following recent semantic parsing works. The resulting model is simple, provides supporting text for its decisions, and outperforms recent progress in AMR-based KBQA in LC-QuAD (F1 53.4), matching it in QALD (F1 30.8), while exploiting the same inductive biases.
翻訳日:2021-12-17 01:19:38 公開日:2021-12-15
# (参考訳) 量子クーポンコレクタによる実験的量子アドバンテージ

Experimental quantum advantage with quantum coupon collector ( http://arxiv.org/abs/2112.07884v1 )

ライセンス: CC BY 4.0
Min-Gang Zhou, Xiao-Yu Cao, Yu-Shuo Lu, Yang Wang, Yu Bao, Zhao-Ying Jia, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 量子アドバンテージを持つ通信や計算のスキームが近年増加しており、量子技術が応用可能性の肥大化を示唆している。 しかし、これらのスキームを実験的に示すことは、高次元状態や高い絡み合った状態を作るのが困難であるため、中心的な課題である。 本研究では,コヒーレントな状態と単純な線形光学素子を用いて量子クーポンコレクタプロトコルを導入,解析し,現実的な実験装置を用いて実演に成功した。 提案プロトコルは,クーポンコレクタ問題の古典的限界と比較して,特定の集合を学習するのに要するサンプル数を著しく削減できることを示した。 また,量子ブラインドボックスゲームを構築し,量子クーポンコレクタのポテンシャル値と拡張について考察する。 提案されたゲームによって送信された情報も古典的な限界を破った。 これらの結果は、機械学習と通信複雑性における量子力学の利点を強く証明している。

An increasing number of communication and computational schemes with quantum advantages have recently been proposed, which implies that quantum technology has fertile application prospects. However, demonstrating these schemes experimentally continues to be a central challenge because of the difficulty in preparing high-dimensional states or highly entangled states. In this study, we introduce and analyse a quantum coupon collector protocol by employing coherent states and simple linear optical elements, which was successfully demonstrated using realistic experimental equipment. We showed that our protocol can significantly reduce the number of samples needed to learn a specific set compared with the classical limit of the coupon collector problem. We also discuss the potential values and expansions of the quantum coupon collector by constructing a quantum blind box game. The information transmitted by the proposed game also broke the classical limit. These results strongly prove the advantages of quantum mechanics in machine learning and communication complexity.
翻訳日:2021-12-17 01:04:21 公開日:2021-12-15
# (参考訳) 高度データマイニングツールを用いた緊急医療問題における心筋梗塞の検討とその効果

Investigating myocardial infarction and its effects in patients with urgent medical problems using advanced data mining tools ( http://arxiv.org/abs/2112.07890v1 )

ライセンス: CC BY 4.0
Tanya Aghazadeh and Mostafa Bagheri(参考訳) 医学では、異なる疾患に関する複数のデータを集めることが非常に重要であり、このデータの最も重要な目的の1つは疾患を調べることである。 心筋梗塞は死亡の重大な危険因子であり、過去の研究では、心臓疾患の患者に重点を置いており、人口動態、心エコー、心電図による心筋梗塞の可能性を測定している。 対照的に,本研究の目的は,緊急手術を考慮し,心筋梗塞予測を行うことにより,心筋梗塞時の心筋力を同定するために,データ解析アルゴリズムを活用し,心臓発作患者におけるその正確性を比較することである。 この目的のために, 年齢, 緊急手術時, クレアチンホスホキナーゼ (cpk) 試験, 心拍数, 血糖値, 静脈の計14例の診療記録を, ランダム決定森林, 決定木, サポートベクターマシン (svm), k-nearest neighbor, 順序ロジスティック回帰などのデータ分析の分類手法を用いて収集し, 検討した。 最後に, 平均評価指標から, 精度が76%の無作為決定林のモデルを最適モデルとして選択した。 また、クレアチンホスホキナーゼテストの7つの特徴、尿素、白血球数、血糖、時間、ヘモグロビンが、射出分画変数の最も効果的な特徴として同定されている。

In medical science, it is very important to gather multiple data on different diseases and one of the most important objectives of the data is to investigate the diseases. Myocardial infarction is a serious risk factor in mortality and in previous studies, the main emphasis has been on people with heart disease and measuring the likelihood of myocardial infarction in them through demographic features, echocardiography, and electrocardiogram. In contrast, the purpose of the present study is to utilize data analysis algorithms and compare their accuracy in patients with a heart attack in order to identify the heart muscle strength during myocardial infarction by taking into account emergency operations and consequently predict myocardial infarction. For this purpose, 105 medical records of myocardial infarction patients with fourteen features including age, the time of emergency operation, Creatine Phosphokinase (CPK) test, heart rate, blood sugar, and vein are gathered and investigated through classification techniques of data analysis including random decision forests, decision tree, support vector machine (SVM), k-nearest neighbor, and ordinal logistic regression. Finally, the model of random decision forests with an accuracy of 76% is selected as the best model in terms of the mean evaluation indicator. Also, seven features of the creatine Phosphokinase test, urea, white and red blood cell count, blood sugar, time, and hemoglobin are identified as the most effective features of the ejection fraction variable.
翻訳日:2021-12-17 00:48:42 公開日:2021-12-15
# (参考訳) 弱ラベルデータからの問合せ学習によるゼロショット音源分離

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data ( http://arxiv.org/abs/2112.07891v1 )

ライセンス: CC BY 4.0
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-kirkpatrick, Shlomo Dubnov(参考訳) 音源を異なる音源に分離する深層学習技術はいくつかの課題に直面している。 標準アーキテクチャでは、異なるタイプのオーディオソースに対して別々のモデルをトレーニングする必要がある。 一部のユニバーサルセパレータは、複数のソースを対象とする単一のモデルを採用しているが、見えないソースへの一般化は困難である。 本稿では,汎用オーディオソースセパレータを,大きくて弱いラベルのデータセットであるaudiosetからトレーニングするための3成分パイプラインを提案する。 まず,弱ラベル学習データを処理するためのトランスベース音響イベント検出システムを提案する。 第2に,モデルトレーニングにこのデータを活用するクエリベースの音声分離モデルを考案する。 第3に,分離のための音声ターゲットを指定するクエリをエンコードする潜在組み込みプロセッサを設計し,ゼロショット一般化を可能にした。 提案手法では,複数の音源の分離に単一モデルを用い,学習のための弱ラベルデータのみに依存する。 さらに、提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。 分離性能を評価するため,不随意オーディオセットのトレーニング中,MUSDB18上でモデルを検証した。 さらに、トレーニングから遠ざかる音源タイプについて、別の実験を行うことで、ゼロショット性能を検証する。 このモデルは、両方のケースで現在の教師付きモデルに匹敵するソース・ツー・ディストーション比(SDR)性能を達成する。

Deep learning techniques for separating audio into different sound sources face several challenges. Standard architectures require training separate models for different types of audio sources. Although some universal separators employ a single model to target multiple sources, they have difficulty generalizing to unseen sources. In this paper, we propose a three-component pipeline to train a universal audio source separator from a large, but weakly-labeled dataset: AudioSet. First, we propose a transformer-based sound event detection system for processing weakly-labeled training data. Second, we devise a query-based audio separation model that leverages this data for model training. Third, we design a latent embedding processor to encode queries that specify audio targets for separation, allowing for zero-shot generalization. Our approach uses a single model for source separation of multiple sound types, and relies solely on weakly-labeled data for training. In addition, the proposed audio separator can be used in a zero-shot setting, learning to separate types of audio sources that were never seen in training. To evaluate the separation performance, we test our model on MUSDB18, while training on the disjoint AudioSet. We further verify the zero-shot performance by conducting another experiment on audio source types that are held-out from training. The model achieves comparable Source-to-Distortion Ratio (SDR) performance to current supervised models in both cases.
翻訳日:2021-12-17 00:39:38 公開日:2021-12-15
# (参考訳) グラフ分割の学習

Learning Graph Partitions ( http://arxiv.org/abs/2112.07897v1 )

ライセンス: CC BY 4.0
Sayan Mukherjee(参考訳) 連結されたコンポーネントにグラフを分割すると、oracleはグラフの任意の2つの頂点が同じコンポーネントにあるかどうかを断言する。 我々は$n\ge k\ge 2$に対して、$k$コンポーネントを持つ$n$-vertex隠れグラフのコンポーネントを学ぶには、少なくとも$\frac{1}{2}(n-k)(k-1)$メンバシップクエリが必要であることを証明している。 これは、Reyzin と Srivastava (2007) がこの問題に対して提案した$O(nk)$アルゴリズムの最適性を証明し、$Omega(n\log k)$クエリの最もよく知られた情報理論境界を改善する。 さらに,本研究では,完全分割を学習するよりも漸近的に少ないクエリで$G$の成分数を学習できるオラクルを構築し,同じ著者による別の質問に答える。 最後に、このオラクルのより適用可能なバージョンを紹介し、このオラクルを使って$m$のエッジ隠れグラフを学習および検証するための$\widetilde\Theta(m)$クエリの漸近的に厳密な境界を証明します。

Given a partition of a graph into connected components, the membership oracle asserts whether any two vertices of the graph lie in the same component or not. We prove that for $n\ge k\ge 2$, learning the components of an $n$-vertex hidden graph with $k$ components requires at least $\frac{1}{2}(n-k)(k-1)$ membership queries. This proves the optimality of the $O(nk)$ algorithm proposed by Reyzin and Srivastava (2007) for this problem, improving on the best known information-theoretic bound of $\Omega(n\log k)$ queries. Further, we construct an oracle that can learn the number of components of $G$ in asymptotically fewer queries than learning the full partition, thus answering another question posed by the same authors. Lastly, we introduce a more applicable version of this oracle, and prove asymptotically tight bounds of $\widetilde\Theta(m)$ queries for both learning and verifying an $m$-edge hidden graph $G$ using this oracle.
翻訳日:2021-12-17 00:24:15 公開日:2021-12-15
# (参考訳) LongT5:ロングシーケンスのための効率的なテキストからテキストへの変換

LongT5: Efficient Text-To-Text Transformer for Long Sequences ( http://arxiv.org/abs/2112.07916v1 )

ライセンス: CC BY 4.0
Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung, Yinfei Yang(参考訳) 近年の研究では,(1)入力長の増大,(2)モデルサイズの増加がトランスフォーマーベースニューラルモデルの性能を向上させることが示されている。 本稿では,LongT5と呼ばれる新しいモデルを提案し,入力長とモデルサイズを同時にスケーリングする効果について検討する。 具体的には, 長入力トランスフォーマー (etc) から注目されるアイデアを統合し, 要約事前学習 (pegasus) からスケーラブルなt5アーキテクチャへの事前学習戦略を採用した。 結果として、私たちが"em transient global} (tglobal)"と呼ぶ新しいアテンションメカニズムが生まれました。これはetのローカル/グローバルアテンションメカニズムを模倣したものですが、追加のサイドインプットは必要ありません。 いくつかの要約タスクで最先端の結果を達成でき、質問応答タスクで元のt5モデルよりも優れています。

Recent work has shown that either (1) increasing the input length or (2) increasing model size can improve the performance of Transformer-based neural models. In this paper, we present a new model, called LongT5, with which we explore the effects of scaling both the input length and model size at the same time. Specifically, we integrated attention ideas from long-input transformers (ETC), and adopted pre-training strategies from summarization pre-training (PEGASUS) into the scalable T5 architecture. The result is a new attention mechanism we call {\em Transient Global} (TGlobal), which mimics ETC's local/global attention mechanism, but without requiring additional side-inputs. We are able to achieve state-of-the-art results on several summarization tasks and outperform the original T5 models on question answering tasks.
翻訳日:2021-12-17 00:14:55 公開日:2021-12-15
# (参考訳) SPTS:シングルポイントテキストスポッティング

SPTS: Single-Point Text Spotting ( http://arxiv.org/abs/2112.07917v1 )

ライセンス: CC BY 4.0
Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Shenggao Zhu, Jing Li, Dahua Lin, Chunhua Shen, Lianwen Jin(参考訳) ほとんどすべてのシーンテキストスポッティング(検出と認識)手法はコストの高いボックスアノテーション(テキスト行ボックス、ワードレベルボックス、文字レベルボックスなど)に依存している。 学習シーンのテキストスポッティングモデルを,各インスタンスの単一ポイントの極めて低コストなアノテーションで実現できることを,初めて実証した。 本稿では,シーンテキストスポッティングを言語モデルのようなシーケンス予測タスクとして扱う,エンドツーエンドのシーンテキストスポッティング手法を提案する。 入力として画像が与えられると、所望の検知および認識結果を離散トークンの列として定式化し、自動回帰変換器を用いてシーケンスを予測する。 複数の水平・多目的・任意形状のシーンテキストベンチマークで有望な結果が得られる。 最も顕著なことは、性能がポイントアノテーションの位置にあまり敏感でないことを示し、正確な位置を必要とするバウンディングボックスよりも注釈付けや自動生成がずっと容易であることを意味する。 このような先駆的な試みは、以前よりもはるかに大規模なシーンテキストスポッティングの応用の可能性を示していると我々は信じている。

Almost all scene text spotting (detection and recognition) methods rely on costly box annotation (e.g., text-line box, word-level box, and character-level box). For the first time, we demonstrate that training scene text spotting models can be achieved with an extremely low-cost annotation of a single-point for each instance. We propose an end-to-end scene text spotting method that tackles scene text spotting as a sequence prediction task, like language modeling. Given an image as input, we formulate the desired detection and recognition results as a sequence of discrete tokens and use an auto-regressive transformer to predict the sequence. We achieve promising results on several horizontal, multi-oriented, and arbitrarily shaped scene text benchmarks. Most significantly, we show that the performance is not very sensitive to the positions of the point annotation, meaning that it can be much easier to be annotated and automatically generated than the bounding box that requires precise positions. We believe that such a pioneer attempt indicates a significant opportunity for scene text spotting applications of a much larger scale than previously possible.
翻訳日:2021-12-16 23:54:53 公開日:2021-12-15
# (参考訳) 認知症における画像解析と機械学習競技の10年

Ten years of image analysis and machine learning competitions in dementia ( http://arxiv.org/abs/2112.07922v1 )

ライセンス: CC BY 4.0
Esther E. Bron, Stefan Klein, Annika Reinke, Janne M. Papma, Lena Maier-Hein, Daniel C. Alexander, Neil P. Oxtoby(参考訳) マルチパラメトリックバイオマーカー、特にニューロイメージングに基づく機械学習手法は、認知症の早期診断を改善し、どの個人が認知症を発症するリスクがあるかを予測する大きな可能性を秘めている。 認知症における機械学習とニューロイメージングの分野のアルゴリズムをベンチマークし、臨床と臨床試験での使用可能性を評価するために、過去10年間に7つの大きな課題が組織された: ミリアド、アルツハイマー病ビッグデータドリーム、キャデメンティア、機械学習チャレンジ、mciニューロイメージング、タッドポール、予測分析コンペティション。 2つのチャレンジ評価フレームワークに基づいて、研究課題、データセット、検証アプローチ、結果、影響について、これらの大きな課題がどのように相互補完しているかを分析した。 7つの大きな課題は, 認知症のスクリーニング, 診断, 予測, モニタリングに関連する問題に対処した。 臨床質問やタスク,パフォーマンス指標にはほとんど重複がなかった。 幅広い質問に対する洞察を提供するという利点がある一方で、課題を越えた結果の検証も制限されている。 一般に、入賞アルゴリズムは厳密なデータ前処理を行い、幅広い入力特徴を組み合わせた。 最先端のパフォーマンスにもかかわらず、課題によって評価された手法のほとんどは臨床的に使われていない。 影響を高めるために、将来の課題は、高いパフォーマンスに関連する要因(すなわち特徴、モデル)の統計分析、アルツハイマー病以外の臨床問題、アルツハイマー病の神経画像化イニシアチブを超えてテストデータを使用することにより多くの注意を払うことができる。 過去10年間に学んだ可能性と教訓を考えると、今後10年間にわたる機械学習とニューロイメージングにおける大きな課題の展望にワクワクしています。

Machine learning methods exploiting multi-parametric biomarkers, especially based on neuroimaging, have huge potential to improve early diagnosis of dementia and to predict which individuals are at-risk of developing dementia. To benchmark algorithms in the field of machine learning and neuroimaging in dementia and assess their potential for use in clinical practice and clinical trials, seven grand challenges have been organized in the last decade: MIRIAD, Alzheimer's Disease Big Data DREAM, CADDementia, Machine Learning Challenge, MCI Neuroimaging, TADPOLE, and the Predictive Analytics Competition. Based on two challenge evaluation frameworks, we analyzed how these grand challenges are complementing each other regarding research questions, datasets, validation approaches, results and impact. The seven grand challenges addressed questions related to screening, diagnosis, prediction and monitoring in (pre-clinical) dementia. There was little overlap in clinical questions, tasks and performance metrics. Whereas this has the advantage of providing insight on a broad range of questions, it also limits the validation of results across challenges. In general, winning algorithms performed rigorous data pre-processing and combined a wide range of input features. Despite high state-of-the-art performances, most of the methods evaluated by the challenges are not clinically used. To increase impact, future challenges could pay more attention to statistical analysis of which factors (i.e., features, models) relate to higher performance, to clinical questions beyond Alzheimer's disease, and to using testing data beyond the Alzheimer's Disease Neuroimaging Initiative. Given the potential and lessons learned in the past ten years, we are excited by the prospects of grand challenges in machine learning and neuroimaging for the next ten years and beyond.
翻訳日:2021-12-16 23:33:49 公開日:2021-12-15
# (参考訳) ブロックチェーン対応サーバレスフェデレーション学習

Blockchain-enabled Server-less Federated Learning ( http://arxiv.org/abs/2112.07938v1 )

ライセンス: CC BY 4.0
Francesc Wilhelmi, Lorenza Giupponi, Paolo Dini(参考訳) 大規模なフェデレートラーニング(FL)最適化に参加するデバイスの異種性により、Blockchain(BC)技術によって強化された非同期サーバレスFLソリューションに焦点を当てる。 同期処理を前提としたFLアプローチとは対照的に,クライアントがローカル更新を送信する際にモデル集約を行う非同期手法を提案する。 非同期設定は、異種クライアントによる実用的な大規模設定において、フェデレーション最適化のアイデアとよく適合する。 したがって、通信オーバーヘッドやアイドル期間の点で効率が向上する可能性がある。 BC対応FLの学習完了遅延を評価するため,バッチサービスキュー理論に基づく解析モデルを提案する。 さらに,同期機構と非同期機構の両方の性能を評価するシミュレーション結果を提供する。 BC対応FL最適化に関わる重要な側面として、ネットワークサイズ、リンク容量、ユーザ要求などが挙げられ、分析される。 結果が示すように、同期設定は非同期ケースよりも高い予測精度をもたらす。 それにもかかわらず、非同期フェデレーション最適化は多くの場合、レイテンシをはるかに低くするので、大きなデータセット、厳しいタイミング制約(例えば、準リアルタイムアプリケーション)、あるいは非常に多様なトレーニングデータを扱う際に、魅力的なFLソリューションとなる。

Motivated by the heterogeneous nature of devices participating in large-scale Federated Learning (FL) optimization, we focus on an asynchronous server-less FL solution empowered by Blockchain (BC) technology. In contrast to mostly adopted FL approaches, which assume synchronous operation, we advocate an asynchronous method whereby model aggregation is done as clients submit their local updates. The asynchronous setting fits well with the federated optimization idea in practical large-scale settings with heterogeneous clients. Thus, it potentially leads to higher efficiency in terms of communication overhead and idle periods. To evaluate the learning completion delay of BC-enabled FL, we provide an analytical model based on batch service queue theory. Furthermore, we provide simulation results to assess the performance of both synchronous and asynchronous mechanisms. Important aspects involved in the BC-enabled FL optimization, such as the network size, link capacity, or user requirements, are put together and analyzed. As our results show, the synchronous setting leads to higher prediction accuracy than the asynchronous case. Nevertheless, asynchronous federated optimization provides much lower latency in many cases, thus becoming an appealing FL solution when dealing with large data sets, tough timing constraints (e.g., near-real-time applications), or highly varying training data.
翻訳日:2021-12-16 23:06:26 公開日:2021-12-15
# (参考訳) 時間空間補助ネットワークによるトランスコード映像復元

Transcoded Video Restoration by Temporal Spatial Auxiliary Network ( http://arxiv.org/abs/2112.07948v1 )

ライセンス: CC BY 4.0
Li Xu, Gang He, Jinjia Zhou, Jie Lei, Weiying Xie, Yunsong Li, Yu-Wing Tai(参考訳) YoutubeやTikTokのようなほとんどのビデオプラットフォームでは、再生されたビデオは通常、デバイスによるハードウェアエンコーディング、ビデオ編集アプリによるソフトウェアエンコーディング、ビデオアプリケーションサーバによるシングル/マルチビデオトランスコーディングのような複数のビデオエンコーディングを行う。 圧縮ビデオ復元の以前の作品は、通常圧縮アーティファクトがワンタイムエンコーディングによって引き起こされると仮定している。 したがって、導出された解は通常、あまりうまく機能しない。 本稿では,トランスコードビデオ復元のための時間空間補助ネットワーク(tsan)を提案する。 本手法では,ビデオエンコーディングとトランスコーディングのユニークな特徴を考察し,最初の浅いエンコードビデオは,ネットワークが自己教師あり注意訓練を行うのを支援する中間ラベルであると考えている。 また,隣接したマルチフレーム情報を用いて,時間的変形可能なアライメントとピラミッド空間融合を提案する。 実験の結果,提案手法の性能は従来の手法よりも優れていることがわかった。 コードはhttps://github.com/icecherylxuli/tsanで入手できる。

In most video platforms, such as Youtube, and TikTok, the played videos usually have undergone multiple video encodings such as hardware encoding by recording devices, software encoding by video editing apps, and single/multiple video transcoding by video application servers. Previous works in compressed video restoration typically assume the compression artifacts are caused by one-time encoding. Thus, the derived solution usually does not work very well in practice. In this paper, we propose a new method, temporal spatial auxiliary network (TSAN), for transcoded video restoration. Our method considers the unique traits between video encoding and transcoding, and we consider the initial shallow encoded videos as the intermediate labels to assist the network to conduct self-supervised attention training. In addition, we employ adjacent multi-frame information and propose the temporal deformable alignment and pyramidal spatial fusion for transcoded video restoration. The experimental results demonstrate that the performance of the proposed method is superior to that of the previous techniques. The code is available at https://github.com/icecherylXuli/TSAN.
翻訳日:2021-12-16 22:39:39 公開日:2021-12-15
# (参考訳) 物体追跡:判別的重み生成による物体空間の構築

Object Pursuit: Building a Space of Objects via Discriminative Weight Generation ( http://arxiv.org/abs/2112.07954v1 )

ライセンス: CC BY 4.0
Chuanyu Pan, Yanchao Yang, Kaichun Mo, Yueqi Duan, and Leonidas Guibas(参考訳) 視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。 既存のオブジェクト中心の表現は、シーン内のオブジェクトを識別する監督に依存するか、または現実世界の複雑なシーンにほとんど対処できない教師なしのアンタングルを実行する。 アノテーションの負担軽減とデータの統計的複雑さの制約緩和のために,本手法では,オブジェクト中心表現を学習しながら,オブジェクトと対応するトレーニング信号の多様なバリエーションを効果的にサンプリングする。 学習を通して、オブジェクトは未知のアイデンティティを持つランダムな順序で1つずつストリームされ、畳み込みのハイパーネットワークを通して各オブジェクトの識別重みを合成できる潜在コードと関連付けられる。 また、学習対象の再同定と学習プロセスを効率的かつ堅牢にするために、学習対象の欠落防止が用いられる。 提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析する。 さらに,下流タスクにおけるラベル効率を向上させるための表現学習における提案フレームワークの能力を示す。 私たちのコードとトレーニングされたモデルは公開されます。

We propose a framework to continuously learn object-centric representations for visual learning and understanding. Existing object-centric representations either rely on supervisions that individualize objects in the scene, or perform unsupervised disentanglement that can hardly deal with complex scenes in the real world. To mitigate the annotation burden and relax the constraints on the statistical complexity of the data, our method leverages interactions to effectively sample diverse variations of an object and the corresponding training signals while learning the object-centric representations. Throughout learning, objects are streamed one by one in random order with unknown identities, and are associated with latent codes that can synthesize discriminative weights for each object through a convolutional hypernetwork. Moreover, re-identification of learned objects and forgetting prevention are employed to make the learning process efficient and robust. We perform an extensive study of the key features of the proposed framework and analyze the characteristics of the learned representations. Furthermore, we demonstrate the capability of the proposed framework in learning representations that can improve label efficiency in downstream tasks. Our code and trained models will be made publicly available.
翻訳日:2021-12-16 22:27:38 公開日:2021-12-15
# (参考訳) メディア記憶力の予測 : 視覚的, テキスト的, 聴覚的特徴の比較

Predicting Media Memorability: Comparing Visual, Textual and Auditory Features ( http://arxiv.org/abs/2112.07969v1 )

ライセンス: CC BY 4.0
Lorin Sweeney and Graham Healy and Alan F. Smeaton(参考訳) 本稿では,メディア記憶可能性を自動的に予測するタスクを設定し,メディア記憶可能性の問題に対処することを目的としたmediaeval 2021におけるメディア記憶可能性予測タスクのアプローチについて述べる。 今年は,3つの探索されたモダリティのそれぞれについてより深い洞察を得るとともに,昨年の提出(2020年)の成果を参考として,比較の観点からタスクに取り組む。 昨年のように、TRECVid2019データセットでテストされた私たちの最高の短期記憶モデル(0.132)は、TRECVidデータでトレーニングされていないフレームベースのCNNで、Memento10kデータセットでテストされた最高の短期記憶モデル(0.524)は、DenseNet121ビジュアル機能に適合したベイジアンライド回帰器でした。

This paper describes our approach to the Predicting Media Memorability task in MediaEval 2021, which aims to address the question of media memorability by setting the task of automatically predicting video memorability. This year we tackle the task from a comparative standpoint, looking to gain deeper insights into each of three explored modalities, and using our results from last year's submission (2020) as a point of reference. Our best performing short-term memorability model (0.132) tested on the TRECVid2019 dataset -- just like last year -- was a frame based CNN that was not trained on any TRECVid data, and our best short-term memorability model (0.524) tested on the Memento10k dataset, was a Bayesian Ride Regressor fit with DenseNet121 visual features.
翻訳日:2021-12-16 22:02:08 公開日:2021-12-15
# (参考訳) 背景制約を考慮した時間的行動提案生成

Temporal Action Proposal Generation with Background Constraint ( http://arxiv.org/abs/2112.07984v1 )

ライセンス: CC BY-SA 4.0
Haosen Yang, Wenhao Wu, Lining Wang, Sheng Jin, Boyang Xia, Hongxun Yao, Hujie Huang(参考訳) 時間的アクション提案生成(TAPG)は、時間的境界のある未トリミングビデオ中のアクションインスタンスを見つけることを目的とした課題である。 提案の信頼性を評価するため、既存の研究は、提案と根本真実の間の時間的相互統合(tIoU)によって監督される提案の行動スコアを予測するのが一般的である。 本稿では,提案の信頼度を制限するために,背景予測スコアを活用し,低品質提案をさらに抑制するための汎用的補助的背景制約概念を提案する。 このように、バックグラウンド制約の概念は既存のTAPGメソッド(例えばBMN、GTAD)に簡単にプラグアンドプレイできる。 この観点から、アクションとバックグラウンドの豊富な情報を活用するために、bcnet(background constraint network)を提案する。 具体的には、フレームとクリップレベルでの注意機構により、アクションとバックグラウンドの整合性をモデル化する、信頼性評価のためのアクション-背景相互作用モジュールを提案する。 一般的なベンチマークである activitynet-1.3 と thumos14 で広範な実験が行われている。 その結果,本手法は最先端手法よりも優れていた。 本手法は,既存の行動分類器を備え,時間的行動局所化タスクにおいて顕著な性能を実現する。

Temporal action proposal generation (TAPG) is a challenging task that aims to locate action instances in untrimmed videos with temporal boundaries. To evaluate the confidence of proposals, the existing works typically predict action score of proposals that are supervised by the temporal Intersection-over-Union (tIoU) between proposal and the ground-truth. In this paper, we innovatively propose a general auxiliary Background Constraint idea to further suppress low-quality proposals, by utilizing the background prediction score to restrict the confidence of proposals. In this way, the Background Constraint concept can be easily plug-and-played into existing TAPG methods (e.g., BMN, GTAD). From this perspective, we propose the Background Constraint Network (BCNet) to further take advantage of the rich information of action and background. Specifically, we introduce an Action-Background Interaction module for reliable confidence evaluation, which models the inconsistency between action and background by attention mechanisms at the frame and clip levels. Extensive experiments are conducted on two popular benchmarks, i.e., ActivityNet-1.3 and THUMOS14. The results demonstrate that our method outperforms state-of-the-art methods. Equipped with the existing action classifier, our method also achieves remarkable performance on the temporal action localization task.
翻訳日:2021-12-16 21:56:11 公開日:2021-12-15
# (参考訳) 自動微分による分析スパーシティ優先の教師付き学習

Supervised learning of analysis-sparsity priors with automatic differentiation ( http://arxiv.org/abs/2112.07990v1 )

ライセンス: CC BY 4.0
Hashem Ghanem, Joseph Salmon, Nicolas Keriven, and Samuel Vaiter(参考訳) 空間的先行性は、一般に装飾や画像再構成に使用される。 分析型事前の場合、辞書はスパースとなる可能性のある信号の表現を定義する。 ほとんどの状況では、この辞書は知られておらず、復元誤差を最小にすることで、対の接地信号と測定値から復元される。 これは階層的な最適化の問題を定義し、二段階最適化とすることができる。 しかし、この問題は解決不可能であり、再構成とその微分 wrt は閉形式表現を持たない。 しかし、フォワードバックワード分割 (fb) アルゴリズムを用いて反復的に再構成を計算できる。 本稿では、前述のFBアルゴリズムの出力による再構成を近似する。 次に, 自動微分を利用して, この出力wrt辞書の勾配評価を行い, 予測された勾配降下によって学習する。 実験により,1次元全変動辞書(tv)を分割定数信号から学習することに成功した。 同じケーススタディでは,0中心列の辞書への探索を制限し,好ましくない局所的極小を除去し,数値的安定性を向上させることを提案する。

Sparsity priors are commonly used in denoising and image reconstruction. For analysis-type priors, a dictionary defines a representation of signals that is likely to be sparse. In most situations, this dictionary is not known, and is to be recovered from pairs of ground-truth signals and measurements, by minimizing the reconstruction error. This defines a hierarchical optimization problem, which can be cast as a bi-level optimization. Yet, this problem is unsolvable, as reconstructions and their derivative wrt the dictionary have no closed-form expression. However, reconstructions can be iteratively computed using the Forward-Backward splitting (FB) algorithm. In this paper, we approximate reconstructions by the output of the aforementioned FB algorithm. Then, we leverage automatic differentiation to evaluate the gradient of this output wrt the dictionary, which we learn with projected gradient descent. Experiments show that our algorithm successfully learns the 1D Total Variation (TV) dictionary from piecewise constant signals. For the same case study, we propose to constrain our search to dictionaries of 0-centered columns, which removes undesired local minima and improves numerical stability.
翻訳日:2021-12-16 21:43:43 公開日:2021-12-15
# (参考訳) astroparticle実験における相互作用局在化のためのドメイン不定形ニューラルネットワーク

Domain-informed neural networks for interaction localization within astroparticle experiments ( http://arxiv.org/abs/2112.07995v1 )

ライセンス: CC BY-SA 4.0
Shixiao Liang, Aaron Higuera, Christina Peters, Venkat Roy, Waheed U. Bajwa, Hagit Shatkay, Christopher D. Tunnell(参考訳) 本稿では,ダークマター研究のための時間投影チャンバー(tpc)技術を用いた粒子間相互作用の定位を例に,実験粒子物理学のためのドメインインフォームドニューラルネットワークアーキテクチャを提案する。 TPC内で発生する信号の重要な特徴は、再構成と呼ばれるプロセスを通じて粒子相互作用の局所化を可能にすることである。 マルチ層パーセプトロン (MLP) はTPCの再構築において主要な候補となっているが、そのようなブラックボックスアプローチは基礎となる科学的プロセスの事前の知識を反映していない。 本稿では,ニューラルネットワークを用いたインタラクションのローカライズに目を向け,信号特性と検出器形状の両方の観点から,事前検出知識を多層ニューラルネットワークの特徴エンコーディングと出力層にエンコードする。 結果として生じるドメイン情報ニューラルネットワーク(DiNN)は、TPC内で発生する信号の空間的局所性を考慮するために、初期特徴符号化層におけるニューロンの受容野を制限する。 DiNNのこの側面は、初期層内のニューロンが後続層内の少数のニューロンにのみ接続するというグラフニューラルネットワークの出現する領域と類似しており、MLPと比較してネットワーク内のパラメータの数を大幅に減少させる。 さらに、検出器幾何を考慮するため、ネットワークの出力層は2つの幾何変換を用いて修正され、dinnが検出器の内部に局在を生じさせることが保証される。 最終的な結果は、MLPよりも60%少ないパラメータを持つニューラルネットワークアーキテクチャであるが、それでも同様のローカライゼーションパフォーマンスを実現し、アーキテクチャに追加のドメイン知識をエンコードできるため、パフォーマンスを改善した将来のアーキテクチャ開発へのパスを提供する。

This work proposes a domain-informed neural network architecture for experimental particle physics, using particle interaction localization with the time-projection chamber (TPC) technology for dark matter research as an example application. A key feature of the signals generated within the TPC is that they allow localization of particle interactions through a process called reconstruction. While multilayer perceptrons (MLPs) have emerged as a leading contender for reconstruction in TPCs, such a black-box approach does not reflect prior knowledge of the underlying scientific processes. This paper looks anew at neural network-based interaction localization and encodes prior detector knowledge, in terms of both signal characteristics and detector geometry, into the feature encoding and the output layers of a multilayer neural network. The resulting Domain-informed Neural Network (DiNN limits the receptive fields of the neurons in the initial feature encoding layers in order to account for the spatially localized nature of the signals produced within the TPC. This aspect of the DiNN, which has similarities with the emerging area of graph neural networks in that the neurons in the initial layers only connect to a handful of neurons in their succeeding layer, significantly reduces the number of parameters in the network in comparison to an MLP. In addition, in order to account for the detector geometry, the output layers of the network are modified using two geometric transformations to ensure the DiNN produces localizations within the interior of the detector. The end result is a neural network architecture that has 60% fewer parameters than an MLP, but that still achieves similar localization performance and provides a path to future architectural developments with improved performance because of their ability to encode additional domain knowledge into the architecture.
翻訳日:2021-12-16 21:33:52 公開日:2021-12-15
# (参考訳) ディイルトクロスアテンションを用いた様々な照明条件下での連続深さ予測

Consistent Depth Prediction under Various Illuminations using Dilated Cross Attention ( http://arxiv.org/abs/2112.08006v1 )

ライセンス: CC BY 4.0
Zitian Zhang, Chuhua Xian(参考訳) 本稿では,様々な照明条件下での複雑なシーンにおける一貫した深度予測の課題を解決することを目的とする。 既存のRGB-Dセンサーや仮想レンダリングに基づく屋内データセットには、スパース深度マップ(NYU深度V2)と非リアル照明(SUN CG, SceneNet RGB-D)という2つの重要な制限がある。 我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを描画し,Variデータセットと呼ばれる新しい屋内深度データセットを取得することを提案する。 我々は,大域的な情報処理とパラメータの削減のために,深度的に分離可能な拡張畳み込みを符号化特徴に適用し,DCAという単純な畳み込みブロックを提案する。 異なる照度下での奥行き予測の一貫性を保つため,これらの拡張特徴を横断的に注目する。 本手法は,variデータセットの最先端手法と比較することで評価し,実験で有意な改善が得られた。 また,nyu深度v2のモデルを用いてアブレーション実験を行い,実世界データを評価し,dcaブロックの有効性をさらに検証した。 コード、事前トレーニングされた重み付け、Variデータセットはオープンソースである。

In this paper, we aim to solve the problem of consistent depth prediction in complex scenes under various illumination conditions. The existing indoor datasets based on RGB-D sensors or virtual rendering have two critical limitations - sparse depth maps (NYU Depth V2) and non-realistic illumination (SUN CG, SceneNet RGB-D). We propose to use internet 3D indoor scenes and manually tune their illuminations to render photo-realistic RGB photos and their corresponding depth and BRDF maps, obtaining a new indoor depth dataset called Vari dataset. We propose a simple convolutional block named DCA by applying depthwise separable dilated convolution on encoded features to process global information and reduce parameters. We perform cross attention on these dilated features to retain the consistency of depth prediction under different illuminations. Our method is evaluated by comparing it with current state-of-the-art methods on Vari dataset and a significant improvement is observed in our experiments. We also conduct the ablation study, finetune our model on NYU Depth V2 and also evaluate on real-world data to further validate the effectiveness of our DCA block. The code, pre-trained weights and Vari dataset are open-sourced.
翻訳日:2021-12-16 21:20:14 公開日:2021-12-15
# (参考訳) ニューラルネットワークによる量子状態の分離近似の構築

Building separable approximations for quantum states via neural networks ( http://arxiv.org/abs/2112.08055v1 )

ライセンス: CC BY 4.0
Antoine Girardin, Nicolas Brunner and Tam\'as Kriv\'achy(参考訳) 与えられた目標状態に最も近い分離可能な状態を見つけることは、状態が絡み合っているか分離可能であるかを判断するよりも、非常に難しい作業である。 この課題に取り組むために、ニューラルネットワークを用いて分離可能な状態をパラメータ化し、トレース距離やヒルベルト・シュミット距離などの微分可能な距離に関して、所定の目標状態までの距離を最小化するよう訓練する。 アルゴリズムの出力を調べることにより、対象状態が絡み合っているか否かを推定し、最も近い分離可能な状態の近似を構築することができる。 本手法はバイパルタイト状態の様々なクラスでベンチマークを行い, 局所次元が$d=10$である場合でも, 優れた一致を求める。 さらに, 分離可能性の異なる概念を考慮し, マルチパーティイトの場合において効率的な手法を示す。 3および4パーティのghzおよびw状態を調べると、既知の境界を回復し、トライセパビリティなど、新しいものを得る。 最後に,ニューラルネットワークの結果を用いて分析的洞察を得る方法を示す。

Finding the closest separable state to a given target state is a notoriously difficult task, even more difficult than deciding whether a state is entangled or separable. To tackle this task, we parametrize separable states with a neural network and train it to minimize the distance to a given target state, with respect to a differentiable distance, such as the trace distance or Hilbert-Schmidt distance. By examining the output of the algorithm, we can deduce whether the target state is entangled or not, and construct an approximation for its closest separable state. We benchmark the method on a variety of well-known classes of bipartite states and find excellent agreement, even up to local dimension of $d=10$. Moreover, we show our method to be efficient in the multipartite case, considering different notions of separability. Examining three and four-party GHZ and W states we recover known bounds and obtain novel ones, for instance for triseparability. Finally, we show how to use the neural network's results to gain analytic insight.
翻訳日:2021-12-16 21:07:01 公開日:2021-12-15
# (参考訳) 時系列生成のための画像ベース生成広告ネットワークの活用

Leveraging Image-based Generative Adversarial Networks for Time Series Generation ( http://arxiv.org/abs/2112.08060v1 )

ライセンス: CC BY 4.0
Justin Hellermann, Stefan Lessmann(参考訳) 生成モデルは、サンプリング品質、多様性、特徴の絡み合いに関して大きな成功を収めた画像データを合成する。 時系列生成モデルは、時間的ダイナミクスを捉え、サンプリングの反転を可能にする表現の欠如によるこれらの利点を欠いている。 本稿では,時系列生成における画像ベース生成対向ネットワークの利用を容易にするために,時間的回帰プロット(IRP)表現を提案する。 この表現は時系列特性のキャプチャに有効であり、他の表現と比較して可逆性とスケール不変性による利点が証明される。 実験的なベンチマークによってこれらの特徴が確認され、IRPが標準のワッサースタインGANに勾配のペナルティを付与し、特殊なRNNベースのGANより優れ、同時にモデルの複雑さを低減できることを示した。

Generative models synthesize image data with great success regarding sampling quality, diversity and feature disentanglement. Generative models for time series lack these benefits due to a missing representation, which captures temporal dynamics and allows inversion for sampling. The paper proposes the intertemporal return plot (IRP) representation to facilitate the use of image-based generative adversarial networks for time series generation. The representation proves effective in capturing time series characteristics and, compared to alternative representations, benefits from invertibility and scale-invariance. Empirical benchmarks confirm these features and demonstrate that the IRP enables an off-the-shelf Wasserstein GAN with gradient penalty to sample realistic time series, which outperform a specialized RNN-based GAN, while simultaneously reducing model complexity.
翻訳日:2021-12-16 20:46:55 公開日:2021-12-15
# (参考訳) 頭部運動ダイナミクスによる説明可能な人中心交通予測

Head Matters: Explainable Human-centered Trait Prediction from Head Motion Dynamics ( http://arxiv.org/abs/2112.08068v1 )

ライセンス: CC BY 4.0
Surbhi Madan, Monika Gahalawat, Tanaya Guha and Ramanathan Subramanian(参考訳) 本研究は,行動分析のための基本頭部運動ユニットkinemesの有用性を実証し,パーソナリティとインタビュー特性の予測を行う。 頭部運動パターンをキネムの配列に変換することにより、標的特性を特徴付ける潜在時間的シグネチャの発見が容易となり、効率的かつ説明可能な特徴予測が可能になる。 kinemes と face action coding system (facs) 機能を利用した予測 (a)第1回印象候補上映ビデオにおけるオセアン人格特性、及び b)mitデータセットにおけるインタビューの特徴は、(1)キネメシーケンスで訓練された長期記憶(lstm)ネットワークは、顔画像で訓練された畳み込みニューラルネットワーク(cnn)よりも優れており、(2)facsアクションユニット(aus)とキネムを組み合わせることで正確な予測と説明が行われ、(3)予測性能は、頭と顔の動きが観察される時間長に影響される。

We demonstrate the utility of elementary head-motion units termed kinemes for behavioral analytics to predict personality and interview traits. Transforming head-motion patterns into a sequence of kinemes facilitates discovery of latent temporal signatures characterizing the targeted traits, thereby enabling both efficient and explainable trait prediction. Utilizing Kinemes and Facial Action Coding System (FACS) features to predict (a) OCEAN personality traits on the First Impressions Candidate Screening videos, and (b) Interview traits on the MIT dataset, we note that: (1) A Long-Short Term Memory (LSTM) network trained with kineme sequences performs better than or similar to a Convolutional Neural Network (CNN) trained with facial images; (2) Accurate predictions and explanations are achieved on combining FACS action units (AUs) with kinemes, and (3) Prediction performance is affected by the time-length over which head and facial movements are observed.
翻訳日:2021-12-16 20:37:19 公開日:2021-12-15
# (参考訳) 改良されたステレオ再建のための深さ微細化

Depth Refinement for Improved Stereo Reconstruction ( http://arxiv.org/abs/2112.08070v1 )

ライセンス: CC BY 4.0
Amit Bracha, Noam Rotstein, David Bensa\"id, Ron Slossberg and Ron Kimmel(参考訳) 深さ推定は、ロボット工学、拡張現実、自動運転など、環境の3Dアセスメントを必要とする膨大な数のアプリケーションの基礎である。 深度推定の1つの顕著な手法はステレオマッチングであり、他の深度センシング技術よりもアクセスしやすいと考えられており、リアルタイムに深度推定を作成でき、近年の深度学習の進歩から大きな恩恵を受けている。 しかし,現在の立体画像からの奥行き推定手法では,まだ欠点が指摘されている。 立体マッチングアルゴリズムは、まず、幾何学的三角法を適用する前に、左右画像間の不一致マップを推定する。 簡単な解析により、深度誤差は物体の距離に比例することがわかった。 したがって、一定差分誤差は、カメラから遠く離れた物体に対して大きな深さ誤差に変換される。 この二次関係を緩和するために,奥行き推定に細分化ネットワークを用いた簡易かつ効果的な手法を提案する。 解析的および実証的な結果から,提案手法が2次関係を減少させることを示す。 本研究では,sceneflowやkittiデータセットなど,よく知られたベンチマークやデータセットで提案手法を評価し,奥行き精度指標の大幅な改善を示す。

Depth estimation is a cornerstone of a vast number of applications requiring 3D assessment of the environment, such as robotics, augmented reality, and autonomous driving to name a few. One prominent technique for depth estimation is stereo matching which has several advantages: it is considered more accessible than other depth-sensing technologies, can produce dense depth estimates in real-time, and has benefited greatly from the advances of deep learning in recent years. However, current techniques for depth estimation from stereoscopic images still suffer from a built-in drawback. To reconstruct depth, a stereo matching algorithm first estimates the disparity map between the left and right images before applying a geometric triangulation. A simple analysis reveals that the depth error is quadratically proportional to the object's distance. Therefore, constant disparity errors are translated to large depth errors for objects far from the camera. To mitigate this quadratic relation, we propose a simple but effective method that uses a refinement network for depth estimation. We show analytical and empirical results suggesting that the proposed learning procedure reduces this quadratic relation. We evaluate the proposed refinement procedure on well-known benchmarks and datasets, like Sceneflow and KITTI datasets, and demonstrate significant improvements in the depth accuracy metric.
翻訳日:2021-12-16 20:20:46 公開日:2021-12-15
# (参考訳) 認知認識コグネート検出

Cognition-aware Cognate Detection ( http://arxiv.org/abs/2112.08087v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Prashant Sharma, Sayali Ghodekar, Pushpak Bhattacharyya, Gholamreza Haffari, Malhar Kulkarni(参考訳) コグネートの自動検出は、機械翻訳、言語間情報検索、計算系統解析、言語間名前付きエンティティ認識の下流のnlpタスクを支援する。 コグネート検出のタスクに対する従来のアプローチは、正書法、音声学的、意味的類似性に基づく特徴集合を用いる。 本稿では,人間の視線行動から認知的特徴を抽出し,特徴集合を豊かにするための新しい手法を提案する。 視線行動データを収集し,コグネート検出のタスクにおいて,認知的特徴の抽出が有用であることを示す。 しかし、データ収集とアノテーションはコストのかかるタスクである。 収集した視線行動データを用いて、より大きなサンプルに対する認知的特徴を予測し、予測された認知的特徴がタスク性能を著しく改善することを示す。 これまでに提案した手法と比較して, 収集した視線特徴の10%, 予測した視線特徴の12%の改善を報告した。 さらに,収集した視線行動データをコードと言語横断モデルとともにリリースする。

Automatic detection of cognates helps downstream NLP tasks of Machine Translation, Cross-lingual Information Retrieval, Computational Phylogenetics and Cross-lingual Named Entity Recognition. Previous approaches for the task of cognate detection use orthographic, phonetic and semantic similarity based features sets. In this paper, we propose a novel method for enriching the feature sets, with cognitive features extracted from human readers' gaze behaviour. We collect gaze behaviour data for a small sample of cognates and show that extracted cognitive features help the task of cognate detection. However, gaze data collection and annotation is a costly task. We use the collected gaze behaviour data to predict cognitive features for a larger sample and show that predicted cognitive features, also, significantly improve the task performance. We report improvements of 10% with the collected gaze features, and 12% using the predicted gaze features, over the previously proposed approaches. Furthermore, we release the collected gaze behaviour data along with our code and cross-lingual models.
翻訳日:2021-12-16 20:09:40 公開日:2021-12-15
# (参考訳) 生成モデルを用いたMOBAゲームにおける制御可能なエージェントを目指して

Towards Controllable Agent in MOBA Games with Generative Modeling ( http://arxiv.org/abs/2112.08093v1 )

ライセンス: CC BY 4.0
Shubao Zhang(参考訳) 本稿では,マルチプレイヤーオンラインバトルアリーナ(moba)ゲームにおいて,人間のように行動し,人間と協調する能力を有するアクションコントロール可能なエージェントを開発するための新しい手法を提案する。 制御問題を行動生成過程としてモデル化することにより,学習エージェントのための深い潜在アライメントニューラルネットワークモデルと,エージェントの動作を制御するための対応するサンプリングアルゴリズムを考案する。 特に,コア潜在アライメントモデルの決定論的・確率的注意実装を提案する。 キングズ名誉ゲームにおけるシミュレーションおよびオンライン実験は,提案手法の有効性を実証するものである。

We propose novel methods to develop action controllable agent that behaves like a human and has the ability to align with human players in Multiplayer Online Battle Arena (MOBA) games. By modeling the control problem as an action generation process, we devise a deep latent alignment neural network model for training agent, and a corresponding sampling algorithm for controlling an agent's action. Particularly, we propose deterministic and stochastic attention implementations of the core latent alignment model. Both simulated and online experiments in the game Honor of Kings demonstrate the efficacy of the proposed methods.
翻訳日:2021-12-16 19:53:40 公開日:2021-12-15
# (参考訳) 二重正規化によるロバストニューラルネットワークの分類

Robust Neural Network Classification via Double Regularization ( http://arxiv.org/abs/2112.08102v1 )

ライセンス: CC0 1.0
Olof Zetterqvist, Rebecka J\"ornsten, Johan Jonasson(参考訳) データに誤記された観察が存在することは、統計学や機械学習において、従来の分類器と、ニューラルネットワークのような柔軟な分類器の両方の一般化特性の貧弱さに関係している、と悪名高い問題である。 本稿では,分類モデルの複雑性に対するペナルティと,訓練観察の最適重み付けを組み合わせたニューラルネットワーク学習損失の新たな二重正則化を提案する。 組み合わせたペナルティは、誤ラベル付きトレーニングデータの異なる設定でのオーバーフィッティングに対する一般化特性の向上と強靭性、およびトレーニング時の初期パラメータ値の変化に対する効果をもたらす。 本提案手法は,ロジスティック回帰の単純な場合から導出した理論的正当性を示す。 ニューラルネット分類のための二重正則化モデルを実演する。 (i)MNISTおよび (二)CIFAR-10は、どちらも模擬誤記の場合。 また, DRFitは, 精度のよいラベル付きデータポイントを同定する。 性能を犠牲にすることなく、誤ラベルに対する過度な適合を同時に低減し、ラベルの信頼性を正確に測定する分類器を得る。

The presence of mislabeled observations in data is a notoriously challenging problem in statistics and machine learning, associated with poor generalization properties for both traditional classifiers and, perhaps even more so, flexible classifiers like neural networks. Here we propose a novel double regularization of the neural network training loss that combines a penalty on the complexity of the classification model and an optimal reweighting of training observations. The combined penalties result in improved generalization properties and strong robustness against overfitting in different settings of mislabeled training data and also against variation in initial parameter values when training. We provide a theoretical justification for our proposed method derived for a simple case of logistic regression. We demonstrate the double regularization model, here denoted by DRFit, for neural net classification of (i) MNIST and (ii) CIFAR-10, in both cases with simulated mislabeling. We also illustrate that DRFit identifies mislabeled data points with very good precision. This provides strong support for DRFit as a practical of-the-shelf classifier, since, without any sacrifice in performance, we get a classifier that simultaneously reduces overfitting against mislabeling and gives an accurate measure of the trustworthiness of the labels.
翻訳日:2021-12-16 19:38:32 公開日:2021-12-15
# (参考訳) 近接機械翻訳の高速化

Faster Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2112.08152v1 )

ライセンス: CC BY 4.0
Shuhe Wang, Jiwei Li, Yuxian Meng, Rongbin Ouyang, Guoyin Wang, Xiaoya Li, Tianwei Zhang, Shi Zong(参考訳) k$NNベースのニューラルマシン翻訳($k$NN-MT)は、さまざまなMTタスクで最先端の結果を得た。 k$NN-MTの重大な欠点のひとつは、データストア全体からクエリ表現に最も近い$k$を識別する非効率性にある。 本稿では,この問題に対処するため,textbf{Faster $k$NN-MT}を提案する。 より高速な$k$nn-mtの基本的な考え方は、階層的なクラスタリング戦略を使用して、データストア内のクエリとデータポイントの間の距離を近似する。 我々は,これら2つの部品をより高速に計算する方法を提案する。 異なるMTベンチマークの広範な実験により、fast $k$NN-MTより高速で、バニラよりもわずかに(1.2倍)遅い一方、モデル性能は$k$NN-MTに保たれていることがわかった。 より高速な$k$NN-MTは、現実世界のMTサービスに$k$NN-MTモデルのデプロイを可能にする。

$k$NN based neural machine translation ($k$NN-MT) has achieved state-of-the-art results in a variety of MT tasks. One significant shortcoming of $k$NN-MT lies in its inefficiency in identifying the $k$ nearest neighbors of the query representation from the entire datastore, which is prohibitively time-intensive when the datastore size is large. In this work, we propose \textbf{Faster $k$NN-MT} to address this issue. The core idea of Faster $k$NN-MT is to use a hierarchical clustering strategy to approximate the distance between the query and a data point in the datastore, which is decomposed into two parts: the distance between the query and the center of the cluster that the data point belongs to, and the distance between the data point and the cluster center. We propose practical ways to compute these two parts in a significantly faster manner. Through extensive experiments on different MT benchmarks, we show that \textbf{Faster $k$NN-MT} is faster than Fast $k$NN-MT \citep{meng2021fast} and only slightly (1.2 times) slower than its vanilla counterpart while preserving model performance as $k$NN-MT. Faster $k$NN-MT enables the deployment of $k$NN-MT models on real-world MT services.
翻訳日:2021-12-16 19:21:33 公開日:2021-12-15
# (参考訳) ドメイン間のFew-shot学習のための階層的変動記憶

Hierarchical Variational Memory for Few-shot Learning Across Domains ( http://arxiv.org/abs/2112.08181v1 )

ライセンス: CC BY 4.0
Yingjun Du, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) ニューラルメモリは、少数のトレーニングサンプルで新しいタスクへの迅速な適応を可能にする。 既存のメモリモデルは、単一の最終層からのみ機能を格納するが、トレーニングとテストディストリビューション間のドメインシフトの存在下では、うまく一般化しない。 フラットメモリに頼るのではなく、異なる意味レベルで機能を格納する階層的な代替を提案する。 プロトタイプの各レベルが階層的メモリから対応する情報をフェッチする階層的プロトタイプモデルを提案する。 ドメインシフトの状況が要求される場合、モデルは異なるセマンティックレベルの機能を柔軟に依存する能力を備えています。 我々は,階層的メモリとプロトタイプを協調的に最適化する階層的変動推論フレームワークにより,モデルをメタラーニングする。 異なる意味レベルの重要性を探求し、活用するために、さらに、各レベルにおけるプロトタイプに関連する重みをデータ駆動方式で学習し、モデルが最も一般化可能な特徴を適応的に選択できるようにする。 我々は,モデルにおける各成分の有効性を示すため,徹底的なアブレーション研究を行う。 クロスドメインにおける新しい最先端性能と、従来の数ショット分類における競合性能は、階層的変動メモリの利点をさらに裏付けるものである。

Neural memory enables fast adaptation to new tasks with just a few training samples. Existing memory models store features only from the single last layer, which does not generalize well in presence of a domain shift between training and test distributions. Rather than relying on a flat memory, we propose a hierarchical alternative that stores features at different semantic levels. We introduce a hierarchical prototype model, where each level of the prototype fetches corresponding information from the hierarchical memory. The model is endowed with the ability to flexibly rely on features at different semantic levels if the domain shift circumstances so demand. We meta-learn the model by a newly derived hierarchical variational inference framework, where hierarchical memory and prototypes are jointly optimized. To explore and exploit the importance of different semantic levels, we further propose to learn the weights associated with the prototype at each level in a data-driven way, which enables the model to adaptively choose the most generalizable features. We conduct thorough ablation studies to demonstrate the effectiveness of each component in our model. The new state-of-the-art performance on cross-domain and competitive performance on traditional few-shot classification further substantiates the benefit of hierarchical variational memory.
翻訳日:2021-12-16 19:06:03 公開日:2021-12-15
# (参考訳) N3H-Core:FPGAベースの異種コンピューティングコアによるニューロン設計ニューラルネットワーク加速器

N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based Heterogeneous Computing Cores ( http://arxiv.org/abs/2112.08193v1 )

ライセンス: CC BY 4.0
Yu Gong, Zhihan Xu, Zhezhi He, Weifeng Zhang, Xiaobing Tu, Xiaoyao Liang, Li Jiang(参考訳) FPGAの再構成可能性とハイパフォーマンスコンピューティング能力は、高速進化するニューラルネットワークの計算要求を本質的に満足しているため、FPGAによるニューラルネットワーク推論の高速化が一般的な選択肢として浮上している。 しかし、FPGA上の一般的な神経アクセラレータ(例えばXilinx DPU)は主にDSPリソースを使用して処理ユニットを構築するが、リッチなLUTリソースは十分に活用されていない。 本研究では,ソフトウェア・ハードウェア共同設計手法を用いて,ニューラルネットワークアクセラレーションのためのFPGAベースの異種コンピューティングシステムを開発する。 ハードウェアの観点から、提案する加速器は、dspおよびlutベースのgemm(general matrix-multiplication)コンピューティングコアで構成され、コンピュータシステム全体を異質な方法で構成する。 DSPおよびLUTベースのGEMMコアは、統一命令セットアーキテクチャ(ISA)と統一バッファで計算される。 ニューラルネットワーク推論パスのデータフローに沿って、畳み込み/全接続された層の計算を2つの部分に分割し、DSPおよびLUTベースのGEMMコアで非同期に処理する。 ソフトウェアの観点からは,システム設計構成の異なる異種加速器の遅延と資源利用を数学的・体系的にモデル化する。 強化学習手法を活用し,ワークロード分割戦略,混合精度量子化手法,dspコアとlutコアのリソース割り当てなど,目標ヘテロジニアスアクセラレータの設計仕様のエンドツーエンド選択と最適化を実現するフレームワークを構築した。 提案した設計フレームワークとヘテロジニアスコンピューティングシステムにより,提案設計は最新のMix&Match設計よりも高い精度で1.12-1.32倍のレイテンシで性能を向上する。 N3Hコアは、https://github.com/elliothe/N3H_Coreでオープンソース化されている。

Accelerating the neural network inference by FPGA has emerged as a popular option, since the reconfigurability and high performance computing capability of FPGA intrinsically satisfies the computation demand of the fast-evolving neural algorithms. However, the popular neural accelerators on FPGA (e.g., Xilinx DPU) mainly utilize the DSP resources for constructing their processing units, while the rich LUT resources are not well exploited. Via the software-hardware co-design approach, in this work, we develop an FPGA-based heterogeneous computing system for neural network acceleration. From the hardware perspective, the proposed accelerator consists of DSP- and LUT-based GEneral Matrix-Multiplication (GEMM) computing cores, which forms the entire computing system in a heterogeneous fashion. The DSP- and LUT-based GEMM cores are computed w.r.t a unified Instruction Set Architecture (ISA) and unified buffers. Along the data flow of the neural network inference path, the computation of the convolution/fully-connected layer is split into two portions, handled by the DSP- and LUT-based GEMM cores asynchronously. From the software perspective, we mathematically and systematically model the latency and resource utilization of the proposed heterogeneous accelerator, regarding varying system design configurations. Through leveraging the reinforcement learning technique, we construct a framework to achieve end-to-end selection and optimization of the design specification of target heterogeneous accelerator, including workload split strategy, mixed-precision quantization scheme, and resource allocation of DSP- and LUT-core. In virtue of the proposed design framework and heterogeneous computing system, our design outperforms the state-of-the-art Mix&Match design with latency reduced by 1.12-1.32x with higher inference accuracy. The N3H-core is open-sourced at: https://github.com/elliothe/N3H_Core.
翻訳日:2021-12-16 18:47:57 公開日:2021-12-15
# (参考訳) 敗血症患者に対する機械学習による死亡予測における社会的要因の差異

Disparities in Social Determinants among Performances of Mortality Prediction with Machine Learning for Sepsis Patients ( http://arxiv.org/abs/2112.08224v1 )

ライセンス: CC BY 4.0
Hanyin Wang, Yikuan Li, Andrew Naidech, Yuan Luo(参考訳) セプシスは米国の重度の重篤な患者にとって最も命の危険を伴う状況の1つだが、セプシスの診断基準の標準化はまだ進行中である。 敗血症患者の社会的決定要因の相違は、機械学習を用いたリスク予測性能に干渉する可能性がある。 6つの敗血症基準で特定された患者のうち、人種、性別、婚姻状況、保険の種類、言語を含む社会的決定要因の方法の相違が森林計画によって明らかにされた。 敗血症患者の院内死亡を予測するために16種類の機械学習分類器を訓練した。 トレーニングされたモデルの性能はランダムに実施されたテストセット全体でテストされ、それぞれのサブポピュレーションは、人種、性別、婚姻状況、保険タイプ、言語の各社会的決定要因に基づいて構築された。 mimic-iiiデータベースから合計11,791名のクリティカルケア患者を解析した。 各セプシスの識別方法によって特定された集団内では、人種、婚姻状況、保険の種類、言語に関する下位集団間で有意な差が見られた。 アジアとヒスパニックの患者に機械学習モデルを適用した際,セプシス3基準で同定した5,783例において,死亡予測における統計的に有意なパフォーマンス低下が認められた。 対数比較の結果,アジア系と白人の死亡率予測,アジア系,その他の人種の患者,英語系とスペイン語系の患者の死亡率の差がみられた。 各種敗血症基準で同定された患者の割合の差は, 異なる社会的決定群間でみられた。 正確な診断には,患者の社会的要因の相違を克服するために,敗血症の多彩な診断システムが必要である。

Background Sepsis is one of the most life-threatening circumstances for critically ill patients in the US, while a standardized criteria for sepsis identification is still under development. Disparities in social determinants of sepsis patients can interfere with the risk prediction performances using machine learning. Methods Disparities in social determinants, including race, gender, marital status, insurance types and languages, among patients identified by six available sepsis criteria were revealed by forest plots. Sixteen machine learning classifiers were trained to predict in-hospital mortality for sepsis patients. The performance of the trained model was tested on the entire randomly conducted test set and each sub-population built based on each of the following social determinants: race, gender, marital status, insurance type, and language. Results We analyzed a total of 11,791 critical care patients from the MIMIC-III database. Within the population identified by each sepsis identification method, significant differences were observed among sub-populations regarding race, marital status, insurance type, and language. On the 5,783 sepsis patients identified by the Sepsis-3 criteria statistically significant performance decreases for mortality prediction were observed when applying the trained machine learning model on Asian and Hispanic patients. With pairwise comparison, we detected performance discrepancies in mortality prediction between Asian and White patients, Asians and patients of other races, as well as English-speaking and Spanish-speaking patients. Conclusions Disparities in proportions of patients identified by various sepsis criteria were detected among the different social determinant groups. To achieve accurate diagnosis, a versatile diagnostic system for sepsis is needed to overcome the social determinant disparities of patients.
翻訳日:2021-12-16 18:28:15 公開日:2021-12-15
# (参考訳) ネットワークシステムにおける効率的な学習のためのオンライン特徴選択

Online Feature Selection for Efficient Learning in Networked Systems ( http://arxiv.org/abs/2112.08253v1 )

ライセンス: CC BY-SA 4.0
Xiaoxuan Wang, Rolf Stadler(参考訳) データ駆動エンジニアリングのための現在のAI/MLメソッドは、主にオフラインでトレーニングされたモデルを使用する。 このようなモデルは、通信や計算コストの観点から構築するコストが高く、長期にわたって収集されるデータに依存する可能性がある。 さらに、システム変更が発生すると時代遅れになる。 これらの課題に対処するために,モデルトレーニングのための利用可能なデータソース数を自動削減するオンライン学習手法について検討する。 このアルゴリズムは,少数の測定を受信した後,多数の利用可能なデータソースから小さな特徴セットを選択する。 アルゴリズムは、特徴ランク付けアルゴリズム、特徴セット安定度、検索ポリシーで初期化される。 本アルゴリズムは,社内テストベッドからのトレースと運用中のデータセンタからのトレースを用いて,広範な実験評価を行う。 その結果,OSFS は全データセットに対して 1-3 桁の規模で設定された特徴量を大幅に削減できることがわかった。 最も重要なことは、OSFSが生成する特徴セットでトレーニングされた予測器の精度が、オフライン特徴選択によって得られた特徴セットで予測器をトレーニングした時よりも幾分良いことである。 したがって、OSFSはオンラインの特徴選択アルゴリズムとして有効であり、特徴選択に使用されるサンプル間隔に関して堅牢であることが示されている。 また,モデルの基礎となるデータにコンセプトドリフトが発生すると,特徴集合を再計算し,予測モデルを再学習することで,その効果を緩和できることがわかった。

Current AI/ML methods for data-driven engineering use models that are mostly trained offline. Such models can be expensive to build in terms of communication and computing cost, and they rely on data that is collected over extended periods of time. Further, they become out-of-date when changes in the system occur. To address these challenges, we investigate online learning techniques that automatically reduce the number of available data sources for model training. We present an online algorithm called Online Stable Feature Set Algorithm (OSFS), which selects a small feature set from a large number of available data sources after receiving a small number of measurements. The algorithm is initialized with a feature ranking algorithm, a feature set stability metric, and a search policy. We perform an extensive experimental evaluation of this algorithm using traces from an in-house testbed and from a data center in operation. We find that OSFS achieves a massive reduction in the size of the feature set by 1-3 orders of magnitude on all investigated datasets. Most importantly, we find that the accuracy of a predictor trained on a OSFS-produced feature set is somewhat better than when the predictor is trained on a feature set obtained through offline feature selection. OSFS is thus shown to be effective as an online feature selection algorithm and robust regarding the sample interval used for feature selection. We also find that, when concept drift in the data underlying the model occurs, its effect can be mitigated by recomputing the feature set and retraining the prediction model.
翻訳日:2021-12-16 18:18:56 公開日:2021-12-15
# (参考訳) 誘導型グラフニューラルネットワークに対するモデル盗み攻撃

Model Stealing Attacks Against Inductive Graph Neural Networks ( http://arxiv.org/abs/2112.08331v1 )

ライセンス: CC BY 4.0
Yun Shen, Xinlei He, Yufei Han, Yang Zhang(参考訳) 現実世界のデータの多くはグラフの形で収集される。 新しい機械学習(ML)モデルのファミリーであるグラフニューラルネットワーク(GNN)は、グラフデータを完全に活用して強力なアプリケーションを構築するために提案されている。 特に、目に見えないデータに一般化できるインダクティブGNNは、この方向に主流になる。 機械学習モデルは様々なタスクで大きな可能性を示しており、多くの現実世界のシナリオでデプロイされている。 優れたモデルをトレーニングするには、大量のデータと計算資源が必要であるため、貴重な知的財産権が得られる。 これまでの研究によると、MLモデルはターゲットモデルの機能を盗むために盗む攻撃をモデル化する傾向がある。 しかし、その多くは画像やテキストで訓練されたモデルに焦点を当てている。 一方、グラフデータ、すなわちGNNで訓練されたモデルには、ほとんど注意が払われていない。 本稿では,誘導型GNNに対する最初の盗難攻撃を提案し,そのギャップを埋める。 我々は,脅威モデルを体系的に定義し,敵の背景知識とターゲットモデルの応答に基づいて6つの攻撃を提案する。 6つのベンチマークデータセットに対する評価から,提案モデルがGNNに対する攻撃を盗むことにより,有望な性能が得られることが示された。

Many real-world data come in the form of graphs. Graph neural networks (GNNs), a new family of machine learning (ML) models, have been proposed to fully leverage graph data to build powerful applications. In particular, the inductive GNNs, which can generalize to unseen data, become mainstream in this direction. Machine learning models have shown great potential in various tasks and have been deployed in many real-world scenarios. To train a good model, a large amount of data as well as computational resources are needed, leading to valuable intellectual property. Previous research has shown that ML models are prone to model stealing attacks, which aim to steal the functionality of the target models. However, most of them focus on the models trained with images and texts. On the other hand, little attention has been paid to models trained with graph data, i.e., GNNs. In this paper, we fill the gap by proposing the first model stealing attacks against inductive GNNs. We systematically define the threat model and propose six attacks based on the adversary's background knowledge and the responses of the target models. Our evaluation on six benchmark datasets shows that the proposed model stealing attacks against GNNs achieve promising performance.
翻訳日:2021-12-16 17:57:53 公開日:2021-12-15
# マルチソース属性を取り入れた細部認識深着アニメーション

Detail-aware Deep Clothing Animations Infused with Multi-source Attributes ( http://arxiv.org/abs/2112.07974v1 )

ライセンス: Link先を確認
Tianxing Li, Rui Shi, Takashi Kanai(参考訳) 本稿では,様々な形状の身体で身に着ける衣服のリッチで合理的な変形を再現する新しい学習ベースの衣料変形法を提案する。 異なる衣服のトポロジやポーズに対して多くの訓練されたモデルを必要とする既存の学習ベース手法とは対照的に,我々は統合された枠組みを用いて高忠実度変形を効率的かつ容易に生成する。 マルチソース属性による変形予測の課題に対処するため,新しい視点から3つの戦略を提案する。 具体的には、衣服と体の間のフィットが折りたたみの程度に重要な影響を与えることを発見した。 次に、属性パーサを設計し、詳細を意識したエンコーディングを生成し、それらをグラフニューラルネットワークに注入することで、様々な属性の下で詳細を識別する。 さらに,より収束性を高め,過度に滑らかな変形を避けるために,学習課題の複雑さを軽減するために出力再構成を提案する。 実験の結果,提案手法は一般化能力と細部品質の面で既存の手法よりも優れた性能が得られることがわかった。

This paper presents a novel learning-based clothing deformation method to generate rich and reasonable detailed deformations for garments worn by bodies of various shapes in various animations. In contrast to existing learning-based methods, which require numerous trained models for different garment topologies or poses and are unable to easily realize rich details, we use a unified framework to produce high fidelity deformations efficiently and easily. To address the challenging issue of predicting deformations influenced by multi-source attributes, we propose three strategies from novel perspectives. Specifically, we first found that the fit between the garment and the body has an important impact on the degree of folds. We then designed an attribute parser to generate detail-aware encodings and infused them into the graph neural network, therefore enhancing the discrimination of details under diverse attributes. Furthermore, to achieve better convergence and avoid overly smooth deformations, we proposed output reconstruction to mitigate the complexity of the learning task. Experiment results show that our proposed deformation method achieves better performance over existing methods in terms of generalization ability and quality of details.
翻訳日:2021-12-16 17:29:34 公開日:2021-12-15
# GAN生成顔画像の周波数スペクトルの非同期性を探る

Exploring the Asynchronous of the Frequency Spectra of GAN-generated Facial Images ( http://arxiv.org/abs/2112.08050v1 )

ライセンス: Link先を確認
Binh M. Le and Simon S. Woo(参考訳) generative adversarial networks (gans) の急速な進歩は、悪意のある目的、特に偽の顔画像の作成において、その誤用を懸念させている。 提案手法の多くはganベースの合成画像の検出に成功しているが、偽画像データセットの大量のトレーニングの必要性と、未知の顔画像に対する検出器の一般化の課題によって、依然として制限されている。 本稿では,ganベース合成画像の識別のために教師なし学習モデルと教師なし学習モデルの両方を訓練するのに有効であるカラーチャネルの非同期周波数スペクトルを探索する新しい手法を提案する。 提案する1つのソースドメインの機能から学習し、その特徴の分布を事前に知る他のターゲットドメインで検証するトレーニングモデルの転送可能性についても検討する。 実験の結果,周波数領域におけるスペクトルの相違は,様々な種類のGAN生成画像の検出に有効であることがわかった。

The rapid progression of Generative Adversarial Networks (GANs) has raised a concern of their misuse for malicious purposes, especially in creating fake face images. Although many proposed methods succeed in detecting GAN-based synthetic images, they are still limited by the need for large quantities of the training fake image dataset and challenges for the detector's generalizability to unknown facial images. In this paper, we propose a new approach that explores the asynchronous frequency spectra of color channels, which is simple but effective for training both unsupervised and supervised learning models to distinguish GAN-based synthetic images. We further investigate the transferability of a training model that learns from our suggested features in one source domain and validates on another target domains with prior knowledge of the features' distribution. Our experimental results show that the discrepancy of spectra in the frequency domain is a practical artifact to effectively detect various types of GAN-based generated images.
翻訳日:2021-12-16 17:29:14 公開日:2021-12-15
# COVID-19コンテキストにおける手話要素の視覚的表現の定量的解析

Quantitative analysis of visual representation of sign elements in COVID-19 context ( http://arxiv.org/abs/2112.08219v1 )

ライセンス: Link先を確認
Mar\'ia Jes\'us Cano-Mart\'inez and Miguel Carrasco and Joaqu\'in Sandoval and C\'esar Gonz\'alez-Mart\'in(参考訳) 表現(Representation)とは、人間が外部と内部の両方で起きていることの現実を表わす方法である。 このように、コミュニケーションの手段としての視覚表現は、話し言葉や書き言葉と同じように、要素を使って物語を構築する。 本研究は、covid-19 美術館のinstagram アカウントで収集した画像を用いて、流行に関連づけられた視覚創造に使用される要素の定量的分析を行うためにコンピュータ解析を用いて、世界規模のイベントにおける主観的体験を表現するために使用されるさまざまな要素を分析する。 このプロセスは、機械学習に基づいて画像中の物体を検知し、アルゴリズムが各研究画像に含まれる物体を学習し、検出することができるようにしている。 本研究は,物語を創造するために画像に繰り返される要素と,サンプルに確立された関連の関係を明らかにしたものであり,すべての創作が伴う主観性にもかかわらず,視覚的表現に含まれる対象の選択に関して,共有された決定のパラメータが存在することを結論づける。

Representation is the way in which human beings re-present the reality of what is happening, both externally and internally. Thus, visual representation as a means of communication uses elements to build a narrative, just as spoken and written language do. We propose using computer analysis to perform a quantitative analysis of the elements used in the visual creations that have been produced in reference to the epidemic, using the images compiled in The Covid Art Museum's Instagram account to analyze the different elements used to represent subjective experiences with regard to a global event. This process has been carried out with techniques based on machine learning to detect objects in the images so that the algorithm can be capable of learning and detecting the objects contained in each study image. This research reveals that the elements that are repeated in images to create narratives and the relations of association that are established in the sample, concluding that, despite the subjectivity that all creation entails, there are certain parameters of shared and reduced decisions when it comes to selecting objects to be included in visual representations
翻訳日:2021-12-16 17:28:57 公開日:2021-12-15
# 存在規則言語のプログラム表現力の特徴付け

Characterizing the Program Expressive Power of Existential Rule Languages ( http://arxiv.org/abs/2112.08136v1 )

ライセンス: Link先を確認
Heng Zhang(参考訳) 既存のルール言語はオントロジーによるクエリ応答(OMQA)で広く使われているオントロジー言語のファミリーである。 しかし、ほとんどの場合、プログラム表現力として知られるOMQAのドメイン知識を表現する表現力はまだ十分に理解されていない。 本稿では,タプル生成依存言語(tgd)や線形tgd,連結型tgdなど,いくつかの重要な存在規則言語のプログラム表現力に関する多くの新しい特徴付けについて述べる。 キャラクタリゼーションは自然モデル理論特性と時折オートマトン理論特性を使用し、これらの言語におけるOMQAのドメイン知識の定義可能性を特定する強力なツールを提供する。

Existential rule languages are a family of ontology languages that have been widely used in ontology-mediated query answering (OMQA). However, for most of them, the expressive power of representing domain knowledge for OMQA, known as the program expressive power, is not well-understood yet. In this paper, we establish a number of novel characterizations for the program expressive power of several important existential rule languages, including tuple-generating dependencies (TGDs), linear TGDs, as well as disjunctive TGDs. The characterizations employ natural model-theoretic properties, and automata-theoretic properties sometimes, which thus provide powerful tools for identifying the definability of domain knowledge for OMQA in these languages.
翻訳日:2021-12-16 17:28:12 公開日:2021-12-15
# 多様体グラフ埋め込みのための一般化固有ベクトルの高速計算

Fast Computation of Generalized Eigenvectors for Manifold Graph Embedding ( http://arxiv.org/abs/2112.07862v1 )

ライセンス: Link先を確認
Fei Chen, Gene Cheung, Xue Zhang(参考訳) 我々の目標は、クラスタリングなどのその後のデータ処理に対して、入力グラフ(グラフ埋め込みとして知られる)内のノードの低次元潜在座標を効率的に計算することです。 連続多様体上の一様サンプルとして解釈される有限グラフ(多様体グラフと呼ばれる)に着目し、高速な実行のために既存の高速極端固有ベクトル計算アルゴリズムを利用する。 まず、スパース行列対 $(\A,\B)$ に対して一般化された固有値問題(英語版)を、$\A = \L - \mu \Q + \epsilon \I$ はグラフの和 Laplacian $\L$ と非連結二脚差分行列 $\Q$ で表す。 eigenvector $\v$ minimizing rayleigh quotient $\frac{\v^{\top} \a \v}{\v^{\top} \v}$ これにより、1ドルホップの隣接距離を最小化し、切断された2ドルホップの隣人間の距離を最大化し、グラフ構造を保存する。 固有ベクトル直交性を定義する行列 $\b = \text{diag}(\{\b_i\})$ は、サンプリング領域の境界/内部ノードが同じ一般化次数を持つように選択される。 グラフノードに対する$K$次元潜在ベクトルは、$(\A,\B)$の最初の$K$一般化固有ベクトルであり、$K \ll N$ を LOBPCG を用いて$\cO(N)$ で計算する。 実験により, 埋め込みは文献の中で最速であり, 多様体グラフのクラスタリング性能は最適であることがわかった。

Our goal is to efficiently compute low-dimensional latent coordinates for nodes in an input graph -- known as graph embedding -- for subsequent data processing such as clustering. Focusing on finite graphs that are interpreted as uniformly samples on continuous manifolds (called manifold graphs), we leverage existing fast extreme eigenvector computation algorithms for speedy execution. We first pose a generalized eigenvalue problem for sparse matrix pair $(\A,\B)$, where $\A = \L - \mu \Q + \epsilon \I$ is a sum of graph Laplacian $\L$ and disconnected two-hop difference matrix $\Q$. Eigenvector $\v$ minimizing Rayleigh quotient $\frac{\v^{\top} \A \v}{\v^{\top} \v}$ thus minimizes $1$-hop neighbor distances while maximizing distances between disconnected $2$-hop neighbors, preserving graph structure. Matrix $\B = \text{diag}(\{\b_i\})$ that defines eigenvector orthogonality is then chosen so that boundary / interior nodes in the sampling domain have the same generalized degrees. $K$-dimensional latent vectors for the $N$ graph nodes are the first $K$ generalized eigenvectors for $(\A,\B)$, computed in $\cO(N)$ using LOBPCG, where $K \ll N$. Experiments show that our embedding is among the fastest in the literature, while producing the best clustering performance for manifold graphs.
翻訳日:2021-12-16 17:26:24 公開日:2021-12-15
# 多要素ガウス過程分類を用いた心房細動モデルの誘導可能領域の高速評価

Fast characterization of inducible regions of atrial fibrillation models with multi-fidelity Gaussian process classification ( http://arxiv.org/abs/2112.08075v1 )

ライセンス: Link先を確認
Lia Gandera, Simone Pezzutoa, Ali Gharaviri, Rolf Krause, Paris Perdikaris, Francisco Sahli Costabal(参考訳) 心房細動の計算モデルは最適なアブレーション部位の予測に成功している。 アブレーションパターンの効果を評価するための重要なステップは、異なる、潜在的にランダムな場所からモデルをペーストし、不整脈をatriaで誘発できるかどうかを決定することである。 本研究では、リーマン多様体上の多元的ガウス過程分類を用いて、不整脈が引き起こされるアトリアの領域を効率的に決定することを提案する。 心房表面上で直接動作する確率的分類器を構築する。 我々は,低分解能モデルを利用して心房表面を探索し,高分解能モデルとシームレスに結合して誘導性領域を同定する。 40個のサンプルで訓練すると,心房細動モデルとして使用される近隣の分類器より10%高く,アブレーションを伴う心房細動の有無で9%高いバランスのバランスの取れた精度を示す。 この新しい技術により、心房細動に対する計算モデルのより高速で正確な臨床応用が可能になることを願っている。

Computational models of atrial fibrillation have successfully been used to predict optimal ablation sites. A critical step to assess the effect of an ablation pattern is to pace the model from different, potentially random, locations to determine whether arrhythmias can be induced in the atria. In this work, we propose to use multi-fidelity Gaussian process classification on Riemannian manifolds to efficiently determine the regions in the atria where arrhythmias are inducible. We build a probabilistic classifier that operates directly on the atrial surface. We take advantage of lower resolution models to explore the atrial surface and combine seamlessly with high-resolution models to identify regions of inducibility. When trained with 40 samples, our multi-fidelity classifier shows a balanced accuracy that is 10% higher than a nearest neighbor classifier used as a baseline atrial fibrillation model, and 9% higher in presence of atrial fibrillation with ablations. We hope that this new technique will allow faster and more precise clinical applications of computational models for atrial fibrillation.
翻訳日:2021-12-16 17:25:53 公開日:2021-12-15
# 回路アーキテクチャと機械学習アルゴリズムの進歩によるアナログ・混合信号回路合成

Analog/Mixed-Signal Circuit Synthesis Enabled by the Advancements of Circuit Architectures and Machine Learning Algorithms ( http://arxiv.org/abs/2112.07824v1 )

ライセンス: Link先を確認
Shiyu Su, Qiaochu Zhang, Mohsen Hassanpourghadi, Juzheng Liu, Rezwan A Rasul, and Mike Shuo-Wei Chen(参考訳) アナログ混合信号(AMS)回路アーキテクチャは、技術スケーリングとより高い柔軟性/再構成性への需要により、よりデジタルフレンドリーに進化してきた。 一方、AMS回路の設計複雑性とコストは、複雑なAMS回路の回路サイズ、レイアウト、検証を最適化する必要があるため、大幅に増大している。 一方、機械学習(ML)アルゴリズムは、過去10年間で指数関数的に成長しており、電子設計自動化(EDA)コミュニティによって積極的に活用されている。 本稿では、この傾向によってもたらされる機会と課題を明らかにし、ams回路アーキテクチャと機械学習アルゴリズムの最近の進化によって実現される、いくつかの新しいams設計手法について概説する。 具体的には,ニューラルネットワークを用いたサーロゲートモデルを用いて回路設計パラメータ探索とレイアウトイテレーションを高速化する。 最後に、AMS回路のいくつかの例を、仕様からシリコンプロトタイプまで迅速に合成し、人間の介入を大幅に削減する。

Analog mixed-signal (AMS) circuit architecture has evolved towards more digital friendly due to technology scaling and demand for higher flexibility/reconfigurability. Meanwhile, the design complexity and cost of AMS circuits has substantially increased due to the necessity of optimizing the circuit sizing, layout, and verification of a complex AMS circuit. On the other hand, machine learning (ML) algorithms have been under exponential growth over the past decade and actively exploited by the electronic design automation (EDA) community. This paper will identify the opportunities and challenges brought about by this trend and overview several emerging AMS design methodologies that are enabled by the recent evolution of AMS circuit architectures and machine learning algorithms. Specifically, we will focus on using neural-network-based surrogate models to expedite the circuit design parameter search and layout iterations. Lastly, we will demonstrate the rapid synthesis of several AMS circuit examples from specification to silicon prototype, with significantly reduced human intervention.
翻訳日:2021-12-16 17:25:22 公開日:2021-12-15
# TAFA:時間近似アーキテクチャを用いたアナログ混合信号FIRフィルタの設計自動化

TAFA: Design Automation of Analog Mixed-Signal FIR Filters Using Time Approximation Architecture ( http://arxiv.org/abs/2112.07825v1 )

ライセンス: Link先を確認
Shiyu Su, Qiaochu Zhang, Juzheng Liu, Mohsen Hassanpourghadi, Rezwan Rasul, and Mike Shuo-Wei Chen(参考訳) デジタル回路のCADサポートにより,デジタル有限インパルス応答(FIR)フィルタの設計は完全に合成可能である。 対照的に、アナログ混合信号(ams)フィルタの設計は、アーキテクチャの選択、設計、レイアウトを含む、主に手動のプロセスである。 本研究は,スイッチトキャパシタや抵抗器などの可変パッシブコンポーネントを必要とせず,時間近似アーキテクチャを用いてams firフィルタ設計を自動化するシステム設計手法を提案する。 フィルタの柔軟性を高めるだけでなく、アナログの複雑さを減らして設計の自動化を促進する。 提案した設計フローは,時間量子化効果を考慮したフィルタのインパルス応答を自動的に最適化するハイブリッド近似方式を特徴とする。 さらに、勾配に基づく探索アルゴリズムと組み合わせて、人工ニューラルネットワーク(ann)に基づくレイアウト認識回帰モデルを用いて、フィルタ設計の自動化と高速化を行う。 提案手法では,65nmプロセスにおけるAMS FIRフィルタの高速な合成を仕様からレイアウトまで示す。

A digital finite impulse response (FIR) filter design is fully synthesizable, thanks to the mature CAD support of digital circuitry. On the contrary, analog mixed-signal (AMS) filter design is mostly a manual process, including architecture selection, schematic design, and layout. This work presents a systematic design methodology to automate AMS FIR filter design using a time approximation architecture without any tunable passive component, such as switched capacitor or resistor. It not only enhances the flexibility of the filter but also facilitates design automation with reduced analog complexity. The proposed design flow features a hybrid approximation scheme that automatically optimize the filter's impulse response in light of time quantization effects, which shows significant performance improvement with minimum designer's efforts in the loop. Additionally, a layout-aware regression model based on an artificial neural network (ANN), in combination with gradient-based search algorithm, is used to automate and expedite the filter design. With the proposed framework, we demonstrate rapid synthesis of AMS FIR filters in 65nm process from specification to layout.
翻訳日:2021-12-16 17:25:06 公開日:2021-12-15
# 圧縮センシングを用いた通信効率の良い分散SGD

Communication-Efficient Distributed SGD with Compressed Sensing ( http://arxiv.org/abs/2112.07836v1 )

ライセンス: Link先を確認
Yujie Tang, Vikram Ramanathan, Junshan Zhang, Na Li(参考訳) 中央サーバに接続された一連のエッジデバイスに対する大規模分散最適化について検討し,サーバとエッジデバイス間の通信帯域の制限が最適化手順に重大なボトルネックを課す。 近年のフェデレート学習の進歩に触発されて,通信負担を軽減するために,分散確率勾配降下(SGD)型アルゴリズムを提案する。 アルゴリズムの核心は、デバイス側で局所確率勾配を圧縮するために圧縮センシング技術を使用することであり、サーバ側では、ノイズの多い集約圧縮局所勾配から大域的確率勾配のスパース近似を回復する。 我々は,通信チャネルによって発生する雑音摂動の存在下でのアルゴリズムの収束に関する理論的解析を行い,その効果を裏付ける数値実験を行う。

We consider large scale distributed optimization over a set of edge devices connected to a central server, where the limited communication bandwidth between the server and edge devices imposes a significant bottleneck for the optimization procedure. Inspired by recent advances in federated learning, we propose a distributed stochastic gradient descent (SGD) type algorithm that exploits the sparsity of the gradient, when possible, to reduce communication burden. At the heart of the algorithm is to use compressed sensing techniques for the compression of the local stochastic gradients at the device side; and at the server side, a sparse approximation of the global stochastic gradient is recovered from the noisy aggregated compressed local gradients. We conduct theoretical analysis on the convergence of our algorithm in the presence of noise perturbation incurred by the communication channels, and also conduct numerical experiments to corroborate its effectiveness.
翻訳日:2021-12-16 17:24:47 公開日:2021-12-15
# EDAsistant: In-Situ Code Search and Recommendationによる計算ノートの探索データ解析支援

EDAssistant: Supporting Exploratory Data Analysis in Computational Notebooks with In-Situ Code Search and Recommendation ( http://arxiv.org/abs/2112.07858v1 )

ライセンス: Link先を確認
Xingjun Li, Yizhi Zhang, Justin Leung, Chengnian Sun, Jian Zhao(参考訳) 計算ノート(例えばJupyter Notebook)を用いて、データサイエンティストは以前の経験とオンライン例のような外部知識に基づいて探索データ分析(EDA)を合理化する。 初心者やデータサイエンティストが、データセットや調査する問題に関する特定の知識を欠いている場合、外部情報を効果的に取得し、理解することがedaの実行に不可欠である。 本稿では,サンプルノートをその場で検索し,有用なapiを推薦する機能を備えたjupyterlab拡張であるed assistantを提案する。 コード検索とレコメンデーションは、オンラインに収集された大量のEDAノートブックでトレーニングされた最先端の機械学習モデルによって実現される。 ユーザスタディは、EDAとデータサイエンティストの現在の実践(例えば、外部検索エンジン)を調査するために行われる。 以上の結果から, 参加者は, EDAのスムーズでコンテクスト内サポートを高く評価し, 有効性と有用性を示した。 また、コードレコメンデーションツールに関するいくつかの設計上の意味を報告します。

Using computational notebooks (e.g., Jupyter Notebook), data scientists rationalize their exploratory data analysis (EDA) based on their prior experience and external knowledge such as online examples. For novices or data scientists who lack specific knowledge about the dataset or problem to investigate, effectively obtaining and understanding the external information is critical to carry out EDA. This paper presents EDAssistant, a JupyterLab extension that supports EDA with in-situ search of example notebooks and recommendation of useful APIs, powered by novel interactive visualization of search results. The code search and recommendation are enabled by state-of-the-art machine learning models, trained on a large corpus of EDA notebooks collected online. A user study is conducted to investigate both EDAssistant and data scientists' current practice (i.e., using external search engines). The results demonstrate the effectiveness and usefulness of EDAssistant, and participants appreciated its smooth and in-context support of EDA. We also report several design implications regarding code recommendation tools.
翻訳日:2021-12-16 17:23:06 公開日:2021-12-15
# エッジフォッグクラウド型医療用インターネットにおけるエネルギー効率の高いリアルタイム心臓モニタリング

Energy-Efficient Real-Time Heart Monitoring on Edge-Fog-Cloud Internet-of-Medical-Things ( http://arxiv.org/abs/2112.07901v1 )

ライセンス: Link先を確認
Berken Utku Demirel, Islam Abdelsalam Bayoumy, Mohammad Abdullah Al Faruque(参考訳) 近年のウェアラブルデバイスとIoT(Internet of Medical Things)の発展により、心電図(ECG)信号のリアルタイムモニタリングと記録が可能になった。 しかし、エネルギーとメモリの制約により、低消費電力のウェアラブルデバイスではECG信号の継続的な監視は困難である。 そこで本稿では,低消費電力ウェアラブルデバイスの心臓を連続的に監視するための新しいエネルギー効率の高い手法を提案する。 提案手法は3つの異なる層から構成される。 1)ECG信号の品質を向上するノイズ/アーチファクト検出層 2)ecg信号の異常を検出する正規/異常ビート分類層、及び 3)心電図信号から疾患を検出する異常ビート分類層。 さらに、エッジフォッグ/クラウド間のエネルギー消費と遅延を低減するために、分散マルチ出力畳み込みニューラルネットワーク(CNN)アーキテクチャを使用する。 本手法はmit-bih不整脈データセット上で99.2%の精度に達する。 実ハードウェアの評価は,最小ramが32kbのデバイスに適していることを示す。 さらに, 提案手法は, 最先端技術に比べてエネルギー効率が 7 倍に向上する。

The recent developments in wearable devices and the Internet of Medical Things (IoMT) allow real-time monitoring and recording of electrocardiogram (ECG) signals. However, continuous monitoring of ECG signals is challenging in low-power wearable devices due to energy and memory constraints. Therefore, in this paper, we present a novel and energy-efficient methodology for continuously monitoring the heart for low-power wearable devices. The proposed methodology is composed of three different layers: 1) a Noise/Artifact detection layer to grade the quality of the ECG signals; 2) a Normal/Abnormal beat classification layer to detect the anomalies in the ECG signals, and 3) an Abnormal beat classification layer to detect diseases from ECG signals. Moreover, a distributed multi-output Convolutional Neural Network (CNN) architecture is used to decrease the energy consumption and latency between the edge-fog/cloud. Our methodology reaches an accuracy of 99.2% on the well-known MIT-BIH Arrhythmia dataset. Evaluation on real hardware shows that our methodology is suitable for devices having a minimum RAM of 32KB. Moreover, the proposed methodology achieves $7\times$ more energy efficiency compared to state-of-the-art works.
翻訳日:2021-12-16 17:22:46 公開日:2021-12-15
# 最大コレントロピー基準に基づく位相雑音の存在下におけるチャネルパラメータ推定

Channel Parameter Estimation in the Presence of Phase Noise Based on Maximum Correntropy Criterion ( http://arxiv.org/abs/2112.07955v1 )

ライセンス: Link先を確認
Amir Alizadeh and Ghosheh Abed Hodtani(参考訳) 振動子出力は一般に位相ノイズを持ち、出力電力スペクトル密度(PSD)はディラックデルタ関数の周りに分散する。 本稿では,位相雑音に伴う送信信号がガウス雑音に付加され受信機で受信されるAWGNチャネルについて検討する。 平均二乗(LMS)や平均MSE基準のような従来のチャネル推定アルゴリズムはこのチャネル推定には適さない。 私たち (i)この位相雑音チャネル推定を情報理論学習(itl)基準、すなわち最大コレントロピー基準(mcc)を用いて分析することにより、チャネル推定器の定常状態挙動のロバスト性が導かれる。 2) 新しい混合LMSアルゴリズムとして, MSEとMCCを組み合わせることにより収束率を向上させる。

Oscillator output generally has phase noise causing the output power spectral density (PSD) to disperse around a Dirac delta function. In this paper, the AWGN channel is considered, where the sent signal accompanying with phase noise is added to the channel Gaussian noise and received at the receiver. Conventional channel estimation algorithms such as least mean square (LMS) and mean MSE criterion are not suitable for this channel estimation. We (i) analyze this phase noise channel estimation with information theoretic learning (ITL) criterion, i.e., maximum correntropy criterion (MCC), leading to robustness in the channel estimator's steady state behavior; and (ii) improve the convergence rate by combining MSE and MCC as a novel mixed-LMS algorithm.
翻訳日:2021-12-16 17:22:30 公開日:2021-12-15
# マルチモーダルネットワークによるテロ組織の運用の類似性

Multi-modal Networks Reveal Patterns of Operational Similarity of Terrorist Organizations ( http://arxiv.org/abs/2112.07998v1 )

ライセンス: Link先を確認
Gian Maria Campedelli, Iain J. Cruickshank, Kathleen M. Carley(参考訳) テロ集団間の作戦的類似性のダイナミクスを捉えることは、テロ対策と情報監視に有効な洞察を提供するために重要である。 しかし、その理論的かつ実用的な妥当性にもかかわらず、この問題に対する研究は現在不足している。 我々は、同様の行動を共有するテロリスト集団のクラスターを検出するための新しい計算枠組みを提案し、集団が毎年展開する戦術のレパートリー、攻撃対象、武器の利用に焦点をあてる。 特に、1997年から2018年にかけて少なくとも50件の攻撃を企てた組織を考慮に入れ、全世界で4万2000件以上のイベントに責任を持つ105団体を計上し、3セットの結果を提示する。 まず、長年にわたり世界のテロリズムは、運用上の結束性の向上によって特徴付けられてきたことを示す。 第2に、グループ間のコクラスタリングの年々の安定性は2009年から2018年にかけて特に高く、過去10年間の類似パターンの時間的一貫性を示している。 第3に,2つの組織間の運用上の類似性には3つの要因がある。 (a) 総合的な活動 b) 運用上のレパートリーの多様性の相違 (c)多様性と活動の総合的な尺度の違い グループの操作的嗜好、地理的ホモフィリー、イデオロギー的親和性は、操作的類似性を決定する上で一貫した役割を持たない。

Capturing dynamics of operational similarity among terrorist groups is critical to provide actionable insights for counter-terrorism and intelligence monitoring. Yet, in spite of its theoretical and practical relevance, research addressing this problem is currently lacking. We tackle this problem proposing a novel computational framework for detecting clusters of terrorist groups sharing similar behaviors, focusing on groups' yearly repertoire of deployed tactics, attacked targets, and utilized weapons. Specifically considering those organizations that have plotted at least 50 attacks from 1997 to 2018, accounting for a total of 105 groups responsible for more than 42,000 events worldwide, we offer three sets of results. First, we show that over the years global terrorism has been characterized by increasing operational cohesiveness. Second, we highlight that year-to-year stability in co-clustering among groups has been particularly high from 2009 to 2018, indicating temporal consistency of similarity patterns in the last decade. Third, we demonstrate that operational similarity between two organizations is driven by three factors: (a) their overall activity; (b) the difference in the diversity of their operational repertoires; (c) the difference in a combined measure of diversity and activity. Groups' operational preferences, geographical homophily and ideological affinity have no consistent role in determining operational similarity.
翻訳日:2021-12-16 17:22:14 公開日:2021-12-15
# 凸制約による最適化問題に対するDNNソリューションの実現とその直流最適潮流問題への応用

Ensuring DNN Solution Feasibility for Optimization Problems with Convex Constraints and Its Application to DC Optimal Power Flow Problems ( http://arxiv.org/abs/2112.08091v1 )

ライセンス: Link先を確認
Tianyu Zhao, Xiang Pan, Minghua Chen, and Steven H. Low(参考訳) ソリューションの実現性を保証することは、制約付き最適化問題を解決するためのDeep Neural Network (DNN) スキームを開発する上で重要な課題である。 本稿では,凸制約や汎用関数といった問題に対するDNNソリューションの実現性を体系的に保証する「予防学習」フレームワークを提案する。 まず,等価制約の保証だけでなく,dnn が予測する変数数を削減するために,予測・再構成設計を適用する。 そこで本研究では,DNNトレーニングにおける不等式制約を体系的に校正し,予測誤差を予測し,結果の解決を確実にする。 キャリブレーションサイズとDNNサイズを特徴付けることで,汎用性を確保する。 実現可能性保証を犠牲にすることなく,dnnの最適性性能を向上させるための新しい逆サンプル認識学習アルゴリズムを提案する。 全体として、フレームワークは2つのDNNを提供する。 十分なDNNサイズを特徴付けることによる1つは、普遍的実現性を保証する一方で、提案したトレーニングアルゴリズムのもう1つは、最適化をさらに改善し、DNNの普遍的実現性を同時に維持する。 本稿では,グリッド動作における直流最適潮流問題に対するDeepOPF+の開発に予防学習フレームワークを適用した。 既存のDNNベースのスキームを改良し、実現可能性を確保し、軽量と重負荷の両方で一貫したスピードアップ性能を実現する。 IEEE Case-30/118/300テストケースのシミュレーション結果から、DeepOPF+は、最先端反復解法と比較して、$<0.5%の最適性損失と最大2桁の計算スピードアップで100\%の実現可能な解を生成することが示された。

Ensuring solution feasibility is a key challenge in developing Deep Neural Network (DNN) schemes for solving constrained optimization problems, due to inherent DNN prediction errors. In this paper, we propose a "preventive learning'" framework to systematically guarantee DNN solution feasibility for problems with convex constraints and general objective functions. We first apply a predict-and-reconstruct design to not only guarantee equality constraints but also exploit them to reduce the number of variables to be predicted by DNN. Then, as a key methodological contribution, we systematically calibrate inequality constraints used in DNN training, thereby anticipating prediction errors and ensuring the resulting solutions remain feasible. We characterize the calibration magnitudes and the DNN size sufficient for ensuring universal feasibility. We propose a new Adversary-Sample Aware training algorithm to improve DNN's optimality performance without sacrificing feasibility guarantee. Overall, the framework provides two DNNs. The first one from characterizing the sufficient DNN size can guarantee universal feasibility while the other from the proposed training algorithm further improves optimality and maintains DNN's universal feasibility simultaneously. We apply the preventive learning framework to develop DeepOPF+ for solving the essential DC optimal power flow problem in grid operation. It improves over existing DNN-based schemes in ensuring feasibility and attaining consistent desirable speedup performance in both light-load and heavy-load regimes. Simulation results over IEEE Case-30/118/300 test cases show that DeepOPF+ generates $100\%$ feasible solutions with $<$0.5% optimality loss and up to two orders of magnitude computational speedup, as compared to a state-of-the-art iterative solver.
翻訳日:2021-12-16 17:21:53 公開日:2021-12-15
# 楕円偏微分方程式に対する深部演算子の指数収束

Exponential Convergence of Deep Operator Networks for Elliptic Partial Differential Equations ( http://arxiv.org/abs/2112.08125v1 )

ライセンス: Link先を確認
Carlo Marcati and Christoph Schwab(参考訳) 楕円型二階PDEの係数対解写像の指数収束率でエミュレートする無限次元空間間の深い作用素ネットワーク(ONets)を構築する。 特に、d$-dimensional periodic domain, $d=1, 2, \dots$, and with analytic right-hand side and coefficients に設定された問題を考える。 異種材料における拡散反応問題,パラメトリック拡散方程式,線形等方性エラストスタシスなどの楕円系について検討した。 解析的解を持つ境界値問題に対してスペクトルコロケーション法の指数収束を利用する。 現在の周期的および解析的設定では、これは古典楕円正則性から従う。 ONetブランチと[Chen and Chen, 1993] および [Lu et al., 2021] のトランク構成では、係数対解写像を正確に$H^1$ノルムで$\varepsilon>0$にエミュレートするディープオネットの存在を示す。 我々は、onet内のニューラルネットワークが、物理空間次元に応じて$\kappa>0$のいくつかの値に対して$\mathcal{o}(\left|\log(\varepsilon)\right|^\kappa)$を持つことを証明する。

We construct deep operator networks (ONets) between infinite-dimensional spaces that emulate with an exponential rate of convergence the coefficient-to-solution map of elliptic second-order PDEs. In particular, we consider problems set in $d$-dimensional periodic domains, $d=1, 2, \dots$, and with analytic right-hand sides and coefficients. Our analysis covers diffusion-reaction problems, parametric diffusion equations, and elliptic systems such as linear isotropic elastostatics in heterogeneous materials. We leverage the exponential convergence of spectral collocation methods for boundary value problems whose solutions are analytic. In the present periodic and analytic setting, this follows from classical elliptic regularity. Within the ONet branch and trunk construction of [Chen and Chen, 1993] and of [Lu et al., 2021], we show the existence of deep ONets which emulate the coefficient-to-solution map to accuracy $\varepsilon>0$ in the $H^1$ norm, uniformly over the coefficient set. We prove that the neural networks in the ONet have size $\mathcal{O}(\left|\log(\varepsilon)\right|^\kappa)$ for some $\kappa>0$ depending on the physical space dimension.
翻訳日:2021-12-16 17:19:49 公開日:2021-12-15
# チンパンジーの音声プリント? 人声からの伝達学習実験からの洞察

Chimpanzee voice prints? Insights from transfer learning experiments from human voices ( http://arxiv.org/abs/2112.08165v1 )

ライセンス: Link先を確認
Mael Leroux, Orestes Gutierrez Al-Khudhairy, Nicolas Perony, Simon W. Townsend(参考訳) 個々の声の差は動物界で広く見られる。 人間では、これらの違いは声のレパートリー全体に浸透し、「声のプリント」を構成する。 近親類である類人猿は、特定の呼び出しタイプ内で個々のシグネチャを持っているが、ユニークな音声プリントの可能性はほとんど調査されていない。 これは部分的には、小さなデータセットから有意義な特徴を抽出することに関連する制限に起因する。 機械学習の進歩は、従来の音響的特徴の代替、すなわち事前訓練された学習抽出器を強調している。 本稿では,1万点以上の人間の音声プリントをトレーニングしたディープニューラルネットワークに基づく特徴抽出器を利用して,チンパンジーの音声プリントを識別する情報空間を提供する。 従来の音響的特徴を用いた結果と比較し,非ヒト動物における「声紋」の同定における方法論の利点と意義について考察した。

Individual vocal differences are ubiquitous in the animal kingdom. In humans, these differences pervade the entire vocal repertoire and constitute a "voice print". Apes, our closest-living relatives, possess individual signatures within specific call types, but the potential for a unique voice print has been little investigated. This is partially attributed to the limitations associated with extracting meaningful features from small data sets. Advances in machine learning have highlighted an alternative to traditional acoustic features, namely pre-trained learnt extractors. Here, we present an approach building on these developments: leveraging a feature extractor based on a deep neural network trained on over 10,000 human voice prints to provide an informative space over which we identify chimpanzee voice prints. We compare our results with those obtained by using traditional acoustic features and discuss the benefits of our methodology and the significance of our findings for the identification of "voice prints" in non-human animals.
翻訳日:2021-12-16 17:19:26 公開日:2021-12-15
# スマートセンサによる業務管理の強化:ロジスティクスワーカーの幸福感,インタラクション,パフォーマンスの測定と改善

Enhancing operations management through smart sensors: measuring and improving well-being, interaction and performance of logistics workers ( http://arxiv.org/abs/2112.08213v1 )

ライセンス: Link先を確認
D. Aloini, A. Fronzetti Colladon, P. Gloor, E. Guerrazzi, A. Stefanini(参考訳) 目的 この研究の目的は、イタリアの物流ハブの物質処理活動について探索的な調査を行うことである。 ウェアラブルセンサーやその他のスマートツールが作業中の人間や環境の特徴の収集に使用された。 これらの要因は、労働者のパフォーマンスや幸福度と相関した。 人的・環境的要因は, 従業員のパフォーマンス, 幸福, 安全に大きな影響を与えるため, 経営管理活動において重要な役割を担っている。 驚くべきことに、こうした側面が物流事業に与える影響に関する実証研究は、いまだに限られている。 このギャップを埋めようと、この研究は、スマートツールを活用するロジスティクスワーカーのパフォーマンスに影響を与える人間と環境の要因を実証的に探求した。 その結果、人間の態度、相互作用、感情、環境条件は、労働者のパフォーマンスや幸福に著しく影響を与え、それぞれの労働者の個性によって異なる関係を示すことが示唆された。 実践的な意味 著者の研究は、従業員をプロファイリングし、個人化された人材管理を採用するための新しい道を開き、管理者に労働者の幸福とパフォーマンスを潜在的にチェックし改善できる運用システムを提供する。 原点/価値 この研究の原点は、個人、協力的、および環境データをリアルタイムで記録することによって、作業中に人体と環境要素の詳細な調査から来ています。 著者の知る限りでは,実世界の物流業務においてこのような詳細な分析が実施されたのは,本論文が初めてである。

Purpose The purpose of the research is to conduct an exploratory investigation of the material handling activities of an Italian logistics hub. Wearable sensors and other smart tools were used for collecting human and environmental features during working activities. These factors were correlated with workers' performance and well-being. Design/methodology/approach Human and environmental factors play an important role in operations management activities since they significantly influence employees' performance, well-being and safety. Surprisingly, empirical studies about the impact of such aspects on logistics operations are still very limited. Trying to fill this gap, the research empirically explores human and environmental factors affecting the performance of logistics workers exploiting smart tools. Findings Results suggest that human attitudes, interactions, emotions and environmental conditions remarkably influence workers' performance and well-being, however, showing different relationships depending on individual characteristics of each worker. Practical implications The authors' research opens up new avenues for profiling employees and adopting an individualized human resource management, providing managers with an operational system capable to potentially check and improve workers' well-being and performance. Originality/value The originality of the study comes from the in-depth exploration of human and environmental factors using body-worn sensors during work activities, by recording individual, collaborative and environmental data in real-time. To the best of the authors' knowledge, the current paper is the first time that such a detailed analysis has been carried out in real-world logistics operations.
翻訳日:2021-12-16 17:19:11 公開日:2021-12-15
# 不完全学習ダイナミクスの存在下での保証された収縮制御

Guaranteed Contraction Control in the Presence of Imperfectly Learned Dynamics ( http://arxiv.org/abs/2112.08222v1 )

ライセンス: Link先を確認
Pan Zhao, Ziyao Guo, Yikun Cheng, Aditya Gahlawat and Naira Hovakimyan(参考訳) 本稿では,不確かさに適合する非線形システムの収縮メトリックと外乱推定に基づく軌道中心学習制御のアプローチを提案する。 このアプローチでは、ディープニューラルネットワークを含む幅広いモデルの学習ツールを使用して、不確実なダイナミクスを学習すると同時に、学習のない特別なケースを含む学習フェーズ全体を通して、過渡的なトラッキングパフォーマンスの保証を提供する。 提案手法では,事前計算可能な推定誤差境界(eebs)を用いて不確かさのポイントワイズ値を推定するために外乱推定法が提案されている。 学習されたダイナミクス、推定された外乱、およびeebは、学習されたモデルが貧弱であっても、学習フェーズを通じて所望の軌道が所望の軌道に指数収束することを保証する制御則を計算するために、強固なリーマンエネルギー条件に組み込まれている。 一方、精度の向上により、学習したモデルを高レベルプランナーに組み込むことで、より優れた軌道計画、例えば、エネルギー消費量の低減や旅行時間の短縮など、性能の向上を図ることができる。 提案されたフレームワークは、平面四角形ナビゲーションの例で検証される。

This paper presents an approach for trajectory-centric learning control based on contraction metrics and disturbance estimation for nonlinear systems subject to matched uncertainties. The approach allows for the use of a broad class of model learning tools including deep neural networks to learn uncertain dynamics while still providing guarantees of transient tracking performance throughout the learning phase, including the special case of no learning. Within the proposed approach, a disturbance estimation law is proposed to estimate the pointwise value of the uncertainty, with pre-computable estimation error bounds (EEBs). The learned dynamics, the estimated disturbances, and the EEBs are then incorporated in a robust Riemannian energy condition to compute the control law that guarantees exponential convergence of actual trajectories to desired ones throughout the learning phase, even when the learned model is poor. On the other hand, with improved accuracy, the learned model can be incorporated in a high-level planner to plan better trajectories with improved performance, e.g., lower energy consumption and shorter travel time. The proposed framework is validated on a planar quadrotor navigation example.
翻訳日:2021-12-16 17:18:44 公開日:2021-12-15
# (参考訳) 対人訓練の収束性とロバスト性について

On the Convergence and Robustness of Adversarial Training ( http://arxiv.org/abs/2112.08304v1 )

ライセンス: CC BY 4.0
Yisen Wang, Xingjun Ma, James Bailey, Jinfeng Yi, Bowen Zhou, Quanquan Gu(参考訳) ディープニューラルネットワーク(DNN)の敵例に対する堅牢性を改善することは、セキュアなディープラーニングにとって重要な課題である。 既存の防衛技術以外にも、プロジェクテッド・グラディエント・デセント(PGD)による敵の訓練が最も効果的である。 比較学習は、分類損失を最大化して逆例を生成する \textit{inner maximization} と、内最大化から生成された逆例の損失を最小化してモデルパラメータを求める \textit{outer minimization} とを用いて、min-max最適化問題を解く。 したがって, 内面最大化の精度を測る基準は, 敵の訓練に不可欠である。 本稿では,制約付き最適化のための一階定常条件 (fosc) を提案し,内部最大化における逆例の収束品質を定量的に評価する。 FOSCでは、より堅牢性を確保するために、トレーニングの「textit{later stage}」において、より良い収束品質を持つ逆例を使用することが不可欠である。 しかし、初期段階では高いコンバージェンス品質の敵意は必要とせず、強固さを損なうこともある。 これらの観察に基づいて,生成した逆行例の収束品質を徐々に向上させ,逆行訓練のロバスト性を大幅に向上させる \textit{dynamic} トレーニング戦略を提案する。 その結果,提案手法の有効性が示唆された。

Improving the robustness of deep neural networks (DNNs) to adversarial examples is an important yet challenging problem for secure deep learning. Across existing defense techniques, adversarial training with Projected Gradient Decent (PGD) is amongst the most effective. Adversarial training solves a min-max optimization problem, with the \textit{inner maximization} generating adversarial examples by maximizing the classification loss, and the \textit{outer minimization} finding model parameters by minimizing the loss on adversarial examples generated from the inner maximization. A criterion that measures how well the inner maximization is solved is therefore crucial for adversarial training. In this paper, we propose such a criterion, namely First-Order Stationary Condition for constrained optimization (FOSC), to quantitatively evaluate the convergence quality of adversarial examples found in the inner maximization. With FOSC, we find that to ensure better robustness, it is essential to use adversarial examples with better convergence quality at the \textit{later stages} of training. Yet at the early stages, high convergence quality adversarial examples are not necessary and may even lead to poor robustness. Based on these observations, we propose a \textit{dynamic} training strategy to gradually increase the convergence quality of the generated adversarial examples, which significantly improves the robustness of adversarial training. Our theoretical and empirical results show the effectiveness of the proposed method.
翻訳日:2021-12-16 17:17:56 公開日:2021-12-15
# HyObscure: プライバシ保護データパブリッシングのためのハイブリッドオブスカー

HyObscure: Hybrid Obscuring for Privacy-Preserving Data Publishing ( http://arxiv.org/abs/2112.07850v1 )

ライセンス: Link先を確認
Xiao Han and Yuncong Yang and Junjie Wu(参考訳) データユーティリティを確保しながらプライバシリークを最小限に抑えることは、プライバシ保存データパブリッシングタスクにおけるデータホルダーにとって重要な問題である。 以前のほとんどの研究は、1つのタイプのデータのみに関係しており、実際の異種データを保護するには不十分で、常に成長する機械学習ベースの推論攻撃を防御するのは難しいプライバシ利用のトレードオフを達成するために、1つの難解な方法である \eg, obfuscation, generalizationを頼りにしている。 この研究は、一般化と難読化の両方の操作が異種データ保護に使用される場合、プライバシ保存データパブリッシングに関するパイロット研究を行う。 この目的のために、我々はまずプライバシとユーティリティの定量化のための新しい対策を提案し、一般化と難読化の連立効果を考慮したハイブリッドプライバシ保存データオブシュークリング問題を定式化する。 次にHyObscureと呼ばれる新しいハイブリッド保護機構を設計し、特定のユーティリティ保証の下での最大プライバシー保護のための一般化と難読化操作を相互に最適化する。 反復過程の収束とHyObscureのプライバシー漏洩境界も理論上提供される。 広範囲な実験により、ハイオブスキュアは様々なシナリオで様々な推論攻撃に直面した際に、様々な最先端のベースラインメソッドを大きく上回っていることが示されている。 HyObscureはまた、データサイズに線形にスケールし、異なるキーパラメータで堅牢に振る舞う。

Minimizing privacy leakage while ensuring data utility is a critical problem to data holders in a privacy-preserving data publishing task. Most prior research concerns only with one type of data and resorts to a single obscuring method, \eg, obfuscation or generalization, to achieve a privacy-utility tradeoff, which is inadequate for protecting real-life heterogeneous data and is hard to defend ever-growing machine learning based inference attacks. This work takes a pilot study on privacy-preserving data publishing when both generalization and obfuscation operations are employed for heterogeneous data protection. To this end, we first propose novel measures for privacy and utility quantification and formulate the hybrid privacy-preserving data obscuring problem to account for the joint effect of generalization and obfuscation. We then design a novel hybrid protection mechanism called HyObscure, to cross-iteratively optimize the generalization and obfuscation operations for maximum privacy protection under a certain utility guarantee. The convergence of the iterative process and the privacy leakage bound of HyObscure are also provided in theory. Extensive experiments demonstrate that HyObscure significantly outperforms a variety of state-of-the-art baseline methods when facing various inference attacks under different scenarios. HyObscure also scales linearly to the data size and behaves robustly with varying key parameters.
翻訳日:2021-12-16 16:51:23 公開日:2021-12-15
# 生体ニューロンとシナプスによる計画

Planning with Biological Neurons and Synapses ( http://arxiv.org/abs/2112.08186v1 )

ライセンス: Link先を確認
Francesco d'Amore, Daniel Mitropolsky, Pierluigi Crescenzi, Emanuele Natale, Christos H. Papadimitriou(参考訳) 我々はブロック世界の計画問題を再考し、この課題に対して既知のヒューリスティックを実装した。 重要なことに、我々の実装は、ニューロンのスパイクによってのみ実行されるという意味で、生物学的に妥当である。 過去50年にわたってブロック世界で多くのことが達成されてきたが、この種のアルゴリズムはこれが最初のものであると信じている。 入力はブロックスタックの初期セットとターゲットセットをエンコードするシンボルのシーケンスであり、出力は '`put the top block in the stack 1 on the table'' のような動作コマンドのシーケンスである。 これは、最近提案された計算フレームワークで、神経活動と認知機能の間のギャップを埋めることで脳内の計算をモデル化することを目的としている。 その基本的な対象はニューロンのアセンブリ(被験者がオブジェクト、概念、単語などについて考えていることを示す同時発火の安定的なニューロンの集合)であり、そのコマンドにはプロジェクトとマージが含まれ、実行モデルは広く受け入れられた神経科学のテネットに基づいている。 この枠組みのプログラムは基本的にニューロンとシナプスの力学系を構築し、最終的には高い確率でタスクを達成する。 この研究の目的は、アセンブリ計算における合理的に大きなプログラムが正しく確実に実行できることを実証的に確立することであり、ブロック世界の計画のような高度な認知機能(理想化されていれば)は、そのようなプログラムによってうまく実装できる。

We revisit the planning problem in the blocks world, and we implement a known heuristic for this task. Importantly, our implementation is biologically plausible, in the sense that it is carried out exclusively through the spiking of neurons. Even though much has been accomplished in the blocks world over the past five decades, we believe that this is the first algorithm of its kind. The input is a sequence of symbols encoding an initial set of block stacks as well as a target set, and the output is a sequence of motion commands such as ``put the top block in stack 1 on the table''. The program is written in the Assembly Calculus, a recently proposed computational framework meant to model computation in the brain by bridging the gap between neural activity and cognitive function. Its elementary objects are assemblies of neurons (stable sets of neurons whose simultaneous firing signifies that the subject is thinking of an object, concept, word, etc.), its commands include project and merge, and its execution model is based on widely accepted tenets of neuroscience. A program in this framework essentially sets up a dynamical system of neurons and synapses that eventually, with high probability, accomplishes the task. The purpose of this work is to establish empirically that reasonably large programs in the Assembly Calculus can execute correctly and reliably; and that rather realistic -- if idealized -- higher cognitive functions, such as planning in the blocks world, can be implemented successfully by such programs.
翻訳日:2021-12-16 16:50:57 公開日:2021-12-15
# 変装音声における感情状態における話者識別のための複数特徴抽出手法の活用

The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices ( http://arxiv.org/abs/2112.07940v1 )

ライセンス: Link先を確認
Noor Ahmad Al Hindawi, Ismail Shahin, Ali Bou Nassif(参考訳) 人工知能の改良により、話者識別(SI)技術は大きな方向性をもたらし、現在では様々な分野で広く使われている。 SIの最も重要なコンポーネントの1つは特徴抽出であり、SIプロセスとパフォーマンスに大きな影響を与える。 その結果、多くの特徴抽出戦略が徹底的に研究され、対比され、分析された。 本稿では,感情環境下での疑似音声における話者識別のための特徴抽出手法を5つ活用する。 この研究を著しく評価するために、高ピッチ、低ピッチ、電子音声変換(EVC)の3つの効果が使用される。 実験結果から,MFCC,MFCCs-delta,MFCCs-deltaが最高の特徴抽出法であることがわかった。

Due to improvements in artificial intelligence, speaker identification (SI) technologies have brought a great direction and are now widely used in a variety of sectors. One of the most important components of SI is feature extraction, which has a substantial impact on the SI process and performance. As a result, numerous feature extraction strategies are thoroughly investigated, contrasted, and analyzed. This article exploits five distinct feature extraction methods for speaker identification in disguised voices under emotional environments. To evaluate this work significantly, three effects are used: high-pitched, low-pitched, and Electronic Voice Conversion (EVC). Experimental results reported that the concatenated Mel-Frequency Cepstral Coefficients (MFCCs), MFCCs-delta, and MFCCs-delta-delta is the best feature extraction method.
翻訳日:2021-12-16 16:50:10 公開日:2021-12-15
# マスクは私のプライバシーを守るのか? マスク付き顔画像から保護属性を予測するディープラーニング

Does a Face Mask Protect my Privacy?: Deep Learning to Predict Protected Attributes from Masked Face Images ( http://arxiv.org/abs/2112.07879v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Nuran Kasthuriarachchi, Sanka Rasnayaka, Danula Hettiachchi and Ridwan Shariffdeen(参考訳) 無接触で効率的なシステムは、新型コロナウイルスのパンデミックとの戦いの予防策を提唱するために急速に実装されている。 このようなシステムのプラスの利点にもかかわらず、ユーザーのプライバシーを侵害することで悪用される可能性がある。 本研究では,マスクされた顔画像を用いて,プライバシーに敏感な生体情報を予測することで,顔バイオメトリックシステムのプライバシー侵害性を分析する。 我々は,20,003個の合成マスク画像を用いたResNet-50アーキテクチャに基づくCNNのトレーニングと適用を行い,プライバシーの侵害性を測定する。 マスクを着用することによるプライバシー上のメリットは広く信じられているが,マスクを着用する場合のプライバシー侵害性には大きな違いはない。 実験では、マスク付き顔画像から性別(94.7%)、人種(83.1%)、年齢(mae 6.21およびrmse 8.33)を正確に予測することができた。 提案手法は,プライバシに敏感な情報を利用する人工知能システムのプライバシー侵害性を評価するためのベースラインユーティリティとして機能する。 我々は、再生産性と研究コミュニティによる幅広い利用に対するすべての貢献をオープンソースにしています。

Contactless and efficient systems are implemented rapidly to advocate preventive methods in the fight against the COVID-19 pandemic. Despite the positive benefits of such systems, there is potential for exploitation by invading user privacy. In this work, we analyse the privacy invasiveness of face biometric systems by predicting privacy-sensitive soft-biometrics using masked face images. We train and apply a CNN based on the ResNet-50 architecture with 20,003 synthetic masked images and measure the privacy invasiveness. Despite the popular belief of the privacy benefits of wearing a mask among people, we show that there is no significant difference to privacy invasiveness when a mask is worn. In our experiments we were able to accurately predict sex (94.7%),race (83.1%) and age (MAE 6.21 and RMSE 8.33) from masked face images. Our proposed approach can serve as a baseline utility to evaluate the privacy-invasiveness of artificial intelligence systems that make use of privacy-sensitive information. We open-source all contributions for re-producibility and broader use by the research community.
翻訳日:2021-12-16 16:49:28 公開日:2021-12-15
# 平面物体追跡のためのホログラフィ分解ネットワーク

Homography Decomposition Networks for Planar Object Tracking ( http://arxiv.org/abs/2112.07909v1 )

ライセンス: Link先を確認
Xinrui Zhan, Yueran Liu, Jianke Zhu, Yang Li(参考訳) 平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。 以前の平面トラッカーは、ほとんどのシナリオでうまく機能するが、高速な動きと2つの連続するフレーム間の大きな変換のため、依然として困難な作業である。 この問題の根本原因は、ホモグラフィパラメータ空間の探索範囲が大きくなると、そのような非線形システムの条件数が不安定に変化することである。 そこで本研究では,ホモグラフィ変換を2つのグループに分解することにより,条件数を大幅に削減し安定化する新しいホモグラフィ分解ネットワーク(hdn)を提案する。 特に、類似性変換推定器は、深い畳み込み同変ネットワークによって第一群をロバストに予測するように設計されている。 スケールと回転推定を高い信頼度で活用することにより、簡単な回帰モデルにより残留変換を推定する。 さらに、提案するエンドツーエンドネットワークを半教師付き方式でトレーニングする。 大規模な実験により,提案手法は,挑戦的なPOT,UCSB,POICデータセットに対して,最先端の平面追跡手法よりも高い性能を示した。

Planar object tracking plays an important role in AI applications, such as robotics, visual servoing, and visual SLAM. Although the previous planar trackers work well in most scenarios, it is still a challenging task due to the rapid motion and large transformation between two consecutive frames. The essential reason behind this problem is that the condition number of such a non-linear system changes unstably when the searching range of the homography parameter space becomes larger. To this end, we propose a novel Homography Decomposition Networks~(HDN) approach that drastically reduces and stabilizes the condition number by decomposing the homography transformation into two groups. Specifically, a similarity transformation estimator is designed to predict the first group robustly by a deep convolution equivariant network. By taking advantage of the scale and rotation estimation with high confidence, a residual transformation is estimated by a simple regression model. Furthermore, the proposed end-to-end network is trained in a semi-supervised fashion. Extensive experiments show that our proposed approach outperforms the state-of-the-art planar tracking methods at a large margin on the challenging POT, UCSB and POIC datasets.
翻訳日:2021-12-16 16:49:09 公開日:2021-12-15
# (参考訳) マルチパースペクティブ検索エンジンの設計課題

Design Challenges for a Multi-Perspective Search Engine ( http://arxiv.org/abs/2112.08357v1 )

ライセンス: CC BY-SA 4.0
Sihao Chen and Siyi Liu and Xander Uyttendaele and Yi Zhang and William Bruno and Dan Roth(参考訳) 多くのユーザーは文書検索システム(例えば検索エンジン)に目を向けて、議論の余地のある質問への回答を求める。 このようなユーザークエリに応答するには、通常、webドキュメント内の応答を識別し、異なる視点に基づいて応答を集約する必要がある。 古典的な文書検索システムは、ユーザへの直接的かつ多様な応答のセットの提供に不足している。 自然に、ドキュメント内でそのような応答を特定することは自然言語理解のタスクです。 本稿では,これらの言語理解目標を文書検索で合成する課題について検討し,新しい視点指向文書検索パラダイムについて検討する。 目的を達成するために,自然言語理解の課題を議論し,評価する。 設計上の課題と原則に従い,実用的なパイプラインシステムの実証と評価を行う。 プロトタイプシステムを用いてユーザ調査を行い,提案手法の有用性を評価し,議論を呼ぶ質問に対するユーザ情報のニーズを理解する。

Many users turn to document retrieval systems (e.g. search engines) to seek answers to controversial questions. Answering such user queries usually require identifying responses within web documents, and aggregating the responses based on their different perspectives. Classical document retrieval systems fall short at delivering a set of direct and diverse responses to the users. Naturally, identifying such responses within a document is a natural language understanding task. In this paper, we examine the challenges of synthesizing such language understanding objectives with document retrieval, and study a new perspective-oriented document retrieval paradigm. We discuss and assess the inherent natural language understanding challenges in order to achieve the goal. Following the design challenges and principles, we demonstrate and evaluate a practical prototype pipeline system. We use the prototype system to conduct a user survey in order to assess the utility of our paradigm, as well as understanding the user information needs for controversial queries.
翻訳日:2021-12-16 16:47:41 公開日:2021-12-15
# マルチモーダルシステムの共同需要予測:マルチタスク型時空間グラフニューラルネットワークアプローチ

Joint Demand Prediction for Multimodal Systems: A Multi-task Multi-relational Spatiotemporal Graph Neural Network Approach ( http://arxiv.org/abs/2112.08078v1 )

ライセンス: Link先を確認
Yuebing Liang and Guan Huang and Zhan Zhao(参考訳) 都市交通システムの効率的な運用と管理には動的需要予測が不可欠である。 異なる輸送モードの要求が相互に関連付けられるという事実を無視して、シングルモード需要予測に関する広範な研究が行われている。 近年の努力にもかかわらず、マルチモーダル需要予測の既存のアプローチは、様々な空間単位と異なるモードにまたがる不均質な時空間相関を持つ多重ネットワークを考慮できるほど柔軟ではない。 そこで本研究では,マルチモーダル需要予測のためのマルチリレーショナル時空間グラフニューラルネットワーク(st-mrgnn)を提案する。 具体的には、モード間の空間的依存関係を複数のモーダル内およびモーダル間関係グラフで符号化する。 マルチリレーショナルグラフニューラルネットワーク(MRGNN)を導入し、関係グラフ内のメッセージパッシング機構を学習するための一般化グラフ畳み込みネットワークと、異なる関係を要約するアグリゲーションモジュールからなる、クロスモードな異種空間依存を捕捉する。 さらにMRGNNと時間的ゲート畳み込み層を統合し、異種時空間相関をモデル化する。 ニューヨーク市から実世界の地下鉄および配車データセットを用いて広範な実験を行い,提案手法の既存手法に対する性能向上を検証した。 この改善は需要の少ない場所では特に大きい。 ST-MRGNNの注意機構のさらなる解析は、クロスモード相互作用を理解するための優れた解釈可能性を示す。

Dynamic demand prediction is crucial for the efficient operation and management of urban transportation systems. Extensive research has been conducted on single-mode demand prediction, ignoring the fact that the demands for different transportation modes can be correlated with each other. Despite some recent efforts, existing approaches to multimodal demand prediction are generally not flexible enough to account for multiplex networks with diverse spatial units and heterogeneous spatiotemporal correlations across different modes. To tackle these issues, this study proposes a multi-relational spatiotemporal graph neural network (ST-MRGNN) for multimodal demand prediction. Specifically, the spatial dependencies across modes are encoded with multiple intra- and inter-modal relation graphs. A multi-relational graph neural network (MRGNN) is introduced to capture cross-mode heterogeneous spatial dependencies, consisting of generalized graph convolution networks to learn the message passing mechanisms within relation graphs and an attention-based aggregation module to summarize different relations. We further integrate MRGNNs with temporal gated convolution layers to jointly model heterogeneous spatiotemporal correlations. Extensive experiments are conducted using real-world subway and ride-hailing datasets from New York City, and the results verify the improved performance of our proposed approach over existing methods across modes. The improvement is particularly large for demand-sparse locations. Further analysis of the attention mechanisms of ST-MRGNN also demonstrates its good interpretability for understanding cross-mode interactions.
翻訳日:2021-12-16 16:32:09 公開日:2021-12-15
# 行動クローニングを用いたベイズ最適化による強化学習アルゴリズムのハイパーパラメータの自動チューニング

Automatic tuning of hyper-parameters of reinforcement learning algorithms using Bayesian optimization with behavioral cloning ( http://arxiv.org/abs/2112.08094v1 )

ライセンス: Link先を確認
Juan Cruz Barsce, Jorge A. Palombarini, Ernesto C. Mart\'inez(参考訳) 機械学習アルゴリズムにおける複数のハイパーパラメータの最適設定は、利用可能なデータを最大限活用するための鍵となる。 この目的のために、進化戦略、ランダム探索、ベイズ最適化、親指のヒューリスティック規則などのいくつかの手法が提案されている。 強化学習(RL)では、学習エージェントが環境と相互作用しながら収集したデータの情報内容は、多くのハイパーパラメータの設定に大きく依存する。 したがって、RLアルゴリズムのユーザは、グリッド探索やNelder-Mead Simplexアルゴリズムのような、ほとんどのRLタスクにとって非常に非効率な検索ベースの最適化手法に頼る必要があり、学習曲線を著しく遅くし、データ収集を意図的にバイアスする負担をユーザに任せる。 本研究では,RLアルゴリズムをよりユーザに依存しないものにするため,ベイズ最適化を用いた自律型ハイパーパラメータ設定手法を提案する。 獲得関数の強化学習変種を最大化する効果を向上させる行動的クローニングを行うことにより、過去のエピソードと異なるハイパーパラメータ値のデータをメタラーニングレベルで利用する。 また、強化学習エージェント設計においてベイズ最適化を密に統合することにより、与えられたタスクの最適ポリシーに収束するために必要な状態遷移の数を減少させる。 計算実験は、他の手作業による調整や最適化に基づくアプローチと比較して有望な結果を示し、生成されたデータの情報量を増やすためにアルゴリズムのハイパーパラメータを変更することの利点を強調している。

Optimal setting of several hyper-parameters in machine learning algorithms is key to make the most of available data. To this aim, several methods such as evolutionary strategies, random search, Bayesian optimization and heuristic rules of thumb have been proposed. In reinforcement learning (RL), the information content of data gathered by the learning agent while interacting with its environment is heavily dependent on the setting of many hyper-parameters. Therefore, the user of an RL algorithm has to rely on search-based optimization methods, such as grid search or the Nelder-Mead simplex algorithm, that are very inefficient for most RL tasks, slows down significantly the learning curve and leaves to the user the burden of purposefully biasing data gathering. In this work, in order to make an RL algorithm more user-independent, a novel approach for autonomous hyper-parameter setting using Bayesian optimization is proposed. Data from past episodes and different hyper-parameter values are used at a meta-learning level by performing behavioral cloning which helps improving the effectiveness in maximizing a reinforcement learning variant of an acquisition function. Also, by tightly integrating Bayesian optimization in a reinforcement learning agent design, the number of state transitions needed to converge to the optimal policy for a given task is reduced. Computational experiments reveal promising results compared to other manual tweaking and optimization-based approaches which highlights the benefits of changing the algorithm hyper-parameters to increase the information content of generated data.
翻訳日:2021-12-16 16:31:45 公開日:2021-12-15
# 隠れ視からのラベルなしデータの過信予測のモデル化

Taming Overconfident Prediction on Unlabeled Data from Hindsight ( http://arxiv.org/abs/2112.08200v1 )

ライセンス: Link先を確認
Jing Li, Yuangang Pan, Ivor W. Tsang(参考訳) ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習(SSL)において優れたパフォーマンスを達成するための鍵となる要素である。 予測の不確実性は通常、出力空間の変換確率によって計算される \emph{entropy} として表される。 既存の作品の多くは、決定クラス(最大確率)を真のラベルとして受け入れるか、(より小さな確率で)微妙な予測を抑制することによって、低エントロピー予測を蒸留している。 不可解なことに、これらの蒸留戦略は通常ヒューリスティックであり、モデルのトレーニングには役に立たない。 そこで本研究では,まずソフトスレッショルドを用いて,決定予測と無視予測を適応的にマスキングし,次に情報予測をシームレスにシャープし,情報予測のみを蒸留する,Adaptive Sharpening (\ADS) という2つのメカニズムを提案する。 さらに, 種々の蒸留戦略との比較により, 理論上, \adsの特性を解析した。 数多くの実験により、 \ADS はプラグインにすることで最先端のSSLメソッドを大幅に改善することを確認した。 提案した<ADS>は,蒸留法に基づくSSL研究の基盤となる。

Minimizing prediction uncertainty on unlabeled data is a key factor to achieve good performance in semi-supervised learning (SSL). The prediction uncertainty is typically expressed as the \emph{entropy} computed by the transformed probabilities in output space. Most existing works distill low-entropy prediction by either accepting the determining class (with the largest probability) as the true label or suppressing subtle predictions (with the smaller probabilities). Unarguably, these distillation strategies are usually heuristic and less informative for model training. From this discernment, this paper proposes a dual mechanism, named ADaptive Sharpening (\ADS), which first applies a soft-threshold to adaptively mask out determinate and negligible predictions, and then seamlessly sharpens the informed predictions, distilling certain predictions with the informed ones only. More importantly, we theoretically analyze the traits of \ADS by comparing with various distillation strategies. Numerous experiments verify that \ADS significantly improves the state-of-the-art SSL methods by making it a plug-in. Our proposed \ADS forges a cornerstone for future distillation-based SSL research.
翻訳日:2021-12-16 16:31:22 公開日:2021-12-15
# ブラックボックス最適化のための検索空間の実用性予測:シンプルで予算対応のアプローチ

Predicting the utility of search spaces for black-box optimization:a simple, budget-aware approach ( http://arxiv.org/abs/2112.08250v1 )

ライセンス: Link先を確認
Setareh Ariafar, Justin Gilmer, Zack Nado, Jasper Snoek, Rodolphe Jenatton, George E. Dahl(参考訳) ブラックボックス最適化は、d-次元コンパクト空間のような解を探索するための探索空間を特定する必要があり、この選択は妥当な予算で最良の結果を得るために重要である。 残念なことに、多くのアプリケーションで高品質な検索スペースを決定することは難しい。 例えば、予算が限られている新しい問題に対して、機械学習パイプラインのハイパーパラメータをチューニングする場合、潜在的に有望な領域を除外し、検索スペースをトラクタブルに抑えるためのバランスを取る必要がある。 この研究の目的は、例えばディープニューラルネットワークのチューニングの応用を通じて、予算で条件付けられた検索空間の品質を予測することの課題を動機付け、ベイズ最適化のような確率的応答曲面モデルに適用されたユーティリティ関数に基づいた単純なスコアリング方法を提供することである。 提案手法は,様々な状況において有意義な予算条件スコアを算出できることを示す。 また,正確なスコアが探索空間の構築と解析に有用であることを示す実験的な証拠を提供する。 最終的には、深層学習のための実験的なワークフローにおいて、探索空間のスコアリングが標準的実践となるべきだと考えています。

Black box optimization requires specifying a search space to explore for solutions, e.g. a d-dimensional compact space, and this choice is critical for getting the best results at a reasonable budget. Unfortunately, determining a high quality search space can be challenging in many applications. For example, when tuning hyperparameters for machine learning pipelines on a new problem given a limited budget, one must strike a balance between excluding potentially promising regions and keeping the search space small enough to be tractable. The goal of this work is to motivate -- through example applications in tuning deep neural networks -- the problem of predicting the quality of search spaces conditioned on budgets, as well as to provide a simple scoring method based on a utility function applied to a probabilistic response surface model, similar to Bayesian optimization. We show that the method we present can compute meaningful budget-conditional scores in a variety of situations. We also provide experimental evidence that accurate scores can be useful in constructing and pruning search spaces. Ultimately, we believe scoring search spaces should become standard practice in the experimental workflow for deep learning.
翻訳日:2021-12-16 16:31:02 公開日:2021-12-15
# (参考訳) 全てを規定する1つのシステム:顧客サービスチャットボットのためのユニバーサルインテント認識システム

One System to Rule them All: a Universal Intent Recognition System for Customer Service Chatbots ( http://arxiv.org/abs/2112.08261v1 )

ライセンス: CC0 1.0
Juan Camilo Vasquez-Correa, Juan Carlos Guerrero-Sierra, Jose Luis Pemberty-Tamayo, Juan Esteban Jaramillo, Andres Felipe Tejada-Castro(参考訳) カスタマーサービスチャットボットは、異なる企業が提供する製品やサービスに関する情報を顧客に提供するために設計された会話システムである。 特に、意図認識は、チャットボットシステムの自然言語基盤機能における中核的な構成要素の1つである。 チャットボットが認識するために訓練されるさまざまな意図のうち、あらゆるカスタマーサービスのチャットボットに共通する一連の意図がある。 普遍的な意図には、敬礼、人間エージェントへの会話の切り替え、別れなどが含まれる。 これらの普遍的な意図を認識するシステムは、特定のカスタマーサービスチャットボットのトレーニングプロセスを最適化するのに非常に役立つだろう。 本研究では,28種類のチャットボットに共通する11個の意図の群を識別する汎用的意図認識システムの開発を提案する。 提案システムは,Word2vecやBERTのような最先端の単語埋め込みモデルと,畳み込みニューラルネットワークと繰り返しニューラルネットワークに基づく深層分類器を考察した。 提案したモデルは、それらの普遍意図を最大80.4\%の精度で識別することができる。 さらに,提案システムは,短文と長文の両方で表現された意図を認識するのに等しく正確である。 同時に、誤分類エラーは、別れや肯定的なコメントなど、非常に類似した意味領域を持つインテント間で発生することが多い。 提案するシステムは,ユーザサービスのチャットボットのトレーニングプロセスを最適化するのに非常に役立つだろう。 同時に、提案手法は、トランスファー学習戦略を適用して、より具体的なチャットボットを訓練するための適切なベースモデルとなる。

Customer service chatbots are conversational systems designed to provide information to customers about products/services offered by different companies. Particularly, intent recognition is one of the core components in the natural language understating capabilities of a chatbot system. Among the different intents that a chatbot is trained to recognize, there is a set of them that is universal to any customer service chatbot. Universal intents may include salutation, switch the conversation to a human agent, farewells, among others. A system to recognize those universal intents will be very helpful to optimize the training process of specific customer service chatbots. We propose the development of a universal intent recognition system, which is trained to recognize a selected group of 11 intents that are common in 28 different chatbots. The proposed system is trained considering state-of-the-art word-embedding models such as word2vec and BERT, and deep classifiers based on convolutional and recurrent neural networks. The proposed model is able to discriminate between those universal intents with a balanced accuracy up to 80.4\%. In addition, the proposed system is equally accurate to recognize intents expressed both in short and long text requests. At the same time, misclassification errors often occurs between intents with very similar semantic fields such as farewells and positive comments. The proposed system will be very helpful to optimize the training process of a customer service chatbot because some of the intents will be already available and detected by our system. At the same time, the proposed approach will be a suitable base model to train more specific chatbots by applying transfer learning strategies.
翻訳日:2021-12-16 16:30:12 公開日:2021-12-15
# クラスタ割り当てを用いたグラフ表現学習

Graph Representation Learning via Contrasting Cluster Assignments ( http://arxiv.org/abs/2112.07934v1 )

ライセンス: Link先を確認
Chunyang Zhang, Hongyu Yao, C. L. Philip Chen and Yuena Lin(参考訳) コントラスト学習の台頭に伴い、教師なしグラフ表現学習は近年ブームとなり、一部の機械学習タスクでは教師なしグラフ学習を上回っている。 グラフ表現学習の既存のコントラストモデルのほとんどは、ローカルとグローバルの埋め込み間の相互情報を最大化することに注力するか、あるいは主にノードレベルでのコントラストに依存する。 しかし、ネットワークトポロジーのローカルおよびグローバルなビューを包括的に探究するには、まだ不十分である。 前者は地域とグローバルの関係を考察するが、その粗いグローバル情報は、地域とグローバルな見解の協調に繋がる。 後者はノードレベルの特徴アライメントに注意を払うため、グローバルビューの役割は目立たないように見える。 この2つの極端なケースに陥ることを避けるため、GRCCAと呼ばれるクラスタ割り当てを対比して、教師なしグラフ表現モデルを提案する。 クラスタリングアルゴリズムとコントラスト学習を組み合わせることにより,局所的およびグローバルな情報を合成的に有効に活用する。 これは対照的な効果を促進するだけでなく、より高品質なグラフ情報も提供する。 一方、GRCCAはさらにクラスタレベルの情報を発掘し、グラフトポロジを超えたノード間の因果関係の洞察を得る。 具体的には、まず異なるグラフ拡張戦略を持つ2つの拡張グラフを生成し、それぞれクラスタ割り当てとプロトタイプを取得するためにクラスタリングアルゴリズムを使用する。 提案したGRCCAは、異なる拡張グラフから同一ノードを補完し、クロスエントロピー損失を最小限に抑えてクラスタ割り当てを相互に認識する。 その効果を示すために,3つの下流タスクにおける最先端モデルとの比較を行った。 実験の結果, GRCCAはほとんどのタスクにおいて強い競争力を持つことがわかった。

With the rise of contrastive learning, unsupervised graph representation learning has been booming recently, even surpassing the supervised counterparts in some machine learning tasks. Most of existing contrastive models for graph representation learning either focus on maximizing mutual information between local and global embeddings, or primarily depend on contrasting embeddings at node level. However, they are still not exquisite enough to comprehensively explore the local and global views of network topology. Although the former considers local-global relationship, its coarse global information leads to grudging cooperation between local and global views. The latter pays attention to node-level feature alignment, so that the role of global view appears inconspicuous. To avoid falling into these two extreme cases, we propose a novel unsupervised graph representation model by contrasting cluster assignments, called as GRCCA. It is motivated to make good use of local and global information synthetically through combining clustering algorithms and contrastive learning. This not only facilitates the contrastive effect, but also provides the more high-quality graph information. Meanwhile, GRCCA further excavates cluster-level information, which make it get insight to the elusive association between nodes beyond graph topology. Specifically, we first generate two augmented graphs with distinct graph augmentation strategies, then employ clustering algorithms to obtain their cluster assignments and prototypes respectively. The proposed GRCCA further compels the identical nodes from different augmented graphs to recognize their cluster assignments mutually by minimizing a cross entropy loss. To demonstrate its effectiveness, we compare with the state-of-the-art models in three different downstream tasks. The experimental results show that GRCCA has strong competitiveness in most tasks.
翻訳日:2021-12-16 16:20:37 公開日:2021-12-15
# (参考訳) 1つのサイズがすべてに合わない:NLPタスク間の差分私的学習のための戦略の検討

One size does not fit all: Investigating strategies for differentially-private learning across NLP tasks ( http://arxiv.org/abs/2112.08159v1 )

ライセンス: CC BY-SA 4.0
Manuel Senge, Timour Igamberdiev, Ivan Habernal(参考訳) 現代のNLPモデルのトレーニングにおけるプライバシの保護には、コストがかかる。 微分プライベート確率勾配降下 (dp-sgd) において、より厳格なプライバシー保証は一般的にモデル性能を低下させる。 しかし、NLPにおけるDP-SGDの効率に関する以前の研究は、決定的あるいは反直観的である。 本稿では,5つの異なるnlpタスクにおける7つのダウンストリームデータセットの異なるプライバシ保存戦略について,現代的なニューラルモデルを用いて徹底的に分析する。 従来のNLPタスクの解決方法とは異なり、プライバシ保護戦略は勝利パターンを示しておらず、各タスクとプライバシ体制は適切なパフォーマンスを達成するために特別な処理を必要とする。

Preserving privacy in training modern NLP models comes at a cost. We know that stricter privacy guarantees in differentially-private stochastic gradient descent (DP-SGD) generally degrade model performance. However, previous research on the efficiency of DP-SGD in NLP is inconclusive or even counter-intuitive. In this short paper, we provide a thorough analysis of different privacy preserving strategies on seven downstream datasets in five different `typical' NLP tasks with varying complexity using modern neural models. We show that unlike standard non-private approaches to solving NLP tasks, where bigger is usually better, privacy-preserving strategies do not exhibit a winning pattern, and each task and privacy regime requires a special treatment to achieve adequate performance.
翻訳日:2021-12-16 16:19:17 公開日:2021-12-15
# (参考訳) 英語レトリバーからの多言語IR学習

Learning Cross-Lingual IR from an English Retriever ( http://arxiv.org/abs/2112.08185v1 )

ライセンス: CC BY 4.0
Yulong Li, Martin Franz, Md Arafat Sultan, Bhavani Iyer, Young-Suk Lee, Avirup Sil(参考訳) 我々は多段階知識蒸留(KD)を用いて学習した新たな言語間情報検索(CLIR)モデルを提案する。 教師と学生は異種システムであり、前者は機械翻訳と単言語IRに依存し、後者は単一のCLIR操作を実行する。 学習者は2つのKD目標を最適化することにより,多言語表現とCLIRの両方を学習できることを示す。 英語のみの検索者から多言語表現を学習するには、教師トークンを再配置してアライメントを行う新しい言語間アライメントアルゴリズムを用いる。 xor-tydiベンチマークの評価では、従来のクロスリンガルラベルirデータによる微調整アプローチよりもはるかに効果的であり、25.4 recall@5ktの精度が向上した。

We present a new cross-lingual information retrieval (CLIR) model trained using multi-stage knowledge distillation (KD). The teacher and the student are heterogeneous systems-the former is a pipeline that relies on machine translation and monolingual IR, while the latter executes a single CLIR operation. We show that the student can learn both multilingual representations and CLIR by optimizing two corresponding KD objectives. Learning multilingual representations from an English-only retriever is accomplished using a novel cross-lingual alignment algorithm that greedily re-positions the teacher tokens for alignment. Evaluation on the XOR-TyDi benchmark shows that the proposed model is far more effective than the existing approach of fine-tuning with cross-lingual labeled IR data, with a gain in accuracy of 25.4 Recall@5kt.
翻訳日:2021-12-16 16:09:26 公開日:2021-12-15
# (参考訳) Lesan - 低リソース言語のための機械翻訳

Lesan -- Machine Translation for Low Resource Languages ( http://arxiv.org/abs/2112.08191v1 )

ライセンス: CC BY 4.0
Asmelash Teka Hadgu, Abel Aregawi, Adam Beaudoin(参考訳) 世界中の何百万人もの人々が、web上のコンテンツにアクセスできない。 機械翻訳(MT)システムは、これを多くの言語で変更する可能性がある。 現在のMTシステムは、例えばドイツ語と英語のような高資源言語対に対して非常に正確な結果を提供する。 しかし、多くの低資源言語では、MTはまだ活発に研究されている。 主な課題は、これらのシステムを構築するためのデータセットの欠如である。 本稿では低リソース言語のためのMTシステムであるLesanを紹介する。 我々のパイプラインは、オンラインおよびオフラインソース、Ethiopic用のカスタムOCRシステム、自動アライメントモジュールを活用することで、低リソースMTのボトルネックを解決する。 パイプラインの最後のステップは、並列コーパスを入力として、翻訳モデルを提供するシーケンスからシーケンスモデルです。 Lesanの翻訳モデルはTransformerアーキテクチャに基づいている。 ベースモデルを構築した後、バック翻訳は単言語コーパスを活用するために使用される。 現在、レサンはティグリニャ語、アムハラ語、英語への翻訳を支援している。 われわれは、lesanがgoogle translateやmicrosoft translatorのような最先端のシステムを6つのペアで上回っていることを示す。 Lesanは無料で提供されており、これまでに1000万以上の翻訳を提供している。 現在、217のtigrinyaと15,009のamharic wikipediaの記事しかない。 私たちはLesanが、何百万人もの人々のMTを通じてWebへのアクセスを民主化するために貢献すると考えています。

Millions of people around the world can not access content on the Web because most of the content is not readily available in their language. Machine translation (MT) systems have the potential to change this for many languages. Current MT systems provide very accurate results for high resource language pairs, e.g., German and English. However, for many low resource languages, MT is still under active research. The key challenge is lack of datasets to build these systems. We present Lesan, an MT system for low resource languages. Our pipeline solves the key bottleneck to low resource MT by leveraging online and offline sources, a custom OCR system for Ethiopic and an automatic alignment module. The final step in the pipeline is a sequence to sequence model that takes parallel corpus as input and gives us a translation model. Lesan's translation model is based on the Transformer architecture. After constructing a base model, back translation, is used to leverage monolingual corpora. Currently Lesan supports translation to and from Tigrinya, Amharic and English. We perform extensive human evaluation and show that Lesan outperforms state-of-the-art systems such as Google Translate and Microsoft Translator across all six pairs. Lesan is freely available and has served more than 10 million translations so far. At the moment, there are only 217 Tigrinya and 15,009 Amharic Wikipedia articles. We believe that Lesan will contribute towards democratizing access to the Web through MT for millions of people.
翻訳日:2021-12-16 16:01:18 公開日:2021-12-15
# (参考訳) 畳み込みニューラルネットワークのプルーニングに及ぼす事前学習の影響に関する実験的研究

An Experimental Study of the Impact of Pre-training on the Pruning of a Convolutional Neural Network ( http://arxiv.org/abs/2112.08227v1 )

ライセンス: CC BY 4.0
Nathan Hubens, Matei Mancas, Bernard Gosselin, Marius Preda, Titus Zaharia(参考訳) 近年、ディープニューラルネットワークは様々なアプリケーション領域で広く成功を収めている。 しかし、それらは重要な計算とメモリ資源を必要としており、特にモバイルデバイスやリアルタイムアプリケーションにおいて、その展開を著しく妨げている。 ニューラルネットワークは通常、ネットワークの重みに対応する多くのパラメータを含む。 このようなパラメータは、トレーニングプロセスの助けを借りて得られ、ネットワークの性能を決定する。 しかし、それらは非常に冗長である。 プルーニング法は、無関係な重みを識別して取り除き、パラメータ集合のサイズを減少させようとする。 本稿では, 刈り取り効率に及ぼすトレーニング戦略の影響について検討する。 1)微調整と(2)スクラッチによる2つのトレーニングモードを考察し比較した。 4つのデータセット(CIFAR10、CIFAR100、SVHN、Caltech101)と2つの異なるCNN(VGG16、MobileNet)で得られた実験結果は、大きなコーパス(例えばImageNet)で事前トレーニングされたネットワークが、特定のデータセットで微調整されたネットワークを、スクラッチからトレーニングされた同じネットワークよりもはるかに効率的に(最大80%のパラメータ還元)切断できることを示した。

In recent years, deep neural networks have known a wide success in various application domains. However, they require important computational and memory resources, which severely hinders their deployment, notably on mobile devices or for real-time applications. Neural networks usually involve a large number of parameters, which correspond to the weights of the network. Such parameters, obtained with the help of a training process, are determinant for the performance of the network. However, they are also highly redundant. The pruning methods notably attempt to reduce the size of the parameter set, by identifying and removing the irrelevant weights. In this paper, we examine the impact of the training strategy on the pruning efficiency. Two training modalities are considered and compared: (1) fine-tuned and (2) from scratch. The experimental results obtained on four datasets (CIFAR10, CIFAR100, SVHN and Caltech101) and for two different CNNs (VGG16 and MobileNet) demonstrate that a network that has been pre-trained on a large corpus (e.g. ImageNet) and then fine-tuned on a particular dataset can be pruned much more efficiently (up to 80% of parameter reduction) than the same network trained from scratch.
翻訳日:2021-12-16 15:56:48 公開日:2021-12-15
# (参考訳) 自動意思決定のための規範的機械学習:挑戦と機会

Prescriptive Machine Learning for Automated Decision Making: Challenges and Opportunities ( http://arxiv.org/abs/2112.08268v1 )

ライセンス: CC BY 4.0
Eyke H\"ullermeier(参考訳) 機械学習(ml)の最近の応用は、予測(地上事実)の目的に主に使用されるモデルのデータ駆動構成という意味での予測モデリングの使用から、規範的モデリングの使用への顕著なシフトを示している。 これが意味することは、現実世界のシナリオにおいて、適切な行動方針に関する適切な決定を規定するモデルを学ぶというタスクである。 この人はその仕事に雇われるべきですか。 この記事では、規範的モデリングは、学習のための新しい技術条件と、信頼性、責任、意思決定の倫理に関する新しい要求を伴います。 したがって、合理的かつ責任ある方法で行動する意思決定エージェントのデータ駆動設計を支援するためには、厳密な規範的MLの方法論的基盤が必要である。 この短い論文の目的は、規範mlの特定の特徴を詳述し、それが示唆するいくつかの重要な課題を強調することである。 さらに、現代のAI研究の他の分野との接続を図り、(一般化された)決定論的枠組みにおける規範的MLの基盤を提唱する。

Recent applications of machine learning (ML) reveal a noticeable shift from its use for predictive modeling in the sense of a data-driven construction of models mainly used for the purpose of prediction (of ground-truth facts) to its use for prescriptive modeling. What is meant by this is the task of learning a model that stipulates appropriate decisions about the right course of action in real-world scenarios: Which medical therapy should be applied? Should this person be hired for the job? As argued in this article, prescriptive modeling comes with new technical conditions for learning and new demands regarding reliability, responsibility, and the ethics of decision making. Therefore, to support the data-driven design of decision-making agents that act in a rational but at the same time responsible manner, a rigorous methodological foundation of prescriptive ML is needed. The purpose of this short paper is to elaborate on specific characteristics of prescriptive ML and to highlight some key challenges it implies. Besides, drawing connections to other branches of contemporary AI research, the grounding of prescriptive ML in a (generalized) decision-theoretic framework is advocated.
翻訳日:2021-12-16 15:47:21 公開日:2021-12-15
# (参考訳) 物体の状態検出と物体検出:新しいデータセットと定量的実験

Detecting Object States vs Detecting Objects: A New Dataset and a Quantitative Experimental Study ( http://arxiv.org/abs/2112.08281v1 )

ライセンス: CC BY 4.0
Filippos Gouidis, Theodoris Patkos, Antonis Argyros and Dimitris Plexousakis(参考訳) 画像中の物体状態の検出(状態検出 - SD)は理論的および実用的重要性の問題であり、アクション認識やアベイランス検出といった他の重要なコンピュータビジョン問題と密接に関連している。 また、ロボットシステムやインテリジェントエージェントなど、動的ドメインにおける推論と行動を必要とするあらゆるエンティティにも高い関連性がある。 その重要性にもかかわらず、これまでこの問題の研究は限られてきた。 本稿では,SD問題に関する系統的研究を試みる。 まず、オブジェクトの18のカテゴリと9のステートクラスに対する19,000以上のアノテーションからなる新しい公開データセットであるObject State Detection Dataset(OSDD)を紹介します。 第二に、オブジェクト検出(OD)に使用される標準的なディープラーニングフレームワークを用いて、SD問題の振る舞いの詳細な研究に向けて、多数の適切な設計実験を行う。 本研究は,様々なシナリオにおいて,sdの性能に関するベースラインの設定と,odと比較しての相対的な性能の設定を可能にする。 全体として、実験の結果、sdはodよりも困難であり、この重大な問題を解決するために、調整済みsdメソッドを開発する必要があることが確認された。

The detection of object states in images (State Detection - SD) is a problem of both theoretical and practical importance and it is tightly interwoven with other important computer vision problems, such as action recognition and affordance detection. It is also highly relevant to any entity that needs to reason and act in dynamic domains, such as robotic systems and intelligent agents. Despite its importance, up to now, the research on this problem has been limited. In this paper, we attempt a systematic study of the SD problem. First, we introduce the Object State Detection Dataset (OSDD), a new publicly available dataset consisting of more than 19,000 annotations for 18 object categories and 9 state classes. Second, using a standard deep learning framework used for Object Detection (OD), we conduct a number of appropriately designed experiments, towards an in-depth study of the behavior of the SD problem. This study enables the setup of a baseline on the performance of SD, as well as its relative performance in comparison to OD, in a variety of scenarios. Overall, the experimental outcomes confirm that SD is harder than OD and that tailored SD methods need to be developed for addressing effectively this significant problem.
翻訳日:2021-12-16 15:35:59 公開日:2021-12-15
# (参考訳) ニューラルNLIにおける自然論理推論の分解

Decomposing Natural Logic Inferences in Neural NLI ( http://arxiv.org/abs/2112.08289v1 )

ライセンス: CC BY 4.0
Julia Rozanova, Deborah Ferreira, Marco Valentino, Mokanrarangan Thayaparan, Andre Freitas(参考訳) ニューラルNLIモデルとその推論戦略の解釈に関心を寄せ、これらのモデルが自然論理の中心となる重要な意味的特徴(単調性と概念包摂性)を捉えているかどうかを調査する。 下向き単調な文脈における妥当な推論を正しく特定することは、否定範囲や一般化量化器といった言語現象を仮定して、NLIのパフォーマンスの揺らぎとして知られている。 この難しさを理解するため,我々は,文脈の性質としてモノトニック性を強調し,意思決定プロセスに中間の文脈埋め込みにおいて,モデルがモノトニック性情報を取得する程度を検討する。 調査パラダイムの最近の進歩をふまえて,様々なモデルにまたがる単調性特徴の比較を行った。 ベンチマークで高いスコアを得るNLIモデルの表現において、単調性情報は顕著に弱く、微調整戦略に基づくこれらのモデルに対する以前の改良は、より強力な単調性機能を導入し、課題セットの性能を改善した。

In the interest of interpreting neural NLI models and their reasoning strategies, we carry out a systematic probing study which investigates whether these models capture the crucial semantic features central to natural logic: monotonicity and concept inclusion. Correctly identifying valid inferences in downward-monotone contexts is a known stumbling block for NLI performance, subsuming linguistic phenomena such as negation scope and generalized quantifiers. To understand this difficulty, we emphasize monotonicity as a property of a context and examine the extent to which models capture monotonicity information in the contextual embeddings which are intermediate to their decision making process. Drawing on the recent advancement of the probing paradigm, we compare the presence of monotonicity features across various models. We find that monotonicity information is notably weak in the representations of popular NLI models which achieve high scores on benchmarks, and observe that previous improvements to these models based on fine-tuning strategies have introduced stronger monotonicity features together with their improved performance on challenge sets.
翻訳日:2021-12-16 15:23:20 公開日:2021-12-15
# 信頼できない検出の存在下での信頼性の高いマルチオブジェクト追跡

Reliable Multi-Object Tracking in the Presence of Unreliable Detections ( http://arxiv.org/abs/2112.08345v1 )

ライセンス: Link先を確認
Travis Mandel, Mark Jimenez, Emily Risley, Taishi Nammoto, Rebekka Williams, Max Panoff, Meynard Ballesteros, Bobbie Suarez(参考訳) 近年のマルチオブジェクトトラッキング(mot)システムは高精度な物体検出器を活用しているが、そのような検出器の訓練には大量のラベル付きデータが必要である。 このようなデータは人間や車には広く見られるが、他の動物種にははるかに少ない。 我々は,検出品質が貧弱であってもロバストな性能を維持するためのアルゴリズムであるロバスト信頼度追跡(rct)を提案する。 検出信頼情報を破棄する従来の手法とは対照的に、RCTは、トラックの初期化、拡張トラック、フィルタトラックの正確な検出信頼値を頼りに、根本的に異なるアプローチをとっている。 特に、RCTは、(単一のオブジェクトトラッカーとともに)低信頼度検出を用いて、オブジェクトの連続的な追跡を効率的に行うことにより、アイデンティティスイッチを最小化することができる。 信頼性の低い検出の存在下での追跡者評価のために,実世界の水中魚追跡データセットfishtracを提案する。 FISHTRACおよびUA-DETRACデータセットの評価において、RTTは、最先端のディープ・シングル・マルチオブジェクト・トラッカーやより古典的なアプローチを含む不完全な検出を行う場合、他のアルゴリズムよりも優れることがわかった。 具体的には、RCTは、すべてのシーケンスに対して結果を返すのに成功するメソッドで最高の平均HOTAを持ち、他のメソッドよりもはるかに少ないIDスイッチを持つ。

Recent multi-object tracking (MOT) systems have leveraged highly accurate object detectors; however, training such detectors requires large amounts of labeled data. Although such data is widely available for humans and vehicles, it is significantly more scarce for other animal species. We present Robust Confidence Tracking (RCT), an algorithm designed to maintain robust performance even when detection quality is poor. In contrast to prior methods which discard detection confidence information, RCT takes a fundamentally different approach, relying on the exact detection confidence values to initialize tracks, extend tracks, and filter tracks. In particular, RCT is able to minimize identity switches by efficiently using low-confidence detections (along with a single object tracker) to keep continuous track of objects. To evaluate trackers in the presence of unreliable detections, we present a challenging real-world underwater fish tracking dataset, FISHTRAC. In an evaluation on FISHTRAC as well as the UA-DETRAC dataset, we find that RCT outperforms other algorithms when provided with imperfect detections, including state-of-the-art deep single and multi-object trackers as well as more classic approaches. Specifically, RCT has the best average HOTA across methods that successfully return results for all sequences, and has significantly less identity switches than other methods.
翻訳日:2021-12-16 15:11:02 公開日:2021-12-15
# 3次元質問応答

3D Question Answering ( http://arxiv.org/abs/2112.08359v1 )

ライセンス: Link先を確認
Shuquan Ye and Dongdong Chen and Songfang Han and Jing Liao(参考訳) VQA(Visual Question Answering)は近年大きく進歩している。 しかし、ほとんどの取り組みは2次元画像質問応答タスクのみに焦点を当てている。 本稿では,VQAを3次元領域に拡張する最初の試みについて述べる。 画像ベースのVQAとは異なり、3D Question Answering (3DQA)はカラーポイントクラウドを入力とし、3D関連の質問に答えるために外観と3D幾何学的理解能力の両方を必要とする。 そこで本研究では, 2つのエンコーダから構成したトランスフォーマ3dqaフレームワーク \textbf{``3dqa-tr"} を提案する。 外観, 幾何学, 言語的問題に関するマルチモーダルな情報は, 3D-Linguistic Bert を用いて, 目標解の予測を行うことができる。 提案する3DQAフレームワークの有効性を検証するため,ScanNetデータセット上に構築され,$\sim$6Kの質問,$\sim$30Kの回答を含む最初の3DQAデータセットである『textbf{``ScanQA"』を開発した。 このデータセットに関する大規模な実験は、既存のVQAフレームワークよりも提案した3DQAフレームワークの明らかな優位性と、主要な設計の有効性を示している。 私たちのコードとデータセットは、この方向の研究を促進するために公開されます。

Visual Question Answering (VQA) has witnessed tremendous progress in recent years. However, most efforts only focus on the 2D image question answering tasks. In this paper, we present the first attempt at extending VQA to the 3D domain, which can facilitate artificial intelligence's perception of 3D real-world scenarios. Different from image based VQA, 3D Question Answering (3DQA) takes the color point cloud as input and requires both appearance and 3D geometry comprehension ability to answer the 3D-related questions. To this end, we propose a novel transformer-based 3DQA framework \textbf{``3DQA-TR"}, which consists of two encoders for exploiting the appearance and geometry information, respectively. The multi-modal information of appearance, geometry, and the linguistic question can finally attend to each other via a 3D-Linguistic Bert to predict the target answers. To verify the effectiveness of our proposed 3DQA framework, we further develop the first 3DQA dataset \textbf{``ScanQA"}, which builds on the ScanNet dataset and contains $\sim$6K questions, $\sim$30K answers for $806$ scenes. Extensive experiments on this dataset demonstrate the obvious superiority of our proposed 3DQA framework over existing VQA frameworks, and the effectiveness of our major designs. Our code and dataset will be made publicly available to facilitate the research in this direction.
翻訳日:2021-12-16 15:10:38 公開日:2021-12-15
# context-aware lexical replacement によるテキスト生成のトレース

Tracing Text Provenance via Context-Aware Lexical Substitution ( http://arxiv.org/abs/2112.07873v1 )

ライセンス: Link先を確認
Xi Yang, Jie Zhang, Kejiang Chen, Weiming Zhang, Zehua Ma, Feng Wang, Nenghai Yu(参考訳) 人間や言語モデルによって作成されたテキストコンテンツは、しばしば敵によって盗まれ、誤用される。 テキスト証明の追跡は、テキストコンテンツの所有権を主張したり、マシン生成のフェイクニュースのような誤解を招くコンテンツを配布する悪意のあるユーザーを特定するのに役立つ。 これを達成しようとする試みは、主に透かし技術に基づいている。 特に、従来のテキスト透かし法は、行間隔やフォントなどのテキストフォーマットを少し変更することで透かしを埋め込むが、ocrのようなクロスメディア伝送には脆弱である。 これを考慮すると、自然言語の透かし法は、原文中の単語を手作り語彙資源(例えばWordNet)の同義語に置き換えることによって透かしを表すが、それらが全体文の意味に与える影響を考慮していない。 近年, 文の論理的・意味的一貫性を損なう不明瞭な単語(例えば関数語)を修飾することにより, 透かしを埋め込むトランスフォーマーネットワークが提案されている。 さらに、訓練されたネットワークは、他の異なるタイプのテキストコンテンツで失敗する。 上記の制限に対処するため,文脈対応語彙置換(LS)に基づく自然言語透かし方式を提案する。 具体的には、候補と原文間の意味的関連性を推定することにより、LS候補を提案するためにBERTを用いる。 これに基づいて、シンクロシティと置換性の観点から選択戦略を設計し、単語が透かし信号を運ぶのに適切かどうかを検証する。 客観的および主観的尺度の両面において,我々の透かし方式は,原文の意味的整合性を十分に保ち,既存手法よりも伝達性が高いことを示す。 さらに、提案したLSアプローチは、スタンフォード語置換ベンチマークにおける最先端のアプローチよりも優れている。

Text content created by humans or language models is often stolen or misused by adversaries. Tracing text provenance can help claim the ownership of text content or identify the malicious users who distribute misleading content like machine-generated fake news. There have been some attempts to achieve this, mainly based on watermarking techniques. Specifically, traditional text watermarking methods embed watermarks by slightly altering text format like line spacing and font, which, however, are fragile to cross-media transmissions like OCR. Considering this, natural language watermarking methods represent watermarks by replacing words in original sentences with synonyms from handcrafted lexical resources (e.g., WordNet), but they do not consider the substitution's impact on the overall sentence's meaning. Recently, a transformer-based network was proposed to embed watermarks by modifying the unobtrusive words (e.g., function words), which also impair the sentence's logical and semantic coherence. Besides, one well-trained network fails on other different types of text content. To address the limitations mentioned above, we propose a natural language watermarking scheme based on context-aware lexical substitution (LS). Specifically, we employ BERT to suggest LS candidates by inferring the semantic relatedness between the candidates and the original sentence. Based on this, a selection strategy in terms of synchronicity and substitutability is further designed to test whether a word is exactly suitable for carrying the watermark signal. Extensive experiments demonstrate that, under both objective and subjective metrics, our watermarking scheme can well preserve the semantic integrity of original sentences and has a better transferability than existing methods. Besides, the proposed LS approach outperforms the state-of-the-art approach on the Stanford Word Substitution Benchmark.
翻訳日:2021-12-16 15:10:11 公開日:2021-12-15
# 大きなデュアルエンコーダは一般的なリトリバー

Large Dual Encoders Are Generalizable Retrievers ( http://arxiv.org/abs/2112.07899v1 )

ライセンス: Link先を確認
Jianmo Ni, Chen Qu, Jing Lu, Zhuyun Dai, Gustavo Hern\'andez \'Abrego, Ji Ma, Vincent Y. Zhao, Yi Luan, Keith B. Hall, Ming-Wei Chang, Yinfei Yang(参考訳) あるドメインで訓練されたデュアルエンコーダは、検索タスクのために他のドメインに一般化できないことが示されている。 1つの広く信じられているのは、二重エンコーダのボトルネック層であり、最終スコアはクエリベクトルと通過ベクトルの間のドット積であり、二重エンコーダをドメイン外一般化のための効果的な検索モデルにするには限界すぎるということである。 本稿では、ボトルネック埋め込みサイズを固定しつつ、二重エンコーダモデル {\em のサイズを拡大することで、この信念に挑戦する。 マルチステージトレーニングでは,モデルサイズのスケールアップがさまざまな検索タスク,特にドメイン外一般化において大きな改善をもたらします。 実験結果から, 2つのエンコーダ, \textbf{G}eneralizable \textbf{T}5-based dense \textbf{R}etrievers (GTR), outform %ColBERT~\cite{khattab2020colbert}, and existing sparse and dense retriever on the BEIR dataset~\cite{thakur2021beir} が顕著であった。 最も驚くべきことに、我々のアブレーション調査では、GTRは非常にデータ効率が良く、ドメイン外で最高のパフォーマンスを達成するためには、MS Marcoが管理するデータの10%しか必要としない。 すべてのGTRモデルはhttps://tfhub.dev/google/collections/gtr/1でリリースされる。

It has been shown that dual encoders trained on one domain often fail to generalize to other domains for retrieval tasks. One widespread belief is that the bottleneck layer of a dual encoder, where the final score is simply a dot-product between a query vector and a passage vector, is too limited to make dual encoders an effective retrieval model for out-of-domain generalization. In this paper, we challenge this belief by scaling up the size of the dual encoder model {\em while keeping the bottleneck embedding size fixed.} With multi-stage training, surprisingly, scaling up the model size brings significant improvement on a variety of retrieval tasks, especially for out-of-domain generalization. Experimental results show that our dual encoders, \textbf{G}eneralizable \textbf{T}5-based dense \textbf{R}etrievers (GTR), outperform %ColBERT~\cite{khattab2020colbert} and existing sparse and dense retrievers on the BEIR dataset~\cite{thakur2021beir} significantly. Most surprisingly, our ablation study finds that GTR is very data efficient, as it only needs 10\% of MS Marco supervised data to achieve the best out-of-domain performance. All the GTR models are released at https://tfhub.dev/google/collections/gtr/1.
翻訳日:2021-12-16 15:09:42 公開日:2021-12-15
# (参考訳) checkdst: 対話状態追跡性能の実世界の一般化の測定

CheckDST: Measuring Real-World Generalization of Dialogue State Tracking Performance ( http://arxiv.org/abs/2112.08321v1 )

ライセンス: CC BY 4.0
Hyundong Cho, Chinnadhurai Sankar, Christopher Lin, Kaushik Ram Sadagopan, Shahin Shayandeh, Asli Celikyilmaz, Jonathan May, Ahmad Beirami(参考訳) 最近のニューラルモデルは、対話状態追跡(DST)ベンチマークのための関節ゴール精度(JGA)に関する新しい最先端の結果を引き続き達成している。 しかし、現実的な摂動を伴う発話や対話の流れを含む会話に対して、JGAの急激な低下を示すため、彼らの頑健さを疑問視する。 CheckList (Ribeiro et al., 2020)にインスパイアされた我々は、拡張テストセットでよく知られた弱点をテストすることで、堅牢性の包括的な次元におけるDSTモデルの比較を容易にするCheckDSTと呼ばれるメトリクスのコレクションを設計する。 我々は、最近のDSTモデルをCheckDSTで評価し、より高いJGAが全体的な堅牢性を保証しないため、JGAの最先端を追求するよりも、モデルをより公平に評価すべきだと主張している。 自己回帰型言語モデルに基づくモデルは言語多様性に一般化するが、名前付きエンティティを記憶し、しばしば幻覚を与える傾向があるのに対し、スパンベースの分類モデルは名前付きエンティティには弾力性があるが、言語多様性には頑健ではない。 それぞれの弱点のため、どちらのアプローチも実際のデプロイメントには適していない。 CheckDSTは,様々な手法の強みを具現化したタスク指向対話モデルを開発する上で,今後の研究に役立つガイドであると考えている。

Recent neural models that extend the pretrain-then-finetune paradigm continue to achieve new state-of-the-art results on joint goal accuracy (JGA) for dialogue state tracking (DST) benchmarks. However, we call into question their robustness as they show sharp drops in JGA for conversations containing utterances or dialog flows with realistic perturbations. Inspired by CheckList (Ribeiro et al., 2020), we design a collection of metrics called CheckDST that facilitate comparisons of DST models on comprehensive dimensions of robustness by testing well-known weaknesses with augmented test sets. We evaluate recent DST models with CheckDST and argue that models should be assessed more holistically rather than pursuing state-of-the-art on JGA since a higher JGA does not guarantee better overall robustness. We find that span-based classification models are resilient to unseen named entities but not robust to language variety, whereas those based on autoregressive language models generalize better to language variety but tend to memorize named entities and often hallucinate. Due to their respective weaknesses, neither approach is yet suitable for real-world deployment. We believe CheckDST is a useful guide for future research to develop task-oriented dialogue models that embody the strengths of various methods.
翻訳日:2021-12-16 15:08:08 公開日:2021-12-15
# oracleの言語グラフは事前学習されたトランスフォーマリズムモデルを補完する:クロスフォルマリズムの比較

Oracle Linguistic Graphs Complement a Pretrained Transformer Language Model: A Cross-formalism Comparison ( http://arxiv.org/abs/2112.07874v1 )

ライセンス: Link先を確認
Jakob Prange, Nathan Schneider, Lingpeng Kong(参考訳) 基本的に、言語グラフ表現がニューラルネットワークのモデリングを補完し、改善できる範囲について検討する。 7つの異なる形式のうちの1つから、事前学習されたトランスフォーマリズムと接地グラフからなるアンサンブル構成により、全体的な意味構成構造は、言語モデリングのパフォーマンス - 構文的構成構造と構文的および意味的依存構造に最も有用であることが分かる。 さらに、効果は音声のクラスによって大きく異なる。 結論として,神経シンボリック言語モデリングにおける有望な傾向を示し,異なる形式的手法による設計選択を定量化する今後の研究を招待する。

We examine the extent to which, in principle, linguistic graph representations can complement and improve neural language modeling. With an ensemble setup consisting of a pretrained Transformer and ground-truth graphs from one of 7 different formalisms, we find that, overall, semantic constituency structures are most useful to language modeling performance -- outpacing syntactic constituency structures as well as syntactic and semantic dependency structures. Further, effects vary greatly depending on part-of-speech class. In sum, our findings point to promising tendencies in neuro-symbolic language modeling and invite future research quantifying the design choices made by different formalisms.
翻訳日:2021-12-16 14:49:43 公開日:2021-12-15
# Lex Rosetta: 言語, 判決, 法的ドメイン間の予測モデルの移行

Lex Rosetta: Transfer of Predictive Models Across Languages, Jurisdictions, and Legal Domains ( http://arxiv.org/abs/2112.07882v1 )

ライセンス: Link先を確認
Jaromir Savelka, Hannes Westermann, Karim Benyekhlef, Charlotte S. Alexander, Jayla C. Grant, David Restrepo Amariles, Rajaa El Hamdani, S\'ebastien Mee\`us, Micha{\l} Araszkiewicz, Kevin D. Ashley, Alexandra Ashley, Karl Branting, Mattia Falduti, Matthias Grabmair, Jakub Hara\v{s}ta, Tereza Novotn\'a, Elizabeth Tippett, Shiwanni Johnson(参考訳) 本稿では,司法管轄区域,法体系(一般法・民法),言語,ドメイン(文脈)をまたいだ判断機能分節化のための予測モデルとして,多言語文埋め込みの利用について検討する。 元の文脈以外で言語資源を利用するメカニズムは、法体系、言語、伝統の違いが研究成果の広範な採用を妨げるため、AI & Lawにおいて潜在的に有益である。 言語間で転送可能なGRU(Gated Recurrent Units)を用いたシーケンスラベリングモデルにおけるLanguage-Agnostic Sentence Representationsの使用を分析する。 異なる文脈間での移動を調査するため,適応的決定の関数的セグメンテーションのためのアノテーションスキームを開発した。 モデルは、訓練された文脈を超えて一般化することを発見した(例えば、米国からの行政判断に基づいて訓練されたモデルは、イタリアの刑事法決定に適用できる)。 さらに,複数のコンテキストでモデルをトレーニングすることで頑健性が向上し,それまで認識されていなかったコンテキストで評価した場合の全体的なパフォーマンスが向上することが分かった。 最後に、すべてのコンテキストからトレーニングデータをプールすることで、モデルのコンテキスト内パフォーマンスが向上することがわかった。

In this paper, we examine the use of multi-lingual sentence embeddings to transfer predictive models for functional segmentation of adjudicatory decisions across jurisdictions, legal systems (common and civil law), languages, and domains (i.e. contexts). Mechanisms for utilizing linguistic resources outside of their original context have significant potential benefits in AI & Law because differences between legal systems, languages, or traditions often block wider adoption of research outcomes. We analyze the use of Language-Agnostic Sentence Representations in sequence labeling models using Gated Recurrent Units (GRUs) that are transferable across languages. To investigate transfer between different contexts we developed an annotation scheme for functional segmentation of adjudicatory decisions. We found that models generalize beyond the contexts on which they were trained (e.g., a model trained on administrative decisions from the US can be applied to criminal law decisions from Italy). Further, we found that training the models on multiple contexts increases robustness and improves overall performance when evaluating on previously unseen contexts. Finally, we found that pooling the training data from all the contexts enhances the models' in-context performance.
翻訳日:2021-12-16 14:49:27 公開日:2021-12-15
# 知識豊富な自己教師付きエンティティリンク

Knowledge-Rich Self-Supervised Entity Linking ( http://arxiv.org/abs/2112.07887v1 )

ライセンス: Link先を確認
Sheng Zhang, Hao Cheng, Shikhar Vashishth, Cliff Wong, Jinfeng Xiao, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, Hoifung Poon(参考訳) エンティティリンクは多彩なバリエーションや一般的な曖昧さ、特に無数のエンティティを持つ高価値ドメインなど、大きな課題に直面している。 標準的な分類アプローチは、アノテーションのボトルネックに悩まされ、見えないエンティティを効果的に処理できない。 ゼロショットエンティティリンクは、新しいエンティティに一般化するための有望な方向として現れてきたが、トレーニング中のゴールドエンティティ参照やすべてのエンティティの標準記述の例が必要であり、どちらもwikipedia以外ではめったに利用できない。 本稿では、容易に利用可能なドメイン知識を活用して、エンティティリンクのための知識豊富な自己スーパービジョン($\tt kriss$)について検討する。 トレーニングでは、ドメインオントロジーを用いてラベルなしテキストの自己教師付き言及例を生成し、コントラスト学習を用いて文脈エンコーダを訓練する。 推論では、各エンティティのプロトタイプとして自己教師付き参照をサンプリングし、テスト参照を最も類似したプロトタイプにマッピングしてリンクする。 提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。 バイオメディシンをケーススタディとして,生体医学文献と臨床ノートにまたがる7つの標準データセットについて広範な実験を行った。 ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$\tt KRISSBERT$を生成し,20以上の絶対点の精度で従来の自己管理手法よりも優れていた。

Entity linking faces significant challenges, such as prolific variations and prevalent ambiguities, especially in high-value domains with myriad entities. Standard classification approaches suffer from the annotation bottleneck and cannot effectively handle unseen entities. Zero-shot entity linking has emerged as a promising direction for generalizing to new entities, but it still requires example gold entity mentions during training and canonical descriptions for all entities, both of which are rarely available outside of Wikipedia. In this paper, we explore Knowledge-RIch Self-Supervision ($\tt KRISS$) for entity linking, by leveraging readily available domain knowledge. In training, it generates self-supervised mention examples on unlabeled text using a domain ontology and trains a contextual encoder using contrastive learning. For inference, it samples self-supervised mentions as prototypes for each entity and conducts linking by mapping the test mention to the most similar prototype. Our approach subsumes zero-shot and few-shot methods, and can easily incorporate entity descriptions and gold mention labels if available. Using biomedicine as a case study, we conducted extensive experiments on seven standard datasets spanning biomedical literature and clinical notes. Without using any labeled information, our method produces $\tt KRISSBERT$, a universal entity linker for four million UMLS entities, which attains new state of the art, outperforming prior self-supervised methods by as much as over 20 absolute points in accuracy.
翻訳日:2021-12-16 14:49:05 公開日:2021-12-15
# イベントリンク:ウィキペディアへのイベントの調停

Event Linking: Grounding Event Mentions to Wikipedia ( http://arxiv.org/abs/2112.07888v1 )

ライセンス: Link先を確認
Xiaodong Yu, Wenpeng Yin, Nitish Gupta, Dan Roth(参考訳) 記事の補完には、その構成イベントを理解する必要がある。 しかし、イベントが言及されるコンテキストには、しばしばこのイベントの詳細が欠けている。 では、そのコンテキストに加えて、この特定のイベントに関する知識はどこで得られるのか? この作業は、イベントレベルの新しい自然言語理解タスクであるイベントリンクを定義する。 イベントリンクは、例えばニュース記事に現れるイベント言及と、最も適切なwikipediaページをリンクしようとする。 このページは、イベントが何を指すのかについての豊富な知識を提供する予定である。 この新しい問題の研究を標準化するために、我々は3次元で貢献する。 まず、イベントリンクタスクを正式に定義したコミュニティ初の作業である。 次に、この新しいタスクのデータセットを収集します。 具体的には、まずwikipediaからトレーニングセットを自動収集し、次に2つの評価セットを作成します。1つはwikipediaドメインから、もう1つはドメイン内パフォーマンスを報告し、もう1つは現実世界のニュースドメインから、もう1つはドメイン外パフォーマンスをテストする。 第3に,最初のイベントリンク方式であるEveLINKを提案する。 全体として、イベントリンクはコミュニティからより多くの労力を必要とするかなり困難なタスクである。 データとコードはここで入手できる。 https://github.com/cogcomp/event-linking。

Comprehending an article requires understanding its constituent events. However, the context where an event is mentioned often lacks the details of this event. Then, where can we obtain more knowledge of this particular event in addition to its context? This work defines Event Linking, a new natural language understanding task at the event level. Event linking tries to link an event mention, appearing in a news article for example, to the most appropriate Wikipedia page. This page is expected to provide rich knowledge about what the event refers to. To standardize the research of this new problem, we contribute in three-fold. First, this is the first work in the community that formally defines event linking task. Second, we collect a dataset for this new task. In specific, we first gather training set automatically from Wikipedia, then create two evaluation sets: one from the Wikipedia domain as well, reporting the in-domain performance; the other from the real-world news domain, testing the out-of-domain performance. Third, we propose EveLINK, the first-ever Event Linking approach. Overall, event linking is a considerably challenging task requiring more effort from the community. Data and code are available here: https://github.com/CogComp/event-linking.
翻訳日:2021-12-16 14:48:38 公開日:2021-12-15
# 統一知識表現を用いた知識接地対話生成

Knowledge-Grounded Dialogue Generation with a Unified Knowledge Representation ( http://arxiv.org/abs/2112.07924v1 )

ライセンス: Link先を確認
Yu Li, Baolin Peng, Yelong Shen, Yi Mao, Lars Liden, Zhou Yu, Jianfeng Gao(参考訳) 知識接地対話システムは、トレーニングデータや異種知識源の欠如により構築が困難である。 既存のシステムは、トレーニングデータでカバーされるトピックが限られているため、目に見えないトピックではパフォーマンスが低下する。 さらに、異質な知識源は、異なる知識表現の知識源が異なる知識エンコーダを必要とするため、システムが他のタスクに一般化することを難しくする。 これらの課題に対処するため,我々は,異なる知識ソースを,知識接地対話生成タスクのための統一知識表現に相同化する言語モデル plug を提案する。 PLUGは、統一本質的な知識表現に基づく対話生成タスクで事前訓練される。 ダウンストリームの知識に基づく対話生成タスクを,いくつかのトレーニング例で一般化することができる。 2つのベンチマークにおける経験的評価は、我々のモデルは異なる知識ベースタスク間でよく一般化されていることを示している。 完全な教師付き設定で最先端のメソッドと同等のパフォーマンスを達成でき、ゼロショットと少数ショット設定で他のメソッドを大幅に上回ることができる。

Knowledge-grounded dialogue systems are challenging to build due to the lack of training data and heterogeneous knowledge sources. Existing systems perform poorly on unseen topics due to limited topics covered in the training data. In addition, heterogeneous knowledge sources make it challenging for systems to generalize to other tasks because knowledge sources in different knowledge representations require different knowledge encoders. To address these challenges, we present PLUG, a language model that homogenizes different knowledge sources to a unified knowledge representation for knowledge-grounded dialogue generation tasks. PLUG is pre-trained on a dialogue generation task conditioned on a unified essential knowledge representation. It can generalize to different downstream knowledge-grounded dialogue generation tasks with a few training examples. The empirical evaluation on two benchmarks shows that our model generalizes well across different knowledge-grounded tasks. It can achieve comparable performance with state-of-the-art methods under a fully-supervised setting and significantly outperforms other methods in zero-shot and few-shot settings.
翻訳日:2021-12-16 14:48:23 公開日:2021-12-15
# コンテキスト特徴とグローバル特徴を組み合わせた名前付きエンティティ認識アーキテクチャ

Named entity recognition architecture combining contextual and global features ( http://arxiv.org/abs/2112.08033v1 )

ライセンス: Link先を確認
Tran Thi Hong Hanh, Antoine Doucet, Nicolas Sidere, Jose G. Moreno, and Senja Pollak(参考訳) 名前付きエンティティ認識(NER)は、文書内の名前付きエンティティ(組織、場所、...)を事前に定義されたカテゴリに分類することを目的とした、情報抽出技術である。 これらのフレーズを正しく識別することは、情報アクセスを単純化する上で重要な役割を果たす。 しかし、名前付きエンティティ(nes)は複数のフォームを持ち、コンテキスト依存であるため、依然として難しい作業である。 文脈は文脈の特徴によって表されるが、グローバルな関係はしばしばそれらのモデルによって誤解される。 本稿では,XLNet のコンテキスト特徴と Graph Convolution Network (GCN) のグローバル特徴を組み合わせた NER の性能向上を提案する。 広く使われているデータセットであるCoNLL 2003の実験は、私たちの戦略の利点を示し、その結果は最先端技術(SOTA)と競合する。

Named entity recognition (NER) is an information extraction technique that aims to locate and classify named entities (e.g., organizations, locations,...) within a document into predefined categories. Correctly identifying these phrases plays a significant role in simplifying information access. However, it remains a difficult task because named entities (NEs) have multiple forms and they are context-dependent. While the context can be represented by contextual features, global relations are often misrepresented by those models. In this paper, we propose the combination of contextual features from XLNet and global features from Graph Convolution Network (GCN) to enhance NER performance. Experiments over a widely-used dataset, CoNLL 2003, show the benefits of our strategy, with results competitive with the state of the art (SOTA).
翻訳日:2021-12-16 14:48:05 公開日:2021-12-15
# 相対モデル比較のための動的人間評価

Dynamic Human Evaluation for Relative Model Comparisons ( http://arxiv.org/abs/2112.08048v1 )

ライセンス: Link先を確認
Th\'orhildur Thorleiksd\'ottir, Cedric Renggli, Nora Hollenstein, Ce Zhang(参考訳) 人間の判断の収集は現在、自然言語生成システムにおいて最も信頼できる評価方法である。 自動メトリクスは、生成されたテキストの品質の側面を測定するために適用される欠陥を報告し、人間の判断と不相関であることが示されている。 しかし、人間評価は時間とコストがかかるため、人間評価実験の設計と実施に関するコンセンサスが欠如している。 したがって、自然言語生成システムを評価する際に、人間の判断を効率的に収集するための合理化アプローチが必要である。 そこで本研究では,生成した出力を相対比較設定で評価する際に必要な人間のアノテーション数を測定するための動的手法を提案する。 シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するためのエージェントベース評価フレームワークを提案する。 主な結果は、優れたモデルに関する決定は、異なるラベリング戦略をまたいで高い確率で行えることを示しており、タスクごとに単一のランダムワーカーを割り当てるには、全体のラベリング労力が最小であり、したがってコストが最小となる。

Collecting human judgements is currently the most reliable evaluation method for natural language generation systems. Automatic metrics have reported flaws when applied to measure quality aspects of generated text and have been shown to correlate poorly with human judgements. However, human evaluation is time and cost-intensive, and we lack consensus on designing and conducting human evaluation experiments. Thus there is a need for streamlined approaches for efficient collection of human judgements when evaluating natural language generation systems. Therefore, we present a dynamic approach to measure the required number of human annotations when evaluating generated outputs in relative comparison settings. We propose an agent-based framework of human evaluation to assess multiple labelling strategies and methods to decide the better model in a simulation and a crowdsourcing case study. The main results indicate that a decision about the superior model can be made with high probability across different labelling strategies, where assigning a single random worker per task requires the least overall labelling effort and thus the least cost.
翻訳日:2021-12-16 14:47:51 公開日:2021-12-15
# KGR^4:Commonsense生成のための検索,レトロスペクティブ,リファイン,再考

KGR^4: Retrieval, Retrospect, Refine and Rethink for Commonsense Generation ( http://arxiv.org/abs/2112.08266v1 )

ライセンス: Link先を確認
Xin Liu, Dayiheng Liu, Baosong Yang, Haibo Zhang, Junwei Ding, Wenqing Yao, Weihua Luo, Haiying Zhang, Jinsong Su(参考訳) 生成的コモンセンス推論は、いくつかの概念から日常的なシナリオを記述する文を生成する必要があるが、近年注目されている。 しかし、既存のモデルは、生成する文がしばしば意味が無く、文法的に不正確なため、人間と同様に機能することができない。 本稿では,人間が文を作る過程に触発されて,検索,振り返り,精錬,再考の4段階からなる,新しい知識エンハンスド・コモンセンス生成フレームワーク「kgr^4」を提案する。 本手法では,まず,外部コーパスから関連する文を検索する検索を行う。 そして、これらのプロトタイプを編集またはコピーして候補文を生成するジェネレータをトレーニングし、その中の潜在的なエラーをオートエンコーダベースのリファインダで修正します。 最後に、異なるハイパーパラメータを持つジェネレータによって生成される候補文から出力文を選択する。 CommonGenベンチマークの実験結果と詳細な分析は、我々のフレームワークの有効性を強く実証している。 特に、KGR^4は公式のリーダーボードで33.56のSPICEポイントを獲得し、2.49のSPICEポイントを達成し、最先端のパフォーマンスを達成した。

Generative commonsense reasoning requires machines to generate sentences describing an everyday scenario given several concepts, which has attracted much attention recently. However, existing models cannot perform as well as humans, since sentences they produce are often implausible and grammatically incorrect. In this paper, inspired by the process of humans creating sentences, we propose a novel Knowledge-enhanced Commonsense Generation framework, termed KGR^4, consisting of four stages: Retrieval, Retrospect, Refine, Rethink. Under this framework, we first perform retrieval to search for relevant sentences from external corpus as the prototypes. Then, we train the generator that either edits or copies these prototypes to generate candidate sentences, of which potential errors will be fixed by an autoencoder-based refiner. Finally, we select the output sentence from candidate sentences produced by generators with different hyper-parameters. Experimental results and in-depth analysis on the CommonGen benchmark strongly demonstrate the effectiveness of our framework. Particularly, KGR^4 obtains 33.56 SPICE points in the official leaderboard, outperforming the previously-reported best result by 2.49 SPICE points and achieving state-of-the-art performance.
翻訳日:2021-12-16 14:46:34 公開日:2021-12-15
# 機械翻訳におけるドメインロバスト性とドメイン適応性の改善

Improving both domain robustness and domain adaptability in machine translation ( http://arxiv.org/abs/2112.08288v1 )

ライセンス: Link先を確認
Wen Lai, Jind\v{r}ich Libovick\'y, Alexander Fraser(参考訳) ニューラルマシン翻訳における領域適応の2つの問題に対処する。 まず、トレーニングデータから両方のドメインの品質を向上し、トレーニングデータに見つからないドメインに到達したいと考えています。 第2に、数百のドメイン内並列文でシステムを微調整できるように、システムを適応させたいと考えています。 本稿では,ドメインの堅牢性に対処する単語適応型モデリングと,ドメイン適応性に対処するメタラーニングという,従来の2つのアプローチの新たな組み合わせを紹介する。

We address two problems of domain adaptation in neural machine translation. First, we want to reach domain robustness, i.e., good quality of both domains from the training data, and domains unseen in the training data. Second, we want our systems to be adaptive, i.e., making it possible to finetune systems with just hundreds of in-domain parallel sentences. In this paper, we introduce a novel combination of two previous approaches, word adaptive modelling, which addresses domain robustness, and meta-learning, which addresses domain adaptability, and we present empirical results showing that our new combination improves both of these properties.
翻訳日:2021-12-16 14:46:11 公開日:2021-12-15
# 私の好きな新作映画」は私の好きな映画ですか。 再帰名詞句の理解の探究

Is "my favorite new movie" my favorite movie? Probing the Understanding of Recursive Noun Phrases ( http://arxiv.org/abs/2112.08326v1 )

ライセンス: Link先を確認
Qing Lyu, Hua Zheng, Daoxin Li, Li Zhang, Marianna Apidianaki, Chris Callison-Burch(参考訳) 再帰名詞句(NP)は興味深い意味を持つ。 例えば、"my favorite new movie" は必ずしも "my favorite movie" ではなく、"my new favorite movie" は "my favorite movie" である。 これは人間には常識であるが、事前訓練された言語モデルがそのような知識を持っているかどうかは不明である。 本稿では,再帰的名詞句読解法 (RNPC) の課題として,再帰的名詞句読解法 (Recursive Noun Phrase Challenge) を導入する。 我々のデータセットで評価すると、最先端のTransformerモデルは偶然のパフォーマンスしか達成できない。 しかし,このような知識は適切なデータを用いて学習可能であることを示す。 我々はさらに,修飾子意味カテゴリーや修飾子スコープを含むタスクから学習可能な関連言語特徴のモデルについても検討した。 最後に、RNPCでトレーニングされたモデルは、外部ハーム検出タスクにおいて強力なゼロショット性能を達成し、下流アプリケーションにおける再帰的NPの理解の有用性を示す。 すべてのコードとデータはhttps://github.com/veronica320/Recursive-NPsでリリースされる。

Recursive noun phrases (NPs) have interesting semantic properties. For example, "my favorite new movie" is not necessarily "my favorite movie", whereas "my new favorite movie" is. This is common sense to humans, yet it is unknown whether pre-trained language models have such knowledge. We introduce the Recursive Noun Phrase Challenge (RNPC), a challenge set targeting the understanding of recursive NPs. When evaluated on our dataset, state-of-the-art Transformer models only achieve around chance performance. Still, we show that such knowledge is learnable with appropriate data. We further probe the models for relevant linguistic features that can be learned from our tasks, including modifier semantic category and modifier scope. Finally, models trained on RNPC achieve strong zero-shot performance on an extrinsic Harm Detection task, showing the usefulness of the understanding of recursive NPs in downstream applications. All code and data will be released at https://github.com/veronica320/Recursive-NPs.
翻訳日:2021-12-16 14:46:00 公開日:2021-12-15
# タスク指向対話におけるエンティティリンクのための事前学習型トランスフォーマーモデルの評価

Evaluating Pretrained Transformer Models for Entity Linking in Task-Oriented Dialog ( http://arxiv.org/abs/2112.08327v1 )

ライセンス: Link先を確認
Sai Muralidhar Jayanthi, Varsha Embar, Karthik Raghunathan(参考訳) 自然言語タスクに対する事前学習型トランスフォーマーモデル(PTM)の適用性は広く実証されているが,テキストの短いフレーズを理解する能力は少ない。 この目的のために,タスク指向対話における教師なしエンティティリンクのレンズから,構文,意味,ショートフォーム,数値,音声の5つの特徴を評価する。 これらの結果から, PTMのいくつかは, 他の神経ベースラインと競合するが, 従来の手法と比較するとサブパーの結果が得られた。 それらの欠点のいくつかは、テキスト類似性タスクにptmsを微調整することで対処できることが判明し、意味的および構文的対応の理解能力が向上し、エンティティ参照における短縮形、数値的および音韻的バリエーションも改善された。 予測におけるニュアンスを理解するための定性的分析を行い、さらなる改善のスコープについて議論する。 コードはhttps://github.com/murali 1996/el_todにある。

The wide applicability of pretrained transformer models (PTMs) for natural language tasks is well demonstrated, but their ability to comprehend short phrases of text is less explored. To this end, we evaluate different PTMs from the lens of unsupervised Entity Linking in task-oriented dialog across 5 characteristics -- syntactic, semantic, short-forms, numeric and phonetic. Our results demonstrate that several of the PTMs produce sub-par results when compared to traditional techniques, albeit competitive to other neural baselines. We find that some of their shortcomings can be addressed by using PTMs fine-tuned for text-similarity tasks, which illustrate an improved ability in comprehending semantic and syntactic correspondences, as well as some improvements for short-forms, numeric and phonetic variations in entity mentions. We perform qualitative analysis to understand nuances in their predictions and discuss scope for further improvements. Code can be found at https://github.com/murali1996/el_tod
翻訳日:2021-12-16 14:45:44 公開日:2021-12-15
# AllWOZ:多言語タスク指向対話システムを目指して

AllWOZ: Towards Multilingual Task-Oriented Dialog Systems for All ( http://arxiv.org/abs/2112.08333v1 )

ライセンス: Link先を確認
Lei Zuo, Kun Qian, Bowen Yang, Zhou Yu(参考訳) Amazon AlexaやApple Siriのような最先端の自然言語技術の一般的な問題は、彼らのサービスが言語障壁のためにほとんどの途上国の市民に拡張されないことである。 このような人口は、NLP製品を作るための言語に資源が不足しているために苦しんでいる。 本稿では,英語,マンダリン,韓国語,ベトナム語,ヒンディー語,フランス語,ポルトガル語,タイ語を含む8言語を対象とした多言語多言語タスク指向顧客サービスダイアログであるAllWOZを提案する。 さらに,メタ学習にmT5を適用することで,多言語データセットのベンチマークを作成する。

A commonly observed problem of the state-of-the-art natural language technologies, such as Amazon Alexa and Apple Siri, is that their services do not extend to most developing countries' citizens due to language barriers. Such populations suffer due to the lack of available resources in their languages to build NLP products. This paper presents AllWOZ, a multilingual multi-domain task-oriented customer service dialog dataset covering eight languages: English, Mandarin, Korean, Vietnamese, Hindi, French, Portuguese, and Thai. Furthermore, we create a benchmark for our multilingual dataset by applying mT5 with meta-learning.
翻訳日:2021-12-16 14:45:23 公開日:2021-12-15
# DG2: 文書接地対話生成によるデータ拡張

DG2: Data Augmentation Through Document Grounded Dialogue Generation ( http://arxiv.org/abs/2112.08342v1 )

ライセンス: Link先を確認
Qingyang Wu, Song Feng, Derek Chen, Sachindra Joshi, Luis A. Lastras, Zhou Yu(参考訳) トレーニング用ダイアログシステムのためのデータ収集は、人間の関与と広範なアノテーションを必要とするため、非常に高価である。 特に文書化された対話システムでは、人間の専門家はユーザの質問に答えるために構造化されていない文書を注意深く読む必要がある。 その結果、既存のドキュメント・グラウンド・ダイアログデータセットは比較的小規模であり、対話システムの効果的なトレーニングを妨げている。 本稿では,生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。 対話モデルは、入力文書が与えられた多様な対話を合成できるユーザボットとエージェントボットで構成され、下流モデルのトレーニングに使用される。 元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。 低リソース環境でも優れたパフォーマンスを実現しています。

Collecting data for training dialog systems can be extremely expensive due to the involvement of human participants and need for extensive annotation. Especially in document-grounded dialog systems, human experts need to carefully read the unstructured documents to answer the users' questions. As a result, existing document-grounded dialog datasets are relatively small-scale and obstruct the effective training of dialogue systems. In this paper, we propose an automatic data augmentation technique grounded on documents through a generative dialogue model. The dialogue model consists of a user bot and agent bot that can synthesize diverse dialogues given an input document, which are then used to train a downstream model. When supplementing the original dataset, our method achieves significant improvement over traditional data augmentation methods. We also achieve great performance in the low-resource setting.
翻訳日:2021-12-16 14:45:12 公開日:2021-12-15
# 迅速指向性:連続的プロンプトの離散的解釈の奇妙なケース

PROMPT WAYWARDNESS: The Curious Case of Discretized Interpretation of Continuous Prompts ( http://arxiv.org/abs/2112.08348v1 )

ライセンス: Link先を確認
Daniel Khashabi, Shane Lyu, Sewon Min, Lianhui Qin, Kyle Richardson, Sameer Singh, Sean Welleck, Hannaneh Hajishirzi, Tushar Khot, Ashish Sabharwal, Yejin Choi(参考訳) 対象タスクの微調整連続プロンプトは、最近フルモデル微調整のコンパクトな代替として登場した。 これらの有望な結果に触発され、我々はそれらが解決する問題に忠実な連続的プロンプトの離散的(テキスト的)解釈を抽出する可能性を検討する。 実際には、連続的プロンプトによって解決されたタスクと、近隣の離散的プロンプトの間の「途中」の挙動を観察する: 任意のテキスト(例えば、異なるタスクや矛盾するタスクの定義)に投影されている間、タスクを解く連続的プロンプトを見つけることができ、タスクの同じサイズの最高の連続的プロンプトの非常に小さな(2%)マージン以内にいる。 この奇異で驚くべき行動の背後にある直感や、様々なパラメータの効果を定量化する広範な経験的分析を提供する。 例えば、より大きなモデルサイズの場合、より高い進路性、すなわち、より精度の低い任意のテキストにより密にマッピングするプロンプトを見つけることができる。 これらの発見は、継続的なプロンプトを忠実に解釈することの難しさと、モデルとタスク間の一般化に関する重要な意味を持ち、言語モデルを推進するための将来の進歩のためのガイダンスを提供する。

Fine-tuning continuous prompts for target tasks has recently emerged as a compact alternative to full model fine-tuning. Motivated by these promising results, we investigate the feasibility of extracting a discrete (textual) interpretation of continuous prompts that is faithful to the problem they solve. In practice, we observe a "wayward" behavior between the task solved by continuous prompts and their nearest neighbor discrete projections: We can find continuous prompts that solve a task while being projected to an arbitrary text (e.g., definition of a different or even a contradictory task), while being within a very small (2%) margin of the best continuous prompt of the same size for the task. We provide intuitions behind this odd and surprising behavior, as well as extensive empirical analyses quantifying the effect of various parameters. For instance, for larger model sizes we observe higher waywardness, i.e, we can find prompts that more closely map to any arbitrary text with a smaller drop in accuracy. These findings have important implications relating to the difficulty of faithfully interpreting continuous prompts and their generalization across models and tasks, providing guidance for future progress in prompting language models.
翻訳日:2021-12-16 14:43:47 公開日:2021-12-15
# タスク指向対話システムのためのデータベース検索結果の曖昧化

Database Search Results Disambiguation for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2112.08351v1 )

ライセンス: Link先を確認
Kun Qian, Ahmad Beirami, Satwik Kottur, Shahin Shayandeh, Paul Crook, Alborz Geramifard, Zhou Yu, Chinnadhurai Sankar(参考訳) タスク指向のダイアログシステムが私たちの生活でますます普及している中、より現実的なタスクが提案され、検討されています。 しかし、新たな課題が生まれている。 例えば、現在のダイアログシステムは、既存の公開データセットにそのようなシナリオがないため、データベースをクエリするときに複数の検索結果を効果的に処理できない。 本稿では,データベース検索結果の曖昧さを解消する新しい課題であるデータベース検索結果(dsr)の曖昧さを解消することを提案する。 そこで本研究では,タスク指向の対話データセット (multiwoz と sgd) を,曖昧さを解消するターンで拡張する。 (a)予め定義された文法を合成的に生成し、 b) サブセットのために人間のパラフレーズを収集すること。 拡張ダイアログデータのトレーニングは、修正されていないターンのパフォーマンスを犠牲にすることなく、曖昧なシナリオに対処するモデルの能力を向上させる。 さらに,本モデルでは,ドメイン内データがない場合でも,DSRの曖昧性向上に寄与し,ユニバーサルダイアログスキルとして学習できることが示唆された。 私たちのデータとコードは公開されます。

As task-oriented dialog systems are becoming increasingly popular in our lives, more realistic tasks have been proposed and explored. However, new practical challenges arise. For instance, current dialog systems cannot effectively handle multiple search results when querying a database, due to the lack of such scenarios in existing public datasets. In this paper, we propose Database Search Result (DSR) Disambiguation, a novel task that focuses on disambiguating database search results, which enhances user experience by allowing them to choose from multiple options instead of just one. To study this task, we augment the popular task-oriented dialog datasets (MultiWOZ and SGD) with turns that resolve ambiguities by (a) synthetically generating turns through a pre-defined grammar, and (b) collecting human paraphrases for a subset. We find that training on our augmented dialog data improves the model's ability to deal with ambiguous scenarios, without sacrificing performance on unmodified turns. Furthermore, pre-fine tuning and multi-task learning help our model to improve performance on DSR-disambiguation even in the absence of in-domain data, suggesting that it can be learned as a universal dialog skill. Our data and code will be made publicly available.
翻訳日:2021-12-16 14:43:22 公開日:2021-12-15
# Homotopy Warpingによる画像分割

Image Segmentation with Homotopy Warping ( http://arxiv.org/abs/2112.07812v1 )

ライセンス: Link先を確認
Xiaoling Hu, Chao Chen(参考訳) 画素ごとの精度の他に、トポロジカルな正確性は、衛星画像や生体画像などの微細な構造を持つ画像のセグメンテーションにも重要である。 本稿では,デジタルトポロジーの理論を活用し,トポロジーにとって重要な画像中の位置を同定する。 そこで我々は,これらの重要な位置に着目して,深い画像分割ネットワークを訓練し,位相的精度を向上させるための新しいホモトピーウォーピング損失を提案する。 位相的に重要な位置を効率的に同定するために,距離変換を利用した新しいアルゴリズムを提案する。 提案するアルゴリズムは損失関数と同様に、自然に2dおよび3d設定の異なる位相構造に一般化する。 提案された損失関数は、ディープネットがトポロジーを認識できるメトリクスにおいて、最先端のトポロジー保存セグメンテーション法よりも優れたパフォーマンスを達成するのに役立つ。

Besides per-pixel accuracy, topological correctness is also crucial for the segmentation of images with fine-scale structures, e.g., satellite images and biomedical images. In this paper, by leveraging the theory of digital topology, we identify locations in an image that are critical for topology. By focusing on these critical locations, we propose a new homotopy warping loss to train deep image segmentation networks for better topological accuracy. To efficiently identity these topologically critical locations, we propose a new algorithm exploiting the distance transform. The proposed algorithm, as well as the loss function, naturally generalize to different topological structures in both 2D and 3D settings. The proposed loss function helps deep nets achieve better performance in terms of topology-aware metrics, outperforming state-of-the-art topology-preserving segmentation methods.
翻訳日:2021-12-16 14:42:47 公開日:2021-12-15
# ゼロショット意味セグメンテーションの分離

Decoupling Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2112.07910v1 )

ライセンス: Link先を確認
Jian Ding, Nan Xue, Gui-Song Xia, Dengxin Dai(参考訳) ゼロショットセマンティックセグメンテーション(ZS3)は、トレーニングで見たことのない新しいカテゴリをセグメンテーションすることを目的としている。 既存の作業は、ピクセルレベルのゼロショット分類問題としてZS3を定式化し、テキストのみで事前訓練された言語モデルの助けを借りて、見たクラスから見えないクラスに意味的な知識を伝達する。 単純ではあるが、ピクセルレベルZS3の定式化は、画像とテキストのペアで事前訓練された視覚言語モデルを統合する能力に制限があることを示している。 人間がしばしばセグメントレベルのセマンティックラベリングを行うという観察に触発されて、我々はZS3を2つのサブタスクに分離することを提案する。 1) ピクセルをセグメントにグループ化するクラス非依存のグループ化タスク。 2)セグメント上のゼロショット分類タスク。 前者のサブタスクはカテゴリ情報を含んでおらず、見当たらないクラスのためにグループピクセルに直接転送することができる。 後者のサブタスクはセグメントレベルで動作し、ZS3のイメージテキストペア(例えばCLIP)で事前訓練された大規模な視覚言語モデルを活用する自然な方法を提供する。 このデカップリング式に基づいて,ZegFormerと呼ばれる単純なゼロショットセマンティックセマンティックセマンティクスモデルを提案する。これは従来のZS3標準ベンチマークではPASCAL VOCで35点,COCO-Stuffで3点,未確認クラスでmIoUで3点,といった大きなマージンで上回っている。 コードはhttps://github.com/dingjiansw101/ZegFormerでリリースされる。

Zero-shot semantic segmentation (ZS3) aims to segment the novel categories that have not been seen in the training. Existing works formulate ZS3 as a pixel-level zero-shot classification problem, and transfer semantic knowledge from seen classes to unseen ones with the help of language models pre-trained only with texts. While simple, the pixel-level ZS3 formulation shows the limited capability to integrate vision-language models that are often pre-trained with image-text pairs and currently demonstrate great potential for vision tasks. Inspired by the observation that humans often perform segment-level semantic labeling, we propose to decouple the ZS3 into two sub-tasks: 1) a class-agnostic grouping task to group the pixels into segments. 2) a zero-shot classification task on segments. The former sub-task does not involve category information and can be directly transferred to group pixels for unseen classes. The latter subtask performs at segment-level and provides a natural way to leverage large-scale vision-language models pre-trained with image-text pairs (e.g. CLIP) for ZS3. Based on the decoupling formulation, we propose a simple and effective zero-shot semantic segmentation model, called ZegFormer, which outperforms the previous methods on ZS3 standard benchmarks by large margins, e.g., 35 points on the PASCAL VOC and 3 points on the COCO-Stuff in terms of mIoU for unseen classes. Code will be released at https://github.com/dingjiansw101/ZegFormer.
翻訳日:2021-12-16 14:42:32 公開日:2021-12-15
# M-FasterSeg:ニューラルネットワークによる効率的なセマンティックセグメンテーションネットワーク

M-FasterSeg: An Efficient Semantic Segmentation Network Based on Neural Architecture Search ( http://arxiv.org/abs/2112.07918v1 )

ライセンス: Link先を確認
Huiyu Kuang(参考訳) 画像セマンティックセグメンテーション技術は、知的システムが自然のシーンを理解するための重要な技術の1つである。 ビジュアルインテリジェンスの分野で重要な研究方向の1つとして、この技術は、モバイルロボット、ドローン、スマート運転、スマートセキュリティといった分野における幅広い応用シナリオを持っている。 しかし, 移動ロボットの実際の応用においては, 不正確なセグメンテーション意味ラベル予測や, セグメンテーション対象と背景のエッジ情報の消失などの問題が発生する可能性がある。 本稿では,ニューラルネットワークとニューラルネットワークアーキテクチャの探索手法を組み合わせた深層学習ネットワークに基づく意味セグメンテーションネットワークの構造改善を提案する。 まず、ニューラルネットワーク探索法NAS(Neural Architecture Search)を用いて、複数の解像度分岐を持つセマンティックセグメンテーションネットワークを求める。 検索処理において、自己注意ネットワーク構造モジュールを結合して探索されたニューラルネットワーク構造を調整し、異なるブランチによって探索された意味セグメントネットワークを組み合わせて高速な意味セグメントネットワーク構造を形成し、最終的な予測結果を得る。 cityscapesデータセットの実験結果は、アルゴリズムの精度が69.8%、セグメンテーション速度が48/sであることを示している。 リアルタイムと精度のバランスが良く、エッジセグメンテーションを最適化でき、複雑なシーンでパフォーマンスが向上します。 優れた堅牢性は実用に適しています。

Image semantic segmentation technology is one of the key technologies for intelligent systems to understand natural scenes. As one of the important research directions in the field of visual intelligence, this technology has broad application scenarios in the fields of mobile robots, drones, smart driving, and smart security. However, in the actual application of mobile robots, problems such as inaccurate segmentation semantic label prediction and loss of edge information of segmented objects and background may occur. This paper proposes an improved structure of a semantic segmentation network based on a deep learning network that combines self-attention neural network and neural network architecture search methods. First, a neural network search method NAS (Neural Architecture Search) is used to find a semantic segmentation network with multiple resolution branches. In the search process, combine the self-attention network structure module to adjust the searched neural network structure, and then combine the semantic segmentation network searched by different branches to form a fast semantic segmentation network structure, and input the picture into the network structure to get the final forecast result. The experimental results on the Cityscapes dataset show that the accuracy of the algorithm is 69.8%, and the segmentation speed is 48/s. It achieves a good balance between real-time and accuracy, can optimize edge segmentation, and has a better performance in complex scenes. Good robustness is suitable for practical application.
翻訳日:2021-12-16 14:42:02 公開日:2021-12-15
# 敵攻撃に対する深部行動認識モデルを守るための時間シャッフル

Temporal Shuffling for Defending Deep Action Recognition Models against Adversarial Attacks ( http://arxiv.org/abs/2112.07921v1 )

ライセンス: Link先を確認
Jaehui Hwang, Huan Zhang, Jun-Ho Choi, Cho-Jui Hsieh, and Jong-Seok Lee(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いた映像に基づく行動認識手法が,目覚ましい認識性能を実現している。 しかし,行動認識モデルの一般化機構についてはまだ理解されていない。 本稿では,行動認識モデルが期待よりも少ない動き情報に依存しており,フレーム順序のランダム化に頑健であることを示す。 本研究は,入力ビデオの時間的シャッフルを用いた,行動認識モデルに対する敵攻撃に対する防御手法の開発である。 我々の防衛方法を可能にするもう1つの観察は、ビデオ上の敵対的摂動は時間的破壊に敏感であるということである。 我々の知る限りでは、これはビデオベースのアクション認識モデルに特有の防御手法を設計する最初の試みである。

Recently, video-based action recognition methods using convolutional neural networks (CNNs) achieve remarkable recognition performance. However, there is still lack of understanding about the generalization mechanism of action recognition models. In this paper, we suggest that action recognition models rely on the motion information less than expected, and thus they are robust to randomization of frame orders. Based on this observation, we develop a novel defense method using temporal shuffling of input videos against adversarial attacks for action recognition models. Another observation enabling our defense method is that adversarial perturbations on videos are sensitive to temporal destruction. To the best of our knowledge, this is the first attempt to design a defense method specific to video-based action recognition models.
翻訳日:2021-12-16 14:41:36 公開日:2021-12-15
# Reasoningによる想像:Long-Tailed 分類のための推論に基づく暗黙的意味データ拡張

Imagine by Reasoning: A Reasoning-Based Implicit Semantic Data Augmentation for Long-Tailed Classification ( http://arxiv.org/abs/2112.07928v1 )

ライセンス: Link先を確認
Xiaohua Chen, Yucan Zhou, Dayan Wu, Wanqian Zhang, Yu Zhou, Bo Li, Weiping Wang(参考訳) 現実世界のデータはしばしばロングテール分布に従い、既存の分類アルゴリズムの性能が著しく低下する。 重要な問題は、テールカテゴリのサンプルがクラス内多様性を描写できないことである。 人間は、たとえこのカテゴリーを初めて見たとしても、以前の知識で新しいポーズ、シーン、角度のサンプルを想像することができる。 そこで本研究では,他のクラスから変換方向を借用する推論に基づく暗黙的意味データ拡張手法を提案する。 各カテゴリの共分散行列は特徴変換方向を表すので、類似のカテゴリから新しい方向をサンプリングして、確実に異なるインスタンスを生成することができる。 具体的には、ロングテールの分散データをまずバックボーンと分類器のトレーニングに採用する。 そして、各カテゴリの共分散行列を推定し、任意の2つのカテゴリの関係を格納する知識グラフを構築する。 最後に、テールサンプルは知識グラフ内の類似したカテゴリの情報を伝達することで適応的に拡張される。 CIFAR-100-LT, ImageNet-LT, iNaturalist 2018 による実験結果から, 提案手法の有効性が得られた。

Real-world data often follows a long-tailed distribution, which makes the performance of existing classification algorithms degrade heavily. A key issue is that samples in tail categories fail to depict their intra-class diversity. Humans can imagine a sample in new poses, scenes, and view angles with their prior knowledge even if it is the first time to see this category. Inspired by this, we propose a novel reasoning-based implicit semantic data augmentation method to borrow transformation directions from other classes. Since the covariance matrix of each category represents the feature transformation directions, we can sample new directions from similar categories to generate definitely different instances. Specifically, the long-tailed distributed data is first adopted to train a backbone and a classifier. Then, a covariance matrix for each category is estimated, and a knowledge graph is constructed to store the relations of any two categories. Finally, tail samples are adaptively enhanced via propagating information from all the similar categories in the knowledge graph. Experimental results on CIFAR-100-LT, ImageNet-LT, and iNaturalist 2018 have demonstrated the effectiveness of our proposed method compared with the state-of-the-art methods.
翻訳日:2021-12-16 14:40:37 公開日:2021-12-15
# 雑音から特徴へ:指静脈認識のための新しいソフトバイオメトリックトとしての強度分布の爆発

From Noise to Feature: Exploiting Intensity Distribution as a Novel Soft Biometric Trait for Finger Vein Recognition ( http://arxiv.org/abs/2112.07931v1 )

ライセンス: Link先を確認
Wenxiong Kang, Yuting Lu, Dejian Li, Wei Jia(参考訳) 多くの指静脈特徴抽出アルゴリズムは、指の組織によって形成される強度分布を同時に無視すると同時に、背景雑音として処理するにもかかわらず、テクスチャ表現能力により良好な性能を達成する。 本稿では,このようなノイズを新しいソフトバイオメトリック特性として活用し,指静脈認識性能の向上を図る。 まず、指静脈イメージングの原理と画像の特徴の詳細な分析を行い、背景の指組織によって形成される強度分布を、認識のためのソフトバイオメトリック特性として抽出できることを示す。 次に、強度分布特徴抽出のために2つの指静脈背景層抽出アルゴリズムと3つのソフトバイオメトリック特徴抽出アルゴリズムを提案する。 最後に, スコアレベルにおける一次的特徴と軟的生体特性の寸法差の問題を解くために, ハイブリッドマッチング戦略を提案する。 3つのオープンアクセスデータベースに対する厳密なコントラスト実験により,本手法が指静脈の認識に有効であることを実証した。

Most finger vein feature extraction algorithms achieve satisfactory performance due to their texture representation abilities, despite simultaneously ignoring the intensity distribution that is formed by the finger tissue, and in some cases, processing it as background noise. In this paper, we exploit this kind of noise as a novel soft biometric trait for achieving better finger vein recognition performance. First, a detailed analysis of the finger vein imaging principle and the characteristics of the image are presented to show that the intensity distribution that is formed by the finger tissue in the background can be extracted as a soft biometric trait for recognition. Then, two finger vein background layer extraction algorithms and three soft biometric trait extraction algorithms are proposed for intensity distribution feature extraction. Finally, a hybrid matching strategy is proposed to solve the issue of dimension difference between the primary and soft biometric traits on the score level. A series of rigorous contrast experiments on three open-access databases demonstrates that our proposed method is feasible and effective for finger vein recognition.
翻訳日:2021-12-16 14:40:19 公開日:2021-12-15
# FEAR: 高速、効率的、高精度、ロバストなビジュアルトラッカー

FEAR: Fast, Efficient, Accurate and Robust Visual Tracker ( http://arxiv.org/abs/2112.07957v1 )

ライセンス: Link先を確認
Vasyl Borsuk, Roman Vei, Orest Kupyn, Tetiana Martyniuk, Igor Krashenyi, Ji\v{r}i Matas(参考訳) 私たちは、新しい、速く、効率的で、正確で、堅牢なシャムのビジュアルトラッカー、fearを紹介します。 本稿では,デュアルテンプレート表現と呼ばれるオブジェクトモデル適応のためのアーキテクチャブロックと,モデルの柔軟性と効率性を実現する画素間融合ブロックを提案する。 デュアルテンプレートモジュールは、時間情報を単一の学習可能なパラメータでのみ含み、画素ワイド融合ブロックは、標準相関モジュールよりも少ないパラメータでより識別的な特徴を符号化する。 新たなモジュールで洗練されたバックボーンをプラグインすることで、FEAR-MとFEAR-Lトラッカーは、精度と効率の両面でいくつかの学術ベンチマークで多くのシームセトラッカーを上回った。 軽量のバックボーンを採用して最適化されたFEAR-XSでは、現在のシームズトラッカーの10倍以上のトラッキングが可能で、最先端の結果を維持している。 FEAR-XSトラッカーは2.4倍小さく、4.3倍高速で精度が良い。 さらに,エネルギー消費と実行速度のベンチマークを導入することにより,モデル効率の定義を拡大する。 ソースコード、事前訓練されたモデル、評価プロトコルが要求に応じて利用可能になる

We present FEAR, a novel, fast, efficient, accurate, and robust Siamese visual tracker. We introduce an architecture block for object model adaption, called dual-template representation, and a pixel-wise fusion block to achieve extra flexibility and efficiency of the model. The dual-template module incorporates temporal information with only a single learnable parameter, while the pixel-wise fusion block encodes more discriminative features with fewer parameters compared to standard correlation modules. By plugging-in sophisticated backbones with the novel modules, FEAR-M and FEAR-L trackers surpass most Siamesetrackers on several academic benchmarks in both accuracy and efficiencies. Employed with the lightweight backbone, the optimized version FEAR-XS offers more than 10 times faster tracking than current Siamese trackers while maintaining near state-of-the-art results. FEAR-XS tracker is 2.4x smaller and 4.3x faster than LightTrack [62] with superior accuracy. In addition, we expand the definition of the model efficiency by introducing a benchmark on energy consumption and execution speed. Source code, pre-trained models, and evaluation protocol will be made available upon request
翻訳日:2021-12-16 14:40:03 公開日:2021-12-15
# ゼロショットスケッチ画像検索のためのモダリティ対応トリプルトハードマイニング

Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2112.07966v1 )

ライセンス: Link先を確認
Zongheng Huang, YiFan Sun, Chuchu Han, Changxin Gao, Nong Sang(参考訳) 本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。 %であった。 このタスクには2つの特徴があります 1)ゼロショット設定は、クラス内コンパクト性と、新規クラスを認識するためのクラス間の相違性を有する計量空間を必要とする。 2)スケッチクエリとフォトギャラリーは異なるモードである。 計量学習の観点は、2つの側面からZS-SBIRの恩恵を受ける。 第一に、ディープメトリックラーニング(DML)における最近の良い実践を通じて改善を促進する。 dmlにおける2つの基本的な学習アプローチ、例えば、分類訓練とペアワイズトレーニングを組み合わせることで、zs-sbirの強力なベースラインを確立しました。 ベルとホイッスルがなければ、このベースラインは競合する検索精度を達成する。 第二に、モダリティギャップを適切に抑制することが重要であるという洞察を与える。 そこで我々は, Modality-Aware Triplet Hard Mining (MATHM) という新しい手法を設計した。 MATHMは3種類のペアワイズ学習、emph{e.g.}、クロスモダリティサンプルペア、イントラモダリティサンプルペア、それらの組み合わせでベースラインを強化する。 また,これらの3成分を動的にバランスさせる適応重み付け法も設計した。 実験結果から,MATHMは強いベースラインに基づいて新たな大幅な改良を行い,新たな最先端性能が確立された。 例えば、TU-Berlinデータセットでは、47.88+2.94\% mAP@allと58.28+2.34\% Prec@100を達成する。 コードは公開されます。

This paper tackles the Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR) problem from the viewpoint of cross-modality metric learning. % with recent good practices in deep metric learning. This task has two characteristics: 1) the zero-shot setting requires a metric space with good within-class compactness and the between-class discrepancy for recognizing the novel classes and 2) the sketch query and the photo gallery are in different modalities. The metric learning viewpoint benefits ZS-SBIR from two aspects. First, it facilitates improvement through recent good practices in deep metric learning (DML). By combining two fundamental learning approaches in DML, \emph{e.g.}, classification training and pairwise training, we set up a strong baseline for ZS-SBIR. Without bells and whistles, this baseline achieves competitive retrieval accuracy. Second, it provides an insight that properly suppressing the modality gap is critical. To this end, we design a novel method named Modality-Aware Triplet Hard Mining (MATHM). MATHM enhances the baseline with three types of pairwise learning, \emph{e.g.}, a cross-modality sample pair, a within-modality sample pair, and their combination.\We also design an adaptive weighting method to balance these three components during training dynamically. Experimental results confirm that MATHM brings another round of significant improvement based on the strong baseline and sets up new state-of-the-art performance. For example, on the TU-Berlin dataset, we achieve 47.88+2.94\% mAP@all and 58.28+2.34\% Prec@100. Code will be publicly available.
翻訳日:2021-12-16 14:39:44 公開日:2021-12-15
# クロスドメインセマンティクスセグメンテーションのための自己センシングgan

Self-Ensembling GAN for Cross-Domain Semantic Segmentation ( http://arxiv.org/abs/2112.07999v1 )

ライセンス: Link先を確認
Yonghao Xu, Fengxiang He, Bo Du, Liangpei Zhang, Dacheng Tao(参考訳) ディープニューラルネットワーク(DNN)はセマンティックセグメンテーションのパフォーマンス向上に大きく貢献している。 それでも、DNNのトレーニングには、一般的に大量のピクセルレベルのラベル付きデータが必要である。 アノテーションの負担を軽減するため,セマンティックセグメンテーションのためのドメイン間データを利用した自己認識型生成対向ネットワーク(SE-GAN)を提案する。 se-ganでは、教師ネットワークと生徒ネットワークは、判別器と共にganを形成する意味セグメンテーションマップを生成するための自己センシングモデルを構成する。 その単純さにもかかわらず、SE-GANは対戦訓練の性能を大幅に向上させ、モデルの安定性を高めることができる。 理論的には、se-gan を解析し、一般化性を高めるために判別器の仮説複雑性を制御することを示唆する "\mathcal o(1/\sqrt{n})$ generalization bound ($n$ is the training sample size") を提供する。 したがって、識別器として単純なネットワークを選択する。 2つの標準設定における大規模かつ体系的な実験は、提案手法が現在の最先端手法よりも大幅に優れていることを示す。 私たちのモデルのソースコードはもうすぐ入手可能になります。

Deep neural networks (DNNs) have greatly contributed to the performance gains in semantic segmentation. Nevertheless, training DNNs generally requires large amounts of pixel-level labeled data, which is expensive and time-consuming to collect in practice. To mitigate the annotation burden, this paper proposes a self-ensembling generative adversarial network (SE-GAN) exploiting cross-domain data for semantic segmentation. In SE-GAN, a teacher network and a student network constitute a self-ensembling model for generating semantic segmentation maps, which together with a discriminator, forms a GAN. Despite its simplicity, we find SE-GAN can significantly boost the performance of adversarial training and enhance the stability of the model, the latter of which is a common barrier shared by most adversarial training-based methods. We theoretically analyze SE-GAN and provide an $\mathcal O(1/\sqrt{N})$ generalization bound ($N$ is the training sample size), which suggests controlling the discriminator's hypothesis complexity to enhance the generalizability. Accordingly, we choose a simple network as the discriminator. Extensive and systematic experiments in two standard settings demonstrate that the proposed method significantly outperforms current state-of-the-art approaches. The source code of our model will be available soon.
翻訳日:2021-12-16 14:39:18 公開日:2021-12-15
# 背景雑音推定を用いたオートエンコーダに基づく背景復元と前景セグメンテーション

Autoencoder-based background reconstruction and foreground segmentation with background noise estimation ( http://arxiv.org/abs/2112.08001v1 )

ライセンス: Link先を確認
Bruno Sauvalle and Arnaud de La Fortelle(参考訳) 何十年もの研究を経ても、照明の変化、カメラの動き、空気の乱流や木々の移動による背景ノイズなど様々な課題により、ダイナミックシーンの背景復元と前景オブジェクトのセグメンテーションは依然としてオープンな問題と見なされている。 本稿では,ビデオシーケンスの背景をオートエンコーダを用いて低次元多様体としてモデル化し,このオートエンコーダが提供する再構成背景を原画像と比較し,フォアグラウンド/バックグラウンドセグメンテーションマスクを計算する。 提案モデルの主な特徴は、オートエンコーダが背景雑音を予測できるように訓練されており、各フレームに対して画素依存閾値を計算し、背景/地上セグメンテーションを実行することができることである。 提案モデルでは時間や動きの情報を一切使用していないが,CDnet 2014 や LASIESTA データセットの教師なしバックグラウンドサブトラクションの手法を超越しており,カメラが動いているビデオに大幅な改良が加えられている。

Even after decades of research, dynamic scene background reconstruction and foreground object segmentation are still considered as open problems due various challenges such as illumination changes, camera movements, or background noise caused by air turbulence or moving trees. We propose in this paper to model the background of a video sequence as a low dimensional manifold using an autoencoder and to compare the reconstructed background provided by this autoencoder with the original image to compute the foreground/background segmentation masks. The main novelty of the proposed model is that the autoencoder is also trained to predict the background noise, which allows to compute for each frame a pixel-dependent threshold to perform the background/foreground segmentation. Although the proposed model does not use any temporal or motion information, it exceeds the state of the art for unsupervised background subtraction on the CDnet 2014 and LASIESTA datasets, with a significant improvement on videos where the camera is moving.
翻訳日:2021-12-16 14:38:55 公開日:2021-12-15
# LookinGood^{\pi}: 高品質な人体パフォーマンスキャプチャのためのリアルタイム人非依存型ニューラルリレンダリング

LookinGood^{\pi}: Real-time Person-independent Neural Re-rendering for High-quality Human Performance Capture ( http://arxiv.org/abs/2112.08037v1 )

ライセンス: Link先を確認
Xiqi Yang, Kewei Yang, Kang Chen, Weidong Zhang, Weiwei Xu(参考訳) そこで我々は,LookinGood^{\piというニューラルリレンダリング手法を提案し,(1)人間のパフォーマンスキャプチャシステムから低品質な再構成結果のレンダリング品質をリアルタイムで向上すること,(2)見えない人に対するニューラルネットワークの一般化能力を向上させることを目的とした。 本研究の目的は,再構成幾何のレンダリング画像を,少数の参照画像からの人物特定詳細の予測を支援するガイダンスとして活用することである。 これを踏まえ、我々は2分岐ネットワークを設計する。 粗いブランチは、いくつかのアーティファクト(例えば、穴、ノイズ)を修正し、レンダリングされた入力の粗いバージョンを得るように設計され、細部ブランチは、歪んだ参照から「正しい」詳細を予測するように設計されている。 ディテールブランチのトレーニングにおいて、2つのブランチの特徴を効果的にブレンドすることにより、レンダリング画像のガイダンスを実現し、ワープ精度とディテールの忠実度の両方を改善する。 本手法は, 身近な人物に対して高忠実度画像を生成する技術よりも優れていることを示す。

We propose LookinGood^{\pi}, a novel neural re-rendering approach that is aimed to (1) improve the rendering quality of the low-quality reconstructed results from human performance capture system in real-time; (2) improve the generalization ability of the neural rendering network on unseen people. Our key idea is to utilize the rendered image of reconstructed geometry as the guidance to assist the prediction of person-specific details from few reference images, thus enhancing the re-rendered result. In light of this, we design a two-branch network. A coarse branch is designed to fix some artifacts (i.e. holes, noise) and obtain a coarse version of the rendered input, while a detail branch is designed to predict "correct" details from the warped references. The guidance of the rendered image is realized by blending features from two branches effectively in the training of the detail branch, which improves both the warping accuracy and the details' fidelity. We demonstrate that our method outperforms state-of-the-art methods at producing high-fidelity images on unseen people.
翻訳日:2021-12-16 14:38:35 公開日:2021-12-15
# 気象条件下での物体検出のための画像適応型ヨーロ

Image-Adaptive YOLO for Object Detection in Adverse Weather Conditions ( http://arxiv.org/abs/2112.08088v1 )

ライセンス: Link先を確認
Wenyu Liu, Gaofeng Ren, Runsheng Yu, Shi Guo, Jianke Zhu, Lei Zhang(参考訳) 深層学習に基づくオブジェクト検出手法は従来のデータセットで有望な結果を得たが、悪天候下で撮影された低品質の画像からオブジェクトを見つけることは依然として困難である。 既存の手法では、画像強調とオブジェクト検出のタスクのバランスをとるのが困難か、またはしばしば検出に有用な潜在情報を無視する。 この問題を軽減するため,新しい画像適応型YOLO(IA-YOLO)フレームワークを提案する。 具体的には、小さな畳み込みニューラルネットワーク(CNN-PP)によってパラメータが予測されるYOLO検出器の悪天候を考慮した微分可能画像処理(DIP)モジュールを提示する。 我々は、CNN-PPとYOLOv3をエンドツーエンドで共同で学習し、CNN-PPが適切なDIPを学習し、弱い教師付きで検出のための画像を強化することを保証する。 提案したIA-YOLOアプローチは,正常および悪天候条件の両方で適応的に画像を処理できる。 実験結果は,霧と低照度の両方のシナリオで提案したIA-YOLO法の有効性を示した。

Though deep learning-based object detection methods have achieved promising results on the conventional datasets, it is still challenging to locate objects from the low-quality images captured in adverse weather conditions. The existing methods either have difficulties in balancing the tasks of image enhancement and object detection, or often ignore the latent information beneficial for detection. To alleviate this problem, we propose a novel Image-Adaptive YOLO (IA-YOLO) framework, where each image can be adaptively enhanced for better detection performance. Specifically, a differentiable image processing (DIP) module is presented to take into account the adverse weather conditions for YOLO detector, whose parameters are predicted by a small convolutional neural net-work (CNN-PP). We learn CNN-PP and YOLOv3 jointly in an end-to-end fashion, which ensures that CNN-PP can learn an appropriate DIP to enhance the image for detection in a weakly supervised manner. Our proposed IA-YOLO approach can adaptively process images in both normal and adverse weather conditions. The experimental results are very encouraging, demonstrating the effectiveness of our proposed IA-YOLO method in both foggy and low-light scenarios.
翻訳日:2021-12-16 14:37:15 公開日:2021-12-15
# 視覚トランスフォーマーを用いた偽映像の音源追跡のためのビデオハッシュ検索

Vision Transformer Based Video Hashing Retrieval for Tracing the Source of Fake Videos ( http://arxiv.org/abs/2112.08117v1 )

ライセンス: Link先を確認
Pengfei Pei, Xianfeng Zhao, Jinchuan Li, Yun Cao, Xiaowei Yi(参考訳) 従来の偽ビデオ検出方法は、改ざん画像の可能性値または疑わしいマスクを出力する。 しかし、そのような説明不能な結果は証拠として利用できない。 だから、偽のビデオのソースを追跡する方がよい。 従来のハッシュ法は、画像のニュアンスを識別できないセマンティック類似の画像を取得するために使用される。 具体的には、ソースのトレースと従来のビデオ検索を比較します。 同じようなソースビデオから本物のものを見つけるのは困難です。 私たちは、Hash Triplet Lossという小説をデザインし、人のビデオが非常に似ているという問題を解決しました。 本稿では、VTL(Video Tracing and Tampering Localization)と呼ばれるビジョントランスフォーマーに基づくモデルを提案する。 第1段階では、VTHash (VTL-T) でハッシュセンターを訓練する。 そして、偽のビデオがViTHashに入力され、ハッシュコードが出力される。 ハッシュコードは、ハッシュセンターからソースビデオを取得するために使用される。 第2段階では、ソースビデオと偽ビデオとをジェネレータ(VTL−L)に入力する。 そして、被疑領域をマスクして補助情報を提供する。 さらに,DFTLとDAVIS2016-TLの2つのデータセットを構築した。 DFTLの実験は、類似動画のソーストレースにおいて、我々のフレームワークが優れていることを明らかに示している。 特に、VTLは、DAVIS2016-TLの最先端メソッドと同等のパフォーマンスを達成した。 ソースコードとデータセットはgithubでリリースされています。

Conventional fake video detection methods outputs a possibility value or a suspected mask of tampering images. However, such unexplainable results cannot be used as convincing evidence. So it is better to trace the sources of fake videos. The traditional hashing methods are used to retrieve semantic-similar images, which can't discriminate the nuances of the image. Specifically, the sources tracing compared with traditional video retrieval. It is a challenge to find the real one from similar source videos. We designed a novel loss Hash Triplet Loss to solve the problem that the videos of people are very similar: the same scene with different angles, similar scenes with the same person. We propose Vision Transformer based models named Video Tracing and Tampering Localization (VTL). In the first stage, we train the hash centers by ViTHash (VTL-T). Then, a fake video is inputted to ViTHash, which outputs a hash code. The hash code is used to retrieve the source video from hash centers. In the second stage, the source video and fake video are inputted to generator (VTL-L). Then, the suspect regions are masked to provide auxiliary information. Moreover, we constructed two datasets: DFTL and DAVIS2016-TL. Experiments on DFTL clearly show the superiority of our framework in sources tracing of similar videos. In particular, the VTL also achieved comparable performance with state-of-the-art methods on DAVIS2016-TL. Our source code and datasets have been released on GitHub: \url{https://github.com/lajlksdf/vtl}.
翻訳日:2021-12-16 14:36:54 公開日:2021-12-15
# 内視鏡検査における自己監督単分子深度とエゴ運動推定:レスキューに現れる流れ

Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy: Appearance Flow to the Rescue ( http://arxiv.org/abs/2112.08122v1 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Weihai Chen, Wentao Zhu, Xingming Wu, Dianmin Sun, Baochang Zhang(参考訳) 近年,単眼映像からの奥行きと自我運動の算出に自己教師付き学習技術が応用され,自動運転シナリオにおいて顕著な性能が得られた。 深度とエゴモーションによる自己教師学習の仮定として広く採用されているのは、画像の明るさが近くのフレーム内で一定であることである。 残念なことに,光度変動,非ランバート反射,反射による輝度変動が激しいため,内視鏡的シーンではこの仮定を満たさないため,これらの輝度変動は必然的に深さや自我運動推定精度を低下させる。 本研究では,輝度不整合問題に対処するために,外観フローと呼ばれる新しい概念を導入する。 出現フローは明るさパターンの変動を考慮に入れ、一般化されたダイナミックイメージ制約を開発することができる。 さらに、構造モジュール、運動モジュール、外観モジュール、対応モジュールからなる内視鏡シーンにおいて、単眼深度とエゴモーションを同時に推定するための統一された自己教師付きフレームワークを構築し、外観を正確に再構成し、画像輝度を校正する。 scaredデータセットとendoslamデータセットで広範な実験が行われ、提案された統一フレームワークは、他の自己監視アプローチを大きく超えている。 異なる患者やカメラでフレームワークの一般化能力を検証するために、我々は怖がりながらモデルをトレーニングするが、微調整なしでserv-ctとhamlynデータセットでテストし、優れた結果はその強力な一般化能力を明らかにする。 コードは次の通り。 \url{https://github.com/ShuweiShao/AF-SfMLearner}。

Recently, self-supervised learning technology has been applied to calculate depth and ego-motion from monocular videos, achieving remarkable performance in autonomous driving scenarios. One widely adopted assumption of depth and ego-motion self-supervised learning is that the image brightness remains constant within nearby frames. Unfortunately, the endoscopic scene does not meet this assumption because there are severe brightness fluctuations induced by illumination variations, non-Lambertian reflections and interreflections during data collection, and these brightness fluctuations inevitably deteriorate the depth and ego-motion estimation accuracy. In this work, we introduce a novel concept referred to as appearance flow to address the brightness inconsistency problem. The appearance flow takes into consideration any variations in the brightness pattern and enables us to develop a generalized dynamic image constraint. Furthermore, we build a unified self-supervised framework to estimate monocular depth and ego-motion simultaneously in endoscopic scenes, which comprises a structure module, a motion module, an appearance module and a correspondence module, to accurately reconstruct the appearance and calibrate the image brightness. Extensive experiments are conducted on the SCARED dataset and EndoSLAM dataset, and the proposed unified framework exceeds other self-supervised approaches by a large margin. To validate our framework's generalization ability on different patients and cameras, we train our model on SCARED but test it on the SERV-CT and Hamlyn datasets without any fine-tuning, and the superior results reveal its strong generalization ability. Code will be available at: \url{https://github.com/ShuweiShao/AF-SfMLearner}.
翻訳日:2021-12-16 14:36:39 公開日:2021-12-15
# 多視点形状を用いた単視点深度確率を用いた多視点深度推定

Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry ( http://arxiv.org/abs/2112.08177v1 )

ライセンス: Link先を確認
Gwangbin Bae, Ignas Budvytis, Roberto Cipolla(参考訳) マルチビュー深度推定法は、通常、多ビューのコストボリュームの計算を必要とするため、メモリ消費が大きくなり、推論が遅くなる。 さらに、マルチビューマッチングは、テクスチャのない表面、反射面、移動物体では失敗する可能性がある。 このような障害モードでは、シングルビュー深度推定手法がより信頼性が高いことが多い。 この目的のために,多視点深度推定の精度,堅牢性,効率を向上させるために,一視点深度確率を多視点幾何で融合する新しいフレームワークMaGNetを提案する。 各フレームについて、MaGNetはピクセルワイドガウスとしてパラメータ化された一視点深度確率分布を推定する。 次に、基準フレームから推定される分布を用いて、画素ごとの深度候補をサンプリングする。 このような確率的サンプリングにより、ネットワークはより精度が高く、より少ない深さ候補を評価できる。 また,マルチビューマッチングスコアに対する重み付けを提案し,マルチビュー深度が単一ビュー予測と一致していることを保証する。 提案手法は, ScanNet, 7-Scenes, KITTI上での最先端性能を実現する。 定性的評価は, テクスチャレス/反射面や移動物体などの難題に対して, より堅牢であることを示す。

Multi-view depth estimation methods typically require the computation of a multi-view cost-volume, which leads to huge memory consumption and slow inference. Furthermore, multi-view matching can fail for texture-less surfaces, reflective surfaces and moving objects. For such failure modes, single-view depth estimation methods are often more reliable. To this end, we propose MaGNet, a novel framework for fusing single-view depth probability with multi-view geometry, to improve the accuracy, robustness and efficiency of multi-view depth estimation. For each frame, MaGNet estimates a single-view depth probability distribution, parameterized as a pixel-wise Gaussian. The distribution estimated for the reference frame is then used to sample per-pixel depth candidates. Such probabilistic sampling enables the network to achieve higher accuracy while evaluating fewer depth candidates. We also propose depth consistency weighting for the multi-view matching score, to ensure that the multi-view depth is consistent with the single-view predictions. The proposed method achieves state-of-the-art performance on ScanNet, 7-Scenes and KITTI. Qualitative evaluation demonstrates that our method is more robust against challenging artifacts such as texture-less/reflective surfaces and moving objects.
翻訳日:2021-12-16 14:35:58 公開日:2021-12-15
# 人をその場所に置く:奥深くの3D人物の単眼的回帰

Putting People in their Place: Monocular Regression of 3D People in Depth ( http://arxiv.org/abs/2112.08274v1 )

ライセンス: Link先を確認
Yu Sun, Wu Liu, Qian Bao, Yili Fu, Tao Mei, Michael J. Black(参考訳) 複数の人のイメージが与えられた場合、私たちの目標は、すべての人々のポーズと形、そしてその相対的な深さを直接後退させることです。 しかし、画像中の人物の深さを推定することは、身長を知らずに基本的に曖昧である。 これは、幼児から大人まで、非常に異なるサイズの人々を含む場面において特に問題となる。 これを解決するには、いくつかのことが必要です。 まず,複数の人物のポーズと深さを1つの画像で推定する新しい手法を開発した。 複数の人物を推定する以前の作業は、画像平面を推論することでそうするが、bevと呼ばれるこの手法は、深度を明示的に推論するために、想像上の鳥の視点表現を追加する。 BEVは画像中の体の中心と深度を同時に考慮し、それらを組み合わせることで3Dの体の位置を推定する。 以前の作業とは異なり、bevはエンドツーエンドで微分可能なシングルショットメソッドである。 第二に、身長は年齢によって異なり、画像中の人物の年齢を推定することなく深度を解明することは不可能である。 そのために、BEVが幼児から大人まで形状を推測できる3Dボディモデル空間を利用する。 第3に,BEVのトレーニングには,新たなデータセットが必要です。 具体的には、年齢ラベルと画像内の人々間の相対的な深さ関係を含む「相対的人間」(Relative Human)データセットを作成する。 RHとAGORAに関する大規模な実験は、モデルとトレーニングスキームの有効性を示した。 BEVは、深度推論、子供の形状推定、閉塞に対する堅牢性において、既存の手法よりも優れている。 コードとデータセットは研究目的でリリースされる予定だ。

Given an image with multiple people, our goal is to directly regress the pose and shape of all the people as well as their relative depth. Inferring the depth of a person in an image, however, is fundamentally ambiguous without knowing their height. This is particularly problematic when the scene contains people of very different sizes, e.g. from infants to adults. To solve this, we need several things. First, we develop a novel method to infer the poses and depth of multiple people in a single image. While previous work that estimates multiple people does so by reasoning in the image plane, our method, called BEV, adds an additional imaginary Bird's-Eye-View representation to explicitly reason about depth. BEV reasons simultaneously about body centers in the image and in depth and, by combing these, estimates 3D body position. Unlike prior work, BEV is a single-shot method that is end-to-end differentiable. Second, height varies with age, making it impossible to resolve depth without also estimating the age of people in the image. To do so, we exploit a 3D body model space that lets BEV infer shapes from infants to adults. Third, to train BEV, we need a new dataset. Specifically, we create a "Relative Human" (RH) dataset that includes age labels and relative depth relationships between the people in the images. Extensive experiments on RH and AGORA demonstrate the effectiveness of the model and training scheme. BEV outperforms existing methods on depth reasoning, child shape estimation, and robustness to occlusion. The code and dataset will be released for research purposes.
翻訳日:2021-12-16 14:35:37 公開日:2021-12-15
# SeqFormer: ビデオインスタンスセグメンテーションのためのフラストレーションにシンプルなモデル

SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation ( http://arxiv.org/abs/2112.08275v1 )

ライセンス: Link先を確認
Junfeng Wu, Yi Jiang, Wenqing Zhang, Xiang Bai, Song Bai(参考訳) 本稿では,ビデオインスタンスセグメンテーションのためのフラストレーションに富んだモデルであるSeqFormerを紹介する。 SeqFormerは、ビデオフレーム間のインスタンス関係をモデル化するビジョントランスフォーマーの原則に従う。 それでも、ビデオ内のインスタンスの時系列をキャプチャするのにスタンドアローンのインスタンスクエリが十分であるが、各フレームで注意機構を独立して行う必要がある。 これを実現するために、seqformerは各フレームにインスタンスを配置し、時間情報を集約して、各フレームのマスクシーケンスを動的に予測するために使用されるビデオレベルのインスタンスの強力な表現を学ぶ。 インスタンスのトラッキングは、ブランチや後処理をトラッキングせずに自然に行われる。 YouTube-VISデータセットでは、SeqFormerはResNet-50のバックボーンで47.4 AP、ResNet-101のバックボーンで49.0 APを達成した。 この成果は、前回の最先端性能をそれぞれ4.6と4.4で大幅に上回っている。 さらに、最近発表されたswinトランスフォーマーと組み合わさったseqformerは、はるかに高い ap 59.3 を達成する。 SeqFormerが、ビデオインスタンスのセグメンテーションにおける将来の研究を促進する強力なベースラインになることを願っている。 コードと事前訓練されたモデルはhttps://github.com/wjf5203/SeqFormer.comで公開されている。

In this work, we present SeqFormer, a frustratingly simple model for video instance segmentation. SeqFormer follows the principle of vision transformer that models instance relationships among video frames. Nevertheless, we observe that a stand-alone instance query suffices for capturing a time sequence of instances in a video, but attention mechanisms should be done with each frame independently. To achieve this, SeqFormer locates an instance in each frame and aggregates temporal information to learn a powerful representation of a video-level instance, which is used to predict the mask sequences on each frame dynamically. Instance tracking is achieved naturally without tracking branches or post-processing. On the YouTube-VIS dataset, SeqFormer achieves 47.4 AP with a ResNet-50 backbone and 49.0 AP with a ResNet-101 backbone without bells and whistles. Such achievement significantly exceeds the previous state-of-the-art performance by 4.6 and 4.4, respectively. In addition, integrated with the recently-proposed Swin transformer, SeqFormer achieves a much higher AP of 59.3. We hope SeqFormer could be a strong baseline that fosters future research in video instance segmentation, and in the meantime, advances this field with a more robust, accurate, neat model. The code and the pre-trained models are publicly available at https://github.com/wjf5203/SeqFormer.
翻訳日:2021-12-16 14:35:11 公開日:2021-12-15
# ForgeryNet -- Face Forgery Analysis Challenge 2021: メソッドと結果

ForgeryNet -- Face Forgery Analysis Challenge 2021: Methods and Results ( http://arxiv.org/abs/2112.08325v1 )

ライセンス: Link先を確認
Yinan He, Lu Sheng, Jing Shao, Ziwei Liu, Zhaofan Zou, Zhizhi Guo, Shan Jiang, Curitis Sun, Guosheng Zhang, Keyao Wang, Haixiao Yue, Zhibin Hong, Wanguo Wang, Zhenyu Li, Qi Wang, Zhenli Wang, Ronghao Xu, Mingwen Zhang, Zhiheng Wang, Zhenhang Huang, Tianming Zhang, Ningning Zhao(参考訳) フォトリアリスティック合成技術の急速な進歩は、実画像と操作画像の境界がぼやけ始める臨界点に達している。 最近,290万枚の画像と221,247本の動画からなる大規模深層顔偽造データセットForgeryNetがリリースされた。 データスケール、操作(7つの画像レベルのアプローチ、8つのビデオレベルのアプローチ)、摂動(36の独立性、より混合的な摂動)、アノテーション(630万の分類ラベル、290万の操作された地域アノテーション、221,247の時間的フォージェリーセグメントラベル)の点で、はるかに大きい。 本稿では,forgerynet ベンチマークを用いた forgerynet - face forgery analysis challenge 2021 の手法と結果について報告する。 モデル評価は、プライベートテストセット上でオフラインで行われる。 合計186人の参加者が参加し、11チームが有効な応募を行った。 トップランクのソリューションを分析し,今後の作業の方向性についていくつか議論する。

The rapid progress of photorealistic synthesis techniques has reached a critical point where the boundary between real and manipulated images starts to blur. Recently, a mega-scale deep face forgery dataset, ForgeryNet which comprised of 2.9 million images and 221,247 videos has been released. It is by far the largest publicly available in terms of data-scale, manipulations (7 image-level approaches, 8 video-level approaches), perturbations (36 independent and more mixed perturbations), and annotations (6.3 million classification labels, 2.9 million manipulated area annotations, and 221,247 temporal forgery segment labels). This paper reports methods and results in the ForgeryNet - Face Forgery Analysis Challenge 2021, which employs the ForgeryNet benchmark. The model evaluation is conducted offline on the private test set. A total of 186 participants registered for the competition, and 11 teams made valid submissions. We will analyze the top-ranked solutions and present some discussion on future work directions.
翻訳日:2021-12-16 14:34:47 公開日:2021-12-15
# (参考訳) NLPモデルにおけるロバスト性の測定と改善:サーベイ

Measure and Improve Robustness in NLP Models: A Survey ( http://arxiv.org/abs/2112.08313v1 )

ライセンス: CC BY 4.0
Xuezhi Wang, Haohan Wang, Diyi Yang(参考訳) nlpモデルは、ベンチマークよりも最先端のパフォーマンスを達成し、幅広いアプリケーションを獲得しているため、これらのモデルの現実世界への安全なデプロイを保証することがますます重要になっている。 頑健性はますます研究されているトピックであるが、視覚やNLPなどの応用において、様々な定義、評価、緩和戦略を複数の研究分野に分けて研究されている。 本稿では,NLPにおけるロバスト性の定義,測定,改善に関する統一的な調査を行うことを目的とする。 まず、ロバスト性の定義を複数結合し、続いてロバスト性障害を特定し、モデルのロバスト性を評価する様々な作業ラインを統合する。 そこで本研究では,nlpモデルのロバスト性を改善するためのより体系的な視点から,データ駆動型,モデル駆動型,インダクティブ優先型の緩和戦略を提案する。 最後に,この分野におけるさらなる研究の動機づけとなるオープンチャレンジと今後の方向性について概説する。

As NLP models achieved state-of-the-art performances over benchmarks and gained wide applications, it has been increasingly important to ensure the safe deployment of these models in the real world, e.g., making sure the models are robust against unseen or challenging scenarios. Despite robustness being an increasingly studied topic, it has been separately explored in applications like vision and NLP, with various definitions, evaluation and mitigation strategies in multiple lines of research. In this paper, we aim to provide a unifying survey of how to define, measure and improve robustness in NLP. We first connect multiple definitions of robustness, then unify various lines of work on identifying robustness failures and evaluating models' robustness. Correspondingly, we present mitigation strategies that are data-driven, model-driven, and inductive-prior-based, with a more systematic view of how to effectively improve robustness in NLP models. Finally, we conclude by outlining open challenges and future directions to motivate further research in this area.
翻訳日:2021-12-16 14:33:58 公開日:2021-12-15
# tlogic:時間知識グラフを用いた説明可能なリンク予測のための時間論理規則

TLogic: Temporal Logical Rules for Explainable Link Forecasting on Temporal Knowledge Graphs ( http://arxiv.org/abs/2112.08025v1 )

ライセンス: Link先を確認
Yushan Liu, Yunpu Ma, Marcel Hildebrandt, Mitchell Joblin, Volker Tresp(参考訳) 従来の静的知識グラフは、関係データのエンティティをノードとしてモデル化し、特定の関係型のエッジで接続する。 しかし、情報と知識は継続的に進化し、時間的ダイナミクスが現れ、それが将来の状況に影響を及ぼすことが期待される。 時間知識グラフでは、各エッジにタイムスタンプまたはタイムレンジを装備することにより、時間情報をグラフに統合する。 埋め込みに基づく手法は時間的知識グラフのリンク予測に導入されているが、説明可能性や理解可能な推論連鎖がほとんどない。 特に、リンク予測 -- 将来のタイムスタンプを含むイベント予測 -- を扱うように設計されていない。 本稿では、時間的知識グラフに基づくリンク予測の課題に対処し、時間的ランダムウォークによって抽出された時間的論理規則に基づく説明可能なフレームワークであるTLogicを紹介する。 3つのベンチマークデータセットでtlogicと最先端のベースラインを比較し,全体的なパフォーマンスを示すと同時に,時間的一貫性を保った説明も提供する。 さらに、ほとんどの最先端の埋め込み方式とは対照的に、TLogicは、学習済みのルールが共通の語彙を持つ関連するデータセットに転送される帰納的設定でうまく機能する。

Conventional static knowledge graphs model entities in relational data as nodes, connected by edges of specific relation types. However, information and knowledge evolve continuously, and temporal dynamics emerge, which are expected to influence future situations. In temporal knowledge graphs, time information is integrated into the graph by equipping each edge with a timestamp or a time range. Embedding-based methods have been introduced for link prediction on temporal knowledge graphs, but they mostly lack explainability and comprehensible reasoning chains. Particularly, they are usually not designed to deal with link forecasting -- event prediction involving future timestamps. We address the task of link forecasting on temporal knowledge graphs and introduce TLogic, an explainable framework that is based on temporal logical rules extracted via temporal random walks. We compare TLogic with state-of-the-art baselines on three benchmark datasets and show better overall performance while our method also provides explanations that preserve time consistency. Furthermore, in contrast to most state-of-the-art embedding-based methods, TLogic works well in the inductive setting where already learned rules are transferred to related datasets with a common vocabulary.
翻訳日:2021-12-16 14:03:56 公開日:2021-12-15
# denoising diffusion gansを用いた生成的学習トリレンマの解法

Tackling the Generative Learning Trilemma with Denoising Diffusion GANs ( http://arxiv.org/abs/2112.07804v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Karsten Kreis, Arash Vahdat(参考訳) 過去10年間、多種多様な深層生成モデルが開発されてきた。 しかし、これらのモデルは、高いサンプル品質、モードカバレッジ、高速サンプリングの3つの重要な要件に同時に対処するのに苦労することが多い。 これらの要求によって課される課題は、既存のモデルがしばしば他のモデルと交換するため、生成的な学習トリレンマ(generative learning trilemma)と呼んでいる。 特に、散逸拡散モデルは顕著な品質と多様性を示してきたが、その高価なサンプリングは実世界の多くの応用に適用できない。 本稿では,これらのモデルにおける遅いサンプリングは,小さなステップサイズでのみ正当化されるデノナイジングステップにおけるガウス的仮定に起因すると論じる。 大きなステップでデノージングを可能にするため、デノージングステップの総数を減らすために、複雑なマルチモーダル分布を用いたデノージング分布のモデル化を提案する。 マルチモーダル条件付きGANを用いて各デノナイジングステップをモデル化するデノナイジング拡散生成対向ネットワーク(デノナイジング拡散GAN)を導入する。 広範にわたる評価を行い,cifar-10データセット上で2000$\times$高速でありながら,希釈拡散ガンが元の拡散モデルに匹敵するサンプル品質と多様性を得ることを示した。 従来のGANと比較すると,モードカバレッジとサンプルの多様性が向上している。 我々の知る限り、拡散GANは拡散モデルにおけるサンプリングコストを、現実のアプリケーションに安価に適用できる程度に削減する最初のモデルである。 プロジェクトページとコード: https://nvlabs.github.io/denoising-diffusion-gan

A wide variety of deep generative models has been developed in the past decade. Yet, these models often struggle with simultaneously addressing three key requirements including: high sample quality, mode coverage, and fast sampling. We call the challenge imposed by these requirements the generative learning trilemma, as the existing models often trade some of them for others. Particularly, denoising diffusion models have shown impressive sample quality and diversity, but their expensive sampling does not yet allow them to be applied in many real-world applications. In this paper, we argue that slow sampling in these models is fundamentally attributed to the Gaussian assumption in the denoising step which is justified only for small step sizes. To enable denoising with large steps, and hence, to reduce the total number of denoising steps, we propose to model the denoising distribution using a complex multimodal distribution. We introduce denoising diffusion generative adversarial networks (denoising diffusion GANs) that model each denoising step using a multimodal conditional GAN. Through extensive evaluations, we show that denoising diffusion GANs obtain sample quality and diversity competitive with original diffusion models while being 2000$\times$ faster on the CIFAR-10 dataset. Compared to traditional GANs, our model exhibits better mode coverage and sample diversity. To the best of our knowledge, denoising diffusion GAN is the first model that reduces sampling cost in diffusion models to an extent that allows them to be applied to real-world applications inexpensively. Project page and code: https://nvlabs.github.io/denoising-diffusion-gan
翻訳日:2021-12-16 14:03:02 公開日:2021-12-15
# ベイズグラフの対比学習

Bayesian Graph Contrastive Learning ( http://arxiv.org/abs/2112.07823v1 )

ライセンス: Link先を確認
Arman Hasanzadeh, Mohammadreza Armandpour, Ehsan Hajiramezanali, Mingyuan Zhou, Nick Duffield, Krishna Narayanan(参考訳) コントラスト学習は,グラフ構造化データの自己教師型学習手法の重要な構成要素となっている。 しかし、その成功にもかかわらず、既存のグラフコントラスト学習手法はノード表現や下流タスクの不確実な定量化ができず、高い領域での応用を制限している。 本稿では,確率的エンコーダに結びつくランダムな拡張を示すグラフコントラスト学習手法のベイズ的視点を提案する。 その結果,提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。 分布表現を学習することにより,下流グラフ分析タスクにおける不確実性推定を行い,予測モデルの表現力を高める。 さらに,コントラストモデルの各視点における摂動の確率を推定するベイズ的枠組みを提案し,計算コストのかかるハイパーパラメータチューニングの探索の必要性を排除した。 いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,パフォーマンスが著しく向上したことを実証的に示す。

Contrastive learning has become a key component of self-supervised learning approaches for graph-structured data. However, despite their success, existing graph contrastive learning methods are incapable of uncertainty quantification for node representations or their downstream tasks, limiting their application in high-stakes domains. In this paper, we propose a novel Bayesian perspective of graph contrastive learning methods showing random augmentations leads to stochastic encoders. As a result, our proposed method represents each node by a distribution in the latent space in contrast to existing techniques which embed each node to a deterministic vector. By learning distributional representations, we provide uncertainty estimates in downstream graph analytics tasks and increase the expressive power of the predictive model. In addition, we propose a Bayesian framework to infer the probability of perturbations in each view of the contrastive model, eliminating the need for a computationally expensive search for hyperparameter tuning. We empirically show a considerable improvement in performance compared to existing state-of-the-art methods on several benchmark datasets.
翻訳日:2021-12-16 14:02:36 公開日:2021-12-15
# funnels: 次元性低減による完全極大度

Funnels: Exact maximum likelihood with dimensionality reduction ( http://arxiv.org/abs/2112.08069v1 )

ライセンス: Link先を確認
Samuel Klein, John A. Raine, Sebastian Pina-Otey, Slava Voloshynovskiy, Tobias Golling(参考訳) 正規化フローは微分同相であり、典型的には次元保存モデルであり、モデルの確率を用いて訓練される。 我々は、SurVAEフレームワークを使用して、ファンネルと呼ばれる新しい層を介して、サージェクティブフローを減らす次元を構築する。 様々なデータセットでその効果を実証し、潜在空間サイズを小さくしながら既存のフローのパフォーマンスを改善したり、一致させたりすることを示します。 ファンネル層は、制限された畳み込みやフィードフォワード層を含む幅広い変換から構築することができる。

Normalizing flows are diffeomorphic, typically dimension-preserving, models trained using the likelihood of the model. We use the SurVAE framework to construct dimension reducing surjective flows via a new layer, known as the funnel. We demonstrate its efficacy on a variety of datasets, and show it improves upon or matches the performance of existing flows while having a reduced latent space size. The funnel layer can be constructed from a wide range of transformations including restricted convolution and feed forward layers.
翻訳日:2021-12-16 14:02:22 公開日:2021-12-15
# Scoring Rule Minimizationによる条件付き生成ネットワークによる確率予測

Probabilistic Forecasting with Conditional Generative Networks via Scoring Rule Minimization ( http://arxiv.org/abs/2112.08217v1 )

ライセンス: Link先を確認
Lorenzo Pacchiardi, Rilwan Adewoyin, Peter Dueben, Ritabrata Dutta(参考訳) 確率予測は、過去の観測に基づく将来の結果の確率分布を記述することで構成される。 気象学では、物理学に基づく数値モデルの集合がそのような分布を得るために実行される。 通常、成績はスコアリングルール、予測分布の機能、観測結果によって評価される。 いくつかのスコアリングルールでは、予測のキャリブレーションとシャープネスを同時に評価することができる。 ディープラーニングでは、生成ニューラルネットワークが高次元空間上の分布をパラメトリ化し、潜在変数からのドロー変換によるサンプリングが容易になる。 条件付き生成ネットワークはさらに、入力変数の分布を制限する。 本稿では,条件付き生成ネットワークを用いて確率的予測を行い,採点規則値を最小化する。 GAN(Generative Adversarial Networks)とは対照的に、識別器は不要であり、訓練は安定している。 我々は2つのカオスモデルと、気象観測のグローバルデータセットで実験を行い、gansが達成したものよりも満足度が高く、校正が良い。

Probabilistic forecasting consists of stating a probability distribution for a future outcome based on past observations. In meteorology, ensembles of physics-based numerical models are run to get such distribution. Usually, performance is evaluated with scoring rules, functions of the forecast distribution and the observed outcome. With some scoring rules, calibration and sharpness of the forecast can be assessed at the same time. In deep learning, generative neural networks parametrize distributions on high-dimensional spaces and easily allow sampling by transforming draws from a latent variable. Conditional generative networks additionally constrain the distribution on an input variable. In this manuscript, we perform probabilistic forecasting with conditional generative networks trained to minimize scoring rule values. In contrast to Generative Adversarial Networks (GANs), no discriminator is required and training is stable. We perform experiments on two chaotic models and a global dataset of weather observations; results are satisfactory and better calibrated than what achieved by GANs.
翻訳日:2021-12-16 14:02:14 公開日:2021-12-15
# 視領域分割と自己監督型マルチストリーム学習による視線推定

Gaze Estimation with Eye Region Segmentation and Self-Supervised Multistream Learning ( http://arxiv.org/abs/2112.07878v1 )

ライセンス: Link先を確認
Zunayed Mahmud, Paul Hungler, Ali Etemad(参考訳) 本稿では,視線推定のためのロバストな視線表現を学習するマルチストリームネットワークを提案する。 まず,シミュレータを用いて眼球と虹彩を詳述した眼領域マスクを含む合成データセットを作成する。 次に、U-Net型モデルを用いて視線領域分割を行い、実際の視線画像の視線領域マスクを生成する。 次に、自己教師付きコントラスト学習を用いて実領域の眼画像エンコーダを事前訓練し、一般化された眼表現を学習する。 最後に、この前訓練されたアイエンコーダと、可視眼球領域と虹彩の2つの追加エンコーダをマルチストリームフレームワークで並列に使用し、実世界画像から視線推定のためのサルエント特徴を抽出する。 我々は,EYEDIAPデータセット上での手法の性能を2つの異なる評価設定で実証し,既存のベンチマークよりも高い結果を得た。 また、トレーニングに使用するラベル付きデータの量に応じて、自己教師付きネットワークの堅牢性を検証するための追加実験も行います。

We present a novel multistream network that learns robust eye representations for gaze estimation. We first create a synthetic dataset containing eye region masks detailing the visible eyeball and iris using a simulator. We then perform eye region segmentation with a U-Net type model which we later use to generate eye region masks for real-world eye images. Next, we pretrain an eye image encoder in the real domain with self-supervised contrastive learning to learn generalized eye representations. Finally, this pretrained eye encoder, along with two additional encoders for visible eyeball region and iris, are used in parallel in our multistream framework to extract salient features for gaze estimation from real-world images. We demonstrate the performance of our method on the EYEDIAP dataset in two different evaluation settings and achieve state-of-the-art results, outperforming all the existing benchmarks on this dataset. We also conduct additional experiments to validate the robustness of our self-supervised network with respect to different amounts of labeled data used for training.
翻訳日:2021-12-16 14:01:14 公開日:2021-12-15
# 不確かさ駆動損失関数を用いたロバスト深さ補完

Robust Depth Completion with Uncertainty-Driven Loss Functions ( http://arxiv.org/abs/2112.07895v1 )

ライセンス: Link先を確認
Yufan Zhu, Weisheng Dong, Leida Li, Jinjian Wu, Xin Li and Guangming Shi(参考訳) スパースLiDARスキャンから密集した深度画像の復元は難しい作業である。 色誘導による奥行き完遂法が人気を博したにもかかわらず、最適化中に等しく画素を処理し、スパース深度マップにおける不均一分布特性や合成基底真理における累積外れ値を無視した。 本研究では,不確実性による損失関数を導入し,深度補修の堅牢性を改善し,深度補修の不確実性に対処する。 具体的には、ジェフリーの先行したような頑健な深度完備化のための明確な不確かさの定式化を提案する。 パラメトリック不確実性駆動損失を導入し、ノイズや欠落データに対して堅牢な新しい損失関数に変換する。 一方,深度と不確実性を同時に予測できる多スケール共同予測モデルを提案する。 推定不確かさマップは、不確実度の高い画素に対して適応予測を行うためにも用いられ、その結果を精錬するための残留マップとなる。 提案手法は,KITTI深度評価ベンチマークでテストされ,MAE, IMAE, IRMSE測定値を用いて最先端のロバスト性性能を達成した。

Recovering a dense depth image from sparse LiDAR scans is a challenging task. Despite the popularity of color-guided methods for sparse-to-dense depth completion, they treated pixels equally during optimization, ignoring the uneven distribution characteristics in the sparse depth map and the accumulated outliers in the synthesized ground truth. In this work, we introduce uncertainty-driven loss functions to improve the robustness of depth completion and handle the uncertainty in depth completion. Specifically, we propose an explicit uncertainty formulation for robust depth completion with Jeffrey's prior. A parametric uncertain-driven loss is introduced and translated to new loss functions that are robust to noisy or missing data. Meanwhile, we propose a multiscale joint prediction model that can simultaneously predict depth and uncertainty maps. The estimated uncertainty map is also used to perform adaptive prediction on the pixels with high uncertainty, leading to a residual map for refining the completion results. Our method has been tested on KITTI Depth Completion Benchmark and achieved the state-of-the-art robustness performance in terms of MAE, IMAE, and IRMSE metrics.
翻訳日:2021-12-16 14:00:57 公開日:2021-12-15
# COVID-19における顔マスクの自動検出のための機械学習手法の比較分析

A Comparative Analysis of Machine Learning Approaches for Automated Face Mask Detection During COVID-19 ( http://arxiv.org/abs/2112.07913v1 )

ライセンス: Link先を確認
Junaed Younus Khan and Md Abdullah Al Alamin(参考訳) 世界保健機関(WHO)は、新型コロナウイルス感染防止の最も効果的な対策の一つとして、マスク着用を推奨している。 多くの国では、特に公共の場所ではマスクを着用することが義務付けられている。 群衆の中央では手動によるマスクの監視が不可能な場合が多いため,自動検出が有用である。 そこで我々は,顔マスク検出のための深層学習モデル(vgg1,vgg19,resnet50)を探索し,2つのベンチマークデータセットで評価した。 また、この文脈で転送学習(VGG19, ResNet50)を評価した。 すべてのモデルのパフォーマンスは非常に良好ですが、転送学習モデルは最高のパフォーマンスを実現しています。 転送学習は、トレーニング時間を30\%削減して、0.10\%--0.40\%向上する。 実験では、テストデータセットが異なる分布から来る実世界のケースでは、これらのハイパフォーマンスなモデルがあまり堅牢ではないことも示しています。 微調整がなければ、これらのモデルのパフォーマンスはクロスドメイン設定で47\%低下する。

The World Health Organization (WHO) has recommended wearing face masks as one of the most effective measures to prevent COVID-19 transmission. In many countries, it is now mandatory to wear face masks, specially in public places. Since manual monitoring of face masks is often infeasible in the middle of the crowd, automatic detection can be beneficial. To facilitate that, we explored a number of deep learning models (i.e., VGG1, VGG19, ResNet50) for face-mask detection and evaluated them on two benchmark datasets. We also evaluated transfer learning (i.e., VGG19, ResNet50 pre-trained on ImageNet) in this context. We find that while the performances of all the models are quite good, transfer learning models achieve the best performance. Transfer learning improves the performance by 0.10\%--0.40\% with 30\% less training time. Our experiment also shows these high-performing models are not quite robust for real-world cases where the test dataset comes from a different distribution. Without any fine-tuning, the performance of these models drops by 47\% in cross-domain settings.
翻訳日:2021-12-16 14:00:38 公開日:2021-12-15
# 工学的形状の特徴認識への学習に基づくアプローチ

A learning-based approach to feature recognition of Engineering shapes ( http://arxiv.org/abs/2112.07962v1 )

ライセンス: Link先を確認
Lakshmi Priya Muraleedharan and Ramanathan Muthuganapathy(参考訳) 本稿では,cadメッシュモデルにおいて,穴やスロットなどの工学的形状特徴を認識するための機械学習手法を提案する。 デジタルアーカイブや3dプリンティング、部品のスキャン、リバースエンジニアリングといった新しい製造技術が登場し、cadデータはメッシュモデル表現という形で広まりつつある。 メッシュモデルではノード数やエッジ数が増加し,ノイズの発生可能性も高くなるため,グラフベースのアプローチの直接的な適用は高価であるだけでなく,ノイズの多いデータに対して調整することが困難になる。 これにより、メッシュ形式で表現されたCADモデルの特徴認識のために考案される新しいアプローチが要求される。 ここでは,gauss mapの離散バージョンを特徴学習のシグネチャとして使用できることを示す。 このアプローチでは、メモリ要件の削減だけでなく、トレーニング時間の短縮も実現しています。 ネットワークアーキテクチャが関与しないため、ハイパーパラメータの数ははるかに少なくなり、より速い時間で調整できる。 認識精度は3D畳み込みニューラルネットワーク(CNN)で得られたものと非常に似ているが、実行時間やストレージの要件ははるかに少ない。 他の非ネットワークベースの機械学習手法と比較して、我々のアプローチが最も正確であることを示す。 また,複数の特徴を有するcadモデルの認識結果と,公開ベンチマークから得られた複雑/対話的特徴を示す。 ノイズデータを扱う能力も実証されている。

In this paper, we propose a machine learning approach to recognise engineering shape features such as holes, slots, etc. in a CAD mesh model. With the advent of digital archiving, newer manufacturing techniques such as 3D printing, scanning of components and reverse engineering, CAD data is proliferated in the form of mesh model representation. As the number of nodes and edges become larger in a mesh model as well as the possibility of presence of noise, direct application of graph-based approaches would not only be expensive but also difficult to be tuned for noisy data. Hence, this calls for newer approaches to be devised for feature recognition for CAD models represented in the form of mesh. Here, we show that a discrete version of Gauss map can be used as a signature for a feature learning. We show that this approach not only requires fewer memory requirements but also the training time is quite less. As no network architecture is involved, the number of hyperparameters are much lesser and can be tuned in a much faster time. The recognition accuracy is also very similar to that of the one obtained using 3D convolutional neural networks (CNN) but in much lesser running time and storage requirements. A comparison has been done with other non-network based machine learning approaches to show that our approach has the highest accuracy. We also show the recognition results for CAD models having multiple features as well as complex/interacting features obtained from public benchmarks. The ability to handle noisy data has also been demonstrated.
翻訳日:2021-12-16 14:00:22 公開日:2021-12-15
# 総合的かつ効率的なアクティブラーニングを目指して

Towards General and Efficient Active Learning ( http://arxiv.org/abs/2112.07963v1 )

ライセンス: Link先を確認
Yichen Xie, Masayoshi Tomizuka, Wei Zhan(参考訳) アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。 既存の作業のほとんどは、各データセット上で複数の時間を要するモデルトレーニングとバッチデータ選択を別々に繰り返すことで、面倒なパイプラインに従っている。 本稿では,新しい汎用かつ効率的な能動学習法(GEAL)を提案することで,この現状に挑戦する。 大規模データセット上で事前トレーニングされた公開モデルを利用することで,同一モデルの単一パス推論を用いて,異なるデータセット上でデータ選択プロセスを実行できる。 画像内の微妙な局所情報をキャプチャするために,事前学習したネットワークの中間的特徴から容易に抽出できる知識クラスタを提案する。 厄介なバッチ選択戦略の代わりに、すべてのデータサンプルは、きめ細かい知識クラスタレベルでK-Center-Greedyを実行することで、1回に選択される。 手順全体は、トレーニングや監督なしに、シングルパスモデル推論のみが必要であり、我々の手法は、時間複雑性の点で、先行技術よりも数百倍も優れている。 広範な実験により,物体検出,意味セグメンテーション,深さ推定,画像分類において有望な性能を示すことができた。

Active learning aims to select the most informative samples to exploit limited annotation budgets. Most existing work follows a cumbersome pipeline by repeating the time-consuming model training and batch data selection multiple times on each dataset separately. We challenge this status quo by proposing a novel general and efficient active learning (GEAL) method in this paper. Utilizing a publicly available model pre-trained on a large dataset, our method can conduct data selection processes on different datasets with a single-pass inference of the same model. To capture the subtle local information inside images, we propose knowledge clusters that are easily extracted from the intermediate features of the pre-trained network. Instead of the troublesome batch selection strategy, all data samples are selected in one go by performing K-Center-Greedy in the fine-grained knowledge cluster level. The entire procedure only requires single-pass model inference without training or supervision, making our method notably superior to prior arts in terms of time complexity by up to hundreds of times. Extensive experiments widely demonstrate the promising performance of our method on object detection, semantic segmentation, depth estimation, and image classification.
翻訳日:2021-12-16 14:00:00 公開日:2021-12-15
# 機械学習手法によるスタートアップの成功予測におけるデータスパーシティ問題の解法

Solving the Data Sparsity Problem in Predicting the Success of the Startups with Machine Learning Methods ( http://arxiv.org/abs/2112.07985v1 )

ライセンス: Link先を確認
Dafei Yin, Jing Li, Gaosheng Wu(参考訳) スタートアップ企業の成功を予測することは、スタートアップ企業と投資家の両方にとって非常に重要だ。 利用可能なデータや適切な一般的な方法がないため、難しい。 crunchbaseのようなデータプラットフォームがスタートアップ企業の情報を集約することで、機械学習アルゴリズムで予測することができる。 既存の研究は、多くのアーリーステージのスタートアップ企業が一般に利用可能なデータを持っていないため、データスパシティの問題に悩まされている。 我々はこの問題を解決するために最近のアルゴリズムを活用しようとしている。 Crunchbaseからの大きなデータセットを用いた機械学習アルゴリズムについて検討する。 その結果、LightGBMとXGBoostは53.03%、52.96%のスコアを獲得している。 特徴貢献の観点から予測を解釈する。 モデルに基づいてポートフォリオを構築し、高い成功率を達成する。 これらの発見は、機械学習手法がスタートアップ企業や投資家にどのように役立つかに大きく影響している。

Predicting the success of startup companies is of great importance for both startup companies and investors. It is difficult due to the lack of available data and appropriate general methods. With data platforms like Crunchbase aggregating the information of startup companies, it is possible to predict with machine learning algorithms. Existing research suffers from the data sparsity problem as most early-stage startup companies do not have much data available to the public. We try to leverage the recent algorithms to solve this problem. We investigate several machine learning algorithms with a large dataset from Crunchbase. The results suggest that LightGBM and XGBoost perform best and achieve 53.03% and 52.96% F1 scores. We interpret the predictions from the perspective of feature contribution. We construct portfolios based on the models and achieve high success rates. These findings have substantial implications on how machine learning methods can help startup companies and investors.
翻訳日:2021-12-16 13:59:40 公開日:2021-12-15
# 学生のパフォーマンス予測のためのグラフベースアンサンブル機械学習

Graph-based Ensemble Machine Learning for Student Performance Prediction ( http://arxiv.org/abs/2112.07893v1 )

ライセンス: Link先を確認
Yinkai Wang, Aowei Ding, Kaiyi Guan, Shixi Wu, Yuanqi Du(参考訳) 学生のパフォーマンス予測は,学生のニーズを理解し,適切な学習機会/資源を提示し,授業の質を高めるための重要な研究課題である。 しかし、従来の機械学習手法では、安定した正確な予測結果が得られない。 本論文では,複数手法のコンセンサスによる単一機械学習手法の安定性向上を目的とした,グラフベースのアンサンブル機械学習手法を提案する。 具体的には、教師付き予測法と教師なしクラスタリング法の両方を利用し、二部グラフに伝播する反復的アプローチを構築し、より安定で正確な予測結果に収束する。 より正確な学生成績を予測するため,提案手法の有効性を実証した。 具体的には、従来の機械学習アルゴリズムを最大14.8%の予測精度で上回っている。

Student performance prediction is a critical research problem to understand the students' needs, present proper learning opportunities/resources, and develop the teaching quality. However, traditional machine learning methods fail to produce stable and accurate prediction results. In this paper, we propose a graph-based ensemble machine learning method that aims to improve the stability of single machine learning methods via the consensus of multiple methods. To be specific, we leverage both supervised prediction methods and unsupervised clustering methods, build an iterative approach that propagates in a bipartite graph as well as converges to more stable and accurate prediction results. Extensive experiments demonstrate the effectiveness of our proposed method in predicting more accurate student performance. Specifically, our model outperforms the best traditional machine learning algorithms by up to 14.8% in prediction accuracy.
翻訳日:2021-12-16 13:59:04 公開日:2021-12-15
# ヤンデックスシフトデータセットを用いた車両運動予測の不確かさの推定

Estimating Uncertainty For Vehicle Motion Prediction on Yandex Shifts Dataset ( http://arxiv.org/abs/2112.08355v1 )

ライセンス: Link先を確認
Alexey Pustynnikov, Dmitry Eremeev(参考訳) 周囲のエージェントの運動予測は、運転者の安全と密接に関連しているため、自律運転における重要な課題である。 vehicle motion prediction (vmp) track of shifts challengeは、分散シフトに頑健で、予測の不確実性を測定することができるモデルの開発に焦点を当てている。 この作業では、ベンチマークを著しく改善し、リーダーボードで2位になったアプローチを提示します。

Motion prediction of surrounding agents is an important task in context of autonomous driving since it is closely related to driver's safety. Vehicle Motion Prediction (VMP) track of Shifts Challenge focuses on developing models which are robust to distributional shift and able to measure uncertainty of their predictions. In this work we present the approach that significantly improved provided benchmark and took 2nd place on the leaderboard.
翻訳日:2021-12-16 13:58:28 公開日:2021-12-15
# MissMarple : 画像スプライシング検出のための社会的な特徴伝達学習深層ネットワーク

MissMarple : A Novel Socio-inspired Feature-transfer Learning Deep Network for Image Splicing Detection ( http://arxiv.org/abs/2112.08018v1 )

ライセンス: Link先を確認
Angelina L. Gokhale, Dhanya Pramod, Sudeep D. Thepade, Ravi Kulkarni(参考訳) 本稿では,画像スプライシング検出のための,社会にインスパイアされた畳み込みニューラルネットワーク(CNN)深層学習モデルを提案する。 粗いスプライシング画像領域の検出から学習することで、視覚的に知覚できない細かなスプライシング画像のフォージェリーの検出を改善するという前提に基づいて、MissMarpleと呼ばれるモデルが特徴伝達学習を含む双子のCNNネットワークである。 columbia splicing、wildweb、dso1などのベンチマークデータセットと、現実的なスプライシングフォージからなるabhasというタイトルのデータセットを用いて、提案モデルをトレーニングおよびテストした結果、既存のディープラーニングモデルよりも検出精度が向上していることが判明した。

In this paper we propose a novel socio-inspired convolutional neural network (CNN) deep learning model for image splicing detection. Based on the premise that learning from the detection of coarsely spliced image regions can improve the detection of visually imperceptible finely spliced image forgeries, the proposed model referred to as, MissMarple, is a twin CNN network involving feature-transfer learning. Results obtained from training and testing the proposed model using the benchmark datasets like Columbia splicing, WildWeb, DSO1 and a proposed dataset titled AbhAS consisting of realistic splicing forgeries revealed improvement in detection accuracy over the existing deep learning models.
翻訳日:2021-12-16 13:58:21 公開日:2021-12-15
# RA V-Net: 肝自動セグメンテーションのためのディープラーニングネットワーク

RA V-Net: Deep learning network for automated liver segmentation ( http://arxiv.org/abs/2112.08232v1 )

ライセンス: Link先を確認
Zhiqi Lee, Sumin Qi, Chongchong Fan, Ziwei Xie(参考訳) 肝の正確な分画は疾患の診断の前提条件である。 自動セグメンテーションは、コンピュータ支援による肝疾患の検出と診断の重要な応用である。 近年,医療画像の自動処理は画期的な進歩を遂げている。 しかし,腹部CT画像の低コントラストと肝形態の複雑さは,正確な自動分割を困難にしている。 本稿では,U-Netに基づく医用画像の自動セグメンテーションモデルであるRA V-Netを提案する。 主なイノベーションは次の3つだ。 CofResモジュール(Composite Original Feature Residual Module)が提案されている。 より複雑な畳み込み層とスキップ接続により、より高いレベルの画像特徴抽出能力を獲得し、勾配の消失や爆発を防止する。 ARモジュール (Attention Recovery Module) はモデルの計算労力を削減するために提案されている。 また、符号化モジュールのデータ画素と復号モジュールとの間の空間的特徴は、チャネルとLSTM畳み込みを調整することで知覚される。 最後に、画像特徴を効果的に保持する。 caモジュール(channel attention module)が導入され、依存関係のある関連チャネルを抽出し、マトリックスドット製品によって強化すると同時に、依存関係のない無関係チャネルを弱める。 チャネルアテンションの目的は達成される。 LSTM畳み込みとCAモジュールによって提供される注意機構は、ニューラルネットワークの性能を強く保証する。 U-Netネットワークの精度: 0.9862、精度: 0.9118、DSC: 0.8547、SC: 0.82。 RA V-Netの評価基準は、精度: 0.9968、精度: 0.9597、DSC: 0.9654、JSC: 0.9414 である。 セグメンテーション効果の最も代表的な指標はDSCであり、これはU-Netよりも0.1107、JSCは0.1214である。

Accurate segmentation of the liver is a prerequisite for the diagnosis of disease. Automated segmentation is an important application of computer-aided detection and diagnosis of liver disease. In recent years, automated processing of medical images has gained breakthroughs. However, the low contrast of abdominal scan CT images and the complexity of liver morphology make accurate automatic segmentation challenging. In this paper, we propose RA V-Net, which is an improved medical image automatic segmentation model based on U-Net. It has the following three main innovations. CofRes Module (Composite Original Feature Residual Module) is proposed. With more complex convolution layers and skip connections to make it obtain a higher level of image feature extraction capability and prevent gradient disappearance or explosion. AR Module (Attention Recovery Module) is proposed to reduce the computational effort of the model. In addition, the spatial features between the data pixels of the encoding and decoding modules are sensed by adjusting the channels and LSTM convolution. Finally, the image features are effectively retained. CA Module (Channel Attention Module) is introduced, which used to extract relevant channels with dependencies and strengthen them by matrix dot product, while weakening irrelevant channels without dependencies. The purpose of channel attention is achieved. The attention mechanism provided by LSTM convolution and CA Module are strong guarantees for the performance of the neural network. The accuracy of U-Net network: 0.9862, precision: 0.9118, DSC: 0.8547, JSC: 0.82. The evaluation metrics of RA V-Net, accuracy: 0.9968, precision: 0.9597, DSC: 0.9654, JSC: 0.9414. The most representative metric for the segmentation effect is DSC, which improves 0.1107 over U-Net, and JSC improves 0.1214.
翻訳日:2021-12-16 13:58:08 公開日:2021-12-15
# 法定データに基づくトランスフォーマーのクロスドメイン一般化と知識伝達

Cross-Domain Generalization and Knowledge Transfer in Transformers Trained on Legal Data ( http://arxiv.org/abs/2112.07870v1 )

ライセンス: Link先を確認
Jaromir Savelka, Hannes Westermann, Karim Benyekhlef(参考訳) 我々は、異なる型システムでアノテートされたデータセット間で知識を伝達し、訓練されたドメインとデータセットを超えて一般化する、事前訓練された言語モデルの能力を分析する。 我々は、修辞的役割の予測に焦点を当てた複数のデータセットにメタタスクを作成する。 文がケース決定で果たす修辞的役割の予測は、AI & Lawにおいて重要かつしばしば研究される課題である。 通常、モデルのトレーニングには大量の文のアノテーションが必要です。 さらに、モデルの応用は、トレーニングされた同じデータセットに制限される。 言語モデルを微調整し、データセット間での性能を評価し、ドメイン間で一般化するモデルの能力を調べる。 このアプローチは、アクティブな学習や対話型学習におけるコールドスタート問題を克服する上で有用であり、モデルがデータセットとドメインをまたいで一般化する能力を示している。

We analyze the ability of pre-trained language models to transfer knowledge among datasets annotated with different type systems and to generalize beyond the domain and dataset they were trained on. We create a meta task, over multiple datasets focused on the prediction of rhetorical roles. Prediction of the rhetorical role a sentence plays in a case decision is an important and often studied task in AI & Law. Typically, it requires the annotation of a large number of sentences to train a model, which can be time-consuming and expensive. Further, the application of the models is restrained to the same dataset it was trained on. We fine-tune language models and evaluate their performance across datasets, to investigate the models' ability to generalize across domains. Our results suggest that the approach could be helpful in overcoming the cold-start problem in active or interactvie learning, and shows the ability of the models to generalize across datasets and domains.
翻訳日:2021-12-16 13:57:04 公開日:2021-12-15
# (参考訳) 言語モデル埋め込みにおける線形有毒部分空間の同定による簡易テキストデトックス化

Simple Text Detoxification by Identifying a Linear Toxic Subspace in Language Model Embeddings ( http://arxiv.org/abs/2112.08346v1 )

ライセンス: CC BY 4.0
Andrew Wang, Mohit Sudhakar, Yangfeng Ji(参考訳) 大きな事前学習された言語モデルは、しばしば大量のインターネットデータに基づいて訓練され、その一部は有毒または虐待的な言語を含んでいる。 その結果、言語モデルは有害な情報をエンコードするので、実際の言語モデルの使用は制限される。 現在の方法は、有害な特徴が生成されるのを防ぐことを目的としている。 我々は、事前訓練された言語モデルの潜在空間に低次元の有毒な部分空間が存在することを仮定し、その存在は、有毒な特徴がいくつかの基本パターンに従い、除去可能であることを示唆している。 この有毒な部分空間を構築するために,潜在空間における有毒な方向を一般化する手法を提案する。 また,コンテキストベースの単語マスキングシステムを用いて並列データセットを構築する手法を提案する。 実験の結果,有毒な部分空間が一組の文表現から取り除かれた場合,有毒な表現はほとんど残っていないことがわかった。 実験により, 本手法を用いたサブスペースが複数の毒性コーパスに一般化し, 低次元の毒性サブスペースの存在を示すことを実証した。

Large pre-trained language models are often trained on large volumes of internet data, some of which may contain toxic or abusive language. Consequently, language models encode toxic information, which makes the real-world usage of these language models limited. Current methods aim to prevent toxic features from appearing generated text. We hypothesize the existence of a low-dimensional toxic subspace in the latent space of pre-trained language models, the existence of which suggests that toxic features follow some underlying pattern and are thus removable. To construct this toxic subspace, we propose a method to generalize toxic directions in the latent space. We also provide a methodology for constructing parallel datasets using a context based word masking system. Through our experiments, we show that when the toxic subspace is removed from a set of sentence representations, almost no toxic representations remain in the result. We demonstrate empirically that the subspace found using our method generalizes to multiple toxicity corpora, indicating the existence of a low-dimensional toxic subspace.
翻訳日:2021-12-16 13:55:18 公開日:2021-12-15
# 不確かさ推定によるマイニングマイノリティクラスの例

Mining Minority-class Examples With Uncertainty Estimates ( http://arxiv.org/abs/2112.07835v1 )

ライセンス: Link先を確認
Gursimran Singh, Lingyang Chu, Lanjun Wang, Jian Pei, Qi Tian, Yong Zhang(参考訳) 実世界では、オブジェクトの発生頻度は自然に歪み、ロングテールクラス分布を形成し、統計学的に希少なクラスでは性能が低下する。 有望な解決策は、トレーニングデータセットのバランスをとるためにテールクラスのサンプルをマイニングすることだ。 しかし、尾クラスの採掘は非常に難しい作業である。 例えば、不確実性に基づくマイニング手法のほとんどが、データの歪みに起因するクラス確率の歪みのために苦労している。 本研究では,これらの課題を克服する効果的な,しかし簡単なアプローチを提案する。 このフレームワークはテイルクラスのアクティベーションを抑圧し、その後、テイルクラスのサンプルを効果的に識別するために1クラスデータ中心のアプローチを使用する。 2つのコンピュータビジョンタスクにまたがる3つのデータセットについて,フレームワークを徹底的に評価する。 マイニングのマイニングと微調整モデルの性能の大幅な改善は,提案するソリューションの価値を強く裏付けるものだ。

In the real world, the frequency of occurrence of objects is naturally skewed forming long-tail class distributions, which results in poor performance on the statistically rare classes. A promising solution is to mine tail-class examples to balance the training dataset. However, mining tail-class examples is a very challenging task. For instance, most of the otherwise successful uncertainty-based mining approaches struggle due to distortion of class probabilities resulting from skewness in data. In this work, we propose an effective, yet simple, approach to overcome these challenges. Our framework enhances the subdued tail-class activations and, thereafter, uses a one-class data-centric approach to effectively identify tail-class examples. We carry out an exhaustive evaluation of our framework on three datasets spanning over two computer vision tasks. Substantial improvements in the minority-class mining and fine-tuned model's performance strongly corroborate the value of our proposed solution.
翻訳日:2021-12-16 13:40:42 公開日:2021-12-15
# 分割再構成誘導顔画像デクルージョン

Segmentation-Reconstruction-Guided Facial Image De-occlusion ( http://arxiv.org/abs/2112.08022v1 )

ライセンス: Link先を確認
Xiangnan Yin, Di Huang, Zehua Fu, Yunhong Wang, Liming Chen(参考訳) 隠蔽は野生の顔画像で非常に一般的であり、顔関連タスクの劣化パフォーマンスに繋がる。 顔画像からのオクルージョンの除去に多くの努力が注がれているが、オクルージョンの形状やテクスチャは今でも現在の手法の堅牢性に挑戦している。 その結果、現在の方法は手動の閉塞マスクに依存するか、特定の閉塞マスクにのみ適用される。 本稿では,顔のセグメンテーションと3次元顔再構成に基づく新しい顔分割モデルを提案する。 提案モデルは,3次元顔再構成モジュール,顔セグメンテーションモジュール,画像生成モジュールで構成される。 第1の2で予測される顔前と閉塞マスクにより、画像生成モジュールは、欠落した顔のテクスチャを忠実に回復することができる。 トレーニングを監督するために、手動でラベル付けと合成のオクルージョンを持つ大きなオクルージョンデータセットを構築する。 定性的かつ定量的な結果は,提案手法の有効性とロバスト性を示すものである。

Occlusions are very common in face images in the wild, leading to the degraded performance of face-related tasks. Although much effort has been devoted to removing occlusions from face images, the varying shapes and textures of occlusions still challenge the robustness of current methods. As a result, current methods either rely on manual occlusion masks or only apply to specific occlusions. This paper proposes a novel face de-occlusion model based on face segmentation and 3D face reconstruction, which automatically removes all kinds of face occlusions with even blurred boundaries,e.g., hairs. The proposed model consists of a 3D face reconstruction module, a face segmentation module, and an image generation module. With the face prior and the occlusion mask predicted by the first two, respectively, the image generation module can faithfully recover the missing facial textures. To supervise the training, we further build a large occlusion dataset, with both manually labeled and synthetic occlusions. Qualitative and quantitative results demonstrate the effectiveness and robustness of the proposed method.
翻訳日:2021-12-16 13:40:28 公開日:2021-12-15
# バイオメディカル自然言語処理のための大規模ニューラルネットワークモデル

Fine-Tuning Large Neural Language Models for Biomedical Natural Language Processing ( http://arxiv.org/abs/2112.07869v1 )

ライセンス: Link先を確認
Robert Tinn, Hao Cheng, Yu Gu, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, Hoifung Poon(参考訳) モチベーション: バイオメディカル研究者や臨床実践者にとっての長年にわたる挑戦は、出版物や医療記録の急速な成長に引き続き対応することである。 自然言語処理(NLP)は情報過負荷に対処するための有望な方向として登場した。 特に、大きなニューラルネットワークモデルは、様々なnlpアプリケーションにおけるbertモデルの成功の例のように、ラベルのないテキストを事前学習することで、転送学習を容易にする。 しかし、特にバイオメディカルNLPで一般的な小さなラベル付きデータセットでは、終末タスクのための微調整は依然として困難である。 結果: バイオメディカルNLPの微調整安定性に関する系統的研究を行った。 我々は,特に低リソース領域において,微調整性能が事前学習設定に敏感であることを示す。 大きなモデルはより良い性能を得る可能性があるが、モデルサイズの増加は微調整の不安定さを悪化させる。 そこで我々は,微調整不安定性に対処する手法を包括的に探究する。 これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。 具体的には、下層の凍結は標準的なBERT-BASEモデルに有効であり、層状崩壊はBERT-LARGEモデルとELECTRAモデルにより効果的である。 BIOSSESのような低リソースのテキスト類似性タスクでは、トップレイヤの再起動が最適な戦略です。 全体として、ドメイン固有の語彙と事前学習は、微調整のためのより堅牢なモデルを促進する。 これらの知見に基づいて,幅広い生物医学的NLP応用に新たな技術が確立されている。 可用性と実装: バイオメディカルNLPの進歩を促進するため、私たちは最先端のトレーニング済みおよび微調整されたモデルをリリースします。

Motivation: A perennial challenge for biomedical researchers and clinical practitioners is to stay abreast with the rapid growth of publications and medical notes. Natural language processing (NLP) has emerged as a promising direction for taming information overload. In particular, large neural language models facilitate transfer learning by pretraining on unlabeled text, as exemplified by the successes of BERT models in various NLP applications. However, fine-tuning such models for an end task remains challenging, especially with small labeled datasets, which are common in biomedical NLP. Results: We conduct a systematic study on fine-tuning stability in biomedical NLP. We show that finetuning performance may be sensitive to pretraining settings, especially in low-resource domains. Large models have potential to attain better performance, but increasing model size also exacerbates finetuning instability. We thus conduct a comprehensive exploration of techniques for addressing fine-tuning instability. We show that these techniques can substantially improve fine-tuning performance for lowresource biomedical NLP applications. Specifically, freezing lower layers is helpful for standard BERT-BASE models, while layerwise decay is more effective for BERT-LARGE and ELECTRA models. For low-resource text similarity tasks such as BIOSSES, reinitializing the top layer is the optimal strategy. Overall, domainspecific vocabulary and pretraining facilitate more robust models for fine-tuning. Based on these findings, we establish new state of the art on a wide range of biomedical NLP applications. Availability and implementation: To facilitate progress in biomedical NLP, we release our state-of-the-art pretrained and fine-tuned models: https://aka.ms/BLURB.
翻訳日:2021-12-16 13:37:30 公開日:2021-12-15
# リアルタイム推論制約付き句読点予測のためのマスク結合復号と分類手法

Mask-combine Decoding and Classification Approach for Punctuation Prediction with real-time Inference Constraints ( http://arxiv.org/abs/2112.08098v1 )

ライセンス: Link先を確認
Christoph Minixhofer, Ond\v{r}ej Klejch, Peter Bell(参考訳) そこで本研究では,句読点予測のための既存のデコード戦略を1つのフレームワークで統一し,複数の単語を異なるウィンドウにまたがって複数の予測を行う新しい手法を提案する。 モデルトレーニング後にこれらの戦略を最適化することで、大きな改善が可能であり、再トレーニングの必要はなく、推論時間の潜在的な増加につながることを示しています。 我々はさらに、リアルタイム設定における句読点予測のためのタグ付けと分類アプローチの最初の比較にデコード戦略フレームワークを使用する。 その結果、句読点予測のための分類手法は、右辺の文脈がほとんど、あるいは全く存在しない場合に有益であることが示された。

In this work, we unify several existing decoding strategies for punctuation prediction in one framework and introduce a novel strategy which utilises multiple predictions at each word across different windows. We show that significant improvements can be achieved by optimising these strategies after training a model, only leading to a potential increase in inference time, with no requirement for retraining. We further use our decoding strategy framework for the first comparison of tagging and classification approaches for punctuation prediction in a real-time setting. Our results show that a classification approach for punctuation prediction can be beneficial when little or no right-side context is available.
翻訳日:2021-12-16 13:37:03 公開日:2021-12-15
# コンテキスト対応アイテムメタ情報による会話推薦システムの品質向上

Improving Conversational Recommendation Systems' Quality with Context-Aware Item Meta Information ( http://arxiv.org/abs/2112.08140v1 )

ライセンス: Link先を確認
Bowen Yang, Cong Han, Yu Li, Lei Zuo, Zhou Yu(参考訳) 対話レコメンデーションシステム(CRS)は、対話履歴からユーザの好みを推測し、正確なレコメンデーションを提供し、適切な応答を生成する。 従来のCRSでは、知識グラフ(KG)ベースのレコメンデーションモジュールを使用し、応答生成のための言語モデルとKGを統合する。 KGベースのアプローチは有効であるが、2つの問題が解決される。 第一に、KGベースのアプローチは、会話の文脈における情報を無視するが、アイテムを推薦するエンティティ関係と単語の袋にのみ依存する。 第二に、ドメイン固有の関係をモデル化するKGを維持するためには、かなりのエンジニアリングの努力が必要だ。 本稿では,事前学習型言語モデル(PLM)と項目メタデータエンコーダを組み合わせた,シンプルで効果的なアーキテクチャを提案する。 エンコーダは、項目メタデータをダイアログコンテキストのセマンティック情報を反映した埋め込みにマップすることを学ぶ。 次にplmは、セマンティックアライメントされたアイテム埋め込みとダイアログコンテキストを併用して、高品質のレコメンデーションとレスポンスを生成する。 KGとのエンティティ関係をモデル化する代わりに、各項目を直接埋め込みに変換することにより、エンジニアリングの複雑さを低減する。 ベンチマークデータセットにおける実験結果は,レコメンデーションタスクとレスポンス生成タスクの両方において,最新の結果が得られることを示した。

Conversational recommendation systems (CRS) engage with users by inferring user preferences from dialog history, providing accurate recommendations, and generating appropriate responses. Previous CRSs use knowledge graph (KG) based recommendation modules and integrate KG with language models for response generation. Although KG-based approaches prove effective, two issues remain to be solved. First, KG-based approaches ignore the information in the conversational context but only rely on entity relations and bag of words to recommend items. Second, it requires substantial engineering efforts to maintain KGs that model domain-specific relations, thus leading to less flexibility. In this paper, we propose a simple yet effective architecture comprising a pre-trained language model (PLM) and an item metadata encoder. The encoder learns to map item metadata to embeddings that can reflect the semantic information in the dialog context. The PLM then consumes the semantic-aligned item embeddings together with dialog context to generate high-quality recommendations and responses. Instead of modeling entity relations with KGs, our model reduces engineering complexity by directly converting each item to an embedding. Experimental results on the benchmark dataset ReDial show that our model obtains state-of-the-art results on both recommendation and response generation tasks.
翻訳日:2021-12-16 13:36:51 公開日:2021-12-15
# est-ce que vous compute? コードスイッチング、文化的アイデンティティ、AI

Est-ce que vous compute? Code-switching, cultural identity, and AI ( http://arxiv.org/abs/2112.08256v1 )

ライセンス: Link先を確認
Arianna Falbo and Travis LaCroix(参考訳) 文化的なコードスイッチングは、社会環境の変化に対する私たちの全体的な行動、話し方、出現の調整方法に関するものである。 我々は、人工知能システムの文化的コード交換能力を調査する必要性を擁護する。 我々は、人工知能に文化的なコードスイッチングをもたらす際に生じる倫理的および疫学的な問題を探求する。 ドットソン(2014年)の証言スモーキングの分析に基づいて、aiの新興技術がどのようにして認識論的抑圧を生じさせるのか、具体的には、私たちが「文化的スモーキング」と呼ぶ自己鎮静の形式について論じる。 文化的な規範変更の社会力学的特徴をそのまま残すことで、AIシステムは、機会ギャップを広げ、さらに社会的不平等を拡大することによって、既に結婚した社会グループに悪影響を及ぼすリスクを負う。

Cultural code-switching concerns how we adjust our overall behaviours, manners of speaking, and appearance in response to a perceived change in our social environment. We defend the need to investigate cultural code-switching capacities in artificial intelligence systems. We explore a series of ethical and epistemic issues that arise when bringing cultural code-switching to bear on artificial intelligence. Building upon Dotson's (2014) analysis of testimonial smothering, we discuss how emerging technologies in AI can give rise to epistemic oppression, and specifically, a form of self-silencing that we call 'cultural smothering'. By leaving the socio-dynamic features of cultural code-switching unaddressed, AI systems risk negatively impacting already-marginalised social groups by widening opportunity gaps and further entrenching social inequalities.
翻訳日:2021-12-16 13:36:30 公開日:2021-12-15
# (参考訳) trialgraph: 臨床試験のグラフモデリングから洞察を得るためのマシンインテリジェンス

TrialGraph: Machine Intelligence Enabled Insight from Graph Modelling of Clinical Trials ( http://arxiv.org/abs/2112.08211v1 )

ライセンス: CC BY 4.0
Christopher Yacoumatos, Stefano Bragaglia, Anshul Kanakia, Nils Svang{\aa}rd, Jonathan Mangion, Claire Donoghue, Jim Weatherall, Faisal M. Khan, Khader Shameer(参考訳) 医薬品開発の成功の大きな障害は、臨床試験の複雑さ、コスト、規模である。 臨床試験データの詳細な内部構造は従来の最適化を困難にする可能性がある。 近年の機械学習、特にグラフ構造化データ解析の進歩は、臨床試験設計の改善に大きな進歩をもたらす可能性がある。 trialgraphはこれらの手法を応用して、薬物開発を助け患者に利益をもたらすモデルを開発するための概念実証フレームワークを作ろうとしている。 本研究では,CT.gov,AACT,TrialTroveデータベース(n=1191の臨床試験,100万の患者を表す)から収集した治験データセットをまず紹介し,このデータをグラフ構造化フォーマットに変換する方法について述べる。 次に,低次元特徴空間に埋め込まれたグラフデータに標準機械分類器を用いるグラフ機械学習アルゴリズムの数学的基礎と実装について詳述する。 これらのモデルを用いて, 疾患, 既存の病状, 治療に関する情報をもとに, 臨床試験の副作用情報を予測する訓練を行った。 MetaPath2Vecアルゴリズムは、標準的なロジスティック回帰、決定木、ランダムフォレスト、サポートベクトル、ニューラルネットワーク分類器で、それぞれ0.85、0.68、0.86、0.80、0.77の典型的なROC-AUCスコアを示す。 注目すべきは、最高の性能の分類器は、等価な配列構造データに基づいて訓練すると、典型的なROC-AUCスコアの0.70しか生成できなかったことである。 本研究では,グラフモデリングが適切なデータセットの予測精度を大幅に向上できることを実証する。 モデリングの仮定を洗練し、より多くのデータ型を取り入れるプロジェクトの連続したバージョンは、薬物開発における現実世界の応用において優れた予測器を生み出す。

A major impediment to successful drug development is the complexity, cost, and scale of clinical trials. The detailed internal structure of clinical trial data can make conventional optimization difficult to achieve. Recent advances in machine learning, specifically graph-structured data analysis, have the potential to enable significant progress in improving the clinical trial design. TrialGraph seeks to apply these methodologies to produce a proof-of-concept framework for developing models which can aid drug development and benefit patients. In this work, we first introduce a curated clinical trial data set compiled from the CT.gov, AACT and TrialTrove databases (n=1191 trials; representing one million patients) and describe the conversion of this data to graph-structured formats. We then detail the mathematical basis and implementation of a selection of graph machine learning algorithms, which typically use standard machine classifiers on graph data embedded in a low-dimensional feature space. We trained these models to predict side effect information for a clinical trial given information on the disease, existing medical conditions, and treatment. The MetaPath2Vec algorithm performed exceptionally well, with standard Logistic Regression, Decision Tree, Random Forest, Support Vector, and Neural Network classifiers exhibiting typical ROC-AUC scores of 0.85, 0.68, 0.86, 0.80, and 0.77, respectively. Remarkably, the best performing classifiers could only produce typical ROC-AUC scores of 0.70 when trained on equivalent array-structured data. Our work demonstrates that graph modelling can significantly improve prediction accuracy on appropriate datasets. Successive versions of the project that refine modelling assumptions and incorporate more data types can produce excellent predictors with real-world applications in drug development.
翻訳日:2021-12-16 13:33:55 公開日:2021-12-15
# 実データを用いたテキストなし音声音声合成

Textless Speech-to-Speech Translation on Real Data ( http://arxiv.org/abs/2112.08352v1 )

ライセンス: Link先を確認
Ann Lee, Hongyu Gong, Paul-Ambroise Duquenne, Holger Schwenk, Peng-Jen Chen, Changhan Wang, Sravya Popuri, Juan Pino, Jiatao Gu, Wei-Ning Hsu(参考訳) 本稿では,ある言語から別の言語へ音声を翻訳し,テキストデータなしで構築できるs2st(textless speech-to-speech translation)システムを提案する。 文献における既存の研究と異なり、マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に取り組む。 提案手法の鍵となるのは,複数話者からのペア音声と1つの参照話者による事前学習音声エンコーダを微調整し,アクセントによる変動を低減し,語彙内容を保存する,自己教師付き単位ベース音声正規化手法である。 音声正規化のためのペアデータはわずか10分で、非正規化音声ターゲットで訓練されたベースラインと比較して、s2stモデルを \vp~s2stデータセットでトレーニングする際に平均3.2 bleuゲインを得る。 また、自動マイニングされたS2STデータを組み込んで2.0BLEUゲインを示す。 我々の知る限り、私たちは、実世界のデータでトレーニングでき、複数の言語ペアで動作する、テキストレスのS2STテクニックを最初に確立しました。

We present a textless speech-to-speech translation (S2ST) system that can translate speech from one language into another language and can be built without the need of any text data. Different from existing work in the literature, we tackle the challenge in modeling multi-speaker target speech and train the systems with real-world S2ST data. The key to our approach is a self-supervised unit-based speech normalization technique, which finetunes a pre-trained speech encoder with paired audios from multiple speakers and a single reference speaker to reduce the variations due to accents, while preserving the lexical content. With only 10 minutes of paired data for speech normalization, we obtain on average 3.2 BLEU gain when training the S2ST model on the \vp~S2ST dataset, compared to a baseline trained on un-normalized speech target. We also incorporate automatically mined S2ST data and show an additional 2.0 BLEU gain. To our knowledge, we are the first to establish a textless S2ST technique that can be trained with real-world data and works for multiple language pairs.
翻訳日:2021-12-16 13:10:50 公開日:2021-12-15
# GenIE: 生成情報抽出

GenIE: Generative Information Extraction ( http://arxiv.org/abs/2112.08340v1 )

ライセンス: Link先を確認
Martin Josifoski, Nicola De Cao, Maxime Peyrard, Robert West(参考訳) テキストの構造的および接地的表現は、一般に、知識ベーススキーマから予め定義されたエンティティの集合と関係の集合と整合した(対象、関係、対象)三重項の完全な集合を抽出する問題である閉情報抽出によって定式化される。 既存の作業の多くはパイプラインでエラーの蓄積が難しく、すべてのアプローチは非現実的に少数のエンティティや関係にのみ適用できる。 閉鎖情報抽出の最初のエンドツーエンド自動回帰式であるGenIE(生成情報抽出)を紹介する。 GenIEは、テキスト形式で関係やエンティティを自動回帰生成することで、事前訓練されたトランスフォーマーから言語知識を自然に活用する。 新しいbiレベルの制約付き生成戦略により、事前定義された知識ベーススキーマに準拠したトリプレットのみが生成される。 我々の実験は、GenIEがクローズド情報抽出の最先端であり、ベースラインよりも少ないトレーニングデータポイントから一般化し、これまで管理不能だったエンティティとリレーションシップにスケールすることを示した。 この作業により、クローズド情報抽出は現実的なシナリオにおいて実践的になり、下流タスクに新たな機会を提供する。 最後に、この研究は情報抽出のコアタスクへの統一的なエンドツーエンドアプローチへの道を開く。 コードとモデルはhttps://github.com/epfl-dlab/genieで入手できる。

Structured and grounded representation of text is typically formalized by closed information extraction, the problem of extracting an exhaustive set of (subject, relation, object) triplets that are consistent with a predefined set of entities and relations from a knowledge base schema. Most existing works are pipelines prone to error accumulation, and all approaches are only applicable to unrealistically small numbers of entities and relations. We introduce GenIE (generative information extraction), the first end-to-end autoregressive formulation of closed information extraction. GenIE naturally exploits the language knowledge from the pre-trained transformer by autoregressively generating relations and entities in textual form. Thanks to a new bi-level constrained generation strategy, only triplets consistent with the predefined knowledge base schema are produced. Our experiments show that GenIE is state-of-the-art on closed information extraction, generalizes from fewer training data points than baselines, and scales to a previously unmanageable number of entities and relations. With this work, closed information extraction becomes practical in realistic scenarios, providing new opportunities for downstream tasks. Finally, this work paves the way towards a unified end-to-end approach to the core tasks of information extraction. Code and models available at https://github.com/epfl-dlab/GenIE.
翻訳日:2021-12-16 13:10:30 公開日:2021-12-15
# 時間行列因子分解を用いた短時系列大集合に対する最適潜時空間予測

Optimal Latent Space Forecasting for Large Collections of Short Time Series Using Temporal Matrix Factorization ( http://arxiv.org/abs/2112.08052v1 )

ライセンス: Link先を確認
Himanshi Charotia, Abhishek Garg, Gaurav Dhama, Naman Maheshwari(参考訳) 時系列予測の文脈では、複数の方法を評価し、これらの方法の1つを選択する、あるいは最高の予測を生成するアンサンブルを組むのが一般的である。 しかし、複数の手法で異なるアンサンブルを選択することは、手法の数が増えるにつれて組合せ爆発を起こす難しい課題である。 需要予測や収益予測の文脈では、この課題は、ビジネスコンテキストの変化によって利用可能な歴史的なデータポイントの制限に加えて、多くの時系列によってさらに悪化する。 深層学習予測手法は時系列の膨大なコレクションを同時に予測することを目的としているが、利用可能な歴史が限られており、望ましい結果が得られないため、このようなシナリオに適用することは困難になる。 クロスバリデーションを用いた潜時時系列の低位時間行列分解と最適モデル選択を組み合わせることで,短い高次元時系列データを予測するための枠組みを提案する。 我々は, 潜在要因の予測は, 時系列に異なる単変量モデルを直接適用することに比べ, 大幅な性能向上をもたらすことを実証する。 提案手法の汎用性を示す複数のドメインの時系列データを含むM4月間データセットの切り離されたバージョンで,性能が検証された。 また, 予測手法を高次元データセットに直接適用する場合, 一般的には非現実的な潜伏要因の少ないため, 将来のアナリストの視点を取り入れることも可能である。

In the context of time series forecasting, it is a common practice to evaluate multiple methods and choose one of these methods or an ensemble for producing the best forecasts. However, choosing among different ensembles over multiple methods remains a challenging task that undergoes a combinatorial explosion as the number of methods increases. In the context of demand forecasting or revenue forecasting, this challenge is further exacerbated by a large number of time series as well as limited historical data points available due to changing business context. Although deep learning forecasting methods aim to simultaneously forecast large collections of time series, they become challenging to apply in such scenarios due to the limited history available and might not yield desirable results. We propose a framework for forecasting short high-dimensional time series data by combining low-rank temporal matrix factorization and optimal model selection on latent time series using cross-validation. We demonstrate that forecasting the latent factors leads to significant performance gains as compared to directly applying different uni-variate models on time series. Performance has been validated on a truncated version of the M4 monthly dataset which contains time series data from multiple domains showing the general applicability of the method. Moreover, it is amenable to incorporating the analyst view of the future owing to the low number of latent factors which is usually impractical when applying forecasting methods directly to high dimensional datasets.
翻訳日:2021-12-16 13:10:10 公開日:2021-12-15
# 過度パラメータ化レジームにおけるニューラルネットワークの影響関数の再考

Rethinking Influence Functions of Neural Networks in the Over-parameterized Regime ( http://arxiv.org/abs/2112.08297v1 )

ライセンス: Link先を確認
Rui Zhang, Shihua Zhang(参考訳) ニューラルネットワークのブラックボックス予測を理解することは難しい。 これを達成するために、初期の研究では、ニューラルネットワークに単一のトレーニングポイントを取り除く効果を測定するために影響関数(IF)を設計した。 しかし、IFを計算するための古典的暗黙的ヘッセンベクトル積 (IHVP) 法は脆弱であり、ニューラルネットワークの文脈におけるIFの理論解析はいまだに不足している。 この目的のために、ニューラルネットワークのNTK理論を用いて、正規化平均二乗損失で訓練されたニューラルネットワークのIFを計算し、二層ReLUネットワークの幅が十分に大きい場合、近似誤差が任意に小さいことを証明した。 過パラメータ化方式における古典的IHVP法の誤差を解析して、いつ、なぜ失敗したかを理解する。 具体的には,(1)ihvpの精度は正規化項に依存し,弱正規化下ではかなり低いこと,(2)ihvpの精度は対応するトレーニング点の確率密度と有意な相関があることを明らかにした。 さらに、NTK から IF の複雑さの定量化や、トレーニング力学における IF の変動の描写など、IF の理解を深めるために理論を取り入れた。 実世界データを用いた数値実験により, 理論結果を確認し, 実験結果を示す。

Understanding the black-box prediction for neural networks is challenging. To achieve this, early studies have designed influence function (IF) to measure the effect of removing a single training point on neural networks. However, the classic implicit Hessian-vector product (IHVP) method for calculating IF is fragile, and theoretical analysis of IF in the context of neural networks is still lacking. To this end, we utilize the neural tangent kernel (NTK) theory to calculate IF for the neural network trained with regularized mean-square loss, and prove that the approximation error can be arbitrarily small when the width is sufficiently large for two-layer ReLU networks. We analyze the error bound for the classic IHVP method in the over-parameterized regime to understand when and why it fails or not. In detail, our theoretical analysis reveals that (1) the accuracy of IHVP depends on the regularization term, and is pretty low under weak regularization; (2) the accuracy of IHVP has a significant correlation with the probability density of corresponding training points. We further borrow the theory from NTK to understand the IFs better, including quantifying the complexity for influential samples and depicting the variation of IFs during the training dynamics. Numerical experiments on real-world data confirm our theoretical results and demonstrate our findings.
翻訳日:2021-12-16 13:09:47 公開日:2021-12-15
# 効率的な幾何認識型3次元生成対向ネットワーク

Efficient Geometry-aware 3D Generative Adversarial Networks ( http://arxiv.org/abs/2112.07945v1 )

ライセンス: Link先を確認
Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, Jonathan Tremblay, Sameh Khamis, Tero Karras and Gordon Wetzstein(参考訳) シングルビュー2D画像のみを用いた高品質なマルチビュー一貫性画像と3次元形状の教師なし生成は、長年にわたる課題である。 既存の3d ganは計算集約的または3d一貫性のない近似であり、前者は生成した画像の品質と解像度を制限し、後者はマルチビューの一貫性と形状品質に悪影響を及ぼす。 本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。 そこで本研究では,高解像度なマルチビュー一貫性の画像だけでなく,高画質な3D画像もリアルタイムで合成する,表現型ハイブリッド型明示型ネットワークアーキテクチャを提案する。 特徴生成とニューラルレンダリングを分離することにより、我々のフレームワークはStyleGAN2のような最先端の2D CNNジェネレータを活用し、その効率と表現性を継承することができる。 FFHQとAFHQ Catsによる最先端の3D認識合成を実証する。

Unsupervised generation of high-quality multi-view-consistent images and 3D shapes using only collections of single-view 2D photographs has been a long-standing challenge. Existing 3D GANs are either compute-intensive or make approximations that are not 3D-consistent; the former limits quality and resolution of the generated images and the latter adversely affects multi-view consistency and shape quality. In this work, we improve the computational efficiency and image quality of 3D GANs without overly relying on these approximations. For this purpose, we introduce an expressive hybrid explicit-implicit network architecture that, together with other design choices, synthesizes not only high-resolution multi-view-consistent images in real time but also produces high-quality 3D geometry. By decoupling feature generation and neural rendering, our framework is able to leverage state-of-the-art 2D CNN generators, such as StyleGAN2, and inherit their efficiency and expressiveness. We demonstrate state-of-the-art 3D-aware synthesis with FFHQ and AFHQ Cats, among other experiments.
翻訳日:2021-12-16 13:09:25 公開日:2021-12-15
# unsupervised outlier arbitrationによる自己教師付き学習の改善

Improving Self-supervised Learning with Automated Unsupervised Outlier Arbitration ( http://arxiv.org/abs/2112.08132v1 )

ライセンス: Link先を確認
Yu Wang and Jingyang Lin and Jingjing Zou and Yingwei Pan and Ting Yao and Tao Mei(参考訳) 我々の研究は、既存の主流の自己教師型学習手法の構造化された欠点を明らかにする。 自己教師付き学習フレームワークは、通常、当然の完全なインスタンスレベルの不変性仮説を取るが、我々は背後にある落とし穴を慎重に調査する。 特に,複数の肯定的なビューを生成する既存の拡張パイプラインは,下流タスクの学習を損なうアウト・オブ・ディストリビューション(OOD)サンプルを自然に導入する,という議論がある。 入力に様々なポジティブな拡張を生成することは、下流タスクの利益に必ずしも利益をもたらすとは限らない。 この欠点を克服するために,自己教師型学習のためのビューサンプリング問題を対象に,軽量潜伏変数モデル UOTA を導入する。 UOTAは、ビューを生成するために最も重要なサンプリング領域を適応的に検索し、アウトリア・ロバストな自己教師付き学習アプローチに実行可能な選択肢を提供する。 本手法は, 損失の性質に拘わらず, 主流の自己教師付き学習アプローチに直接一般化する。 我々は、既存のアプローチに埋め込まれたOODサンプル問題の存在を正当化する、明らかなマージンを持つ最先端の自己監督パラダイムに対する、UoTAのアドバンテージを実証的に示す。 特に理論上は,提案のメリットが推定値の分散とバイアス低減の保証に落ち着くことを証明している。 コードはhttps://github.com/ssl-codelab/uotaで入手できる。

Our work reveals a structured shortcoming of the existing mainstream self-supervised learning methods. Whereas self-supervised learning frameworks usually take the prevailing perfect instance level invariance hypothesis for granted, we carefully investigate the pitfalls behind. Particularly, we argue that the existing augmentation pipeline for generating multiple positive views naturally introduces out-of-distribution (OOD) samples that undermine the learning of the downstream tasks. Generating diverse positive augmentations on the input does not always pay off in benefiting downstream tasks. To overcome this inherent deficiency, we introduce a lightweight latent variable model UOTA, targeting the view sampling issue for self-supervised learning. UOTA adaptively searches for the most important sampling region to produce views, and provides viable choice for outlier-robust self-supervised learning approaches. Our method directly generalizes to many mainstream self-supervised learning approaches, regardless of the loss's nature contrastive or not. We empirically show UOTA's advantage over the state-of-the-art self-supervised paradigms with evident margin, which well justifies the existence of the OOD sample issue embedded in the existing approaches. Especially, we theoretically prove that the merits of the proposal boil down to guaranteed estimator variance and bias reduction. Code is available: at https://github.com/ssl-codelab/uota.
翻訳日:2021-12-16 13:09:08 公開日:2021-12-15
# (参考訳) ランク付けフェアネスを考慮した自己更新深部回帰林

Self-Paced Deep Regression Forests with Consideration on Ranking Fairness ( http://arxiv.org/abs/2112.06455v2 )

ライセンス: CC BY 4.0
Lili Pan, Mingming Meng, Yazhou Ren, Yali Zheng, Zenglin Xu(参考訳) 深部回帰林、深部神経決定林などの深部識別モデル(DDM)は、顔年齢推定、頭部ポーズ推定、視線推定などの問題を解決するために近年広く研究されている。 このような問題は、ノイズやバイアスのない大量の効果的なトレーニングデータがしばしば利用できないため、課題となっている。 いくつかの進歩は、より差別的な特徴を学習したり、サンプルを再重み付けすることで達成されているが、より望ましいのは、徐々に人間のように差別を覚えることである。 次に,SPL(Self-paced Learning)を活用する。 DDMはより堅牢でバイアスの少ないソリューションを実現することができるのだろうか? この研究で最初に議論されたSPLの深刻な問題は、特に不均衡なデータに対して、解のバイアスを増大させる傾向があることである。 そこで本研究では,各事例に関連付けられた出力確率とエントロピーに応じて,ノイズと過小表現の例を区別し,新たな視点からsplの基本ランキング問題に取り組む,深層判別モデルのための新しい自己ペースパラダイムを提案する。 このパラダイムは基本的なものであり、様々なDDMと簡単に組み合わせることができる。 顔年齢推定,頭部ポーズ推定,視線推定などの3つのコンピュータビジョンタスクに関する広範囲な実験を行い,このパラダイムの有効性を実証した。 我々の知識を最大限に活用するために、我々の研究は自給体制構築の公正さを考慮に入れたSPL文学における最初の論文である。

Deep discriminative models (DDMs), such as deep regression forests, deep neural decision forests, have been extensively studied recently to solve problems like facial age estimation, head pose estimation, gaze estimation and so forth. Such problems are challenging in part because a large amount of effective training data without noise and bias is often not available. While some progress has been achieved through learning more discriminative features, or reweighting samples, we argue what is more desirable is to learn gradually to discriminate like human beings. Then, we resort to self-paced learning (SPL). But a natural question arises: can self-paced regime lead DDMs to achieve more robust and less biased solutions? A serious problem with SPL, which is firstly discussed by this work, is it tends to aggravate the bias of solutions, especially for obvious imbalanced data. To this end, this paper proposes a new self-paced paradigm for deep discriminative model, which distinguishes noisy and underrepresented examples according to the output likelihood and entropy associated with each example, and tackle the fundamental ranking problem in SPL from a new perspective: fairness. This paradigm is fundamental, and could be easily combined with a variety of DDMs. Extensive experiments on three computer vision tasks, such as facial age estimation, head pose estimation and gaze estimation, demonstrate the efficacy of our paradigm. To the best of our knowledge, our work is the first paper in the literature of SPL that considers ranking fairness for self-paced regime construction.
翻訳日:2021-12-16 13:07:31 公開日:2021-12-15
# (参考訳) hiclass: scikit-learnと互換性のあるローカル階層分類のためのpythonライブラリ

HiClass: a Python library for local hierarchical classification compatible with scikit-learn ( http://arxiv.org/abs/2112.06560v3 )

ライセンス: CC BY 4.0
F\'abio M. Miranda, Niklas K\"oehnecke and Bernhard Y. Renard(参考訳) HiClassは、ローカル階層分類のためのオープンソースのPythonパッケージで、Scikit-learnと完全に互換性がある。 これは、ノード毎のローカル分類子、親ノード毎のローカル分類子、レベル毎のローカル分類子を含む、ローカル階層分類のための最も人気のある機械学習モデルの実装を提供する。 さらに、ライブラリには、階層データにおけるモデルパフォーマンスを評価するツールが含まれている。 ドキュメントにはインストール指示、インタラクティブノートブック、APIの完全な記述が含まれている。 HiClassはBSDライセンスで配布されており、学術および商業の両方での使用を奨励している。 ソースコードとドキュメントはhttps://gitlab.com/dacs-hpi/hiclassで入手できる。

HiClass is an open-source Python package for local hierarchical classification fully compatible with scikit-learn. It provides implementations of the most popular machine learning models for local hierarchical classification, including Local Classifier Per Node, Local Classifier Per Parent Node and Local Classifier Per Level. In addition, the library includes tools to evaluate model performance on hierarchical data. The documentation contains installation instructions, interactive notebooks, and a complete description of the API. HiClass is distributed under the simplified BSD license, encouraging its use in both academic and commercial settings. Source code and documentation are available at https://gitlab.com/dacs-hpi/hiclass.
翻訳日:2021-12-16 12:38:24 公開日:2021-12-15
# (参考訳) MMO: ソフトウェア構成調整のためのメタ多目的化

MMO: Meta Multi-Objectivization for Software Configuration Tuning ( http://arxiv.org/abs/2112.07303v2 )

ライセンス: CC BY 4.0
Tao Chen and Miqing Li(参考訳) 所定のパフォーマンス目標(例えば、レイテンシを最小化する)を最適化するには、ソフトウェア構成チューニングが不可欠である。 しかし、ソフトウェアが本質的に複雑な構成のランドスケープと高価な測定のために、特に検索がローカルのオプティマに閉じ込められるのを防ぐために、やや成功した。 この問題に対処するため、本稿では異なる視点を取ります。 最適化モデルの改善に焦点をあてる代わりに、最適化モデルに取り組み、補助的なパフォーマンス目標(レイテンシに加えてスループットなど)を考慮したメタ多目的化(MMO)モデルを提案する。 このモデルをユニークなものにしているのは、補助的なパフォーマンスの目標を最適化するのではなく、異なる構成(Paretoが互いに支配的でない)で同等な性能を保ちながら、検索がローカルなオプティマに閉じ込められないようにするためである。 重要なことは、新しい正規化手法を通じて、重みを気にせずにMMOモデルを効果的に利用する方法を示します。 11の現実世界のソフトウェアシステム/環境による22のケースの実験では、新しい正規化を備えたMMOモデルは82%のケースで最先端の単一オブジェクトモデルよりも性能が良く、最大2.09倍のスピードアップを実現しています。 67%のケースでは、MMOモデルを使用することで、事前調整したベストウェイトの下でのFSE作業で使われる正規化により、MMOモデルがインスタンスを上回り、優れたウェイトを見つけるのに必要となる大量のリソースを節約することができる。 また、新しい正規化を伴うMMOモデルにより、最近のモデルベースのチューニングツールであるFlashを、一般的に1.22倍のスピードアップのケースの68%で統合できることを実証した。

Software configuration tuning is essential for optimizing a given performance objective (e.g., minimizing latency). Yet, due to the software's intrinsically complex configuration landscape and expensive measurement, there has been a rather mild success, particularly in preventing the search from being trapped in local optima. To address this issue, in this paper we take a different perspective. Instead of focusing on improving the optimizer, we work on the level of optimization model and propose a meta multi-objectivization (MMO) model that considers an auxiliary performance objective (e.g., throughput in addition to latency). What makes this model unique is that we do not optimize the auxiliary performance objective, but rather use it to make similarly-performing while different configurations less comparable (i.e. Pareto nondominated to each other), thus preventing the search from being trapped in local optima. Importantly through a new normalization method we show how to effectively use the MMO model without worrying about its weight -- the only yet highly sensitive parameter that can affect its effectiveness. Experiments on 22 cases from 11 real-world software systems/environments confirm that our MMO model with the new normalization performs better than its state-of-the-art single-objective counterparts on 82% cases while achieving up to 2.09x speedup. For 67% of the cases, the new normalization also enables the MMO model to outperform the instance when using it with the normalization used in our prior FSE work under pre-tuned best weights, saving a great amount of resources which would be otherwise necessary to find a good weight. We also demonstrate that the MMO model with the new normalization can consolidate Flash, a recent model-based tuning tool, on 68% of the cases with 1.22x speedup in general.
翻訳日:2021-12-16 12:28:18 公開日:2021-12-15
# (参考訳) オンライン乗法確率勾配による非漸近境界の最適化

Non Asymptotic Bounds for Optimization via Online Multiplicative Stochastic Gradient Descent ( http://arxiv.org/abs/2112.07110v2 )

ライセンス: CC BY 4.0
Riddhiman Bhattacharya(参考訳) SGD(Stochastic Gradient Descent)の勾配ノイズは、その性質(低電位点と正則化の回避など)において重要な役割を果たすと考えられている。 過去の研究では、最小バッチによるSGD誤差の共分散が、その正規化を決定する上で重要な役割を果たすことが示されている。 しかしながら、誤差の分布がアルゴリズムの挙動にどの程度影響するかは明らかにされていない。 この領域における新たな研究によって、sgdの平均および共分散構造と同じノイズクラスが同様の性質を持つことを示すことにより、普遍性が証明される。 提案手法は主に,sgdアルゴリズムよりも一般的なノイズクラスを持つwuらによって導入された乗法確率勾配降下法(m-sgd)である。 我々は,M-SGD アルゴリズムに対して,SGD に対応する確率微分方程式のミニバッチによる非漸近境界を確立する。 また、M-SGDの誤差は、M-SGDアルゴリズムの任意の固定点において平均0$のガウス分布であることを示す。 また,M-SGDアルゴリズムの強い凸状態における収束の限界を確立する。

The gradient noise of Stochastic Gradient Descent (SGD) is considered to play a key role in its properties (e.g. escaping low potential points and regularization). Past research has indicated that the covariance of the SGD error done via minibatching plays a critical role in determining its regularization and escape from low potential points. It is however not much explored how much the distribution of the error influences the behavior of the algorithm. Motivated by some new research in this area, we prove universality results by showing that noise classes that have the same mean and covariance structure of SGD via minibatching have similar properties. We mainly consider the Multiplicative Stochastic Gradient Descent (M-SGD) algorithm as introduced by Wu et al., which has a much more general noise class than the SGD algorithm done via minibatching. We establish nonasymptotic bounds for the M-SGD algorithm mainly with respect to the Stochastic Differential Equation corresponding to SGD via minibatching. We also show that the M-SGD error is approximately a scaled Gaussian distribution with mean $0$ at any fixed point of the M-SGD algorithm. We also establish bounds for the convergence of the M-SGD algorithm in the strongly convex regime.
翻訳日:2021-12-16 11:32:45 公開日:2021-12-15
# n-CPS:半教師付きセマンティックセグメンテーションのためのNネットワークへのクロス擬似スーパービジョンの一般化

n-CPS: Generalising Cross Pseudo Supervision to n networks for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2112.07528v2 )

ライセンス: Link先を確認
Dominik Filipiak, Piotr Tempczyk, Marek Cygan(参考訳) 半教師付きセマンティックセマンティックセグメンテーションの課題に対して,最近の最先端の相互監視(CPS)アプローチを一般化したn-CPSを提案する。 n-CPSでは、同時に訓練されたサブネットが、摂動と整合性正規化を通じて互いに学習する。 また,サブネットワーク出力に適用したアンサンブル技術により性能が大幅に向上することを示す。 我々の知る限り、n-CPSはCutMixと組み合わせてCPSを上回り、1/16、1/8、1/4、1/2監督体制)とCityscapes(1/16監督体制)でPascal VOC 2012のための新しい最先端技術を設定します。

We present n-CPS - a generalisation of the recent state-of-the-art cross pseudo supervision (CPS) approach for the task of semi-supervised semantic segmentation. In n-CPS, there are n simultaneously trained subnetworks that learn from each other through one-hot encoding perturbation and consistency regularisation. We also show that ensembling techniques applied to subnetworks outputs can significantly improve the performance. To the best of our knowledge, n-CPS paired with CutMix outperforms CPS and sets the new state-of-the-art for Pascal VOC 2012 with (1/16, 1/8, 1/4, and 1/2 supervised regimes) and Cityscapes (1/16 supervised).
翻訳日:2021-12-16 11:31:03 公開日:2021-12-15
# 長期学習のためのエンド・ツー・エンドトレーニング

You Only Need End-to-End Training for Long-Tailed Recognition ( http://arxiv.org/abs/2112.05958v3 )

ライセンス: Link先を確認
Zhiwei Zhang(参考訳) 長い尾を持つデータセットの一般化のギャップは、ほとんどのカテゴリが少数のトレーニングサンプルを占有しているためである。 分離トレーニングは、バックボーンと分類器を別々にトレーニングすることで、よりよいパフォーマンスを達成する。 エンド・ツー・エンドモデルのトレーニング(例えばlogits margin-based method)のパフォーマンスが低くなる原因は何でしょう? 本研究は,分類器の学習に影響を与える重要な要因である,低エントロピーのチャネル関連特徴を,分類器に入力する前に同定する。 情報理論の観点からは, クロスエントロピー損失が不均衡データに対して高い相関性を持つ傾向がある理由を考察する。 さらに,分類器重みの勾配,ヘシアンの条件数,ロジッツマージンに基づくアプローチについて理論的に解析し,その影響を証明した。 そこで我々は,まずChannel Whiteningを用いて,重み付けをデカップリングし,スキュード決定境界を再構成するための分類器の入力をデコレーションし,ロジットマージン法と組み合わせて満足な結果を得る方法を提案する。 しかし、マイナークラス数が大きければ、バッチ不均衡とトレーニング参加の増加が、主要なクラスの過剰フィットの原因となる。 また,上記の問題を解決するために,ブロックベース相対バランスバッチサンプリング(b3rs)とバッチ組込みトレーニング(bet)という2つのモジュールを提案する。 CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。

The generalization gap on the long-tailed data sets is largely owing to most categories only occupying a few training samples. Decoupled training achieves better performance by training backbone and classifier separately. What causes the poorer performance of end-to-end model training (e.g., logits margin-based methods)? In this work, we identify a key factor that affects the learning of the classifier: the channel-correlated features with low entropy before inputting into the classifier. From the perspective of information theory, we analyze why cross-entropy loss tends to produce highly correlated features on the imbalanced data. In addition, we theoretically analyze and prove its impacts on the gradients of classifier weights, the condition number of Hessian, and logits margin-based approach. Therefore, we firstly propose to use Channel Whitening to decorrelate ("scatter") the classifier's inputs for decoupling the weight update and reshaping the skewed decision boundary, which achieves satisfactory results combined with logits margin-based method. However, when the number of minor classes are large, batch imbalance and more participation in training cause over-fitting of the major classes. We also propose two novel modules, Block-based Relatively Balanced Batch Sampler (B3RS) and Batch Embedded Training (BET) to solve the above problems, which makes the end-to-end training achieve even better performance than decoupled training. Experimental results on the long-tailed classification benchmarks, CIFAR-LT and ImageNet-LT, demonstrate the effectiveness of our method.
翻訳日:2021-12-16 11:30:47 公開日:2021-12-15
# カメラ画像とLiDAR点雲の時空間表現を用いた3次元物体検出と追跡

Joint 3D Object Detection and Tracking Using Spatio-Temporal Representation of Camera Image and LiDAR Point Clouds ( http://arxiv.org/abs/2112.07116v2 )

ライセンス: Link先を確認
Junho Koh, Jaekyum Kim, Jinhyuk Yoo, Yecheol Kim, Dongsuk Kum, Jun Won Choi(参考訳) 本稿では,カメラとLiDARセンサを用いた3次元物体検出・追跡のためのジョイントオブジェクト検出・追跡(JoDT)フレームワークを提案する。 提案手法は3d detectionrackと呼ばれ、検出器とトラッカーが協調してカメラとライダーデータの時空間表現を生成し、3dオブジェクトの検出と追跡を行うことができる。 検出器は、カメラとLiDAR融合によって得られる空間的特徴の重み付け時間的アグリゲーションを介して時空間的特徴を構築する。 そして、前回のタイムステップまで維持されたトラックレットの情報を用いて初期検出結果を再設定する。 検出器によって生成された時空間的特徴に基づいて、トラッカーは検出されたオブジェクトをグラフニューラルネットワーク(GNN)を用いて以前追跡されたオブジェクトと関連付ける。 我々は,規則に基づくエッジプルーニングと注意に基づくエッジゲーティングの組み合わせにより,完全に接続されたgnnを考案する。 KITTIとnuScenesのベンチマークで実施された実験により、提案した3D DetecTrackは、ベースライン法よりも検出および追跡性能に大きな改善を達成し、検出器とトラッカーの協調によって既存の手法間の最先端のパフォーマンスを達成することが示された。

In this paper, we propose a new joint object detection and tracking (JoDT) framework for 3D object detection and tracking based on camera and LiDAR sensors. The proposed method, referred to as 3D DetecTrack, enables the detector and tracker to cooperate to generate a spatio-temporal representation of the camera and LiDAR data, with which 3D object detection and tracking are then performed. The detector constructs the spatio-temporal features via the weighted temporal aggregation of the spatial features obtained by the camera and LiDAR fusion. Then, the detector reconfigures the initial detection results using information from the tracklets maintained up to the previous time step. Based on the spatio-temporal features generated by the detector, the tracker associates the detected objects with previously tracked objects using a graph neural network (GNN). We devise a fully-connected GNN facilitated by a combination of rule-based edge pruning and attention-based edge gating, which exploits both spatial and temporal object contexts to improve tracking performance. The experiments conducted on both KITTI and nuScenes benchmarks demonstrate that the proposed 3D DetecTrack achieves significant improvements in both detection and tracking performances over baseline methods and achieves state-of-the-art performance among existing methods through collaboration between the detector and tracker.
翻訳日:2021-12-16 11:30:21 公開日:2021-12-15
# Meta-CPR: 通信パターン認識モジュールを持つ多数のエージェントに一般化

Meta-CPR: Generalize to Unseen Large Number of Agents with Communication Pattern Recognition Module ( http://arxiv.org/abs/2112.07222v2 )

ライセンス: Link先を確認
Wei-Cheng Tseng, Wei Wei, Da-Chen Juan, Min Sun(参考訳) 強化学習におけるエージェント間の効果的なコミュニケーション機構の設計は、特に現実世界のアプリケーションにおいて難しい課題であった。 エージェントの数や環境は、現実世界のシナリオで変化するエージェントの数とやりとりする必要がある場合もあります。 この目的のために、マルチエージェントフレームワークは、実世界のアプリケーションで実用的なスケールとダイナミクスの両方の観点から、エージェントの様々なシナリオを扱う必要がある。 エージェント数が異なるマルチエージェント環境をマルチタスク問題として定式化し、この問題に対処するためのメタ強化学習(Meta-RL)フレームワークを提案する。 提案手法では,cpr(meta-learned communication pattern recognition)モジュールを用いてコミュニケーション行動を特定し,学習プロセスを容易にする情報を抽出する。 実験結果から,提案する枠組みが実証された。 a) 目に見えないほど多くのエージェントに一般化し、 (b)エピソード間でエージェントの数を変更することができる。 また, 提案したCPR設計が有効であることを示すために, アブレーション試験を行った。

Designing an effective communication mechanism among agents in reinforcement learning has been a challenging task, especially for real-world applications. The number of agents can grow or an environment sometimes needs to interact with a changing number of agents in real-world scenarios. To this end, a multi-agent framework needs to handle various scenarios of agents, in terms of both scales and dynamics, for being practical to real-world applications. We formulate the multi-agent environment with a different number of agents as a multi-tasking problem and propose a meta reinforcement learning (meta-RL) framework to tackle this problem. The proposed framework employs a meta-learned Communication Pattern Recognition (CPR) module to identify communication behavior and extract information that facilitates the training process. Experimental results are poised to demonstrate that the proposed framework (a) generalizes to an unseen larger number of agents and (b) allows the number of agents to change between episodes. The ablation study is also provided to reason the proposed CPR design and show such design is effective.
翻訳日:2021-12-16 11:29:54 公開日:2021-12-15
# EABlock: 知識グラフ作成パイプラインのための宣言的なエンティティアライメントブロック

EABlock: A Declarative Entity Alignment Block for Knowledge Graph Creation Pipelines ( http://arxiv.org/abs/2112.07493v2 )

ライセンス: Link先を確認
Samaneh Jozashoori, Ahmad Sakor, Enrique Iglesias, Maria-Esther Vidal(参考訳) 膨大な量のリッチで価値のあるデータをエンコードしているにも関わらず、既存のデータソースは独立して作成されている。 RMLやR2RMLといったマッピング言語は、メタデータを適用し、データを知識グラフに統合するプロセスの宣言的な仕様化を促進する。 マッピングルールには、データソース間の対応表現と統一スキーマに加えて、知識抽出機能も含まれる。 マッピングルールと関数の組み合わせは、データをナレッジグラフに透過的に統合するためのパイプラインを特定するための強力な形式です。 驚くべきことに、これらの形式は完全には適合せず、多くのナレッジグラフはデータの事前処理と統合のためにアドホックなプログラムを実行することによって作られる。 本稿では,エンティティアライメント(EA)をRMLマッピングルールの一部として統合するアプローチであるERBlockを提案する。 eablockには、テキスト属性からエンティティ認識を行い、認識されたエンティティをwikidata、dbpedia、ドメイン固有シソーラス(例えばumls)の対応するリソースにリンクする関数のブロックが含まれている。 EABlockは、関数を評価し、マッピングを転送し、どのRML準拠のエンジンにも適用できるようにするための、非依存かつ効率的な技術を提供する。 EABlockの性能を実証的に評価した結果,最先端のRML準拠エンジンにおけるエンティティ認識とリンクを必要とする知識グラフ生成パイプラインの高速化が示唆された。 EABlockはまた、GitHubリポジトリ(https://github.com/SDM-TIB/EABlock)とDOI(https://doi.org/10.5281/zenodo.5779773)を通じてツールとして公開されている。

Despite encoding enormous amount of rich and valuable data, existing data sources are mostly created independently, being a significant challenge to their integration. Mapping languages, e.g., RML and R2RML, facilitate declarative specification of the process of applying meta-data and integrating data into a knowledge graph. Mapping rules can also include knowledge extraction functions in addition to expressing correspondences among data sources and a unified schema. Combining mapping rules and functions represents a powerful formalism to specify pipelines for integrating data into a knowledge graph transparently. Surprisingly, these formalisms are not fully adapted, and many knowledge graphs are created by executing ad-hoc programs to pre-process and integrate data. In this paper, we present EABlock, an approach integrating Entity Alignment (EA) as part of RML mapping rules. EABlock includes a block of functions performing entity recognition from textual attributes and link the recognized entities to the corresponding resources in Wikidata, DBpedia, and domain specific thesaurus, e.g., UMLS. EABlock provides agnostic and efficient techniques to evaluate the functions and transfer the mappings to facilitate its application in any RML-compliant engine. We have empirically evaluated EABlock performance, and results indicate that EABlock speeds up knowledge graph creation pipelines that require entity recognition and linking in state-of-the-art RML-compliant engines. EABlock is also publicly available as a tool through a GitHub repository(https://github.com/SDM-TIB/EABlock) and a DOI(https://doi.org/10.5281/zenodo.5779773).
翻訳日:2021-12-16 11:29:38 公開日:2021-12-15
# imアバター:ビデオからの暗黙の変形可能な頭部アバター

I M Avatar: Implicit Morphable Head Avatars from Videos ( http://arxiv.org/abs/2112.07471v2 )

ライセンス: Link先を確認
Yufeng Zheng, Victoria Fern\'andez Abrevaya, Xu Chen, Marcel C. B\"uhler, Michael J. Black, Otmar Hilliges(参考訳) 従来の変形可能な顔モデルは、表現のきめ細かい制御を提供するが、幾何学的および外観的詳細を簡単に捉えられない。 ニューラルボリューム表現はフォトリアリズムに近づくが、アニメーション化が困難であり、目に見えない表現にうまく一般化しない。 そこで本研究では,単眼ビデオから暗黙的な頭部アバターを学習する新しい手法であるimavatar(implicit morphable avatar)を提案する。 従来の3dmmで得られる細粒度制御機構に着想を得て, ブレンド形状とスキンフィールドによる表現とポーズ関連変形を表現した。 これらの属性はポーズ非依存であり、新しい表現とポーズパラメータを与えられた標準幾何学とテクスチャ場を変形させるのに使用できる。 レイトレーシングと反復ルート探索を用いて,各画素の正準面交点を探索する。 ビデオからIMavatarのエンドツーエンドのトレーニングを可能にする新しい解析的勾配定式化が重要な貢献である。 本手法が幾何学を改良し,最先端手法と比較してより完全な表現空間をカバーすることを定量的・定性的に示す。

Traditional morphable face models provide fine-grained control over expression but cannot easily capture geometric and appearance details. Neural volumetric representations approach photo-realism but are hard to animate and do not generalize well to unseen expressions. To tackle this problem, we propose IMavatar (Implicit Morphable avatar), a novel method for learning implicit head avatars from monocular videos. Inspired by the fine-grained control mechanisms afforded by conventional 3DMMs, we represent the expression- and pose-related deformations via learned blendshapes and skinning fields. These attributes are pose-independent and can be used to morph the canonical geometry and texture fields given novel expression and pose parameters. We employ ray tracing and iterative root-finding to locate the canonical surface intersection for each pixel. A key contribution is our novel analytical gradient formulation that enables end-to-end training of IMavatars from videos. We show quantitatively and qualitatively that our method improves geometry and covers a more complete expression space compared to state-of-the-art methods.
翻訳日:2021-12-16 11:29:07 公開日:2021-12-15
# 低光度画像強調のためのアテンションに基づく広義自己誘導ネットワーク

Attention based Broadly Self-guided Network for Low light Image Enhancement ( http://arxiv.org/abs/2112.06226v2 )

ライセンス: Link先を確認
Zilong Chen, Yaling Liang, Minghui Du(参考訳) During the past years,deep convolutional neural networks have achieved impressive success in low-light Image Enhancement.Existing deep learning methods mostly enhance the ability of feature extraction by stacking network structures and deepening the depth of the network.which causes more runtime cost on single image.In order to reduce inference time while fully extracting local features and global features.Inspired by SGN,we propose a Attention based Broadly self-guided network (ABSGN) for real world low-light image Enhancement.such a broadly strategy is able to handle the noise at different exposures.The proposed network is validated by many mainstream benchmark.Additional experimental results show that the proposed network outperforms most of state-of-the-art low-light image Enhancement solutions.

During the past years,deep convolutional neural networks have achieved impressive success in low-light Image Enhancement.Existing deep learning methods mostly enhance the ability of feature extraction by stacking network structures and deepening the depth of the network.which causes more runtime cost on single image.In order to reduce inference time while fully extracting local features and global features.Inspired by SGN,we propose a Attention based Broadly self-guided network (ABSGN) for real world low-light image Enhancement.such a broadly strategy is able to handle the noise at different exposures.The proposed network is validated by many mainstream benchmark.Additional experimental results show that the proposed network outperforms most of state-of-the-art low-light image Enhancement solutions.
翻訳日:2021-12-16 11:28:47 公開日:2021-12-15
# HVH:ダイナミックヘアパフォーマンスキャプチャのためのハイブリッドニューラルネットワークボリューム表現学習

HVH: Learning a Hybrid Neural Volumetric Representation for Dynamic Hair Performance Capture ( http://arxiv.org/abs/2112.06904v2 )

ライセンス: Link先を確認
Ziyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Michael Zollhoefer, Jessica Hodgins, Christoph Lassner(参考訳) 生命のような髪の捕獲やレンダリングは、幾何学的な構造、複雑な身体的相互作用、非自明な視覚的な外観などによって特に困難である。 本稿では,上記の問題について述べる。 1) 数千個のプリミティブを複合した, 新規な容積的な毛髪表現を用いる。 各プリミティブは、ニューラルレンダリングの最新技術に基づいて構築することで、効率的かつ現実的にレンダリングすることができる。 2) 信頼性の高い制御信号を得るためには, 毛髪をストランドレベルで追跡する新しい方法を提案する。 計算作業を管理できるように、ガイドヘアと古典的なテクニックを使って、それらを密集したヘアフードに拡張します。 3)モデルの時間的一貫性と一般化能力を向上するために,体積線マーチングを用いた多視点光流による表現の3次元シーンフローをさらに最適化する。 提案手法は,記録されたマルチビューシーケンスのリアルなレンダリングを生成するだけでなく,新しい制御信号を提供することで,新しいヘア構成のレンダリングを生成する。 本手法をビューポイント合成とdivableアニメーションに関する既存の研究と比較し,最新の結果を得た。 プロジェクトのwebサイトはhttps://ziyanw1.github.io/hvh/。

Capturing and rendering life-like hair is particularly challenging due to its fine geometric structure, the complex physical interaction and its non-trivial visual appearance.Yet, hair is a critical component for believable avatars. In this paper, we address the aforementioned problems: 1) we use a novel, volumetric hair representation that is com-posed of thousands of primitives. Each primitive can be rendered efficiently, yet realistically, by building on the latest advances in neural rendering. 2) To have a reliable control signal, we present a novel way of tracking hair on the strand level. To keep the computational effort manageable, we use guide hairs and classic techniques to expand those into a dense hood of hair. 3) To better enforce temporal consistency and generalization ability of our model, we further optimize the 3D scene flow of our representation with multi-view optical flow, using volumetric ray marching. Our method can not only create realistic renders of recorded multi-view sequences, but also create renderings for new hair configurations by providing new control signals. We compare our method with existing work on viewpoint synthesis and drivable animation and achieve state-of-the-art results. Please check out our project website at https://ziyanw1.github.io/hvh/.
翻訳日:2021-12-16 11:27:38 公開日:2021-12-15